NVIDIA B300

NVIDIA B300
Análisis de la tarjeta gráfica NVIDIA B300

NVIDIA B300: ¿por qué Blackwell Ultra obtuvo 288 GB HBM3E?

NVIDIA B300 es un acelerador de centro de datos de la generación Blackwell Ultra. La principal diferencia con el B200 es el aumento en el volumen de memoria: 288 GB HBM3E en lugar de 192 GB. Para grandes modelos de IA, este incremento puede ser más crucial que el rendimiento máximo, ya que un contexto largo y solicitudes paralelas rápidamente agotan la memoria.

Los grandes modelos de lenguaje necesitan almacenar no solo pesos, sino también datos intermedios, incluyendo la KV-cache. Cuanto más largo es la solicitud, más pasos de razonamiento hay y mayor es la carga paralela, más rápido se consume el HBM. El B300 está diseñado para LLM grandes, modelos MoE, documentos largos e inferencia con un gran número de solicitudes simultáneas.

¿Qué es NVIDIA B300?

El B300 pertenece a la familia Blackwell Ultra, una versión mejorada de Blackwell para servidores e infraestructura de IA. No es una tarjeta gráfica de consumo ni un acelerador para estaciones de trabajo normales. Su lugar está en centros de datos, sistemas DGX y plataformas de estanterías de nivel GB300 NVL72.

Es importante no confundir los nombres. B300 es el propio acelerador. DGX B300 es un servidor NVIDIA con ocho de estas GPU. GB300 NVL72 es un sistema de nivel de rack completo, donde decenas de GPU Blackwell Ultra se combinan mediante un rápido intercambio NVLink.

El B300 debe considerarse no como una placa única, sino como parte de una plataforma. NVIDIA no solo vende GPU, sino también un conjunto de NVLink, NVSwitch, soluciones de red, CUDA, TensorRT-LLM y configuraciones de servidor listas para usar.

La principal mejora: 288 GB HBM3E

El B300 tiene hasta 288 GB HBM3E por GPU. Esta es una característica clave para la inferencia de grandes modelos de lenguaje. El B200 tiene un volumen de memoria menor: hasta 192 GB, por lo que el aumento en el B300 no es formal, sino notable para cargas reales: más espacio para el modelo, contexto largo y solicitudes paralelas.

La KV-cache es especialmente importante. Son datos que el modelo almacena durante la generación para no recalcular todo el contexto anterior de nuevo. Cuanto más largo es el diálogo, documento o cadena de razonamiento, más memoria ocupa esta caché. Si se atiende a muchos usuarios simultáneamente, la carga en el HBM crece aún más rápido.

Los 96 GB adicionales de memoria en comparación con el B200 pueden ofrecer más beneficios que el aumento en los bloques de cálculo. Permiten mantener más datos en la memoria de la GPU, fragmentando el modelo entre aceleradores con menor frecuencia y gastando menos tiempo en intercambio. Para un centro de datos, esto afecta la latencia de respuesta, el número de solicitudes simultáneas y el costo de generación.

Por qué el B300 es importante para el contexto largo y el razonamiento

La inferencia en IA se está volviendo más pesada. Antes, una solicitud típica al modelo a menudo era corta: pregunta - respuesta. Ahora, los modelos trabajan con documentos grandes, bases de código, herramientas y tareas que requieren realizar varios pasos de razonamiento. Estos escenarios crean más datos intermedios y aumentan la carga en la memoria.

Por eso, el B300 no parece ser simplemente una versión acelerada del B200, sino un siguiente paso para Blackwell hacia una inferencia masiva. El H200 fue un fuerte acelerador de la generación Hopper. El B200 representó el primer gran salto hacia Blackwell. El B300 refuerza esta línea a través de un mayor volumen de HBM y una mejor orientación al contexto largo.

Para tales tareas, la comparación solo por TFLOPS poco explica. Lo que es más importante es: cuántos usuarios se pueden atender en una GPU, cuánto contexto puede soportar el sistema y cuánto cuesta una respuesta final.

FP4 y NVFP4: rendimiento para la inferencia

Para el B300, las métricas FP32 habituales son secundarias. La principal área de este acelerador son los Tensor Cores y los cálculos en baja precisión: FP8, FP4 y el formato patentado NVFP4. Aquí es donde NVIDIA intenta reducir el costo de la inferencia.

La baja precisión reduce el volumen de datos y acelera los cálculos. Si el modelo se puede ejecutar eficazmente en FP4 sin pérdida significativa de calidad, el centro de datos recibe más tokens por segundo con la misma infraestructura. Por lo tanto, el B300 debe evaluarse no como una GPU universal, sino como un acelerador para modelos optimizados para tales formatos.

El hardware trabaja junto con el stack de software. CUDA, TensorRT-LLM, Transformer Engine y optimizaciones listas para LLM ayudan a obtener un rendimiento real, y no solo buenos números en las especificaciones.

¿Cómo se diferencia el B300 del B200 y H200?

El B300 no comienza una nueva arquitectura después del B200. Es una evolución de Blackwell con un enfoque más fuerte en la memoria y la inferencia. La principal diferencia con el B200 es que cuenta con 288 GB HBM3E en lugar de 192 GB. Para el contexto largo, la KV-cache y la atención paralela a las solicitudes, tal aumento puede ser decisivo.

La diferencia con el H200 es más profunda. El H200 pertenece a la generación Hopper y también fue diseñado para tareas pesadas de IA, pero el B300 avanza hacia Blackwell Ultra: mayores posibilidades para baja precisión, mayor densidad de inferencia y mejor escalabilidad dentro de las nuevas plataformas de servidor NVIDIA.

Por lo tanto, el B300 debe ser visto no como un simple cambio de acelerador en el servidor, sino como parte de la transición del entrenamiento de modelos a su uso continuo. El entrenamiento es una etapa costosa, pero limitada en el tiempo. La inferencia funciona continuamente y afecta más rápidamente a los gastos.

DGX B300 y GB300 NVL72

El DGX B300 muestra cómo NVIDIA ve este acelerador en la práctica. No es un conjunto de placas individuales, sino un servidor de IA completo con ocho B300, un gran volumen de memoria de GPU, una interconexión rápida y interfaces de red para clústeres.

El GB300 NVL72 representa el siguiente nivel: un rack con decenas de GPU Blackwell Ultra y CPU Grace. En un sistema así, el B300 opera como un elemento de la plataforma de computación general. Para grandes modelos, esto es crucial: cuanto más rápido las GPU intercambian datos, menos tiempo de inactividad tienen los bloques de cálculo y más eficientemente se utiliza el costoso hardware.

En cargas de trabajo de IA grandes, lo que importa no es solo un número en las especificaciones, sino la escalabilidad estable de todo el sistema. Por lo tanto, NVIDIA promueve no solo GPU, sino también servidores y racks listos para usar.

Competencia: AMD cerca en hardware, NVIDIA más fuerte en la plataforma

El principal competidor del B300 es el AMD Instinct MI355X. También está diseñado para cargas de IA pesadas y ofrece un gran volumen de HBM3E. En características individuales, AMD ya no se puede considerar un jugador muy rezagado en hardware.

Pero en los centros de datos no solo importa la memoria. A grandes clientes les importan el stack de software, soporte para modelos populares, escalabilidad entre GPUs y disponibilidad de soluciones de servidor listas. NVIDIA tiene una posición fuerte aquí gracias a CUDA, TensorRT-LLM, Transformer Engine, NVLink/NVSwitch y una gran cantidad de optimizaciones para la inferencia LLM.

AMD puede ser atractiva donde el precio, la apertura y la reducción de la dependencia de NVIDIA son importantes. Pero si las empresas necesitan una infraestructura lo más predecible posible para grandes modelos, el B300 parece ser una opción más evidente.

Limitaciones del B300

El B300 es un acelerador potente, pero complicado de operar. No debe evaluarse independientemente de la alimentación, refrigeración, red y costo del rack. A este nivel, la infraestructura impacta directamente en el costo total de propiedad.

Para un laboratorio pequeño, el B300 puede ser excesivo. Sus ventajas se revelan donde hay modelos grandes, una carga constante de inferencia, un stack optimizado y tareas que realmente utilizan FP4, HBM y un intercambio rápido entre GPUs.

Hay también un matiz estratégico: el B300 es una mejora de Blackwell, no la última generación de NVIDIA. La compañía ya está preparando arquitecturas futuras, por lo que el B300 es interesante como la versión de alta gama de Blackwell Ultra para el ciclo más próximo de infraestructura de IA.

Conclusión

El NVIDIA B300 es importante no solo por una cifra récord, sino por la combinación de 288 GB HBM3E, alta ancho de banda de memoria, FP4/NVFP4 y escalabilidad a través de la plataforma NVIDIA. Es un acelerador para tareas donde no solo importa el precio del chip, sino también el costo de la respuesta, la latencia y el número de solicitudes por rack.

El B300 no es necesario para todos. Para cálculos comunes, es demasiado caro y especializado. Pero para nubes, empresas de IA y grandes centros de datos, es uno de los aceleradores clave de la generación Blackwell Ultra. Muestra un cambio en el mercado: ya no importa solo la GPU individual, sino un sistema completo que atiende de manera estable grandes modelos bajo carga real.

Básico

Nombre de Etiqueta
NVIDIA
Plataforma
Desktop
Fecha de Lanzamiento
September 2025
Nombre del modelo
B300
Generación
Server Blackwell
Reloj base
1665 MHz
Reloj de impulso
2600 MHz
Interfaz de bus
PCIe 5.0 x16
Transistores
104 billion
Núcleos tensor
?
Los Tensor Cores son unidades de procesamiento especializadas diseñadas específicamente para el aprendizaje profundo, proporcionando un rendimiento de entrenamiento e inferencia más alto en comparación con el entrenamiento FP32. Permiten cálculos rápidos en áreas como la visión por computadora, el procesamiento del lenguaje natural, el reconocimiento de voz, la conversión de texto a voz y las recomendaciones personalizadas. Las dos aplicaciones más destacadas de los Tensor Cores son DLSS (Deep Learning Super Sampling) y AI Denoiser para la reducción de ruido.
640
TMUs
?
Las unidades de mapeo de texturas (TMUs) funcionan como componentes de la GPU, capaces de rotar, escalar y distorsionar imágenes binarias, para luego colocarlas como texturas sobre cualquier plano de un modelo 3D dado. Este proceso se llama mapeo de texturas.
640
Fundición
TSMC
Tamaño proceso
5 nm
Arquitectura
Blackwell Ultra

Especificaciones de Memoria

Tamaño de memoria
144GB
Tipo de memoria
HBM3e
Bus de memoria
?
La anchura del bus de memoria se refiere al número de bits de datos que la memoria de video puede transferir en un solo ciclo de reloj. Cuanto mayor sea la anchura del bus, mayor será la cantidad de datos que se pueden transmitir instantáneamente, lo que lo convierte en uno de los parámetros cruciales de la memoria de video. El ancho de banda de memoria se calcula como: Ancho de banda de memoria = Frecuencia de memoria x Anchura de bus de memoria / 8. Por lo tanto, cuando las frecuencias de memoria son similares, la anchura del bus de memoria determinará el tamaño del ancho de banda de memoria.
4096bit
Reloj de memoria
2000 MHz
Ancho de banda
?
La "ancho de banda de memoria" se refiere a la tasa de transferencia de datos entre el chip gráfico y la memoria de video. Se mide en bytes por segundo, y la fórmula para calcularlo es: ancho de banda de memoria = frecuencia de trabajo × ancho de bus de memoria / 8 bits.
4.10TB/s

Pantalla y multimedia

Salidas
No outputs

Rendimiento teórico

Tasa de píxeles
?
La tasa de llenado de píxeles se refiere al número de píxeles que una unidad de procesamiento gráfico (GPU) puede renderizar por segundo, medida en MPíxeles/s (millones de píxeles por segundo) o GPíxeles/s (miles de millones de píxeles por segundo). Es la métrica más comúnmente utilizada para evaluar el rendimiento de procesamiento de píxeles de una tarjeta gráfica.
62.40 GPixel/s
Tasa de texturas
?
La tasa de llenado de texturas se refiere al número de elementos del mapa de textura (texels) que una GPU puede asignar a píxeles en un solo segundo.
1664.0 GTexel/s
FP16 (mitad)
?
Una métrica importante para medir el rendimiento de la GPU es la capacidad de cómputo de punto flotante. Los números de punto flotante de media precisión (16 bits) se utilizan para aplicaciones como el aprendizaje automático, donde se acepta una menor precisión. Los números de punto flotante de precisión simple (32 bits) se utilizan para tareas comunes de procesamiento multimedia y gráfico, mientras que los números de punto flotante de doble precisión (64 bits) son necesarios para la computación científica que requiere un amplio rango numérico y alta precisión.
426.0 TFLOPS
FP64 (doble)
?
Una métrica importante para medir el rendimiento de la GPU es la capacidad de cómputo de punto flotante. Los números de punto flotante de media precisión (16 bits) se utilizan para aplicaciones como el aprendizaje automático, donde se acepta una menor precisión. Los números de punto flotante de precisión simple (32 bits) se utilizan para tareas comunes de procesamiento multimedia y gráfico, mientras que los números de punto flotante de doble precisión (64 bits) son necesarios para la computación científica que requiere un amplio rango numérico y alta precisión.
1.664 TFLOPS
FP32 (flotante)
?
Una métrica importante para medir el rendimiento de la GPU es la capacidad de cómputo de punto flotante. Los números de punto flotante de media precisión (16 bits) se utilizan para aplicaciones como el aprendizaje automático, donde se acepta una menor precisión. Los números de punto flotante de precisión simple (32 bits) se utilizan para tareas comunes de procesamiento multimedia y gráfico, mientras que los números de punto flotante de doble precisión (64 bits) son necesarios para la computación científica que requiere un amplio rango numérico y alta precisión.
105.525 TFLOPS

Misceláneos

Cuenta de SM
?
Múltiples Procesadores de Transmisión (SP), junto con otros recursos, forman un Multiprocesador de Transmisión (SM), que también se conoce como el núcleo principal de una GPU. Estos recursos adicionales incluyen componentes como planificadores de bloques, registros y memoria compartida. El SM puede considerarse como el corazón de la GPU, similar a un núcleo de CPU, donde los registros y la memoria compartida son recursos escasos dentro del SM.
160
Unidades de sombreado
?
La unidad de procesamiento más fundamental es el Procesador de Secuencias (SP), donde se ejecutan instrucciones y tareas específicas. Las GPU realizan cómputo paralelo, lo que significa que varios SP trabajan simultáneamente para procesar tareas.
20480
Caché L1
256 KB (per SM)
Caché L2
50 MB
TDP
1400W
OpenCL Versión
3.0
CUDA
10.3
ROPs
?
La tubería de operaciones raster (ROPs) es principalmente responsable de manejar los cálculos de iluminación y reflexión en los juegos, así como de administrar efectos como el anti-aliasing (AA), alta resolución, humo y fuego. Cuanto más exigentes sean el anti-aliasing y los efectos de iluminación en un juego, mayores serán los requisitos de rendimiento para los ROPs; de lo contrario, puede resultar en una caída brusca en la velocidad de fotogramas.
24
PSU sugerida
1800 W

Clasificaciones

FP32 (flotante)
Puntaje
105.525 TFLOPS

Comparado con Otras GPU

FP32 (flotante) / TFLOPS
166.668 +57.9%
106.896 +1.3%
105.525
80.086 -24.1%
66.228 -37.2%

Comparaciones de GPU relacionadas