Главная / NVIDIA / NVIDIA B300: Производительность и характеристики

NVIDIA B300

Name: NVIDIA B300
Brand: NVIDIA

NVIDIA B300: зачем Blackwell Ultra получил 288 ГБ HBM3E

NVIDIA B300 - датацентровый ускоритель поколения Blackwell Ultra. Главное отличие от B200 - увеличенный объём памяти: 288 ГБ HBM3E вместо 192 ГБ. Для больших ИИ-моделей такой прирост может быть важнее пиковой производительности, потому что длинный контекст и параллельные запросы быстро упираются в память.

Большим языковым моделям нужно хранить не только веса, но и промежуточные данные, включая KV-cache. Чем длиннее запрос, чем больше шагов рассуждения и чем выше параллельная нагрузка, тем быстрее расходуется HBM. B300 рассчитан на крупные LLM, MoE-модели, длинные документы и инференс с большим числом одновременных запросов.

Что такое NVIDIA B300

B300 относится к семейству Blackwell Ultra - усиленной версии Blackwell для серверов и ИИ-инфраструктуры. Это не потребительская видеокарта и не ускоритель для обычной рабочей станции. Его место - дата-центры, DGX-системы и стоечные платформы уровня GB300 NVL72.

Важно не путать названия. B300 - сам ускоритель. DGX B300 - сервер NVIDIA с восемью такими GPU. GB300 NVL72 - система уровня целой стойки, где десятки Blackwell Ultra GPU объединяются быстрым NVLink-обменом.

B300 имеет смысл рассматривать не как одиночную плату, а как часть платформы. NVIDIA продаёт не только GPU, но и связку из NVLink, NVSwitch, сетевых решений, CUDA, TensorRT-LLM и готовых серверных конфигураций.

Главный апгрейд - 288 ГБ HBM3E

У B300 до 288 ГБ HBM3E на один GPU. Это ключевая характеристика для инференса больших языковых моделей. У B200 объём памяти ниже - до 192 ГБ, поэтому прирост у B300 не формальный, а заметный для реальных нагрузок: больше места под модель, длинный контекст и параллельные запросы.

Особенно важен KV-cache. Это данные, которые модель хранит во время генерации, чтобы не пересчитывать весь предыдущий контекст заново. Чем длиннее диалог, документ или цепочка рассуждений, тем больше памяти занимает этот кэш. Если одновременно обслуживается много пользователей, нагрузка на HBM растёт ещё быстрее.

Дополнительные 96 ГБ памяти относительно B200 могут дать больше пользы, чем прирост вычислительных блоков. Они позволяют держать больше данных в памяти самого GPU, реже разбивать модель между ускорителями и меньше тратить время на обмен. Для дата-центра это влияет на задержку ответа, число одновременных запросов и стоимость генерации.

Почему B300 важен для длинного контекста и рассуждений

ИИ-инференс становится тяжелее. Раньше типичный запрос к модели часто был коротким: вопрос - ответ. Теперь модели работают с большими документами, кодовыми базами, инструментами и задачами, где нужно выполнить несколько шагов рассуждения. Такие сценарии создают больше промежуточных данных и сильнее нагружают память.

Поэтому B300 выглядит не просто ускоренной версией B200, а следующим шагом Blackwell для массового инференса. H200 был сильным ускорителем поколения Hopper. B200 стал первым крупным переходом к Blackwell. B300 усиливает эту линию за счёт большего объёма HBM и лучшей ориентации на длинный контекст.

Для таких задач сравнение только по TFLOPS мало что объясняет. Важнее другое: сколько пользователей можно обслужить на один GPU, насколько длинный контекст выдержит система и сколько стоит готовый ответ.

FP4 и NVFP4: производительность для инференса

Для B300 вторичны привычные FP32-метрики. Основная зона этого ускорителя - Tensor Cores и вычисления в низкой точности: FP8, FP4 и фирменный формат NVFP4. Именно здесь NVIDIA пытается снизить стоимость инференса.

Низкая точность уменьшает объём данных и ускоряет расчёты. Если модель можно эффективно запускать в FP4 без заметной потери качества, дата-центр получает больше токенов в секунду при той же инфраструктуре. Поэтому B300 стоит оценивать не как универсальный GPU, а как ускоритель для моделей, оптимизированных под такие форматы.

Железо работает вместе с программным стеком. CUDA, TensorRT-LLM, Transformer Engine и готовые оптимизации под LLM помогают получить реальную производительность, а не только хорошие цифры в спецификациях.

Чем B300 отличается от B200 и H200

B300 не начинает новую архитектуру после B200. Это развитие Blackwell с более сильным упором на память и инференс. Главное отличие от B200 - 288 ГБ HBM3E вместо 192 ГБ. Для длинного контекста, KV-cache и параллельного обслуживания запросов такой прирост может быть решающим.

От H200 разница глубже. H200 относится к поколению Hopper и тоже был рассчитан на тяжёлые ИИ-задачи, но B300 переходит к Blackwell Ultra: больше возможностей для низкой точности, выше плотность инференса и лучшее масштабирование внутри новых серверных платформ NVIDIA.

Поэтому B300 стоит воспринимать не как обычную смену ускорителя в сервере, а как часть перехода от обучения моделей к их постоянной эксплуатации. Обучение - дорогой, но ограниченный по времени этап. Инференс работает постоянно и быстрее влияет на расходы.

DGX B300 и GB300 NVL72

DGX B300 показывает, как NVIDIA видит этот ускоритель на практике. Это не набор отдельных плат, а готовый ИИ-сервер с восемью B300, большим объёмом GPU-памяти, быстрым межсоединением и сетевыми интерфейсами для кластеров.

GB300 NVL72 - следующий уровень: стойка с десятками Blackwell Ultra GPU и Grace CPU. В такой системе B300 работает как элемент общей вычислительной платформы. Для больших моделей это важно: чем быстрее GPU обмениваются данными, тем меньше простаивают вычислительные блоки и тем эффективнее используется дорогое железо.

В крупных ИИ-нагрузках важнее не отдельная цифра в спецификациях, а стабильное масштабирование всей системы. Поэтому NVIDIA продвигает не только GPU, но и готовые серверы и стойки.

Конкуренты: AMD близко по железу, NVIDIA сильнее платформой

Главный конкурент для B300 - AMD Instinct MI355X. Он тоже рассчитан на тяжёлые ИИ-нагрузки и предлагает крупный объём HBM3E. По отдельным характеристикам AMD уже нельзя считать игроком, сильно отстающим по железу.

Но в дата-центрах решает не только память. Крупным заказчикам важны программный стек, поддержка популярных моделей, масштабирование между GPU и доступность готовых серверных решений. У NVIDIA здесь сильная позиция за счёт CUDA, TensorRT-LLM, Transformer Engine, NVLink/NVSwitch и большого числа оптимизаций под LLM-инференс.

AMD может быть привлекательна там, где важны цена, открытость и снижение зависимости от NVIDIA. Но если компании нужна максимально предсказуемая инфраструктура под большие модели, B300 выглядит более очевидным выбором.

Ограничения B300

B300 - мощный, но сложный в эксплуатации ускоритель. Его нельзя оценивать отдельно от питания, охлаждения, сети и стоимости стойки. На таком уровне инфраструктура напрямую влияет на итоговую стоимость владения.

Для небольшой лаборатории B300 может быть избыточным. Его преимущества раскрываются там, где есть крупные модели, постоянная инференс-нагрузка, оптимизированный стек и задачи, которые реально используют FP4, HBM и быстрый обмен между GPU.

Есть и стратегический нюанс: B300 - усиление Blackwell, а не последнее поколение NVIDIA. Компания уже готовит следующие архитектуры, поэтому B300 интересен как топовая версия Blackwell Ultra для ближайшего цикла ИИ-инфраструктуры.

Вывод

NVIDIA B300 важен не одной рекордной цифрой, а сочетанием 288 ГБ HBM3E, высокой пропускной способности памяти, FP4/NVFP4 и масштабирования через платформу NVIDIA. Это ускоритель для задач, где важны не только цена чипа, но и стоимость ответа, задержка и число запросов на стойку.

B300 не нужен всем. Для обычных вычислений он слишком дорог и специализирован. Но для облаков, ИИ-компаний и крупных дата-центров это один из ключевых ускорителей поколения Blackwell Ultra. Он показывает сдвиг рынка: важен уже не отдельный GPU, а готовая система, которая стабильно обслуживает большие модели под реальной нагрузкой.

Общая информация

Производитель

NVIDIA

Платформа

Desktop

Дата выпуска

September 2025

Название модели

B300

Поколение

Server Blackwell

Базоввая частота

1665 MHz

Boost Частота

2600 MHz

Интерфейс шины

PCIe 5.0 x16

Транзисторы

104 billion

Tensor ядра

Тензорные ядра — это специализированные процессоры, разработанные специально для глубокого обучения, обеспечивающие более высокую производительность обучения и вывода по сравнению с обучением FP32. Они позволяют выполнять быстрые вычисления в таких областях, как компьютерное зрение, обработка естественного языка, распознавание речи, преобразование текста в речь и персонализированные рекомендации. Два наиболее заметных применения тензорных ядер — это DLSS (Deep Learning Super Sampling) и AI Denoiser для снижения шума.

640

TMU

Блоки наложения текстур (TMU) служат компонентами графического процессора, которые способны вращать, масштабировать и искажать двоичные изображения, а затем размещать их в виде текстур на любой плоскости заданной трехмерной модели. Этот процесс называется отображением текстур.

640

Производитель

TSMC

Размер процесса

5 nm

Архитектура

Blackwell Ultra

Характеристики памяти

Объем памяти

144GB

Тип памяти

HBM3e

Шина памяти

Ширина шины памяти обозначает количество бит данных, которые видеопамять может передать за один такт. Чем больше ширина шины, тем больший объем данных может быть передан мгновенно, что делает ее одним из важнейших параметров видеопамяти. Пропускная способность памяти рассчитывается как: Пропускная способность памяти = Частота памяти x Ширина шины памяти / 8. Следовательно, если частоты памяти одинаковы, ширина шины памяти будет определять размер пропускной способности памяти.

4096bit

Частота памяти

2000 MHz

Пропускная способность

Пропускная способность памяти — это скорость передачи данных между графическим чипом и видеопамятью. Он измеряется в байтах в секунду, и формула для его расчета: пропускная способность памяти = рабочая частота × ширина шины памяти / 8 бит.

4.10TB/s

Дисплей и мультимедиа

Выходы

No outputs

Теоретическая производительность

Пиксельный филлрейт

Скорость заполнения пикселей — это количество пикселей, которые графический процессор (GPU) может визуализировать в секунду, измеряется в мегапикселях/с (миллион пикселей в секунду) или GPixels/s (миллиард пикселей в секунду). Это наиболее часто используемый показатель для оценки производительности обработки пикселей видеокарты.

62.40 GPixel/s

Текстурный филлрейт

Скорость заполнения текстуры — это количество элементов карты текстур (текселей), которые графический процессор может сопоставить с пикселями за одну секунду.

1664.0 GTexel/s

FP16 (half)

Важным показателем для измерения производительности графического процессора являются возможности вычислений с плавающей запятой. Числа с плавающей запятой половинной точности (16 бит) используются в таких приложениях, как машинное обучение, где допустима более низкая точность. Числа с плавающей запятой одинарной точности (32-битные) используются для обычных задач обработки мультимедиа и графики, а числа с плавающей запятой двойной точности (64-битные) необходимы для научных вычислений, требующих широкого числового диапазона и высокой точности.

426.0 TFLOPS

FP64 (double)

Важным показателем для измерения производительности графического процессора являются возможности вычислений с плавающей запятой. Числа с плавающей запятой двойной точности (64-битные) необходимы для научных вычислений, требующих широкого числового диапазона и высокой точности, а числа с плавающей запятой одинарной точности (32-битные) используются для обычных задач обработки мультимедиа и графики. Числа с плавающей запятой половинной точности (16 бит) используются в таких приложениях, как машинное обучение, где допустима более низкая точность.

1.664 TFLOPS

FP32 (float)

Важным показателем для измерения производительности графического процессора являются возможности вычислений с плавающей запятой. Числа с плавающей запятой одинарной точности (32-битные) используются для обычных задач обработки мультимедиа и графики, а числа с плавающей запятой двойной точности (64-битные) необходимы для научных вычислений, требующих широкого числового диапазона и высокой точности. Числа с плавающей запятой половинной точности (16 бит) используются в таких приложениях, как машинное обучение, где допустима более низкая точность.

105.525 TFLOPS

Другое

Потоковый мультипроцессор (SM)

Несколько потоковых процессоров (SP) вместе с другими ресурсами образуют потоковый мультипроцессор (SM), который также называется основным ядром графического процессора. Эти дополнительные ресурсы включают в себя такие компоненты, как планировщики деформации, регистры и общую память. SM можно считать сердцем графического процессора, аналогично ядру ЦП, при этом регистры и общая память являются дефицитными ресурсами внутри SM.

160

Блоки шейдинга

Самым фундаментальным процессором является потоковый процессор (SP), в котором выполняются определенные инструкции и задачи. Графические процессоры выполняют параллельные вычисления, что означает, что несколько процессоров SP работают одновременно для обработки задач.

20480

Кэш L1

256 KB (per SM)

Кэш L2

50 MB

TDP

1400W

Версия OpenCL

3.0

CUDA

10.3

ROP

Конвейер растровых операций (ROP) в первую очередь отвечает за расчеты освещения и отражений в играх, а также за управление такими эффектами, как сглаживание (AA), высокое разрешение, дым и огонь. Чем более требовательны к сглаживанию и световым эффектам в игре, тем выше требования к производительности для ROP; в противном случае это может привести к резкому падению частоты кадров.

Требуемый блок питания

1800 W

Бенчмарки

FP32 (float)

105.525 TFLOPS

По сравнению с другими GPU

FP32 (float) / TFLOPS

Instinct MI300X

166.668 +57.9%

GeForce RTX 5090 D V2

106.896 +1.3%