Термин глоссария

Memory bandwidth

Memory bandwidth — пропускная способность памяти, определяющая скорость передачи данных между памятью и вычислительными блоками устройства.

Определение

Memory bandwidth — это показатель, определяющий, с какой максимальной скоростью устройство может передавать данные между памятью и вычислительными ресурсами. В GPU и других устройствах, используемых для обучения и запуска моделей, memory bandwidth является одним из ключевых параметров производительности.

Даже очень мощный GPU может работать неэффективно, если пропускная способность памяти ограничена: вычислительные блоки простаивают, ожидая загрузки данных. Для современных моделей, где обработка тензоров требует постоянного доступа к большому количеству весов и активаций, этот показатель становится определяющим.

Как работает

Memory bandwidth зависит от архитектуры памяти устройства: ширины шины, частоты, типа памяти (HBM, GDDR6X, LPDDR5), количества каналов и эффективности контроллера. Пропускная способность измеряется в GB/s или TB/s и показывает максимальный объём данных, который система может передать за секунду.

Ключевые факторы, определяющие memory bandwidth:

Тип памяти — HBM3 обеспечивает кратно более высокую пропускную способность, чем GDDR-память.
Ширина шины — чем больше бит, тем выше объём передаваемых данных.
Частота памяти — влияет на скорость циклов передачи.
Архитектура кэшей — уменьшает нагрузку на внешнюю память.
Оптимизация доступа — влияет на фактическую, а не теоретическую пропускную способность.

Большие языковые модели особенно чувствительны к memory bandwidth, поскольку при вычислении attention и матричных операций требуется постоянное чтение и запись больших тензоров.

Где применяется

Обучение больших языковых моделей на GPU и TPU.
Инференс моделей с большим числом параметров.
Выполнение attention-операций в Transformer-архитектурах.
Работа высокопроизводительных вычислительных систем.
Оптимизация тензорных библиотек и фреймворков.
Анализ узких мест в многоузловых тренинговых системах.

Практические примеры использования

При обучении моделей веса постоянно загружаются из памяти в вычислительные блоки. Если memory bandwidth недостаточно, GPU простаивает, а время эпохи увеличивается. Наиболее яркий пример — обучение моделей на старых GPU, где низкая пропускная способность памяти ограничивает использование тензорных ядер.

В задачах инференса, особенно при больших контекстах, внимание требует загрузки больших матриц ключей и значений. Когда доступ к памяти медленный, latency увеличивается даже при высоком количестве FLOPs.

В системах с мульти-GPU memory bandwidth определяет эффективность распределённого обучения: узкие места в памяти приводят к дисбалансу загрузки ускорителей.

Ключевые свойства memory bandwidth

Ограничивает производительность — даже большая мощность вычислений бесполезна без достаточной пропускной способности.
Зависит от архитектуры памяти — переход на HBM даёт кратный рост производительности.
Влияет на масштабируемость — при распределённом обучении загрузка памяти может стать главным узким местом.
Определяет эффективность attention — операции требуют больших объёмов данных.

Проблемы и ограничения

Аппаратные ограничения — bandwidth растёт медленнее, чем вычислительная мощность.
Стоимость HBM — ускорители с высокой пропускной способностью памяти намного дороже.
Зависимость от оптимизации — без эффективного доступа фактический bandwidth ниже теоретического.
Блокировка при больших моделях — пропускная способность становится главным узким местом.

Преимущества и ограничения

Плюс: определяет реальную скорость вычислений.
Плюс: влияет на эффективность всех операций с тензорами.
Плюс: критичен для attention и матричных умножений.
Плюс: позволяет раскрыть потенциал тензорных ядер.
Минус: ограничивается архитектурой и физикой.
Минус: плохо масштабируется без дорогих технологий памяти.
Минус: требует оптимизации доступа с помощью кэшей и фьюзинга операций.
Минус: становится узким местом при работе с большими моделями.

Связанные термины

HBM
GDDR
Tensor cores
Memory latency
Parallelism
Attention mechanisms
Inference performance

Категория термина

Аппаратное ускорение

Экосистемы