Batch size: ключевой параметр обучения моделей

Термин глоссария

Batch size


Batch size — один из ключевых параметров обучения. Он определяет, сколько примеров модель обрабатывает одновременно и напрямую влияет на скорость, стабильность и качество обучения.

Короткое определение

Batch size — это количество обучающих примеров, которые модель получает за один шаг обновления весов.

Подробное объяснение

Обучение нейросети — это циклы: подача данных, вычисление ошибки, обновление весов. Batch size определяет, сколько данных участвуют в одном таком цикле.

Малый batch size делает обучение «шумным», но менее требовательным к памяти. Большой batch size — более стабильным, но требует больше ресурсов.

В больших языковых моделях batch size может измеряться тысячами и даже десятками тысяч примеров — особенно при обучении на кластерах.

Оптимальный batch size зависит от: — размера модели; — характеристик GPU; — датасета; — используемого оптимизатора.

В RAG и поисковых системах batch size важен при создании эмбеддингов — так можно ускорить обработку больших массивов данных.

Примеры использования

  • Обучение модели на GPU-кластере.
  • Создание эмбеддингов для миллионов документов.
  • Fine-tuning корпоративных моделей.
  • Оптимизация скорости обучения.
  • Подбор размера батча под VRAM.

Связанные термины

  • Optimizer
  • Loss-function
  • Предобучение
  • Эмбеддинги

Категория термина

Обучение и дообучение