Batch size — один из ключевых параметров обучения. Он определяет, сколько примеров модель обрабатывает одновременно и напрямую влияет на скорость, стабильность и качество обучения.
Короткое определение
Batch size — это количество обучающих примеров, которые модель получает за один шаг обновления весов.
Подробное объяснение
Обучение нейросети — это циклы: подача данных, вычисление ошибки, обновление весов. Batch size определяет, сколько данных участвуют в одном таком цикле.
Малый batch size делает обучение «шумным», но менее требовательным к памяти. Большой batch size — более стабильным, но требует больше ресурсов.
В больших языковых моделях batch size может измеряться тысячами и даже десятками тысяч примеров — особенно при обучении на кластерах.
Оптимальный batch size зависит от: — размера модели; — характеристик GPU; — датасета; — используемого оптимизатора.
В RAG и поисковых системах batch size важен при создании эмбеддингов — так можно ускорить обработку больших массивов данных.
Примеры использования
- Обучение модели на GPU-кластере.
- Создание эмбеддингов для миллионов документов.
- Fine-tuning корпоративных моделей.
- Оптимизация скорости обучения.
- Подбор размера батча под VRAM.
Связанные термины
- Optimizer
- Loss-function
- Предобучение
- Эмбеддинги