Learning rate задаёт величину шага, с которым градиентный спуск обновляет параметры модели, влияя на скорость, стабильность и конечное качество обучения.
Определение
Learning rate — это коэффициент, определяющий, насколько сильно каждый шаг градиентного спуска изменяет параметры модели. Он напрямую влияет на динамику оптимизации: большие значения ускоряют обучение, но могут нарушить сходимость, слишком малые — делают процесс медленным и склонным к застреванию на плато.
В нейросетях learning rate часто считают главным гиперпараметром: его выбор влияет на формирование внутренних представлений модели, распределение внимания в трансформерах, качество эмбеддингов, устойчивость на больших датасетах и итоговую способность модели обобщать данные.
Как работает
Во время обновления весов параметр участвует в формуле:
W = W − lr × ∇L(W)
где W — веса модели, lr — learning rate, ∇L(W) — градиент функции потерь. Чем больше lr, тем сильнее сдвиг в сторону антиградиента.
Неправильный выбор значения меняет поведение оптимизации:
- слишком большой шаг — веса прыгают вокруг минимума, могут разойтись;
- слишком маленький — обучение деградирует по скорости, модель зависает на плоскостях;
- переменный lr даёт более гибкую траекторию оптимизации;
- адаптивные оптимизаторы используют свои оценки масштаба градиентов, но базовый коэффициент всё равно важен.
Распространённая стратегия — разогрев (warmup), когда lr постепенно растёт в начале обучения, стабилизируя градиенты больших архитектур. После разогрева lr изменяют по расписанию: линейное снижение, косинусный спад или ступенчатая схема.
Где применяется
- Обучение LLM: подбор шага обновления для устойчивости при миллиардах параметров.
- Fine-tuning: уменьшенный lr при адаптации моделей под доменные датасеты.
- RAG-пайплайны: точная настройка lr при дообучении под конкретные запросы и терминологию.
- CV-модели: регулировка шага при обучении свёрточных и vision-трансформерных архитектур.
- ASR/TTS: контроль стабильности при работе с акустическими признаками.
- RLHF: осторожное изменение lr для корректной адаптации под разметку предпочтений.
Практические примеры использования
В обучении больших языковых моделей выбор lr определяется масштабом параметров и пропускной способностью кластера. Для моделей уровня 7B–70B используют малые значения, чтобы предотвратить взрыв градиентов. Обучение включает warmup на первых итерациях, после чего lr плавно уменьшается по расписанию.
При fine-tuning берут lr значительно ниже, чем при первоначальном обучении. Например, модель адаптируется под юридические документы или технические инструкции: небольшой lr сохраняет структуру базовой модели и корректирует параметры аккуратно, не разрушая уже сформированные зависимости.
В задачах компьютерного зрения lr влияет на устойчивость формирования признаков. При слишком большом шаге ранние слои не успевают стабилизироваться, фильтры меняются хаотично и модель теряет способность выделять устойчивые черты.
В ASR-моделях высокий lr делает спектрограммы чувствительными к шуму, а низкий — удлиняет цикл обучения. Подходящие значения подбирают экспериментально: используют lr finder, кривые сходимости, мониторинг ошибок на валидации.
Преимущества и ограничения
- Плюс: ключевой параметр, который позволяет контролировать динамику оптимизации.
- Плюс: высокий lr ускоряет исследование пространства параметров на ранних этапах.
- Плюс: низкий lr улучшает качество дообучения на сложных датасетах.
- Минус: неправильный lr вызывает дивергенцию и потерю стабильности.
- Минус: требует настройки под модель, датасет, размер батча и оптимизатор.
- Минус: большой lr в сочетании с шумным стохастическим градиентом ведёт к осцилляциям.
Связанные термины
- Gradient descent
- Optimizer
- Warmup
- Learning rate schedule
- Batch size
- Adam
- Stochastic Gradient Descent
- Fine-tuning
- Loss function