Термин глоссария

Learning rate

Learning rate задаёт величину шага, с которым градиентный спуск обновляет параметры модели, влияя на скорость, стабильность и конечное качество обучения.

Определение

Learning rate — это коэффициент, определяющий, насколько сильно каждый шаг градиентного спуска изменяет параметры модели. Он напрямую влияет на динамику оптимизации: большие значения ускоряют обучение, но могут нарушить сходимость, слишком малые — делают процесс медленным и склонным к застреванию на плато.

В нейросетях learning rate часто считают главным гиперпараметром: его выбор влияет на формирование внутренних представлений модели, распределение внимания в трансформерах, качество эмбеддингов, устойчивость на больших датасетах и итоговую способность модели обобщать данные.

Как работает

Во время обновления весов параметр участвует в формуле:

W = W − lr × ∇L(W)

где W — веса модели, lr — learning rate, ∇L(W) — градиент функции потерь. Чем больше lr, тем сильнее сдвиг в сторону антиградиента.

Неправильный выбор значения меняет поведение оптимизации:

слишком большой шаг — веса прыгают вокруг минимума, могут разойтись;
слишком маленький — обучение деградирует по скорости, модель зависает на плоскостях;
переменный lr даёт более гибкую траекторию оптимизации;
адаптивные оптимизаторы используют свои оценки масштаба градиентов, но базовый коэффициент всё равно важен.

Распространённая стратегия — разогрев (warmup), когда lr постепенно растёт в начале обучения, стабилизируя градиенты больших архитектур. После разогрева lr изменяют по расписанию: линейное снижение, косинусный спад или ступенчатая схема.

Где применяется

Обучение LLM: подбор шага обновления для устойчивости при миллиардах параметров.
Fine-tuning: уменьшенный lr при адаптации моделей под доменные датасеты.
RAG-пайплайны: точная настройка lr при дообучении под конкретные запросы и терминологию.
CV-модели: регулировка шага при обучении свёрточных и vision-трансформерных архитектур.
ASR/TTS: контроль стабильности при работе с акустическими признаками.
RLHF: осторожное изменение lr для корректной адаптации под разметку предпочтений.

Практические примеры использования

В обучении больших языковых моделей выбор lr определяется масштабом параметров и пропускной способностью кластера. Для моделей уровня 7B–70B используют малые значения, чтобы предотвратить взрыв градиентов. Обучение включает warmup на первых итерациях, после чего lr плавно уменьшается по расписанию.

При fine-tuning берут lr значительно ниже, чем при первоначальном обучении. Например, модель адаптируется под юридические документы или технические инструкции: небольшой lr сохраняет структуру базовой модели и корректирует параметры аккуратно, не разрушая уже сформированные зависимости.

В задачах компьютерного зрения lr влияет на устойчивость формирования признаков. При слишком большом шаге ранние слои не успевают стабилизироваться, фильтры меняются хаотично и модель теряет способность выделять устойчивые черты.

В ASR-моделях высокий lr делает спектрограммы чувствительными к шуму, а низкий — удлиняет цикл обучения. Подходящие значения подбирают экспериментально: используют lr finder, кривые сходимости, мониторинг ошибок на валидации.

Преимущества и ограничения

Плюс: ключевой параметр, который позволяет контролировать динамику оптимизации.
Плюс: высокий lr ускоряет исследование пространства параметров на ранних этапах.
Плюс: низкий lr улучшает качество дообучения на сложных датасетах.
Минус: неправильный lr вызывает дивергенцию и потерю стабильности.
Минус: требует настройки под модель, датасет, размер батча и оптимизатор.
Минус: большой lr в сочетании с шумным стохастическим градиентом ведёт к осцилляциям.

Связанные термины

Gradient descent
Optimizer
Warmup
Learning rate schedule
Batch size
Adam
Stochastic Gradient Descent
Fine-tuning
Loss function

Категория термина

Обучение и дообучение

Экосистемы