Learning rate: ключевой параметр обучения моделей

Термин глоссария

Learning rate


Learning rate задаёт величину шага, с которым градиентный спуск обновляет параметры модели, влияя на скорость, стабильность и конечное качество обучения.

Определение

Learning rate — это коэффициент, определяющий, насколько сильно каждый шаг градиентного спуска изменяет параметры модели. Он напрямую влияет на динамику оптимизации: большие значения ускоряют обучение, но могут нарушить сходимость, слишком малые — делают процесс медленным и склонным к застреванию на плато.

В нейросетях learning rate часто считают главным гиперпараметром: его выбор влияет на формирование внутренних представлений модели, распределение внимания в трансформерах, качество эмбеддингов, устойчивость на больших датасетах и итоговую способность модели обобщать данные.

Как работает

Во время обновления весов параметр участвует в формуле:

W = W − lr × ∇L(W)

где W — веса модели, lr — learning rate, ∇L(W) — градиент функции потерь. Чем больше lr, тем сильнее сдвиг в сторону антиградиента.

Неправильный выбор значения меняет поведение оптимизации:

  • слишком большой шаг — веса прыгают вокруг минимума, могут разойтись;
  • слишком маленький — обучение деградирует по скорости, модель зависает на плоскостях;
  • переменный lr даёт более гибкую траекторию оптимизации;
  • адаптивные оптимизаторы используют свои оценки масштаба градиентов, но базовый коэффициент всё равно важен.

Распространённая стратегия — разогрев (warmup), когда lr постепенно растёт в начале обучения, стабилизируя градиенты больших архитектур. После разогрева lr изменяют по расписанию: линейное снижение, косинусный спад или ступенчатая схема.

Где применяется

  • Обучение LLM: подбор шага обновления для устойчивости при миллиардах параметров.
  • Fine-tuning: уменьшенный lr при адаптации моделей под доменные датасеты.
  • RAG-пайплайны: точная настройка lr при дообучении под конкретные запросы и терминологию.
  • CV-модели: регулировка шага при обучении свёрточных и vision-трансформерных архитектур.
  • ASR/TTS: контроль стабильности при работе с акустическими признаками.
  • RLHF: осторожное изменение lr для корректной адаптации под разметку предпочтений.

Практические примеры использования

В обучении больших языковых моделей выбор lr определяется масштабом параметров и пропускной способностью кластера. Для моделей уровня 7B–70B используют малые значения, чтобы предотвратить взрыв градиентов. Обучение включает warmup на первых итерациях, после чего lr плавно уменьшается по расписанию.

При fine-tuning берут lr значительно ниже, чем при первоначальном обучении. Например, модель адаптируется под юридические документы или технические инструкции: небольшой lr сохраняет структуру базовой модели и корректирует параметры аккуратно, не разрушая уже сформированные зависимости.

В задачах компьютерного зрения lr влияет на устойчивость формирования признаков. При слишком большом шаге ранние слои не успевают стабилизироваться, фильтры меняются хаотично и модель теряет способность выделять устойчивые черты.

В ASR-моделях высокий lr делает спектрограммы чувствительными к шуму, а низкий — удлиняет цикл обучения. Подходящие значения подбирают экспериментально: используют lr finder, кривые сходимости, мониторинг ошибок на валидации.

Преимущества и ограничения

  • Плюс: ключевой параметр, который позволяет контролировать динамику оптимизации.
  • Плюс: высокий lr ускоряет исследование пространства параметров на ранних этапах.
  • Плюс: низкий lr улучшает качество дообучения на сложных датасетах.
  • Минус: неправильный lr вызывает дивергенцию и потерю стабильности.
  • Минус: требует настройки под модель, датасет, размер батча и оптимизатор.
  • Минус: большой lr в сочетании с шумным стохастическим градиентом ведёт к осцилляциям.

Связанные термины

  • Gradient descent
  • Optimizer
  • Warmup
  • Learning rate schedule
  • Batch size
  • Adam
  • Stochastic Gradient Descent
  • Fine-tuning
  • Loss function

Категория термина

Обучение и дообучение