Термин глоссария

Реinforcement learning

Реinforcement learning — метод обучения, при котором агент учится действовать в среде, получая вознаграждение за полезные решения и штрафы за ошибки.

Определение

Реinforcement learning (обучение с подкреплением) — это парадигма машинного обучения, в которой агент выбирает действия, наблюдает реакцию среды и получает сигнал вознаграждения. Цель — выработать стратегию поведения (policy), максимизирующую суммарное вознаграждение.

В отличие от обучения с учителем, где известен правильный ответ, reinforcement learning работает с ситуациями, где модель сама должна исследовать пространство действий, фиксировать последствия и строить оптимальное поведение.

RL используется как для традиционных задач управления, так и для обучения больших моделей — например, в RLHF и связанной настройке поведения LLM.

Как работает

Реinforcement learning основан на взаимодействии между четырьмя компонентами:

Agent — обучаемая система.
Environment — окружение, в котором действует агент.
Реward — сигнал, указывающий на полезность действия.
State — текущее наблюдение агента.

Процесс взаимодействия:

агент наблюдает состояние среды;
выбирает действие по текущей политике;
среда выдаёт новое состояние и вознаграждение;
агент обновляет стратегию, чтобы улучшать будущие решения.

Обновление происходит либо через оценку ценности состояний (value-based), либо через оптимизацию самой политики (policy-based). В современных системах часто используется гибридный подход — actor–critic.

Где применяется

Управление роботами и физическими системами.
Оптимизация процессов: логистика, маршруты, потоки.
Игры: от Atari до сложных 3D-сред.
Автоматизация промышленности и операций.
Финансовые стратегии и торговые симуляторы.
Настройка поведения LLM (RLHF, RLAIF).
Многоагентные системы и распределённые среды.

Практические примеры использования

В робототехнике агенты учатся ходить, держать баланс, хватать предметы или строить траекторию движения. Вознаграждение формируется на основе точности движения, экономии энергии или скорости выполнения.

В играх RL позволяет моделям находить стратегии, превосходящие человеческие. Алгоритмы исследуют состояние мира, пробуют комбинации действий и учатся применять оптимальную стратегию.

В больших языковых моделях RL используется в процессах управления поведением: RLHF корректирует ответы в соответствии с предпочтениями людей. Модель получает сигнал вознаграждения от другой модели («reward model»), которая оценивает качество ответа.

В задачах оптимизации RL применяется для настройки параметров систем: маршрутизация запросов, работа кэшей, адаптивные распределители нагрузки.

Ключевые методы reinforcement learning

Q-learning — оценка ценности действий в состояниях.
Deep Q-Network (DQN) — применение нейросетей для аппроксимации функции ценности.
Policy gradient — прямая оптимизация вероятностной политики.
Actor–critic — разделение оценки политики и функции ценности.
PPO — наиболее распространённый метод для RLHF.
Multi-agent RL — обучение нескольких взаимодействующих агентов.
Model-based RL — моделирование среды и планирование.

Проблемы и ограничения RL

Разреженные вознаграждения — агенту сложно учиться, если полезный сигнал встречается редко.
Избыточное исследование — стоимость обучения в сложных средах становится высокой.
Нестабильность обучения — необходимость балансировать exploitation и exploration.
Чувствительность к формулировке вознаграждения — неверный reward вызывает ошибочные стратегии.
Зависимость от симуляторов — для многих задач требуется сложная среда.
Проблемы масштабирования — рост состояния мира делает обучение дорогим.