Reward model в обучении моделей

Термин глоссария

Reward model


Reward model — модель-оценщик, которая присваивает численное значение качества ответа, помогая обучать основную модель через сигнал вознаграждения.

Определение

Reward model — это отдельная нейросетевая модель, обученная оценивать ответы другой модели и выдавать численную оценку качества. В процессе RLHF reward model выступает источником сигнала вознаграждения: она определяет, каким должен быть «хороший» ответ, и направляет обновление политики основной модели.

Reward model не генерирует текст сама по себе — её задача заключается в сравнении вариантов, выявлении предпочтительных ответов и формировании градиента, по которому обучается LLM.

Как работает

Reward model принимает на вход:

  • запрос пользователя,
  • ответ модели-кандидата (или несколько ответов),
  • дополнительный контекст, если требуется.

На выходе она выдаёт численную оценку — чем выше значение, тем более предпочтительным считается ответ. Эта оценка используется в методах оптимизации политики, чаще всего PPO, для корректировки поведения основной модели.

Стандартный процесс построения reward model:

  • сбор парных сравнений ответов (human preference data),
  • обучение модели различать лучший и худший вариант,
  • калибровка выхода под стабильную шкалу оценок,
  • интеграция результата в RL-пайплайн.

Reward model может принимать вид value head внутри основной модели, но чаще это отдельная сеть, обученная на предпочтениях людей или другой модели.

Где применяется

  • RLHF — ключевая часть обучения моделей под человеческие предпочтения.
  • DPO — используется для формирования target signal.
  • RLAIF — когда вместо людей предпочтения формирует другая модель.
  • Фильтрация и ранжирование вариантов ответа.
  • Оптимизация reasoning — оценка промежуточных шагов.
  • Многоагентные системы, где требуется оценивать действия нескольких агентов.

Практические примеры использования

В RLHF reward model анализирует два ответа LLM и определяет, какой ближе к предпочтениям разметчиков. На этой основе формируется сигнал вознаграждения, по которому обновляется политика.

В задачах генерации текста reward model может ранжировать несколько вариантов, позволяя выбрать наиболее качественный или безопасный ответ.

В многоагентных средах reward model оценивает вклад конкретного агента в общее решение, что позволяет тренировать агентные цепочки.

В интерактивных продуктах reward model используется для фильтрации неподходящих ответов перед отдачей пользователю.

Ключевые свойства reward model

  • Preference-based learning — строится на сравнении реальных или синтетических предпочтений.
  • Скалярный вывод — результатом является одно число.
  • Совместимость с RL — формирует сигнал для обновления политики.
  • Гибкость — может учитывать безопасность, стиль, ясность или полезность.

Проблемы и ограничения

  • Ошибки в предпочтениях — плохие данные приводят к деградации поведения модели.
  • Reward hacking — модель может научиться «обманывать» reward model.
  • Смещение оценок — reward model повторяет предубеждения разметчиков.
  • Неустойчивость — неправильная калибровка приводит к прыжкам политики.
  • Высокая стоимость сбора данных — нужны качественные примеры предпочтений.

Преимущества и ограничения

  • Плюс: помогает выровнять поведение модели.
  • Плюс: позволяет обучать модели на субъективных критериях.
  • Плюс: делает возможным RLHF и схожие процедуры.
  • Плюс: улучшает качество reasoning в сложных задачах.
  • Минус: требует сложной и дорогой разметки.
  • Минус: чувствительна к смещениям и ошибкам данных.
  • Минус: может приводить к чрезмерно осторожному поведению.
  • Минус: зависит от корректного построения шкалы вознаграждений.

Связанные термины

  • RLHF
  • DPO
  • PPO
  • Value head
  • Reinforcement learning
  • Human preference data
  • Reward shaping

Категория термина

Обучение и дообучение