Reward model — модель-оценщик, которая присваивает численное значение качества ответа, помогая обучать основную модель через сигнал вознаграждения.
Определение
Reward model — это отдельная нейросетевая модель, обученная оценивать ответы другой модели и выдавать численную оценку качества. В процессе RLHF reward model выступает источником сигнала вознаграждения: она определяет, каким должен быть «хороший» ответ, и направляет обновление политики основной модели.
Reward model не генерирует текст сама по себе — её задача заключается в сравнении вариантов, выявлении предпочтительных ответов и формировании градиента, по которому обучается LLM.
Как работает
Reward model принимает на вход:
- запрос пользователя,
- ответ модели-кандидата (или несколько ответов),
- дополнительный контекст, если требуется.
На выходе она выдаёт численную оценку — чем выше значение, тем более предпочтительным считается ответ. Эта оценка используется в методах оптимизации политики, чаще всего PPO, для корректировки поведения основной модели.
Стандартный процесс построения reward model:
- сбор парных сравнений ответов (human preference data),
- обучение модели различать лучший и худший вариант,
- калибровка выхода под стабильную шкалу оценок,
- интеграция результата в RL-пайплайн.
Reward model может принимать вид value head внутри основной модели, но чаще это отдельная сеть, обученная на предпочтениях людей или другой модели.
Где применяется
- RLHF — ключевая часть обучения моделей под человеческие предпочтения.
- DPO — используется для формирования target signal.
- RLAIF — когда вместо людей предпочтения формирует другая модель.
- Фильтрация и ранжирование вариантов ответа.
- Оптимизация reasoning — оценка промежуточных шагов.
- Многоагентные системы, где требуется оценивать действия нескольких агентов.
Практические примеры использования
В RLHF reward model анализирует два ответа LLM и определяет, какой ближе к предпочтениям разметчиков. На этой основе формируется сигнал вознаграждения, по которому обновляется политика.
В задачах генерации текста reward model может ранжировать несколько вариантов, позволяя выбрать наиболее качественный или безопасный ответ.
В многоагентных средах reward model оценивает вклад конкретного агента в общее решение, что позволяет тренировать агентные цепочки.
В интерактивных продуктах reward model используется для фильтрации неподходящих ответов перед отдачей пользователю.
Ключевые свойства reward model
- Preference-based learning — строится на сравнении реальных или синтетических предпочтений.
- Скалярный вывод — результатом является одно число.
- Совместимость с RL — формирует сигнал для обновления политики.
- Гибкость — может учитывать безопасность, стиль, ясность или полезность.
Проблемы и ограничения
- Ошибки в предпочтениях — плохие данные приводят к деградации поведения модели.
- Reward hacking — модель может научиться «обманывать» reward model.
- Смещение оценок — reward model повторяет предубеждения разметчиков.
- Неустойчивость — неправильная калибровка приводит к прыжкам политики.
- Высокая стоимость сбора данных — нужны качественные примеры предпочтений.
Преимущества и ограничения
- Плюс: помогает выровнять поведение модели.
- Плюс: позволяет обучать модели на субъективных критериях.
- Плюс: делает возможным RLHF и схожие процедуры.
- Плюс: улучшает качество reasoning в сложных задачах.
- Минус: требует сложной и дорогой разметки.
- Минус: чувствительна к смещениям и ошибкам данных.
- Минус: может приводить к чрезмерно осторожному поведению.
- Минус: зависит от корректного построения шкалы вознаграждений.
Связанные термины
- RLHF
- DPO
- PPO
- Value head
- Reinforcement learning
- Human preference data
- Reward shaping