Термин глоссария

Реward model

Реward model — модель-оценщик, которая присваивает численное значение качества ответа, помогая обучать основную модель через сигнал вознаграждения.

Определение

Реward model — это отдельная нейросетевая модель, обученная оценивать ответы другой модели и выдавать численную оценку качества. В процессе RLHF reward model выступает источником сигнала вознаграждения: она определяет, каким должен быть «хороший» ответ, и направляет обновление политики основной модели.

Реward model не генерирует текст сама по себе — её задача заключается в сравнении вариантов, выявлении предпочтительных ответов и формировании градиента, по которому обучается LLM.

Как работает

Реward model принимает на вход:

запрос пользователя,
ответ модели-кандидата (или несколько ответов),
дополнительный контекст, если требуется.

На выходе она выдаёт численную оценку — чем выше значение, тем более предпочтительным считается ответ. Эта оценка используется в методах оптимизации политики, чаще всего PPO, для корректировки поведения основной модели.

Стандартный процесс построения reward model:

сбор парных сравнений ответов (human preference data),
обучение модели различать лучший и худший вариант,
калибровка выхода под стабильную шкалу оценок,
интеграция результата в RL-пайплайн.

Реward model может принимать вид value head внутри основной модели, но чаще это отдельная сеть, обученная на предпочтениях людей или другой модели.

Где применяется

RLHF — ключевая часть обучения моделей под человеческие предпочтения.
DPO — используется для формирования target signal.
RLAIF — когда вместо людей предпочтения формирует другая модель.
Фильтрация и ранжирование вариантов ответа.
Оптимизация reasoning — оценка промежуточных шагов.
Многоагентные системы, где требуется оценивать действия нескольких агентов.

Практические примеры использования

В RLHF reward model анализирует два ответа LLM и определяет, какой ближе к предпочтениям разметчиков. На этой основе формируется сигнал вознаграждения, по которому обновляется политика.

В задачах генерации текста reward model может ранжировать несколько вариантов, позволяя выбрать наиболее качественный или безопасный ответ.

В многоагентных средах reward model оценивает вклад конкретного агента в общее решение, что позволяет тренировать агентные цепочки.

В интерактивных продуктах reward model используется для фильтрации неподходящих ответов перед отдачей пользователю.

Ключевые свойства reward model

Preference-based learning — строится на сравнении реальных или синтетических предпочтений.
Скалярный вывод — результатом является одно число.
Совместимость с RL — формирует сигнал для обновления политики.
Гибкость — может учитывать безопасность, стиль, ясность или полезность.

Проблемы и ограничения

Ошибки в предпочтениях — плохие данные приводят к деградации поведения модели.
Реward hacking — модель может научиться «обманывать» reward model.
Смещение оценок — reward model повторяет предубеждения разметчиков.
Неустойчивость — неправильная калибровка приводит к прыжкам политики.
Высокая стоимость сбора данных — нужны качественные примеры предпочтений.

Преимущества и ограничения

Плюс: помогает выровнять поведение модели.
Плюс: позволяет обучать модели на субъективных критериях.
Плюс: делает возможным RLHF и схожие процедуры.
Плюс: улучшает качество reasoning в сложных задачах.
Минус: требует сложной и дорогой разметки.
Минус: чувствительна к смещениям и ошибкам данных.
Минус: может приводить к чрезмерно осторожному поведению.
Минус: зависит от корректного построения шкалы вознаграждений.

Связанные термины

RLHF
DPO
PPO
Value head
Реinforcement learning
Human preference data
Реward shaping

Категория термина

Обучение и дообучение

Экосистемы