Термин глоссария

Value head

Value head — компонент модели, который оценивает ожидаемое качество ответа или действия, выдавая численную оценку полезности.

Определение

Value head — это дополнительный выход нейросети, который предсказывает количественную оценку состояния, ответа или действия. В задачах обучения с подкреплением он соответствует функции ценности (value function), а в современных языковых моделях его используют для оценки качества ответа, стабильности reasoning или соответствия заданным требованиям.

В архитектурах RLHF value head встроен в модель, чтобы оценивать «полезность» предложенного токена или последовательности. Эта оценка служит сигналом для оптимизации политики: модель учится выбирать варианты с более высоким значением.

Как работает

Value head представляет собой небольшой линейный блок (или серию блоков), подключённый к последнему слою трансформера. Он принимает скрытые представления (hidden states) и выдаёт скаляр — числовую оценку качества.

Основные этапы работы:

модель генерирует скрытое представление состояния;
value head анализирует это представление;
выдаёт оценку ожидаемой награды или полезности;
оптимизатор корректирует параметры модели, повышая ожидаемое значение ценности.

В RLHF value head не заменяет reward model — он обучается предсказывать ценность по данным, которые уже оценены reward model. Это ускоряет оптимизацию и делает обновления модели более стабильными.

Где применяется

RLHF и настройка поведения больших языковых моделей.
Policy optimization в задачах reinforcement learning.
Actor–critic архитектуры.
Оптимизация reasoning — оценка качества промежуточных шагов.
Многоагентные системы с внутренней оценкой состояния.
Модели с внутренним scoring для выбора лучших ответов.

Практические примеры использования

В RLHF value head обучается предсказывать оценку качества ответа, вычисленную reward model. Модель оптимизируется так, чтобы повышать предсказанное значение, тем самым корректируя проверяемое поведение.

В actor–critic системах value head используется критиком для оценки состояния. Актор выбирает действие, а value head помогает корректировать стратегию на основе ожидаемого вознаграждения.

В языковых моделях value head может применяться для ранжирования нескольких вариантов ответа, когда требуется выбрать наиболее качественный, устойчивый или релевантный.

В long-context задачах value head оценивает, насколько промежуточные шаги рассуждения приводят к улучшению или ухудшению итогового результата.

Ключевые свойства value head

Скалярный прогноз — выдаёт одно число, отражающее оценку.
Совместное обучение — обучается вместе с основной моделью.
Гладкий градиентный сигнал — стабилизирует обновления политики.
Связь с reward model — использует её оценки для обучения.

Проблемы и ограничения

Чувствительность к reward shaping — неверная целевая функция искажает предсказания.
Переобучение — value head может запомнить структуру данных вместо обобщения.
Нестабильность — требует аккуратного баланса между политикой и функцией ценности.
Зависимость от качества reward model — ошибки в наградной модели передаются в обучение.

Преимущества и ограничения

Плюс: повышает стабильность RL-обучения.
Плюс: уменьшает разброс оценок и колебания политики.
Плюс: ускоряет оптимизацию по сравнению с чистым policy gradient.
Плюс: полезен для внутреннего ранжирования и отбора вариантов.
Минус: требует корректной настройки функции ценности.
Минус: усиливает зависимость модели от качества разметки наград.
Минус: может ограничивать исследовательские стратегии.

Связанные термины

PPO
Actor–critic
Реward model
Advantage estimation
Реinforcement learning
RLHF
Policy gradient

Категория термина

Обучение и дообучение

Экосистемы