Value head в архитектуре моделей

Термин глоссария

Value head


Value head — компонент модели, который оценивает ожидаемое качество ответа или действия, выдавая численную оценку полезности.

Определение

Value head — это дополнительный выход нейросети, который предсказывает количественную оценку состояния, ответа или действия. В задачах обучения с подкреплением он соответствует функции ценности (value function), а в современных языковых моделях его используют для оценки качества ответа, стабильности reasoning или соответствия заданным требованиям.

В архитектурах RLHF value head встроен в модель, чтобы оценивать «полезность» предложенного токена или последовательности. Эта оценка служит сигналом для оптимизации политики: модель учится выбирать варианты с более высоким значением.

Как работает

Value head представляет собой небольшой линейный блок (или серию блоков), подключённый к последнему слою трансформера. Он принимает скрытые представления (hidden states) и выдаёт скаляр — числовую оценку качества.

Основные этапы работы:

  • модель генерирует скрытое представление состояния;
  • value head анализирует это представление;
  • выдаёт оценку ожидаемой награды или полезности;
  • оптимизатор корректирует параметры модели, повышая ожидаемое значение ценности.

В RLHF value head не заменяет reward model — он обучается предсказывать ценность по данным, которые уже оценены reward model. Это ускоряет оптимизацию и делает обновления модели более стабильными.

Где применяется

  • RLHF и настройка поведения больших языковых моделей.
  • Policy optimization в задачах reinforcement learning.
  • Actor–critic архитектуры.
  • Оптимизация reasoning — оценка качества промежуточных шагов.
  • Многоагентные системы с внутренней оценкой состояния.
  • Модели с внутренним scoring для выбора лучших ответов.

Практические примеры использования

В RLHF value head обучается предсказывать оценку качества ответа, вычисленную reward model. Модель оптимизируется так, чтобы повышать предсказанное значение, тем самым корректируя проверяемое поведение.

В actor–critic системах value head используется критиком для оценки состояния. Актор выбирает действие, а value head помогает корректировать стратегию на основе ожидаемого вознаграждения.

В языковых моделях value head может применяться для ранжирования нескольких вариантов ответа, когда требуется выбрать наиболее качественный, устойчивый или релевантный.

В long-context задачах value head оценивает, насколько промежуточные шаги рассуждения приводят к улучшению или ухудшению итогового результата.

Ключевые свойства value head

  • Скалярный прогноз — выдаёт одно число, отражающее оценку.
  • Совместное обучение — обучается вместе с основной моделью.
  • Гладкий градиентный сигнал — стабилизирует обновления политики.
  • Связь с reward model — использует её оценки для обучения.

Проблемы и ограничения

  • Чувствительность к reward shaping — неверная целевая функция искажает предсказания.
  • Переобучение — value head может запомнить структуру данных вместо обобщения.
  • Нестабильность — требует аккуратного баланса между политикой и функцией ценности.
  • Зависимость от качества reward model — ошибки в наградной модели передаются в обучение.

Преимущества и ограничения

  • Плюс: повышает стабильность RL-обучения.
  • Плюс: уменьшает разброс оценок и колебания политики.
  • Плюс: ускоряет оптимизацию по сравнению с чистым policy gradient.
  • Плюс: полезен для внутреннего ранжирования и отбора вариантов.
  • Минус: требует корректной настройки функции ценности.
  • Минус: усиливает зависимость модели от качества разметки наград.
  • Минус: может ограничивать исследовательские стратегии.

Связанные термины

  • PPO
  • Actor–critic
  • Reward model
  • Advantage estimation
  • Reinforcement learning
  • RLHF
  • Policy gradient

Категория термина

Обучение и дообучение