Preference modeling в обучении моделей

Термин глоссария

Preference modeling


Preference modeling — процесс обучения модели на данных о предпочтениях людей, чтобы она выбирала ответы, наиболее соответствующие ожиданиям и качественным критериям.

Определение

Preference modeling — это направление обучения моделей, в котором система учится воспроизводить предпочтения человека или другого оценщика. Вместо того чтобы оптимизировать модель под «правильный» ответ, preference modeling использует сравнения вариантов: что человеку нравится больше, какой ответ полезнее, корректнее или безопаснее.

Такой подход лежит в основе современных методов выравнивания поведения LLM — RLHF, DPO, RLAIF — и позволяет моделям формировать выводы, которые соответствуют не только фактам, но и требованиям качества, стиля и безопасности.

Как работает

Ядро preference modeling — обучение на данных сравнений. Разметчики или другая модель оценивают несколько ответов, указывая, какой из них предпочтительнее. Эти сравнительные данные используются для создания функции предпочтений, которую затем применяют в обучении основной модели.

Процесс включает несколько этапов:

  • Сбор данных предпочтений — пары или списки ответов с указанием лучшего варианта.
  • Обучение модели предпочтений — построение reward model или вероятностной функции предпочтений.
  • Оптимизация основной модели — корректировка поведения с учётом предпочтений.
  • Валидация — проверка того, что модель действительно движется в сторону лучших ответов.

Для обучения предпочтений используется ранговая или бинарная логистическая модель, которая сравнивает вероятность того, что вариант A предпочтительнее варианта B. Такой подход удобен, потому что людям проще сравнивать два ответа, чем придумывать абсолютную оценку.

Где применяется

  • RLHF — формирование сигналов вознаграждения из человеческих предпочтений.
  • DPO — обучение без RL на парах предпочтений.
  • RLAIF — моделирование предпочтений другой моделью вместо людей.
  • Калибровка стиля диалоговых ассистентов.
  • Оптимизация reasoning — выбор более надёжных цепочек шагов.
  • Фильтрация ответов в продуктах с высокими требованиями качества.
  • Ранжирование нескольких кандидатов в генерации текста.

Практические примеры использования

В RLHF пара ответов оценивается человеком: один ответ более корректный, точный или этичный. Reward model обучают предсказывать это предпочтение, после чего PPO корректирует основную модель под желаемое поведение.

В DPO предпочтения используются напрямую, без построения reward model — модель оптимизируется так, чтобы повышать вероятность выбора предпочтительного ответа.

В системах генерации кода preference modeling позволяет формировать решения, которые лучше соответствуют стилю команды или требованиям безопасности кода.

В многоагентных системах предпочтения могут отражать стратегическую важность действий, что помогает агентам согласовывать поведение.

Ключевые свойства preference modeling

  • Сравнительная разметка — предпочтения выражаются через пары или ранги.
  • Гибкость — можно моделировать безопасность, стиль, полезность, ясность.
  • Совместимость с RL и без-RL методами — используется в RLHF, DPO, RLAIF.
  • Снижение субъективности — агрегирование множества предпочтений сглаживает индивидуальные особенности разметчиков.

Проблемы и ограничения

  • Качество разметки — плохие предпочтения приводят к нежелательному поведению модели.
  • Смещения — модель наследует предубеждения разметчиков.
  • Нестабильность предпочтений — вкусы пользователей могут различаться или меняться.
  • Высокая стоимость данных — требуется много примеров сравнения.
  • Reward hacking — модель может адаптироваться под предпочтения «технически», но не содержательно.

Преимущества и ограничения

  • Плюс: позволяет обучать модели под человеческие критерии качества.
  • Плюс: улучшает безопасность и предсказуемость поведения.
  • Плюс: повышает информативность по сравнению с абсолютными оценками.
  • Плюс: ключевой компонент современных пайплайнов выравнивания.
  • Минус: зависимость от субъективной разметки.
  • Минус: сложность масштабирования.
  • Минус: риск предвзятости выводов.
  • Минус: требует точной настройки функций потерь.

Связанные термины

  • Reward model
  • RLHF
  • DPO
  • RLAIF
  • PPO
  • Value head
  • Human preference data
  • Preference ranking

Категория термина

Обучение и дообучение