Термин глоссария

Preference modeling

Preference modeling — процесс обучения модели на данных о предпочтениях людей, чтобы она выбирала ответы, наиболее соответствующие ожиданиям и качественным критериям.

Определение

Preference modeling — это направление обучения моделей, в котором система учится воспроизводить предпочтения человека или другого оценщика. Вместо того чтобы оптимизировать модель под «правильный» ответ, preference modeling использует сравнения вариантов: что человеку нравится больше, какой ответ полезнее, корректнее или безопаснее.

Такой подход лежит в основе современных методов выравнивания поведения LLM — RLHF, DPO, RLAIF — и позволяет моделям формировать выводы, которые соответствуют не только фактам, но и требованиям качества, стиля и безопасности.

Как работает

Ядро preference modeling — обучение на данных сравнений. Разметчики или другая модель оценивают несколько ответов, указывая, какой из них предпочтительнее. Эти сравнительные данные используются для создания функции предпочтений, которую затем применяют в обучении основной модели.

Процесс включает несколько этапов:

Сбор данных предпочтений — пары или списки ответов с указанием лучшего варианта.
Обучение модели предпочтений — построение reward model или вероятностной функции предпочтений.
Оптимизация основной модели — корректировка поведения с учётом предпочтений.
Валидация — проверка того, что модель действительно движется в сторону лучших ответов.

Для обучения предпочтений используется ранговая или бинарная логистическая модель, которая сравнивает вероятность того, что вариант A предпочтительнее варианта B. Такой подход удобен, потому что людям проще сравнивать два ответа, чем придумывать абсолютную оценку.

Где применяется

RLHF — формирование сигналов вознаграждения из человеческих предпочтений.
DPO — обучение без RL на парах предпочтений.
RLAIF — моделирование предпочтений другой моделью вместо людей.
Калибровка стиля диалоговых ассистентов.
Оптимизация reasoning — выбор более надёжных цепочек шагов.
Фильтрация ответов в продуктах с высокими требованиями качества.
Ранжирование нескольких кандидатов в генерации текста.

Практические примеры использования

В RLHF пара ответов оценивается человеком: один ответ более корректный, точный или этичный. Реward model обучают предсказывать это предпочтение, после чего PPO корректирует основную модель под желаемое поведение.

В DPO предпочтения используются напрямую, без построения reward model — модель оптимизируется так, чтобы повышать вероятность выбора предпочтительного ответа.

В системах генерации кода preference modeling позволяет формировать решения, которые лучше соответствуют стилю команды или требованиям безопасности кода.

В многоагентных системах предпочтения могут отражать стратегическую важность действий, что помогает агентам согласовывать поведение.

Ключевые свойства preference modeling

Сравнительная разметка — предпочтения выражаются через пары или ранги.
Гибкость — можно моделировать безопасность, стиль, полезность, ясность.
Совместимость с RL и без-RL методами — используется в RLHF, DPO, RLAIF.
Снижение субъективности — агрегирование множества предпочтений сглаживает индивидуальные особенности разметчиков.

Проблемы и ограничения

Качество разметки — плохие предпочтения приводят к нежелательному поведению модели.
Смещения — модель наследует предубеждения разметчиков.
Нестабильность предпочтений — вкусы пользователей могут различаться или меняться.
Высокая стоимость данных — требуется много примеров сравнения.
Реward hacking — модель может адаптироваться под предпочтения «технически», но не содержательно.

Преимущества и ограничения

Плюс: позволяет обучать модели под человеческие критерии качества.
Плюс: улучшает безопасность и предсказуемость поведения.
Плюс: повышает информативность по сравнению с абсолютными оценками.
Плюс: ключевой компонент современных пайплайнов выравнивания.
Минус: зависимость от субъективной разметки.
Минус: сложность масштабирования.
Минус: риск предвзятости выводов.
Минус: требует точной настройки функций потерь.

Связанные термины

Реward model
RLHF
DPO
RLAIF
PPO
Value head
Human preference data
Preference ranking

Категория термина

Обучение и дообучение

Экосистемы