Preference modeling — процесс обучения модели на данных о предпочтениях людей, чтобы она выбирала ответы, наиболее соответствующие ожиданиям и качественным критериям.
Определение
Preference modeling — это направление обучения моделей, в котором система учится воспроизводить предпочтения человека или другого оценщика. Вместо того чтобы оптимизировать модель под «правильный» ответ, preference modeling использует сравнения вариантов: что человеку нравится больше, какой ответ полезнее, корректнее или безопаснее.
Такой подход лежит в основе современных методов выравнивания поведения LLM — RLHF, DPO, RLAIF — и позволяет моделям формировать выводы, которые соответствуют не только фактам, но и требованиям качества, стиля и безопасности.
Как работает
Ядро preference modeling — обучение на данных сравнений. Разметчики или другая модель оценивают несколько ответов, указывая, какой из них предпочтительнее. Эти сравнительные данные используются для создания функции предпочтений, которую затем применяют в обучении основной модели.
Процесс включает несколько этапов:
- Сбор данных предпочтений — пары или списки ответов с указанием лучшего варианта.
- Обучение модели предпочтений — построение reward model или вероятностной функции предпочтений.
- Оптимизация основной модели — корректировка поведения с учётом предпочтений.
- Валидация — проверка того, что модель действительно движется в сторону лучших ответов.
Для обучения предпочтений используется ранговая или бинарная логистическая модель, которая сравнивает вероятность того, что вариант A предпочтительнее варианта B. Такой подход удобен, потому что людям проще сравнивать два ответа, чем придумывать абсолютную оценку.
Где применяется
- RLHF — формирование сигналов вознаграждения из человеческих предпочтений.
- DPO — обучение без RL на парах предпочтений.
- RLAIF — моделирование предпочтений другой моделью вместо людей.
- Калибровка стиля диалоговых ассистентов.
- Оптимизация reasoning — выбор более надёжных цепочек шагов.
- Фильтрация ответов в продуктах с высокими требованиями качества.
- Ранжирование нескольких кандидатов в генерации текста.
Практические примеры использования
В RLHF пара ответов оценивается человеком: один ответ более корректный, точный или этичный. Reward model обучают предсказывать это предпочтение, после чего PPO корректирует основную модель под желаемое поведение.
В DPO предпочтения используются напрямую, без построения reward model — модель оптимизируется так, чтобы повышать вероятность выбора предпочтительного ответа.
В системах генерации кода preference modeling позволяет формировать решения, которые лучше соответствуют стилю команды или требованиям безопасности кода.
В многоагентных системах предпочтения могут отражать стратегическую важность действий, что помогает агентам согласовывать поведение.
Ключевые свойства preference modeling
- Сравнительная разметка — предпочтения выражаются через пары или ранги.
- Гибкость — можно моделировать безопасность, стиль, полезность, ясность.
- Совместимость с RL и без-RL методами — используется в RLHF, DPO, RLAIF.
- Снижение субъективности — агрегирование множества предпочтений сглаживает индивидуальные особенности разметчиков.
Проблемы и ограничения
- Качество разметки — плохие предпочтения приводят к нежелательному поведению модели.
- Смещения — модель наследует предубеждения разметчиков.
- Нестабильность предпочтений — вкусы пользователей могут различаться или меняться.
- Высокая стоимость данных — требуется много примеров сравнения.
- Reward hacking — модель может адаптироваться под предпочтения «технически», но не содержательно.
Преимущества и ограничения
- Плюс: позволяет обучать модели под человеческие критерии качества.
- Плюс: улучшает безопасность и предсказуемость поведения.
- Плюс: повышает информативность по сравнению с абсолютными оценками.
- Плюс: ключевой компонент современных пайплайнов выравнивания.
- Минус: зависимость от субъективной разметки.
- Минус: сложность масштабирования.
- Минус: риск предвзятости выводов.
- Минус: требует точной настройки функций потерь.
Связанные термины
- Reward model
- RLHF
- DPO
- RLAIF
- PPO
- Value head
- Human preference data
- Preference ranking