Preference optimization — обучение модели выбирать ответы, которые лучше соответствуют предпочтениям пользователей или оценщиков, используя данные сравнений.
Определение
Preference optimization — это класс методов обучения моделей, в которых целевая функция строится не на основе правильных ответов, а на основе предпочтений: какой из двух вариантов лучше, полезнее, точнее, безопаснее или соответствует стилю. В отличие от supervised fine-tuning, где задаётся эталонный выход, preference optimization опирается на относительные сравнения и делает модель чувствительной к качеству и приемлемости ответа.
Этот подход лежит в основе современных методов выравнивания поведения LLM, включая RLHF, DPO и RLAIF. Он позволяет обучать модели даже в задачах, где невозможно или дорого предоставить единственно правильный ответ, но можно выразить предпочтение между несколькими вариантами.
Как работает
Preference optimization использует данные сравнений: разметчики или модели ранжируют ответы, указывая, какой из вариантов предпочтительнее. На основе этих сравнений строится функция потерь, которая заставляет модель увеличивать вероятность «лучших» ответов и снижать вероятность «хуже оценённых».
Основные компоненты процесса:
- Данные предпочтений — пары или списки ответов с указанием лучшего варианта.
- Функция предпочтений — вероятностная модель, оценивающая шанс того, что ответ A лучше B.
- Оптимизационный метод — RLHF, DPO или их модификации.
- Оценщик качества — reward model, модель-помощник или человек.
Preference optimization непривязан к конкретному алгоритму: это общий принцип, согласно которому модель оптимизирует своё поведение под предпочтения, а не под жёсткие целевые значения.
Где применяется
- RLHF — корректировка политики модели под предпочтения разметчиков.
- DPO — обучение без RL напрямую на сравнительных данных.
- RLAIF — моделирование предпочтений синтетическими оценщиками.
- Тонкая настройка ассистентов для стилевых требований.
- Оптимизация reasoning — выбор более надёжных рассуждений.
- Выбор лучшего ответа из нескольких кандидатов.
- Разработка безопасных диалоговых моделей.
Практические примеры использования
В RLHF модель получает несколько вариантов ответа, а reward model или человек выбирает лучший. Preference optimization обновляет политику так, чтобы вероятность генерации лучших ответов увеличивалась.
В DPO модель тренируется непосредственно на сравнительных данных — функция потерь учитывает предпочтения без отдельного шага обучения reward model.
В системах кода preference optimization помогает модели генерировать стилистически приемлемые фрагменты: предпочтительные варианты кода поднимаются в вероятности.
В безопасных ассистентах preference optimization снижает вероятность токсичных или некачественных ответов, поскольку их consistently оценивают ниже.
Ключевые свойства preference optimization
- Сравнительная природа — модель учится различать лучший ответ, а не воспроизводить эталонный.
- Гибкое целевое поведение — можно моделировать качество, стиль, безопасность, ясность.
- Совместимость с различными алгоритмами — PPO, DPO, actor–critic, вероятностные ранговые модели.
- Улучшение управляемости — модель лучше подстраивается под ожидания пользователей.
Проблемы и ограничения
- Сложность данных предпочтений — требуется много сравнений высокого качества.
- Смещения разметчиков — модель наследует субъективные предпочтения.
- Reward hacking — модель может учиться на особенности оценщика, а не на сути задачи.
- Неполные предпочтения — разметка не покрывает все типы запросов.
- Баланс стабильности и разнообразия — избыточное предпочтительное обучение снижает вариативность ответов.
Преимущества и ограничения
- Плюс: позволяет задавать поведение модели без жёстких правильных ответов.
- Плюс: улучшает соответствие человеческим предпочтениям.
- Плюс: повышает безопасность и предсказуемость поведения.
- Плюс: применим к любой задаче, где важна субъективная оценка.
- Минус: требует много качественной разметки.
- Минус: чувствителен к смещению данных.
- Минус: может ухудшить разнообразие генерации.
- Минус: сложно масштабировать на специфические домены.
Связанные термины
- Preference modeling
- RLHF
- DPO
- Reward model
- Value head
- Human preference data
- RLAIF