Термин глоссария

Preference optimization

Preference optimization — обучение модели выбирать ответы, которые лучше соответствуют предпочтениям пользователей или оценщиков, используя данные сравнений.

Определение

Preference optimization — это класс методов обучения моделей, в которых целевая функция строится не на основе правильных ответов, а на основе предпочтений: какой из двух вариантов лучше, полезнее, точнее, безопаснее или соответствует стилю. В отличие от supervised fine-tuning, где задаётся эталонный выход, preference optimization опирается на относительные сравнения и делает модель чувствительной к качеству и приемлемости ответа.

Этот подход лежит в основе современных методов выравнивания поведения LLM, включая RLHF, DPO и RLAIF. Он позволяет обучать модели даже в задачах, где невозможно или дорого предоставить единственно правильный ответ, но можно выразить предпочтение между несколькими вариантами.

Как работает

Preference optimization использует данные сравнений: разметчики или модели ранжируют ответы, указывая, какой из вариантов предпочтительнее. На основе этих сравнений строится функция потерь, которая заставляет модель увеличивать вероятность «лучших» ответов и снижать вероятность «хуже оценённых».

Основные компоненты процесса:

Данные предпочтений — пары или списки ответов с указанием лучшего варианта.
Функция предпочтений — вероятностная модель, оценивающая шанс того, что ответ A лучше B.
Оптимизационный метод — RLHF, DPO или их модификации.
Оценщик качества — reward model, модель-помощник или человек.

Preference optimization непривязан к конкретному алгоритму: это общий принцип, согласно которому модель оптимизирует своё поведение под предпочтения, а не под жёсткие целевые значения.

Где применяется

RLHF — корректировка политики модели под предпочтения разметчиков.
DPO — обучение без RL напрямую на сравнительных данных.
RLAIF — моделирование предпочтений синтетическими оценщиками.
Тонкая настройка ассистентов для стилевых требований.
Оптимизация reasoning — выбор более надёжных рассуждений.
Выбор лучшего ответа из нескольких кандидатов.
Разработка безопасных диалоговых моделей.

Практические примеры использования

В RLHF модель получает несколько вариантов ответа, а reward model или человек выбирает лучший. Preference optimization обновляет политику так, чтобы вероятность генерации лучших ответов увеличивалась.

В DPO модель тренируется непосредственно на сравнительных данных — функция потерь учитывает предпочтения без отдельного шага обучения reward model.

В системах кода preference optimization помогает модели генерировать стилистически приемлемые фрагменты: предпочтительные варианты кода поднимаются в вероятности.

В безопасных ассистентах preference optimization снижает вероятность токсичных или некачественных ответов, поскольку их consistently оценивают ниже.

Ключевые свойства preference optimization

Сравнительная природа — модель учится различать лучший ответ, а не воспроизводить эталонный.
Гибкое целевое поведение — можно моделировать качество, стиль, безопасность, ясность.
Совместимость с различными алгоритмами — PPO, DPO, actor–critic, вероятностные ранговые модели.
Улучшение управляемости — модель лучше подстраивается под ожидания пользователей.

Проблемы и ограничения

Сложность данных предпочтений — требуется много сравнений высокого качества.
Смещения разметчиков — модель наследует субъективные предпочтения.
Реward hacking — модель может учиться на особенности оценщика, а не на сути задачи.
Неполные предпочтения — разметка не покрывает все типы запросов.
Баланс стабильности и разнообразия — избыточное предпочтительное обучение снижает вариативность ответов.

Преимущества и ограничения

Плюс: позволяет задавать поведение модели без жёстких правильных ответов.
Плюс: улучшает соответствие человеческим предпочтениям.
Плюс: повышает безопасность и предсказуемость поведения.
Плюс: применим к любой задаче, где важна субъективная оценка.
Минус: требует много качественной разметки.
Минус: чувствителен к смещению данных.
Минус: может ухудшить разнообразие генерации.
Минус: сложно масштабировать на специфические домены.

Связанные термины

Preference modeling
RLHF
DPO
Реward model
Value head
Human preference data
RLAIF

Категория термина

Обучение и дообучение

Экосистемы