Preference optimization в обучении моделей

Термин глоссария

Preference optimization


Preference optimization — обучение модели выбирать ответы, которые лучше соответствуют предпочтениям пользователей или оценщиков, используя данные сравнений.

Определение

Preference optimization — это класс методов обучения моделей, в которых целевая функция строится не на основе правильных ответов, а на основе предпочтений: какой из двух вариантов лучше, полезнее, точнее, безопаснее или соответствует стилю. В отличие от supervised fine-tuning, где задаётся эталонный выход, preference optimization опирается на относительные сравнения и делает модель чувствительной к качеству и приемлемости ответа.

Этот подход лежит в основе современных методов выравнивания поведения LLM, включая RLHF, DPO и RLAIF. Он позволяет обучать модели даже в задачах, где невозможно или дорого предоставить единственно правильный ответ, но можно выразить предпочтение между несколькими вариантами.

Как работает

Preference optimization использует данные сравнений: разметчики или модели ранжируют ответы, указывая, какой из вариантов предпочтительнее. На основе этих сравнений строится функция потерь, которая заставляет модель увеличивать вероятность «лучших» ответов и снижать вероятность «хуже оценённых».

Основные компоненты процесса:

  • Данные предпочтений — пары или списки ответов с указанием лучшего варианта.
  • Функция предпочтений — вероятностная модель, оценивающая шанс того, что ответ A лучше B.
  • Оптимизационный метод — RLHF, DPO или их модификации.
  • Оценщик качества — reward model, модель-помощник или человек.

Preference optimization непривязан к конкретному алгоритму: это общий принцип, согласно которому модель оптимизирует своё поведение под предпочтения, а не под жёсткие целевые значения.

Где применяется

  • RLHF — корректировка политики модели под предпочтения разметчиков.
  • DPO — обучение без RL напрямую на сравнительных данных.
  • RLAIF — моделирование предпочтений синтетическими оценщиками.
  • Тонкая настройка ассистентов для стилевых требований.
  • Оптимизация reasoning — выбор более надёжных рассуждений.
  • Выбор лучшего ответа из нескольких кандидатов.
  • Разработка безопасных диалоговых моделей.

Практические примеры использования

В RLHF модель получает несколько вариантов ответа, а reward model или человек выбирает лучший. Preference optimization обновляет политику так, чтобы вероятность генерации лучших ответов увеличивалась.

В DPO модель тренируется непосредственно на сравнительных данных — функция потерь учитывает предпочтения без отдельного шага обучения reward model.

В системах кода preference optimization помогает модели генерировать стилистически приемлемые фрагменты: предпочтительные варианты кода поднимаются в вероятности.

В безопасных ассистентах preference optimization снижает вероятность токсичных или некачественных ответов, поскольку их consistently оценивают ниже.

Ключевые свойства preference optimization

  • Сравнительная природа — модель учится различать лучший ответ, а не воспроизводить эталонный.
  • Гибкое целевое поведение — можно моделировать качество, стиль, безопасность, ясность.
  • Совместимость с различными алгоритмами — PPO, DPO, actor–critic, вероятностные ранговые модели.
  • Улучшение управляемости — модель лучше подстраивается под ожидания пользователей.

Проблемы и ограничения

  • Сложность данных предпочтений — требуется много сравнений высокого качества.
  • Смещения разметчиков — модель наследует субъективные предпочтения.
  • Reward hacking — модель может учиться на особенности оценщика, а не на сути задачи.
  • Неполные предпочтения — разметка не покрывает все типы запросов.
  • Баланс стабильности и разнообразия — избыточное предпочтительное обучение снижает вариативность ответов.

Преимущества и ограничения

  • Плюс: позволяет задавать поведение модели без жёстких правильных ответов.
  • Плюс: улучшает соответствие человеческим предпочтениям.
  • Плюс: повышает безопасность и предсказуемость поведения.
  • Плюс: применим к любой задаче, где важна субъективная оценка.
  • Минус: требует много качественной разметки.
  • Минус: чувствителен к смещению данных.
  • Минус: может ухудшить разнообразие генерации.
  • Минус: сложно масштабировать на специфические домены.

Связанные термины

  • Preference modeling
  • RLHF
  • DPO
  • Reward model
  • Value head
  • Human preference data
  • RLAIF

Категория термина

Обучение и дообучение