Preference dataset для обучения моделей предпочтениям

Термин глоссария

Preference dataset


Preference dataset — корпус данных, в котором представлены предпочтения или сравнения ответов, позволяющий обучать модель выбирать лучший вариант поведения.

Определение

Preference dataset — это набор данных, состоящий из пар или групп ответов, где аннотаторы или пользователи выбирают предпочтительный вариант. Такие данные используются на этапах preference tuning (включая RLHF, DPO, IPO и другие методы), чтобы заставить модель отдавать приоритет качественным, корректным, безопасным и более полезным ответам. В отличие от instruction dataset, preference dataset учит модель не формату и задаче, а критериям качества.

Как работает

Preference dataset содержит пары (ответ A, ответ B, метка: A лучше / B лучше) или ранжированные списки. Алгоритмы обучения интерпретируют такие пары как сигнал предпочтения, формируя функцию стоимости, которую модель должна оптимизировать.

Основные этапы работы:

  • Генерация кандидатов — из модели получают несколько вариантов ответа на одну инструкцию.
  • Аннотация — эксперты или краудсорс выбирают лучший вариант; применяется многоуровневая валидация.
  • Формирование preference dataset — пары объединяются в структуру, пригодную для методов RLHF, DPO или других алгоритмов preference learning.
  • Обучение — модель оптимизирует функцию, повышающую вероятность предпочтительных ответов.

Preference learning изменяет «поведенческий слой» модели: она начинает отдавать предпочтение ответам, соответствующим человеческим ожиданиям, избегать токсичных или некорректных формулировок и обеспечивать последовательность в reasoning.

Где применяется

  • RLHF (reinforcement learning from human feedback).
  • DPO (direct preference optimization).
  • Корпоративные LLM, где требуется соблюдение политик и норм.
  • Модели кода — отбор корректных решений.
  • Модели reasoning — улучшение шагов рассуждений.

Практические примеры использования

Современные ассистенты обучаются на сотнях тысяч или миллионах пар предпочтений. В RLHF-пайплайнах операторы генерируют несколько вариантов ответа, аннотаторы выбирают лучший, после чего модель дообучается с учётом выбора. DPO и другие методы работают напрямую на preference dataset, без RL-петли, что удешевляет процесс.

В моделях для кода preference datasets включают выбор решений, которые корректно компилируются и проходят тесты. В reasoning-пайплайнах формируются пары решений, где одно демонстрирует более надёжную цепочку рассуждений.

Ключевые свойства

  • Содержит явные человеческие предпочтения.
  • Повышает полезность и безопасность модели.
  • Поддерживает пару или ранжирование ответов.
  • Используется в широком наборе алгоритмов preference tuning.
  • Является центральным компонентом RLHF.

Проблемы и ограничения

  • Аннотация дорогостоящая и требует экспертного контроля.
  • Шум в предпочтениях ухудшает качество итоговой модели.
  • При недостаточной диверсификации модель вырабатывает шаблонное поведение.
  • Токсичные или ошибочные предпочтения могут закрепиться в модели.
  • Сильная зависимость от качества кандидатов, сгенерированных базовой моделью.

Преимущества и ограничения

  • Плюс: формирует устойчивое, человекоориентированное поведение модели.
  • Минус: дорогое в создании и чувствительное к качеству аннотаций.

Связанные термины

  • RLHF
  • DPO (Direct Preference Optimization)
  • IPO / ORPO
  • Instruction dataset
  • Human feedback

Категория термина

Работа с данными и векторами