Термин глоссария

Preference dataset

Preference dataset — корпус данных, в котором представлены предпочтения или сравнения ответов, позволяющий обучать модель выбирать лучший вариант поведения.

Определение

Preference dataset — это набор данных, состоящий из пар или групп ответов, где аннотаторы или пользователи выбирают предпочтительный вариант. Такие данные используются на этапах preference tuning (включая RLHF, DPO, IPO и другие методы), чтобы заставить модель отдавать приоритет качественным, корректным, безопасным и более полезным ответам. В отличие от instruction dataset, preference dataset учит модель не формату и задаче, а критериям качества.

Как работает

Preference dataset содержит пары (ответ A, ответ B, метка: A лучше / B лучше) или ранжированные списки. Алгоритмы обучения интерпретируют такие пары как сигнал предпочтения, формируя функцию стоимости, которую модель должна оптимизировать.

Основные этапы работы:

Генерация кандидатов — из модели получают несколько вариантов ответа на одну инструкцию.
Аннотация — эксперты или краудсорс выбирают лучший вариант; применяется многоуровневая валидация.
Формирование preference dataset — пары объединяются в структуру, пригодную для методов RLHF, DPO или других алгоритмов preference learning.
Обучение — модель оптимизирует функцию, повышающую вероятность предпочтительных ответов.

Preference learning изменяет «поведенческий слой» модели: она начинает отдавать предпочтение ответам, соответствующим человеческим ожиданиям, избегать токсичных или некорректных формулировок и обеспечивать последовательность в reasoning.

Где применяется

RLHF (reinforcement learning from human feedback).
DPO (direct preference optimization).
Корпоративные LLM, где требуется соблюдение политик и норм.
Модели кода — отбор корректных решений.
Модели reasoning — улучшение шагов рассуждений.

Практические примеры использования

Современные ассистенты обучаются на сотнях тысяч или миллионах пар предпочтений. В RLHF-пайплайнах операторы генерируют несколько вариантов ответа, аннотаторы выбирают лучший, после чего модель дообучается с учётом выбора. DPO и другие методы работают напрямую на preference dataset, без RL-петли, что удешевляет процесс.

В моделях для кода preference datasets включают выбор решений, которые корректно компилируются и проходят тесты. В reasoning-пайплайнах формируются пары решений, где одно демонстрирует более надёжную цепочку рассуждений.

Ключевые свойства

Содержит явные человеческие предпочтения.
Повышает полезность и безопасность модели.
Поддерживает пару или ранжирование ответов.
Используется в широком наборе алгоритмов preference tuning.
Является центральным компонентом RLHF.

Проблемы и ограничения

Аннотация дорогостоящая и требует экспертного контроля.
Шум в предпочтениях ухудшает качество итоговой модели.
При недостаточной диверсификации модель вырабатывает шаблонное поведение.
Токсичные или ошибочные предпочтения могут закрепиться в модели.
Сильная зависимость от качества кандидатов, сгенерированных базовой моделью.

Преимущества и ограничения

Плюс: формирует устойчивое, человекоориентированное поведение модели.
Минус: дорогое в создании и чувствительное к качеству аннотаций.

Связанные термины

RLHF
DPO (Direct Preference Optimization)
IPO / ORPO
Instruction dataset
Human feedback

Категория термина

Работа с данными и векторами

Экосистемы