Preference dataset — корпус данных, в котором представлены предпочтения или сравнения ответов, позволяющий обучать модель выбирать лучший вариант поведения.
Определение
Preference dataset — это набор данных, состоящий из пар или групп ответов, где аннотаторы или пользователи выбирают предпочтительный вариант. Такие данные используются на этапах preference tuning (включая RLHF, DPO, IPO и другие методы), чтобы заставить модель отдавать приоритет качественным, корректным, безопасным и более полезным ответам. В отличие от instruction dataset, preference dataset учит модель не формату и задаче, а критериям качества.
Как работает
Preference dataset содержит пары (ответ A, ответ B, метка: A лучше / B лучше) или ранжированные списки. Алгоритмы обучения интерпретируют такие пары как сигнал предпочтения, формируя функцию стоимости, которую модель должна оптимизировать.
Основные этапы работы:
- Генерация кандидатов — из модели получают несколько вариантов ответа на одну инструкцию.
- Аннотация — эксперты или краудсорс выбирают лучший вариант; применяется многоуровневая валидация.
- Формирование preference dataset — пары объединяются в структуру, пригодную для методов RLHF, DPO или других алгоритмов preference learning.
- Обучение — модель оптимизирует функцию, повышающую вероятность предпочтительных ответов.
Preference learning изменяет «поведенческий слой» модели: она начинает отдавать предпочтение ответам, соответствующим человеческим ожиданиям, избегать токсичных или некорректных формулировок и обеспечивать последовательность в reasoning.
Где применяется
- RLHF (reinforcement learning from human feedback).
- DPO (direct preference optimization).
- Корпоративные LLM, где требуется соблюдение политик и норм.
- Модели кода — отбор корректных решений.
- Модели reasoning — улучшение шагов рассуждений.
Практические примеры использования
Современные ассистенты обучаются на сотнях тысяч или миллионах пар предпочтений. В RLHF-пайплайнах операторы генерируют несколько вариантов ответа, аннотаторы выбирают лучший, после чего модель дообучается с учётом выбора. DPO и другие методы работают напрямую на preference dataset, без RL-петли, что удешевляет процесс.
В моделях для кода preference datasets включают выбор решений, которые корректно компилируются и проходят тесты. В reasoning-пайплайнах формируются пары решений, где одно демонстрирует более надёжную цепочку рассуждений.
Ключевые свойства
- Содержит явные человеческие предпочтения.
- Повышает полезность и безопасность модели.
- Поддерживает пару или ранжирование ответов.
- Используется в широком наборе алгоритмов preference tuning.
- Является центральным компонентом RLHF.
Проблемы и ограничения
- Аннотация дорогостоящая и требует экспертного контроля.
- Шум в предпочтениях ухудшает качество итоговой модели.
- При недостаточной диверсификации модель вырабатывает шаблонное поведение.
- Токсичные или ошибочные предпочтения могут закрепиться в модели.
- Сильная зависимость от качества кандидатов, сгенерированных базовой моделью.
Преимущества и ограничения
- Плюс: формирует устойчивое, человекоориентированное поведение модели.
- Минус: дорогое в создании и чувствительное к качеству аннотаций.
Связанные термины
- RLHF
- DPO (Direct Preference Optimization)
- IPO / ORPO
- Instruction dataset
- Human feedback