Synthetic dataset в обучении и дообучении моделей

Термин глоссария

Synthetic dataset


Synthetic dataset — корпус данных, созданный автоматически моделями или специализированными генераторами для расширения обучающих наборов и улучшения поведения LLM.

Определение

Synthetic dataset — это набор данных, полностью или частично генерируемый другой моделью (обычно более сильной), скриптами или алгоритмами. Он используется для расширения обучающих корпусов, добавления недостающих доменов, создания редких примеров, сложных инструкций, пар «запрос–ответ» и задач reasoning. Synthetic datasets стали одним из ключевых инструментов масштабирования LLM: они позволяют резко увеличить количество высококачественных примеров без пропорционального увеличения затрат на ручную разметку.

Как работает

Генерация synthetic data строится вокруг итеративных пайплайнов:

  • Generation — сильная модель создаёт инструкции, ответы, размеченные пары, reasoning-трейсы, кодовые решения или объяснения.
  • Filtering — применяется многоуровневая фильтрация качества: детекторы токсичности, классификаторы полезности, валидация форматов.
  • Deduplication — удаление повторов и шаблонных фрагментов, часто с применением MinHash или embedding-сходства.
  • Balancing — распределение по доменам, уровням сложности и стилям.
  • Assembly — формирование итогового корпуса с диалоговой структурой, ролями (system/user/assistant) и метаданными.

Генерация может быть одного из трёх типов:

  • Instruction synthesis — создание новых инструкций и ответов, расширяющих instruction dataset.
  • Chain-of-thought synthesis — генерация reasoning-трейсов, которые затем используются в SFT или preference tuning.
  • Weak-to-strong bootstrapping — слабая модель улучшает себя на данных, созданных сильной моделью.

Где применяется

  • Формирование instruction datasets для SFT.
  • Создание примеров reasoning (chain-of-thought, decomposition).
  • Обучение моделей кода на автосгенерированных решениях.
  • Генерация редких или дорого размечаемых случаев.
  • Корпоративные LLM — заполнение пробелов в доменных данных.

Практические примеры использования

Большинство современных LLM обучены на крупных synthetic datasets. MiniMax, Qwen, Mistral, OpenAI и другие компании используют многоступенчатые пайплайны генерации синтетики: сначала сильная модель создаёт миллионы инструкций и ответов, затем отдельные фильтры удаляют шум, ошибки и токсичность, после чего данные входят в этап SFT.

В задачах программирования synthetic datasets включают решения задач с автовалидаторами: плохие решения отбрасываются автоматически. В reasoning-пайплайнах используются синтетические цепочки рассуждений, позволяющие модели улучшать способность к пошаговому выводу.

Ключевые свойства

  • Масштабируемость: объём данных растёт без необходимости ручной разметки.
  • Гибкость: можно генерировать примеры под конкретные домены.
  • Управляемость: через фильтры задаются желаемые стандарты качества.
  • Синхронизация с моделью: данные адаптируются под архитектуру и токенизатор.
  • Используемость в RLHF, SFT, DPO и других этапах обучения.

Проблемы и ограничения

  • Риск «looping bias»: модель перенимает ошибки и стили сильной модели.
  • Синтетические данные могут быть переупрощёнными или шаблонными.
  • Низкое разнообразие при некорректной генерации.
  • Требуется строгая дедупликация — синтетика часто повторяет свои паттерны.
  • Избыточная зависимость от генератора ухудшает способность к обобщению.

Преимущества и ограничения

  • Плюс: позволяет обучать модели на больших объёмах качественных данных без высоких затрат.
  • Минус: несёт риск закрепления ошибок и стилистической предвзятости.

Связанные термины

  • Instruction dataset
  • Preference dataset
  • Synthetic data generation
  • SFT (supervised fine-tuning)
  • Chain-of-thought

Категория термина

Работа с данными и векторами