Термин глоссария

Synthetic data

Synthetic data — искусственно созданные данные, используемые для обучения и тестирования моделей, когда реальные наборы ограничены, недоступны или неполны.

Определение

Synthetic data — это данные, созданные искусственным образом: алгоритмами генерации, симуляторами, моделями машинного обучения или большими языковыми моделями. Они служат заменой или дополнением реальных датасетов, позволяя расширять обучающие выборки, улучшать редкие сценарии и закрывать дефицит данных в чувствительных областях.

В отличие от аугментации, synthetic data представляет собой полностью новые примеры, не являющиеся трансформацией исходных. Их качество определяется моделью или симулятором, который их генерирует: чем точнее отражена структура исходных данных, тем выше полезность результата.

Как работает

Подходы различаются по типу данных и целям, но общая логика такова:

модель или симулятор формирует новые примеры на основе правил, распределений или обученных параметров;
генератор может работать детерминированно (правила, движки симуляции) или стохастически (LLM, GAN, diffusion-модели);
система контролирует разнообразие, чтобы избежать дубликатов или избыточного сходства с исходными примерами;
после генерации данные проходят фильтрацию, валидацию и проверку на соответствие требованиям задачи;
в ML-пайплайне синтетические примеры добавляются в основной датасет, участвуя в обучении, fine-tuning и стейджинге моделей.

В случае с текстовыми моделями синтетические данные могут генерироваться LLM напрямую: диалоги, инструкции, технические описания, специализированные фрагменты доменных данных. В компьютерном зрении распространены симуляторы: рендеринг сцен, создание партчей с нужными объектами, генерация вариантов редких событий.

Где применяется

Обучение LLM, когда реальные датасеты ограничены, а требуется покрыть редкие намерения или диалоговые сценарии.
Создание инструкций для fine-tuning: синтетические prompt–response пары, отражающие корпоративные процессы.
RAG-системы: пополнение базы демонстраций примерами, которые сложно собрать из открытых источников.
Компьютерное зрение: генерация редких сцен (ночь, туман, аварии, сложные ракурсы), которые трудно получить в реальности.
ASR/TTS: синтетические речевые фрагменты для эквализации акцентов, тембров, шумовых условий.
Тестирование ML-моделей: стресс-сценарии, на которых реальных примеров почти нет.
Безопасность и анализ рисков: моделирование крайних условий, где сбор реальных данных невозможен.

Практические примеры использования

В обучении больших языковых моделей synthetic data помогает заполнить пробелы в доменных знаниях. Например, модель адаптируют под технические регламенты, но реальные документы ограничены лицензиями. Генерация синтетических инструкций и объяснений позволяет сформировать обучающий корпус, не нарушая доступность данных.

В службах поддержки синтетические диалоги используются для fine-tuning моделей под корпоративные сценарии: редкие запросы, часовые бреши, специфические формулировки. Система генерирует десятки тысяч примеров, повышая устойчивость модели к вариативности речи.

В CV-обучении симуляторы создают сцены с разным освещением, погодой и динамикой объектов. Например, модель детекции пешеходов получает синтетические кадры для ночных условий, которые сложно собрать в нужном объёме.

В ASR пользуются генерацией голосов: система синтезирует варианты с разной скоростью, интонацией, шумами. Это помогает улучшить устойчивость модели при реальном использовании.

В задачах тестирования синтетические данные позволяют проверить систему на гипотетических, но важных сценариях: например, проверить стабильность генеративной модели на крайне длинных цепочках reasoning, которые редко встречаются в датасетах.

Преимущества и ограничения

Плюс: восполнение дефицита данных в узких областях.
Плюс: контроль состава, сложности и распределения примеров.
Плюс: возможность моделировать редкие и критические сценарии.
Плюс: снижение зависимости от чувствительных и закрытых датасетов.
Минус: синтетические примеры могут повторять ошибки и смещения генератора.
Минус: данные нередко сохраняют статистику модели, а не реального мира.
Минус: чрезмерное использование synthetic data ухудшает обобщающие способности.
Минус: требуется строгий контроль качества и фильтрация.

Связанные термины

Data augmentation
Fine-tuning
Instruction tuning
RAG
Domain adaptation
LLM-generated data
Simulation
GAN
Diffusion models

Категория термина

Работа с данными и векторами

Экосистемы