Термин глоссария

Data augmentation

Data augmentation — набор методов искусственного расширения обучающего корпуса путём генерации новых, слегка изменённых вариантов исходных данных для повышения устойчивости и качества модели.

Определение

Data augmentation — это процесс создания дополнительных обучающих примеров из существующих данных без их замены. Он уменьшает переобучение, повышает обобщающую способность модели и помогает компенсировать дефицит редких примеров. В классических задачах CV augmentation решает проблему недостатка разнообразия изображений, а в NLP применяется для расширения текстовых корпусов и корректировки распределения данных. В LLM augmentation часто используется в fine-tuning и создании synthetic data.

Как работает

Augmentation генерирует вариации исходного примера через контролируемые операции. Выбор метода зависит от домена:

CV (изображения) — поворот, кроп, цветовые сдвиги, размытие, шум, mixup, cutout, фильтрация, геометрические трансформации.
NLP (тексты) — перефразирование, случайная подмена слов, back-translation, маскирование токенов, синтетические диалоги, перестановка фраз.
Аудио — изменение высоты тона, скорость, шум, time-stretch, band-pass фильтры.
LLM и диалоговые модели — генерация synthetic data через сильную модель, расширение инструкций, переформулирование запросов, создание edge-case примеров.

Augmentation корректирует распределения данных, улучшает покрытие редких случаев, уменьшает доменную предвзятость и делает модель более устойчивой к шумам реального мира.

Где применяется

Обучение CV-моделей высокого качества (детекция, классификация, сегментация).
Построение текстовых корпусов для fine-tuning LLM.
RAG-системы — генерация вариаций запросов.
Speech-модели — улучшение robustness.
Индустриальные пайплайны с ограниченными датасетами.

Практические примеры использования

В CV augmentation — обязательный этап: детекторы объектов (YOLO, Faster R-CNN) сильнее всего зависят от широты распределения изображений. В NLP back-translation улучшает качество переводчиков и классификаторов. LLM используют augmentation для создания synthetic instruction data, что повышает качество adherence и сокращает потребность в человекоразмеченных примерах. При fine-tuning диалоговых ассистентов augmentation помогает моделям корректнее обрабатывать разнообразные стили запросов.

Ключевые свойства

Увеличивает объём обучающих данных без ручной разметки.
Снижает переобучение в малых и средних датасетах.
Широко применимо в разных доменах: текст, изображение, аудио.
Улучшает робастность и переносимость модели.
Поддерживает синтетическую генерацию данных для LLM.

Проблемы и ограничения

Некорректное augmentation может вносить искажения или шум.
Для LLM требуется контроль качества synthetic data.
Часть операций может нарушить семантику (например, замену слов без учета контекста).
Генерация больших объёмов данных увеличивает время обучения.
Не решает проблему системных провалов качества без корректной фильтрации.

Преимущества и ограничения

Плюс: улучшение качества модели при минимальных затратах на сбор данных.
Минус: риск снижения точности при агрессивных трансформациях.

Связанные термины

Data preprocessing
Synthetic data
Back-translation
Instruction tuning
Mixup

Категория термина

Работа с данными и векторами

Экосистемы