Data augmentation — набор методов искусственного расширения обучающего корпуса путём генерации новых, слегка изменённых вариантов исходных данных для повышения устойчивости и качества модели.
Определение
Data augmentation — это процесс создания дополнительных обучающих примеров из существующих данных без их замены. Он уменьшает переобучение, повышает обобщающую способность модели и помогает компенсировать дефицит редких примеров. В классических задачах CV augmentation решает проблему недостатка разнообразия изображений, а в NLP применяется для расширения текстовых корпусов и корректировки распределения данных. В LLM augmentation часто используется в fine-tuning и создании synthetic data.
Как работает
Augmentation генерирует вариации исходного примера через контролируемые операции. Выбор метода зависит от домена:
- CV (изображения) — поворот, кроп, цветовые сдвиги, размытие, шум, mixup, cutout, фильтрация, геометрические трансформации.
- NLP (тексты) — перефразирование, случайная подмена слов, back-translation, маскирование токенов, синтетические диалоги, перестановка фраз.
- Аудио — изменение высоты тона, скорость, шум, time-stretch, band-pass фильтры.
- LLM и диалоговые модели — генерация synthetic data через сильную модель, расширение инструкций, переформулирование запросов, создание edge-case примеров.
Augmentation корректирует распределения данных, улучшает покрытие редких случаев, уменьшает доменную предвзятость и делает модель более устойчивой к шумам реального мира.
Где применяется
- Обучение CV-моделей высокого качества (детекция, классификация, сегментация).
- Построение текстовых корпусов для fine-tuning LLM.
- RAG-системы — генерация вариаций запросов.
- Speech-модели — улучшение robustness.
- Индустриальные пайплайны с ограниченными датасетами.
Практические примеры использования
В CV augmentation — обязательный этап: детекторы объектов (YOLO, Faster R-CNN) сильнее всего зависят от широты распределения изображений. В NLP back-translation улучшает качество переводчиков и классификаторов. LLM используют augmentation для создания synthetic instruction data, что повышает качество adherence и сокращает потребность в человекоразмеченных примерах. При fine-tuning диалоговых ассистентов augmentation помогает моделям корректнее обрабатывать разнообразные стили запросов.
Ключевые свойства
- Увеличивает объём обучающих данных без ручной разметки.
- Снижает переобучение в малых и средних датасетах.
- Широко применимо в разных доменах: текст, изображение, аудио.
- Улучшает робастность и переносимость модели.
- Поддерживает синтетическую генерацию данных для LLM.
Проблемы и ограничения
- Некорректное augmentation может вносить искажения или шум.
- Для LLM требуется контроль качества synthetic data.
- Часть операций может нарушить семантику (например, замену слов без учета контекста).
- Генерация больших объёмов данных увеличивает время обучения.
- Не решает проблему системных провалов качества без корректной фильтрации.
Преимущества и ограничения
- Плюс: улучшение качества модели при минимальных затратах на сбор данных.
- Минус: риск снижения точности при агрессивных трансформациях.
Связанные термины
- Data preprocessing
- Synthetic data
- Back-translation
- Instruction tuning
- Mixup