Data augmentation для расширения обучающих данных

Термин глоссария

Data augmentation


Data augmentation — набор методов искусственного расширения обучающего корпуса путём генерации новых, слегка изменённых вариантов исходных данных для повышения устойчивости и качества модели.

Определение

Data augmentation — это процесс создания дополнительных обучающих примеров из существующих данных без их замены. Он уменьшает переобучение, повышает обобщающую способность модели и помогает компенсировать дефицит редких примеров. В классических задачах CV augmentation решает проблему недостатка разнообразия изображений, а в NLP применяется для расширения текстовых корпусов и корректировки распределения данных. В LLM augmentation часто используется в fine-tuning и создании synthetic data.

Как работает

Augmentation генерирует вариации исходного примера через контролируемые операции. Выбор метода зависит от домена:

  • CV (изображения) — поворот, кроп, цветовые сдвиги, размытие, шум, mixup, cutout, фильтрация, геометрические трансформации.
  • NLP (тексты) — перефразирование, случайная подмена слов, back-translation, маскирование токенов, синтетические диалоги, перестановка фраз.
  • Аудио — изменение высоты тона, скорость, шум, time-stretch, band-pass фильтры.
  • LLM и диалоговые модели — генерация synthetic data через сильную модель, расширение инструкций, переформулирование запросов, создание edge-case примеров.

Augmentation корректирует распределения данных, улучшает покрытие редких случаев, уменьшает доменную предвзятость и делает модель более устойчивой к шумам реального мира.

Где применяется

  • Обучение CV-моделей высокого качества (детекция, классификация, сегментация).
  • Построение текстовых корпусов для fine-tuning LLM.
  • RAG-системы — генерация вариаций запросов.
  • Speech-модели — улучшение robustness.
  • Индустриальные пайплайны с ограниченными датасетами.

Практические примеры использования

В CV augmentation — обязательный этап: детекторы объектов (YOLO, Faster R-CNN) сильнее всего зависят от широты распределения изображений. В NLP back-translation улучшает качество переводчиков и классификаторов. LLM используют augmentation для создания synthetic instruction data, что повышает качество adherence и сокращает потребность в человекоразмеченных примерах. При fine-tuning диалоговых ассистентов augmentation помогает моделям корректнее обрабатывать разнообразные стили запросов.

Ключевые свойства

  • Увеличивает объём обучающих данных без ручной разметки.
  • Снижает переобучение в малых и средних датасетах.
  • Широко применимо в разных доменах: текст, изображение, аудио.
  • Улучшает робастность и переносимость модели.
  • Поддерживает синтетическую генерацию данных для LLM.

Проблемы и ограничения

  • Некорректное augmentation может вносить искажения или шум.
  • Для LLM требуется контроль качества synthetic data.
  • Часть операций может нарушить семантику (например, замену слов без учета контекста).
  • Генерация больших объёмов данных увеличивает время обучения.
  • Не решает проблему системных провалов качества без корректной фильтрации.

Преимущества и ограничения

  • Плюс: улучшение качества модели при минимальных затратах на сбор данных.
  • Минус: риск снижения точности при агрессивных трансформациях.

Связанные термины

  • Data preprocessing
  • Synthetic data
  • Back-translation
  • Instruction tuning
  • Mixup

Категория термина

Работа с данными и векторами