Undersampling в балансировке обучающих данных

Термин глоссария

Undersampling


Undersampling — техника уменьшения количества примеров доминирующих классов для устранения дисбаланса данных и улучшения чувствительности модели к редким классам.

Определение

Undersampling — это метод балансировки датасетов, при котором часть примеров из чрезмерно большого (majority) класса удаляется или отбирается выборочно. Он применяется, когда рост объёма редких классов (oversampling) нежелателен или приводит к переобучению, а уменьшение доминирующего класса помогает выровнять распределение без генерации новых данных. Undersampling сохраняет структуру датасета, но уменьшает его общий объём.

Как работает

Undersampling реализуется несколькими способами:

  • Random undersampling — случайное удаление части примеров доминирующего класса до достижения желаемой пропорции.
  • Cluster-based undersampling — предварительная кластеризация (например, k-means) большого класса с выбором представителей из каждого кластера, чтобы сохранить разнообразие.
  • Near-miss methods — выбор примеров majority-класса, которые находятся ближе всего к меньшинству в embedding-пространстве, чтобы сохранить границы принятия решений.
  • Probabilistic undersampling — отбор на основе вероятностей, учитывающих сложность или важность примеров.

Undersampling уменьшает вычислительные затраты, поскольку модель тренируется на меньшем объёме данных, но требует аккуратного отбора, чтобы не потерять важные паттерны.

Где применяется

  • Классификация с экстремальным дисбалансом (например, медицинские данные).
  • Fraud detection, где большинство транзакций — нормальные.
  • Текстовые классификаторы с редкими классами.
  • Предиктивные модели на ограниченных вычислительных ресурсах.
  • Предварительная балансировка перед обучением LLM-классификаторов.

Практические примеры использования

В задачах мошенничества undersampling применяется для уменьшения количества «нормальных» транзакций, чтобы модель научилась лучше классифицировать редкие мошеннические случаи. В медицине это помогает компенсировать перепредставленность здоровых наблюдений. В NLP undersampling используется в датасетах тональности и токсичности, где нейтральный класс часто доминирует.

В пайплайнах для LLM undersampling может применяться к инструкционным датасетам: уменьшение числа простых инструкций предотвращает смещение модели в сторону тривиальных ответов.

Ключевые свойства

  • Устраняет дисбаланс без генерации новых данных.
  • Уменьшает вычислительные затраты на обучение.
  • Снижает смещение в сторону доминирующих классов.
  • Может использовать структурированные методы отбора.
  • Повышает качество на редких классах при корректной настройке.

Проблемы и ограничения

  • Потеря потенциально важных примеров из-за удаления данных.
  • Снижение разнообразия majority-класса.
  • Смещение границ принятия решений при неправильном выборе примеров.
  • Не подходит при малом объёме данных — риск потери ключевых паттернов.
  • Может ухудшить генерализуемость модели.

Преимущества и ограничения

  • Плюс: хорошая устойчивость при сильном дисбалансе и ограниченных ресурсах.
  • Минус: риск удаления критически важной информации.

Связанные термины

  • Oversampling
  • Class imbalance
  • SMOTE
  • Dataset curation
  • Sampling strategies

Категория термина

Работа с данными и векторами