Термин глоссария

Balanced dataset

Balanced dataset — набор данных, в котором все классы или категории представлены примерно одинаковым количеством примеров, что снижает смещение модели и улучшает качество обучения на редких классах.

Определение

Balanced dataset — это корпус, в котором распределение классов или категорий выровнено. Такой датасет устраняет смещение в сторону доминирующих классов и позволяет модели одинаково хорошо обрабатывать все типы входных данных. В задачах классификации, ранжирования, токсичности, тональности или анализа событий балансировка является критическим аспектом: без неё модель оптимизируется под наиболее частые классы и игнорирует редкие.

Как работает

Балансировка датасета достигается разными методами, в зависимости от исходных данных и задачи:

Oversampling — увеличение числа примеров редких классов (дублирование или синтетическая генерация).
Undersampling — сокращение доминирующих классов.
Hybrid sampling — комбинация oversampling и undersampling для минимизации потерь и предотвращения переобучения.
Class-weighting — использование несбалансированных данных, но с весами классов в функции потерь.
Data augmentation — создание дополнительных примеров через трансформации или генерацию.

В LLM балансировка может применяться не только к классам, но и к доменам, стилям, типам задач, уровням сложности, языкам и форматам инструкций. Balanced dataset снижает доменную предвзятость модели и улучшает переносимость.

Где применяется

Классификация с несколькими классами или категориями.
Fraud detection и аномалий — компенсация редких событий.
NLP-модели токсичности, тональности, намерений.
Корпоративные LLM — балансировка типов запросов.
Обучение моделей компьютерного зрения.

Практические примеры использования

В задачах диалоговых ассистентов важно сбалансировать типы запросов: технические, бытовые, аналитические, запросы на код, рассуждения, резюмирование. Дисбаланс приводит к тому, что модель хорошо отвечает лишь на популярные темы. В CV balanced datasets используются для детекции объектов: при перекосе модель игнорирует редкие категории.

В корпоративных LLM balanced dataset применяется для выравнивания частоты доменных задач: юридические инструкции, аналитику, отчёты, бухгалтерские запросы. Балансировка позволяет модели одинаково стабильно работать во всех доменах.

Ключевые свойства

Снижает смещение в сторону популярных классов.
Повышает чувствительность к редким случаям.
Улучшает итоговые метрики (F1, recall) на малых классах.
Поддерживает равномерное обучение на всех типах данных.
Позволяет контролировать доменные распределения.

Проблемы и ограничения

Сильная балансировка может исказить естественное распределение данных.
Undersampling уменьшает общий объём данных и разнообразие.
Oversampling создаёт риск переобучения на дубликатах.
Синтетические примеры низкого качества ухудшают модель.
Трудно выровнять редкие паттерны в сложных задачах (например, reasoning).

Преимущества и ограничения

Плюс: улучшает качество модели на редких классах и снижает смещение.
Минус: требует аккуратной настройки и может нарушить реалистичность данных.

Связанные термины

Oversampling
Undersampling
Data augmentation
Class imbalance
Dataset curation

Категория термина

Работа с данными и векторами

Экосистемы