Термин глоссария

Data contamination

Data contamination — ситуация, когда данные из тестовых или валидационных наборов попадают в обучающий корпус, что делает итоговые метрики недостоверными и маскирует реальные ошибки модели.

Определение

Data contamination — это пересечение обучающих данных с тестовыми или валидационными наборами. Модель видит часть теста во время тренировки, что приводит к ложному росту метрик, ухудшает обобщение и делает сравнение моделей некорректным. В контексте LLM contamination проявляется особенно остро: большие веб-корпуса часто содержат копии задач, датасетов, кодовых решений и онлайн-тестов, что искажает реальную способность модели решать новые задачи.

Как работает

Источник contamination — совпадения между train-данными и evaluation-наборами. Пересечения могут быть прямыми (дословными) или структурными (парафразы, кусочные совпадения). Основные механизмы:

Дословные пересечения — точные копии задач, кодов, статей или примеров.
Фрагментарные пересечения — попадание частей тестовых данных в виде абзацев или чанков.
Семантические совпадения — парафразы или переписанные версии тестовых примеров.
Источники-агрегаторы — веб-площадки, копирующие материалы из учебных наборов.
Генеративные утечки — synthetic data, случайно воссоздающие примеры из тестов.

При наличии contamination модель демонстрирует высокие метрики на популярных бенчмарках (например, MMLU, GSM8K, HumanEval), но проваливается на новых задачах. Ошибка заключается не в алгоритме, а в недостоверной оценке качества.

Где применяется

Оценка LLM на стандартных бенчмарках.
Тестирование моделей кодогенерации.
Анализ качества RAG-систем и embedding-моделей.
Верификация корпоративных датасетов.
Контроль качества synthetic data.

Практические примеры использования

Исследования показывают, что многие модели содержат contamination популярных тестов: задачи из GSM8K и MMLU встречаются в веб-корпусах, решения из LeetCode — в открытых code dumps, части HumanEval — в GitHub-коде. Компании внедряют многоуровневые проверки: MinHash для грубого поиска совпадений, embedding-сравнение для семантических дублей, удаление источников, совпадающих с evaluation-наборами.

В корпоративной среде contamination особенно критична: попадание тестовых ответов в обучающий набор делает внутренние метрики бесполезными и маскирует реальные пробелы модели.

Ключевые свойства

Искажает результат тестирования и завышает качество модели.
Может быть прямым, частичным или семантическим.
Трудно обнаружить в больших корпусах при слабой сегментации данных.
Требует алгоритмического контроля перекрытий.
Нарушает воспроизводимость сравнений между моделями.

Проблемы и ограничения

Точный контроль contamination требует дорогих вычислений.
Embedding-поиск частично дублирующегося контента масштабируется сложно.
Некоторые источники тестов существуют в десятках копий — их трудно полностью исключить.
Семантические пересечения почти невозможно найти эвристиками.
Удаление пересечений может уменьшить полезный объём данных.

Преимущества и ограничения

Плюс: обнаружение contamination позволяет строить честные метрики и корректные сравнения моделей.
Минус: отсутствие эталонных методов полного выявления пересечений.

Связанные термины

Data preprocessing
Data deduplication
Dataset curation
Benchmark leakage
Evaluation integrity

Категория термина

Работа с данными и векторами

Экосистемы