Термин глоссария

Data filtering

Data filtering — система правил и моделей, которая отбирает качественные данные и удаляет шум, токсичность, дубляжи, автогенерацию и нерелевантные фрагменты перед обучением моделей.

Определение

Data filtering — это этап подготовки данных, в котором данные оцениваются по множеству критериев — качества, полезности, оригинальности, безопасности, доменной релевантности — и проходят отбор. Фильтрация устраняет низкокачественные тексты, вредоносный контент, спам, машинные заготовки, токсичность, документы с неправильной структурой и примеры, не подходящие под цели обучения. В крупных LLM-пайплайнах filtering работает вместе с cleaning, deduplication и curation, формируя «чистое ядро» корпуса.

Как работает

Filtering сочетает эвристики, регулярные выражения, ML-классификаторы и встроенные модели качества. Процесс обычно многоступенчатый:

Rule-based фильтры — жесткие правила для удаления заведомо мусорного текста:
- слишком короткие или слишком длинные документы;
- аномальное количество повторов символов;
- низкая доля словарных токенов;
- HTML/JS-спам, навигационные блоки, служебные шаблоны.
ML-фильтры качества — модели, оценивающие:
- лингвистическую связность;
- semantic usefulness (полезность);
- level of redundancy;
- detox: токсичность, оскорбления, ненормативная лексика;
- is-machine-generated: выявление низкокачественной автогенерации.
Domain filters — отбор по темам, языкам, типам документов, датам.
Format filters — удаление структур, несовместимых с обучением (сломанные таблицы, некорректные JSON, пустые PDF-конверсии).
Semantic filtering — сравнение embedding-векторов для выявления нерелевантных или повторяющихся фрагментов.

Пайплайн фильтрации часто строится как каскад: дешёвые эвристики → быстрые ML-модели → дорогой семантический отбор. Это позволяет масштабировать filtering на сотни миллиардов токенов.

Где применяется

Подготовка обучающих корпусов для больших языковых моделей.
Отбор данных для SFT и RLHF.
Фильтрация документов для RAG-пайплайнов.
Корпоративные системы, требующие строгих правил безопасности.
Создание доменно-чистых датасетов для классификаторов и embedding-моделей.

Практические примеры использования

В пайплайнах подготовки LLaMA, Mistral, Qwen и других крупных моделей используется многоуровневая фильтрация. Например, удаляются SEO-статьи, форумный спам, автогенерация низкого качества, токсичность и документы с семантической избыточностью. После rule-based этапа часто применяется ML-модель оценки полезности текста, обученная на человеческих размеченных примерах. Для контроля дублей filtering интегрируется с deduplication.

В корпоративных LLM используется специализированная фильтрация: удаление чувствительных данных, технических артефактов, служебных шаблонов, внутренних идентификаторов.

Ключевые свойства

Убирает шум, снижая переобучение.
Формирует набор данных, релевантный целевой задаче.
Отсекает токсичные или небезопасные примеры.
Уменьшает объём корпуса без потери качества.
Работает в связке с cleaning и deduplication.

Проблемы и ограничения

Перефильтрация может удалить редкие, но важные примеры.
Некорректные ML-фильтры могут вносить систематическое смещение.
Дорогие семантические фильтры плохо масштабируются.
Токсичность и генеративный спам плохо выявляются простыми правилами.
Несовместимость фильтров по разным доменам требует сложной настройки.

Преимущества и ограничения

Плюс: значительно повышает качество и устойчивость итоговой модели.
Минус: требует сложной инфраструктуры и аккуратного баланса правил.

Связанные термины

Data cleaning
Data preprocessing
Data deduplication
Quality filtering
Dataset curation

Категория термина

Работа с данными и векторами

Экосистемы