Data filtering — система правил и моделей, которая отбирает качественные данные и удаляет шум, токсичность, дубляжи, автогенерацию и нерелевантные фрагменты перед обучением моделей.
Определение
Data filtering — это этап подготовки данных, в котором данные оцениваются по множеству критериев — качества, полезности, оригинальности, безопасности, доменной релевантности — и проходят отбор. Фильтрация устраняет низкокачественные тексты, вредоносный контент, спам, машинные заготовки, токсичность, документы с неправильной структурой и примеры, не подходящие под цели обучения. В крупных LLM-пайплайнах filtering работает вместе с cleaning, deduplication и curation, формируя «чистое ядро» корпуса.
Как работает
Filtering сочетает эвристики, регулярные выражения, ML-классификаторы и встроенные модели качества. Процесс обычно многоступенчатый:
- Rule-based фильтры — жесткие правила для удаления заведомо мусорного текста:
- слишком короткие или слишком длинные документы;
- аномальное количество повторов символов;
- низкая доля словарных токенов;
- HTML/JS-спам, навигационные блоки, служебные шаблоны.
- ML-фильтры качества — модели, оценивающие:
- лингвистическую связность;
- semantic usefulness (полезность);
- level of redundancy;
- detox: токсичность, оскорбления, ненормативная лексика;
- is-machine-generated: выявление низкокачественной автогенерации.
- Domain filters — отбор по темам, языкам, типам документов, датам.
- Format filters — удаление структур, несовместимых с обучением (сломанные таблицы, некорректные JSON, пустые PDF-конверсии).
- Semantic filtering — сравнение embedding-векторов для выявления нерелевантных или повторяющихся фрагментов.
Пайплайн фильтрации часто строится как каскад: дешёвые эвристики → быстрые ML-модели → дорогой семантический отбор. Это позволяет масштабировать filtering на сотни миллиардов токенов.
Где применяется
- Подготовка обучающих корпусов для больших языковых моделей.
- Отбор данных для SFT и RLHF.
- Фильтрация документов для RAG-пайплайнов.
- Корпоративные системы, требующие строгих правил безопасности.
- Создание доменно-чистых датасетов для классификаторов и embedding-моделей.
Практические примеры использования
В пайплайнах подготовки LLaMA, Mistral, Qwen и других крупных моделей используется многоуровневая фильтрация. Например, удаляются SEO-статьи, форумный спам, автогенерация низкого качества, токсичность и документы с семантической избыточностью. После rule-based этапа часто применяется ML-модель оценки полезности текста, обученная на человеческих размеченных примерах. Для контроля дублей filtering интегрируется с deduplication.
В корпоративных LLM используется специализированная фильтрация: удаление чувствительных данных, технических артефактов, служебных шаблонов, внутренних идентификаторов.
Ключевые свойства
- Убирает шум, снижая переобучение.
- Формирует набор данных, релевантный целевой задаче.
- Отсекает токсичные или небезопасные примеры.
- Уменьшает объём корпуса без потери качества.
- Работает в связке с cleaning и deduplication.
Проблемы и ограничения
- Перефильтрация может удалить редкие, но важные примеры.
- Некорректные ML-фильтры могут вносить систематическое смещение.
- Дорогие семантические фильтры плохо масштабируются.
- Токсичность и генеративный спам плохо выявляются простыми правилами.
- Несовместимость фильтров по разным доменам требует сложной настройки.
Преимущества и ограничения
- Плюс: значительно повышает качество и устойчивость итоговой модели.
- Минус: требует сложной инфраструктуры и аккуратного баланса правил.
Связанные термины
- Data cleaning
- Data preprocessing
- Data deduplication
- Quality filtering
- Dataset curation