Data filtering в подготовке обучающих данных

Термин глоссария

Data filtering


Data filtering — система правил и моделей, которая отбирает качественные данные и удаляет шум, токсичность, дубляжи, автогенерацию и нерелевантные фрагменты перед обучением моделей.

Определение

Data filtering — это этап подготовки данных, в котором данные оцениваются по множеству критериев — качества, полезности, оригинальности, безопасности, доменной релевантности — и проходят отбор. Фильтрация устраняет низкокачественные тексты, вредоносный контент, спам, машинные заготовки, токсичность, документы с неправильной структурой и примеры, не подходящие под цели обучения. В крупных LLM-пайплайнах filtering работает вместе с cleaning, deduplication и curation, формируя «чистое ядро» корпуса.

Как работает

Filtering сочетает эвристики, регулярные выражения, ML-классификаторы и встроенные модели качества. Процесс обычно многоступенчатый:

  • Rule-based фильтры — жесткие правила для удаления заведомо мусорного текста:
    • слишком короткие или слишком длинные документы;
    • аномальное количество повторов символов;
    • низкая доля словарных токенов;
    • HTML/JS-спам, навигационные блоки, служебные шаблоны.
  • ML-фильтры качества — модели, оценивающие:
    • лингвистическую связность;
    • semantic usefulness (полезность);
    • level of redundancy;
    • detox: токсичность, оскорбления, ненормативная лексика;
    • is-machine-generated: выявление низкокачественной автогенерации.
  • Domain filters — отбор по темам, языкам, типам документов, датам.
  • Format filters — удаление структур, несовместимых с обучением (сломанные таблицы, некорректные JSON, пустые PDF-конверсии).
  • Semantic filtering — сравнение embedding-векторов для выявления нерелевантных или повторяющихся фрагментов.

Пайплайн фильтрации часто строится как каскад: дешёвые эвристики → быстрые ML-модели → дорогой семантический отбор. Это позволяет масштабировать filtering на сотни миллиардов токенов.

Где применяется

  • Подготовка обучающих корпусов для больших языковых моделей.
  • Отбор данных для SFT и RLHF.
  • Фильтрация документов для RAG-пайплайнов.
  • Корпоративные системы, требующие строгих правил безопасности.
  • Создание доменно-чистых датасетов для классификаторов и embedding-моделей.

Практические примеры использования

В пайплайнах подготовки LLaMA, Mistral, Qwen и других крупных моделей используется многоуровневая фильтрация. Например, удаляются SEO-статьи, форумный спам, автогенерация низкого качества, токсичность и документы с семантической избыточностью. После rule-based этапа часто применяется ML-модель оценки полезности текста, обученная на человеческих размеченных примерах. Для контроля дублей filtering интегрируется с deduplication.

В корпоративных LLM используется специализированная фильтрация: удаление чувствительных данных, технических артефактов, служебных шаблонов, внутренних идентификаторов.

Ключевые свойства

  • Убирает шум, снижая переобучение.
  • Формирует набор данных, релевантный целевой задаче.
  • Отсекает токсичные или небезопасные примеры.
  • Уменьшает объём корпуса без потери качества.
  • Работает в связке с cleaning и deduplication.

Проблемы и ограничения

  • Перефильтрация может удалить редкие, но важные примеры.
  • Некорректные ML-фильтры могут вносить систематическое смещение.
  • Дорогие семантические фильтры плохо масштабируются.
  • Токсичность и генеративный спам плохо выявляются простыми правилами.
  • Несовместимость фильтров по разным доменам требует сложной настройки.

Преимущества и ограничения

  • Плюс: значительно повышает качество и устойчивость итоговой модели.
  • Минус: требует сложной инфраструктуры и аккуратного баланса правил.

Связанные термины

  • Data cleaning
  • Data preprocessing
  • Data deduplication
  • Quality filtering
  • Dataset curation

Категория термина

Работа с данными и векторами