Data cleaning в подготовке данных для моделей

Термин глоссария

Data cleaning


Data cleaning — процесс удаления шумов, артефактов, повреждённых фрагментов и нежелательного контента для формирования чистого обучающего корпуса.

Определение

Data cleaning — это этап подготовки данных, направленный на устранение мусора, ошибок форматирования, HTML-артефактов, невалидных символов, некорректной разметки, автогенерированного спама и других проблем, ухудшающих качество обучения моделей. Для LLM это один из ключевых процессов: грязные данные увеличивают число токенов без пользы, вводят шум в распределения и приводят к деградации генерации.

Как работает

Очистка данных включает набор последовательных процедур, каждая из которых корректирует определённый класс ошибок. Типичный pipeline включает:

  • Удаление HTML и тегов — извлечение только полезного текстового содержимого, исключая скрипты, стили, служебные структуры.
  • Удаление мусорных символов — повреждённые юникод-символы, артефакты кодировок, повторяющиеся пробелы, невидимые символы.
  • Фильтрация автогенерированного контента — SEO-спам, машинные статьи, низкокачественные агрегаторы, неинформативные тексты.
  • Удаление явных ошибок — дубли блоков, сломанные структуры таблиц, неправильная сегментация.
  • Нормализация — унификация пунктуации, пробелов, переводов строк, юникод-нормализация (NFC/NFKC), очистка от эмодзи, если они нецелевые.
  • Фильтрация нежелательных доменов — low-quality источники, сайты с шаблонным контентом, дорвеи.
  • Удаление пустых и слишком коротких записей — минимальная длина предотвращает включение нерелевантных фрагментов.

В больших корпусах cleaning автоматизируется с помощью регулярных выражений, ML-классификаторов качества текста и эвристик. Несколько уровней фильтрации обычно применяются каскадно, чтобы минимизировать ложные удаления.

Где применяется

  • Создание корпусов для LLM от нескольких миллиардов до триллионов токенов.
  • Подготовка данных для embedding-моделей.
  • RAG-пайплайны — очистка документов перед векторизацией.
  • Компьютерное зрение — очистка метаданных и структурированных полей.
  • Корпоративные системы документооборота.

Практические примеры использования

В подготовке данных для LLaMA, Mistral и Qwen применяется многоступенчатый cleaning: удаление HTML, агрессивная фильтрация спама, ML-фильтры качества и юникод-нормализация. Некоторые компании используют отдельные модели для классификации «high-quality text» и отклоняют десятки процентов сырого веб-контента. В корпоративных LLM cleaning включает анонимизацию персональных данных и удаление служебных шаблонов.

В RAG cleaning улучшает точность retrieval: нормализованный текст легче разбить на абзацы и индексировать, что уменьшает шум в векторной базе.

Ключевые свойства

  • Снижение уровня шума и мусора в корпусе.
  • Контроль качества источников и структур.
  • Уменьшение токенов без семантической ценности.
  • Поддержка корректной токенизации.
  • Основа для дедупликации и дальнейшей фильтрации.

Проблемы и ограничения

  • Избыточная очистка может удалить полезные редкие примеры.
  • Автоматические фильтры ошибаются на пограничных случаях.
  • Высокая вычислительная стоимость при триллионных корпусах.
  • Сложность балансировки уровень шума / сохранение разнообразия.
  • Ручная разметка для ML-фильтров увеличивает стоимость пайплайна.

Преимущества и ограничения

  • Плюс: значительное улучшение качества моделей за счет чистого корпуса.
  • Минус: требует сложной и дорогой инфраструктуры.

Связанные термины

  • Data preprocessing
  • Data deduplication
  • Dataset curation
  • Tokenization
  • Quality filtering

Категория термина

Работа с данными и векторами