Web-scale dataset в обучении крупных моделей

Термин глоссария

Web-scale dataset


Web-scale dataset — огромный корпус данных веб-происхождения, включающий миллиарды или триллионы токенов, используемый для обучения крупных моделей и требующий сложного многоступенчатого отбора и очистки.

Определение

Web-scale dataset — это массив данных веб-происхождения, собираемый в масштабах целого интернета: сайты, блоги, документация, форумы, репозитории кода, публичные архивы. Объём таких наборов измеряется сотнями миллиардов или триллионами токенов. Они составляют основу современных LLM, обеспечивая широкий охват языковых форм, доменов и стилей. При этом качество веб-данных крайне неоднородно, поэтому web-scale корпуса требуют сложной инфраструктуры для очистки, фильтрации, нормализации и дедупликации.

Как работает

Создание web-scale dataset включает многоуровневый пайплайн:

  • Web crawling — масштабное скачивание сайтов: новостных порталов, технических форумов, документации, вики-проектов, открытых архивов, GitHub-репозиториев.
  • Parsing — извлечение только текстового содержимого: удаление HTML, скриптов, рекламных блоков, меню, навигации.
  • Data cleaning — фильтрация мусорных символов, кодировок, автогенерации низкого качества, SEO-спама.
  • Data filtering — ML-модели определяют полезность, связность, токсичность, оригинальность.
  • Deduplication — поиск и удаление полных и частичных дублей через MinHash, LSH и embedding-поиск.
  • Normalization — юникод, пунктуация, токенизация, разбиение на сегменты.
  • Domain balancing — корректировка распределений по темам, источникам, языкам.
  • Sharding — упаковка в распределённый формат (MDS, WebDataset, Parquet) для обучения на кластерах.

Web-scale dataset — это не просто большой набор данных, а тщательно контролируемая система отбора, аналогичная промышленному pipeline, где каждый этап снижает шум и улучшает итоговое качество модели.

Где применяется

  • Обучение больших языковых моделей (LLM).
  • Подготовка корпусов для embedding-моделей и retrieval-движков.
  • Модели кода — сбор GitHub-данных веб-масштаба.
  • Корпуса для RAG-систем и multi-hop reasoning.
  • Мультимодальные модели, использующие текстовые описания.

Практические примеры использования

Корпуса для LLaMA, Mistral, Qwen, MiniMax, DeepSeek и других LLM создаются как web-scale datasets. Эти компании используют собственные веб-краулеры, ML-фильтры качества, многоуровневую дедупликацию и доменную балансировку. Из десятков триллионов токенов сырого интернета после фильтрации остаётся только малая часть — «чистое ядро» данных. Современные компании включают специальные сегменты: техническую документацию, код, научные статьи, высококачественные блоги.

В кодовых моделях используются web-scale corpora GitHub-репозиториев с глубокой очисткой и фильтрацией лицензионных ограничений.

Ключевые свойства

  • Экстремально большой объём данных.
  • Гетерогенность источников и стилей.
  • Необходимость глубокого cleaning, filtering и deduplication.
  • Высокая сложность построения пайплайна и контроля качества.
  • Критическое влияние на способности модели к генерации и reasoning.

Проблемы и ограничения

  • Высокий уровень шума и нерелевантного контента в сыром вебе.
  • Риск contamination тестовых наборов.
  • Сложность дедупликации в триллионных корпусах.
  • Юридические вопросы и лицензии на веб-контент.
  • Сильная зависимость от качества фильтров и доменной балансировки.

Преимущества и ограничения

  • Плюс: даёт модели широкое языковое покрытие и богатые знания.
  • Минус: требует сложной инфраструктуры и строгой фильтрации качества.

Связанные термины

  • Web crawling
  • Data cleaning
  • Data filtering
  • Data deduplication
  • Dataset curation

Категория термина

Работа с данными и векторами