Термин глоссария

Web-scale dataset

Web-scale dataset — огромный корпус данных веб-происхождения, включающий миллиарды или триллионы токенов, используемый для обучения крупных моделей и требующий сложного многоступенчатого отбора и очистки.

Определение

Web-scale dataset — это массив данных веб-происхождения, собираемый в масштабах целого интернета: сайты, блоги, документация, форумы, репозитории кода, публичные архивы. Объём таких наборов измеряется сотнями миллиардов или триллионами токенов. Они составляют основу современных LLM, обеспечивая широкий охват языковых форм, доменов и стилей. При этом качество веб-данных крайне неоднородно, поэтому web-scale корпуса требуют сложной инфраструктуры для очистки, фильтрации, нормализации и дедупликации.

Как работает

Создание web-scale dataset включает многоуровневый пайплайн:

Web crawling — масштабное скачивание сайтов: новостных порталов, технических форумов, документации, вики-проектов, открытых архивов, GitHub-репозиториев.
Parsing — извлечение только текстового содержимого: удаление HTML, скриптов, рекламных блоков, меню, навигации.
Data cleaning — фильтрация мусорных символов, кодировок, автогенерации низкого качества, SEO-спама.
Data filtering — ML-модели определяют полезность, связность, токсичность, оригинальность.
Deduplication — поиск и удаление полных и частичных дублей через MinHash, LSH и embedding-поиск.
Normalization — юникод, пунктуация, токенизация, разбиение на сегменты.
Domain balancing — корректировка распределений по темам, источникам, языкам.
Sharding — упаковка в распределённый формат (MDS, WebDataset, Parquet) для обучения на кластерах.

Web-scale dataset — это не просто большой набор данных, а тщательно контролируемая система отбора, аналогичная промышленному pipeline, где каждый этап снижает шум и улучшает итоговое качество модели.

Где применяется

Обучение больших языковых моделей (LLM).
Подготовка корпусов для embedding-моделей и retrieval-движков.
Модели кода — сбор GitHub-данных веб-масштаба.
Корпуса для RAG-систем и multi-hop reasoning.
Мультимодальные модели, использующие текстовые описания.

Практические примеры использования

Корпуса для LLaMA, Mistral, Qwen, MiniMax, DeepSeek и других LLM создаются как web-scale datasets. Эти компании используют собственные веб-краулеры, ML-фильтры качества, многоуровневую дедупликацию и доменную балансировку. Из десятков триллионов токенов сырого интернета после фильтрации остаётся только малая часть — «чистое ядро» данных. Современные компании включают специальные сегменты: техническую документацию, код, научные статьи, высококачественные блоги.

В кодовых моделях используются web-scale corpora GitHub-репозиториев с глубокой очисткой и фильтрацией лицензионных ограничений.

Ключевые свойства

Экстремально большой объём данных.
Гетерогенность источников и стилей.
Необходимость глубокого cleaning, filtering и deduplication.
Высокая сложность построения пайплайна и контроля качества.
Критическое влияние на способности модели к генерации и reasoning.

Проблемы и ограничения

Высокий уровень шума и нерелевантного контента в сыром вебе.
Риск contamination тестовых наборов.
Сложность дедупликации в триллионных корпусах.
Юридические вопросы и лицензии на веб-контент.
Сильная зависимость от качества фильтров и доменной балансировки.

Преимущества и ограничения

Плюс: даёт модели широкое языковое покрытие и богатые знания.
Минус: требует сложной инфраструктуры и строгой фильтрации качества.

Связанные термины

Web crawling
Data cleaning
Data filtering
Data deduplication
Dataset curation

Категория термина

Работа с данными и векторами

Экосистемы