Web-scale dataset — огромный корпус данных веб-происхождения, включающий миллиарды или триллионы токенов, используемый для обучения крупных моделей и требующий сложного многоступенчатого отбора и очистки.
Определение
Web-scale dataset — это массив данных веб-происхождения, собираемый в масштабах целого интернета: сайты, блоги, документация, форумы, репозитории кода, публичные архивы. Объём таких наборов измеряется сотнями миллиардов или триллионами токенов. Они составляют основу современных LLM, обеспечивая широкий охват языковых форм, доменов и стилей. При этом качество веб-данных крайне неоднородно, поэтому web-scale корпуса требуют сложной инфраструктуры для очистки, фильтрации, нормализации и дедупликации.
Как работает
Создание web-scale dataset включает многоуровневый пайплайн:
- Web crawling — масштабное скачивание сайтов: новостных порталов, технических форумов, документации, вики-проектов, открытых архивов, GitHub-репозиториев.
- Parsing — извлечение только текстового содержимого: удаление HTML, скриптов, рекламных блоков, меню, навигации.
- Data cleaning — фильтрация мусорных символов, кодировок, автогенерации низкого качества, SEO-спама.
- Data filtering — ML-модели определяют полезность, связность, токсичность, оригинальность.
- Deduplication — поиск и удаление полных и частичных дублей через MinHash, LSH и embedding-поиск.
- Normalization — юникод, пунктуация, токенизация, разбиение на сегменты.
- Domain balancing — корректировка распределений по темам, источникам, языкам.
- Sharding — упаковка в распределённый формат (MDS, WebDataset, Parquet) для обучения на кластерах.
Web-scale dataset — это не просто большой набор данных, а тщательно контролируемая система отбора, аналогичная промышленному pipeline, где каждый этап снижает шум и улучшает итоговое качество модели.
Где применяется
- Обучение больших языковых моделей (LLM).
- Подготовка корпусов для embedding-моделей и retrieval-движков.
- Модели кода — сбор GitHub-данных веб-масштаба.
- Корпуса для RAG-систем и multi-hop reasoning.
- Мультимодальные модели, использующие текстовые описания.
Практические примеры использования
Корпуса для LLaMA, Mistral, Qwen, MiniMax, DeepSeek и других LLM создаются как web-scale datasets. Эти компании используют собственные веб-краулеры, ML-фильтры качества, многоуровневую дедупликацию и доменную балансировку. Из десятков триллионов токенов сырого интернета после фильтрации остаётся только малая часть — «чистое ядро» данных. Современные компании включают специальные сегменты: техническую документацию, код, научные статьи, высококачественные блоги.
В кодовых моделях используются web-scale corpora GitHub-репозиториев с глубокой очисткой и фильтрацией лицензионных ограничений.
Ключевые свойства
- Экстремально большой объём данных.
- Гетерогенность источников и стилей.
- Необходимость глубокого cleaning, filtering и deduplication.
- Высокая сложность построения пайплайна и контроля качества.
- Критическое влияние на способности модели к генерации и reasoning.
Проблемы и ограничения
- Высокий уровень шума и нерелевантного контента в сыром вебе.
- Риск contamination тестовых наборов.
- Сложность дедупликации в триллионных корпусах.
- Юридические вопросы и лицензии на веб-контент.
- Сильная зависимость от качества фильтров и доменной балансировки.
Преимущества и ограничения
- Плюс: даёт модели широкое языковое покрытие и богатые знания.
- Минус: требует сложной инфраструктуры и строгой фильтрации качества.
Связанные термины
- Web crawling
- Data cleaning
- Data filtering
- Data deduplication
- Dataset curation