Document chunking — техника разбиения документов на управляемые фрагменты (чанки), используемая для индексации, retrieval и подачи контекста в языковые модели.
Определение
Document chunking — это процесс разбиения длинных документов на более короткие сегменты фиксированного или адаптивного размера. Каждый чанк обрабатывается как отдельная единица: кодируется в эмбеддинг, индексируется и может независимо извлекаться поисковой системой. Chunking является базовой операцией в dense retrieval, hybrid search и RAG-системах, поскольку LLM и энкодеры имеют ограничения на длину входа.
Как работает
1. Зачем нужен chunking
- ограничение длины контекста у LLM и энкодеров;
- повышение точности retrieval;
- локализация релевантной информации;
- снижение шума при поиске.
Индексация целых документов приводит к размыванию семантики и ухудшению поиска.
2. Стратегии разбиения
Фиксированный размер
- разбиение по количеству токенов (например, 256–1024);
- простая и быстрая реализация;
- может разрывать логические блоки.
С перекрытием (overlap)
- соседние чанки пересекаются на 10–30%;
- снижает риск потери контекста;
- увеличивает размер индекса.
Структурный chunking
- разбиение по заголовкам, абзацам, спискам;
- сохраняет логическую целостность;
- зависит от качества разметки документа.
Semantic chunking
- разбиение по смене темы или семантики;
- использует embeddings или topic models;
- дороже вычислительно, но качественнее.
3. Индексация и retrieval
Каждый чанк:
- кодируется в embedding;
- сохраняется с метаданными (документ, позиция);
- участвует в поиске независимо от исходного документа.
На этапе ответа чанки могут объединяться обратно в контекст.
4. Chunking в RAG
В RAG chunking напрямую влияет на качество ответа:
- слишком мелкие чанки → потеря контекста;
- слишком крупные → нерелевантный шум;
- неудачное разбиение → hallucination.
Где применяется
- Dense retrieval и hybrid search.
- RAG-системы.
- Поиск по документации и базам знаний.
- Корпоративные ассистенты.
- Юридический и технический поиск.
Практические примеры использования
В production-RAG типовая конфигурация — чанки по 300–500 токенов с overlap 50–100 токенов. Для технической документации часто применяется структурный chunking по заголовкам. В юридических текстах используются более крупные чанки, чтобы сохранить контекст формулировок.
Некоторые системы используют adaptive chunking: сначала грубое разбиение, затем semantic refinement для ключевых разделов.
Ключевые свойства
- Контроль размера контекста.
- Локализация релевантной информации.
- Прямая связь с качеством retrieval.
- Гибкость стратегий под домен.
- Метаданные позволяют восстановить источник.
Проблемы и ограничения
- Компромисс между размером и целостностью.
- Рост индекса при overlap.
- Сложность semantic chunking.
- Ошибки при неструктурированных документах.
- Зависимость от downstream reranker и LLM.
Преимущества и ограничения
- Плюс: значительное улучшение точности поиска.
- Минус: требует тонкой настройки под тип данных.
Связанные термины
- Dense retrieval
- RAG
- Embedding
- Reranker
- Context window