Термин глоссария

Document chunking

Document chunking — техника разбиения документов на управляемые фрагменты (чанки), используемая для индексации, retrieval и подачи контекста в языковые модели.

Определение

Document chunking — это процесс разбиения длинных документов на более короткие сегменты фиксированного или адаптивного размера. Каждый чанк обрабатывается как отдельная единица: кодируется в эмбеддинг, индексируется и может независимо извлекаться поисковой системой. Chunking является базовой операцией в dense retrieval, hybrid search и RAG-системах, поскольку LLM и энкодеры имеют ограничения на длину входа.

Как работает

1. Зачем нужен chunking

ограничение длины контекста у LLM и энкодеров;
повышение точности retrieval;
локализация релевантной информации;
снижение шума при поиске.

Индексация целых документов приводит к размыванию семантики и ухудшению поиска.

2. Стратегии разбиения

Фиксированный размер

разбиение по количеству токенов (например, 256–1024);
простая и быстрая реализация;
может разрывать логические блоки.

С перекрытием (overlap)

соседние чанки пересекаются на 10–30%;
снижает риск потери контекста;
увеличивает размер индекса.

Структурный chunking

разбиение по заголовкам, абзацам, спискам;
сохраняет логическую целостность;
зависит от качества разметки документа.

Semantic chunking

разбиение по смене темы или семантики;
использует embeddings или topic models;
дороже вычислительно, но качественнее.

3. Индексация и retrieval

Каждый чанк:

кодируется в embedding;
сохраняется с метаданными (документ, позиция);
участвует в поиске независимо от исходного документа.

На этапе ответа чанки могут объединяться обратно в контекст.

4. Chunking в RAG

В RAG chunking напрямую влияет на качество ответа:

слишком мелкие чанки → потеря контекста;
слишком крупные → нерелевантный шум;
неудачное разбиение → hallucination.

Где применяется

Dense retrieval и hybrid search.
RAG-системы.
Поиск по документации и базам знаний.
Корпоративные ассистенты.
Юридический и технический поиск.

Практические примеры использования

В production-RAG типовая конфигурация — чанки по 300–500 токенов с overlap 50–100 токенов. Для технической документации часто применяется структурный chunking по заголовкам. В юридических текстах используются более крупные чанки, чтобы сохранить контекст формулировок.

Некоторые системы используют adaptive chunking: сначала грубое разбиение, затем semantic refinement для ключевых разделов.

Ключевые свойства

Контроль размера контекста.
Локализация релевантной информации.
Прямая связь с качеством retrieval.
Гибкость стратегий под домен.
Метаданные позволяют восстановить источник.

Проблемы и ограничения

Компромисс между размером и целостностью.
Рост индекса при overlap.
Сложность semantic chunking.
Ошибки при неструктурированных документах.
Зависимость от downstream reranker и LLM.

Преимущества и ограничения

Плюс: значительное улучшение точности поиска.
Минус: требует тонкой настройки под тип данных.

Связанные термины

Dense retrieval
RAG
Embedding
Реranker
Context window

Категория термина

Работа с данными и векторами

Экосистемы