Document chunking в retrieval и RAG

Термин глоссария

Document chunking


Document chunking — техника разбиения документов на управляемые фрагменты (чанки), используемая для индексации, retrieval и подачи контекста в языковые модели.

Определение

Document chunking — это процесс разбиения длинных документов на более короткие сегменты фиксированного или адаптивного размера. Каждый чанк обрабатывается как отдельная единица: кодируется в эмбеддинг, индексируется и может независимо извлекаться поисковой системой. Chunking является базовой операцией в dense retrieval, hybrid search и RAG-системах, поскольку LLM и энкодеры имеют ограничения на длину входа.

Как работает

1. Зачем нужен chunking

  • ограничение длины контекста у LLM и энкодеров;
  • повышение точности retrieval;
  • локализация релевантной информации;
  • снижение шума при поиске.

Индексация целых документов приводит к размыванию семантики и ухудшению поиска.

2. Стратегии разбиения

Фиксированный размер

  • разбиение по количеству токенов (например, 256–1024);
  • простая и быстрая реализация;
  • может разрывать логические блоки.

С перекрытием (overlap)

  • соседние чанки пересекаются на 10–30%;
  • снижает риск потери контекста;
  • увеличивает размер индекса.

Структурный chunking

  • разбиение по заголовкам, абзацам, спискам;
  • сохраняет логическую целостность;
  • зависит от качества разметки документа.

Semantic chunking

  • разбиение по смене темы или семантики;
  • использует embeddings или topic models;
  • дороже вычислительно, но качественнее.

3. Индексация и retrieval

Каждый чанк:

  • кодируется в embedding;
  • сохраняется с метаданными (документ, позиция);
  • участвует в поиске независимо от исходного документа.

На этапе ответа чанки могут объединяться обратно в контекст.

4. Chunking в RAG

В RAG chunking напрямую влияет на качество ответа:

  • слишком мелкие чанки → потеря контекста;
  • слишком крупные → нерелевантный шум;
  • неудачное разбиение → hallucination.

Где применяется

  • Dense retrieval и hybrid search.
  • RAG-системы.
  • Поиск по документации и базам знаний.
  • Корпоративные ассистенты.
  • Юридический и технический поиск.

Практические примеры использования

В production-RAG типовая конфигурация — чанки по 300–500 токенов с overlap 50–100 токенов. Для технической документации часто применяется структурный chunking по заголовкам. В юридических текстах используются более крупные чанки, чтобы сохранить контекст формулировок.

Некоторые системы используют adaptive chunking: сначала грубое разбиение, затем semantic refinement для ключевых разделов.

Ключевые свойства

  • Контроль размера контекста.
  • Локализация релевантной информации.
  • Прямая связь с качеством retrieval.
  • Гибкость стратегий под домен.
  • Метаданные позволяют восстановить источник.

Проблемы и ограничения

  • Компромисс между размером и целостностью.
  • Рост индекса при overlap.
  • Сложность semantic chunking.
  • Ошибки при неструктурированных документах.
  • Зависимость от downstream reranker и LLM.

Преимущества и ограничения

  • Плюс: значительное улучшение точности поиска.
  • Минус: требует тонкой настройки под тип данных.

Связанные термины

  • Dense retrieval
  • RAG
  • Embedding
  • Reranker
  • Context window

Категория термина

Работа с данными и векторами