Passage retrieval в поиске и RAG

Термин глоссария

Passage retrieval


Passage retrieval — метод информационного поиска, при котором извлекаются не документы целиком, а отдельные фрагменты (passages), наиболее релевантные запросу.

Определение

Passage retrieval — это подход к retrieval, в котором единицей поиска является короткий фрагмент документа: абзац, логический блок или чанк фиксированного размера. В отличие от document-level retrieval, passage retrieval локализует релевантную информацию, снижает шум и позволяет точнее формировать контекст для LLM. Метод является стандартом для dense retrieval и RAG-систем, где ограничения контекстного окна делают передачу целых документов неэффективной.

Как работает

1. Подготовка корпуса

  • документы разбиваются на passages (обычно 100–500 токенов);
  • каждому passage назначаются метаданные (document_id, позиция, раздел);
  • passages индексируются как независимые объекты.

2. Модели retrieval

  • Sparse: BM25 по passage-текстам.
  • Dense: bi-encoder кодирует запрос и passages в эмбеддинги.
  • Hybrid: объединение sparse и dense сигналов.

На практике dense passage retrieval доминирует из-за лучшей семантической генерализации.

3. Обучение

Модели обучаются на парах «вопрос → релевантный passage»:

  • positive passages — фрагменты с прямым ответом;
  • hard negatives — семантически близкие, но нерелевантные passages;
  • loss — contrastive (InfoNCE) с in-batch negatives.

4. Retrieval и агрегация

  • извлекается top-k passages;
  • опционально выполняется reranking;
  • passages могут агрегироваться обратно в документный контекст.

Где применяется

  • RAG-системы и QA.
  • Поиск по документации и базам знаний.
  • Научный и патентный поиск.
  • Юридические и медицинские системы.
  • Conversational search.

Практические примеры использования

DPR (Dense Passage Retrieval) стал де-факто стандартом для QA: корпус разбивается на абзацы, а модель извлекает именно тот фрагмент, где содержится ответ. В RAG passage retrieval позволяет подавать в LLM 3–10 узко релевантных фрагментов вместо одного большого документа, что снижает hallucination и повышает точность.

В технической документации passage retrieval позволяет находить конкретные параметры, ограничения или примеры кода без загрузки всего раздела.

Ключевые свойства

  • Локализация релевантной информации.
  • Снижение шума по сравнению с document retrieval.
  • Совместимость с dense и hybrid search.
  • Эффективное использование контекстного окна LLM.
  • Гибкость в агрегации результатов.

Проблемы и ограничения

  • Потеря глобального контекста документа.
  • Зависимость от качества chunking.
  • Дублирование информации при overlap.
  • Рост размера индекса.
  • Сложность ответа на вопросы, требующие нескольких passages.

Преимущества и ограничения

  • Плюс: высокая точность и минимальный контекстный шум.
  • Минус: необходимость агрегации для сложных вопросов.

Связанные термины

  • Dense retrieval
  • Document chunking
  • Reranker
  • RAG
  • Long-document retrieval

Категория термина

Работа с данными и векторами