Термин глоссария

Passage retrieval

Passage retrieval — метод информационного поиска, при котором извлекаются не документы целиком, а отдельные фрагменты (passages), наиболее релевантные запросу.

Определение

Passage retrieval — это подход к retrieval, в котором единицей поиска является короткий фрагмент документа: абзац, логический блок или чанк фиксированного размера. В отличие от document-level retrieval, passage retrieval локализует релевантную информацию, снижает шум и позволяет точнее формировать контекст для LLM. Метод является стандартом для dense retrieval и RAG-систем, где ограничения контекстного окна делают передачу целых документов неэффективной.

Как работает

1. Подготовка корпуса

документы разбиваются на passages (обычно 100–500 токенов);
каждому passage назначаются метаданные (document_id, позиция, раздел);
passages индексируются как независимые объекты.

2. Модели retrieval

Sparse: BM25 по passage-текстам.
Dense: bi-encoder кодирует запрос и passages в эмбеддинги.
Hybrid: объединение sparse и dense сигналов.

На практике dense passage retrieval доминирует из-за лучшей семантической генерализации.

3. Обучение

Модели обучаются на парах «вопрос → релевантный passage»:

positive passages — фрагменты с прямым ответом;
hard negatives — семантически близкие, но нерелевантные passages;
loss — contrastive (InfoNCE) с in-batch negatives.

4. Реtrieval и агрегация

извлекается top-k passages;
опционально выполняется reranking;
passages могут агрегироваться обратно в документный контекст.

Где применяется

RAG-системы и QA.
Поиск по документации и базам знаний.
Научный и патентный поиск.
Юридические и медицинские системы.
Conversational search.

Практические примеры использования

DPR (Dense Passage Реtrieval) стал де-факто стандартом для QA: корпус разбивается на абзацы, а модель извлекает именно тот фрагмент, где содержится ответ. В RAG passage retrieval позволяет подавать в LLM 3–10 узко релевантных фрагментов вместо одного большого документа, что снижает hallucination и повышает точность.

В технической документации passage retrieval позволяет находить конкретные параметры, ограничения или примеры кода без загрузки всего раздела.

Ключевые свойства

Локализация релевантной информации.
Снижение шума по сравнению с document retrieval.
Совместимость с dense и hybrid search.
Эффективное использование контекстного окна LLM.
Гибкость в агрегации результатов.

Проблемы и ограничения

Потеря глобального контекста документа.
Зависимость от качества chunking.
Дублирование информации при overlap.
Рост размера индекса.
Сложность ответа на вопросы, требующие нескольких passages.

Преимущества и ограничения

Плюс: высокая точность и минимальный контекстный шум.
Минус: необходимость агрегации для сложных вопросов.

Связанные термины

Dense retrieval
Document chunking
Реranker
RAG
Long-document retrieval

Категория термина

Работа с данными и векторами

Экосистемы