Passage retrieval — метод информационного поиска, при котором извлекаются не документы целиком, а отдельные фрагменты (passages), наиболее релевантные запросу.
Определение
Passage retrieval — это подход к retrieval, в котором единицей поиска является короткий фрагмент документа: абзац, логический блок или чанк фиксированного размера. В отличие от document-level retrieval, passage retrieval локализует релевантную информацию, снижает шум и позволяет точнее формировать контекст для LLM. Метод является стандартом для dense retrieval и RAG-систем, где ограничения контекстного окна делают передачу целых документов неэффективной.
Как работает
1. Подготовка корпуса
- документы разбиваются на passages (обычно 100–500 токенов);
- каждому passage назначаются метаданные (document_id, позиция, раздел);
- passages индексируются как независимые объекты.
2. Модели retrieval
- Sparse: BM25 по passage-текстам.
- Dense: bi-encoder кодирует запрос и passages в эмбеддинги.
- Hybrid: объединение sparse и dense сигналов.
На практике dense passage retrieval доминирует из-за лучшей семантической генерализации.
3. Обучение
Модели обучаются на парах «вопрос → релевантный passage»:
- positive passages — фрагменты с прямым ответом;
- hard negatives — семантически близкие, но нерелевантные passages;
- loss — contrastive (InfoNCE) с in-batch negatives.
4. Retrieval и агрегация
- извлекается top-k passages;
- опционально выполняется reranking;
- passages могут агрегироваться обратно в документный контекст.
Где применяется
- RAG-системы и QA.
- Поиск по документации и базам знаний.
- Научный и патентный поиск.
- Юридические и медицинские системы.
- Conversational search.
Практические примеры использования
DPR (Dense Passage Retrieval) стал де-факто стандартом для QA: корпус разбивается на абзацы, а модель извлекает именно тот фрагмент, где содержится ответ. В RAG passage retrieval позволяет подавать в LLM 3–10 узко релевантных фрагментов вместо одного большого документа, что снижает hallucination и повышает точность.
В технической документации passage retrieval позволяет находить конкретные параметры, ограничения или примеры кода без загрузки всего раздела.
Ключевые свойства
- Локализация релевантной информации.
- Снижение шума по сравнению с document retrieval.
- Совместимость с dense и hybrid search.
- Эффективное использование контекстного окна LLM.
- Гибкость в агрегации результатов.
Проблемы и ограничения
- Потеря глобального контекста документа.
- Зависимость от качества chunking.
- Дублирование информации при overlap.
- Рост размера индекса.
- Сложность ответа на вопросы, требующие нескольких passages.
Преимущества и ограничения
- Плюс: высокая точность и минимальный контекстный шум.
- Минус: необходимость агрегации для сложных вопросов.
Связанные термины
- Dense retrieval
- Document chunking
- Reranker
- RAG
- Long-document retrieval