Retrieval pipeline — это архитектурная цепочка компонентов, которая обрабатывает запрос, извлекает кандидатов, ранжирует их и формирует финальный контекст для ответа или генерации.
Определение
Retrieval pipeline — это формализованный процесс извлечения информации, состоящий из нескольких этапов: обработки запроса, первичного поиска, фильтрации, повторного ранжирования и подготовки контекста. Такой пайплайн используется в поисковых системах, QA и RAG-архитектурах для обеспечения релевантных, проверяемых и масштабируемых ответов. Качество retrieval pipeline напрямую определяет точность итогового вывода LLM.
Как работает
1. Обработка запроса (query processing)
- нормализация текста;
- расширение запроса (query expansion);
- переформулирование через LLM;
- определение типа запроса (факт, инструкция, поиск).
2. Первичный retrieval
Формируется набор кандидатов (candidate set):
- sparse retrieval (BM25, inverted index);
- dense retrieval (bi-encoder + ANN);
- hybrid search (комбинация сигналов).
На этом этапе важны скорость и полнота, а не максимальная точность.
3. Фильтрация и агрегация
- фильтры по метаданным;
- удаление дубликатов;
- объединение чанков одного документа;
- ограничение по времени или домену.
4. Reranking
Точный пересчёт релевантности:
- cross-encoder;
- LLM-based reranker;
- domain-specific scoring.
Этот этап критичен для снижения шума и ошибок контекста.
5. Context assembly
- выбор top-n чанков;
- упорядочивание по логике;
- сжатие или summarization;
- подготовка входа для LLM.
6. Feedback и мониторинг
- оценка кликов и ответов;
- детекция embedding drift;
- обновление индексов и моделей.
Где применяется
- RAG-системы.
- Поисковые движки.
- Корпоративные ассистенты.
- Юридические и медицинские базы знаний.
- Аналитические и QA-платформы.
Практические примеры использования
Типовой RAG-pipeline: пользовательский вопрос → query rewriting через LLM → hybrid retrieval (BM25 + dense) → top-100 кандидатов → cross-encoder reranker → top-5 чанков → сбор контекста → генерация ответа LLM. В production такие пайплайны дополняются кешированием, fallback-стратегиями и метриками качества.
В крупных поисковых системах retrieval pipeline включает десятки сигналов: поведенческие факторы, свежесть данных, персонализацию.
Ключевые свойства
- Многоступенчатая архитектура.
- Разделение скорости и точности по этапам.
- Гибкость под домен и задачу.
- Критическое влияние на качество ответов LLM.
- Масштабируемость на большие корпуса.
Проблемы и ограничения
- Сложность настройки и поддержки.
- Каскадное накопление ошибок.
- Латентность при большом числе этапов.
- Зависимость от качества данных и эмбеддингов.
- Неочевидная отладка деградации качества.
Преимущества и ограничения
- Плюс: высокая точность и контролируемость поиска.
- Минус: инфраструктурная и архитектурная сложность.
Связанные термины
- RAG
- Dense retrieval
- Hybrid search
- Reranker
- Document chunking