Retrieval pipeline в поиске и RAG

Термин глоссария

Retrieval pipeline


Retrieval pipeline — это архитектурная цепочка компонентов, которая обрабатывает запрос, извлекает кандидатов, ранжирует их и формирует финальный контекст для ответа или генерации.

Определение

Retrieval pipeline — это формализованный процесс извлечения информации, состоящий из нескольких этапов: обработки запроса, первичного поиска, фильтрации, повторного ранжирования и подготовки контекста. Такой пайплайн используется в поисковых системах, QA и RAG-архитектурах для обеспечения релевантных, проверяемых и масштабируемых ответов. Качество retrieval pipeline напрямую определяет точность итогового вывода LLM.

Как работает

1. Обработка запроса (query processing)

  • нормализация текста;
  • расширение запроса (query expansion);
  • переформулирование через LLM;
  • определение типа запроса (факт, инструкция, поиск).

2. Первичный retrieval

Формируется набор кандидатов (candidate set):

  • sparse retrieval (BM25, inverted index);
  • dense retrieval (bi-encoder + ANN);
  • hybrid search (комбинация сигналов).

На этом этапе важны скорость и полнота, а не максимальная точность.

3. Фильтрация и агрегация

  • фильтры по метаданным;
  • удаление дубликатов;
  • объединение чанков одного документа;
  • ограничение по времени или домену.

4. Reranking

Точный пересчёт релевантности:

  • cross-encoder;
  • LLM-based reranker;
  • domain-specific scoring.

Этот этап критичен для снижения шума и ошибок контекста.

5. Context assembly

  • выбор top-n чанков;
  • упорядочивание по логике;
  • сжатие или summarization;
  • подготовка входа для LLM.

6. Feedback и мониторинг

  • оценка кликов и ответов;
  • детекция embedding drift;
  • обновление индексов и моделей.

Где применяется

  • RAG-системы.
  • Поисковые движки.
  • Корпоративные ассистенты.
  • Юридические и медицинские базы знаний.
  • Аналитические и QA-платформы.

Практические примеры использования

Типовой RAG-pipeline: пользовательский вопрос → query rewriting через LLM → hybrid retrieval (BM25 + dense) → top-100 кандидатов → cross-encoder reranker → top-5 чанков → сбор контекста → генерация ответа LLM. В production такие пайплайны дополняются кешированием, fallback-стратегиями и метриками качества.

В крупных поисковых системах retrieval pipeline включает десятки сигналов: поведенческие факторы, свежесть данных, персонализацию.

Ключевые свойства

  • Многоступенчатая архитектура.
  • Разделение скорости и точности по этапам.
  • Гибкость под домен и задачу.
  • Критическое влияние на качество ответов LLM.
  • Масштабируемость на большие корпуса.

Проблемы и ограничения

  • Сложность настройки и поддержки.
  • Каскадное накопление ошибок.
  • Латентность при большом числе этапов.
  • Зависимость от качества данных и эмбеддингов.
  • Неочевидная отладка деградации качества.

Преимущества и ограничения

  • Плюс: высокая точность и контролируемость поиска.
  • Минус: инфраструктурная и архитектурная сложность.

Связанные термины

  • RAG
  • Dense retrieval
  • Hybrid search
  • Reranker
  • Document chunking

Категория термина

Работа с данными и векторами