Reranker в поиске и RAG-системах

Термин глоссария

Реranker


Реranker — компонент поискового пайплайна, который пересортировывает ограниченный набор кандидатов, используя более точную и вычислительно дорогую модель оценки релевантности.

Определение

Реranker — это модель или алгоритм повторного ранжирования, применяемый после первичного этапа retrieval (sparse, dense или hybrid). Его задача — уточнить порядок документов или фрагментов, уже отобранных в топ-k, и максимально приблизить финальный список к реальной релевантности запроса. Реranker почти всегда работает на малом числе кандидатов (10–200) и использует более богатое взаимодействие между запросом и документом, чем основной retrieval.

Как работает

1. Место в пайплайне

Типовой поисковый или RAG-пайплайн:

  • Primary retrieval (BM25 / dense / hybrid) →
  • Candidate set (top-k) →
  • Реranker
  • Final ranking / context selection.

2. Модели reranking

Наиболее распространённые варианты:

  • Cross-encoder — запрос и документ подаются совместно, используется полное self-attention.
  • LLM-based reranker — большая языковая модель оценивает релевантность или выбирает лучшие фрагменты.
  • Neural scoring head — отдельная модель поверх bi-encoder эмбеддингов.

На практике cross-encoder остаётся самым стабильным вариантом для reranking.

3. Скоринг

Реranker вычисляет скалярную оценку релевантности для каждой пары запрос–документ:

  • semantic match;
  • учёт контекста запроса;
  • точные терминологические соответствия;
  • логические и причинные связи.

После этого кандидаты сортируются по новому скору.

4. Использование в RAG

В RAG-системах reranker критичен: он определяет, какие документы попадут в контекст LLM. Ошибки на этом этапе напрямую приводят к hallucination и неправильным ответам.

Где применяется

  • Поисковые системы.
  • RAG (retrieval-augmented generation).
  • QA-системы.
  • Корпоративные базы знаний.
  • Юридический и медицинский поиск.
  • Научные и патентные базы.

Практические примеры использования

В production-RAG типовой сценарий: dense retrieval возвращает 50–100 фрагментов, reranker (cross-encoder на базе DeBERTa или RoBERTa) выбирает 5–10 лучших. Эти фрагменты затем подаются в LLM. Такой подход значительно снижает вероятность нерелевантного контекста.

LLM-rerankers используются там, где важна сложная логика соответствия (например, юридические вопросы), но из-за высокой стоимости обычно применяются к очень малому числу кандидатов.

Ключевые свойства

  • Работа только с ограниченным набором кандидатов.
  • Высокая точность оценки релевантности.
  • Использование joint encoding запроса и документа.
  • Критическая роль в качестве RAG.
  • Гибкость выбора модели под домен.

Проблемы и ограничения

  • Высокая вычислительная стоимость.
  • Невозможность масштабирования на весь корпус.
  • Латентность при online-поиске.
  • Ограничения длины контекста.
  • Чувствительность к шуму в кандидатах.

Преимущества и ограничения

  • Плюс: резкое улучшение точности финального ранжирования.
  • Минус: требует аккуратного баланса между качеством и стоимостью.

Связанные термины

  • Cross-encoder
  • Bi-encoder
  • Dense retrieval
  • Hybrid search
  • RAG

Категория термина

Работа с данными и векторами