Реranker — компонент поискового пайплайна, который пересортировывает ограниченный набор кандидатов, используя более точную и вычислительно дорогую модель оценки релевантности.
Определение
Реranker — это модель или алгоритм повторного ранжирования, применяемый после первичного этапа retrieval (sparse, dense или hybrid). Его задача — уточнить порядок документов или фрагментов, уже отобранных в топ-k, и максимально приблизить финальный список к реальной релевантности запроса. Реranker почти всегда работает на малом числе кандидатов (10–200) и использует более богатое взаимодействие между запросом и документом, чем основной retrieval.
Как работает
1. Место в пайплайне
Типовой поисковый или RAG-пайплайн:
- Primary retrieval (BM25 / dense / hybrid) →
- Candidate set (top-k) →
- Реranker →
- Final ranking / context selection.
2. Модели reranking
Наиболее распространённые варианты:
- Cross-encoder — запрос и документ подаются совместно, используется полное self-attention.
- LLM-based reranker — большая языковая модель оценивает релевантность или выбирает лучшие фрагменты.
- Neural scoring head — отдельная модель поверх bi-encoder эмбеддингов.
На практике cross-encoder остаётся самым стабильным вариантом для reranking.
3. Скоринг
Реranker вычисляет скалярную оценку релевантности для каждой пары запрос–документ:
- semantic match;
- учёт контекста запроса;
- точные терминологические соответствия;
- логические и причинные связи.
После этого кандидаты сортируются по новому скору.
4. Использование в RAG
В RAG-системах reranker критичен: он определяет, какие документы попадут в контекст LLM. Ошибки на этом этапе напрямую приводят к hallucination и неправильным ответам.
Где применяется
- Поисковые системы.
- RAG (retrieval-augmented generation).
- QA-системы.
- Корпоративные базы знаний.
- Юридический и медицинский поиск.
- Научные и патентные базы.
Практические примеры использования
В production-RAG типовой сценарий: dense retrieval возвращает 50–100 фрагментов, reranker (cross-encoder на базе DeBERTa или RoBERTa) выбирает 5–10 лучших. Эти фрагменты затем подаются в LLM. Такой подход значительно снижает вероятность нерелевантного контекста.
LLM-rerankers используются там, где важна сложная логика соответствия (например, юридические вопросы), но из-за высокой стоимости обычно применяются к очень малому числу кандидатов.
Ключевые свойства
- Работа только с ограниченным набором кандидатов.
- Высокая точность оценки релевантности.
- Использование joint encoding запроса и документа.
- Критическая роль в качестве RAG.
- Гибкость выбора модели под домен.
Проблемы и ограничения
- Высокая вычислительная стоимость.
- Невозможность масштабирования на весь корпус.
- Латентность при online-поиске.
- Ограничения длины контекста.
- Чувствительность к шуму в кандидатах.
Преимущества и ограничения
- Плюс: резкое улучшение точности финального ранжирования.
- Минус: требует аккуратного баланса между качеством и стоимостью.
Связанные термины
- Cross-encoder
- Bi-encoder
- Dense retrieval
- Hybrid search
- RAG