Query expansion — метод улучшения поиска за счёт добавления к исходному запросу дополнительных терминов, синонимов и семантически связанных понятий.
Определение
Query expansion — это приём информационного поиска, при котором исходный запрос пользователя автоматически дополняется дополнительными словами или фразами, увеличивающими вероятность нахождения релевантных документов. Расширение запроса применяется для повышения recall и снижения зависимости результата от точной формулировки запроса. Техника используется как в классических поисковых системах, так и в современных retrieval и RAG-пайплайнах.
Как работает
1. Исходная проблема
Пользовательский запрос часто:
- слишком короткий;
- разговорный;
- использует нестандартные термины;
- не совпадает с лексикой документов.
Без расширения retrieval теряет релевантные документы, особенно при sparse search.
2. Способы расширения
Lexical expansion
- синонимы и морфологические варианты;
- аббревиатуры и полные формы;
- доменные эквиваленты терминов.
Statistical expansion
- часто встречающиеся термины из релевантных документов;
- pseudo-relevance feedback (PRF);
- co-occurrence статистика.
Embedding-based expansion
- поиск ближайших слов в embedding space;
- семантически близкие формулировки;
- контекстные варианты терминов.
LLM-based expansion
- генерация альтернативных формулировок;
- добавление скрытого контекста;
- multi-query generation.
3. Использование в retrieval
Расширенный запрос может:
- заменять исходный;
- использоваться параллельно с оригинальным;
- давать несколько запросов с последующей fusion.
Где применяется
- Поисковые системы общего назначения.
- Sparse retrieval (BM25, inverted index).
- Hybrid search.
- RAG-системы.
- Корпоративные и доменные поиски.
Практические примеры использования
В классическом поиске query expansion применяется через PRF: система берёт топ-N документов, извлекает из них частотные термины и добавляет их в запрос. В современных RAG-системах LLM генерирует несколько альтернативных запросов, каждый из которых выполняет retrieval, а результаты объединяются через RRF или reranking.
В технических доменах query expansion используется для сопоставления пользовательских формулировок с каноническими названиями API, протоколов и стандартов.
Ключевые свойства
- Повышение recall.
- Снижение чувствительности к формулировкам.
- Совместимость с существующими индексами.
- Гибкость под домен.
- Особенно эффективно для sparse retrieval.
Проблемы и ограничения
- Риск снижения precision.
- Добавление нерелевантных терминов.
- Рост вычислительной нагрузки.
- Сложность контроля качества LLM-расширений.
- Доменные ошибки при автоматическом расширении.
Преимущества и ограничения
- Плюс: заметный рост полноты поиска без изменения индекса.
- Минус: требует аккуратной балансировки и последующего reranking.
Связанные термины
- Query rewriting
- Retrieval pipeline
- Sparse retrieval
- Hybrid search
- Reranker