Query expansion в поиске и retrieval

Термин глоссария

Query expansion


Query expansion — метод улучшения поиска за счёт добавления к исходному запросу дополнительных терминов, синонимов и семантически связанных понятий.

Определение

Query expansion — это приём информационного поиска, при котором исходный запрос пользователя автоматически дополняется дополнительными словами или фразами, увеличивающими вероятность нахождения релевантных документов. Расширение запроса применяется для повышения recall и снижения зависимости результата от точной формулировки запроса. Техника используется как в классических поисковых системах, так и в современных retrieval и RAG-пайплайнах.

Как работает

1. Исходная проблема

Пользовательский запрос часто:

  • слишком короткий;
  • разговорный;
  • использует нестандартные термины;
  • не совпадает с лексикой документов.

Без расширения retrieval теряет релевантные документы, особенно при sparse search.

2. Способы расширения

Lexical expansion

  • синонимы и морфологические варианты;
  • аббревиатуры и полные формы;
  • доменные эквиваленты терминов.

Statistical expansion

  • часто встречающиеся термины из релевантных документов;
  • pseudo-relevance feedback (PRF);
  • co-occurrence статистика.

Embedding-based expansion

  • поиск ближайших слов в embedding space;
  • семантически близкие формулировки;
  • контекстные варианты терминов.

LLM-based expansion

  • генерация альтернативных формулировок;
  • добавление скрытого контекста;
  • multi-query generation.

3. Использование в retrieval

Расширенный запрос может:

  • заменять исходный;
  • использоваться параллельно с оригинальным;
  • давать несколько запросов с последующей fusion.

Где применяется

  • Поисковые системы общего назначения.
  • Sparse retrieval (BM25, inverted index).
  • Hybrid search.
  • RAG-системы.
  • Корпоративные и доменные поиски.

Практические примеры использования

В классическом поиске query expansion применяется через PRF: система берёт топ-N документов, извлекает из них частотные термины и добавляет их в запрос. В современных RAG-системах LLM генерирует несколько альтернативных запросов, каждый из которых выполняет retrieval, а результаты объединяются через RRF или reranking.

В технических доменах query expansion используется для сопоставления пользовательских формулировок с каноническими названиями API, протоколов и стандартов.

Ключевые свойства

  • Повышение recall.
  • Снижение чувствительности к формулировкам.
  • Совместимость с существующими индексами.
  • Гибкость под домен.
  • Особенно эффективно для sparse retrieval.

Проблемы и ограничения

  • Риск снижения precision.
  • Добавление нерелевантных терминов.
  • Рост вычислительной нагрузки.
  • Сложность контроля качества LLM-расширений.
  • Доменные ошибки при автоматическом расширении.

Преимущества и ограничения

  • Плюс: заметный рост полноты поиска без изменения индекса.
  • Минус: требует аккуратной балансировки и последующего reranking.

Связанные термины

  • Query rewriting
  • Retrieval pipeline
  • Sparse retrieval
  • Hybrid search
  • Reranker

Категория термина

Работа с данными и векторами