Metadata filtering в retrieval и поиске

Термин глоссария

Metadata filtering


Metadata filtering — механизм ограничения и уточнения retrieval по структурированным полям документов, таким как тип, источник, дата, версия, язык или домен.

Определение

Metadata filtering — это техника поиска, при которой результаты retrieval отбираются или ограничиваются на основе метаданных, а не только текстовой или векторной близости. Метаданные представляют собой структурированные атрибуты документов или фрагментов (passages), которые не участвуют напрямую в семантическом сопоставлении, но критичны для релевантности. В retrieval и RAG-системах metadata filtering используется для уменьшения шумов, контроля домена и предотвращения ошибок контекста.

Как работает

1. Источник метаданных

Метаданные формируются на этапе индексации:

  • идентификатор документа и позиция чанка;
  • тип источника (документация, FAQ, блог, закон);
  • дата публикации или версия;
  • язык и регион;
  • домен, продукт, категория;
  • уровень доступа или доверия.

2. Место в retrieval pipeline

Фильтрация может применяться на разных этапах:

  • Pre-retrieval filtering — ограничение корпуса до поиска (например, только актуальная версия).
  • During retrieval — фильтры внутри sparse/dense поиска (term filters, vector filters).
  • Post-retrieval filtering — очистка candidate set перед reranking.

3. Типы фильтров

  • Hard filters — строгие условия (версия = v2, язык = ru).
  • Soft filters — приоритеты и бустинг (свежесть, авторитет).
  • Range filters — интервалы дат, версий, числовых параметров.
  • Hierarchical filters — категории и подкатегории.

4. Интеграция с dense search

В векторных БД metadata filtering реализуется через:

  • predicate filtering поверх ANN;
  • segment-based индексацию;
  • hybrid retrieval с лексическими условиями.

Это позволяет избежать семантически близких, но фактически неподходящих результатов.

Где применяется

  • RAG-системы с разнородными источниками.
  • Корпоративные базы знаний.
  • Юридический и медицинский поиск.
  • Техническая документация с версиями.
  • Мультимодальный retrieval с типами контента.

Практические примеры использования

В техническом RAG вопрос о конкретной версии API ограничивается метаданным version=2.x, чтобы исключить устаревшие документы. В юридических системах фильтрация по дате позволяет учитывать только действующие нормы. В корпоративных ассистентах metadata filtering отделяет внутренние документы от публичных.

В гибридных системах dense retrieval возвращает кандидатов, после чего metadata filtering удаляет нерелевантные домены до этапа reranking, снижая риск retrieval hallucination.

Ключевые свойства

  • Строгий контроль домена поиска.
  • Снижение семантического шума.
  • Повышение точности без изменения моделей.
  • Интерпретируемые правила отбора.
  • Совместимость с sparse, dense и hybrid search.

Проблемы и ограничения

  • Зависимость от качества и полноты метаданных.
  • Риск избыточного ограничения recall.
  • Сложность поддержки актуальных атрибутов.
  • Необходимость согласования схемы метаданных.
  • Дополнительная логика в retrieval pipeline.

Преимущества и ограничения

  • Плюс: резкое повышение управляемости и точности retrieval.
  • Минус: ошибки в метаданных напрямую влияют на результат.

Связанные термины

  • Retrieval pipeline
  • Hybrid search
  • RAG
  • Document chunking
  • Contextual reranking

Категория термина

Работа с данными и векторами