Термин глоссария

Metadata filtering

Metadata filtering — механизм ограничения и уточнения retrieval по структурированным полям документов, таким как тип, источник, дата, версия, язык или домен.

Определение

Metadata filtering — это техника поиска, при которой результаты retrieval отбираются или ограничиваются на основе метаданных, а не только текстовой или векторной близости. Метаданные представляют собой структурированные атрибуты документов или фрагментов (passages), которые не участвуют напрямую в семантическом сопоставлении, но критичны для релевантности. В retrieval и RAG-системах metadata filtering используется для уменьшения шумов, контроля домена и предотвращения ошибок контекста.

Как работает

1. Источник метаданных

Метаданные формируются на этапе индексации:

идентификатор документа и позиция чанка;
тип источника (документация, FAQ, блог, закон);
дата публикации или версия;
язык и регион;
домен, продукт, категория;
уровень доступа или доверия.

2. Место в retrieval pipeline

Фильтрация может применяться на разных этапах:

Pre-retrieval filtering — ограничение корпуса до поиска (например, только актуальная версия).
During retrieval — фильтры внутри sparse/dense поиска (term filters, vector filters).
Post-retrieval filtering — очистка candidate set перед reranking.

3. Типы фильтров

Hard filters — строгие условия (версия = v2, язык = ru).
Soft filters — приоритеты и бустинг (свежесть, авторитет).
Range filters — интервалы дат, версий, числовых параметров.
Hierarchical filters — категории и подкатегории.

4. Интеграция с dense search

В векторных БД metadata filtering реализуется через:

predicate filtering поверх ANN;
segment-based индексацию;
hybrid retrieval с лексическими условиями.

Это позволяет избежать семантически близких, но фактически неподходящих результатов.

Где применяется

RAG-системы с разнородными источниками.
Корпоративные базы знаний.
Юридический и медицинский поиск.
Техническая документация с версиями.
Мультимодальный retrieval с типами контента.

Практические примеры использования

В техническом RAG вопрос о конкретной версии API ограничивается метаданным version=2.x, чтобы исключить устаревшие документы. В юридических системах фильтрация по дате позволяет учитывать только действующие нормы. В корпоративных ассистентах metadata filtering отделяет внутренние документы от публичных.

В гибридных системах dense retrieval возвращает кандидатов, после чего metadata filtering удаляет нерелевантные домены до этапа reranking, снижая риск retrieval hallucination.

Ключевые свойства

Строгий контроль домена поиска.
Снижение семантического шума.
Повышение точности без изменения моделей.
Интерпретируемые правила отбора.
Совместимость с sparse, dense и hybrid search.

Проблемы и ограничения

Зависимость от качества и полноты метаданных.
Риск избыточного ограничения recall.
Сложность поддержки актуальных атрибутов.
Необходимость согласования схемы метаданных.
Дополнительная логика в retrieval pipeline.

Преимущества и ограничения

Плюс: резкое повышение управляемости и точности retrieval.
Минус: ошибки в метаданных напрямую влияют на результат.

Связанные термины

Реtrieval pipeline
Hybrid search
RAG
Document chunking
Contextual reranking

Категория термина

Работа с данными и векторами

Экосистемы