Metadata filtering — механизм ограничения и уточнения retrieval по структурированным полям документов, таким как тип, источник, дата, версия, язык или домен.
Определение
Metadata filtering — это техника поиска, при которой результаты retrieval отбираются или ограничиваются на основе метаданных, а не только текстовой или векторной близости. Метаданные представляют собой структурированные атрибуты документов или фрагментов (passages), которые не участвуют напрямую в семантическом сопоставлении, но критичны для релевантности. В retrieval и RAG-системах metadata filtering используется для уменьшения шумов, контроля домена и предотвращения ошибок контекста.
Как работает
1. Источник метаданных
Метаданные формируются на этапе индексации:
- идентификатор документа и позиция чанка;
- тип источника (документация, FAQ, блог, закон);
- дата публикации или версия;
- язык и регион;
- домен, продукт, категория;
- уровень доступа или доверия.
2. Место в retrieval pipeline
Фильтрация может применяться на разных этапах:
- Pre-retrieval filtering — ограничение корпуса до поиска (например, только актуальная версия).
- During retrieval — фильтры внутри sparse/dense поиска (term filters, vector filters).
- Post-retrieval filtering — очистка candidate set перед reranking.
3. Типы фильтров
- Hard filters — строгие условия (версия = v2, язык = ru).
- Soft filters — приоритеты и бустинг (свежесть, авторитет).
- Range filters — интервалы дат, версий, числовых параметров.
- Hierarchical filters — категории и подкатегории.
4. Интеграция с dense search
В векторных БД metadata filtering реализуется через:
- predicate filtering поверх ANN;
- segment-based индексацию;
- hybrid retrieval с лексическими условиями.
Это позволяет избежать семантически близких, но фактически неподходящих результатов.
Где применяется
- RAG-системы с разнородными источниками.
- Корпоративные базы знаний.
- Юридический и медицинский поиск.
- Техническая документация с версиями.
- Мультимодальный retrieval с типами контента.
Практические примеры использования
В техническом RAG вопрос о конкретной версии API ограничивается метаданным version=2.x, чтобы исключить устаревшие документы. В юридических системах фильтрация по дате позволяет учитывать только действующие нормы. В корпоративных ассистентах metadata filtering отделяет внутренние документы от публичных.
В гибридных системах dense retrieval возвращает кандидатов, после чего metadata filtering удаляет нерелевантные домены до этапа reranking, снижая риск retrieval hallucination.
Ключевые свойства
- Строгий контроль домена поиска.
- Снижение семантического шума.
- Повышение точности без изменения моделей.
- Интерпретируемые правила отбора.
- Совместимость с sparse, dense и hybrid search.
Проблемы и ограничения
- Зависимость от качества и полноты метаданных.
- Риск избыточного ограничения recall.
- Сложность поддержки актуальных атрибутов.
- Необходимость согласования схемы метаданных.
- Дополнительная логика в retrieval pipeline.
Преимущества и ограничения
- Плюс: резкое повышение управляемости и точности retrieval.
- Минус: ошибки в метаданных напрямую влияют на результат.
Связанные термины
- Retrieval pipeline
- Hybrid search
- RAG
- Document chunking
- Contextual reranking