Embedding drift в векторных системах

Термин глоссария

Embedding drift


Embedding drift — деградация согласованности векторных представлений во времени, при которой эмбеддинги запросов и документов перестают корректно соотноситься.

Определение

Embedding drift — это явление, при котором векторные представления (эмбеддинги) меняют своё распределение или семантическое положение со временем так, что прежние отношения близости нарушаются. В результате поиск, кластеризация и retrieval начинают возвращать менее релевантные результаты. Drift возникает из-за обновлений моделей, изменений данных, доменных сдвигов или несогласованной переиндексации.

Как работает

Embedding drift проявляется как несоответствие между пространствами эмбеддингов, используемых в разные моменты времени или разными компонентами системы.

1. Источники дрейфа

  • Model drift — обновление версии энкодера (архитектура, веса, токенизация).
  • Data drift — изменение распределения входных данных (новые темы, термины, стиль).
  • Training drift — дообучение на новых данных без выравнивания со старым пространством.
  • Index mismatch — частичная переиндексация корпуса.

2. Геометрические эффекты

  • смещение центров кластеров;
  • изменение относительных расстояний;
  • поворот или растяжение embedding space;
  • снижение плотности для ранее стабильных концептов.

3. Проявление в системах

  • запросы перестают находить «очевидные» документы;
  • увеличивается доля нерелевантных кандидатов;
  • reranker компенсирует ошибки, но растёт латентность;
  • в RAG увеличиваются hallucination из-за плохого контекста.

Где применяется

  • Dense retrieval и hybrid search.
  • RAG-пайплайны.
  • Векторные базы и ANN-индексы.
  • Мультимодальный поиск (текст–изображение–видео).
  • Системы рекомендаций.

Практические примеры использования

В production-RAG типичная ситуация: энкодер обновляется для улучшения качества, но индекс документов остаётся старым. Запросы, закодированные новой моделью, плохо сопоставляются со старыми эмбеддингами — качество retrieval падает. Аналогично, при доменном сдвиге (новые продукты, технологии, термины) старое embedding space перестаёт адекватно отражать семантику корпуса.

В мультимодальных системах embedding drift может возникать при асинхронном обновлении текстового и визуального энкодеров, что ломает cross-modal alignment.

Ключевые свойства

  • Накопительный характер во времени.
  • Не всегда заметен сразу.
  • Проявляется через падение метрик retrieval.
  • Может быть как глобальным, так и локальным (по доменам).
  • Критичен для долгоживущих систем.

Проблемы и ограничения

  • Сложность диагностики без контрольных наборов.
  • Дорогая полная переиндексация.
  • Трудности выравнивания старых и новых эмбеддингов.
  • Неочевидный порог, когда drift становится критичным.
  • Зависимость от downstream-компонентов (reranker, LLM).

Преимущества и ограничения

  • Плюс: осознание и контроль drift повышают стабильность систем.
  • Минус: требует регулярного мониторинга и инфраструктурных затрат.

Связанные термины

  • Data drift
  • Model drift
  • Dense retrieval
  • RAG
  • Vector index

Категория термина

Работа с данными и векторами