Embedding drift — деградация согласованности векторных представлений во времени, при которой эмбеддинги запросов и документов перестают корректно соотноситься.
Определение
Embedding drift — это явление, при котором векторные представления (эмбеддинги) меняют своё распределение или семантическое положение со временем так, что прежние отношения близости нарушаются. В результате поиск, кластеризация и retrieval начинают возвращать менее релевантные результаты. Drift возникает из-за обновлений моделей, изменений данных, доменных сдвигов или несогласованной переиндексации.
Как работает
Embedding drift проявляется как несоответствие между пространствами эмбеддингов, используемых в разные моменты времени или разными компонентами системы.
1. Источники дрейфа
- Model drift — обновление версии энкодера (архитектура, веса, токенизация).
- Data drift — изменение распределения входных данных (новые темы, термины, стиль).
- Training drift — дообучение на новых данных без выравнивания со старым пространством.
- Index mismatch — частичная переиндексация корпуса.
2. Геометрические эффекты
- смещение центров кластеров;
- изменение относительных расстояний;
- поворот или растяжение embedding space;
- снижение плотности для ранее стабильных концептов.
3. Проявление в системах
- запросы перестают находить «очевидные» документы;
- увеличивается доля нерелевантных кандидатов;
- reranker компенсирует ошибки, но растёт латентность;
- в RAG увеличиваются hallucination из-за плохого контекста.
Где применяется
- Dense retrieval и hybrid search.
- RAG-пайплайны.
- Векторные базы и ANN-индексы.
- Мультимодальный поиск (текст–изображение–видео).
- Системы рекомендаций.
Практические примеры использования
В production-RAG типичная ситуация: энкодер обновляется для улучшения качества, но индекс документов остаётся старым. Запросы, закодированные новой моделью, плохо сопоставляются со старыми эмбеддингами — качество retrieval падает. Аналогично, при доменном сдвиге (новые продукты, технологии, термины) старое embedding space перестаёт адекватно отражать семантику корпуса.
В мультимодальных системах embedding drift может возникать при асинхронном обновлении текстового и визуального энкодеров, что ломает cross-modal alignment.
Ключевые свойства
- Накопительный характер во времени.
- Не всегда заметен сразу.
- Проявляется через падение метрик retrieval.
- Может быть как глобальным, так и локальным (по доменам).
- Критичен для долгоживущих систем.
Проблемы и ограничения
- Сложность диагностики без контрольных наборов.
- Дорогая полная переиндексация.
- Трудности выравнивания старых и новых эмбеддингов.
- Неочевидный порог, когда drift становится критичным.
- Зависимость от downstream-компонентов (reranker, LLM).
Преимущества и ограничения
- Плюс: осознание и контроль drift повышают стабильность систем.
- Минус: требует регулярного мониторинга и инфраструктурных затрат.
Связанные термины
- Data drift
- Model drift
- Dense retrieval
- RAG
- Vector index