Векторные базы данных — ключевая технология, которая позволила языковым моделям работать с внешними знаниями. Они хранят эмбеддинги и обеспечивают быстрый поиск «по смыслу», а не по ключевым словам.
Короткое определение
Векторная база данных — это система, которая хранит вектора (эмбеддинги) и позволяет находить наиболее похожие объекты с помощью поиска ближайших соседей.
Подробное объяснение
Современные модели превращают текст, изображения и даже аудио в эмбеддинги — многомерные числовые вектора. Чтобы эффективно хранить и искать их, нужны базы, которые оптимизированы под высокоразмерные данные.
Векторная база данных позволяет: — сравнивать смысловые близости; — находить похожие документы; — делать RAG; — строить рекомендательные системы; — кластеризовать данные по смыслу.
В отличие от SQL- или NoSQL-систем, векторные базы используют индексы ANN (Approximate Nearest Neighbors), которые позволяют искать миллионы векторов с высокой скоростью.
Системы используются в поиске, аналитике, генерации, корпоративных ассистентах, CV-задачах и мультимодальных сервисах.
Популярные векторные решения: Pinecone, Weaviate, Milvus, Qdrant, Chroma, pgvector. Они объединяются с LLM в RAG-пайплайнах.
В российских продуктах часто применяются pgvector, Qdrant и Milvus для построения локальных ассистентов и поисковых систем.
Примеры использования
- Поиск похожих документов по смыслу.
- Работа RAG с PDF, статьями и базами знаний.
- Рекомендательные системы на основе эмбеддингов.
- Поиск похожих изображений через CLIP.
- Поиск «похожих товаров» в e-commerce.
- Антиспам и фильтрация контента.
Связанные термины
- Эмбеддинги
- FAISS
- RAG
- Vector Search
- ANN Index