Термин глоссария

Векторная база данных

Векторные базы данных — ключевая технология, которая позволила языковым моделям работать с внешними знаниями. Они хранят эмбеддинги и обеспечивают быстрый поиск «по смыслу», а не по ключевым словам.

Короткое определение

Векторная база данных — это система, которая хранит вектора (эмбеддинги) и позволяет находить наиболее похожие объекты с помощью поиска ближайших соседей.

Подробное объяснение

Современные модели превращают текст, изображения и даже аудио в эмбеддинги — многомерные числовые вектора. Чтобы эффективно хранить и искать их, нужны базы, которые оптимизированы под высокоразмерные данные.

Векторная база данных позволяет: — сравнивать смысловые близости; — находить похожие документы; — делать RAG; — строить рекомендательные системы; — кластеризовать данные по смыслу.

В отличие от SQL- или NoSQL-систем, векторные базы используют индексы ANN (Approximate Nearest Neighbors), которые позволяют искать миллионы векторов с высокой скоростью.

Системы используются в поиске, аналитике, генерации, корпоративных ассистентах, CV-задачах и мультимодальных сервисах.

Популярные векторные решения: Pinecone, Weaviate, Milvus, Qdrant, Chroma, pgvector. Они объединяются с LLM в RAG-пайплайнах.

В российских продуктах часто применяются pgvector, Qdrant и Milvus для построения локальных ассистентов и поисковых систем.

Примеры использования

Поиск похожих документов по смыслу.
Работа RAG с PDF, статьями и базами знаний.
Рекомендательные системы на основе эмбеддингов.
Поиск похожих изображений через CLIP.
Поиск «похожих товаров» в e-commerce.
Антиспам и фильтрация контента.

Связанные термины

Эмбеддинги
FAISS
RAG
Vector Search
ANN Index

Категория термина

Работа с данными и векторами

Экосистемы