Векторная база данных: поиск по смыслу, а не по словам

Термин глоссария

Векторная база данных


Векторные базы данных — ключевая технология, которая позволила языковым моделям работать с внешними знаниями. Они хранят эмбеддинги и обеспечивают быстрый поиск «по смыслу», а не по ключевым словам.

Короткое определение

Векторная база данных — это система, которая хранит вектора (эмбеддинги) и позволяет находить наиболее похожие объекты с помощью поиска ближайших соседей.

Подробное объяснение

Современные модели превращают текст, изображения и даже аудио в эмбеддинги — многомерные числовые вектора. Чтобы эффективно хранить и искать их, нужны базы, которые оптимизированы под высокоразмерные данные.

Векторная база данных позволяет: — сравнивать смысловые близости; — находить похожие документы; — делать RAG; — строить рекомендательные системы; — кластеризовать данные по смыслу.

В отличие от SQL- или NoSQL-систем, векторные базы используют индексы ANN (Approximate Nearest Neighbors), которые позволяют искать миллионы векторов с высокой скоростью.

Системы используются в поиске, аналитике, генерации, корпоративных ассистентах, CV-задачах и мультимодальных сервисах.

Популярные векторные решения: Pinecone, Weaviate, Milvus, Qdrant, Chroma, pgvector. Они объединяются с LLM в RAG-пайплайнах.

В российских продуктах часто применяются pgvector, Qdrant и Milvus для построения локальных ассистентов и поисковых систем.

Примеры использования

  • Поиск похожих документов по смыслу.
  • Работа RAG с PDF, статьями и базами знаний.
  • Рекомендательные системы на основе эмбеддингов.
  • Поиск похожих изображений через CLIP.
  • Поиск «похожих товаров» в e-commerce.
  • Антиспам и фильтрация контента.

Связанные термины

  • Эмбеддинги
  • FAISS
  • RAG
  • Vector Search
  • ANN Index

Категория термина

Работа с данными и векторами