Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Векторная база данных

Узнайте, как векторные базы данных революционизируют ИИ, обеспечивая эффективный поиск по сходству, семантический поиск и обнаружение аномалий для интеллектуальных систем.

Векторная база данных — это специализированный тип базы данных, предназначенный для хранения, управления и поиска в многомерных данных, известных как векторные вложения (embeddings). В отличие от традиционных реляционных баз данных, оптимизированных для структурированных данных и точных совпадений, векторные базы данных превосходно справляются с поиском элементов на основе их сходства. Эта возможность имеет основополагающее значение для широкого спектра современных AI-приложений, от систем рекомендаций до визуального поиска, что делает их критически важным компонентом в инфраструктуре машинного обучения. Они служат долговременной памятью для AI-моделей, позволяя им использовать сложные закономерности, полученные во время обучения.

Как работают векторные базы данных

Основная функция векторной базы данных — эффективное выполнение векторного поиска. Процесс начинается с того, что неструктурированные данные, такие как изображение, блок текста или аудиоклип, пропускаются через модель глубокого обучения для создания числового представления, называемого векторным представлением (embedding). Эти представления отражают семантическое значение исходных данных.

Затем векторная база данных сохраняет эти вложения и индексирует их с использованием специализированных алгоритмов. Когда делается запрос (например, поиск по изображению), данные запроса также преобразуются в вектор. Затем база данных сравнивает этот вектор запроса с сохраненными векторами, используя метрики сходства, такие как косинусное сходство или евклидово расстояние, чтобы найти «ближайшие» или наиболее похожие элементы. Чтобы выполнить это в масштабе с миллионами или миллиардами векторов, они часто полагаются на высокоэффективные алгоритмы приблизительного ближайшего соседа (ANN).

Применение в реальном мире

Векторные базы данных поддерживают множество интеллектуальных функций, с которыми пользователи взаимодействуют ежедневно.

  1. Визуальный поиск в электронной коммерции: Пользователь может загрузить фотографию понравившегося товара. Модель компьютерного зрения, такая как модель Ultralytics YOLO11, генерирует вложение для изображения. Это вложение используется для запроса векторной базы данных сайта электронной коммерции, которая содержит вложения для всего каталога продуктов. База данных возвращает наиболее похожие векторы, позволяя сайту показывать визуально идентичные или стилистически связанные продукты, что является ключевой особенностью в ИИ для розничной торговли.
  2. Семантический поиск документов: Компания может создать embeddings для всех своих внутренних документов, таких как отчеты и заявки в службу поддержки. Затем сотрудник может выполнить поиск, используя вопрос на естественном языке, например «Какова была наша прибыль в прошлом квартале?», вместо конкретных ключевых слов. Модель обработки естественного языка (NLP) преобразует этот запрос в embedding, и векторная база данных находит документы, embeddings которых семантически наиболее близки, предоставляя релевантную информацию, даже если точная формулировка не совпадает. Это основной компонент систем генерации, дополненной поиском (RAG).

Векторные базы данных и смежные концепции

Полезно отличать векторные базы данных от тесно связанных терминов:

  • Эмбеддинги: Эмбеддинги — это векторные представления данных. Векторная база данных — это специализированная система, созданная для хранения, индексации и запроса этих эмбеддингов эффективным образом. Представьте себе эмбеддинги как книги, а векторную базу данных — как интеллектуальную библиотеку, которая их организует.
  • Векторный поиск: Векторный поиск - это процесс поиска наиболее похожих векторов в наборе данных. Векторная база данных - это базовая технология, которая делает этот процесс быстрым и масштабируемым, особенно для вывода в реальном времени.

Эти компоненты управляются как часть полного рабочего процесса MLOps, часто с помощью таких платформ, как Ultralytics HUB, для сквозного управления моделями и наборами данных.

Популярные векторные базы данных

Существует несколько векторных баз данных с открытым исходным кодом и коммерческих векторных баз данных, каждая из которых имеет свои сильные стороны в отношении масштабируемости, развертывания и функций. К наиболее широко используемым относятся:

  • Pinecone: Популярный, полностью управляемый сервис векторной базы данных.
  • Milvus: Векторная база данных с открытым исходным кодом, разработанная для высокой производительности и масштабируемости.
  • Weaviate: AI-нативная база данных с открытым исходным кодом и графовыми возможностями.
  • Chroma DB: База данных встраивания с открытым исходным кодом, ориентированная на простоту и удобство для разработчиков.
  • Qdrant: Векторная база данных с открытым исходным кодом и поисковая система на основе сходства, написанная на Rust для обеспечения производительности и безопасности.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена