Vector Database
Узнай, как векторные базы данных управляют высокоразмерными эмбеддингами для семантического поиска. Научись создавать ИИ-приложения с помощью Ultralytics YOLO26 и семантического поиска.
Векторная база данных — это специализированная система хранения, предназначенная для управления, индексации и выполнения запросов к многомерным векторным данным, которые часто называют эмбеддингами. В отличие от традиционной реляционной базы данных, которая организует структурированные данные в строки и столбцы для точного сопоставления по ключевым словам, векторная база данных оптимизирована для семантического поиска. Она позволяет интеллектуальным системам находить точки данных, которые концептуально схожи, а не идентичны. Эта возможность является фундаментальной для современной инфраструктуры искусственного интеллекта (ИИ), позволяя приложениям обрабатывать и понимать неструктурированные данные, такие как изображения, аудио, видео и текст, путем анализа математических взаимосвязей между ними. Такие базы данных служат долговременной памятью для интеллектуальных агентов, облегчая выполнение задач, например, визуальный поиск и персонализированные рекомендации.
Link to this sectionКак работают векторные базы данных#
Функционирование векторной базы данных строится вокруг концепции векторного пространства, где элементы данных отображаются как точки в многомерной системе координат. Процесс начинается с извлечения признаков, при котором модель глубокого обучения (DL) преобразует исходные данные в численные векторы.
-
Загрузка данных: Данные обрабатываются нейронной сетью, такой как передовая модель YOLO26, для создания эмбеддингов. Эти векторы сжимают семантический смысл входных данных в плотный список чисел с плавающей запятой.
-
Индексация: Для обеспечения низкой задержки вывода во время поиска, база данных организует эти векторы с использованием специализированных алгоритмов. Такие методы, как Hierarchical Navigable Small World (HNSW) или Inverted File Index (IVF), позволяют системе эффективно перемещаться по миллиардам векторов, не сканируя каждую запись.
-
Запросы: Когда ты отправляешь поисковый запрос (например, изображение определенного стиля обуви), система преобразует его в вектор и вычисляет его близость к сохраненным векторам, используя метрики расстояния, такие как косинусное сходство или евклидово расстояние.
-
Получение результатов: База данных возвращает «ближайших соседей», которые представляют собой наиболее контекстуально релевантные результаты.
Следующий фрагмент кода на Python демонстрирует, как создавать эмбеддинги с помощью стандартной модели ultralytics, что является необходимым предварительным шагом перед заполнением векторной базы данных.
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")
# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")Link to this sectionРеальные приложения#
Векторные базы данных сегодня являются движущей силой многих продвинутых приложений в области компьютерного зрения (CV) и обработки естественного языка (NLP), используемых в корпоративной среде.
- Генерация с дополнением выборки (RAG): В эпоху генеративного ИИ векторные базы данных позволяют большим языковым моделям (LLM) получать доступ к обширной библиотеке частных и актуальных данных. Извлекая релевантные документы на основе семантического значения твоего запроса, система уменьшает количество галлюцинаций в LLM и предоставляет фактические, контекстно-зависимые ответы.
- Визуальные рекомендательные системы: В сфере ИИ в ритейле платформы используют векторные базы данных для реализации функций «искать похожие стили». Если ты просматриваешь определенное летнее платье, система ищет в базе данных другие изображения товаров с похожими визуальными эмбеддингами — совпадающими по узорам, фасону и цвету, — обеспечивая лучший пользовательский опыт, чем простая фильтрация по тегам.
- Обнаружение аномалий и угроз: Системы безопасности используют векторные базы данных для обнаружения аномалий. Сохраняя эмбеддинги «нормального» поведения или авторизованного персонала, система может мгновенно помечать выбросы, которые выходят за пределы ожидаемого кластера в векторном пространстве, повышая безопасность данных и эффективность мониторинга объектов.
Link to this sectionРазграничение связанных понятий#
Чтобы эффективно внедрять такие системы, полезно отличать векторную базу данных от связанных технологий в ландшафте операций машинного обучения (MLOps).
- Векторная база данных против векторного поиска: Векторный поиск — это действие или алгоритмический процесс поиска похожих векторов («как»). Векторная база данных — это надежная инфраструктура, созданная для хранения данных, управления индексом и выполнения таких поисков в большом масштабе («где»).
- Векторная база данных против хранилища признаков: Хранилище признаков — это централизованный репозиторий для управления признаками, используемыми при обучении моделей и выводе, что обеспечивает их согласованность. Хотя оно работает с данными признаков, оно не оптимизировано в первую очередь для запросов поиска по сходству, которые определяют векторную базу данных.
- Векторная база данных против озера данных: Озеро данных хранит огромные объемы необработанных данных в их исходном формате. Векторная база данных хранит обработанные математические представления (эмбеддинги) этих данных, оптимизированные специально для поиска по сходству.
Link to this sectionИнтеграция с современными рабочими процессами ИИ#
Внедрение векторной базы данных часто включает в себя конвейер, в котором такие модели, как эффективная YOLO26, выступают в качестве движка для создания эмбеддингов. Эти модели обрабатывают визуальные данные на периферии (edge) или в облаке, а полученные векторы передаются в такие решения, как Pinecone, Milvus или Qdrant.
Для команд, стремящихся оптимизировать весь этот жизненный цикл — от подготовки данных и автоматической аннотации до обучения моделей и развертывания, — Ultralytics Platform предлагает комплексную среду. Интегрируя обучение моделей с эффективными стратегиями развертывания, ты можешь гарантировать, что эмбеддинги, подаваемые в векторные базы данных, будут точными, что приведет к повышению качества результатов поиска и созданию более умных ИИ-агентов.






