Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Векторная база данных

Узнайте, как векторные базы данных революционизируют ИИ, обеспечивая эффективный поиск по сходству, семантический поиск и обнаружение аномалий для интеллектуальных систем.

A vector database is a specialized storage system designed to manage, index, and query high-dimensional vector data, often commonly referred to as embeddings. Unlike a traditional relational database, which organizes structured data into rows and columns for exact keyword matching, a vector database is optimized for semantic retrieval. It enables intelligent systems to find data points that are conceptually similar rather than identical. This capability is fundamental to modern artificial intelligence (AI) infrastructure, allowing applications to process and understand unstructured data—such as images, audio, video, and text—by analyzing the mathematical relationships between them. These databases serve as the long-term memory for intelligent agents, facilitating tasks like visual search and personalized recommendations.

Как работают векторные базы данных

Функция векторной базы данных основана на концепции векторного пространства, в котором элементы данных отображаются в виде точек в многомерной системе координат. Процесс начинается с извлечения признаков, когда модель глубокого обучения (DL) преобразует исходные данные в числовые векторы.

  1. Ingestion: Data is processed by a neural network, such as the state-of-the-art YOLO26, to generate embeddings. These vectors compress the semantic meaning of the input into a dense list of floating-point numbers.
  2. Индексирование: чтобы обеспечить низкую задержку вывода при поиске, база данных организует эти векторы с помощью специальных алгоритмов. Такие методы, как Hierarchical Navigable Small World (HNSW) или Inverted File Index (IVF), позволяют системе эффективно перемещаться по миллиардам векторов без сканирования каждой отдельной записи.
  3. Querying: When a user submits a search query (e.g., an image of a specific shoe style), the system converts the query into a vector and calculates its proximity to stored vectors using distance metrics like cosine similarity or Euclidean distance.
  4. Поиск: база данных возвращает «ближайших соседей», которые представляют собой наиболее релевантные по контексту результаты.

Следующий Python демонстрирует, как генерировать вложения с помощью стандартного ultralytics модель, которая является обязательным шагом перед заполнением векторной базы данных.

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Применение в реальном мире

Векторные базы данных являются движущей силой многих передовых приложений компьютерного зрения (CV) и обработки естественного языка (NLP), используемых сегодня в корпоративных средах.

  • Поисково-усиленное генерирование (RAG): В эпоху генеративного ИИ векторные базы данных позволяют большим языковым моделям (LLM) получать доступ к обширной библиотеке частных, актуальных данных. Получая релевантные документы на основе семантического значения запроса пользователя , система уменьшает галлюцинации в LLM и предоставляет фактические, контекстно-зависимые ответы.
  • Системы визуальных рекомендаций: в сфере искусственного интеллекта в розничной торговле платформы используют векторные базы данных для реализации функций «подобные стили». Если пользователь просматривает конкретное летнее платье, система запрашивает базу данных на наличие других изображений продуктов с похожими визуальными вложениями — совпадающими узорами, фасонами и цветами — обеспечивая лучший пользовательский опыт, чем простая фильтрация по тегам.
  • Обнаружение аномалий и угроз: Системы безопасности используют векторные базы данных для обнаружения аномалий. Храня встроенные данные о «нормальном» поведении или уполномоченном персонале, система может мгновенно выявлять отклонения, выходящие за пределы ожидаемого кластера в векторном пространстве, что повышает безопасность данных и улучшает мониторинг объекта.

Дифференциация смежных понятий

Для эффективной реализации этих систем полезно отличать векторную базу данных от связанных технологий в сфере операций машинного обучения (MLOps) .

  • Векторная база данных и векторный поиск: Векторный поиск — это действие или алгоритмический процесс поиска похожих векторов («как»). Векторная база данных — это надежная инфраструктура, созданная для хранения данных, управления индексом и выполнения таких поисков в большом масштабе («где»).
  • Векторная база данных против хранилища признаков: Хранилище признаков — это централизованный репозиторий для управления признаками, используемыми при обучении и инференции моделей, что обеспечивает согласованность. Хотя оно обрабатывает данные признаков, оно не оптимизировано в первую очередь для запросов на основе схожести, которые определяют векторную базу данных.
  • Векторная база данных против озера данных: озеро данных хранит огромные объемы необработанных данных в их исходном формате. Векторная база данных хранит обработанные математические представления (вложения) этих данных, оптимизированные специально для поиска по схожести.

Интеграция с современными рабочими процессами ИИ

Implementing a vector database often involves a pipeline where models like the efficient YOLO26 act as the embedding engine. These models process visual data at the edge or in the cloud, and the resulting vectors are pushed to solutions like Pinecone, Milvus, or Qdrant.

For teams looking to streamline this entire lifecycle—from data curation and auto-annotation to model training and deployment—the Ultralytics Platform offers a comprehensive environment. By integrating model training with efficient deployment strategies, developers can ensure that the embeddings feeding their vector databases are accurate, resulting in higher quality search results and smarter AI agents.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас