Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Base de données vectorielle

Découvrez comment les bases de données vectorielles révolutionnent l'IA en permettant des recherches de similarité efficaces, la recherche sémantique et la détection d'anomalies pour les systèmes intelligents.

Une base de données vectorielle est un type spécialisé de base de données conçue pour stocker, gérer et rechercher des données de haute dimension connues sous le nom d'embeddings vectoriels. Contrairement aux bases de données relationnelles traditionnelles qui sont optimisées pour les données structurées et les correspondances exactes, les bases de données vectorielles excellent dans la recherche d'éléments en fonction de leur similarité. Cette capacité est fondamentale pour une large gamme d'applications d'IA modernes, des moteurs de recommandation à la recherche visuelle, ce qui en fait un élément essentiel de l'infrastructure de machine learning. Elles servent de mémoire à long terme pour les modèles d'IA, leur permettant d'exploiter les modèles complexes appris pendant l'entraînement.

Fonctionnement des bases de données vectorielles

La fonction principale d'une base de données vectorielle est d'exécuter efficacement une recherche vectorielle. Le processus commence lorsque des données non structurées, telles qu'une image, un bloc de texte ou un clip audio, sont transmises via un modèle d'apprentissage profond pour créer une représentation numérique appelée "vector embedding" (incorporation vectorielle). Ces incorporations capturent la signification sémantique des données originales.

La base de données vectorielle stocke ensuite ces embeddings et les indexe à l'aide d'algorithmes spécialisés. Lorsqu'une requête est effectuée (par exemple, une recherche avec une image), les données de la requête sont également converties en vecteur. La base de données compare ensuite ce vecteur de requête aux vecteurs stockés en utilisant des métriques de similarité telles que la Similarité Cosinus ou la Distance Euclidienne pour trouver les éléments les plus "proches" ou les plus similaires. Pour effectuer cette opération à l'échelle avec des millions ou des milliards de vecteurs, ils s'appuient souvent sur des algorithmes Approximate Nearest Neighbor (ANN) très efficaces.

Applications concrètes

Les bases de données vectorielles alimentent de nombreuses fonctionnalités intelligentes avec lesquelles les utilisateurs interagissent quotidiennement.

  1. Recherche visuelle dans le commerce électronique : Un utilisateur peut télécharger une photo d'un produit qu'il aime. Un modèle de vision par ordinateur, tel qu'un modèle Ultralytics YOLO11, génère un embedding pour l'image. Cet embedding est utilisé pour interroger la base de données vectorielle du site de commerce électronique, qui contient des embeddings pour l'ensemble de son catalogue de produits. La base de données renvoie les vecteurs les plus similaires, ce qui permet au site d'afficher des produits visuellement identiques ou stylistiquement liés, une fonctionnalité clé de l'IA pour le commerce de détail.
  2. Recherche sémantique pour les documents : Une entreprise peut créer des embeddings pour tous ses documents internes, tels que les rapports et les tickets de support. Un employé peut alors effectuer une recherche en utilisant une question en langage naturel comme "Quels ont été nos bénéfices au dernier trimestre ?" au lieu de mots-clés spécifiques. Le modèle de traitement du langage naturel (NLP) convertit cette requête en un embedding, et la base de données vectorielle trouve les documents dont les embeddings sont sémantiquement les plus proches, fournissant des informations pertinentes même si le libellé exact ne correspond pas. Ceci est un composant essentiel des systèmes de génération augmentée par la récupération (RAG).

Bases de données vectorielles vs. Concepts associés

Il est utile de différencier les bases de données vectorielles des termes étroitement liés :

  • Embeddings : Les embeddings sont les représentations vectorielles des données. La base de données vectorielle est le système spécialisé conçu pour stocker, indexer et interroger ces embeddings efficacement. Considérez les embeddings comme les livres et la base de données vectorielle comme la bibliothèque intelligente qui les organise.
  • Recherche vectorielle : La recherche vectorielle est le processus de recherche des vecteurs les plus similaires dans un ensemble de données. Une base de données vectorielle est la technologie sous-jacente qui rend ce processus rapide et scalable, en particulier pour l'inférence en temps réel.

Ces composants sont gérés dans le cadre d'un flux de travail MLOps complet, souvent facilité par des plateformes comme Ultralytics HUB pour la gestion de bout en bout des modèles et des ensembles de données.

Bases de données vectorielles populaires

Plusieurs bases de données vectorielles open source et commerciales sont disponibles, chacune ayant des atouts différents en termes d'évolutivité, de déploiement et de fonctionnalités. Parmi les plus utilisées, on trouve :

  • Pinecone : Un service de base de données vectorielle populaire et entièrement géré.
  • Milvus : Une base de données vectorielle open source conçue pour des performances et une évolutivité élevées.
  • Weaviate : Une base de données open source, native de l'IA, avec des capacités graphiques.
  • Chroma DB : Une base de données d'intégration open source axée sur la simplicité et l'expérience des développeurs.
  • Qdrant : Une base de données vectorielle open source et un moteur de recherche de similarité écrits en Rust pour la performance et la sécurité.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers