Découvrez comment les bases de données vectorielles révolutionnent l'IA en permettant des recherches de similarité efficaces, des recherches sémantiques et la détection d'anomalies pour les systèmes intelligents.
Une base de données vectorielle est un type de base de données spécialisé conçu pour stocker, gérer et rechercher des données à haute dimension connues sous le nom d'encastrements vectoriels. Contrairement aux bases de données relationnelles traditionnelles qui sont optimisées pour les données structurées et les correspondances exactes, les bases de données vectorielles excellent dans la recherche d'éléments sur la base de leur similarité. Cette capacité est fondamentale pour un large éventail d'applications modernes d'intelligence artificielle, des moteurs de recommandation à la recherche visuelle, ce qui en fait un élément essentiel de l'infrastructure d'apprentissage automatique. Elles servent de mémoire à long terme pour les modèles d'intelligence artificielle, leur permettant d'exploiter les modèles complexes appris au cours de la formation.
La fonction principale d'une base de données vectorielle est d'exécuter efficacement une recherche vectorielle. Le processus commence lorsque des données non structurées - telles qu'une image, un bloc de texte ou un clip audio - passent par un modèle d'apprentissage profond pour créer une représentation numérique appelée encastrement vectoriel. Ces encastrements capturent la signification sémantique des données d'origine.
La base de données vectorielles stocke ensuite ces encastrements et les indexe à l'aide d'algorithmes spécialisés. Lorsqu'une requête est effectuée (par exemple, une recherche sur une image), les données de la requête sont également converties en vecteur. La base de données compare ensuite ce vecteur de requête aux vecteurs stockés en utilisant des mesures de similarité telles que la similarité cosinusoïdale ou la distance euclidienne pour trouver les éléments les plus "proches" ou les plus similaires. Pour réaliser cette opération à grande échelle avec des millions ou des milliards de vecteurs, les bases de données s'appuient souvent sur des algorithmes ANN (Approximate Nearest Neighbor) très efficaces.
Les bases de données vectorielles sont à l'origine de nombreuses fonctions intelligentes avec lesquelles les utilisateurs interagissent quotidiennement.
Il est utile de différencier les bases de données vectorielles des termes étroitement liés :
Ces composants sont gérés dans le cadre d'un flux de travail MLOps complet, souvent facilité par des plateformes comme Ultralytics HUB pour la gestion de bout en bout des modèles et des ensembles de données.
Plusieurs bases de données vectorielles commerciales et à code source ouvert sont disponibles, chacune présentant des atouts différents en termes d'évolutivité, de déploiement et de fonctionnalités. Parmi les plus utilisées, on peut citer