Glossaire

Emboîtements

Apprends ce que sont les embeddings et comment ils alimentent l'IA en capturant les relations sémantiques dans les données pour le NLP, les recommandations et la vision par ordinateur.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans le domaine de l'apprentissage machine (ML) et de l'intelligence artificielle (AI), les encastrements sont une technique fondamentale pour représenter des données complexes - telles que des mots, des phrases, des images ou d'autres éléments - sous forme de vecteurs numériques denses dans un espace multidimensionnel. Cette transformation est apprise à partir des données, ce qui permet aux algorithmes de saisir la signification sémantique, le contexte ou les caractéristiques essentielles de l'entrée. Le principal avantage est que les éléments jugés similaires sur la base des données d'apprentissage sont mis en correspondance avec des points proches dans cet "espace d'intégration", ce qui permet aux machines de comprendre des relations et des modèles complexes de manière beaucoup plus efficace que les représentations éparses traditionnelles telles que le codage à un seul point.

Qu'est-ce qu'un emboîtement ?

Les embeddings sont des représentations vectorielles apprises et relativement peu dimensionnelles de variables discrètes (comme les mots) ou d'objets complexes (comme les images ou les profils d'utilisateurs). Contrairement aux méthodes telles que l'encodage à une touche qui crée des vecteurs clairsemés à très haute dimension où chaque dimension correspond à un seul élément et manque d'informations inhérentes sur les relations, les embeddings sont des vecteurs denses (généralement avec des dizaines à des milliers de dimensions) où chaque dimension contribue à représenter les caractéristiques de l'élément. La position de ces vecteurs dans l'espace d'intégration permet de saisir les relations sémantiques. Par exemple, dans les ancrages de mots, les mots ayant des significations similaires ou utilisés dans des contextes similaires, comme "roi" et "reine" ou "marcher" et "courir", auront des vecteurs qui sont mathématiquement proches (par exemple, en utilisant la similarité cosinus). Cette proximité reflète la similarité sémantique apprise à partir des données.

Comment fonctionne l'intégration

Les ancrages sont généralement générés à l'aide de modèles de réseaux neuronaux (NN) formés sur de vastes ensembles de données grâce à des techniques telles que l'apprentissage auto-supervisé. Par exemple, une technique courante d'intégration de mots, illustrée par Word2Vec, consiste à former un modèle pour prédire un mot en fonction des mots qui l'entourent (son contexte) dans un corpus de texte massif. Au cours de ce processus de formation, le réseau ajuste ses paramètres internes, y compris les vecteurs d'intégration pour chaque mot, afin de minimiser les erreurs de prédiction par le biais de méthodes telles que la rétropropagation. Les vecteurs résultants encodent implicitement des informations syntaxiques et sémantiques. Le nombre de dimensions dans l'espace d'intégration est un hyperparamètre essentiel, qui influe sur la capacité du modèle à saisir les détails par rapport à son coût de calcul et au risque de surajustement. La visualisation de ces espaces de données à haute dimension nécessite souvent des techniques de réduction de la dimensionnalité telles que t-SNE ou PCA, qui peuvent être explorées à l'aide d'outils tels que le projecteurTensorFlow .

Applications des emboîtements

Les encastrements sont des composants cruciaux dans de nombreux systèmes d'intelligence artificielle modernes dans divers domaines :

  • Traitement du langage naturel (NLP): Les embeddings représentent des mots, des phrases ou des documents entiers. Les modèles tels que les architectures BERT et Transformer s'appuient fortement sur les embeddings pour comprendre les nuances du langage pour des tâches telles que la traduction automatique, l'analyse des sentiments, la réponse aux questions et l'alimentation d'une recherche sémantique efficace. Exemple : Un chatbot d'assistance à la clientèle utilise les enchâssements de phrases pour trouver la réponse la plus pertinente dans sa base de connaissances, même si la requête de l'utilisateur n'utilise pas les mots-clés exacts.
  • Systèmes de recommandation: Les embeddings peuvent représenter des utilisateurs et des éléments (comme des films, des produits ou des articles). En apprenant des embeddings tels que les utilisateurs et les articles qu'ils aiment sont proches dans l'espace d'embeddings, les systèmes peuvent recommander de nouveaux articles similaires à ceux avec lesquels un utilisateur a déjà interagi ou aimés par des utilisateurs similaires(filtrage collaboratif). Des entreprises comme Netflix et Amazon utilisent largement cette méthode.
  • Vision par ordinateur (VA): Les images ou les patchs d'images peuvent être convertis en embeddings qui capturent les caractéristiques visuelles. Ceci est fondamental pour des tâches telles que la recherche d'images (trouver des images visuellement similaires), la classification d'images, et sert de base à des tâches plus complexes telles que la détection d'objets et la segmentation d'images réalisées par des modèles tels que Ultralytics YOLO. Exemple : Une plateforme de commerce électronique utilise des incrustations d'images pour permettre aux utilisateurs de télécharger la photo d'un vêtement et de trouver des produits similaires dans leur catalogue. Des plateformes comme Ultralytics HUB facilitent la formation et le déploiement de tels modèles.
  • Analyse des graphes: Les embeddings peuvent représenter les nœuds et les arêtes des graphes, capturer la structure du réseau et les relations entre les nœuds pour des tâches telles que la prédiction des liens ou la détection des communautés, souvent à l'aide de réseaux neuronaux graphiques (GNN).

Embeddings vs. concepts apparentés

Il est utile de distinguer les embeddings des termes apparentés :

  • Embeddings par rapport à l'extraction de caractéristiques: Les embeddings sont une forme sophistiquée et souvent automatisée d'extraction de caractéristiques réalisée grâce à l'apprentissage profond. Alors que l'ingénierie traditionnelle des caractéristiques peut impliquer de définir manuellement des caractéristiques (par exemple, des histogrammes de couleur pour les images), les embeddings apprennent les caractéristiques pertinentes directement à partir des données pendant la formation.
  • Embeddings vs. recherche vectorielle / bases de données vectorielles: Les embeddings sont les représentations vectorielles des éléments de données. La recherche vectorielle consiste à interroger une collection d'encastrements pour trouver ceux qui sont les plus similaires (les plus proches) à un vecteur d'interrogation, souvent en utilisant des algorithmes de voisinage approximatif (ANN) pour plus d'efficacité. Les bases de données vectorielles (comme Pinecone ou Milvus) sont des bases de données spécialisées optimisées pour le stockage, l'indexation et l'exécution de recherches vectorielles rapides sur de grands volumes d'enchâssements.

Les embeddings constituent un moyen puissant de représenter les données pour les modèles d'apprentissage automatique, leur permettant de comprendre les similitudes sémantiques et les modèles complexes dans divers types de données, du texte aux images. Ils constituent une technologie de base à l'origine d'avancées dans de nombreuses applications d'IA et font partie intégrante des capacités des frameworks ML modernes tels que PyTorch et TensorFlow.

Tout lire