Glossaire

Emboîtement stochastique de voisins distribué en t (t-SNE)

Visualise les données à haute dimension sans effort avec t-SNE. Découvre des modèles, explore des grappes et améliore les connaissances en matière d'apprentissage automatique dès aujourd'hui !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le t-distributed Stochastic Neighbor Embedding (t-SNE) est une technique puissante utilisée dans l'apprentissage automatique pour visualiser des données à haute dimension dans un espace à plus faible dimension, généralement à deux ou trois dimensions. Cette méthode est particulièrement efficace pour explorer et comprendre des ensembles de données complexes en révélant des modèles et des structures sous-jacents qui pourraient ne pas être apparents dans l'espace à haute dimension d'origine. En réduisant les dimensions tout en préservant les relations locales entre les points de données, le t-SNE permet une visualisation et une analyse intuitives, ce qui en fait un outil précieux dans l'analyse exploratoire des données et les flux de travail d'apprentissage automatique.

Comment fonctionne le t-SNE

Le t-SNE fonctionne en construisant une distribution de probabilité sur des paires d'objets à haute dimension de telle sorte que les objets similaires se voient attribuer une probabilité plus élevée tandis que les objets dissemblables se voient attribuer une probabilité plus faible. Il définit ensuite une distribution de probabilité similaire sur les points de la carte à faible dimension et minimise la divergence de Kullback-Leibler entre les deux distributions en ce qui concerne l'emplacement des points de la carte. La méthode est conçue pour préserver les voisinages locaux, ce qui signifie que les points proches les uns des autres dans l'espace à haute dimension auront tendance à être proches les uns des autres dans la représentation à basse dimension.

Apprends-en plus sur les concepts liés à la réduction de la dimensionnalité et sur la façon dont elle facilite l'apprentissage automatique.

Principales différences par rapport aux autres techniques

Bien que le t-SNE soit une technique de réduction de la dimensionnalité, il diffère considérablement d'autres méthodes telles que l'analyse en composantes principales (ACP). L'ACP se concentre sur la préservation de la structure globale des données en maximisant la variance, alors que le t-SNE met l'accent sur la préservation des voisinages locaux. Cette distinction rend le t-SNE particulièrement utile pour visualiser les grappes et découvrir les structures cachées dans les données. Une autre technique apparentée est le regroupement K-Means, qui est utilisé pour diviser les données en grappes. Bien que les deux techniques puissent être utilisées ensemble, t-SNE est avant tout un outil de visualisation, tandis que K-Means est un algorithme de regroupement.

Applications dans le monde réel

Analyse génomique

En bio-informatique, le t-SNE est largement utilisé pour visualiser des données génomiques complexes. Par exemple, il peut aider les chercheurs à identifier des populations cellulaires distinctes dans les données de séquençage de l'ARN d'une seule cellule. En réduisant les profils d'expression génique à haute dimension à une carte bidimensionnelle, le t-SNE peut révéler des groupes de cellules ayant des modèles d'expression similaires, ce qui facilite la découverte de nouveaux types ou états cellulaires.

Explore l'impact de l'IA sur l'analyse génomique grâce à l'apprentissage automatique.

Reconnaissance d'images

Le t-SNE peut également être appliqué à la reconnaissance d'images pour visualiser les espaces de caractéristiques appris par les modèles d'apprentissage profond. Par exemple, lors de l'entraînement d'un réseau neuronal convolutif (CNN) pour la classification d'images, le t-SNE peut être utilisé pour visualiser la façon dont le réseau sépare les différentes classes dans l'espace des caractéristiques. Cela peut donner un aperçu du processus de prise de décision du modèle et aider à identifier les domaines potentiels d'amélioration.

Découvre l'utilisation de Ultralytics YOLO pour les systèmes de détection d'images avancés.

Informations techniques

Le t-SNE implique un processus stochastique, ce qui signifie qu'il utilise le hasard pour obtenir ses résultats. L'algorithme commence par calculer les similitudes par paire entre les points de données dans l'espace à haute dimension à l'aide d'une distribution gaussienne. Il cartographie ensuite ces points dans un espace de dimension inférieure et utilise une distribution t pour calculer les similitudes. Le processus d'optimisation ajuste itérativement les positions des points dans l'espace à faible dimension afin de minimiser la divergence entre les deux distributions de probabilité.

Utilisation dans l'IA/ML

Au-delà de la visualisation, le t-SNE peut être utilisé pour mieux comprendre la structure des espaces de caractéristiques dans les modèles d'apprentissage profond. Il est particulièrement précieux pour comprendre comment les modèles font la distinction entre différentes classes ou catégories. En visualisant les couches intermédiaires d'un réseau neuronal, les chercheurs peuvent diagnostiquer le comportement du modèle, identifier les problèmes potentiels et affiner les architectures des modèles.

En savoir plus sur les techniques d'extraction de caractéristiques dans l'IA et leur importance.

Conclusion

Le t-SNE est un outil inestimable pour visualiser et interpréter les données à haute dimension dans le cadre de l'apprentissage automatique. Sa capacité à préserver les structures locales le rend particulièrement efficace pour découvrir des grappes et des modèles au sein d'ensembles de données complexes. Qu'il soit utilisé pour explorer les données génomiques, comprendre les modèles d'apprentissage profond ou visualiser les résultats du traitement du langage naturel, le t-SNE constitue un moyen puissant de mieux comprendre la structure sous-jacente des données.

Explore comment Ultralytics' Vision AI Tools peut encore améliorer tes projets d'IA en intégrant ces techniques avancées.

Tout lire