En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Explorez les différences entre l'apprentissage « few-shot », l'apprentissage « zero-shot » et l'apprentissage par transfert dans le domaine de la vision par ordinateur, et découvrez comment ces paradigmes façonnent l'entraînement des modèles d'IA.
Les systèmes d'intelligence artificielle (IA) peuvent gérer des tâches complexes telles que la reconnaissance des visages, la classification des images et la conduite de voitures avec une intervention humaine minimale. Pour ce faire, ils étudient les données, reconnaissent les schémas et utilisent ces schémas pour faire des prédictions ou prendre des décisions. Au fur et à mesure que l'IA progresse, nous assistons à des moyens de plus en plus sophistiqués par lesquels les modèles d'IA peuvent apprendre, s'adapter et effectuer des tâches avec une efficacité remarquable.
Par exemple, la vision par ordinateur est une branche de l'IA qui se concentre sur la capacité des machines à interpréter et à comprendre les informations visuelles du monde. Le développement traditionnel de modèles de vision par ordinateur repose fortement sur de grands jeux de données annotés pour l'entraînement. La collecte et l'étiquetage de ces données peuvent prendre beaucoup de temps et coûter cher.
Pour faire face à ces défis, les chercheurs ont introduit des approches novatrices telles que l'apprentissage « few-shot » (FSL), qui apprend à partir d'exemples limités, l'apprentissage « zero-shot » (ZSL), qui identifie des objets invisibles, et l'apprentissage par transfert (TL), qui applique les connaissances de modèles pré-entraînés à de nouvelles tâches.
Dans cet article, nous allons explorer le fonctionnement de ces paradigmes d'apprentissage, souligner leurs principales différences et examiner des applications concrètes. Commençons !
Un aperçu des paradigmes d'apprentissage
Voyons ce que sont l'apprentissage « few-shot », l'apprentissage « zero-shot » et l'apprentissage par transfert en ce qui concerne la vision par ordinateur et comment ils fonctionnent.
Apprentissage « few-shot »
L'apprentissage avec peu d'exemples est une méthode où les systèmes apprennent à reconnaître de nouveaux objets en utilisant seulement un petit nombre d'exemples. Par exemple, si vous montrez à un modèle quelques photos d'un pingouin, d'un pélican et d'un macareux (ce petit groupe est appelé l'« ensemble de support »), il apprend à quoi ressemblent ces oiseaux.
Plus tard, si vous montrez au modèle une nouvelle image, comme un pingouin, il compare cette nouvelle image avec celles de son ensemble de support et choisit la correspondance la plus proche. Lorsque la collecte d'une grande quantité de données est difficile, cette méthode est bénéfique car le système peut toujours apprendre et s'adapter avec seulement quelques exemples.
Fig 1. Un aperçu du fonctionnement de l'apprentissage avec peu d'exemples.
Apprentissage zéro-shot
L'apprentissage zéro-shot est une méthode permettant aux machines de reconnaître des choses qu'elles n'ont jamais vues auparavant sans avoir besoin d'exemples. Il utilise des informations sémantiques, comme des descriptions, pour aider à établir des connexions.
Par exemple, si une machine a appris à connaître des animaux comme les chats, les lions et les chevaux en comprenant des caractéristiques telles que « petit et duveteux », « grand félin sauvage » ou « long visage », elle peut utiliser ces connaissances pour identifier un nouvel animal, comme un tigre. Même si elle n'a jamais vu de tigre auparavant, elle peut utiliser une description comme « un animal ressemblant à un lion avec des rayures sombres » pour l'identifier correctement. Cela facilite l'apprentissage et l'adaptation des machines sans avoir besoin de nombreux exemples.
Fig 2. L'apprentissage zéro-shot identifie de nouveaux objets à l'aide de descriptions.
Apprentissage par transfert
L'apprentissage par transfert est un paradigme d'apprentissage où un modèle utilise ce qu'il a appris d'une tâche pour aider à résoudre une nouvelle tâche similaire. Cette technique est particulièrement utile lorsqu'il s'agit de tâches de vision par ordinateur telles que la détection d'objets, la classification d'images et la reconnaissance de formes.
Par exemple, en vision par ordinateur, un modèle pré-entraîné peut reconnaître des objets généraux, comme des animaux, puis être affiné par apprentissage par transfert pour identifier des objets spécifiques, tels que différentes races de chiens. En réutilisant les connaissances acquises lors de tâches antérieures, l'apprentissage par transfert facilite l'entraînement de modèles de vision par ordinateur sur des ensembles de données plus petits, ce qui permet d'économiser du temps et des efforts.
Fig 3. Un aperçu du fonctionnement de l'apprentissage par transfert.
Vous vous demandez peut-être quels types de modèles prennent en charge l'apprentissage par transfert. Ultralytics YOLO11 est un excellent exemple de modèle de vision par ordinateur capable de le faire. Il s'agit d'un modèle de détection d'objets de pointe qui est d'abord pré-entraîné sur un grand ensemble de données générales. Ensuite, il peut être affiné et entraîné sur mesure sur un ensemble de données plus petit et spécialisé pour des tâches spécifiques.
Comparaison des paradigmes d'apprentissage
Maintenant que nous avons parlé de l'apprentissage avec peu d'exemples, de l'apprentissage zéro-shot et de l'apprentissage par transfert, comparons-les pour voir en quoi ils diffèrent.
Fig 4. Principales différences entre l'apprentissage avec peu d'exemples, l'apprentissage zéro-shot et l'apprentissage par transfert. Image de l'auteur.
L'apprentissage avec peu d'exemples est utile lorsque vous ne disposez que d'une petite quantité de données étiquetées. Il permet à un modèle d'IA d'apprendre à partir de quelques exemples seulement. L'apprentissage zéro-shot, en revanche, ne nécessite aucune donnée étiquetée. Au lieu de cela, il utilise des descriptions ou un contexte pour aider le système à gérer de nouvelles tâches. Pendant ce temps, l'apprentissage par transfert adopte une approche différente en utilisant les connaissances de modèles pré-entraînés, ce qui leur permet de s'adapter rapidement à de nouvelles tâches avec un minimum de données supplémentaires. Chaque méthode a ses propres forces en fonction du type de données et de la tâche sur laquelle vous travaillez.
Applications concrètes de divers paradigmes d'apprentissage
Ces paradigmes d'apprentissage font déjà une différence dans de nombreux secteurs, résolvant des problèmes complexes avec des solutions innovantes. Examinons de plus près comment ils peuvent être appliqués dans le monde réel.
Diagnostiquer les maladies rares avec l'apprentissage avec peu d'exemples
L'apprentissage avec peu d'exemples change la donne pour le secteur de la santé, en particulier dans l'imagerie médicale. Il peut aider les médecins à diagnostiquer des maladies rares en utilisant seulement quelques exemples ou même des descriptions, sans avoir besoin de grandes quantités de données. Ceci est particulièrement utile lorsque les données sont limitées, ce qui est souvent le cas car la collecte de grands ensembles de données pour les maladies rares peut être difficile.
Par exemple, SHEPHERD utilise l'apprentissage avec peu d'exemples et des graphes de connaissances biomédicales pour diagnostiquer les troubles génétiques rares. Il mappe les informations sur les patients, telles que les symptômes et les résultats des tests, sur un réseau de gènes et de maladies connus. Cela permet de déterminer la cause génétique probable et de trouver des cas similaires, même lorsque les données sont limitées.
Fig 5. Le modèle Shepherd diagnostique les maladies rares en utilisant un minimum de données.
Améliorer la détection des maladies des plantes grâce à l'apprentissage zéro-shot
Dans l'agriculture, l'identification rapide des maladies des plantes est essentielle car les retards de détection peuvent entraîner des dommages considérables aux cultures, une réduction des rendements et des pertes financières importantes. Les méthodes traditionnelles reposent souvent sur de grands ensembles de données et des connaissances d'experts, qui ne sont pas toujours accessibles, en particulier dans les zones reculées ou à ressources limitées. C'est là que les progrès de l'IA, comme l'apprentissage zéro-shot, entrent en jeu.
Disons qu'un agriculteur cultive des tomates et des pommes de terre et remarque des symptômes comme des feuilles jaunissantes ou des taches brunes. L'apprentissage zéro-shot peut aider à identifier des maladies comme le mildiou sans nécessiter de grands ensembles de données. En utilisant des descriptions des symptômes, le modèle peut classer les maladies qu'il n'a jamais vues auparavant. Cette approche est rapide, évolutive et permet aux agriculteurs de détecter divers problèmes liés aux plantes. Elle les aide à surveiller plus efficacement la santé des cultures, à prendre des mesures rapides et à réduire les pertes.
Fig 6. Utilisation de l'apprentissage zéro-shot pour identifier les maladies des plantes.
Véhicules autonomes et apprentissage par transfert
Les véhicules autonomes doivent souvent s'adapter à différents environnements pour naviguer en toute sécurité. L'apprentissage par transfert les aide à utiliser leurs connaissances antérieures pour s'adapter rapidement à de nouvelles conditions sans avoir à reprendre leur entraînement à zéro. Combinées à la vision par ordinateur, qui aide les véhicules à interpréter les informations visuelles, ces technologies permettent une navigation plus fluide sur différents terrains et dans diverses conditions météorologiques, rendant la conduite autonome plus efficace et fiable.
Un bon exemple de ceci en action est un système de gestion de parking qui utilise Ultralytics YOLO11 pour surveiller les places de stationnement. YOLO11, un modèle de détection d'objets pré-entraîné, peut être affiné grâce à l'apprentissage par transfert pour identifier en temps réel les places de parking vides et occupées. En entraînant le modèle sur un ensemble de données plus petit d'images de parking, il apprend à détecter avec précision les places libres, les places occupées et même les zones réservées.
Fig 7. Gestion de parking utilisant Ultralytics YOLO11.
Intégré à d'autres technologies, ce système peut guider les conducteurs vers la place disponible la plus proche, contribuant ainsi à réduire le temps de recherche et les embouteillages. L'apprentissage par transfert rend cela possible en s'appuyant sur les capacités existantes de détection d'objets de YOLO11, lui permettant de s'adapter aux besoins spécifiques de la gestion de parking sans repartir de zéro. Cette approche permet de gagner du temps et des ressources tout en créant une solution hautement efficace et évolutive qui améliore les opérations de stationnement et améliore l'expérience utilisateur globale.
Tendances émergentes dans les paradigmes d'apprentissage
L'avenir des paradigmes d'apprentissage dans la vision par ordinateur s'oriente vers le développement de systèmes de Vision IA plus intelligents et durables. En particulier, une tendance croissante est l'utilisation d'approches hybrides qui combinent l'apprentissage few-shot, l'apprentissage zero-shot et l'apprentissage par transfert. En combinant les forces de ces méthodes, les modèles peuvent apprendre de nouvelles tâches avec un minimum de données et appliquer leurs connaissances dans différents domaines.
Un exemple intéressant est l'utilisation d'intégrations profondes adaptées pour affiner les modèles en utilisant les connaissances acquises lors de tâches précédentes et une petite quantité de nouvelles données, ce qui facilite le travail avec des ensembles de données limités.
De même, l'apprentissage X-shot est conçu pour gérer des tâches avec différentes quantités de données. Il utilise une supervision faible, où les modèles apprennent à partir d'étiquettes limitées ou bruitées, et des instructions claires pour les aider à s'adapter rapidement, même avec peu ou pas d'exemples antérieurs disponibles. Ces approches hybrides montrent comment l'intégration de différentes méthodes d'apprentissage peut aider les systèmes d'IA à relever les défis plus efficacement.
Principaux points à retenir
L'apprentissage few-shot, l'apprentissage zero-shot et l'apprentissage par transfert répondent chacun à des défis spécifiques dans la vision par ordinateur, ce qui les rend adaptés à différentes tâches. La bonne approche dépend de l'application spécifique et de la quantité de données disponibles. Par exemple, l'apprentissage few-shot fonctionne bien avec des données limitées, tandis que l'apprentissage zero-shot est idéal pour traiter des classes invisibles ou inconnues.
Pour l'avenir, il est probable que la combinaison de ces méthodes pour créer des modèles hybrides qui intègrent la vision, le langage et l'audio sera un axe majeur. Ces avancées visent à rendre les systèmes d'IA plus flexibles, efficaces et capables de résoudre des problèmes complexes, ouvrant ainsi de nouvelles possibilités d'innovation dans le domaine.