Apprentissage actif
Découvrez l'apprentissage actif, une méthode d'apprentissage automatique rentable qui améliore la précision avec moins d'étiquettes. Découvrez comment elle transforme la formation à l'IA !
L'apprentissage actif est une méthodologie de formation spécialisée dans l'apprentissage machine (ML) où un algorithme d'apprentissage peut interroger de manière interactive un utilisateur ou une autre source d'information (un "oracle") pour étiqueter de nouveaux points de données. L'idée de base est que si un modèle peut choisir les données à partir desquelles il apprend, il peut atteindre une plus grande précision avec beaucoup moins de données de formation. Cela est particulièrement utile dans les domaines où l 'étiquetage des données est coûteux, prend du temps ou nécessite des connaissances spécialisées. Au lieu d'étiqueter tout un ensemble de données en une seule fois, l'apprentissage actif donne la priorité aux échantillons les plus "informatifs" pour l'étiquetage, ce qui rend le processus d'apprentissage du modèle beaucoup plus efficace.
Applications dans le monde réel
L'apprentissage actif est très efficace dans les domaines spécialisés où l'annotation par des experts constitue un goulot d'étranglement.
- Analyse d'images médicales: Lors de l'apprentissage d'une IA pour détecter des maladies comme le cancer à partir de scanners médicaux, il peut y avoir des millions d'images disponibles, mais le radiologue ne dispose que d'un temps limité. Au lieu de lui demander d'étiqueter des images au hasard, un système d'apprentissage actif peut identifier les cas les plus ambigus ou les plus rares à examiner. L'expert concentre ainsi ses efforts là où ils sont le plus nécessaires, ce qui accélère le développement d'un modèle très précis pour des tâches telles que la détection des tumeurs cérébrales. La recherche dans ce domaine montre des réductions significatives de l'effort d'étiquetage, comme le montrent des études telles que celle-ci sur la segmentation des images biomédicales.
- Conduite autonome: Les systèmes de perception des véhicules autonomes doivent être formés sur des ensembles de données vastes et diversifiés couvrant d'innombrables scénarios de conduite. L'apprentissage actif permet d'identifier les "cas limites" des données de conduite collectées, tels qu'un piéton partiellement caché par un obstacle ou des conditions météorologiques inhabituelles, que le modèle actuel de détection d'objets ne parvient pas à traiter. En donnant la priorité à l'annotation de ces scènes difficiles, les développeurs peuvent améliorer plus efficacement la robustesse et la sécurité du modèle.
Apprentissage actif et concepts connexes
Il est important de distinguer l'apprentissage actif des autres paradigmes d'apprentissage qui utilisent également des données non étiquetées :
- Apprentissage semi-supervisé: Utilise simultanément des données étiquetées et non étiquetées pendant la formation. Contrairement à l'apprentissage actif, il utilise généralement toutes les données non étiquetées disponibles de manière passive, plutôt que d'interroger sélectivement des instances spécifiques pour obtenir des étiquettes.
- Apprentissage auto-supervisé: Apprend des représentations à partir de données non étiquetées en créant des tâches prétextes (par exemple, prédire une partie masquée d'une image). Il ne nécessite pas d'annotation humaine pendant sa phase de pré-entraînement, alors que l'apprentissage actif s'appuie sur un oracle pour les étiquettes. DeepMind a largement exploré ce domaine.
- Apprentissage par renforcement: Apprentissage par essais et erreurs par le biais d'interactions avec un environnement, en recevant des récompenses ou des pénalités pour ses actions. Il n'implique pas la recherche d'étiquettes explicites comme l'apprentissage actif.
- L'apprentissage fédéré: L'apprentissage fédéré se concentre sur la formation de modèles à travers des dispositifs décentralisés tout en conservant les données au niveau local, ce qui répond principalement aux préoccupations en matière de confidentialité des données. L'apprentissage actif se concentre sur l'acquisition efficace d'étiquettes. Ces techniques peuvent parfois être combinées.
Outils et mise en œuvre
La mise en œuvre de l'apprentissage actif implique souvent l'intégration de modèles de ML avec des outils d'annotation et la gestion du flux de données. Des frameworks comme scikit-learn offrent certaines fonctionnalités, tandis que des bibliothèques spécialisées existent pour des tâches spécifiques. Les logiciels d'annotation tels que Label Studio peuvent être intégrés dans les pipelines d'apprentissage actif, permettant aux annotateurs de fournir des étiquettes pour les échantillons interrogés. Une gestion efficace des ensembles de données en évolution et des modèles formés est cruciale, et des plateformes comme Ultralytics HUB fournissent une infrastructure pour organiser ces actifs tout au long du cycle de vie du développement. Explorez le dépôt Ultralytics GitHub pour plus d'informations sur la mise en œuvre de techniques avancées de ML.
Comment fonctionne l'apprentissage actif
Le processus d'apprentissage actif est cyclique et souvent décrit comme un flux de travail humain en boucle. Il suit généralement les étapes suivantes :
La clé de ce processus réside dans la stratégie d'interrogation. Les stratégies courantes comprennent l'échantillonnage d'incertitude (sélection des cas pour lesquels le modèle est le moins sûr), l'interrogation par comité (utilisation de plusieurs modèles et sélection des cas sur lesquels ils ne sont pas d'accord), ou l'estimation du changement de modèle attendu. Une bonne vue d'ensemble de ces stratégies peut être trouvée dans cette enquête sur l'apprentissage actif.