Découvrez comment l'apprentissage semi-supervisé combine des données étiquetées et non étiquetées pour améliorer les modèles d'IA, réduire les coûts d'étiquetage et augmenter la précision.
L'apprentissage semi-supervisé (SSL) est un paradigme puissant de l'apprentissage automatique (ML) qui comble le fossé entre l'apprentissage et l'apprentissage. l 'apprentissage machine (ML) qui comble le fossé entre l'apprentissage entre l'apprentissage entièrement supervisé et l'apprentissage l 'apprentissage non supervisé. Alors que les méthodes supervisées supervisé nécessitent des ensembles de données entièrement annotés et que les méthodes non supervisées fonctionnent entièrement sans étiquettes, l'apprentissage semi-supervisé fonctionne en tirant parti d'une petite quantité de données étiquetées. en tirant parti d'une petite quantité de données étiquetées et d'une masse beaucoup plus importante de données non étiquetées. Dans de nombreux scénarios dans le monde réel, l'obtention de données brutes est relativement bon marché, mais le processus d'étiquetage des données est coûteux et prend beaucoup de temps. l'étiquetage des données est coûteux, prend du temps et et nécessite une expertise humaine. SSL s'attaque à ce goulot d'étranglement en utilisant les exemples étiquetés limités pour guider le processus d'apprentissage, ce qui permet au modèle d'extraire la structure de l'information. d'apprentissage, ce qui permet au modèle d'extraire la structure et les modèles des vastes segments non étiquetés, améliorant ainsi la précision et la généralisation du modèle. la précision et la généralisation du modèle.
Le mécanisme fondamental de SSL consiste à propager l'information des données étiquetées vers les données non étiquetées. Le processus commence généralement par l'apprentissage d'un modèle initial sur le petit ensemble de données étiquetées. processus commence généralement par la formation d'un modèle initial sur le petit ensemble de données étiquetées. Ce modèle est ensuite utilisé pour déduire des prédictions sur les données non étiquetées. Les prédictions les plus fiables - souvent appelées pseudo-étiquettes - sont considérées comme la vérité de base, et le modèle est réentraîné. et le modèle est réentraîné sur cet ensemble de données élargi. Ce cycle itératif permet aux aux réseaux neuronaux d'apprendre des limites de décision de décision plus robustes que celles apprises à partir des seules données étiquetées.
Les techniques courantes utilisées dans le cadre du protocole SSL sont les suivantes :
L'apprentissage semi-supervisé est particulièrement utile dans les secteurs où les données sont abondantes mais où l'annotation des experts est rare. rares.
Pour bien comprendre le SSL, il est utile de le distinguer de paradigmes d'apprentissage similaires :
La mise en œuvre d'un flux de travail semi-supervisé implique souvent une boucle "enseignant-élève" ou une formation itérative. Ci-dessous
est un exemple conceptuel utilisant l'outil ultralytics Python pour démontrer comment on peut inférer sur des données
données non étiquetées pour générer des prédictions qui pourraient servir de pseudo-étiquettes pour une formation ultérieure.
from ultralytics import YOLO
# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")
# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)
# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.
Les cadres d'apprentissage profond tels que PyTorch et TensorFlow fournissent les blocs de construction nécessaires pour mettre en œuvre des boucles et des fonctions de perte SSL et des fonctions de perte personnalisées. Les modèles devenant de plus en plus volumineux et gourmands en données, les techniques telles que SSL deviennent une pratique courante pour maximiser l'efficacité des données. pour maximiser l'efficacité des données.
La future plateforme Ultralytics est conçue pour rationaliser les flux de travail de ce type, en aidant les équipes à gérer la transition entre les données brutes et le déploiement de modèles. des données brutes au déploiement du modèle en facilitant la curation des données et processus d'auto-annotation. En En utilisant efficacement les données non étiquetées, les organisations peuvent déployer des solutions d'IA très performantes telles que l'analyse des données et la modélisation. YOLO11 plus rapidement et à moindre coût qu'en s'appuyant sur des méthodes purement supervisées.