La confiance, dans le contexte de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML), représente un score attribué par un modèle à sa prédiction, indiquant à quel point le modèle est certain de ce résultat spécifique. Pour des tâches telles que la détection d'objets ou la classification d'images, chaque objet détecté ou étiquette de classe attribuée s'accompagne d'un score de confiance, allant généralement de 0 à 1 (ou de 0 % à 100 %). Ce score aide les utilisateurs à évaluer la fiabilité des prédictions individuelles faites par des modèles tels que Ultralytics YOLO. Un score plus élevé suggère que le modèle est plus sûr de sa prédiction en se basant sur les modèles appris pendant la formation. Comprendre la confiance est crucial pour interpréter les résultats des modèles et prendre des décisions éclairées basées sur les prédictions de l'IA, en particulier dans les applications critiques pour la sécurité comme l'IA dans les solutions automobiles.
Le seuil de confiance
Dans la pratique, toutes les prédictions d'un modèle ne sont pas également utiles ou fiables. Les prédictions avec des scores de confiance très bas représentent souvent du bruit de fond ou des classifications incertaines. Pour les filtrer, on applique généralement un "seuil de confiance". Il s'agit d'une valeur définie par l'utilisateur (par exemple, 0,5 ou 50 %) ; seules les prédictions dont le score de confiance est supérieur à ce seuil sont considérées comme des sorties valides. La définition d'un seuil approprié est vitale et dépend souvent de l'application spécifique :
- Scénarios à rappel élevé : Dans des applications telles que l'analyse d'images médicales pour le dépistage, un seuil plus bas pourrait être utilisé au départ pour minimiser le risque de manquer des découvertes potentielles ( rappel élevé), même si cela signifie plus de faux positifs qui nécessitent un examen humain. L'IA dans le domaine de la santé implique souvent un réglage minutieux des seuils.
- Scénarios de haute précision : Dans des applications comme la conduite autonome ou le contrôle de la qualité de l'IA dans la fabrication, un seuil plus élevé est préférable pour s'assurer que les actions ne sont prises que sur la base de prédictions très certaines (haute précision), ce qui réduit le risque d'erreurs. La recherche sur la sécurité de l'IA met l'accent sur la robustesse de la prise de décision.
Le seuil de confiance fonctionne souvent en conjonction avec des techniques telles que la suppression non maximale (NMS) pour affiner l'ensemble final de détections en supprimant les boîtes de délimitation qui se chevauchent pour le même objet. Tu peux facilement configurer ce seuil lorsque tu utilises les modèles Ultralytics via l'interface de ligne de commande (CLI) ou l'APIPython . La recherche du seuil optimal peut impliquer le réglage des hyperparamètres.
Applications dans le monde réel
Les scores de confiance sont fondamentaux pour déployer des modèles d'IA de manière responsable et efficace :
- Aide au diagnostic médical : Dans les systèmes qui analysent les scans médicaux (comme les radiographies ou les IRM) à la recherche d'anomalies potentielles(comme la détection de tumeurs), le score de confiance permet de hiérarchiser les cas. Une prédiction avec un faible niveau de confiance peut indiquer une découverte ambiguë nécessitant un examen plus approfondi par un radiologue, tandis que les prédictions avec un niveau de confiance élevé peuvent rationaliser le processus d'examen. La recherche sur l'IA en radiologie traite souvent des niveaux de confiance.
- Systèmes autonomes : Pour les voitures autonomes ou la robotique, les scores de confiance sont essentiels pour la sécurité. La détection d'un piéton ou d'un autre véhicule(découvre l'approche de Waymo) doit atteindre un seuil de confiance élevé avant que le système ne déclenche une action comme le freinage ou l'embardée. Les détections à faible niveau de confiance pourraient être ignorées ou déclencher des alertes moins critiques. Cela permet de s'assurer que le système n'agit de manière décisive qu'en cas de certitude.
Confiance par rapport à d'autres paramètres
Il est important de ne pas confondre le score de confiance d'une prédiction individuelle avec les mesures d'évaluation globale du modèle. Bien qu'elles soient liées, elles mesurent des aspects différents de la performance :
- Précision: Mesure le pourcentage global de prédictions correctes sur l'ensemble des données. Elle donne une idée générale des performances du modèle mais ne reflète pas la certitude des prédictions individuelles. Un modèle peut avoir une grande précision mais faire quand même quelques prédictions avec peu de confiance.
- Précision: Indique la proportion de prédictions positives qui étaient effectivement correctes (vrais positifs / (vrais positifs + faux positifs)). Une précision élevée signifie moins de fausses alertes. La confiance reflète la croyance du modèle en sa prédiction, qui peut s'aligner ou non sur la justesse.
- Rappel (Sensibilité) : Mesure la proportion d'instances positives réelles que le modèle a correctement identifiées (vrais positifs / (vrais positifs + faux négatifs)). Un rappel élevé signifie qu'il y a moins de détections manquées. La confiance n'est pas directement liée au nombre de vrais positifs trouvés.
- F1-Score: La moyenne harmonique de la précision et du rappel, fournissant une mesure unique qui équilibre les deux. La confiance reste un score au niveau de la prédiction.
- Précision moyenne (mAP): Une métrique commune dans la détection d'objets qui résume la courbe de précision-rappel à travers différents seuils de confiance et classes. Alors que le calcul de la mAP implique des seuils de confiance, la note de confiance elle-même s'applique à chaque détection individuelle.
- Calibrage : Se réfère à la façon dont les scores de confiance s'alignent sur la probabilité réelle d'exactitude. Les prédictions d'un modèle bien calibré avec un taux de confiance de 80 % devraient être correctes environ 80 % du temps. Les scores de confiance des modèles ne sont pas toujours intrinsèquement bien calibrés(voir la recherche sur le calibrage).
En résumé, la confiance est un résultat précieux pour évaluer la certitude des prédictions individuelles de l'IA, ce qui permet d'améliorer le filtrage, la hiérarchisation et la prise de décision dans les applications du monde réel. Elle complète, mais est distincte des métriques qui évaluent la performance globale d'un modèle, comme celles suivies dans Ultralytics HUB.
Comment la confiance est-elle déterminée ?
Les scores de confiance sont généralement dérivés de la couche de sortie d'un réseau neuronal (NN). Pour les tâches de classification, cela implique souvent l'application d'une fonction d'activation comme Softmax ou Sigmoïde aux sorties brutes (logits) pour produire des valeurs de type probabilité pour chaque classe. Dans les modèles de détection d'objets comme YOLO, le score de confiance peut combiner la probabilité qu'un objet soit présent dans une boîte englobante proposée (souvent appelée "score d'objectivité") et la probabilité que cet objet appartienne à une classe spécifique, sous réserve qu'un objet soit présent. Il s'agit d'un résultat clé utilisé au cours du processus d'inférence pour évaluer la validité des détections. Ce score est calculé sur la base des poids du modèle appris à partir d'ensembles de données tels que COCO.