Confiance
Définir les indices de confiance de l'IA. Découvrez comment les modèles évaluent la certitude des prédictions, définissent des seuils de fiabilité et distinguent la confiance de la précision.
Dans l'apprentissage automatique, le score de confiance est une valeur numérique attribuée à une prédiction individuelle, indiquant la certitude du modèle que la prédiction est correcte. Exprimée sous la forme d'un pourcentage ou d'une valeur de probabilité comprise entre 0 et 1, elle quantifie la "croyance" du modèle dans ses propres résultats pour une seule instance. Par exemple, dans une tâche de détection d'objets, un modèle comme Ultralytics YOLO11 peut identifier une voiture dans une image et lui attribuer un score de confiance de 0,95 (ou 95 %), ce qui suggère qu'il est très sûr de sa découverte. Ce score est un résultat essentiel qui aide les utilisateurs à filtrer, hiérarchiser et interpréter les résultats du modèle dans des scénarios réels.
Le score de confiance est généralement dérivé de la sortie de la dernière couche d'un réseau neuronal (RN), souvent une fonction softmax ou sigmoïde. Cette valeur est déterminante dans les applications pratiques, où un seuil de confiance est fixé pour écarter les prédictions qui se situent en dessous d'un certain niveau de certitude. En ajustant ce seuil, les développeurs peuvent équilibrer le compromis entre la capture de toutes les détections pertinentes et la minimisation des faux positifs, une considération clé dans le déploiement du modèle.
Applications dans le monde réel
Les indices de confiance sont essentiels pour rendre les systèmes d'intelligence artificielle plus fiables et exploitables. Ils permettent aux systèmes d'évaluer l'incertitude et de déclencher différentes réponses en conséquence.
- Véhicules autonomes : Dans les voitures autonomes, les indices de confiance sont essentiels pour la sécurité. Un détecteur d'objets peut identifier un piéton avec un taux de confiance de 98 %, ce qui indique clairement au véhicule qu'il doit ralentir ou s'arrêter. À l'inverse, s'il détecte un objet avec seulement 30 % de certitude, le système peut le considérer comme incertain et utiliser d'autres capteurs pour vérifier sa nature avant d'agir. Cela permet d'éviter les accidents en se concentrant sur les menaces à forte certitude. Pour plus d'informations sur ce sujet, vous pouvez consulter le site consacré au rôle de l'IA dans les voitures autopilotées.
- Analyse d'images médicales : Lorsqu'un modèle d'IA analyse des scanners médicaux à la recherche de signes de maladie, par exemple pour détecter des tumeurs dans l'imagerie médicale, l'indice de confiance est inestimable. Une détection avec un taux de confiance de 99 % peut être immédiatement signalée pour être examinée par un radiologue. Un résultat dont le degré de confiance est de 60 % peut être qualifié d'"ambigu" ou de "nécessitant un examen plus approfondi", ce qui permet de s'assurer que les cas incertains font l'objet d'un examen humain sans que les experts soient submergés par de fausses alertes. La FDA fournit des orientations sur l'IA/ML dans les dispositifs médicaux.
Confiance par rapport à d'autres indicateurs
Il est important de ne pas confondre le score de confiance d'une prédiction individuelle avec les mesures d'évaluation globale du modèle. Bien qu'elles soient liées, elles mesurent des aspects différents de la performance :
- Précision: Mesure le pourcentage global de prédictions correctes sur l'ensemble de la base de données. Elle donne une idée générale des performances du modèle, mais ne reflète pas la certitude des prédictions individuelles. Un modèle peut avoir une grande précision mais faire des prédictions avec peu de certitude.
- Précision: Indique la proportion de prédictions positives réellement correctes. Une précision élevée signifie moins de fausses alertes. La confiance reflète la conviction du modèle dans sa prédiction, qui peut ou non correspondre à l'exactitude.
- Rappel (sensibilité): Mesure la proportion d'instances positives réelles que le modèle a correctement identifiées. Un taux de rappel élevé signifie qu'il y a moins de détections manquées. La confiance n'est pas directement liée au nombre de cas positifs trouvés.
- Score F1: La moyenne harmonique de la précision et du rappel, fournissant une mesure unique qui équilibre les deux. La confiance reste un score au niveau de la prédiction, et non une mesure globale de la performance du modèle.
- Précision moyenne (mAP) : Une mesure commune dans la détection d'objets qui résume la courbe de précision-rappel pour différents seuils de confiance et classes. Alors que le calcul de la mAP implique des seuils de confiance, la note de confiance elle-même s'applique à chaque détection individuelle.
- Étalonnage : Se réfère au degré d'alignement des scores de confiance avec la probabilité réelle d'exactitude. Les prédictions d'un modèle bien calibré avec un niveau de confiance de 80 % devraient être correctes environ 80 % du temps. Les scores de confiance des réseaux neuronaux modernes ne sont pas toujours intrinsèquement bien calibrés, comme l'explique la recherche sur le calibrage des modèles.
En résumé, la confiance est un résultat précieux pour évaluer la certitude des prédictions individuelles de l'IA, ce qui permet d'améliorer le filtrage, la hiérarchisation et la prise de décision dans les applications du monde réel. Elle est complémentaire, mais distincte, des mesures qui évaluent la performance globale d'un modèle, comme celles que vous pouvez suivre et analyser à l'aide d'outils tels qu'Ultralytics HUB.