Confiance
Définissez les scores de confiance de l'IA. Découvrez comment les modèles évaluent la certitude des prédictions, définissez des seuils de fiabilité et distinguez la confiance de la précision.
En apprentissage automatique, le score de confiance est une valeur numérique attribuée à une prédiction individuelle, indiquant la certitude du modèle que la prédiction est correcte. Exprimé en pourcentage ou en valeur de probabilité entre 0 et 1, il quantifie la « conviction » du modèle dans son propre résultat pour une instance unique. Par exemple, dans une tâche de détection d'objets, un modèle comme Ultralytics YOLO11 pourrait identifier une voiture dans une image et attribuer un score de confiance de 0,95 (ou 95 %), suggérant qu'il est très sûr de sa conclusion. Ce score est un résultat essentiel qui aide les utilisateurs à filtrer, à hiérarchiser et à interpréter les résultats du modèle dans des scénarios du monde réel.
Le score de confiance est généralement dérivé de la sortie de la couche finale d'un réseau neuronal (NN), souvent une fonction softmax ou sigmoïde. Cette valeur est essentielle dans les applications pratiques, où un seuil de confiance est défini pour écarter les prédictions qui se situent en dessous d'un certain niveau de certitude. En ajustant ce seuil, les développeurs peuvent équilibrer le compromis entre la capture de toutes les détections pertinentes et la minimisation des faux positifs, une considération clé dans le déploiement du modèle.
Applications concrètes
Les scores de confiance sont essentiels pour rendre les systèmes d'IA plus fiables et exploitables. Ils permettent aux systèmes d'évaluer l'incertitude et de déclencher différentes réponses en conséquence.
- Véhicules autonomes : Dans les voitures autonomes, les scores de confiance sont essentiels pour la sécurité. Un détecteur d'objets peut identifier un piéton avec une confiance de 98 %, un signal clair pour le véhicule de ralentir ou de s'arrêter. Inversement, s'il détecte un objet avec seulement 30 % de confiance, le système peut le signaler comme incertain et utiliser d'autres capteurs pour vérifier sa nature avant d'agir. Cela permet d'éviter les accidents en se concentrant sur les menaces à forte certitude. Pour plus de détails sur ce sujet, vous pouvez lire l'article sur le rôle de l'IA dans les voitures autonomes.
- Analyse d'images médicales : Lorsqu'un modèle d'IA analyse des images médicales à la recherche de signes de maladie, comme la détection de tumeurs dans l'imagerie médicale, le score de confiance est inestimable. Une détection avec une confiance de 99 % peut être immédiatement signalée pour examen par un radiologue. Une découverte avec une confiance de 60 % peut être marquée comme "ambiguë" ou "nécessite un examen plus approfondi", garantissant que les cas incertains reçoivent un examen humain sans submerger les experts avec de fausses alertes. La FDA fournit des conseils sur l'IA/ML dans les dispositifs médicaux.
Confiance vs. Autres métriques
Il est important de ne pas confondre le score de confiance d'une prédiction individuelle avec les métriques d'évaluation globales du modèle. Bien qu'ils soient liés, ils mesurent différents aspects de la performance :
- Précision: Mesure le pourcentage global de prédictions correctes dans l'ensemble de la base de données. Elle donne une idée générale des performances du modèle, mais ne reflète pas la certitude des prédictions individuelles. Un modèle peut avoir une grande précision mais faire des prédictions avec peu de certitude.
- Précision: Indique la proportion de prédictions positives qui sont effectivement correctes. Une précision élevée signifie moins de fausses alertes. La confiance reflète la croyance du modèle dans sa prédiction, qui peut ou non correspondre à l'exactitude.
- Rappel (sensibilité): Mesure la proportion d'instances positives réelles que le modèle a correctement identifiées. Un taux de rappel élevé signifie qu'il y a moins de détections manquées. La confiance n'est pas directement liée au nombre de cas positifs trouvés.
- F1-Score: La moyenne harmonique de la précision et du rappel, fournissant une mesure unique qui équilibre les deux. La confiance reste un score au niveau de la prédiction, et non une mesure globale de la performance du modèle.
- Précision moyenne (mAP): Une mesure commune dans la détection d'objets qui résume la courbe de précision-rappel pour différents seuils de confiance et classes. Alors que le calcul de la mAP implique des seuils de confiance, le score de confiance lui-même s'applique à chaque détection individuelle.
- Calibrage : Fait référence à la façon dont les scores de confiance s'alignent sur la probabilité réelle d'exactitude. Les prédictions d'un modèle bien calibré avec une confiance de 80 % devraient être correctes environ 80 % du temps. Les scores de confiance des réseaux neuronaux modernes ne sont pas toujours intrinsèquement bien calibrés, comme indiqué dans la recherche sur le calibrage des modèles.
En résumé, la confiance est un résultat précieux pour évaluer la certitude des prédictions individuelles de l'IA, permettant un meilleur filtrage, une meilleure priorisation et une meilleure prise de décision dans les applications du monde réel. Elle complète, mais se distingue, des métriques qui évaluent la performance globale d'un modèle, telles que celles que vous pouvez suivre et analyser à l'aide d'outils comme Ultralytics HUB.