En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Comprendre la fiabilité inter-évaluateurs, le Kappa de Cohen, l'ICC, le taux d'entraînement et le pourcentage d'accord. Apprendre comment ces mesures statistiques garantissent la cohérence et l'accord entre les observateurs dans la recherche et l'analyse des données.
Lorsque vous construisez un modèle d'IA, la qualité de vos données est tout aussi importante que les algorithmes qui les sous-tendent. Lorsque plusieurs personnes étiquettent ou examinent les mêmes données, des désaccords sont inévitables. C'est le cas dans de nombreux domaines, notamment la recherche, les soins de santé et l'éducation.
En particulier, dans le domaine de la vision artificielle, une branche de l'IA qui implique l'apprentissage de modèles comme Ultralytics YOLO11 pour interpréter des données visuelles telles que des images ou des vidéos, les exemples étiquetés jouent un rôle crucial. Si ces étiquettes ne sont pas cohérentes, les modèles de vision artificielle peuvent avoir du mal à apprendre les modèles corrects.
La fiabilité inter-évaluateurs (IRR) mesure la cohérence avec laquelle différentes personnes, ou étiqueteurs, s'accordent sur une tâche. Elle permet de contrôler la cohérence et d'identifier les lacunes en matière de formation, de lignes directrices ou d'interprétation. Cet aspect est particulièrement important dans le cadre de la formation à des modèles personnalisés, où les modèles d'IA sont construits à l'aide de données spécifiques dans un but particulier.
Dans cet article, nous verrons ce qu'est la fiabilité inter-évaluateurs, comment la mesurer et comment l'améliorer dans le cadre de projets réels. C'est parti !
Qu'est-ce que la fiabilité inter-évaluateurs ?
La fiabilité inter-évaluateurs mesure la fréquence à laquelle deux personnes ou plus (également appelées évaluateurs) sont d'accord lorsqu'elles étiquettent, évaluent ou examinent le même contenu. Elle permet de vérifier la cohérence avec laquelle différents évaluateurs utilisent des critères donnés. Un degré élevé de concordance entre les évaluateurs signifie qu'une tâche est bien définie et clairement comprise.
Ce concept est utilisé dans différents domaines. Selon le domaine, il est connu sous différents noms, tels que l'accord inter-juges, la fiabilité inter-observateurs ou la fiabilité inter-codeurs. Toutefois, le principe sous-jacent reste le même.
Dans le domaine de la vision artificielle, la fiabilité inter-évaluateurs est un élément clé du processus d'étiquetage des données. L'apprentissage des modèles de vision par ordinateur nécessite souvent l'étiquetage d'énormes ensembles de données d'images ou de trames vidéo, de sorte que plusieurs développeurs d'IA travaillent ensemble sur les mêmes données.
Pour obtenir des résultats précis, ils doivent suivre les mêmes lignes directrices en matière d'étiquetage. Par exemple, lorsqu'il s'agit d'étiqueter des animaux, tout le monde doit se mettre d'accord sur ce qui est considéré comme un chien, sur la manière de dessiner le cadre qui l'entoure et sur la nécessité d'étiqueter ou d'ignorer les objets flous.
Fig. 1. Comprendre la fiabilité inter-évaluateurs (Image de l'auteur)
Fiabilité inter-juges et intra-juges et fiabilité test-retest
Lorsque des personnes sont impliquées dans l'étiquetage ou la notation de données, il existe trois principaux types de fiabilité à prendre en compte. Chacun d'entre eux sert un objectif différent en mesurant la cohérence des résultats. Voici un examen plus approfondi de chacun d'entre eux :
Fiabilité inter-évaluateurs : La fiabilité inter-évaluateurs permet d'évaluer le degré de concordance entre différentes personnes effectuant la même tâche. Cela est particulièrement utile lorsque plusieurs annotateurs sont impliqués dans des projets tels que l'étiquetage d'images, l'analyse des sentiments ou les examens médicaux.
Fiabilité intra-évaluateur : Elle met l'accent sur une seule personne. La fiabilité intra-évaluateur vérifie si l'évaluateur reste cohérent lorsqu'il répète la même tâche à différents moments. Si les étiquettes changent trop, cela peut être le résultat de directives peu claires ou d'un manque de clarté de la tâche.
Fiabilité test-retest : La fiabilité test-retest ne se concentre pas sur l'annotateur mais sur l'outil ou la méthode utilisée. Elle mesure si le même résultat apparaît lorsque le test est répété dans des conditions similaires. Si le résultat reste cohérent, la méthode est considérée comme fiable.
Ensemble, ces mesures permettent de confirmer que les personnes et les processus produisent des résultats réguliers et fiables.
Fig. 2. Vue d'ensemble de la fiabilité inter-juges, intra-juges et test-retest (Image de l'auteur)
Pourquoi la fiabilité inter-évaluateurs est-elle importante ?
Dans les projets d'IA visionnaire à grande échelle, la qualité des données annotées a une incidence directe sur les performances d'un modèle. Même de petites différences dans la manière dont les annotateurs appliquent les directives peuvent introduire des incohérences qui troublent le modèle pendant la formation. Au fil du temps, cela peut conduire à des prédictions inexactes, à un gaspillage de ressources et à la nécessité d'un réétiquetage coûteux.
La mesure de la fiabilité inter-évaluateurs permet de détecter ces problèmes à un stade précoce. Une concordance élevée signifie que les annotateurs sont alignés, ce qui produit des ensembles de données plus propres et plus fiables. Une faible concordance signale que les instructions, les exemples ou la formation doivent être améliorés avant que le projet n'avance. En s'assurant que les annotateurs travaillent de manière synchronisée, les équipes peuvent construire des modèles d'IA qui apprennent plus efficacement et donnent de meilleurs résultats dans les applications du monde réel.
Considérations pratiques sur la fiabilité inter-évaluateurs
Voici quelques considérations pratiques essentielles à garder à l'esprit lorsque l'on travaille avec plusieurs évaluateurs et que l'on cherche à maintenir une fiabilité inter-évaluateurs élevée :
Tâches ambiguës ou subjectives : Lorsque l'étiquetage implique une interprétation, par exemple pour décider si un objet flou est un piéton ou pour juger de la qualité d'une image, l'intervention de plusieurs évaluateurs permet de s'assurer que les décisions sont cohérentes et qu'elles ne sont pas trop influencées par des préjugés individuels.
Tâches simples et objectives : Les tâches simples, comme compter le nombre de voitures sur une image ou confirmer la présence d'un objet, ne nécessitent souvent qu'un seul évaluateur bien formé, car l'accord est généralement élevé une fois que le processus est clairement défini.
Des directives claires en matière d'étiquetage : Des instructions détaillées et faciles à suivre réduisent l'incertitude quant à la manière dont les étiquettes sont appliquées, ce qui améliore la concordance entre les évaluateurs. Les lignes directrices doivent explicitement couvrir les cas limites afin d'éviter les interprétations incohérentes.
Formation et étalonnage périodiques : Même les évaluateurs expérimentés peuvent dériver dans leurs jugements au fil du temps. Des sessions de formation régulières et des contrôles d'étalonnage permettent de maintenir la cohérence et de minimiser le biais de l'expérimentateur.
Mesures de la fiabilité inter-évaluateurs
Il existe plusieurs façons de mesurer la fiabilité inter-évaluateurs, et le meilleur choix dépend du type de données et de la tâche. Certaines méthodes fonctionnent bien pour des évaluateurs uniques traitant des questions simples de type "oui ou non", tandis que d'autres sont conçues pour des situations impliquant plusieurs évaluateurs.
Les approches les plus courantes sont le pourcentage d'accord, le kappa de Cohen, le kappa de Fleiss et le coefficient de corrélation intraclasse. Chaque méthode mesure le niveau d'accord entre les évaluateurs et tient compte de la possibilité qu'une partie de l'accord soit le fruit du hasard.
Kappa de Cohen et Kappa de Fleiss
Le Kappa de Cohen est une méthode largement utilisée pour mesurer la fiabilité inter-évaluateurs entre deux évaluateurs. Elle calcule la fréquence à laquelle ils sont d'accord sur une tâche, tout en tenant compte de la possibilité qu'une partie de l'accord se produise par hasard. Les scores vont de -1 à 1, 1 indiquant un accord parfait et 0 signifiant que l'accord n'est pas meilleur qu'une supposition aléatoire.
De même, le Kappa de Fleiss est utilisé lorsque plus de deux évaluateurs sont impliqués. Il fournit une note globale qui indique le degré de cohérence du groupe. Les deux méthodes sont utilisées pour les tâches comportant des catégories définies, comme l'étiquetage des images ou des émotions. Elles sont faciles à calculer et prises en charge par la plupart des outils d'annotation.
Pourcentage de concordance et coefficient de corrélation intraclasse (CCI)
Une autre façon de mesurer la fiabilité inter-évaluateurs est le pourcentage d'accord, qui calcule le pourcentage de fois où les évaluateurs prennent la même décision. Bien que simple à utiliser, cette méthode ne tient pas compte de l'accord qui peut se produire par hasard.
Le coefficient de corrélation intraclasse est une méthode plus avancée utilisée pour les données continues ou basées sur une échelle. Il mesure la cohérence des évaluations entre plusieurs évaluateurs et est souvent appliqué dans les recherches qui impliquent des scores, des mesures ou d'autres types de données au-delà des catégories fixes.
Exemples et applications de la fiabilité inter-évaluateurs
Maintenant que nous comprenons mieux comment mesurer la fiabilité inter-évaluateurs, voyons comment ces méthodes peuvent être utilisées dans des applications réelles.
Fiabilité inter-juges dans l'annotation de l'imagerie médicale
En matière d'imagerie médicale, des différences d'interprétation, même mineures, peuvent entraîner des changements significatifs dans les résultats. Par exemple, on demande souvent aux radiologues d'identifier des schémas subtils, ambigus ou difficiles à définir. Lorsque ces schémas deviennent des données d'entraînement pour les systèmes d'intelligence artificielle, les enjeux sont plus importants. Si les experts étiquettent différemment le même examen, le modèle risque d'apprendre les mauvais schémas ou de ne pas apprendre du tout.
La fiabilité inter-juges aide les équipes qui traitent ce type de données à évaluer la cohérence des jugements des experts. Par exemple, dans une étude récente portant sur les scans OCT de la rétine, deux évaluateurs ont étiqueté 500 images.
L'accord était élevé pour les caractéristiques claires comme les drusen (dépôts jaunes sous la rétine), avec un score kappa de 0,87. En revanche, pour les éléments plus difficiles à définir, comme les foyers hyperréflectifs (petites taches brillantes observées dans les scanners rétiniens), le score est tombé à 0,33. Cela montre que les caractéristiques plus claires et mieux définies tendent à produire des jugements d'experts plus cohérents, tandis que les caractéristiques ambiguës laissent plus de place à l'interprétation.
Fig. 3. Exemples d'étiquettes pour différentes caractéristiques liées aux maladies rétiniennes(Source)
Ensembles de données sur les véhicules autonomes et fiabilité inter-évaluateurs
La formation de modèles d'IA pour un système de conduite autonome dépend de la précision et de la cohérence des étiquettes dans un large éventail de conditions routières. Les annotateurs travaillant sur de tels projets doivent généralement identifier des piétons, des véhicules, des panneaux de signalisation et des marquages de voies, souvent dans des conditions de faible éclairage ou dans des scènes très fréquentées.
Ces décisions déterminent la manière dont le modèle apprend à réagir dans des environnements réels difficiles. La fiabilité inter-évaluateurs permet aux équipes de vérifier si ces étiquettes sont appliquées de la même manière d'un annotateur à l'autre.
Fig. 4. Aperçu des désaccords d'annotation(Source)
Au-delà de la fiabilité inter-évaluateurs : Autres mesures d'assurance qualité
Si la mesure de la fiabilité inter-évaluateurs est une étape cruciale dans l'élaboration d'une solution d'IA, elle fait partie d'un processus d'assurance qualité plus large. Voici d'autres pratiques qui peuvent contribuer à améliorer la qualité des données au sein des équipes et des projets :
Des directives claires en matière d'annotation : Les instructions doivent expliquer exactement comment appliquer les étiquettes afin que tout le monde travaille selon les mêmes normes.
Formation et étalonnage : Des sessions régulières aident les annotateurs à rester alignés et leur donnent la possibilité de poser des questions et de s'adapter aux cas particuliers.
Contrôles de qualité permanents : Les contrôles ponctuels et les exemples de référence permettent de détecter rapidement les erreurs et de maintenir un niveau de qualité élevé au fur et à mesure que le projet évolue.
Résolution des désaccords : Lorsque les annotateurs ne sont pas d'accord, il doit y avoir une procédure claire pour examiner ces cas et prendre des décisions finales.
Un pool d'annotateurs diversifié : L'implication de personnes ayant des antécédents différents peut réduire les préjugés et améliorer la façon dont l'ensemble de données représente les variations du monde réel.
Principaux enseignements
La fiabilité inter-évaluateurs mesure la cohérence avec laquelle les personnes appliquent des étiquettes ou prennent des décisions. Des méthodes telles que le kappa de Cohen, le kappa de Fleiss et l'ICC permettent de quantifier cet accord. Avec des directives claires, une formation et un contrôle des biais, des annotations fiables permettent d'obtenir des données plus solides et de meilleurs résultats pour les modèles.