Qu'est-ce que la fiabilité inter-évaluateurs : Définition, Kappa de Cohen et plus

Lorsque vous construisez un modèle d'IA, la qualité de vos données est tout aussi importante que les algorithmes qui le sous-tendent. Chaque fois que plusieurs personnes étiquettent ou examinent les mêmes données, des désaccords sont inévitables. Cela est vrai dans de nombreux domaines, notamment la recherche, la santé et l'éducation.

En particulier, dans le domaine de la vision artificielle, une branche de l'IA qui implique l'apprentissage de modèles tels que Ultralytics YOLO11 pour interpréter des données visuelles telles que des images ou des vidéos, les exemples étiquetés jouent un rôle crucial. Si ces étiquettes ne sont pas cohérentes, les modèles de vision artificielle peuvent avoir du mal à apprendre les modèles corrects.

La fiabilité inter-évaluateurs (IRR) mesure le degré de cohérence avec lequel différentes personnes, ou étiqueteurs, s'accordent sur une tâche. Elle permet de contrôler la cohérence et d'identifier les lacunes dans la formation, les directives ou l'interprétation. Ceci est particulièrement important dans la formation de modèles personnalisés, où les modèles d'IA sont construits à l'aide de données spécifiques pour un objectif particulier.

Dans cet article, nous allons explorer ce qu'est la fiabilité inter-évaluateurs, comment la mesurer et comment l'améliorer dans le cadre de projets concrets. Commençons !

Qu'est-ce que la fiabilité inter-évaluateurs ?

La fiabilité inter-évaluateurs mesure la fréquence à laquelle deux personnes ou plus (également appelées évaluateurs) sont d'accord lorsqu'elles étiquettent, notent ou examinent le même contenu. Elle est utilisée pour vérifier la cohérence avec laquelle différents évaluateurs utilisent les critères donnés. Un accord élevé entre les évaluateurs signifie qu'une tâche est bien définie et clairement comprise.

Ce concept est utilisé dans différents domaines. Selon le domaine, il est connu sous différents noms, tels que l'accord inter-évaluateurs, la fiabilité inter-observateurs ou la fiabilité inter-codeurs. Cependant, le principe sous-jacent reste le même.

Dans l'IA de vision, la fiabilité inter-évaluateurs est un élément clé du processus d'étiquetage des données. L'entraînement des modèles de vision par ordinateur nécessite souvent l'étiquetage d'ensembles de données massifs d'images ou de trames vidéo, de sorte que plusieurs développeurs d'IA travaillent ensemble sur les mêmes données.

Pour obtenir des résultats précis, ils doivent suivre les mêmes consignes d'étiquetage. Par exemple, lors de l'étiquetage des animaux, tout le monde doit s'entendre clairement sur ce qui compte comme un chien, sur la façon de dessiner la boîte englobante autour de celui-ci et sur la nécessité d'étiqueter ou d'ignorer les objets flous.

Fig. 1. Comprendre la fiabilité inter-évaluateurs (Image de l'auteur)

‍

Fiabilité inter-évaluateurs vs. fiabilité intra-évaluateur et fiabilité test-retest

Lorsque des personnes sont impliquées dans l'étiquetage ou la notation de données, il y a trois principaux types de fiabilité à considérer. Chacun a un objectif différent dans la mesure de la cohérence des résultats. Voici un aperçu plus détaillé de chacun :

Fiabilité inter-évaluateurs : La fiabilité inter-évaluateurs examine le degré de concordance entre différentes personnes effectuant la même tâche. Ceci est particulièrement utile lorsque plusieurs annotateurs sont impliqués dans des projets tels que l'étiquetage d'images, l'analyse des sentiments ou les examens médicaux.

Fiabilité intra-évaluateur : Elle déplace l'attention vers une seule personne. La fiabilité intra-évaluateur vérifie si l'évaluateur reste cohérent lorsqu'il répète la même tâche à différents moments. Si les étiquettes changent trop, cela pourrait être le résultat de directives peu claires ou d'un manque de clarté de la tâche.

Fiabilité test-retest : La fiabilité test-retest ne se concentre pas sur l'annotateur, mais sur l'outil ou la méthode utilisée. Elle mesure si le même résultat apparaît lorsque le test est répété dans des conditions similaires. Si le résultat reste cohérent, la méthode est considérée comme fiable.

Ensemble, ces mesures aident à confirmer que les personnes et les processus produisent des résultats constants et fiables.

Fig. 2. Un aperçu de la fiabilité inter-évaluateur, intra-évaluateur et test-retest (Image par l'auteur)

‍

Pourquoi la fiabilité inter-évaluateurs est-elle importante ?

Dans les projets de Vision IA à grande échelle, la qualité des données étiquetées affecte directement les performances d'un modèle. Même de petites différences dans la façon dont les annotateurs appliquent les directives peuvent introduire des incohérences qui perturbent le modèle pendant l'entraînement. Au fil du temps, cela peut entraîner des prédictions inexactes, un gaspillage de ressources et la nécessité d'un réétiquetage coûteux.

La mesure de la fiabilité inter-évaluateurs permet de détecter ces problèmes rapidement. Un accord élevé signifie que les annotateurs sont alignés, produisant des ensembles de données plus propres et plus fiables. Un faible accord indique que les instructions, les exemples ou la formation peuvent nécessiter un perfectionnement avant que le projet ne progresse. En s'assurant que les étiqueteurs travaillent en synchronisation, les équipes peuvent construire des modèles d'IA qui apprennent plus efficacement et fournissent de meilleurs résultats dans les applications du monde réel.

Considérations pratiques pour la fiabilité inter-évaluateurs

Voici quelques considérations pratiques essentielles à garder à l'esprit lorsque vous travaillez avec plusieurs évaluateurs et que vous visez à maintenir une fiabilité inter-évaluateurs élevée :

Tâches ambiguës ou subjectives : Lorsque l'étiquetage implique une interprétation, comme décider si un objet flou est un piéton ou juger de la qualité d'une image, plusieurs évaluateurs contribuent à garantir que les décisions sont cohérentes et ne sont pas trop influencées par un biais individuel.
Tâches simples et objectives : Les tâches simples comme le comptage du nombre de voitures sur une image ou la confirmation de la présence d'un objet ne nécessitent souvent qu'un seul évaluateur bien formé, car la concordance est généralement élevée une fois le processus clairement défini.
Directives d’étiquetage claires : Des instructions détaillées et faciles à suivre réduisent l’incertitude quant à la façon dont les étiquettes sont appliquées, ce qui améliore la concordance entre les évaluateurs. Les directives doivent explicitement couvrir les cas limites afin d’éviter les interprétations incohérentes.
Formation et étalonnage périodiques : Même les évaluateurs expérimentés peuvent voir leurs jugements dériver avec le temps. Des sessions de formation régulières et des contrôles d'étalonnage aident à maintenir la cohérence et à minimiser les biais de l'expérimentateur.

Mesures de la fiabilité inter-évaluateurs

Il existe plusieurs façons de mesurer la fiabilité inter-évaluateurs, et le meilleur choix dépend du type de données et de la tâche. Certaines méthodes fonctionnent bien pour les évaluateurs uniques traitant des questions simples par oui ou par non, tandis que d'autres sont conçues pour les situations impliquant plusieurs évaluateurs.

Les approches courantes incluent le pourcentage d'accord, le Kappa de Cohen, le Kappa de Fleiss et le coefficient de corrélation intraclasse. Chaque méthode mesure le niveau d'accord entre les évaluateurs et tient compte de la possibilité qu'une partie de cet accord soit due au hasard.

Kappa de Cohen et Kappa de Fleiss

Le Kappa de Cohen est une méthode largement utilisée pour mesurer la fiabilité inter-évaluateurs entre deux évaluateurs. Il calcule la fréquence à laquelle ils s'accordent sur une tâche, tout en tenant compte de la possibilité qu'un certain accord puisse se produire par hasard. Les scores varient de -1 à 1, 1 indiquant un accord parfait et 0 signifiant que l'accord n'est pas meilleur qu'une estimation aléatoire.

De même, le Kappa de Fleiss est utilisé lorsque plus de deux évaluateurs sont impliqués. Il fournit un score global qui indique le degré de cohérence du groupe. Les deux méthodes sont utilisées pour les tâches avec des catégories définies, comme l'étiquetage d'images ou le marquage des émotions. Elles sont faciles à calculer et prises en charge par la plupart des outils d'annotation.

Pourcentage d'accord et coefficient de corrélation intraclasse (CCI)

Une autre façon de mesurer la fiabilité inter-évaluateurs est le pourcentage d'accord, qui calcule le pourcentage de fois où les évaluateurs prennent la même décision. Bien que simple à utiliser, il ne tient pas compte de l'accord qui pourrait se produire par hasard.

Par ailleurs, le coefficient de corrélation intraclasse est une méthode plus avancée utilisée pour les données continues ou basées sur une échelle. Il mesure la cohérence des évaluations entre plusieurs évaluateurs et est souvent appliqué dans la recherche qui implique des scores, des mesures ou d'autres types de données au-delà des catégories fixes.

Exemples et applications de la fiabilité inter-évaluateurs

Maintenant que nous comprenons mieux comment mesurer la fiabilité inter-évaluateurs, examinons comment ces méthodes peuvent être utilisées dans des applications concrètes.

Fiabilité inter-évaluateurs dans l'annotation d'images médicales

En matière d'imagerie médicale, même des différences mineures d'interprétation peuvent entraîner des changements importants dans les résultats. Par exemple, on demande souvent aux radiologues d'identifier des schémas subtils, ambigus ou difficiles à définir. Lorsque ces schémas deviennent des données d'entraînement pour les systèmes d'IA, les enjeux sont plus importants. Si les experts étiquettent le même scan différemment, le modèle peut apprendre les mauvais schémas ou ne pas apprendre du tout.

La fiabilité inter-évaluateurs aide les équipes qui traitent de telles données à évaluer le degré de cohérence des jugements d'experts. Par exemple, dans une étude récente portant sur des scanners OCT rétiniens, deux évaluateurs ont étiqueté 500 images.

La concordance était élevée pour les caractéristiques claires comme les drusen (dépôts jaunes sous la rétine), avec un score kappa de 0,87. Mais pour les éléments plus difficiles à définir comme les foyers hyperréfléchissants (petites taches brillantes observées dans les scans rétiniens), le score est tombé à 0,33. Cela montre que les caractéristiques plus claires et mieux définies ont tendance à produire des jugements d'experts plus cohérents, tandis que les caractéristiques ambiguës laissent plus de place à l'interprétation.

Fig 3. Exemples d'étiquettes pour différentes caractéristiques liées aux maladies rétiniennes (Source)

‍

Ensembles de données de véhicules autonomes et fiabilité inter-évaluateurs

L'entraînement des modèles d'IA pour un système de conduite autonome dépend d'étiquettes précises et cohérentes dans un large éventail de conditions routières. Les annotateurs travaillant sur de tels projets sont généralement invités à identifier les piétons, les véhicules, les panneaux de signalisation et le marquage au sol, souvent dans des conditions de faible éclairage ou dans des scènes encombrées.

Ces décisions façonnent la façon dont le modèle apprend à réagir dans des environnements réels difficiles. La fiabilité inter-évaluateurs permet aux équipes de vérifier si ces étiquettes sont appliquées de la même manière par tous les annotateurs.

Fig. 4. Un aperçu des désaccords d'annotation (Source)

‍

Au-delà de la fiabilité inter-évaluateurs : Autres mesures d'assurance qualité

Bien que la mesure de la fiabilité inter-évaluateurs soit une étape cruciale dans la construction d'une solution d'IA, elle fait partie d'un processus d'assurance qualité plus large. Voici quelques autres pratiques qui peuvent aider à améliorer la qualité des données au sein des équipes et des projets :

Directives d’annotation claires : Les instructions doivent expliquer exactement comment appliquer les étiquettes afin que tout le monde travaille selon la même norme.
Formation et calibration : Des sessions régulières aident les annotateurs à rester alignés et leur donnent l'occasion de poser des questions et de s'adapter aux cas limites.
Contrôles de qualité continus : Des vérifications ponctuelles et des exemples de référence peuvent permettre de détecter rapidement les erreurs et de maintenir une qualité élevée à mesure que le projet prend de l'ampleur.
Résolution des désaccords : En cas de désaccord entre les annotateurs, il doit exister un processus clair pour examiner ces cas et prendre des décisions finales.
Diversité du groupe d'annotateurs : Impliquer des personnes d'horizons différents peut réduire les biais et améliorer la façon dont l'ensemble de données représente la variation du monde réel.

Principaux points à retenir

La fiabilité inter-évaluateurs mesure le degré de cohérence avec lequel les personnes appliquent des étiquettes ou prennent des décisions. Des méthodes telles que le Kappa de Cohen, le Kappa de Fleiss et le CCI permettent de quantifier cet accord. Avec des directives claires, une formation adéquate et un contrôle des biais, des annotations fiables conduisent à des données plus solides et à de meilleurs résultats de modèle.

Rejoignez notre communauté et explorez notre dépôt GitHub pour en savoir plus sur l'IA. Si vous cherchez à démarrer votre propre projet d'IA de vision, consultez nos options de licence. Vous pouvez également voir comment l'IA dans le secteur de la santé et l'IA de vision dans le commerce de détail ont un impact en visitant nos pages de solutions.

Fiabilité inter-évaluateurs : définition, exemples, calculs

Qu'est-ce que la fiabilité inter-évaluateurs ?

Fiabilité inter-évaluateurs vs. fiabilité intra-évaluateur et fiabilité test-retest

Pourquoi la fiabilité inter-évaluateurs est-elle importante ?

Considérations pratiques pour la fiabilité inter-évaluateurs

Mesures de la fiabilité inter-évaluateurs

Kappa de Cohen et Kappa de Fleiss

Pourcentage d'accord et coefficient de corrélation intraclasse (CCI)

Exemples et applications de la fiabilité inter-évaluateurs

Fiabilité inter-évaluateurs dans l'annotation d'images médicales

Ensembles de données de véhicules autonomes et fiabilité inter-évaluateurs

Au-delà de la fiabilité inter-évaluateurs : Autres mesures d'assurance qualité

Principaux points à retenir

En savoir plus dans cette catégorie

Apprentissage auto-supervisé pour le débruitage : une analyse étape par étape

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Construisons ensemble l'avenir
de l'IA !

Fiabilité inter-évaluateurs : définition, exemples, calculs

Qu'est-ce que la fiabilité inter-évaluateurs ?

Fiabilité inter-évaluateurs vs. fiabilité intra-évaluateur et fiabilité test-retest

Pourquoi la fiabilité inter-évaluateurs est-elle importante ?

Considérations pratiques pour la fiabilité inter-évaluateurs

Mesures de la fiabilité inter-évaluateurs

Kappa de Cohen et Kappa de Fleiss

Pourcentage d'accord et coefficient de corrélation intraclasse (CCI)

Exemples et applications de la fiabilité inter-évaluateurs

Fiabilité inter-évaluateurs dans l'annotation d'images médicales

Ensembles de données de véhicules autonomes et fiabilité inter-évaluateurs

Au-delà de la fiabilité inter-évaluateurs : Autres mesures d'assurance qualité

Principaux points à retenir

En savoir plus dans cette catégorie

Apprentissage auto-supervisé pour le débruitage : une analyse étape par étape

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !