Affidabilità inter-rater: Definizione, esempi, calcoli

Abirami Vina

5 minuti di lettura

18 agosto 2025

Comprendere l'affidabilità inter-rater, la Kappa di Cohen, l'ICC, il tasso di formazione e la percentuale di accordo. Imparare come queste misure statistiche assicurano la coerenza e l'accordo tra gli osservatori nella ricerca e nell'analisi dei dati.

Quando si costruisce un modello di intelligenza artificiale, la qualità dei dati è importante tanto quanto gli algoritmi che ne sono alla base. Quando più persone etichettano o revisionano gli stessi dati, è inevitabile che si verifichino disaccordi. Questo è vero in molti campi, tra cui la ricerca, la sanità e l'istruzione.

In particolare, nella computer vision, una branca dell'IA che prevede l'addestramento di modelli come Ultralytics YOLO11 per interpretare dati visivi come immagini o video, gli esempi etichettati svolgono un ruolo fondamentale. Se le etichette non sono coerenti, i modelli di computer vision possono faticare ad apprendere i modelli corretti.

L'affidabilità inter-rater (IRR) misura la coerenza con cui individui diversi, o etichettatori, concordano su un compito. Aiuta a monitorare la coerenza e a identificare le lacune nella formazione, nelle linee guida o nell'interpretazione. Questo aspetto è particolarmente importante nella formazione di modelli personalizzati, in cui i modelli di intelligenza artificiale vengono costruiti utilizzando dati specifici per uno scopo particolare.

In questo articolo analizzeremo cos'è l'affidabilità inter-rater, come misurarla e come migliorarla in progetti reali. Iniziamo!

Che cos'è l'affidabilità inter-rater?

L'affidabilità inter-rater misura la frequenza con cui due o più persone (note anche come valutatori) concordano nell'etichettare, valutare o recensire lo stesso contenuto. Viene utilizzata per verificare la coerenza con cui i diversi valutatori utilizzano determinati criteri. Un'elevata concordanza tra i valutatori significa che un compito è ben definito e chiaramente compreso.

Questo concetto è utilizzato in diversi campi. A seconda del campo, è conosciuto con nomi diversi, come inter-rater agreement, interobserver reliability o inter-coder reliability. Tuttavia, il principio di fondo rimane lo stesso.

Nella Vision AI, l'affidabilità inter-rater è una parte fondamentale del processo di etichettatura dei dati. L'addestramento di modelli di visione computerizzata spesso richiede l'etichettatura di enormi insiemi di immagini o fotogrammi video, per cui più sviluppatori di IA lavorano insieme sugli stessi dati.

Per ottenere risultati accurati, devono seguire le stesse linee guida per l'etichettatura. Per esempio, quando si etichettano gli animali, è necessario un chiaro accordo su cosa si intende per cane, su come disegnare il riquadro di delimitazione intorno ad esso e se etichettare o ignorare gli oggetti sfocati.

Figura 1. Comprendere l'affidabilità inter-rater (immagine dell'autore)

Affidabilità inter-rater vs. intra-rater e affidabilità test-retest

Quando le persone sono coinvolte nell'etichettatura o nell'attribuzione di un punteggio ai dati, è necessario considerare tre tipi principali di affidabilità. Ognuno di essi ha una funzione diversa nel misurare la coerenza dei risultati. Ecco un'analisi più approfondita di ciascuno di essi:

  • Affidabilità inter-rater: L'affidabilità inter-rater esamina il grado di accordo tra persone diverse che eseguono lo stesso compito. È particolarmente utile quando più annotatori sono coinvolti in progetti come l'etichettatura delle immagini, l'analisi del sentiment o le recensioni mediche.
  • Affidabilità intra-rater: Sposta l'attenzione su una singola persona. L'affidabilità intra-rater verifica se il valutatore rimane coerente quando ripete lo stesso compito in momenti diversi. Se le etichette cambiano troppo, potrebbe essere il risultato di linee guida poco chiare o di una mancanza di chiarezza del compito.
  • Affidabilità test-retest: L'affidabilità del test-retest non si concentra sull'annotatore, ma sullo strumento o sul metodo utilizzato. Misura se lo stesso risultato appare quando il test viene ripetuto in condizioni simili. Se il risultato rimane costante, il metodo è considerato affidabile. 

Insieme, queste misure aiutano a confermare che sia le persone che i processi stanno producendo risultati costanti e affidabili.

Figura 2. Panoramica dell'affidabilità inter-rater, intra-rater e test-retest (Immagine dell'autore)

Perché è importante l'affidabilità inter-rater?

Nei progetti di Vision AI su larga scala, la qualità dei dati etichettati influisce direttamente sulle prestazioni del modello. Anche piccole differenze nel modo in cui gli annotatori applicano le linee guida possono introdurre incongruenze che confondono il modello durante l'addestramento. Nel tempo, questo può portare a previsioni imprecise, spreco di risorse e necessità di una costosa rietichettatura.

La misurazione dell'affidabilità inter-rater aiuta a individuare tempestivamente questi problemi. Un'elevata concordanza significa che gli annotatori sono allineati, producendo set di dati più puliti e affidabili. Una bassa concordanza indica che le istruzioni, gli esempi o la formazione devono essere perfezionati prima che il progetto vada avanti. Assicurandosi che gli etichettatori lavorino in sincronia, i team possono costruire modelli di intelligenza artificiale che apprendono in modo più efficace e producono risultati migliori nelle applicazioni reali.

Considerazioni pratiche sull'affidabilità inter-rater

Ecco alcune considerazioni pratiche fondamentali da tenere a mente quando si lavora con più valutatori e si punta a mantenere un'elevata affidabilità inter-rater:

  • Compiti ambigui o soggettivi: Quando l'etichettatura implica un'interpretazione, come decidere se un oggetto sfocato è un pedone o giudicare la qualità di un'immagine, più valutatori aiutano a garantire che le decisioni siano coerenti e non eccessivamente influenzate da pregiudizi individuali.

  • Compiti semplici e oggettivi: Compiti semplici, come il conteggio del numero di auto in un'immagine o la conferma della presenza di un oggetto, spesso richiedono un solo valutatore ben addestrato, poiché l'accordo è in genere elevato una volta che il processo è chiaramente definito.

  • Linee guida chiare per l'etichettatura: Istruzioni dettagliate e facili da seguire riducono l'incertezza nell'applicazione delle etichette, migliorando l'accordo tra i valutatori. Le linee guida devono coprire esplicitamente i casi limite per evitare interpretazioni incoerenti.

  • Formazione e calibrazione periodica: Anche i valutatori più esperti possono subire una deriva nei loro giudizi nel corso del tempo. Sessioni regolari di formazione e controlli di calibrazione aiutano a mantenere l'uniformità e a minimizzare i pregiudizi dello sperimentatore.

Misure di affidabilità inter-rater

Esistono diversi modi per misurare l'affidabilità inter-rating e la scelta migliore dipende dal tipo di dati e di compito. Alcuni metodi funzionano bene per singoli valutatori che gestiscono semplici domande con risposta affermativa o negativa, mentre altri sono progettati per situazioni che coinvolgono più valutatori.

Gli approcci più comuni includono l'accordo percentuale, il Kappa di Cohen, il Kappa di Fleiss e il coefficiente di correlazione intraclasse. Ogni metodo misura il livello di accordo tra i valutatori e tiene conto della possibilità che un certo accordo si verifichi per caso.

Kappa di Cohen e Kappa di Fleiss

La Kappa di Cohen è un metodo ampiamente utilizzato per misurare l'affidabilità inter-rater tra due valutatori. Calcola la frequenza dell'accordo su un compito, tenendo conto della possibilità che un certo accordo si verifichi per caso. I punteggi vanno da -1 a 1, con 1 che indica un accordo perfetto e 0 che significa che l'accordo non è migliore di un'ipotesi casuale.

Analogamente, la Kappa di Fleiss viene utilizzata quando sono coinvolti più di due valutatori. Fornisce un punteggio complessivo che mostra la coerenza del gruppo. Entrambi i metodi sono utilizzati per compiti con categorie prestabilite, come l'etichettatura delle immagini o l'etichettatura delle emozioni. Sono facili da calcolare e sono supportati dalla maggior parte degli strumenti di annotazione.

Accordo percentuale e coefficiente di correlazione intraclasse (ICC)

Un altro modo per misurare l'affidabilità inter-rater è la percentuale di accordo, che calcola la percentuale di volte in cui i valutatori prendono la stessa decisione. Pur essendo semplice da usare, non tiene conto dell'accordo che potrebbe verificarsi per caso.

Il coefficiente di correlazione intraclasse è invece un metodo più avanzato utilizzato per i dati continui o basati su scale. Misura la coerenza delle valutazioni tra più valutatori e viene spesso applicato nelle ricerche che coinvolgono punteggi, misurazioni o altri tipi di dati al di là delle categorie fisse.

Esempi e applicazioni di affidabilità inter-rater

Ora che abbiamo una migliore comprensione di come misurare l'affidabilità inter-rater, vediamo come questi metodi possono essere utilizzati nelle applicazioni reali.

Affidabilità inter-rater nell'annotazione di immagini mediche

Quando si tratta di imaging medico, anche piccole differenze di interpretazione possono portare a cambiamenti significativi nei risultati. Ad esempio, ai radiologi viene spesso chiesto di identificare modelli sottili, ambigui o difficili da definire. Quando questi pattern diventano dati di addestramento per i sistemi di intelligenza artificiale, la posta in gioco è più alta. Se gli esperti etichettano la stessa scansione in modo diverso, il modello potrebbe imparare i pattern sbagliati o non riuscire ad apprendere del tutto.

L'affidabilità inter-rater aiuta i team che si occupano di questi dati a valutare la reale coerenza dei giudizi degli esperti. Ad esempio, in un recente studio incentrato sulle scansioni OCT della retina, due valutatori hanno etichettato 500 immagini. 

L'accordo era elevato per le caratteristiche chiare come le drusen (depositi gialli sotto la retina), con un punteggio kappa di 0,87. Ma per gli elementi più difficili da definire, come i foci iper-riflettenti (piccole macchie luminose osservate nelle scansioni retiniche), il punteggio è sceso a 0,33. Ciò dimostra che le caratteristiche più chiare e definite tendono a produrre giudizi più coerenti da parte degli esperti, mentre quelle ambigue lasciano più spazio all'interpretazione.

Figura 3. Esempi di etichette per diverse caratteristiche relative alle malattie della retina(Fonte)

Insiemi di dati di veicoli autonomi e affidabilità inter-rater

L'addestramento di modelli di intelligenza artificiale per un sistema di guida autonoma dipende da etichette accurate e coerenti in un'ampia gamma di condizioni stradali. Agli annotatori che lavorano a progetti di questo tipo viene chiesto di identificare pedoni, veicoli, segnali stradali e segnaletica di corsia, spesso in condizioni di scarsa illuminazione o in scene affollate. 

Queste decisioni determinano il modo in cui il modello impara a rispondere in ambienti difficili del mondo reale. L'affidabilità inter-rater consente ai team di verificare se le etichette vengono applicate allo stesso modo da tutti gli annotatori. 

Figura 4. Uno sguardo ai disaccordi di annotazione(Fonte)

Oltre l'affidabilità inter-rater: Altre misure di garanzia della qualità

La misurazione dell'affidabilità inter-rater è un passo fondamentale nella costruzione di una soluzione di IA, ma fa parte di un processo più ampio di garanzia della qualità. Ecco alcune altre pratiche che possono aiutare a migliorare la qualità dei dati nei team e nei progetti:

  • Linee guida chiare per l'annotazione: Le istruzioni devono spiegare esattamente come applicare le etichette, in modo che tutti lavorino secondo lo stesso standard.

  • Formazione e calibrazione: Sessioni regolari aiutano gli annotatori a rimanere allineati e danno loro spazio per porre domande e adattarsi ai casi limite.

  • Controlli di qualità continui: I controlli a campione e gli esempi gold standard consentono di individuare tempestivamente gli errori e di mantenere alta la qualità man mano che il progetto si sviluppa.

  • Risoluzione dei disaccordi: Quando gli annotatori non sono d'accordo, deve esistere un processo chiaro per rivedere i casi e prendere le decisioni finali.

  • Pool di annotatori diversi: Il coinvolgimento di persone con background diversi può ridurre i pregiudizi e migliorare la capacità del set di dati di rappresentare le variazioni del mondo reale.

Punti di forza

L'affidabilità inter-rater misura la coerenza con cui le persone applicano le etichette o prendono le decisioni. Metodi come il Kappa di Cohen, il Kappa di Fleiss e l'ICC aiutano a quantificare questo accordo. Con linee guida chiare, formazione e controllo degli errori, le annotazioni affidabili portano a dati più solidi e a migliori risultati del modello.

Unitevi alla nostra comunità ed esplorate il nostro repository GitHub per scoprire di più sull'IA. Se volete avviare un vostro progetto di Vision AI, date un'occhiata alle nostre opzioni di licenza. Potete anche vedere come l 'IA nel settore sanitario e l'IA di visione nella vendita al dettaglio stanno avendo un impatto visitando le nostre pagine dedicate alle soluzioni.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti