Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

Fiabilidade inter-avaliadores: Definição, exemplos, cálculos

Compreende a fiabilidade inter-avaliadores, Kappa de Cohen, ICC, treino de avaliadores e percentagem de concordância. Aprende como estas medidas estatísticas garantem a consistência e concordância entre observadores na investigação e análise de dados.

ABAbirami Vina
5 min read
Compreender a fiabilidade inter-avaliadores na anotação de dados

Ao criar um modelo de IA, a qualidade dos teus dados é tão importante quanto os algoritmos por trás deles. Sempre que várias pessoas rotulam ou revisam os mesmos dados, é inevitável que ocorram discordâncias. Isso é verdadeiro em muitos campos, incluindo pesquisa, saúde e educação.

Particularmente em visão computacional, um ramo da IA que envolve o treinamento de modelos como Ultralytics YOLO11 para interpretar dados visuais como imagens ou vídeos, exemplos rotulados desempenham um papel crucial. Se esses rótulos forem inconsistentes, os modelos de visão computacional podem ter dificuldade em aprender os padrões corretos.

A confiabilidade interavaliadores (IRR) mede a consistência com que diferentes indivíduos, ou anotadores, concordam em uma tarefa. Ela ajuda a monitorar a consistência e a identificar lacunas em treinamentos, diretrizes ou interpretação. Isso é especialmente importante no treinamento de modelos personalizados, onde modelos de IA são construídos usando dados específicos para um propósito particular.

Neste artigo, exploraremos o que é a confiabilidade interavaliadores, como medi-la e como melhorá-la em projetos do mundo real. Vamos começar!

Link to this sectionO que é confiabilidade interavaliadores?#

A confiabilidade interavaliadores mede a frequência com que duas ou mais pessoas (também conhecidas como avaliadores) concordam ao rotular, classificar ou revisar o mesmo conteúdo. Ela é usada para verificar a consistência com que diferentes avaliadores utilizam os critérios fornecidos. Uma alta concordância entre avaliadores significa que uma tarefa está bem definida e claramente compreendida.

Este conceito é usado em diferentes campos. Dependendo da área, é conhecido por nomes diferentes, como concordância interavaliadores, confiabilidade entre observadores ou confiabilidade entre codificadores. No entanto, o princípio subjacente permanece o mesmo.

Na visão computacional com IA, a confiabilidade interavaliadores é uma parte essencial do processo de rotulagem de dados. O treinamento de modelos de visão computacional geralmente exige a rotulagem de grandes conjuntos de dados de imagens ou quadros de vídeo, por isso vários desenvolvedores de IA trabalham nos mesmos dados juntos.

Para obter resultados precisos, eles devem seguir as mesmas diretrizes de rotulagem. Por exemplo, ao rotular animais, todos precisam ter um entendimento claro sobre o que conta como cachorro, como desenhar a bbox ao redor dele e se devem rotular ou ignorar objetos desfocados.

Compreendendo a confiabilidade entre avaliadores

Fig 1. Entendendo a confiabilidade interavaliadores (Imagem do autor)

Link to this sectionConfiabilidade interavaliadores vs. intra-avaliadores e confiabilidade teste-reteste#

Quando pessoas estão envolvidas na rotulagem ou pontuação de dados, existem três tipos principais de confiabilidade a considerar. Cada um serve a um propósito diferente ao medir a consistência dos resultados. Aqui está uma visão mais detalhada de cada um:

  • Confiabilidade interavaliadores: A confiabilidade interavaliadores analisa o grau de concordância entre diferentes pessoas realizando a mesma tarefa. Isso é especialmente útil quando vários anotadores estão envolvidos em projetos como rotulagem de imagens, análise de sentimento ou revisões médicas.

  • Confiabilidade intra-avaliadores: Esta muda o foco para uma única pessoa. A confiabilidade intra-avaliadores verifica se o avaliador permanece consistente ao repetir a mesma tarefa em momentos diferentes. Se os rótulos mudarem muito, isso pode ser resultado de diretrizes pouco claras ou falta de clareza na tarefa.

  • Confiabilidade teste-reteste: A confiabilidade teste-reteste não se concentra no anotador, mas na ferramenta ou método que está sendo usado. Ela mede se o mesmo resultado aparece quando o teste é repetido sob condições semelhantes. Se a saída permanecer consistente, o método é considerado confiável.

Juntas, essas medidas ajudam a confirmar que tanto as pessoas quanto os processos estão produzindo resultados estáveis e confiáveis.

Uma visão geral da confiabilidade entre avaliadores, intra-avaliadores e teste-reteste

Fig 2. Uma visão geral da confiabilidade interavaliadores, intra-avaliadores e teste-reteste (Imagem do autor)

Link to this sectionPor que a confiabilidade interavaliadores é importante?#

Em projetos de visão computacional de larga escala, a qualidade dos dados rotulados afeta diretamente o desempenho do modelo. Mesmo pequenas diferenças na forma como os anotadores aplicam as diretrizes podem introduzir inconsistências que confundem o modelo durante o treinamento. Com o tempo, isso pode levar a previsões imprecisas, desperdício de recursos e a necessidade de uma re-rotulagem dispendiosa.

Medir a confiabilidade interavaliadores ajuda a identificar esses problemas precocemente. Uma alta concordância significa que os anotadores estão alinhados, produzindo datasets mais limpos e confiáveis. Uma baixa concordância sinaliza que as instruções, exemplos ou treinamentos podem precisar ser refinados antes que o projeto avance. Ao garantir que os anotadores trabalhem em sincronia, as equipes podem construir modelos de IA que aprendem de forma mais eficaz e entregam melhores resultados em aplicações reais.

Link to this sectionConsiderações práticas para a confiabilidade interavaliadores#

Aqui estão algumas considerações práticas importantes para ter em mente ao trabalhar com vários avaliadores e buscar manter uma alta confiabilidade interavaliadores:

  • Tarefas ambíguas ou subjetivas: Quando a rotulagem envolve interpretação, como decidir se um objeto desfocado é um pedestre ou julgar a qualidade de uma imagem, vários avaliadores ajudam a garantir que as decisões sejam consistentes e não excessivamente influenciadas pelo viés individual.
  • Tarefas simples e objetivas: Tarefas diretas, como contar o número de carros em uma imagem ou confirmar se um objeto está presente, geralmente exigem apenas um avaliador bem treinado, já que a concordância costuma ser alta uma vez que o processo está claramente definido.
  • Diretrizes de rotulagem claras: Instruções detalhadas e fáceis de seguir reduzem a incerteza na aplicação dos rótulos, o que melhora a concordância entre os avaliadores. As diretrizes devem cobrir explicitamente casos extremos para evitar interpretações inconsistentes.
  • Treinamento e calibração periódicos: Até avaliadores experientes podem perder o foco nos seus julgamentos com o passar do tempo. Sessões de treinamento regulares e verificações de calibração ajudam a manter a consistência e a minimizar o viés do experimentador.

Link to this sectionMedidas de confiabilidade interavaliadores#

Existem várias formas de medir a confiabilidade interavaliadores, e a melhor escolha depende do tipo de dados e da tarefa. Alguns métodos funcionam bem para avaliadores únicos lidando com perguntas simples de sim ou não, enquanto outros são projetados para situações que envolvem múltiplos avaliadores.

Abordagens comuns incluem concordância percentual, Kappa de Cohen, Kappa de Fleiss e o coeficiente de correlação intraclasse. Cada método mede o nível de concordância entre os avaliadores e considera a possibilidade de que alguma concordância possa ocorrer por acaso.

Link to this sectionKappa de Cohen e Kappa de Fleiss#

O Kappa de Cohen é um método amplamente utilizado para medir a confiabilidade interavaliadores entre dois avaliadores. Ele calcula a frequência com que eles concordam em uma tarefa, ajustando para a possibilidade de que alguma concordância pudesse ocorrer por acaso. As pontuações variam de -1 a 1, com 1 indicando concordância perfeita e 0 significando que a concordância não é melhor do que um palpite aleatório.

Da mesma forma, o Kappa de Fleiss é usado quando mais de dois avaliadores estão envolvidos. Ele fornece uma pontuação geral que mostra a consistência do grupo. Ambos os métodos são usados para tarefas com categorias definidas, como rotulagem de imagens ou marcação de emoções. Eles são fáceis de calcular e suportados pela maioria das ferramentas de anotação.

Link to this sectionConcordância percentual e coeficiente de correlação intraclasse (ICC)#

Outra forma de medir a confiabilidade interavaliadores é a concordância percentual, que calcula a porcentagem de vezes que os avaliadores tomam a mesma decisão. Embora simples de usar, não considera a concordância que pode ocorrer por acaso.

Enquanto isso, o coeficiente de correlação intraclasse é um método mais avançado usado para dados contínuos ou baseados em escala. Ele mede a consistência das classificações entre vários avaliadores e é frequentemente aplicado em pesquisas que envolvem pontuações, medições ou outros tipos de dados além de categorias fixas.

Link to this sectionExemplos e aplicações da confiabilidade interavaliadores#

Agora que temos uma melhor compreensão de como medir a confiabilidade interavaliadores, vamos ver como esses métodos podem ser usados em aplicações do mundo real.

Link to this sectionConfiabilidade interavaliadores na anotação de imagens médicas#

Quando se trata de imagens médicas, mesmo pequenas diferenças na interpretação podem levar a mudanças significativas nos resultados. Por exemplo, radiologistas são frequentemente solicitados a identificar padrões que são sutis, ambíguos ou difíceis de definir. Quando esses padrões se tornam dados de treinamento para sistemas de IA, os riscos são maiores. Se especialistas rotularem o mesmo exame de forma diferente, o modelo pode aprender os padrões errados ou não aprender nada.

A confiabilidade interavaliadores ajuda as equipes que lidam com tais dados a avaliar o quão consistentes são, de fato, os julgamentos dos especialistas. Por exemplo, em um estudo recente focado em scans de OCT da retina, dois avaliadores rotularam 500 imagens.

A concordância foi alta para características claras como drusas (depósitos amarelos sob a retina), com uma pontuação kappa de 0,87. Mas para elementos mais difíceis de definir, como focos hiperrefletivos (pequenos pontos brilhantes vistos em exames de retina), a pontuação caiu para 0,33. Isso mostra que características mais claras e bem definidas tendem a produzir julgamentos de especialistas mais consistentes, enquanto as ambíguas deixam mais espaço para interpretação.

Exemplos de rótulos para diferentes características relacionadas a doenças da retina

Fig 3. Exemplos de rótulos para diferentes características relacionadas a doenças da retina (Fonte)

Link to this sectionConjuntos de dados de veículos autônomos e confiabilidade interavaliadores#

O treinamento de modelos de IA para um sistema de direção autônoma depende de rótulos precisos e consistentes em uma ampla gama de condições de estrada. Anotadores trabalhando em tais projetos são geralmente solicitados a identificar pedestres, veículos, sinais de trânsito e marcações de faixa, muitas vezes com iluminação ruim ou em cenas lotadas.

Essas decisões moldam como o modelo aprende a responder em ambientes reais hostis. A confiabilidade interavaliadores torna possível que as equipes verifiquem se esses rótulos estão sendo aplicados da mesma maneira entre os anotadores.

Um olhar sobre as divergências de anotação

Fig 4. Um olhar sobre as discordâncias de anotação (Fonte)

Link to this sectionAlém da confiabilidade interavaliadores: Outras medidas de garantia de qualidade#

Embora medir a confiabilidade interavaliadores seja um passo crucial na construção de uma solução de IA, ela é parte de um processo mais amplo de garantia de qualidade. Aqui estão algumas outras práticas que podem ajudar a melhorar a qualidade dos dados entre equipes e projetos:

  • Diretrizes de anotação claras: As instruções devem explicar exatamente como aplicar os rótulos para que todos estejam trabalhando a partir do mesmo padrão.
  • Treinamento e calibração: Sessões regulares ajudam os anotadores a permanecerem alinhados e dão a eles espaço para tirar dúvidas e se ajustar a casos extremos.
  • Verificações de qualidade contínuas: Verificações pontuais e exemplos de padrão ouro podem detectar erros precocemente e manter a qualidade alta conforme o projeto escala.
  • Resolução de discordâncias: Quando os anotadores discordam, deve haver um processo claro para revisar esses casos e tomar as decisões finais.
  • Grupo diversificado de anotadores: Envolver pessoas com diferentes experiências pode reduzir o viés e melhorar a forma como o dataset representa a variação do mundo real.

Link to this sectionPrincipais pontos#

A confiabilidade interavaliadores mede a consistência com que as pessoas aplicam rótulos ou tomam decisões. Métodos como Kappa de Cohen, Kappa de Fleiss e ICC ajudam a quantificar essa concordância. Com diretrizes claras, treinamento e controle de viés, anotações confiáveis levam a dados mais robustos e melhores resultados de modelo.

Junta-te à nossa comunidade e explora o nosso repositório no GitHub para descobrir mais sobre IA. Se pretendes iniciar o teu próprio projeto de visão computacional, confere as nossas opções de licenciamento. Também podes ver como a IA na saúde e a visão computacional no varejo estão causando um impacto visitando as nossas páginas de soluções.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática