Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Compreender a fiabilidade entre avaliadores, o Kappa de Cohen, o ICC, a taxa de formação e a percentagem de concordância. Saiba como estas medidas estatísticas garantem a consistência e a concordância entre observadores na investigação e análise de dados.
Quando está a construir um modelo de IA, a qualidade dos seus dados é tão importante como os algoritmos que lhe estão subjacentes. Sempre que várias pessoas rotulam ou analisam os mesmos dados, é provável que surjam divergências. Isto é verdade em muitos domínios, incluindo a investigação, os cuidados de saúde e a educação.
Em particular, na visão computacional, um ramo da IA que envolve modelos de treino como o Ultralytics YOLO11 para interpretar dados visuais como imagens ou vídeos, os exemplos rotulados desempenham um papel crucial. Se essas etiquetas forem inconsistentes, os modelos de visão por computador podem ter dificuldade em aprender os padrões corretos.
A fiabilidade inter-avaliadores (IRR) mede a consistência com que diferentes indivíduos, ou rotuladores, concordam numa tarefa. Ajuda a monitorizar a consistência e a identificar lacunas na formação, nas diretrizes ou na interpretação. Isto é especialmente importante na formação de modelos personalizados, em que os modelos de IA são criados utilizando dados específicos para um determinado fim.
Neste artigo, vamos explorar o que é a fiabilidade entre avaliadores, como medi-la e como melhorá-la em projectos do mundo real. Vamos começar!
O que é a fiabilidade interavaliadores?
A fiabilidade entre avaliadores mede a frequência com que duas ou mais pessoas (também conhecidas como avaliadores) concordam quando rotulam, classificam ou revêem o mesmo conteúdo. É utilizada para verificar a consistência com que diferentes avaliadores utilizam determinados critérios. Uma elevada concordância entre avaliadores significa que uma tarefa está bem definida e é claramente compreendida.
Este conceito é utilizado em diferentes domínios. Consoante o domínio, é conhecido por diferentes nomes, como acordo entre avaliadores, fiabilidade entre observadores ou fiabilidade entre codificadores. No entanto, o princípio subjacente continua a ser o mesmo.
Na IA de visão, a fiabilidade entre avaliadores é uma parte essencial do processo de rotulagem de dados. O treino de modelos de visão por computador requer frequentemente a etiquetagem de conjuntos de dados maciços de imagens ou fotogramas de vídeo, pelo que vários programadores de IA trabalham em conjunto com os mesmos dados.
Para obterem resultados exactos, têm de seguir as mesmas diretrizes de etiquetagem. Por exemplo, ao etiquetar animais, todos precisam de um acordo claro sobre o que conta como um cão, como desenhar a caixa delimitadora à sua volta e se devem etiquetar ou ignorar objectos desfocados.
Fig. 1. Compreender a fiabilidade entre avaliadores (Imagem do autor)
Fiabilidade interavaliadores vs. fiabilidade intraavaliadores e fiabilidade teste-reteste
Quando as pessoas estão envolvidas na rotulagem ou pontuação de dados, há três tipos principais de fiabilidade a considerar. Cada um serve um objetivo diferente na medição da consistência dos resultados. Eis uma análise mais pormenorizada de cada um deles:
Fiabilidade entre avaliadores: A fiabilidade entre avaliadores analisa o grau de concordância entre pessoas diferentes que executam a mesma tarefa. Isto é especialmente útil quando vários anotadores estão envolvidos em projectos como rotulagem de imagens, análise de sentimentos ou revisões médicas.
Fiabilidade intra-avaliador: Desloca o foco para uma única pessoa. A fiabilidade intra-avaliador verifica se o avaliador se mantém consistente quando repete a mesma tarefa em momentos diferentes. Se os rótulos mudarem demasiado, isso pode ser o resultado de diretrizes pouco claras ou da falta de clareza da tarefa.
Fiabilidade do teste-reteste: A fiabilidade do teste-reteste não se centra no anotador, mas na ferramenta ou no método utilizado. Mede se o mesmo resultado aparece quando o teste é repetido em condições semelhantes. Se o resultado se mantiver consistente, o método é considerado fiável.
Em conjunto, estas medidas ajudam a confirmar que tanto as pessoas como os processos estão a produzir resultados estáveis e fiáveis.
Fig. 2. Uma visão geral da fiabilidade inter-avaliadores, intra-avaliadores e teste-reteste (Imagem do autor)
Porque é que a fiabilidade entre avaliadores é importante?
Em projectos de IA de visão em grande escala, a qualidade dos dados rotulados afecta diretamente o desempenho de um modelo. Mesmo pequenas diferenças na forma como os anotadores aplicam as diretrizes podem introduzir inconsistências que confundem o modelo durante o treino. Ao longo do tempo, isto pode levar a previsões incorrectas, ao desperdício de recursos e à necessidade de uma nova rotulagem dispendiosa.
A medição da fiabilidade entre avaliadores ajuda a detetar estes problemas numa fase inicial. Uma concordância elevada significa que os anotadores estão alinhados, produzindo conjuntos de dados mais limpos e fiáveis. Uma baixa concordância indica que as instruções, os exemplos ou a formação poderão ter de ser aperfeiçoados antes de o projeto avançar. Ao garantir que os rotuladores trabalham em sincronia, as equipas podem criar modelos de IA que aprendem de forma mais eficaz e apresentam melhores resultados em aplicações do mundo real.
Considerações práticas sobre a fiabilidade entre avaliadores
Seguem-se algumas considerações práticas importantes a ter em conta quando se trabalha com vários avaliadores e se pretende manter uma elevada fiabilidade interavaliadores:
Tarefas ambíguas ou subjectivas: Quando a rotulagem envolve interpretação, como decidir se um objeto desfocado é um peão ou avaliar a qualidade de uma imagem, vários avaliadores ajudam a garantir que as decisões são consistentes e não são excessivamente influenciadas por preconceitos individuais.
Tarefas simples e objectivas: Tarefas simples como contar o número de carros numa imagem ou confirmar se um objeto está presente requerem frequentemente apenas um avaliador bem treinado, uma vez que a concordância é normalmente elevada quando o processo está claramente definido.
Diretrizes de rotulagem claras: Instruções pormenorizadas e fáceis de seguir reduzem a incerteza na forma como os rótulos são aplicados, o que melhora a concordância entre os avaliadores. As diretrizes devem abranger explicitamente os casos extremos para evitar interpretações inconsistentes.
Formação e calibração periódicas: Mesmo os avaliadores experientes podem desviar-se nas suas apreciações ao longo do tempo. Sessões de formação regulares e verificações de calibração ajudam a manter a consistência e a minimizar o enviesamento do experimentador.
Medidas de fiabilidade inter-avaliadores
Existem várias formas de medir a fiabilidade entre avaliadores, e a melhor escolha depende do tipo de dados e da tarefa. Alguns métodos funcionam bem para avaliadores individuais que lidam com questões simples de sim ou não, enquanto outros são concebidos para situações que envolvem vários avaliadores.
As abordagens mais comuns incluem a concordância percentual, o Kappa de Cohen, o Kappa de Fleiss e o coeficiente de correlação intraclasse. Cada método mede o nível de concordância entre os avaliadores e tem em conta a possibilidade de que alguma concordância possa ocorrer por acaso.
Kappa de Cohen e Kappa de Fleiss
O Kappa de Cohen é um método amplamente utilizado para medir a fiabilidade interavaliadores entre dois avaliadores. Calcula a frequência com que concordam numa tarefa, ajustando ao mesmo tempo a possibilidade de alguma concordância ocorrer por acaso. As pontuações variam entre -1 e 1, sendo que 1 indica uma concordância perfeita e 0 significa que a concordância não é melhor do que um palpite ao acaso.
Do mesmo modo, o Kappa de Fleiss é utilizado quando estão envolvidos mais de dois avaliadores. Fornece uma pontuação global que mostra o grau de consistência do grupo. Ambos os métodos são utilizados para tarefas com categorias definidas, como rotular imagens ou etiquetar emoções. São fáceis de calcular e suportados pela maioria das ferramentas de anotação.
Percentagem de concordância e coeficiente de correlação intraclasse (ICC)
Outra forma de medir a fiabilidade entre avaliadores é a concordância percentual, que calcula a percentagem de vezes que os avaliadores tomam a mesma decisão. Embora seja simples de utilizar, não tem em conta a concordância que pode ocorrer por acaso.
Entretanto, o coeficiente de correlação intraclasse é um método mais avançado utilizado para dados contínuos ou baseados numa escala. Mede a consistência das classificações entre vários avaliadores e é frequentemente aplicado em investigação que envolve pontuações, medidas ou outros tipos de dados para além de categorias fixas.
Exemplos e aplicações da fiabilidade interavaliadores
Agora que temos uma melhor compreensão de como medir a fiabilidade entre avaliadores, vamos ver como estes métodos podem ser utilizados em aplicações do mundo real.
Fiabilidade inter-avaliadores na anotação de imagens médicas
Quando se trata de imagiologia médica, mesmo pequenas diferenças na interpretação podem levar a alterações significativas nos resultados. Por exemplo, os radiologistas são frequentemente solicitados a identificar padrões subtis, ambíguos ou difíceis de definir. Quando esses padrões se tornam dados de treino para sistemas de IA, os riscos são maiores. Se os especialistas rotularem o mesmo exame de forma diferente, o modelo pode aprender os padrões errados ou não conseguir aprender.
A fiabilidade entre avaliadores ajuda as equipas que lidam com esses dados a avaliar a consistência das avaliações dos peritos. Por exemplo, num estudo recente centrado em exames de OCT da retina, dois avaliadores rotularam 500 imagens.
A concordância foi elevada para caraterísticas claras como as drusas (depósitos amarelos sob a retina), com uma pontuação kappa de 0,87. No entanto, para elementos mais difíceis de definir, como os focos hiper-reflectivos (pequenos pontos brilhantes observados em exames da retina), a pontuação desceu para 0,33. Isto mostra que as caraterísticas mais claras e bem definidas tendem a produzir juízos mais consistentes por parte dos peritos, enquanto as ambíguas deixam mais espaço para a interpretação.
Fig. 3. Exemplos de etiquetas para diferentes caraterísticas relacionadas com doenças da retina(Fonte)
Conjuntos de dados de veículos autónomos e fiabilidade entre avaliadores
O treino de modelos de IA para um sistema de condução autónoma depende de etiquetas precisas e consistentes numa vasta gama de condições de estrada. Os anotadores que trabalham neste tipo de projectos são normalmente solicitados a identificar peões, veículos, sinais de trânsito e marcas de faixa de rodagem, muitas vezes em cenários com pouca iluminação ou com muita gente.
Estas decisões determinam a forma como o modelo aprende a responder em ambientes reais adversos. A fiabilidade entre avaliadores permite que as equipas verifiquem se essas etiquetas estão a ser aplicadas da mesma forma pelos anotadores.
Fig. 4. Um olhar sobre as divergências de anotação(Fonte)
Para além da fiabilidade entre avaliadores: Outras medidas de garantia de qualidade
Embora a medição da fiabilidade entre avaliadores seja um passo crucial na criação de uma solução de IA, é uma parte de um processo de garantia de qualidade mais amplo. Aqui estão algumas outras práticas que podem ajudar a melhorar a qualidade dos dados entre equipas e projectos:
Diretrizes de anotação claras: As instruções devem explicar exatamente como aplicar as etiquetas, para que todos trabalhem com base no mesmo padrão.
Formação e calibração: As sessões regulares ajudam os anotadores a manterem-se alinhados e dão-lhes espaço para fazerem perguntas e ajustarem-se a casos extremos.
Controlos de qualidade contínuos: As verificações pontuais e os exemplos de referência podem detetar erros precocemente e manter a qualidade elevada à medida que o projeto cresce.
Resolução de desacordos: Quando os anotadores não estão de acordo, deve haver um processo claro para rever esses casos e tomar as decisões finais.
Conjunto diversificado de anotadores: O envolvimento de pessoas com diferentes antecedentes pode reduzir o enviesamento e melhorar a forma como o conjunto de dados representa a variação do mundo real.
Principais conclusões
A fiabilidade entre avaliadores mede a consistência com que as pessoas aplicam rótulos ou tomam decisões. Métodos como o Kappa de Cohen, o Kappa de Fleiss e o ICC ajudam a quantificar essa concordância. Com diretrizes claras, formação e controlo de enviesamentos, anotações fiáveis conduzem a dados mais sólidos e a melhores resultados de modelos.