Fiabilidad entre evaluadores: Definición, ejemplos, cálculos

Abirami Vina

5 minutos de lectura

18 de agosto de 2025

Comprenda la fiabilidad entre observadores, el Kappa de Cohen, el ICC, la tasa de formación y el porcentaje de acuerdo. Aprenda cómo estas medidas estadísticas garantizan la coherencia y el acuerdo entre observadores en la investigación y el análisis de datos.

A la hora de crear un modelo de IA, la calidad de los datos es tan importante como la de los algoritmos que los sustentan. Cuando varias personas etiquetan o revisan los mismos datos, es inevitable que surjan desacuerdos. Esto ocurre en muchos campos, como la investigación, la sanidad y la educación.

En particular, en la visión por ordenador, una rama de la IA que implica el entrenamiento de modelos como Ultralytics YOLO11 para interpretar datos visuales como imágenes o vídeos, los ejemplos etiquetados desempeñan un papel crucial. Si esas etiquetas son incoherentes, los modelos de visión por ordenador pueden tener dificultades para aprender los patrones correctos.

La fiabilidad entre evaluadores (IRR) mide la coherencia con la que diferentes personas, o etiquetadores, coinciden en una tarea. Ayuda a controlar la coherencia y a identificar lagunas en la formación, las directrices o la interpretación. Esto es especialmente importante en la formación de modelos personalizados, donde los modelos de IA se construyen utilizando datos específicos para un fin concreto.

En este artículo analizaremos qué es la fiabilidad entre evaluadores, cómo medirla y cómo mejorarla en proyectos reales. Empecemos.

¿Qué es la fiabilidad entre evaluadores?

La fiabilidad entre evaluadores mide la frecuencia con la que dos o más personas (también conocidas como evaluadores) coinciden al etiquetar, calificar o revisar el mismo contenido. Se utiliza para comprobar la coherencia con la que distintos calificadores utilizan determinados criterios. Una elevada concordancia entre evaluadores significa que una tarea está bien definida y se entiende con claridad.

Este concepto se utiliza en distintos campos. Dependiendo del campo, se conoce con distintos nombres, como acuerdo entre evaluadores, fiabilidad entre observadores o fiabilidad entre codificadores. Sin embargo, el principio subyacente sigue siendo el mismo.

En la IA de visión, la fiabilidad entre evaluadores es una parte clave del proceso de etiquetado de datos. El entrenamiento de modelos de visión por ordenador suele requerir el etiquetado de enormes conjuntos de datos de imágenes o fotogramas de vídeo, por lo que varios desarrolladores de IA trabajan juntos con los mismos datos.

Para obtener resultados precisos, tienen que seguir las mismas pautas de etiquetado. Por ejemplo, al etiquetar animales, todo el mundo necesita un acuerdo claro sobre qué se considera un perro, cómo dibujar el cuadro delimitador a su alrededor y si hay que etiquetar o ignorar los objetos borrosos.

Fig. 1. Comprensión de la fiabilidad entre evaluadores (Imagen del autor)

Fiabilidad entre evaluadores e intraevaluadores y fiabilidad test-retest

Cuando las personas se ocupan de etiquetar o puntuar datos, hay que tener en cuenta tres tipos principales de fiabilidad. Cada uno de ellos sirve para medir la coherencia de los resultados. He aquí un análisis más detallado de cada uno de ellos:

  • Fiabilidad entre evaluadores: La fiabilidad entre evaluadores examina el grado de coincidencia entre distintas personas que realizan la misma tarea. Esto resulta especialmente útil cuando participan varios anotadores en proyectos como el etiquetado de imágenes, el análisis de sentimientos o las revisiones médicas.
  • Fiabilidad entre evaluadores: Se centra en una sola persona. La fiabilidad intraevaluador comprueba si el evaluador mantiene la coherencia al repetir la misma tarea en distintos momentos. Si las etiquetas cambian demasiado, podría ser el resultado de unas directrices poco claras o de la falta de claridad de la tarea.
  • Fiabilidad test-retest: La fiabilidad test-retest no se centra en el anotador, sino en la herramienta o el método utilizados. Mide si aparece el mismo resultado cuando se repite la prueba en condiciones similares. Si el resultado se mantiene constante, el método se considera fiable. 

En conjunto, estas medidas ayudan a confirmar que tanto las personas como los procesos están produciendo resultados constantes y fiables.

Fig. 2. Resumen de la fiabilidad entre evaluadores, intraevaluadores y test-retest (imagen del autor).

¿Por qué es importante la fiabilidad entre evaluadores?

En los proyectos de IA de visión a gran escala, la calidad de los datos etiquetados afecta directamente al rendimiento del modelo. Incluso pequeñas diferencias en la forma en que los anotadores aplican las directrices pueden introducir incoherencias que confundan al modelo durante el entrenamiento. Con el tiempo, esto puede dar lugar a predicciones inexactas, pérdida de recursos y la necesidad de un costoso reetiquetado.

Medir la fiabilidad entre evaluadores ayuda a detectar estos problemas en una fase temprana. Una alta concordancia significa que los anotadores están alineados y producen conjuntos de datos más limpios y fiables. Una concordancia baja indica que las instrucciones, los ejemplos o la formación deben perfeccionarse antes de que el proyecto siga adelante. Al asegurarse de que los etiquetadores trabajan en sincronía, los equipos pueden crear modelos de IA que aprendan de forma más eficaz y ofrezcan mejores resultados en aplicaciones del mundo real.

Consideraciones prácticas sobre la fiabilidad entre evaluadores

A continuación se exponen algunas consideraciones prácticas clave que deben tenerse en cuenta cuando se trabaja con varios evaluadores y se pretende mantener una alta fiabilidad entre ellos:

  • Tareas ambiguas o subjetivas: Cuando el etiquetado implica interpretación, como decidir si un objeto borroso es un peatón o juzgar la calidad de una imagen, varios evaluadores ayudan a garantizar que las decisiones sean coherentes y no estén excesivamente influidas por prejuicios individuales.

  • Tareas sencillas y objetivas: Las tareas sencillas, como contar el número de coches que aparecen en una imagen o confirmar la presencia de un objeto, suelen requerir un solo evaluador bien formado, ya que la concordancia suele ser alta una vez que el proceso está claramente definido.

  • Directrices claras de etiquetado: Unas instrucciones detalladas y fáciles de seguir reducen la incertidumbre en la aplicación de las etiquetas, lo que mejora la concordancia entre los evaluadores. Las directrices deben cubrir explícitamente los casos extremos para evitar interpretaciones incoherentes.

  • Formación y calibración periódicas: Incluso los evaluadores experimentados pueden cambiar sus juicios con el tiempo. Las sesiones periódicas de formación y los controles de calibración ayudan a mantener la coherencia y a minimizar el sesgo del experimentador.

Medidas de fiabilidad entre evaluadores

Hay varias formas de medir la fiabilidad entre evaluadores, y la mejor opción depende del tipo de datos y de tarea. Algunos métodos funcionan bien con un solo evaluador que responde a preguntas simples de sí o no, mientras que otros están diseñados para situaciones en las que intervienen varios evaluadores.

Los métodos más habituales son el porcentaje de acuerdo, el Kappa de Cohen, el Kappa de Fleiss y el coeficiente de correlación intraclase. Cada método mide el nivel de acuerdo entre los evaluadores y tiene en cuenta la posibilidad de que se produzca algún acuerdo por casualidad.

Kappa de Cohen y Kappa de Fleiss

El Kappa de Cohen es un método muy utilizado para medir la fiabilidad entre dos evaluadores. Calcula la frecuencia con la que coinciden en una tarea, ajustando al mismo tiempo la posibilidad de que se produzca cierta coincidencia por azar. Las puntuaciones van de -1 a 1, donde 1 indica un acuerdo perfecto y 0 significa que el acuerdo no es mejor que una suposición aleatoria.

Del mismo modo, el Kappa de Fleiss se utiliza cuando intervienen más de dos evaluadores. Proporciona una puntuación global que muestra la coherencia del grupo. Ambos métodos se utilizan para tareas con categorías establecidas, como etiquetar imágenes o emociones. Son fáciles de calcular y están disponibles en la mayoría de herramientas de anotación.

Porcentaje de acuerdo y coeficiente de correlación intraclase (CCI)

Otra forma de medir la fiabilidad entre evaluadores es el porcentaje de acuerdo, que calcula el porcentaje de veces que los evaluadores toman la misma decisión. Aunque es fácil de utilizar, no tiene en cuenta el acuerdo que pueda producirse por azar.

Por su parte, el coeficiente de correlación intraclase es un método más avanzado que se utiliza para datos continuos o basados en escalas. Mide la coherencia de las puntuaciones entre varios evaluadores y suele aplicarse en investigaciones con puntuaciones, mediciones u otros tipos de datos que van más allá de las categorías fijas.

Ejemplos y aplicaciones de la fiabilidad entre evaluadores

Ahora que ya sabemos cómo medir la fiabilidad entre evaluadores, vamos a ver cómo se pueden utilizar estos métodos en aplicaciones reales.

Fiabilidad entre evaluadores en la anotación de imágenes médicas

Cuando se trata de imágenes médicas, incluso pequeñas diferencias en la interpretación pueden dar lugar a cambios significativos en los resultados. Por ejemplo, a menudo se pide a los radiólogos que identifiquen patrones sutiles, ambiguos o difíciles de definir. Cuando esos patrones se convierten en datos de entrenamiento para los sistemas de IA, lo que está en juego es más importante. Si los expertos etiquetan la misma exploración de forma diferente, el modelo puede aprender patrones erróneos o no aprender nada.

La fiabilidad entre evaluadores ayuda a los equipos que trabajan con este tipo de datos a evaluar la coherencia real de los juicios de los expertos. Por ejemplo, en un estudio reciente centrado en escáneres OCT de retina, dos evaluadores etiquetaron 500 imágenes. 

La concordancia fue elevada para características claras como las drusas (depósitos amarillos bajo la retina), con una puntuación kappa de 0,87. Sin embargo, en el caso de elementos más difíciles de definir, como los focos hiperreflectantes (pequeñas manchas brillantes que se observan en los escáneres de retina), la puntuación se redujo a 0,33. Esto demuestra que los rasgos más claros y bien definidos tienden a producir juicios de expertos más coherentes, mientras que los ambiguos dejan más margen a la interpretación.

Fig. 3. Ejemplos de etiquetas para diferentes características relacionadas con las enfermedades de la retina(Fuente)

Conjuntos de datos de vehículos autónomos y fiabilidad entre evaluadores

El entrenamiento de modelos de IA para un sistema de conducción autónoma depende de la precisión y coherencia de las etiquetas en una amplia gama de condiciones de la carretera. A los anotadores que trabajan en este tipo de proyectos se les suele pedir que identifiquen peatones, vehículos, señales de tráfico y marcas viales, a menudo con poca luz o en escenas abarrotadas. 

Estas decisiones determinan la forma en que el modelo aprende a responder en entornos difíciles del mundo real. La fiabilidad entre evaluadores permite a los equipos comprobar si esas etiquetas se aplican de la misma forma en todos los anotadores. 

Fig. 4. Desacuerdos en las anotaciones(Fuente)

Más allá de la fiabilidad entre evaluadores: Otras medidas de garantía de calidad

Aunque la medición de la fiabilidad entre evaluadores es un paso crucial en la creación de una solución de IA, forma parte de un proceso de garantía de calidad más amplio. Estas son otras prácticas que pueden ayudar a mejorar la calidad de los datos en equipos y proyectos:

  • Directrices de anotación claras: Las instrucciones deben explicar exactamente cómo aplicar las etiquetas para que todo el mundo trabaje a partir de la misma norma.

  • Formación y calibración: Las sesiones periódicas ayudan a los anotadores a mantenerse alineados y les dan espacio para hacer preguntas y adaptarse a los casos extremos.

  • Controles de calidad continuos: Los controles puntuales y los ejemplos de referencia pueden detectar errores en una fase temprana y mantener la calidad a medida que el proyecto se amplía.

  • Resolución de desacuerdos: Cuando los anotadores no están de acuerdo, debe haber un proceso claro para revisar esos casos y tomar decisiones finales.

  • Grupo de anotadores diverso: La participación de personas con distintos antecedentes puede reducir los sesgos y mejorar la representación del conjunto de datos en el mundo real.

Principales conclusiones

La fiabilidad entre evaluadores mide la coherencia con la que las personas aplican etiquetas o toman decisiones. Métodos como Kappa de Cohen, Kappa de Fleiss e ICC ayudan a cuantificar esa concordancia. Con directrices claras, formación y control de los sesgos, las anotaciones fiables dan lugar a datos más sólidos y mejores resultados de los modelos.

Únase a nuestra comunidad y explore nuestro repositorio de GitHub para descubrir más sobre la IA. Si desea iniciar su propio proyecto de Vision AI, consulte nuestras opciones de licencia. También puede ver cómo la IA en la atención sanitaria y Vision AI en el comercio minorista están teniendo un impacto visitando nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles