Precisión Media Promedio (mAP): Detección de Objetos

La adopción de la IA está creciendo rápidamente y se está integrando en diversas innovaciones, desde coches autónomos hasta sistemas minoristas que pueden identificar productos en un estante. Estas tecnologías se basan en la visión artificial, una rama de la inteligencia artificial (IA) que permite a las máquinas analizar datos visuales.

Una métrica de evaluación clave utilizada para medir la precisión de los sistemas y algoritmos de visión artificial es la precisión media promedio (mAP). La métrica mAP indica cuán cerca coincide la predicción de un modelo de Visión Artificial con los resultados del mundo real.

Una tarea común de visión artificial es la detección de objetos, donde un modelo identifica múltiples objetos en una imagen y dibuja bounding boxes a su alrededor. mAP es la métrica estándar utilizada para evaluar el rendimiento de los modelos de detección de objetos y se utiliza ampliamente para comparar modelos de aprendizaje profundo como Ultralytics YOLO11.

En este artículo, veremos cómo se calcula la precisión media promedio (mAP) y por qué es esencial para cualquiera que entrene o evalúe modelos de detección de objetos. ¡Empecemos!

¿Qué es la precisión media promedio (mAP)?

La precisión media promedio es una puntuación que muestra la exactitud de un modelo de aprendizaje profundo cuando se trata de tareas relacionadas con la recuperación de información visual, como la detección e identificación de diferentes objetos en una imagen. Por ejemplo, considere un modelo de detección de objetos que analiza una foto que contiene un perro, un gato y un coche. Un modelo fiable puede realizar la detección de objetos reconociendo cada objeto y dibujando cuadros delimitadores y etiquetas a su alrededor, destacando dónde está y qué es.

mAP indica qué tan bien el modelo realiza esta tarea en muchas imágenes y diferentes tipos de objetos. Comprueba si el modelo identifica con precisión cada objeto y su ubicación dentro de la imagen. La puntuación varía de 0 a 1, donde uno significa que el modelo encontró todo perfectamente, y cero significa que no detectó ningún objeto.

Conceptos clave en la precisión media promedio (mAP)

Antes de explorar los conceptos detrás de la precisión media promedio en el aprendizaje automático, comprendamos mejor dos términos básicos: ground truth y predicciones.

La verdad fundamental (ground truth) se refiere a los datos de referencia precisos, donde los objetos y sus ubicaciones en la imagen son etiquetados cuidadosamente por humanos a través de un proceso conocido como anotación. Mientras tanto, las predicciones son los resultados que los modelos de IA dan después de analizar una imagen. Al comparar las predicciones del modelo de IA con la verdad fundamental, podemos medir qué tan cerca estuvo el modelo de obtener los resultados correctos.

Fig. 1. La predicción del modelo y los bounding boxes del ground truth. Imagen del autor.

‍

Matriz de confusión

A menudo se utiliza una matriz de confusión para comprender la precisión de un modelo de detección de objetos. Es una tabla que muestra cómo las predicciones del modelo coinciden con las respuestas correctas reales (ground truth). A partir de esta tabla, podemos obtener un desglose de cuatro componentes o resultados clave: verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos.

Esto es lo que representan estos componentes en la matriz de confusión:

Verdadero positivo (VP): Un objeto y su ubicación son detectados correctamente por el modelo.
‍
Falso positivo (FP): El modelo realizó una detección, pero fue incorrecta.
‍
Falso negativo (FN): Un objeto que en realidad estaba presente en la imagen, pero el modelo no lo detectó.
‍
Verdadero negativo (VN): Los verdaderos negativos ocurren cuando el modelo identifica correctamente la ausencia de un objeto.

Los verdaderos negativos no se utilizan comúnmente en la detección de objetos, ya que normalmente ignoramos las muchas regiones vacías en una imagen. Sin embargo, es esencial en otras tareas de visión artificial, como la clasificación de imágenes, donde el modelo asigna una etiqueta a la imagen. Por ejemplo, si la tarea es detectar si una imagen contiene un gato o no, y el modelo identifica correctamente "no hay gato" cuando la imagen no contiene uno, eso es un verdadero negativo.

Fig. 2. Resultados de la clasificación en una matriz de confusión. Imagen del autor.

‍

Intersección sobre Unión (IoU)

Otra métrica vital en la evaluación de modelos de detección de objetos es la Intersección sobre Unión (IoU). Para tales modelos de Visión Artificial, no es suficiente con detectar la presencia de un objeto en una imagen; también es necesario localizar dónde se encuentra en una imagen para dibujar los cuadros delimitadores.

La métrica IoU mide la coincidencia entre el cuadro predicho por el modelo y el cuadro correcto real (ground truth). La puntuación está entre 0 y 1, donde 1 significa una coincidencia perfecta y 0 significa que no hay superposición en absoluto.

Por ejemplo, un IoU más alto (como 0.80 o 0.85) significa que el cuadro predicho coincide estrechamente con el cuadro de verdad fundamental, lo que indica una localización precisa. Un IoU más bajo (como 0.30 o 0.25) significa que el modelo no localizó el objeto con precisión.

Para determinar si una detección es exitosa, utilizamos diferentes umbrales. Un umbral de IoU común es 0.5, lo que significa que una caja predicha debe superponerse con la caja de verdad fundamental en al menos un 50% para ser contada como un verdadero positivo. Cualquier superposición por debajo de este umbral se considera un falso positivo.

Fig. 3. Entendiendo la Intersección sobre la Unión. Imagen del autor.

‍

Precisión y exhaustividad (recall)

Hasta ahora, hemos explorado algunas métricas de evaluación básicas para comprender el rendimiento de los modelos de detección de objetos. A partir de esto, dos de las métricas más importantes son la precisión y la exhaustividad. Nos dan una idea clara de la precisión de las detecciones del modelo. Echemos un vistazo a lo que son.

Los valores de precisión nos indican cuántas de las predicciones del modelo fueron realmente correctas. Responde a la pregunta: de todos los objetos que el modelo afirmó detectar, ¿cuántos estaban realmente allí?

Los valores de recall, por otro lado, miden qué tan bien el modelo encuentra todos los objetos reales presentes en la imagen. Responde a la pregunta: de todos los objetos reales presentes, ¿cuántos detectó correctamente el modelo?

En conjunto, la precisión y la exhaustividad nos ofrecen una visión más clara del rendimiento de un modelo. Por ejemplo, si un modelo predice 10 coches en una imagen y 9 de ellos son realmente coches, tiene una precisión del 90% (una predicción positiva).

Estas dos métricas de evaluación a menudo implican un compromiso: un modelo puede alcanzar un valor de precisión alto haciendo solo predicciones en las que confía plenamente, pero esto puede hacer que pierda muchos objetos, lo que reduce el nivel de recall. Mientras tanto, también puede alcanzar un recall muy alto prediciendo un bounding box en casi todas partes, pero esto reduciría la precisión.

Fig. 4. Precisión y exhaustividad (recall). Imagen del autor.

‍

Precisión media

Si bien la precisión y la exhaustividad nos ayudan a comprender cómo se desempeña un modelo en predicciones individuales, la precisión promedio (AP) puede proporcionar una visión más amplia. Ilustra cómo cambia la precisión del modelo a medida que intenta detectar más objetos y resume su rendimiento en un solo número.

Para calcular la puntuación de precisión media, primero podemos crear una métrica combinada similar a un gráfico llamada curva de precisión-recuperación (o curva PR) para cada tipo de objeto. Esta curva muestra lo que sucede a medida que el modelo realiza más predicciones.

Considere un escenario en el que el modelo comienza detectando solo los objetos más fáciles u obvios. En esta etapa, la precisión es alta porque la mayoría de las predicciones son correctas, pero la exhaustividad es baja, ya que todavía se omiten muchos objetos. A medida que el modelo intenta detectar más objetos, incluidos los más difíciles o raros, generalmente introduce más errores. Esto hace que la precisión disminuya mientras que la exhaustividad aumenta.

La precisión media es el área bajo la curva (AUC de la curva PR). Un área mayor significa que el modelo es mejor para mantener la precisión de sus predicciones, incluso a medida que detecta más objetos. La AP se calcula por separado para cada etiqueta de clase.

Por ejemplo, en un modelo que puede detectar coches, bicicletas y peatones, podemos calcular los valores AP individualmente para cada una de esas tres categorías. Esto nos ayuda a ver qué objetos detecta bien el modelo y dónde podría necesitar aún mejoras.

Fig. 5. Una curva PR para cinco clases diferentes. (Fuente)

‍

Precisión media promedio

Después de calcular la precisión promedio para cada clase de objeto, todavía necesitamos una puntuación única que refleje el rendimiento general del modelo en todas las clases. Esto se puede lograr utilizando la fórmula de la precisión media promedio. Promedia las puntuaciones AP para cada categoría.

Por ejemplo, supongamos que un modelo de visión artificial como YOLO11 alcanza una AP de 0,827 para coches, 0,679 para motocicletas, 0,355 para camiones, 0,863 para autobuses y 0,982 para bicicletas. Utilizando la fórmula mAP, podemos sumar estos números y dividir por el número total de clases de la siguiente manera:

mAP = (0.827 + 0.679 + 0.355 + 0.863 + 0.982) ÷ 5 = 0.7432 ≈ 0.743

‍

La puntuación mAP de 0,743 proporciona una solución sencilla para juzgar el rendimiento del modelo en todas las clases de objetos. Un valor cercano a 1 significa que el modelo es preciso para la mayoría de las categorías, mientras que un valor más bajo sugiere que tiene dificultades con algunas.

Importancia de AP y mAP en la visión artificial

Ahora que comprendemos mejor cómo se calculan AP y mAP y cuáles son sus componentes, aquí hay una descripción general de su importancia en la visión artificial:

AP bajo para una clase específica: Un AP bajo para una sola clase a menudo significa que el modelo tiene dificultades con esa clase de objeto específica. Esto puede deberse a datos de entrenamiento insuficientes o desafíos visuales en las imágenes, como la oclusión.

Errores de localización: Un valor mAP más alto en un umbral de IoU más bajo (como mAP@0.50) combinado con una caída significativa en un umbral de IoU más alto (como mAP@0.75) indica que el modelo puede detectar objetos, pero tiene dificultades para localizarlos con precisión.

Sobreajuste: Un valor mAP más alto en el conjunto de datos de entrenamiento pero un valor mAP más bajo en el conjunto de datos de validación es un signo de sobreajuste, lo que hace que el modelo no sea fiable para nuevas imágenes.

Aplicaciones del mundo real de la precisión media promedio

A continuación, exploremos cómo las métricas clave como mAP pueden ayudar al construir casos de uso de visión artificial en el mundo real.

Vehículos autónomos: por qué un valor de mAP más alto significa carreteras más seguras

Cuando se trata de coches autónomos, la detección de objetos es crucial para identificar peatones, señales de tráfico, ciclistas y marcas viales. Por ejemplo, si un niño cruza repentinamente la calle, el coche tiene segundos para detectar el objeto (niño), localizar dónde está, rastrear su movimiento y tomar las medidas necesarias (aplicar los frenos).

Modelos como YOLO11 están diseñados para la detección de objetos en tiempo real en escenarios de alto riesgo. En estos casos, mAP se convierte en una medida crítica de seguridad.

Una puntuación mAP alta asegura que el sistema detecte al niño rápidamente, lo localice con precisión y active el frenado con un retraso mínimo. Un mAP bajo puede significar detecciones perdidas o clasificaciones erróneas peligrosas, como confundir al niño con otro objeto pequeño.

Fig. 6. Un ejemplo de YOLO11 utilizado para detectar peatones en la carretera. (Fuente)

‍

Uso de mAP para la detección precisa de productos

De forma similar, en el comercio minorista, los modelos de detección de objetos pueden utilizarse para automatizar tareas como la supervisión del stock y los procesos de pago. Cuando un cliente escanea un producto en un autopago, un error en la detección puede causar frustración.

Una puntuación mAP alta asegura que el modelo distinga con precisión entre productos similares y dibuje cuadros delimitadores precisos, incluso cuando los artículos están muy juntos. Una puntuación mAP baja puede llevar a confusiones. Por ejemplo, si el modelo confunde una botella de zumo de naranja con una botella de zumo de manzana visualmente similar, podría resultar en una facturación incorrecta e informes de inventario inexactos.

Los sistemas minoristas integrados con modelos como YOLO11 pueden detectar productos en tiempo real, verificarlos con el inventario y actualizar los sistemas backend al instante. En entornos minoristas de ritmo rápido, el mAP juega un papel crucial para mantener las operaciones precisas y confiables.

Mejora de la precisión diagnóstica con un mAP alto en la atención sanitaria

Mejorar la precisión del diagnóstico en la atención médica comienza con la detección precisa en imágenes médicas. Los modelos como YOLO11 pueden ayudar a los radiólogos a detectar tumores, fracturas u otras anomalías en esas exploraciones médicas. Aquí, la precisión media promedio es una métrica esencial para evaluar la fiabilidad clínica de un modelo.

Un mAP alto indica que el modelo logra tanto una alta exhaustividad (identificando la mayoría de los problemas reales) como una alta precisión (evitando falsas alarmas), lo cual es crucial en la toma de decisiones clínicas. Además, el umbral de IoU en la atención sanitaria a menudo se establece muy alto (0,85 o 0,90) para garantizar una detección extremadamente precisa.

Sin embargo, una puntuación mAP baja puede generar preocupación. Digamos que un modelo no detecta un tumor; esto podría retrasar el diagnóstico o conducir a un tratamiento incorrecto.

Pros y contras del uso de mAP

Estas son las principales ventajas de utilizar la precisión media promedio para evaluar los modelos de detección de objetos:

Métrica estandarizada: mAP es el estándar de la industria para evaluar modelos de detección de objetos. Un valor mAP permite comparaciones justas y consistentes entre diferentes modelos.

Refleja el rendimiento en el mundo real: Un mAP alto indica que el modelo sobresale en la detección de varias clases de objetos y mantiene un sólido rendimiento en escenarios complejos del mundo real.

Diagnósticos por clase: Una puntuación mAP evalúa el rendimiento de la detección para cada clase individualmente. Esto facilita la identificación de categorías de bajo rendimiento (como bicicletas o señales de tráfico) y el ajuste fino del modelo en consecuencia.

Si bien el uso de la métrica mAP tiene varias ventajas, existen algunas limitaciones que deben tenerse en cuenta. Estos son algunos de los factores que debe tener en cuenta:

Difícil para las partes interesadas no técnicas: Los equipos empresariales o clínicos pueden encontrar los valores de mAP abstractos, a diferencia de las métricas más intuitivas y fáciles de entender.

No refleja las restricciones en tiempo real: mAP no tiene en cuenta la velocidad de inferencia o la latencia, que son cruciales para la implementación en aplicaciones sensibles al tiempo.

Conclusiones clave

Hemos comprobado que la precisión media promedio no es solo una puntuación técnica, sino un reflejo del potencial de rendimiento de un modelo en el mundo real. Ya sea en un sistema de vehículos autónomos o en una caja de pago minorista, una alta puntuación mAP sirve como un indicador fiable del rendimiento y la preparación práctica de un modelo.

Si bien mAP es una métrica esencial e impactante, debe verse como parte de una estrategia de evaluación completa. Para aplicaciones críticas como la atención médica y la conducción autónoma, no es suficiente depender únicamente de mAP.

También se deben considerar factores adicionales como la velocidad de inferencia (la rapidez con la que el modelo realiza predicciones), el tamaño del modelo (que afecta la implementación en dispositivos periféricos) y el análisis cualitativo de errores (la comprensión de los tipos de errores que comete el modelo) para garantizar que el sistema sea seguro, eficiente y realmente adecuado para el propósito previsto.

Únase a nuestra creciente comunidad y al repositorio de GitHub para obtener más información sobre la visión artificial. Explore nuestras páginas de soluciones para conocer las aplicaciones de la visión artificial en la agricultura y la IA en la logística. ¡Consulte nuestras opciones de licencia para comenzar hoy mismo con su propio modelo de visión artificial!

Precisión media promedio (mAP) en la detección de objetos

¿Qué es la precisión media promedio (mAP)?