Precisión media (mAP) en la detección de objetos

Abirami Vina

6 min leer

28 de agosto de 2025

Comprenda la precisión media (mAP) en la detección de objetos. Aprenda su significado, cálculo y por qué mAP es clave para evaluar el rendimiento del modelo.

La adopción de la IA está creciendo rápidamente y se está integrando en diversas innovaciones, desde coches autoconducidos hasta sistemas de venta al por menor capaces de identificar productos en una estantería. Estas tecnologías se basan en la visión por ordenador, una rama de la inteligencia artificial (IA) que permite a las máquinas analizar datos visuales. 

Una métrica de evaluación clave utilizada para medir la precisión de los sistemas y algoritmos de visión por ordenador es la precisión media (mAP). La métrica mAP indica hasta qué punto la predicción de un modelo de IA de visión se ajusta a los resultados del mundo real.

Una tarea común de visión por ordenador es la detección de objetos, en la que un modelo identifica múltiples objetos en una imagen y dibuja cuadros delimitadores a su alrededor. mAP es la métrica estándar utilizada para evaluar el rendimiento de los modelos de detección de objetos y se utiliza ampliamente para evaluar modelos de aprendizaje profundo como Ultralytics YOLO11.

En este artículo veremos cómo se calcula la precisión media y por qué es esencial para cualquier persona que entrene o evalúe modelos de detección de objetos. Empecemos.

¿Qué es la precisión media?

La precisión media es una puntuación que muestra la precisión de un modelo de aprendizaje profundo en tareas relacionadas con la recuperación de información visual, como la detección e identificación de diferentes objetos en una imagen. Por ejemplo, consideremos un modelo de detección de objetos que analiza una foto que contiene un perro, un gato y un coche. Un modelo fiable puede realizar la detección de objetos reconociendo cada objeto y dibujando cuadros delimitadores y etiquetas a su alrededor, resaltando dónde está y qué es.

mAP indica lo bien que el modelo realiza esta tarea a través de muchas imágenes y diferentes tipos de objetos. Comprueba si el modelo identifica con precisión cada objeto y su ubicación en la imagen. La puntuación oscila entre 0 y 1, donde uno significa que el modelo encontró todo perfectamente y cero que no detectó ningún objeto.

Conceptos clave de la precisión media (mAP)

Antes de explorar los conceptos que subyacen a la precisión media en el aprendizaje automático, vamos a comprender mejor dos términos básicos: la verdad sobre el terreno y las predicciones. 

La verdad sobre el terreno se refiere a los datos de referencia precisos, en los que los objetos y sus ubicaciones en la imagen son cuidadosamente etiquetados por humanos mediante un proceso conocido como anotación. Por su parte, las predicciones son los resultados que ofrecen los modelos de IA tras analizar una imagen. Al comparar las predicciones del modelo de IA con la verdad sobre el terreno, podemos medir lo cerca que estuvo el modelo de obtener los resultados correctos. 

Fig. 1. La predicción del modelo y las cajas de delimitación de la verdad sobre el terreno. Imagen del autor.

Matriz de confusión

Una matriz de confusión se utiliza a menudo para comprender la precisión de un modelo de detección de objetos. Es una tabla que muestra cómo coinciden las predicciones del modelo con las respuestas correctas reales (verdad sobre el terreno). A partir de esta tabla, podemos obtener un desglose de cuatro componentes o resultados clave: verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos.

He aquí lo que representan estos componentes en la matriz de confusión:

  • Verdadero positivo (TP): El modelo detecta correctamente un objeto y su ubicación.
  • Falso positivo (FP): El modelo hizo una detección, pero era incorrecta.
  • Falso negativo (FN): Objeto que estaba realmente presente en la imagen, pero que el modelo no detectó.
  • Verdadero negativo (NT): Los verdaderos negativos se producen cuando el modelo identifica correctamente la ausencia de un objeto.

Los verdaderos negativos no se suelen utilizar en la detección de objetos, ya que normalmente ignoramos las muchas regiones vacías de una imagen. Sin embargo, es esencial en otras tareas de visión por ordenador, como la clasificación de imágenes, en las que el modelo asigna una etiqueta a la imagen. Por ejemplo, si la tarea consiste en detectar si una imagen contiene un gato o no, y el modelo identifica correctamente "no hay gato" cuando la imagen no lo contiene, se trata de un verdadero negativo.

Fig. 2. Resultados de la clasificación en una matriz de confusión. Imagen del autor.

Intersección sobre Unión (IoU)

Otra métrica vital para evaluar los modelos de detección de objetos es la Intersección sobre Unión (IoU). Para estos modelos de IA de visión, no basta con detectar la presencia de un objeto en una imagen; también es necesario localizar dónde se encuentra en una imagen para dibujar cuadros delimitadores. 

La métrica IoU mide el grado de coincidencia entre la caja predicha por el modelo y la caja real correcta (verdad sobre el terreno). La puntuación oscila entre 0 y 1, donde 1 significa una coincidencia perfecta y 0 ninguna coincidencia.

Por ejemplo, un IoU más alto (como 0,80 o 0,85) significa que el recuadro predicho coincide con el recuadro real, lo que indica una localización precisa. Un IoU más bajo (como 0,30 o 0,25) significa que el modelo no ha localizado el objeto con precisión.

Para determinar si una detección es correcta, utilizamos distintos umbrales. Un umbral común de IoU es 0,5, lo que significa que un recuadro predicho debe solaparse con el recuadro real en al menos un 50% para que se considere un verdadero positivo. Cualquier solapamiento por debajo de este umbral se considera un falso positivo.

Fig 3. Entender la intersección sobre la unión. Imagen del autor.

Precisión y recuperación

Hasta ahora, hemos explorado algunas métricas básicas de evaluación para comprender el rendimiento de los modelos de detección de objetos. A partir de ahí, dos de las métricas más importantes son la precisión y la recuperación. Nos dan una idea clara de la precisión de las detecciones del modelo. Veamos en qué consisten.

Los valores de precisión nos indican cuántas de las predicciones del modelo eran realmente correctas. Responde a la pregunta: de todos los objetos que el modelo pretendía detectar, ¿cuántos estaban realmente ahí?

Por otro lado, los valores de recuperación miden lo bien que el modelo encuentra todos los objetos reales presentes en la imagen. Responde a la pregunta: de todos los objetos reales presentes, ¿cuántos detectó correctamente el modelo?

Juntas, la precisión y la recuperación nos dan una idea más clara del rendimiento de un modelo. Por ejemplo, si un modelo predice 10 coches en una imagen y 9 de ellos son efectivamente coches, tiene una precisión del 90% (una predicción positiva). 

Estas dos métricas de evaluación a menudo implican un compromiso: un modelo puede alcanzar un valor de precisión elevado realizando únicamente predicciones en las que confíe plenamente, pero esto puede hacer que pase por alto muchos objetos, lo que reduce el nivel de recall. Por otro lado, también puede alcanzar un valor de recall muy alto prediciendo un cuadro delimitador en casi todas partes, pero esto reduciría la precisión.

Fig. 4. Precisión y recuperación. Imagen del autor.

Precisión media

Mientras que la precisión y la recuperación nos ayudan a comprender el rendimiento de un modelo en predicciones individuales, la precisión media (AP) puede proporcionar una visión más amplia. Ilustra cómo cambia la precisión del modelo a medida que intenta detectar más objetos y resume su rendimiento en una sola cifra.

Para calcular la puntuación media de precisión, podemos crear primero una métrica combinada de tipo gráfico denominada curva de precisión-recuerdo (o curva PR) para cada tipo de objeto. Esta curva muestra lo que ocurre a medida que el modelo realiza más predicciones. 

Consideremos un escenario en el que el modelo empieza detectando sólo los objetos más fáciles o más obvios. En esta fase, la precisión es alta porque la mayoría de las predicciones son correctas, pero la recuperación es baja porque se siguen pasando por alto muchos objetos. A medida que el modelo intenta detectar más objetos, incluidos los más difíciles o raros, suele introducir más errores. Esto hace que disminuya la precisión y aumente la recuperación.

La precisión media es el área bajo la curva (AUC de la curva PR). Un área mayor significa que el modelo es mejor a la hora de mantener la precisión de sus predicciones, incluso cuando detecta más objetos. El AUC se calcula por separado para cada etiqueta de clase. 

Por ejemplo, en un modelo que puede detectar coches, bicicletas y peatones, podemos calcular los valores AP individualmente para cada una de esas tres categorías. Esto nos ayuda a ver qué objetos detecta bien el modelo y en qué aspectos aún podría necesitar mejoras.

Fig. 5. Curva PR para cinco clases diferentes.(Fuente)

Precisión media

Tras calcular la precisión media de cada clase de objetos, necesitamos una única puntuación que refleje el rendimiento global del modelo en todas las clases. Para ello se utiliza la fórmula de precisión media . Esta fórmula calcula la media de las puntuaciones AP de cada categoría.

Por ejemplo, supongamos que un modelo de visión por ordenador como YOLO11 consigue un PA de 0,827 para los coches, 0,679 para las motos, 0,355 para los camiones, 0,863 para los autobuses y 0,982 para las bicicletas. Utilizando la fórmula mAP, podemos sumar estas cifras y dividirlas por el número total de clases de la siguiente manera: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

La puntuación mAP de 0,743 ofrece una solución sencilla para juzgar el rendimiento del modelo en todas las clases de objetos. Un valor cercano a 1 significa que el modelo es preciso para la mayoría de las categorías, mientras que un valor inferior sugiere que tiene dificultades con algunas.

Importancia de AP y mAP en la visión por ordenador

Ahora que comprendemos mejor cómo se calculan el AP y el mAP y cuáles son sus componentes, a continuación se ofrece una visión general de su importancia en la visión por ordenador:

  • Bajo AP para una clase específica: Un PA bajo para una sola clase suele significar que el modelo tiene dificultades con esa clase específica de objeto. Esto puede deberse a datos de entrenamiento insuficientes o a problemas visuales en las imágenes, como la oclusión.
  • Errores de localización: Un valor de mAP más alto en un umbral de IoU más bajo (como mAP@0.50) combinado con un descenso significativo en un umbral de IoU más alto (como mAP@0.75) indica que el modelo puede detectar objetos pero tiene dificultades para localizarlos con precisión.
  • Sobreajuste: Un valor de mAP más alto en el conjunto de datos de entrenamiento pero más bajo en el conjunto de datos de validación es un signo de sobreajuste, lo que hace que el modelo no sea fiable para las nuevas imágenes.

Aplicaciones reales de la precisión media

A continuación, vamos a explorar cómo métricas clave como mAP pueden ayudar a la hora de construir casos de uso de visión por ordenador en el mundo real.

Vehículos autónomos: Por qué un valor mAP más alto significa carreteras más seguras

Cuando se trata de coches autónomos, la detección de objetos es crucial para identificar peatones, señales de tráfico, ciclistas y marcas viales. Por ejemplo, si de repente un niño cruza la calle corriendo, el coche tiene segundos para detectar el objeto (el niño), localizar dónde está, seguir su movimiento y tomar las medidas necesarias (frenar). 

Modelos como YOLO11 están diseñados para la detección de objetos en tiempo real en estos escenarios de alto riesgo. En estos casos, el mAP se convierte en una medida crítica de seguridad.

Una puntuación mAP alta garantiza que el sistema detecta al niño rápidamente, lo localiza con precisión y activa el frenado con un retraso mínimo. Un mAP bajo puede significar que no se detecta o que se producen errores de clasificación peligrosos, como confundir al niño con otro objeto pequeño.

Fig. 6. Ejemplo de utilización de YOLO11 para detectar peatones en la calzada.(Fuente.)

Utilización de mAP para la detección precisa de productos

Del mismo modo, en el comercio minorista, los modelos de detección de objetos pueden utilizarse para automatizar tareas como el control de existencias y los procesos de caja. Cuando un cliente escanea un producto en una caja automática, un error de detección puede causar frustración.

Una puntuación mAP alta garantiza que el modelo distingue con precisión entre productos similares y dibuja recuadros delimitadores precisos, incluso cuando los artículos están muy empaquetados. Una puntuación mAP baja puede dar lugar a confusiones. Por ejemplo, si el modelo confunde una botella de zumo de naranja con una botella de zumo de manzana visualmente similar, podría dar lugar a una facturación incorrecta y a informes de inventario inexactos.

Los sistemas minoristas integrados con modelos como YOLO11 pueden detectar productos en tiempo real, cotejarlos con el inventario y actualizar los sistemas backend al instante. En los comercios minoristas, donde el ritmo es frenético, mAP desempeña un papel crucial para que las operaciones sean precisas y fiables.

Mejora de la precisión diagnóstica con alta mAP en asistencia sanitaria

La mejora de la precisión diagnóstica en la atención sanitaria empieza por una detección precisa en las imágenes médicas. Modelos como YOLO11 pueden ayudar a los radiólogos a detectar tumores, fracturas u otras anomalías en esas exploraciones médicas. En este caso, la precisión media es una métrica esencial para evaluar la fiabilidad clínica de un modelo.

Un mAP alto indica que el modelo consigue tanto una alta recuperación (identificar los problemas más reales) como una alta precisión (evitar falsas alarmas), lo que es crucial en la toma de decisiones clínicas. Además, el umbral de IoU en sanidad suele fijarse muy alto (0,85 o 0,90) para garantizar una detección extremadamente precisa.

Sin embargo, una puntuación mAP baja puede plantear problemas. Supongamos que un modelo no detecta un tumor; podría retrasar el diagnóstico o conducir a un tratamiento incorrecto. 

Ventajas e inconvenientes del uso del mAP

He aquí las principales ventajas de utilizar la precisión media para evaluar los modelos de detección de objetos:

  • Métrica estandarizada: mAP es la norma del sector para evaluar los modelos de detección de objetos. Un valor mAP permite realizar comparaciones justas y coherentes entre distintos modelos.
  • Refleja el rendimiento en el mundo real: Un mAP alto indica que el modelo destaca en la detección de varias clases de objetos y mantiene un rendimiento sólido en escenarios complejos del mundo real.
  • Diagnóstico por clases: La puntuación mAP evalúa el rendimiento de detección de cada clase individualmente. Esto facilita la identificación de categorías de bajo rendimiento (como bicicletas o señales de tráfico) y el ajuste del modelo en consecuencia.

Aunque el uso de la métrica mAP tiene varias ventajas, hay que tener en cuenta algunas limitaciones. He aquí algunos factores a tener en cuenta:

  • Dificultad para las partes interesadas no tecnológicas: Los equipos empresariales o clínicos pueden considerar abstractos los valores mAP, a diferencia de otras métricas más intuitivas y fáciles de entender.
  • No refleja las limitaciones del tiempo real: mAP no tiene en cuenta la velocidad de inferencia ni la latencia, que son cruciales para el despliegue en aplicaciones sensibles al tiempo.

Principales conclusiones

Hemos visto que la precisión media no es sólo una puntuación técnica, sino un reflejo del rendimiento potencial de un modelo en el mundo real. Ya sea en un sistema de vehículo autónomo o en una caja de un comercio, una puntuación mAP alta sirve como indicador fiable del rendimiento y la preparación práctica de un modelo.

Aunque la mAP es una métrica esencial y de gran impacto, debe considerarse parte de una estrategia de evaluación completa. Para aplicaciones críticas como la asistencia sanitaria y la conducción autónoma, no basta con basarse únicamente en la mAP. 

También deben tenerse en cuenta otros factores, como la velocidad de inferencia (rapidez con la que el modelo realiza predicciones), el tamaño del modelo (impacto en el despliegue en dispositivos periféricos) y el análisis cualitativo de errores (comprensión de los tipos de errores que comete el modelo), para garantizar que el sistema es seguro, eficiente y realmente adecuado para el fin previsto.

Únase a nuestra creciente comunidad y a nuestro repositorio de GitHub para obtener más información sobre la visión por ordenador. Explore nuestras páginas de soluciones para conocer las aplicaciones de la visión por ordenador en la agricultura y la IA en la logística. Echa un vistazo a nuestras opciones de licencia para empezar hoy mismo con tu propio modelo de visión por computador.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles