Precisión media promedio (mAP) en la detección de objetos
Entiende la precisión media promedio (mAP) en la detección de objetos. Aprende su significado, cálculo y por qué mAP es clave para evaluar el rendimiento del modelo.

La adopción de la IA crece rápidamente y se está integrando en diversas innovaciones, desde vehículos autónomos hasta sistemas minoristas que pueden identificar productos en una estantería. Estas tecnologías se basan en la visión artificial, una rama de la inteligencia artificial (IA) que permite a las máquinas analizar datos visuales.
Una métrica de evaluación clave utilizada para medir la precisión de los sistemas y algoritmos de visión artificial es la precisión media promedio (mAP). La métrica mAP indica qué tan cerca está la predicción de un modelo de visión por IA de los resultados del mundo real.
Una tarea común de visión artificial es la detección de objetos, donde un modelo identifica múltiples objetos en una imagen y dibuja cuadros delimitadores alrededor de ellos. La mAP es la métrica estándar utilizada para evaluar el rendimiento de los modelos de detección de objetos y se utiliza ampliamente para realizar pruebas comparativas de modelos de aprendizaje profundo como Ultralytics YOLO11.
En este artículo, veremos cómo se calcula la precisión media promedio y por qué es esencial para cualquiera que entrene o evalúe modelos de detección de objetos. ¡Empecemos!
Link to this section¿Qué es la precisión media promedio (mAP)?#
La precisión media promedio es una puntuación que muestra qué tan preciso es un modelo de aprendizaje profundo cuando se trata de tareas relacionadas con la recuperación de información visual, como detectar e identificar diferentes objetos en una imagen. Por ejemplo, considera un modelo de detección de objetos que analiza una foto que contiene un perro, un gato y un coche. Un modelo fiable puede realizar la detección de objetos reconociendo cada objeto y dibujando cuadros delimitadores y etiquetas a su alrededor, resaltando dónde está y qué es.
La mAP indica qué tan bien realiza el modelo esta tarea en muchas imágenes y diferentes tipos de objetos. Comprueba si el modelo identifica con precisión cada objeto y su ubicación dentro de la imagen. La puntuación oscila entre 0 y 1, donde uno significa que el modelo encontró todo perfectamente y cero significa que no pudo detectar ningún objeto.
Link to this sectionConceptos clave en la precisión media promedio (mAP)#
Antes de explorar los conceptos detrás de la precisión media promedio en el aprendizaje automático, comprendamos mejor dos términos básicos: verdad fundamental (ground truth) y predicciones.
La verdad fundamental (ground truth) se refiere a los datos de referencia precisos, donde los objetos y sus ubicaciones en la imagen están cuidadosamente etiquetados por humanos a través de un proceso conocido como anotación. Mientras tanto, las predicciones son los resultados que proporcionan los modelos de IA después de analizar una imagen. Al comparar las predicciones del modelo de IA con la verdad fundamental, podemos medir qué tan cerca estuvo el modelo de obtener los resultados correctos.

Fig 1. Los cuadros delimitadores de la predicción del modelo y la verdad fundamental. Imagen del autor.
Link to this sectionMatriz de confusión#
A menudo se utiliza una matriz de confusión para comprender qué tan preciso es un modelo de detección de objetos. Es una tabla que muestra cómo las predicciones del modelo coinciden con las respuestas correctas reales (verdad fundamental). A partir de esta tabla, podemos obtener un desglose de cuatro componentes o resultados clave: verdaderos positivos, falsos positivos, falsos negativos y verdaderos negativos.
Aquí tienes lo que representan estos componentes en la matriz de confusión:
- Verdadero positivo (TP): Un objeto y su ubicación son detectados correctamente por el modelo.
- Falso positivo (FP): El modelo realizó una detección, pero fue incorrecta.
- Falso negativo (FN): Un objeto que estaba realmente presente en la imagen, pero el modelo no pudo detectarlo.
- Verdadero negativo (TN): Los verdaderos negativos ocurren cuando el modelo identifica correctamente la ausencia de un objeto.
Los verdaderos negativos no se usan comúnmente en la detección de objetos, ya que normalmente ignoramos las muchas regiones vacías en una imagen. Sin embargo, es esencial en otras tareas de visión artificial, como la clasificación de imágenes, donde el modelo asigna una etiqueta a la imagen. Por ejemplo, si la tarea es detectar si una imagen contiene un gato o no, y el modelo identifica correctamente "no hay gato" cuando la imagen no lo contiene, eso es un verdadero negativo.

Fig 2. Resultados de clasificación en una matriz de confusión. Imagen del autor.
Link to this sectionIntersección sobre Unión (IoU)#
Otra métrica vital para evaluar modelos de detección de objetos es la Intersección sobre Unión (IoU). Para tales modelos de visión por IA, simplemente detectar la presencia de un objeto en una imagen no es suficiente; también necesita localizar dónde está en una imagen para dibujar cuadros delimitadores.
La métrica IoU mide qué tan cerca coincide el cuadro predicho por el modelo con el cuadro real y correcto (verdad fundamental). La puntuación está entre 0 y 1, donde 1 significa una coincidencia perfecta y 0 significa que no hay superposición en absoluto.
Por ejemplo, una IoU más alta (como 0,80 o 0,85) significa que el cuadro predicho es una coincidencia cercana con el cuadro de la verdad fundamental, lo que indica una localización precisa. Una IoU más baja (como 0,30 o 0,25) significa que el modelo no localizó el objeto con precisión.
Para determinar si una detección es exitosa, utilizamos diferentes umbrales. Un umbral de IoU común es 0,5, lo que significa que un cuadro predicho debe superponerse con el cuadro de la verdad fundamental al menos en un 50% para ser contado como un verdadero positivo. Cualquier superposición por debajo de este umbral se considera un falso positivo.

Fig 3. Entendiendo la Intersección sobre Unión. Imagen del autor.
Link to this sectionPrecisión y exhaustividad (recall)#
Hasta ahora, hemos explorado algunas métricas de evaluación básicas para comprender el rendimiento de los modelos de detección de objetos. Sobre esta base, dos de las métricas más importantes son la precisión y la exhaustividad. Nos dan una imagen clara de qué tan precisas son las detecciones del modelo. Echemos un vistazo a qué son.
Los valores de precisión nos dicen cuántas de las predicciones del modelo fueron realmente correctas. Responde a la pregunta: de todos los objetos que el modelo afirmó detectar, ¿cuántos estaban realmente allí?
Los valores de exhaustividad (recall), por otro lado, miden qué tan bien encuentra el modelo todos los objetos reales presentes en la imagen. Responde a la pregunta: de todos los objetos reales presentes, ¿cuántos detectó correctamente el modelo?
Juntos, la precisión y la exhaustividad nos dan una imagen más clara del rendimiento de un modelo. Por ejemplo, si un modelo predice 10 coches en una imagen y 9 de ellos son efectivamente coches, tiene una precisión del 90% (una predicción positiva).
Estas dos métricas de evaluación a menudo implican un compromiso: un modelo puede lograr un alto valor de precisión al realizar solo predicciones en las que tiene total confianza, pero esto puede hacer que pierda muchos objetos, lo que reduce el nivel de exhaustividad. Mientras tanto, también puede alcanzar una exhaustividad muy alta al predecir un cuadro delimitador en casi todas partes, pero esto reduciría la precisión.

Fig 4. Precisión y exhaustividad. Imagen del autor.
Link to this sectionPrecisión promedio#
Si bien la precisión y la exhaustividad nos ayudan a comprender cómo funciona un modelo en predicciones individuales, la precisión promedio (AP) puede proporcionar una visión más amplia. Ilustra cómo cambia la precisión del modelo a medida que intenta detectar más objetos y resume su rendimiento en un solo número.
Para calcular la puntuación de precisión promedio, primero podemos crear una métrica combinada similar a un gráfico llamada curva de precisión-exhaustividad (o curva PR) para cada tipo de objeto. Esta curva muestra lo que sucede a medida que el modelo realiza más predicciones.
Considera un escenario en el que el modelo comienza detectando solo los objetos más fáciles u obvios. En esta etapa, la precisión es alta porque la mayoría de las predicciones son correctas, pero la exhaustividad es baja ya que muchos objetos aún se pierden. A medida que el modelo intenta detectar más objetos, incluidos los más difíciles o raros, generalmente introduce más errores. Esto hace que la precisión disminuya mientras que la exhaustividad aumenta.
La precisión promedio es el área bajo la curva (AUC de la curva PR). Un área más grande significa que el modelo es mejor para mantener sus predicciones precisas, incluso cuando detecta más objetos. La AP se calcula por separado para cada etiqueta de clase.
Por ejemplo, en un modelo que puede detectar coches, bicicletas y peatones, podemos calcular los valores de AP individualmente para cada una de esas tres categorías. Esto nos ayuda a ver qué objetos detecta bien el modelo y dónde podría necesitar mejoras.

Fig 5. Una curva PR para cinco clases diferentes. (Fuente)
Link to this sectionPrecisión media promedio#
Después de calcular la precisión promedio para cada clase de objeto, todavía necesitamos una única puntuación que refleje el rendimiento general del modelo en todas las clases. Esto se puede lograr usando la fórmula de precisión media promedio. Promedia las puntuaciones de AP para cada categoría.
Por ejemplo, supongamos que un modelo de visión artificial como YOLO11 logra una AP de 0,827 para coches, 0,679 para motocicletas, 0,355 para camiones, 0,863 para autobuses y 0,982 para bicicletas. Usando la fórmula de mAP, podemos sumar estos números y dividir por el número total de clases de la siguiente manera:
mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743
La puntuación mAP de 0,743 proporciona una solución sencilla para juzgar qué tan bien funciona el modelo en todas las clases de objetos. Un valor cercano a 1 significa que el modelo es preciso para la mayoría de las categorías, mientras que un valor más bajo sugiere que tiene dificultades con algunas.
Link to this sectionImportancia de la AP y la mAP en la visión artificial#
Ahora que tenemos una mejor comprensión de cómo se calculan la AP y la mAP y cuáles son sus componentes, aquí tienes una descripción general de su importancia en la visión artificial:
-
AP baja para una clase específica: Una AP baja para una sola clase a menudo significa que el modelo tiene dificultades con esa clase de objeto específica. Esto puede deberse a datos de entrenamiento insuficientes o desafíos visuales en las imágenes, como la oclusión.
-
Errores de localización: Un valor de mAP más alto en un umbral de IoU más bajo (como mAP@0.50) combinado con una caída significativa en un umbral de IoU más alto (como mAP@0.75) indica que el modelo puede detectar objetos pero tiene dificultades para localizarlos con precisión.
-
Sobreajuste (overfitting): Un valor de mAP más alto en el conjunto de datos de entrenamiento pero un valor de mAP más bajo en el conjunto de datos de validación es una señal de sobreajuste, lo que hace que el modelo no sea confiable para imágenes nuevas.
Link to this sectionAplicaciones del mundo real de la precisión media promedio#
A continuación, exploremos cómo métricas clave como la mAP pueden ayudar al crear casos de uso de visión artificial en el mundo real.
Link to this sectionVehículos autónomos: por qué un valor de mAP más alto significa carreteras más seguras#
Cuando se trata de coches autónomos, la detección de objetos es crucial para identificar peatones, señales de tráfico, ciclistas y marcas de carril. Por ejemplo, si un niño cruza la calle repentinamente, el coche tiene segundos para detectar el objeto (niño), localizar dónde está, seguir su movimiento y tomar las medidas necesarias (frenar).
Modelos como YOLO11 están diseñados para la detección de objetos en tiempo real en escenarios de alto riesgo. En estos casos, la mAP se convierte en una medida crítica de seguridad.
Una puntuación mAP alta asegura que el sistema detecte al niño rápidamente, lo localice con precisión y active el frenado con un retraso mínimo. Una mAP baja puede significar detecciones perdidas o clasificaciones erróneas peligrosas, como confundir al niño con otro objeto pequeño.

Fig 6. Un ejemplo de YOLO11 siendo utilizado para detectar peatones en la carretera. (Fuente)
Link to this sectionUso de mAP para una detección precisa de productos#
Del mismo modo, en el comercio minorista, los modelos de detección de objetos se pueden usar para automatizar tareas como el monitoreo de existencias y los procesos de pago. Cuando un cliente escanea un producto en una caja de autoservicio, un error en la detección puede causar frustración.
Una puntuación mAP alta asegura que el modelo distinga con precisión entre productos similares y dibuje cuadros delimitadores precisos, incluso cuando los artículos están muy juntos. Una puntuación mAP baja puede provocar confusiones. Por ejemplo, si el modelo confunde una botella de zumo de naranja con una botella de zumo de manzana visualmente similar, podría resultar en una facturación incorrecta y informes de inventario inexactos.
Los sistemas minoristas integrados con modelos como YOLO11 pueden detectar productos en tiempo real, verificarlos con el inventario y actualizar los sistemas backend al instante. En entornos minoristas de ritmo rápido, la mAP juega un papel crucial para mantener las operaciones precisas y confiables.
Link to this sectionMejora de la precisión diagnóstica con una mAP alta en la atención sanitaria#
Mejorar la precisión diagnóstica en la atención sanitaria comienza con una detección precisa en imágenes médicas. Modelos como YOLO11 pueden ayudar a los radiólogos a detectar tumores, fracturas u otras anomalías a partir de esas exploraciones médicas. Aquí, la precisión media promedio es una métrica esencial para evaluar la confiabilidad clínica de un modelo.
Una mAP alta indica que el modelo logra tanto una alta exhaustividad (identificar la mayoría de los problemas reales) como una alta precisión (evitar falsas alarmas), lo cual es crucial en la toma de decisiones clínicas. Además, el umbral de IoU en la atención sanitaria a menudo se establece muy alto (0,85 o 0,90) para garantizar una detección extremadamente precisa.
Sin embargo, una puntuación mAP baja puede generar preocupaciones. Digamos que un modelo pasa por alto un tumor; podría retrasar el diagnóstico o conducir a un tratamiento incorrecto.
Link to this sectionPros y contras de usar mAP#
Aquí tienes las ventajas clave de usar la precisión media promedio para evaluar modelos de detección de objetos:
-
Métrica estandarizada: La mAP es el estándar de la industria para evaluar modelos de detección de objetos. Un valor de mAP permite comparaciones justas y consistentes entre diferentes modelos.
-
Refleja el rendimiento del mundo real: Una mAP alta indica que el modelo sobresale en la detección de diversas clases de objetos y mantiene un rendimiento sólido en escenarios complejos del mundo real.
-
Diagnósticos por clase: Una puntuación mAP evalúa el rendimiento de detección para cada clase individualmente. Esto facilita la identificación de categorías con bajo rendimiento (como bicicletas o señales de tráfico) y ajustar el modelo en consecuencia.
Si bien hay varios beneficios al usar la métrica mAP, hay algunas limitaciones a considerar. Aquí hay algunos factores a tener en cuenta:
-
Difícil para las partes interesadas no técnicas: Los equipos comerciales o clínicos pueden encontrar los valores de mAP abstractos, a diferencia de otras métricas más intuitivas y fáciles de entender.
-
No refleja las restricciones en tiempo real: La mAP no tiene en cuenta la velocidad de inferencia o la latencia, que son cruciales para la implementación en aplicaciones sensibles al tiempo.
Link to this sectionConclusiones clave#
Hemos visto que la precisión media promedio no es solo una puntuación técnica, sino un reflejo del rendimiento potencial del modelo en el mundo real. Ya sea en un sistema de vehículos autónomos o en una caja de pago minorista, una puntuación mAP alta sirve como un indicador confiable del rendimiento y la preparación práctica del modelo.
Aunque la mAP es una métrica esencial e impactante, debe considerarse como parte de una estrategia de evaluación bien equilibrada. Para aplicaciones críticas como la atención sanitaria y la conducción autónoma, no es suficiente confiar únicamente en la mAP.
También deben considerarse factores adicionales como la velocidad de inferencia (qué tan rápido realiza predicciones el modelo), el tamaño del modelo (que afecta la implementación en dispositivos periféricos) y el análisis cualitativo de errores (entender los tipos de errores que comete el modelo) para garantizar que el sistema sea seguro, eficiente y realmente apto para su propósito previsto.
Únete a nuestra creciente comunidad y repositorio de GitHub para obtener más información sobre visión artificial. Explora nuestras páginas de soluciones para aprender sobre aplicaciones de la visión artificial en la agricultura y IA en la logística. ¡Echa un vistazo a nuestras opciones de licencia para empezar hoy mismo con tu propio modelo de visión artificial!






