Yolo Vision Shenzhen
Shenzhen
Únete ahora

Cómo mejorar mAP del modelo mAP objetos pequeños: guía rápida

Aprenda a mejorar mAP del modelo mAP objetos pequeños con consejos prácticos sobre calidad de los datos, aumento, estrategias de entrenamiento, evaluación e implementación.

A medida que sigue creciendo la adopción de la inteligencia artificial (IA), el aprendizaje automático y la visión artificial, los sistemas de detección de objetos se utilizan en todas partes, desde cámaras de tráfico inteligentes hasta drones y herramientas de análisis minorista. A menudo, se espera que estos sistemas detect de todos los tamaños, ya sea un camión grande cerca de la cámara o un pequeño peatón a gran distancia.

Por lo general, detectar objetos grandes y claramente visibles es más sencillo. Por el contrario, detectar objetos pequeños es más complicado.

Cuando un objeto ocupa solo una pequeña parte de la imagen, hay muy poca información visual con la que trabajar. Un peatón lejano en una transmisión de tráfico o un vehículo pequeño capturado desde una vista aérea pueden contener solo unos pocos píxeles, pero esos píxeles pueden contener información crítica. 

Los modelos de visión artificial, comoYOLO Ultralytics , se basan en patrones visuales para reconocer objetos, y cuando esos patrones son limitados o poco claros, el rendimiento se ve afectado. Durante el procesamiento se pueden perder detalles importantes, lo que hace que las predicciones sean más sensibles a los errores de localización. Incluso un ligero desplazamiento en un cuadro delimitador puede convertir una detección correcta en una errónea.

Esta diferencia se hace evidente cuando analizamos el rendimiento de los modelos. La mayoría de los modelos de detección y segmentación gestionan bien los objetos medianos y grandes, pero los objetos pequeños suelen reducir la precisión general.

El rendimiento del aprendizaje profundo se mide normalmente utilizando la precisión media, o mAP. Esta métrica refleja tanto la precisión de las detecciones como la coincidencia entre los recuadros predichos y los objetos reales. 

Combina la precisión, que muestra cuántos objetos predichos son correctos, y la recuperación, que muestra cuántos objetos reales se detectan correctamente, en diferentes niveles de confianza y umbrales de intersección sobre unión, o IoU una métrica que mide cuánto se superpone el cuadro delimitador predicho con el cuadro de la verdad fundamental).

Anteriormente, hemos explorado la detección de objetos pequeños y por qué es un problema tan difícil para los modelos de visión artificial. En este artículo, partiremos de esa base y nos centraremos en cómo mejorar mAP hay objetos pequeños involucrados. ¡Empecemos!

¿Por qué los objetos pequeños son más difíciles de detect?

En lo que respecta a las aplicaciones que utilizan detectores de objetos, un objeto pequeño se define por el espacio que ocupa en una imagen, no necesariamente por lo pequeño que parece al ojo humano. Si solo ocupa una pequeña parte de la imagen, contiene muy poca información visual, lo que dificulta su detect por parte de un algoritmo de visión artificial.

Fig. 1. Imágenes de ejemplo que muestran objetos pequeños que ocupan áreas de píxeles limitadas (Fuente)

Al tener menos píxeles con los que trabajar, detalles importantes como los bordes, las formas y las texturas pueden resultar poco claros o perderse fácilmente. A medida que el modelo procesa la imagen, esta se redimensiona y simplifica para resaltar los patrones útiles. 

Si bien esto ayuda al modelo a comprender la escena en su conjunto, también puede reducir aún más los detalles finos. En el caso de los objetos pequeños, esos detalles suelen ser esenciales para una detección correcta.

Estos retos se hacen aún más evidentes cuando se analizan los parámetros de evaluación. Los objetos pequeños son especialmente sensibles a los errores de localización. Incluso un cuadro delimitador ligeramente desalineado puede quedar por debajo del umbral requerido de intersección sobre unión ( IoU). 

Cuando eso ocurre, una predicción que parece razonable puede considerarse incorrecta. Esto reduce tanto la precisión como la recuperación, lo que en última instancia reduce la precisión media, o mAP.

Dado que estos factores están estrechamente relacionados, para mejorar el rendimiento a menudo es necesario tener en cuenta el sistema en su conjunto. Esto significa equilibrar cuidadosamente la resolución de la imagen, la extracción de características, el diseño del modelo y los ajustes de evaluación, de modo que los pequeños detalles visuales se conserven e interpreten mejor.

La importancia de la calidad de los conjuntos de datos y las anotaciones

Cuando se trata de la detección de objetos pequeños, la calidad de un conjunto de datos suele marcar la mayor diferencia en el rendimiento. Los objetos pequeños ocupan solo una pequeña parte de una imagen, lo que significa que hay muy poca información visual disponible para que el modelo aprenda. Por ello, los datos de entrenamiento cobran especial importancia. Si el conjunto de datos no incluye suficientes ejemplos claros y representativos, el modelo de detección de objetos tendrá dificultades para reconocer patrones consistentes.

Los conjuntos de datos que funcionan bien para la detección de objetos pequeños suelen contener imágenes de alta resolución, apariciones frecuentes de objetivos pequeños y condiciones visuales consistentes. Aunque los conjuntos de datos genéricos, como el COCO , son puntos de partida útiles, a menudo no se ajustan a la escala, la densidad o el contexto de casos de uso específicos del mundo real. En tales casos, es necesario recopilar datos de entrenamiento específicos del dominio para mejorar el rendimiento del modelo.

La calidad de las anotaciones también desempeña un papel fundamental. Las anotaciones establecen la verdad fundamental al especificar las etiquetas correctas de los objetos y las ubicaciones de los cuadros delimitadores que el modelo aprende a predecir.

En el caso de los objetos pequeños, los cuadros delimitadores deben dibujarse con cuidado y de forma coherente. Incluso pequeñas diferencias en la colocación de los cuadros pueden afectar notablemente a la precisión de la localización, ya que los objetos pequeños son muy sensibles a los desplazamientos a nivel de píxeles.

Las anotaciones deficientes o inconsistentes pueden reducir significativamente mAP. Si los objetos están mal etiquetados, el modelo aprende patrones incorrectos, lo que puede aumentar los falsos positivos. 

Si aparecen objetos en la imagen pero no están presentes en la realidad, las detecciones correctas pueden contabilizarse como falsos positivos durante la evaluación. Ambas situaciones reducen el rendimiento general.

Curiosamente, investigaciones recientes indican que la precisión media para objetos pequeños suele situarse entre el 20 % y el 40 % en los puntos de referencia estándar, lo que es significativamente inferior al de los objetos más grandes. Esta diferencia pone de relieve la importancia del diseño de los conjuntos de datos y la coherencia de las anotaciones en la precisión general de la detección.

El aumento de datos puede desempeñar un papel clave en la mejora de la precisión.

Ahora que comprendemos mejor la importancia de la calidad de los conjuntos de datos y la coherencia de las anotaciones, veamos cómo un modelo de detección de objetos puede aprender de forma más eficaz a partir de los datos existentes. Aunque recopilar imágenes adicionales resulte difícil o costoso, existen formas de mejorar el rendimiento aprovechando mejor los datos ya disponibles.

Uno de los enfoques más prácticos es el aumento de datos. Tiene un papel especialmente importante en la detección de objetos pequeños, ya que estos proporcionan menos pistas visuales para que el modelo aprenda. Al introducir variaciones controladas durante el entrenamiento, el aumento ayuda al modelo a generalizar mejor sin necesidad de recopilar nuevos datos.

El aumento eficaz de datos se centra en mantener los objetos pequeños claramente visibles. Técnicas como el cambio de tamaño controlado, el recorte ligero y el mosaico de imágenes pueden hacer que los objetos pequeños destaquen más, al tiempo que conservan su forma y apariencia. El objetivo es ayudar al modelo a ver los objetos pequeños con más frecuencia y en condiciones ligeramente diferentes, sin cambiar su aspecto en situaciones reales. 

Sin embargo, el aumento debe aplicarse con cuidado. Algunas transformaciones pueden reducir la visibilidad de objetos pequeños o cambiar su apariencia de formas que probablemente no se darían en datos reales. Cuando esto ocurre, el modelo puede tener dificultades para aprender los límites precisos de los objetos.

Aumento de datos más inteligente con IA generativa

Otro tipo interesante de aumento de datos que está ganando popularidad es el uso de IA generativa para crear datos de entrenamiento sintéticos. En lugar de depender de imágenes recopiladas y etiquetadas manualmente, los equipos ahora pueden generar escenas realistas que simulan entornos específicos, tamaños de objetos, condiciones de iluminación y variaciones de fondo.

Fig. 2. Imágenes aéreas sintéticas utilizadas para el aumento de datos (Fuente)

Este enfoque resulta especialmente útil para la detección de objetos pequeños, donde puede resultar difícil capturar ejemplos del mundo real de forma coherente. Al controlar cómo aparecen los objetos pequeños en las imágenes sintéticas, por ejemplo, ajustando la escala, la densidad y la ubicación, es posible exponer los modelos a una gama más amplia de escenarios de entrenamiento. 

Cuando se combina cuidadosamente con datos reales, el aumento sintético puede mejorar la solidez del modelo, reducir los costes de recopilación de datos y respaldar mejoras de rendimiento más específicas.

Opciones de entrenamiento de modelos que pueden afectar mAP de objetos pequeños

Además de la calidad del conjunto de datos y la coherencia de las anotaciones, las opciones de entrenamiento del modelo también tienen un fuerte impacto en el rendimiento de la detección de objetos pequeños.

Estas son algunas de las estrategias clave de formación que hay que tener en cuenta:

  • Comience con modelos preentrenados: un modelo preentrenado, como Ultralytics , ya ha aprendido patrones visuales generales a partir de grandes conjuntos de datos de imágenes. Esto proporciona un punto de partida sólido en lugar de entrenar desde cero, lo que resulta especialmente útil a la hora de detectar objetos pequeños con datos limitados.
  • Utiliza el aprendizaje por transferencia de forma estratégica: el aprendizaje por transferencia consiste en adaptar un modelo preentrenado a tu conjunto de datos específico. Ayuda al modelo a centrarse en tus objetos pequeños y reduce el sobreajuste (memorizar los datos de entrenamiento en lugar de aprender patrones generales).
  • Abordar el desequilibrio entre clases: si los objetos pequeños aparecen con menos frecuencia que los grandes, el modelo puede dar prioridad al aprendizaje de los objetos más grandes. Técnicas como la ponderación de clases o las estrategias de muestreo ayudan a garantizar que los objetos pequeños no se ignoren.
  • Ajuste IoU de confianza e IoU : los objetos pequeños son sensibles a pequeños errores de localización. El ajuste fino de estos umbrales ayuda a evaluar e interpretar mejor el rendimiento de los objetos pequeños durante la validación y la inferencia.

Consideraciones sobre la arquitectura del modelo para la detección de objetos pequeños

Aunque se puede utilizar un modelo general de detección de objetos para tareas con objetos pequeños, también existen arquitecturas de modelos diseñadas específicamente para mejorar la detección de objetos pequeños. Por ejemplo, existen variantes del modelo P2 de Ultralytics YOLOv8 que están optimizadas para preservar los detalles espaciales más precisos.

YOLOv8 imágenes a múltiples escalas reduciéndolas gradualmente a medida que avanzan por la red. Esto ayuda al modelo a comprender la escena en su conjunto, pero también reduce los detalles más precisos.

Cuando un objeto ya es muy pequeño, la información visual importante puede desaparecer durante este proceso. La variante P2 de Ultralytics YOLOv8 este problema utilizando un paso de 2 en su pirámide de características. 

Una pirámide de características es la parte del modelo que analiza la imagen en múltiples resoluciones internas para poder detect de diferentes tamaños. Con un paso de 2, la imagen se reduce más gradualmente en esta etapa, lo que permite conservar más detalles del nivel de píxeles original. 

Al conservarse más detalles espaciales, los objetos pequeños mantienen una estructura más visible dentro de la red. Esto facilita que el modelo localice y detect que ocupan solo unos pocos píxeles, lo que puede ayudar a mejorar mAP de los objetos pequeños.

Evaluación basada en el tamaño para la detección de objetos pequeños

Si bien la precisión media resume el rendimiento general del modelo, no siempre muestra cómo maneja un modelo objetos de diferentes tamaños. En el caso de los objetos pequeños, el rendimiento suele verse limitado por la precisión de la localización más que por la clasificación sola, lo que significa que pequeños desplazamientos del cuadro delimitador pueden afectar significativamente a los resultados.

En otras palabras, el modelo puede identificar correctamente la clase del objeto, pero si el cuadro delimitador previsto está ligeramente desalineado, la detección puede seguir considerándose incorrecta. Dado que los objetos pequeños solo cubren un número reducido de píxeles, incluso un pequeño desplazamiento en la ubicación del cuadro puede reducir significativamente la superposición entre el cuadro previsto y la realidad. Como resultado, las puntuaciones de la evaluación pueden bajar incluso cuando el objeto se ha identificado correctamente.

Fig. 3. Evaluar la detección de objetos pequeños puede resultar complicado (Fuente)

Un enfoque más informativo consiste en evaluar el rendimiento por tamaño de objeto. Los benchmarks más utilizados informan de la precisión media por separado para objetos pequeños, medianos y grandes. 

Este desglose específico por tamaño ofrece una visión más clara de los aspectos en los que el modelo funciona bien y aquellos en los que tiene dificultades. En la práctica, AP de objetos pequeños suele quedarse atrás con respecto mAP general, lo que pone de relieve los retos de localización que pueden no ser evidentes en las métricas agregadas.

Tenga en cuenta las limitaciones de implementación y las compensaciones del mundo real.

El rendimiento del modelo suele cambiar al pasar de entornos de prueba controlados a implementaciones en el mundo real. Factores como la resolución de imagen, la velocidad de procesamiento y el hardware disponible introducen compensaciones que afectan directamente a la detección de objetos pequeños.

Por ejemplo, aumentar la resolución de entrada puede mejorar mAP de objetos pequeños, mAP los objetivos pequeños ocupan más píxeles y conservan más detalles. Sin embargo, una mayor resolución también aumenta el uso de memoria y el tiempo de procesamiento. Esto puede ralentizar la inferencia y aumentar los costes operativos.

Fig. 4. Retos en la implementación de la detección de objetos pequeños. Imagen del autor.

La elección del hardware desempeña un papel fundamental a la hora de gestionar estas compensaciones. Las GPU más potentes permiten modelos más grandes y un procesamiento más rápido, pero los entornos de implementación, especialmente los dispositivos periféricos, suelen tener recursos informáticos y de memoria limitados. 

Las aplicaciones en tiempo real añaden otra limitación: mantener una latencia baja puede requerir reducir el tamaño del modelo o la resolución de entrada, lo que puede afectar negativamente a la recuperación de objetos pequeños. En última instancia, las decisiones de implementación requieren equilibrar el rendimiento de la detección con las limitaciones del hardware, los requisitos de velocidad y el coste total. 

Poniendo todo junto: Mejorando mAP del modelo mAP objetos pequeños

La mejora de la detección de objetos pequeños requiere un enfoque práctico y estructurado, especialmente cuando se trabaja en entornos reales. A continuación se ofrece una descripción general de los principales pasos que hay que tener en cuenta:

  • Audite la calidad de su conjunto de datos: asegúrese de que su conjunto de datos incluya suficientes ejemplos de objetos pequeños, utilice imágenes de alta resolución siempre que sea posible y refleje las condiciones en las que se implementará el modelo.
  • Verificar la coherencia de las anotaciones: Asegurarse de que los recuadros delimitadores sean precisos, completos y estén etiquetados de manera coherente. Las anotaciones incoherentes pueden limitar directamente el rendimiento de la localización.
  • Ajuste deliberadamente la configuración del entrenamiento: ajuste cuidadosamente el tamaño del lote, el número de épocas y la configuración de optimización para que los objetos pequeños se representen correctamente durante el entrenamiento.
  • Repita paso a paso: realice ajustes controlados, mida su impacto y perfeccione su enfoque. La iteración constante y basada en datos conduce a una mejora constante a lo largo del tiempo.

Conclusiones clave

Para mejorar mAP objetos pequeños se necesita un enfoque estructurado y basado en datos, en lugar de ajustes aleatorios. Las mejoras reales se consiguen combinando buenos datos, anotaciones coherentes, una formación cuidadosa y los métodos de evaluación adecuados. En los proyectos del mundo real, las pruebas constantes y los cambios pequeños y medibles son los que conducen a una detección de objetos pequeños mejor y más fiable con el tiempo.

Únase a nuestra comunidad en crecimiento y explore nuestro repositorio GitHub para obtener recursos prácticos sobre IA. Para empezar a crear con IA visual hoy mismo, explore nuestras opciones de licencia. Descubra cómo la IA en la agricultura está transformando el sector y cómo la IA visual en robótica está dando forma al futuro visitando nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis