Exploración de la detección de objetos pequeños con YOLO11

Los drones integrados con Vision AI pueden volar a cientos de metros sobre el suelo y aún así detect persona que aparece como unos pocos píxeles en su transmisión de vídeo. De hecho, es un reto habitual en aplicaciones como la robótica, la vigilancia y la teledetección, donde los sistemas deben identificar objetos muy pequeños dentro de una imagen.

Sin embargo, los modelos tradicionales de detección de objetos pueden tener dificultades para hacerlo. Los objetos pequeños en imágenes y vídeos representan una información visual muy limitada. En pocas palabras, cuando un modelo los analiza, no hay muchos detalles que aprender o reconocer.

Bajo el capó, estos modelos suelen basarse en una arquitectura basada en redes neuronales convolucionales (CNN). Las imágenes pasan por capas de la red y se transforman en mapas de características o representaciones simplificadas que resaltan patrones relevantes en lugar de píxeles sin procesar.

A medida que la imagen se adentra en la red, estos mapas de características se vuelven más pequeños. Eso agiliza el cálculo, pero también implica que pueden desaparecer los detalles más sutiles.

En el caso de los objetos diminutos, esos detalles son cruciales. Una vez que esos detalles desaparecen, un modelo de visión artificial puede tener dificultades para detectar el objeto, lo que puede dar lugar a cuadros delimitadores menos precisos o inconsistentes.

Los sistemas de visión artificial integral en tiempo real complican aún más las cosas. Las imágenes de alta resolución ayudan a conservar los detalles, pero ralentizan la inferencia y requieren más GPU . Las resoluciones más bajas funcionan más rápido, pero los objetos pequeños se vuelven aún más difíciles de detect.

Se convierte en un equilibrio constante entre velocidad, precisión y límites del hardware. Gracias a los recientes avances tecnológicos, los modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics están diseñados para gestionar este equilibrio de forma más eficaz.

Fig. 1. Uso de YOLO11 detect objetos detect en imágenes aéreas (Fuente)

‍

En este artículo, exploraremos por qué es difícil detectar objetos pequeños y cómo YOLO11 facilitar esta tarea. ¡Empecemos!

¿Qué es la detección de objetos pequeños y por qué es importante?

La detección de objetos pequeños es una tarea de la visión artificial, una rama de la inteligencia artificial, que se centra en identificar y localizar objetos que ocupan una parte muy pequeña de una imagen. Estos objetos suelen estar representados en la imagen por un número limitado de píxeles, que son las unidades más pequeñas de una imagen digital. Esto hace que sean más difíciles de detect los objetivos más grandes y claros (que suelen contener más píxeles).

Por ejemplo, los vehículos en imágenes aéreas, las herramientas en una fábrica o las personas captadas por cámaras de vigilancia gran angular pueden aparecer como pequeños objetos dentro de la imagen. Detectarlos es importante porque a menudo contienen información crítica, y muchas aplicaciones del mundo real, como la vigilancia, dependen de estas detecciones para funcionar correctamente.

Cuando se pierden objetos pequeños, el rendimiento del sistema y la toma de decisiones pueden verse afectados. La supervisión mediante vehículos aéreos no tripulados (UAV) es un buen ejemplo, ya que pasar por alto un pequeño objeto en movimiento en el suelo puede afectar a la precisión de la navegación o el seguimiento.

Retos relacionados con la detección de objetos pequeños

Los sistemas anteriores utilizaban características artesanales y métodos tradicionales de visión por ordenador, que tenían dificultades en escenas concurridas o variadas. Incluso hoy en día, con modelos de aprendizaje profundo que funcionan mucho mejor, sigue siendo difícil detectar objetivos pequeños cuando solo ocupan una parte minúscula de la imagen.

A continuación, veamos algunos de los retos comunes que se presentan en diferentes situaciones reales a la hora de detectar objetos pequeños.

Tamaño, píxeles y pérdida de información

Los objetos pequeños contienen muy pocos píxeles, lo que limita la cantidad de detalles visuales que un modelo puede aprender durante etapas como la extracción de características. Como resultado, los patrones como los bordes, las formas y las texturas son más difíciles de detect, lo que hace que los objetos pequeños sean más propensos a mezclarse con el fondo.

A medida que las imágenes se mueven a través de las capas convolucionales de una red neuronal, la información visual de los píxeles se comprime gradualmente en mapas de características. Esto ayuda a que el modelo siga siendo eficiente, pero también significa que los detalles más sutiles se pierden.

Fig. 2. Los mapas de características representan patrones visuales en una imagen (Fuente)

‍

En el caso de objetivos pequeños, las señales importantes pueden desaparecer antes de que la red de detección tenga oportunidad de actuar. Cuando eso ocurre, la localización pierde fiabilidad y los recuadros delimitadores pueden desplazarse, solaparse o perder por completo los objetos objetivo.

Oclusión, variación de escala y contexto

Los retos relacionados con el tamaño también suelen surgir por la oclusión. La oclusión se produce cuando los objetos, especialmente los más pequeños, quedan parcialmente ocultos por otros objetos de la escena.

Esto reduce el área visible de un objetivo, lo que limita la información disponible para el detector de objetos. Incluso una pequeña oclusión puede confundir a las redes de detección, especialmente cuando se combina con una entrada de baja resolución. Un ejemplo interesante de esto se puede ver en conjuntos de datos de UAV como VisDrone, donde los peatones, las bicicletas o los vehículos pueden quedar parcialmente bloqueados por edificios, árboles u otros objetos en movimiento.

Fig. 3. Ejemplo del conjunto de datos VisDrone que muestra objetos pequeños (Fuente)

‍

Del mismo modo, la variación de escala introduce otra dificultad cuando el mismo objeto parece muy pequeño o relativamente grande dependiendo de la distancia y la posición de la cámara. A pesar de estos obstáculos, los algoritmos de detección deben reconocer estos pequeños objetos en diferentes escalas sin perder precisión.

El contexto también desempeña un papel importante en la detección. Por ejemplo, los objetos grandes suelen aparecer con un entorno claro que proporciona pistas visuales útiles. Por otro lado, los objetivos pequeños suelen carecer de esta información contextual, lo que dificulta el reconocimiento de patrones.

El problema oculto de la métrica en la detección de objetos pequeños

Las métricas de evaluación comunes, como la intersección sobre unión (IoU), miden el grado de coincidencia entre el cuadro delimitador predicho y el cuadro de referencia. Si bien IoU bien con objetos grandes, su comportamiento es muy diferente con objetos pequeños.

Los objetos pequeños ocupan solo unos pocos píxeles, por lo que incluso un pequeño desplazamiento en el recuadro previsto puede generar un gran error proporcional y reducir drásticamente la IoU . Esto significa que los objetos pequeños a menudo no alcanzan el IoU estándar utilizado para considerar correcta una predicción, incluso cuando el objeto es visible en la imagen.

Como resultado, los errores de localización son más propensos a clasificarse como falsos positivos o falsos negativos. Estas limitaciones han llevado a los investigadores a replantearse cómo los sistemas de detección de objetos evalúan y manejandetect pequeños ydetect .

Características multiescala: la clave para la detección de objetos pequeños en tiempo real

A medida que los investigadores trabajaban para mejorar la detección de objetos pequeños, quedó claro que era esencial preservar y representar la información visual en múltiples escalas. Esta idea se refleja en investigaciones recientes de arXiv y en artículos presentados en foros como las conferencias internacionales del IEEE y la Asociación Europea de Visión por Computador (ECCV).

A medida que las imágenes avanzan en una red neuronal, los objetos pequeños pueden perder detalle o desaparecer por completo, por lo que los modelos modernos de visión artificial, como YOLO11 especialmente en mejorar la extracción de características. A continuación, repasaremos los conceptos básicos que subyacen a los mapas de características y las redes piramidales de características para comprenderlos mejor.

Mapas de características y representación a escala

Cuando una imagen de entrada, como una imagen de teledetección, entra en una red neuronal, se transforma gradualmente en mapas de características. Se trata de representaciones simplificadas de la imagen que resaltan patrones visuales como bordes, formas y texturas.

A medida que la red se profundiza, estos mapas de características se reducen en tamaño espacial. Esta reducción ayuda al modelo a funcionar de manera eficiente y a centrarse en la información de alto nivel. Sin embargo, los mapas de características reducidos y profundos también reducen los detalles espaciales.

Fig. 4. La extracción de características es clave para la detección de objetos pequeños. (Fuente)

‍

Mientras que los objetos grandes conservan suficiente información visual para una detección precisa, los objetivos pequeños pueden perder detalles críticos tras solo unas pocas capas de red. Cuando esto ocurre, un modelo puede tener dificultades para reconocer que un objeto pequeño existe. Esta es una de las principales razones por las que los objetos pequeños se pasan por alto en los modelos de detección profunda de objetos.

Redes piramidales de características y aprendizaje multiescala

Las redes piramidales de características, a menudo denominadas FPN, se introdujeron para abordar la pérdida de detalle espacial y funcionan como un módulo de apoyo que combina información de múltiples capas para que los modelos puedan detect objetos detect de forma más eficaz. Este proceso también se conoce como agregación de características y fusión de características.

Las capas superficiales proporcionan detalles espaciales precisos, mientras que las capas más profundas añaden contexto semántico, lo que permite un aprendizaje eficaz de características a múltiples escalas. A diferencia del sobremuestreo ingenuo, que simplemente amplía los mapas de características, FPN conserva la información significativa y mejora la detección de objetos pequeños.

Los enfoques modernos se basan en esta idea utilizando la fusión de características adaptativas y diseños sensibles al contexto para mejorar aún más la detección de objetivos pequeños. En otras palabras, FPN ayuda a los modelos a ver tanto el panorama general como los pequeños detalles al mismo tiempo. Esta optimización es esencial cuando los objetos son pequeños.

Cómo evolucionaron los modelos de detección de objetos para manejar objetos pequeños

A continuación, se ofrece una breve descripción de cómo han evolucionado y avanzado los modelos de detección de objetos a lo largo del tiempo para detect mejor detect de diferentes tamaños, incluidos los muy pequeños:

Métodos de detección temprana: Los primeros enfoques de detección de objetos se basaban en características diseñadas manualmente y algoritmos basados en reglas arraigados en el procesamiento clásico de imágenes. Dado que estas características eran fijas, el rendimiento se veía degradado con imágenes diferentes.
Introducción del aprendizaje automático y el aprendizaje profundo: La adopción del aprendizaje automático y el aprendizaje profundo supuso un cambio importante en la investigación sobre la detección de objetos. En lugar de basarse en reglas predefinidas, las redes neuronales aprendieron representaciones visuales directamente a partir de los datos de entrenamiento, lo que mejoró la adaptabilidad a diferentes tamaños de objetos y escenas.
Redes convolucionales: estas redes neuronales aprenden a reconocer patrones en las imágenes. Cada capa capta detalles diferentes, empezando por simples bordes y colores, pasando luego a formas y, finalmente, a objetos completos, lo que las hace esenciales para la visión artificial moderna.
Detectores de objetos de dos etapas: los detectores de dos etapas , como Faster R-CNN, introducidos por Girshick y Ren, generaban primero regiones candidatas y luego las clasificaban. Este enfoque mejoró la precisión para objetos pequeños, pero aumentó el coste computacional y redujo el rendimiento en tiempo real.
Detectores de objetos de una sola etapa: Detectores de una sola etapa , como SSD (Single-Shot Detector) y la familia YOLO You Only Look Once), incluyendo YOLOv3, Ultralytics YOLOv5y, posteriormente, Ultralytics YOLOv8, realizan la detección en una sola pasada. Este diseño mejora significativamente la velocidad de inferencia, al tiempo que mantiene una precisión competitiva.
Últimos modelos de vanguardia: los modelos de detección de objetos más recientes se centran más en el rendimiento en tiempo real y la implementación periférica. Las últimas versionesYOLO Ultralytics YOLO , como Ultralytics YOLO11 el próximo Ultralytics , están diseñadas para equilibrar una alta precisión con una inferencia de baja latencia, lo que las hace muy adecuadas para detectar objetos de todos los tamaños, incluidos los objetivos pequeños, en dispositivos con una potencia de cálculo limitada.

Uso de YOLO11 casos de uso de detección de objetos pequeños

Ahora que comprendemos mejor cómo funciona la detección de objetos pequeños, veamos un par de aplicaciones reales en las que YOLO11 aplicar YOLO11 .

UAV e imágenes aéreas

Imagina un dron volando a gran altura sobre una concurrida calle de la ciudad. Desde esa altura, los coches, las bicicletas e incluso las personas se reducen a unos pocos píxeles en una pantalla.

Los módulos de imágenes aéreas y UAV suelen capturar escenas como esta, en las que los objetos de interés son diminutos y están rodeados de fondos desordenados, lo que dificulta su detect por parte de los modelos de visión artificial.

En este tipo de situaciones, YOLO11 ser la opción ideal. Por ejemplo, un dron equipado con un modelo como YOLO11 supervisar el tráfico en tiempo real, detectando vehículos, ciclistas y peatones a medida que se mueven por la escena, incluso cuando cada objeto solo ocupa una pequeña parte de la imagen. Esto permite una toma de decisiones más rápida y una visión más precisa en aplicaciones como la gestión del tráfico, la seguridad pública o la planificación urbana.

Robótica y automatización

Los robots se utilizan a menudo en entornos en los que la precisión y la sincronización son fundamentales. En entornos como almacenes, fábricas y granjas, un robot puede necesitar reconocer objetos muy pequeños, como una pieza en una cadena de montaje, una etiqueta en un paquete o un pequeño brote de planta en un campo, y responder rápidamente.

Detectar objetos de este tamaño puede resultar complicado, especialmente cuando solo aparecen como unos pocos píxeles en la imagen de la cámara o están parcialmente ocultos por otros objetos. Pasar por alto estos pequeños detalles puede ralentizar la automatización o afectar a la capacidad del robot para completar una tarea.

YOLO11 marcar la diferencia en estas situaciones. Su extracción de características mejorada y su rápida inferencia permiten a los robots detect objetos detect en tiempo real y actuar de inmediato.

YOLO11 admite la segmentación de instancias, lo que puede ayudar a los robots a comprender los límites de los objetos y captar los puntos con mayor precisión, en lugar de limitarse a localizar cuadros delimitadores generales. Por ejemplo, un brazo robótico integrado con YOLO11 detectar pequeños componentes en una cinta transportadora, segment forma exacta y recogerlos antes de que se alejen, lo que ayuda al sistema a mantener su eficiencia y fiabilidad.

¿Qué hace que YOLO11 sea YOLO11 para la detección de objetos pequeños?

Con tantos modelos de visión artificial disponibles en la actualidad, quizá se pregunte qué es lo que hace que Ultralytics YOLO11 sobre los demás.

A continuación se indican algunas razones por las que Ultralytics YOLO11 una excelente opción para aplicaciones en las que es necesario detectar objetos pequeños:

Mejor extracción de características: YOLO11 una arquitectura mejorada de backbone y neck para mejorar la extracción de características, lo que permite una detección de objetos más precisa.
Ecosistema y facilidad de uso: El Python Ultralytics Python es una biblioteca que proporciona funciones integradas para cargar, entrenar, validar e implementar modelos como YOLO11. Dado que estos flujos de trabajo solo requieren unas pocas líneas de código, los equipos pueden experimentar y ajustar rápidamente los modelos para la detección de objetos pequeños.
Optimizado para implementación periférica: YOLO11 ejecutarse de manera eficiente en dispositivos periféricos como NVIDIA , Raspberry Pi y sistemas de cámaras industriales. En pocas palabras, permite realizar tareas de IA visual en tiempo real directamente en el dispositivo.

Estrategias prácticas para detectar objetos pequeños con YOLO11

Además de utilizar un modelo como YOLO11, la forma en que se preparan las anotaciones, el conjunto de datos general y el procedimiento de entrenamiento del modelo pueden marcar una diferencia significativa en el rendimiento de la detección.

Aquí tienes un resumen rápido de en qué debes centrarte:

Aumento adecuado de datos: el aumento ligero de datos, como el escalado o el recorte, puede ayudar al modelo a generalizar nuevas imágenes. Sin embargo, un aumento agresivo a gran escala puede distorsionar o eliminar objetos pequeños, lo que dificulta el aprendizaje del modelo.
Análisis de los casos de fallo: analizar dónde el modelo no detecta o identifica erróneamente los objetos ayuda a crear una referencia y a revelar si los problemas se deben al conjunto de datos, a la pérdida de información durante la extracción de características o a la necesidad de ajustar la configuración del entrenamiento.
Composición del conjunto de datos: su conjunto de datos debe contener suficientes ejemplos de objetos pequeños para que el modelo pueda aprender patrones significativos, y debe mantenerse equilibrado para que los objetos más grandes no eclipsen a los más pequeños durante el entrenamiento.

Conclusiones clave

La detección de objetos pequeños es difícil porque los objetivos pequeños pierden detalle a medida que las imágenes pasan por un modelo de visión artificial. YOLO11 la forma en que se conservan estos detalles, lo que hace que la detección de objetos pequeños sea más fiable sin sacrificar el rendimiento en tiempo real. Este equilibrio permite YOLO11 una detección precisa y eficiente en aplicaciones del mundo real.

¡Únase a nuestra creciente comunidad! Explore nuestro repositorio de GitHub para obtener más información sobre la IA. Descubra innovaciones como la visión artificial en el comercio minorista y la IA en la industria automotriz visitando nuestras páginas de soluciones. Para comenzar a construir con visión artificial hoy mismo, consulte nuestras opciones de licencia.

Exploración de la detección de objetos pequeños con Ultralytics YOLO11

¿Qué es la detección de objetos pequeños y por qué es importante?