Las ventajas de que Ultralytics YOLO11 sea un detector sin anclaje

Abirami Vina

5 minutos de lectura

5 de diciembre de 2024

Comprenda cómo Ultralytics YOLO11 admite la detección de objetos sin anclaje y las ventajas que esta arquitectura de modelos aporta a diversas aplicaciones.

Si echamos un vistazo a la historia de los modelos de IA de visión, el concepto de detección de objetos -una tarea central de la visión por ordenador que consiste en identificar y localizar objetos dentro de una imagen o un vídeo- existe desde los años sesenta. Sin embargo, la razón clave de su importancia en las innovaciones de vanguardia actuales es que las técnicas de detección de objetos y las arquitecturas de los modelos han avanzado y mejorado rápidamente desde entonces. 

En un artículo anterior, hablamos de la evolución de la detección de objetos y del camino que ha llevado a los modelos YOLO de Ultralytics. Hoy nos centraremos en explorar un hito más concreto de este viaje: el salto de los detectores basados en anclas a los detectores sin anclas. 

Los detectores basados en anclas se basan en recuadros predefinidos, llamados "anclas", para predecir dónde se encuentran los objetos en una imagen. En cambio, los detectores sin anclas omiten estos recuadros predefinidos y predicen directamente la ubicación de los objetos.

Aunque este cambio pueda parecer simple y lógico, en realidad ha dado lugar a importantes mejoras en la precisión y eficacia de la detección de objetos. En este artículo explicaremos cómo los detectores sin anclaje han transformado la visión por ordenador gracias a avances como Ultralytics YOLO11.

¿Qué son los detectores basados en anclas?

Los detectores basados en anclas utilizan recuadros predefinidos, conocidos como anclas, para ayudar a localizar objetos en una imagen. Piense en estas anclas como una cuadrícula de cajas de diferentes tamaños y formas colocadas sobre la imagen. El modelo ajusta estos recuadros para adaptarlos a los objetos que detecta. Por ejemplo, si el modelo identifica un coche, modificará el cuadro de anclaje para que se ajuste con mayor precisión a la posición y el tamaño del coche.

Cada ancla está asociada a un posible objeto de la imagen y, durante el entrenamiento, el modelo aprende a ajustar los cuadros de anclaje para que coincidan mejor con la ubicación, el tamaño y la relación de aspecto del objeto. Esto permite al modelo detectar objetos a diferentes escalas y orientaciones. Sin embargo, seleccionar el conjunto adecuado de cajas de anclaje puede llevar mucho tiempo, y el proceso de ajuste puede ser propenso a errores.

__wf_reserved_inherit
Fig. 1. ¿Qué es una caja de anclaje?

Aunque los detectores basados en anclas, como YOLOv4, han funcionado bien en muchas aplicaciones, tienen algunos inconvenientes. Por ejemplo, las cajas de anclaje no siempre se alinean bien con objetos de diferentes formas o tamaños, lo que dificulta que el modelo detecte objetos pequeños o de forma irregular. El proceso de selección y ajuste de los tamaños de las cajas de anclaje también puede llevar mucho tiempo y requiere un gran esfuerzo manual. Además, los modelos basados en anclas suelen tener dificultades para detectar objetos ocluidos o superpuestos, ya que los recuadros predefinidos pueden no adaptarse bien a estas situaciones más complejas.

El paso a la detección de objetos sin anclajes

Los detectores sin anclajes empezaron a ganar atención en 2018 con modelos como CornerNet y CenterNet, que adoptaron un nuevo enfoque para la detección de objetos al eliminar la necesidad de cajas de anclaje predefinidas. A diferencia de los modelos tradicionales, que se basan en cajas de anclaje de diferentes tamaños y formas para predecir dónde se encuentran los objetos, los modelos sin anclaje predicen directamente la ubicación de los objetos. Se centran en puntos o características clave del objeto, como el centro, lo que simplifica el proceso de detección y lo hace más rápido y preciso.

Así es como suelen funcionar los modelos sin anclaje:

  • Detección de puntos clave: En lugar de utilizar recuadros predefinidos, algunos modelos identifican puntos importantes en un objeto, como el centro o esquinas específicas. Estos puntos clave ayudan a los modelos a averiguar dónde está el objeto y cuál es su tamaño.
  • Centro predicción: Algunos modelos se centran en la predicción del centro de un objeto. Una vez localizado el centro, el modelo puede predecir a partir de ahí el tamaño y la posición de todo el objeto.
  • Regresión de mapas térmicos: Muchos modelos sin anclas utilizan mapas térmicos, en los que cada píxel representa una posible ubicación de un objeto. Los valores más altos del mapa térmico indican una mayor confianza en la presencia de un objeto en ese punto.
__wf_reserved_inherit
Fig. 2. Detección basada en anclas frente a detección sin anclas.

Dado que los modelos sin anclajes no dependen de las cajas de anclaje, su diseño es más sencillo. Esto significa que son más eficientes desde el punto de vista computacional. Al no tener que procesar múltiples cajas de anclaje, pueden detectar objetos con mayor rapidez, una ventaja importante en aplicaciones en tiempo real como la conducción autónoma y la videovigilancia. 

Los modelos sin anclajes también son mucho mejores para manejar objetos pequeños, irregulares u ocluidos. Como se centran en la detección de puntos clave en lugar de tratar de ajustar las cajas de anclaje, son mucho más flexibles. Esto les permite detectar objetos con precisión en entornos desordenados o complejos en los que los modelos basados en anclajes pueden fallar.

Ultralytics YOLO11: un detector sin anclaje

Los modelos YOLO, diseñados en un principio para ser rápidos y eficaces, han pasado gradualmente de los métodos basados en anclajes a la detección sin anclajes, lo que hace que modelos como YOLO11 sean más rápidos, flexibles y adecuados para una amplia gama de aplicaciones en tiempo real.

He aquí un rápido vistazo a la evolución del diseño sin anclajes en las distintas versiones del YOLO:

  • Ultralytics YOLOv5u: Se ha introducido el cabezal Anchor-Free Split Ultralytics, que elimina la necesidad de cajas de anclaje predefinidas. En su lugar, el modelo predice directamente dónde se encuentran los objetos en una imagen, lo que simplifica el proceso y mejora la flexibilidad y la velocidad.
  • YOLOv6: Se utilizó un nuevo método denominado formación asistida por anclas (AAT), en el que las anclas sólo se utilizaban durante la formación. Esto permitió al modelo beneficiarse de la estructura de los métodos basados en anclas durante el entrenamiento, sin dejar de utilizar la detección sin anclas en tiempo de ejecución para mejorar la velocidad y la adaptabilidad.
  • Ultralytics YOLOv8: Cambio completo a la detección sin anclajes mediante el uso del cabezal dividido sin anclajes de Ultralytics. Esto hizo que el modelo fuera más rápido y preciso, especialmente para objetos pequeños o con formas extrañas que no encajan bien con las cajas de anclaje.
  • Ultralytics YOLO11: Se basa en el enfoque sin anclas de YOLOv8, optimizando aún más la detección al eliminar por completo las cajas de anclas. El resultado es una detección más rápida y precisa para aplicaciones en tiempo real como la monitorización del comportamiento animal y el análisis de comercios.
__wf_reserved_inherit
Fig. 3. Comparación de Ultralytics YOLOv8 y Ultralytics YOLO11.

Aplicaciones reales de YOLO11

Un buen ejemplo de las ventajas de la detección sin anclajes con YOLO11 es el de los vehículos autónomos. En los coches autónomos, detectar peatones, otros vehículos y obstáculos con rapidez y precisión es crucial para la seguridad. El enfoque sin anclajes de YOLO11 simplifica el proceso de detección al predecir directamente los puntos clave de los objetos, como el centro de un peatón o los límites de otro vehículo, en lugar de depender de cajas de anclaje predefinidas. 

__wf_reserved_inherit
Fig. 4. Ventajas de la detección sin anclajes en YOLO11 (imagen del autor).

YOLO11 no necesita ajustar o adaptar una cuadrícula de anclajes a cada objeto, lo que puede resultar caro y lento desde el punto de vista computacional. En su lugar, se centra en las características clave, lo que lo hace más rápido y eficaz. Por ejemplo, cuando un peatón se cruza en el camino del vehículo, YOLO11 puede identificar rápidamente su ubicación señalando puntos clave, incluso si la persona está parcialmente oculta o en movimiento. La capacidad de adaptarse a formas y tamaños variables sin cajas de anclaje permite a YOLO11 detectar objetos de forma más fiable y a mayor velocidad, lo que resulta vital para la toma de decisiones en tiempo real en los sistemas de conducción autónoma.

Otras aplicaciones en las que destacan las capacidades sin anclaje de YOLO11 son:

  • Venta al por menor y gestión de inventarios: YOLO11 facilita el seguimiento de los productos en las estanterías, incluso cuando están apilados o parcialmente bloqueados. Esto ayuda a realizar un seguimiento más rápido y preciso del inventario y reduce los errores.
  • Imágenes médicas: YOLO11 también es eficaz en el ámbito sanitario, donde puede detectar tumores u otras anomalías en exploraciones médicas. Su capacidad para trabajar con objetos de forma irregular ayuda a mejorar la precisión en el diagnóstico de afecciones complejas.
  • Vigilancia de la fauna: En la investigación de la fauna salvaje, YOLO11 puede rastrear animales en bosques densos o terrenos difíciles, ayudando a los investigadores a controlar su comportamiento o a proteger especies en peligro de extinción.
  • Análisis deportivo: YOLO11 puede utilizarse para seguir a los jugadores, los movimientos del balón u otros elementos en tiempo real durante acontecimientos deportivos, con el fin de proporcionar información valiosa a equipos, entrenadores y locutores.

Consideraciones a tener en cuenta al trabajar con modelos sin anclajes

Aunque los modelos sin anclajes como YOLO11 ofrecen muchas ventajas, tienen ciertas limitaciones. Una de las principales consideraciones prácticas que hay que tener en cuenta es que incluso los modelos sin anclaje pueden tener problemas con las oclusiones o los objetos muy superpuestos. Esto se debe a que la visión por ordenador pretende imitar la visión humana y, del mismo modo que a veces nos cuesta identificar objetos ocluidos, los modelos de IA pueden enfrentarse a problemas similares.

Otro factor interesante está relacionado con el tratamiento de las predicciones de los modelos. Aunque la arquitectura de los modelos sin anclas es más sencilla que la de los basados en anclas, en determinados casos se hace necesario un refinamiento adicional. Por ejemplo, pueden ser necesarias técnicas de posprocesamiento como la supresión no máxima (NMS) para limpiar predicciones solapadas o mejorar la precisión en escenas abarrotadas.

Echar el ancla en el futuro de la IA con YOLO11

El paso de la detección basada en anclajes a la detección sin anclajes ha supuesto un avance significativo en la detección de objetos. Con modelos sin anclajes como YOLO11, el proceso se simplifica, lo que se traduce en mejoras tanto en precisión como en velocidad.

Con YOLO11, hemos visto cómo la detección de objetos sin anclaje destaca en aplicaciones en tiempo real como los coches autónomos, la videovigilancia y las imágenes médicas, donde la detección rápida y precisa es crucial. Este enfoque permite a YOLO11 adaptarse más fácilmente a objetos de distintos tamaños y a escenas complejas, lo que mejora el rendimiento en distintos entornos.

A medida que la visión por ordenador siga evolucionando, la detección de objetos será cada vez más rápida, flexible y eficaz.

Explore nuestro repositorio de GitHub y únase a nuestra atractiva comunidad para estar al día de todo lo relacionado con la IA. Descubra cómo Vision AI está afectando a sectores como la fabricación y la agricultura.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles