Las ventajas de que Ultralytics YOLO11 sea un detector sin anclaje

5 de diciembre de 2024
Comprenda cómo Ultralytics YOLO11 admite la detección de objetos sin anclaje y las ventajas que esta arquitectura de modelos aporta a diversas aplicaciones.

5 de diciembre de 2024
Comprenda cómo Ultralytics YOLO11 admite la detección de objetos sin anclaje y las ventajas que esta arquitectura de modelos aporta a diversas aplicaciones.
Si echamos la vista atrás a la historia de los modelos de Visión Artificial, el concepto de detección de objetos - una tarea central de la visión artificial que implica la identificación y localización de objetos dentro de una imagen o vídeo - existe desde la década de 1960. Sin embargo, la razón clave de su importancia en las innovaciones de vanguardia actuales es que las técnicas de detección de objetos y las arquitecturas de modelos han avanzado y mejorado rápidamente desde entonces.
En un artículo anterior, hablamos de la evolución de la detección de objetos y del camino que ha llevado a los modelosYOLO Ultralytics . Hoy nos centraremos en explorar un hito más concreto de este viaje: el salto de los detectores basados en anclas a los detectores sin anclas.
Los detectores basados en anclajes se basan en cajas predefinidas, llamadas "anclajes", para predecir dónde están los objetos en una imagen. En cambio, los detectores sin anclajes omiten estas cajas predefinidas y, en su lugar, predicen las ubicaciones de los objetos directamente.
Aunque este cambio pueda parecer simple y lógico, en realidad ha dado lugar a importantes mejoras en la precisión y eficacia de la detección de objetos. En este artículo, explicaremos cómo los detectores sin anclaje han transformado la visión por ordenador gracias a avances como Ultralytics YOLO11.
Los detectores basados en anclajes utilizan cajas predefinidas, conocidas como anclajes, para ayudar a localizar objetos en una imagen. Piense en estos anclajes como una cuadrícula de cajas de diferentes tamaños y formas colocadas sobre la imagen. A continuación, el modelo ajusta estas cajas para que se ajusten a los objetos que detecta. Por ejemplo, si el modelo identifica un coche, modificará el anchor box para que coincida con la posición y el tamaño del coche con mayor precisión.
Cada ancla está asociada a un posible objeto de la imagen y, durante el entrenamiento, el modelo aprende a ajustar los cuadros de anclaje para que coincidan mejor con la ubicación, el tamaño y la relación de aspecto del objeto. Esto permite al modelo detect objetos a diferentes escalas y orientaciones. Sin embargo, seleccionar el conjunto adecuado de cajas de anclaje puede llevar mucho tiempo, y el proceso de ajuste puede ser propenso a errores.

Aunque los detectores basados en anclas, como YOLOv4, han funcionado bien en muchas aplicaciones, tienen algunos inconvenientes. Por ejemplo, las cajas de anclaje no siempre se alinean bien con objetos de diferentes formas o tamaños, lo que dificulta que el modelo detect objetos pequeños o de forma irregular. El proceso de selección y ajuste de los tamaños de las cajas de anclaje también puede llevar mucho tiempo y requiere un gran esfuerzo manual. Además, los modelos basados en anclas suelen tener dificultades para detectar objetos ocluidos o superpuestos, ya que los recuadros predefinidos pueden no adaptarse bien a estas situaciones más complejas.
Los detectores sin anclaje comenzaron a ganar atención en 2018 con modelos como CornerNet y CenterNet, que adoptaron un enfoque novedoso para la detección de objetos al eliminar la necesidad de cuadros delimitadores (anchor boxes) predefinidos. A diferencia de los modelos tradicionales que se basan en cuadros delimitadores de diferentes tamaños y formas para predecir dónde están los objetos, los modelos sin anclaje predicen las ubicaciones de los objetos directamente. Se centran en puntos clave o características del objeto, como el centro, lo que simplifica el proceso de detección y lo hace más rápido y preciso.
Así es como funcionan generalmente los modelos sin anclaje:

Dado que los modelos sin anclajes no dependen de las cajas de anclaje, su diseño es más sencillo. Esto significa que son más eficientes desde el punto de vista computacional. Al no tener que procesar múltiples cajas de anclaje, pueden detect objetos con mayor rapidez, una ventaja importante en aplicaciones en tiempo real como la conducción autónoma y la videovigilancia.
Los modelos sin anclajes también son mucho mejores para manejar objetos pequeños, irregulares u ocluidos. Como se centran en la detección de puntos clave en lugar de tratar de ajustar las cajas de anclaje, son mucho más flexibles. Esto les permite detect objetos con precisión en entornos desordenados o complejos en los que los modelos basados en anclajes pueden fallar.
Los modelos YOLO , diseñados en un principio para ser rápidos y eficaces, han pasado gradualmente de los métodos basados en anclajes a la detección sin anclajes, lo que hace que modelos como YOLO11 sean más rápidos, flexibles y adecuados para una amplia gama de aplicaciones en tiempo real.
He aquí un rápido vistazo a la evolución del diseño sin anclajes en las distintas versiones YOLO :

Un buen ejemplo de las ventajas de la detección sin anclajes con YOLO11 es el de los vehículos autónomos. En los coches autónomos, detectar peatones, otros vehículos y obstáculos con rapidez y precisión es crucial para la seguridad. El enfoque sin anclajes de YOLO11 simplifica el proceso de detección al predecir directamente los puntos clave de los objetos, como el centro de un peatón o los límites de otro vehículo, en lugar de depender de cajas de anclaje predefinidas.

YOLO11 no necesita ajustar o adaptar una cuadrícula de anclajes a cada objeto, lo que puede resultar caro y lento desde el punto de vista computacional. En su lugar, se centra en las características clave, lo que lo hace más rápido y eficaz. Por ejemplo, cuando un peatón se cruza en el camino del vehículo, YOLO11 puede identificar rápidamente su ubicación señalando puntos clave, incluso si la persona está parcialmente oculta o en movimiento. La capacidad de adaptarse a formas y tamaños variables sin cajas de anclaje permite a YOLO11 detect objetos de forma más fiable y a mayor velocidad, lo que resulta vital para la toma de decisiones en tiempo real en los sistemas de conducción autónoma.
Otras aplicaciones en las que destacan las capacidades sin anclaje de YOLO11son:
Aunque los modelos sin anclajes como YOLO11 ofrecen muchas ventajas, tienen ciertas limitaciones. Una de las principales consideraciones prácticas que hay que tener en cuenta es que incluso los modelos sin anclaje pueden tener problemas con las oclusiones o los objetos muy superpuestos. Esto se debe a que la visión por ordenador pretende imitar la visión humana y, del mismo modo que a veces nos cuesta identificar objetos ocluidos, los modelos de IA pueden enfrentarse a problemas similares.
Otro factor interesante está relacionado con el tratamiento de las predicciones de los modelos. Aunque la arquitectura de los modelos sin anclas es más sencilla que la de los basados en anclas, en determinados casos se hace necesario un refinamiento adicional. Por ejemplo, pueden ser necesarias técnicas de posprocesamiento como la supresión no máximaNMS) para limpiar predicciones solapadas o mejorar la precisión en escenas abarrotadas.
El paso de la detección basada en anclajes a la detección sin anclajes ha supuesto un avance significativo en la detección de objetos. Con modelos sin anclajes como YOLO11, el proceso se simplifica, lo que se traduce en mejoras tanto en precisión como en velocidad.
Con YOLO11, hemos visto cómo la detección de objetos sin anclaje destaca en aplicaciones en tiempo real como los coches autónomos, la videovigilancia y las imágenes médicas, donde la detección rápida y precisa es crucial. Este enfoque permite a YOLO11 adaptarse más fácilmente a objetos de distintos tamaños y a escenas complejas, lo que mejora su rendimiento en distintos entornos.
A medida que la visión artificial siga evolucionando, la detección de objetos será cada vez más rápida, flexible y eficiente.
Explore nuestro repositorio de GitHub y únase a nuestra activa comunidad para mantenerse al día sobre todo lo relacionado con la IA. Compruebe cómo la IA visual está impactando en sectores como la fabricación y la agricultura.