Yolo Vision Shenzhen
Shenzhen
Únete ahora

YOLO12 explicado: Aplicaciones y casos de uso en el mundo real

Abirami Vina

5 minutos de lectura

26 de febrero de 2025

¡Descubre YOLO12, el último modelo de visión artificial! Aprende cómo su arquitectura centrada en la atención y la tecnología FlashAttention mejoran las tareas de detección de objetos en diversas industrias.

La visión por ordenador es una rama de la inteligencia artificial (IA) que ayuda a las máquinas a comprender imágenes y vídeos. Se trata de un campo que avanza a un ritmo increíble porque los investigadores y desarrolladores de IA están constantemente superando los límites. La comunidad de la IA siempre está tratando de crear modelos más rápidos, inteligentes y eficaces. Uno de los últimos avances es YOLO12, la última incorporación a la serie de modelos YOLO (You Only Look Once), lanzada el 18 de febrero de 2025.

YOLO12 fue desarrollado por investigadores de la Universidad de Buffalo, SUNY (Universidad Estatal de Nueva York) y la Universidad de la Academia China de Ciencias. Con un nuevo enfoque único, YOLO12 introduce mecanismos de atención, lo que permite al modelo centrarse en las partes más esenciales de una imagen en lugar de procesarlo todo por igual. 

También cuenta con FlashAttention, una técnica que acelera el procesamiento al tiempo que utiliza menos memoria, y un mecanismo de atención de área, diseñado para imitar la forma en que los humanos se centran naturalmente en los objetos centrales.

Estas mejoras hacen que YOLO12n sea un 2,1% más preciso que YOLOv10n y YOLO12m un +1,0% más preciso que YOLO11m. Sin embargo, esto tiene una contrapartida: YOLO12n es un 9% más lento que YOLOv10n, y YOLO12m es un 3% más lento que YOLO11m.

__wf_reserved_inherit
Fig. 1. Ejemplo de utilización de YOLO12 para detect objetos.

En este artículo, exploraremos qué hace diferente a YOLO12, cómo se compara con las versiones anteriores y dónde se puede aplicar.

El camino hacia el lanzamiento de YOLO12

La serie de modelosYOLO es una colección de modelos de visión por ordenador diseñados para la detección de objetos en tiempo real, lo que significa que pueden identificar y localizar rápidamente objetos en imágenes y vídeos. Con el tiempo, cada versión ha mejorado en términos de velocidad, precisión y eficacia.

Por ejemplo, Ultralytics YOLOv5lanzado en 2020, se generalizó porque era rápido y fácil de personalizar e implantar. Más adelante, Ultralytics YOLOv8 lo mejoró ofreciendo soporte adicional para tareas de visión por ordenador como la segmentación de instancias y el seguimiento de objetos. 

Más recientemente, Ultralytics YOLO11 se ha centrado en mejorar el procesamiento en tiempo real manteniendo un equilibrio entre velocidad y precisión. Por ejemplo, YOLO11m tenía un 22 % menos de parámetros que YOLOv8m, pero aún así ofrecía un mejor rendimiento de detección en el conjunto de datos COCO , una referencia muy utilizada para evaluar modelos de detección de objetos.

Basándose en estos avances, YOLO12 introduce un cambio en la forma en que procesa la información visual. En lugar de tratar todas las partes de una imagen por igual, prioriza las áreas más relevantes, mejorando la precisión de la detección. En pocas palabras, YOLO12 se basa en mejoras anteriores con el objetivo de ser más preciso.

Características clave de YOLO12

YOLO12 introduce varias mejoras que optimizan las tareas de visión artificial manteniendo intactas las velocidades de procesamiento en tiempo real. Aquí tienes una visión general de las características clave de YOLO12:

  • Arquitectura centrada en la atención: En lugar de tratar cada parte de una imagen por igual, YOLO12 se centra en las áreas más importantes. Esto mejora la precisión y reduce el procesamiento innecesario, lo que hace que la detección sea más nítida y eficiente, incluso en imágenes saturadas.
  • FlashAttention: YOLO12 acelera el análisis de imágenes al tiempo que utiliza menos memoria. Con FlashAttention (un algoritmo de eficiencia de memoria), optimiza el manejo de datos, reduciendo la tensión del hardware y haciendo que las tareas en tiempo real sean más fluidas y fiables.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organiza sus capas de manera más eficiente utilizando R-ELAN, lo que mejora la forma en que el modelo procesa y aprende de los datos. Esto hace que el entrenamiento sea más estable, el reconocimiento de objetos más nítido y los requisitos de computación más bajos, por lo que se ejecuta de manera eficiente en diferentes entornos.

Para entender cómo funcionan estas funciones en la vida real, pensemos en un centro comercial. YOLO12 puede ayudar a track a los compradores, identificar la decoración de la tienda, como plantas en macetas o carteles promocionales, y detectar artículos extraviados o abandonados. 

Su arquitectura centrada en la atención le ayuda a centrarse en los detalles más importantes, mientras que FlashAttention asegura que procesa todo rápidamente sin sobrecargar el sistema. Esto facilita a los operadores de centros comerciales la mejora de la seguridad, la organización de la distribución de las tiendas y la mejora de la experiencia de compra en general.

__wf_reserved_inherit
Fig 2. Detección de objetos en un centro comercial utilizando YOLO12.

Sin embargo, YOLO12 también viene con algunas limitaciones a tener en cuenta:

  • Tiempos de entrenamiento más lentos: Debido a su arquitectura, YOLO11 requiere más tiempo de entrenamiento en comparación con YOLO11.
  • Desafíos de exportación: Algunos usuarios pueden encontrar dificultades al exportar modelos YOLO12, particularmente al integrarlos en entornos de implementación específicos.

Entendiendo los 'benchmarks' de rendimiento de YOLO12

YOLO12 viene en múltiples variantes, cada una optimizada para diferentes necesidades. Las versiones más pequeñas (nano y small) priorizan la velocidad y la eficiencia, lo que las hace ideales para dispositivos móviles y 'edge computing'. Las versiones medianas y grandes logran un equilibrio entre velocidad y precisión, mientras que YOLO12x (extra grande) está diseñado para aplicaciones de alta precisión, como la automatización industrial, las imágenes médicas y los sistemas de vigilancia avanzados.

Con estas variaciones, YOLO12 ofrece distintos niveles de rendimiento en función del tamaño del modelo. Las pruebas comparativas demuestran que algunas variantes de YOLO12 superan a YOLOv10 y YOLO11 en precisión, alcanzando una mayor precisión mediamAP). 

Sin embargo, algunos modelos, como YOLO12m, YOLO12l y YOLO12x, procesan las imágenes con más lentitud que YOLO11, lo que muestra un equilibrio entre la precisión de la detección y la velocidad. A pesar de ello, YOLO12 sigue siendo eficiente, ya que requiere menos parámetros que muchos otros modelos, aunque sigue utilizando más que YOLO11. Esto lo convierte en una gran elección para aplicaciones en las que la precisión es más importante que la velocidad bruta.

__wf_reserved_inherit
Fig. 3. Comparación de Ultralytics YOLO11 y YOLO12.

Utilización de YOLO12 a través del paquete Ultralytics Python

YOLO12 es compatible con el paquetePython Ultralytics y es fácil de usar, por lo que resulta accesible tanto para principiantes como para profesionales. Con unas pocas líneas de código, los usuarios pueden cargar modelos preentrenados, ejecutar diversas tareas de visión por ordenador en imágenes y vídeos, y también entrenar YOLO12 en conjuntos de datos personalizados. El paquetePython Ultralytics agiliza el proceso, eliminando la necesidad de complejos pasos de configuración.

Por ejemplo, estos son los pasos que seguiría para usar YOLO12 para la detección de objetos:

  • Instale el paquete Ultralytics : En primer lugar, instale el paquete Ultralytics Python , que proporciona las herramientas necesarias para ejecutar YOLO12 de manera eficiente. Esto asegura que todas las dependencias están configuradas correctamente.
  • Cargue un modelo YOLO12 pre-entrenado: Elija la variante YOLO12 apropiada (nano, small, medium, large o extra large) en función del nivel de precisión y velocidad requerido para su tarea.
  • Proporcione una imagen o vídeo: Introduzca un archivo de imagen o vídeo que desee analizar. YOLO12 también puede procesar transmisiones de vídeo en directo para la detección en tiempo real.
  • Ejecute el proceso de detección: El modelo escanea los datos visuales, identifica los objetos y coloca cuadros delimitadores a su alrededor. Etiqueta cada objeto detectado con su clase predicha y su puntuación de confianza.
  • Ajuste la configuración de detección: También puede modificar parámetros como los umbrales de confianza para afinar la precisión y el rendimiento de la detección.
  • Guarde o utilice la salida: La imagen o el vídeo procesado, que ahora contiene los objetos detectados, se puede guardar o integrar en una aplicación para su posterior análisis, automatización o toma de decisiones.

Estos pasos hacen que YOLO12 sea fácil de usar para una variedad de aplicaciones, desde la vigilancia y el seguimiento minorista hasta las imágenes médicas y los vehículos autónomos.

Aplicaciones prácticas de YOLO12

YOLO12 se puede utilizar en una variedad de aplicaciones del mundo real gracias a su compatibilidad con la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de objetos orientados (OBB). 

__wf_reserved_inherit
Fig. 4. YOLO12 admite tareas como la detección de objetos y la segmentación de instancias.

Sin embargo, como comentamos anteriormente, los modelos YOLO12 priorizan la precisión sobre la velocidad, lo que significa que tardan un poco más en procesar las imágenes en comparación con las versiones anteriores. Esta compensación hace que YOLO12 sea ideal para aplicaciones donde la precisión es más importante que la velocidad en tiempo real, como:

  • Imágenes médicas: YOLO12 puede entrenarse a medida para detect tumores o anomalías en radiografías y resonancias magnéticas con gran precisión, lo que lo convierte en una herramienta útil para médicos y radiólogos que necesitan un análisis de imágenes preciso para el diagnóstico.
  • Control de calidad en la fabricación: Puede ayudar a identificar defectos del producto durante el proceso de producción, garantizando que solo los artículos de alta calidad lleguen al mercado, reduciendo el desperdicio y mejorando la eficiencia.
  • Análisis forense: Las agencias de aplicación de la ley pueden ajustar YOLO12 para analizar imágenes de vigilancia y recopilar pruebas. En las investigaciones criminales, la precisión es vital para identificar detalles clave.
  • Agricultura de precisión: Los agricultores pueden utilizar YOLO12 para analizar la salud de los cultivos, detect enfermedades o plagas y controlar las condiciones del suelo. Las evaluaciones precisas ayudan a optimizar las estrategias agrícolas, lo que mejora el rendimiento y la gestión de los recursos.

Primeros pasos con YOLO12

Antes de ejecutar YOLO12, es importante asegurarse de que su sistema cumple con los requisitos necesarios.

Técnicamente, YOLO12 puede ejecutarse en cualquier GPU (Unidad de Procesamiento Gráfico) dedicada. Por defecto, no requiere FlashAttention, por lo que puede funcionar en la mayoría de los sistemas GPU sin él. Sin embargo, activar FlashAttention puede ser especialmente útil cuando se trabaja con grandes conjuntos de datos o imágenes de alta resolución, ya que ayuda a evitar ralentizaciones, reducir el uso de memoria y mejorar la eficiencia del procesamiento. 

Para utilizar FlashAttention, necesitarás unaGPU NVIDIA de una de estas series: Turing (T4, Quadro RTX), Ampere (serie RTX 30, A30, A40, A100), Ada Lovelace (serie RTX 40) o Hopper (H100, H200).

Teniendo en cuenta la usabilidad y la accesibilidad, el paquetePython de Ultralytics aún no admite la inferencia de FlashAttention, ya que su instalación puede ser bastante compleja desde el punto de vista técnico. Para obtener más información sobre cómo empezar a utilizar YOLO12 y optimizar su rendimiento, consulta la documentación oficial de Ultralytics .

Conclusiones clave

A medida que avanza la visión artificial, los modelos son cada vez más precisos y eficientes. YOLO12 mejora las tareas de visión artificial, como la detección de objetos, la segmentación de instancias y la clasificación de imágenes, con procesamiento centrado en la atención y FlashAttention, lo que mejora la precisión al tiempo que optimiza el uso de la memoria.

Al mismo tiempo, la visión por ordenador es más accesible que nunca. YOLO12 es fácil de usar a través del paquetePython Ultralytics y, al primar la precisión sobre la velocidad, resulta muy adecuado para la obtención de imágenes médicas, las inspecciones industriales y la robótica, aplicaciones en las que la precisión es clave.

¿Tiene curiosidad por la IA? Visite nuestro repositorio de GitHub e interactúe con nuestra comunidad. Explore las innovaciones en sectores como la IA en coches autónomos y la visión artificial en la agricultura en nuestras páginas de soluciones. Consulte nuestras opciones de licencia y dé vida a sus proyectos de Vision AI. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis