YOLO12 explicado: Aplicaciones reales y casos de uso

Abirami Vina

5 minutos de lectura

26 de febrero de 2025

Descubra YOLO12, el último modelo de visión por ordenador. Descubra cómo su arquitectura centrada en la atención y la tecnología FlashAttention mejoran las tareas de detección de objetos en todos los sectores.

La visión por ordenador es una rama de la inteligencia artificial (IA) que ayuda a las máquinas a comprender imágenes y vídeos. Se trata de un campo que avanza a un ritmo increíble porque los investigadores y desarrolladores de IA están constantemente superando los límites. La comunidad de la IA siempre está tratando de crear modelos más rápidos, inteligentes y eficaces. Uno de los últimos avances es YOLO12, la última incorporación a la serie de modelos YOLO (You Only Look Once), lanzada el 18 de febrero de 2025.

YOLO12 ha sido desarrollado por investigadores de la Universidad de Buffalo, SUNY (Universidad Estatal de Nueva York) y la Universidad de la Academia China de Ciencias. En un nuevo enfoque único, YOLO12 introduce mecanismos de atención, lo que permite al modelo centrarse en las partes más esenciales de una imagen en lugar de procesarlo todo por igual. 

También incorpora FlashAttention, una técnica que acelera el procesamiento utilizando menos memoria, y un mecanismo de atención de área, diseñado para imitar la forma en que los humanos se centran de forma natural en objetos centrales.

Estas mejoras hacen que YOLO12n sea un 2,1% más preciso que YOLOv10n y YOLO12m un +1,0% más preciso que YOLO11m. Sin embargo, esto tiene una contrapartida: YOLO12n es un 9% más lento que YOLOv10n, y YOLO12m es un 3% más lento que YOLO11m.

__wf_reserved_inherit
Fig. 1. Ejemplo de utilización de YOLO12 para detectar objetos.

En este artículo analizaremos en qué se diferencia YOLO12, en qué se diferencia de las versiones anteriores y dónde puede aplicarse.

El camino hacia el lanzamiento de YOLO12

La serie de modelos YOLO es una colección de modelos de visión por ordenador diseñados para la detección de objetos en tiempo real, lo que significa que pueden identificar y localizar rápidamente objetos en imágenes y vídeos. Con el tiempo, cada versión ha mejorado en términos de velocidad, precisión y eficacia.

Por ejemplo, Ultralytics YOLOv5, lanzado en 2020, se utilizó ampliamente porque era rápido y fácil de personalizar y desplegar. Más tarde, Ultralytics YOLOv8 mejoró esta característica ofreciendo soporte adicional para tareas de visión por ordenador como la segmentación de instancias y el seguimiento de objetos. 

Más recientemente, Ultralytics YOLO11 se centró en mejorar el procesamiento en tiempo real manteniendo un equilibrio entre velocidad y precisión. Por ejemplo, YOLO11m tenía un 22 % menos de parámetros que YOLOv8m, pero aún así ofrecía un mejor rendimiento de detección en el conjunto de datos COCO, una referencia muy utilizada para evaluar modelos de detección de objetos.

Basándose en estos avances, YOLO12 introduce un cambio en la forma de procesar la información visual. En lugar de tratar todas las partes de una imagen por igual, prioriza las áreas más relevantes, mejorando la precisión de la detección. En pocas palabras, YOLO12 se basa en las mejoras anteriores con el objetivo de ser más preciso.

Características principales de YOLO12

YOLO12 introduce varias mejoras que potencian las tareas de visión por ordenador manteniendo intacta la velocidad de procesamiento en tiempo real. He aquí un resumen de las principales características de YOLO12:

  • Arquitectura centrada en la atención: En lugar de tratar todas las partes de una imagen por igual, YOLO12 se centra en las áreas más importantes. Esto mejora la precisión y reduce el procesamiento innecesario, haciendo que la detección sea más nítida y eficiente, incluso en imágenes desordenadas.
  • FlashAtención: YOLO12 acelera el análisis de imágenes utilizando menos memoria. Con FlashAttention (un algoritmo de uso eficiente de la memoria), optimiza el manejo de datos, reduciendo la carga del hardware y haciendo que las tareas en tiempo real sean más fluidas y fiables.
  • Redes de Agregación de Capas Residualmente Eficientes (R-ELAN): YOLO12 organiza sus capas de forma más eficiente utilizando R-ELAN, lo que mejora la forma en que el modelo procesa y aprende de los datos. Esto hace que el entrenamiento sea más estable, que el reconocimiento de objetos sea más nítido y que los requisitos informáticos sean menores, por lo que funciona con eficacia en distintos entornos.

Para entender cómo funcionan estas funciones en la vida real, pensemos en un centro comercial. YOLO12 puede ayudar a rastrear a los compradores, identificar la decoración de la tienda, como plantas en macetas o carteles promocionales, y detectar artículos extraviados o abandonados. 

Su arquitectura centrada en la atención le ayuda a centrarse en los detalles más importantes, mientras que FlashAttention garantiza que procesa todo rápidamente sin sobrecargar el sistema. Esto facilita a los operadores de centros comerciales mejorar la seguridad, organizar la distribución de las tiendas y mejorar la experiencia de compra en general.

__wf_reserved_inherit
Fig. 2. Detección de objetos en un centro comercial con YOLO12.

Sin embargo, YOLO12 también viene con algunas limitaciones a tener en cuenta:

  • Tiempos de entrenamiento más lentos: Debido a su arquitectura, YOLO12 requiere más tiempo de entrenamiento en comparación con YOLO11.
  • Dificultades de exportación: Algunos usuarios pueden encontrar dificultades al exportar modelos YOLO12, sobre todo al integrarlos en entornos de despliegue específicos.

Comprender los criterios de rendimiento de YOLO12

YOLO12 se presenta en múltiples variantes, cada una optimizada para necesidades diferentes. Las versiones más pequeñas (nano y small) priorizan la velocidad y la eficiencia, por lo que son ideales para dispositivos móviles y edge computing. Las versiones mediana y grande logran un equilibrio entre velocidad y precisión, mientras que YOLO12x (extragrande) está diseñada para aplicaciones de alta precisión, como automatización industrial, imágenes médicas y sistemas de vigilancia avanzados.

Con estas variaciones, YOLO12 ofrece distintos niveles de rendimiento en función del tamaño del modelo. Las pruebas comparativas demuestran que algunas variantes de YOLO12 superan a YOLOv10 y YOLO11 en precisión, alcanzando una mayor precisión media (mAP). 

Sin embargo, algunos modelos, como YOLO12m, YOLO12l y YOLO12x, procesan las imágenes con más lentitud que YOLO11, lo que muestra un equilibrio entre la precisión de la detección y la velocidad. A pesar de ello, YOLO12 sigue siendo eficiente, ya que requiere menos parámetros que muchos otros modelos, aunque sigue utilizando más que YOLO11. Esto lo convierte en una gran elección para aplicaciones en las que la precisión es más importante que la velocidad bruta.

__wf_reserved_inherit
Fig. 3. Comparación de los Ultralytics YOLO11 y YOLO12.

Utilización de YOLO12 a través del paquete Ultralytics Python

YOLO12 es compatible con el paquete Python Ultralytics y es fácil de usar, por lo que resulta accesible tanto para principiantes como para profesionales. Con unas pocas líneas de código, los usuarios pueden cargar modelos preentrenados, ejecutar diversas tareas de visión por ordenador en imágenes y vídeos, y también entrenar YOLO12 en conjuntos de datos personalizados. El paquete Python de Ultralytics agiliza el proceso, eliminando la necesidad de complejos pasos de configuración.

Por ejemplo, estos son los pasos a seguir para utilizar YOLO12 para la detección de objetos:

  • Instale el paquete Ultralytics: En primer lugar, instale el paquete Ultralytics Python, que proporciona las herramientas necesarias para ejecutar YOLO12 de manera eficiente. Esto asegura que todas las dependencias están configuradas correctamente.
  • Cargue un modelo YOLO12 preentrenado: Elija la variante de YOLO12 adecuada (nano, pequeña, mediana, grande o extragrande) en función del nivel de precisión y velocidad requerido para su tarea.
  • Proporcione una imagen o un vídeo: Introduzca un archivo de imagen o vídeo que desee analizar. YOLO12 también puede procesar secuencias de vídeo en directo para la detección en tiempo real.
  • Ejecutar el proceso de detección: El modelo escanea los datos visuales, identifica los objetos y coloca cuadros delimitadores a su alrededor. Etiqueta cada objeto detectado con su clase prevista y su puntuación de confianza.
  • Ajuste la configuración de detección: También puede modificar parámetros como los umbrales de confianza para ajustar la precisión y el rendimiento de la detección.
  • Guardar o utilizar la salida: La imagen o el vídeo procesados, que ahora contienen objetos detectados, pueden guardarse o integrarse en una aplicación para su posterior análisis, automatización o toma de decisiones.

Estos pasos facilitan el uso de YOLO12 para diversas aplicaciones, desde la vigilancia y el seguimiento de comercios hasta la obtención de imágenes médicas y los vehículos autónomos.

Aplicaciones prácticas de YOLO12

YOLO12 puede utilizarse en diversas aplicaciones del mundo real gracias a su compatibilidad con la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de objetos orientada (OBB). 

__wf_reserved_inherit
Fig. 4. YOLO12 admite tareas como la detección de objetos y la segmentación de instancias.

Sin embargo, como hemos comentado antes, los modelos YOLO12 dan prioridad a la precisión frente a la velocidad, lo que significa que tardan algo más en procesar las imágenes que las versiones anteriores. Esta compensación hace que YOLO12 sea ideal para aplicaciones en las que la precisión es más importante que la velocidad en tiempo real, como por ejemplo:

  • Imágenes médicas: YOLO12 puede entrenarse a medida para detectar tumores o anomalías en radiografías y resonancias magnéticas con gran precisión, lo que lo convierte en una herramienta útil para médicos y radiólogos que necesitan un análisis de imágenes preciso para el diagnóstico.
  • Control de calidad en la fabricación: Puede ayudar a identificar los defectos de los productos durante el proceso de producción, garantizando que sólo lleguen al mercado artículos de alta calidad, al tiempo que se reducen los residuos y se mejora la eficiencia.
  • Análisis forense: Las fuerzas de seguridad pueden ajustar YOLO12 para analizar imágenes de vigilancia y reunir pruebas. En las investigaciones criminales, la precisión es vital para identificar detalles clave.
  • Agricultura de precisión: Los agricultores pueden utilizar YOLO12 para analizar la salud de los cultivos, detectar enfermedades o plagas y controlar las condiciones del suelo. Las evaluaciones precisas ayudan a optimizar las estrategias agrícolas, lo que mejora el rendimiento y la gestión de los recursos.

Primeros pasos con YOLO12

Antes de ejecutar YOLO12, es importante asegurarse de que su sistema cumple los requisitos necesarios.

Técnicamente, YOLO12 puede ejecutarse en cualquier GPU (Unidad de Procesamiento Gráfico) dedicada. Por defecto, no requiere FlashAttention, por lo que puede funcionar en la mayoría de los sistemas GPU sin él. Sin embargo, activar FlashAttention puede ser especialmente útil cuando se trabaja con grandes conjuntos de datos o imágenes de alta resolución, ya que ayuda a evitar ralentizaciones, reducir el uso de memoria y mejorar la eficiencia del procesamiento. 

Para utilizar FlashAttention, necesitarás una GPU NVIDIA de una de estas series: Turing (T4, Quadro RTX), Ampere (serie RTX 30, A30, A40, A100), Ada Lovelace (serie RTX 40) o Hopper (H100, H200).

Teniendo en cuenta la usabilidad y la accesibilidad, el paquete Python de Ultralytics aún no admite la inferencia de FlashAttention, ya que su instalación puede ser bastante compleja desde el punto de vista técnico. Para obtener más información sobre cómo empezar a utilizar YOLO12 y optimizar su rendimiento, consulta la documentación oficial de Ultralytics.

Principales conclusiones

A medida que avanza la visión por ordenador, los modelos son cada vez más precisos y eficaces. YOLO12 mejora tareas de visión por ordenador como la detección de objetos, la segmentación de instancias y la clasificación de imágenes con un procesamiento centrado en la atención y FlashAttention, lo que aumenta la precisión al tiempo que optimiza el uso de la memoria.

Al mismo tiempo, la visión por ordenador es más accesible que nunca. YOLO12 es fácil de usar a través del paquete Python Ultralytics y, al primar la precisión sobre la velocidad, resulta muy adecuado para la obtención de imágenes médicas, las inspecciones industriales y la robótica, aplicaciones en las que la precisión es clave.

¿Siente curiosidad por la IA? Visite nuestro repositorio de GitHub y participe con nuestra comunidad. Explore innovaciones en sectores como la IA en los coches autónomos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. Consulta nuestras opciones de licencia y da vida a tus proyectos de Vision AI. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles