Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
¡Descubre YOLO12, el último modelo de visión artificial! Aprende cómo su arquitectura centrada en la atención y la tecnología FlashAttention mejoran las tareas de detección de objetos en diversas industrias.
La visión artificial es una rama de la inteligencia artificial (IA) que ayuda a las máquinas a comprender imágenes y vídeos. Es un campo que avanza a un ritmo increíble porque los investigadores y desarrolladores de IA están constantemente superando los límites. La comunidad de la IA siempre tiene como objetivo hacer que los modelos sean más rápidos, inteligentes y eficientes. Uno de los últimos avances es YOLO12, la más reciente incorporación a la serie de modelos YOLO (You Only Look Once), lanzada el 18 de febrero de 2025.
YOLO12 fue desarrollado por investigadores de la Universidad de Buffalo, SUNY (Universidad Estatal de Nueva York) y la Universidad de la Academia China de Ciencias. Con un nuevo enfoque único, YOLO12 introduce mecanismos de atención, lo que permite al modelo centrarse en las partes más esenciales de una imagen en lugar de procesarlo todo por igual.
También cuenta con FlashAttention, una técnica que acelera el procesamiento al tiempo que utiliza menos memoria, y un mecanismo de atención de área, diseñado para imitar la forma en que los humanos se centran naturalmente en los objetos centrales.
Estas mejoras hacen que YOLO12n sea un 2,1% más preciso que YOLOv10n y YOLO12m un +1,0% más preciso que YOLO11m. Sin embargo, esto tiene una contrapartida: YOLO12n es un 9% más lento que YOLOv10n, y YOLO12m es un 3% más lento que YOLO11m.
Fig 1. Un ejemplo de YOLO12 utilizado para detectar objetos.
En este artículo, exploraremos qué hace diferente a YOLO12, cómo se compara con las versiones anteriores y dónde se puede aplicar.
El camino hacia el lanzamiento de YOLO12
La serie de modelos YOLO es una colección de modelos de visión artificial diseñados para la detección de objetos en tiempo real, lo que significa que pueden identificar y localizar rápidamente objetos en imágenes y vídeos. Con el tiempo, cada versión ha mejorado en términos de velocidad, precisión y eficiencia.
Por ejemplo, Ultralytics YOLOv5, lanzado en 2020, se hizo muy popular porque era rápido y fácil de entrenar y desplegar de forma personalizada. Más tarde, Ultralytics YOLOv8 mejoró esto al ofrecer soporte adicional para tareas de visión artificial como la segmentación de instancias y el seguimiento de objetos.
Más recientemente, Ultralytics YOLO11 se centró en mejorar el procesamiento en tiempo real manteniendo un equilibrio entre velocidad y precisión. Por ejemplo, YOLO11m tenía un 22% menos de parámetros que YOLOv8m, pero aún así ofrecía un mejor rendimiento de detección en el conjunto de datos COCO, un punto de referencia ampliamente utilizado para evaluar los modelos de detección de objetos.
Basándose en estos avances, YOLO12 introduce un cambio en la forma en que procesa la información visual. En lugar de tratar todas las partes de una imagen por igual, prioriza las áreas más relevantes, mejorando la precisión de la detección. En pocas palabras, YOLO12 se basa en mejoras anteriores con el objetivo de ser más preciso.
Características clave de YOLO12
YOLO12 introduce varias mejoras que optimizan las tareas de visión artificial manteniendo intactas las velocidades de procesamiento en tiempo real. Aquí tienes una visión general de las características clave de YOLO12:
Arquitectura centrada en la atención: En lugar de tratar cada parte de una imagen por igual, YOLO12 se centra en las áreas más importantes. Esto mejora la precisión y reduce el procesamiento innecesario, lo que hace que la detección sea más nítida y eficiente, incluso en imágenes saturadas.
FlashAttention: YOLO12 acelera el análisis de imágenes al tiempo que utiliza menos memoria. Con FlashAttention (un algoritmo de eficiencia de memoria), optimiza el manejo de datos, reduciendo la tensión del hardware y haciendo que las tareas en tiempo real sean más fluidas y fiables.
Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 organiza sus capas de manera más eficiente utilizando R-ELAN, lo que mejora la forma en que el modelo procesa y aprende de los datos. Esto hace que el entrenamiento sea más estable, el reconocimiento de objetos más nítido y los requisitos de computación más bajos, por lo que se ejecuta de manera eficiente en diferentes entornos.
Para entender cómo funcionan estas características en la vida real, considere un centro comercial. YOLO12 puede ayudar a rastrear a los compradores, identificar decoraciones de tiendas como plantas en macetas o carteles promocionales, y detectar artículos extraviados o abandonados.
Su arquitectura centrada en la atención le ayuda a centrarse en los detalles más importantes, mientras que FlashAttention asegura que procesa todo rápidamente sin sobrecargar el sistema. Esto facilita a los operadores de centros comerciales la mejora de la seguridad, la organización de la distribución de las tiendas y la mejora de la experiencia de compra en general.
Fig 2. Detección de objetos en un centro comercial utilizando YOLO12.
Sin embargo, YOLO12 también viene con algunas limitaciones a tener en cuenta:
Tiempos de entrenamiento más lentos: Debido a su arquitectura, YOLO12 requiere más tiempo de entrenamiento en comparación con YOLO11.
Desafíos de exportación: Algunos usuarios pueden encontrar dificultades al exportar modelos YOLO12, particularmente al integrarlos en entornos de implementación específicos.
Entendiendo los 'benchmarks' de rendimiento de YOLO12
YOLO12 viene en múltiples variantes, cada una optimizada para diferentes necesidades. Las versiones más pequeñas (nano y small) priorizan la velocidad y la eficiencia, lo que las hace ideales para dispositivos móviles y 'edge computing'. Las versiones medianas y grandes logran un equilibrio entre velocidad y precisión, mientras que YOLO12x (extra grande) está diseñado para aplicaciones de alta precisión, como la automatización industrial, las imágenes médicas y los sistemas de vigilancia avanzados.
Con estas variaciones, YOLO12 ofrece diferentes niveles de rendimiento dependiendo del tamaño del modelo. Las pruebas de 'benchmark' muestran que ciertas variantes de YOLO12 superan a YOLOv10 y YOLO11 en precisión, logrando una mayor precisión media promedio (mAP).
Sin embargo, algunos modelos, como YOLO12m, YOLO12l y YOLO12x, procesan las imágenes más lentamente que YOLO11, lo que muestra una compensación entre la precisión de la detección y la velocidad. A pesar de esto, YOLO12 sigue siendo eficiente, requiriendo menos parámetros que muchos otros modelos, aunque todavía utiliza más que YOLO11. Esto lo convierte en una gran opción para aplicaciones donde la precisión es más importante que la velocidad bruta.
Fig 3. Comparación de Ultralytics YOLO11 y YOLO12.
Usando YOLO12 a través del paquete de Python de Ultralytics
YOLO12 es compatible con el paquete de Python de Ultralytics y es fácil de usar, lo que lo hace accesible tanto para principiantes como para profesionales. Con sólo unas pocas líneas de código, los usuarios pueden cargar modelos pre-entrenados, ejecutar varias tareas de visión artificial en imágenes y vídeos, y también entrenar YOLO12 en conjuntos de datos personalizados. El paquete de Python de Ultralytics agiliza el proceso, eliminando la necesidad de complejos pasos de configuración.
Instale el paquete Ultralytics: Primero, instale el paquete de Python de Ultralytics, que proporciona las herramientas necesarias para ejecutar YOLO12 de manera eficiente. Esto asegura que todas las dependencias estén configuradas correctamente.
Cargue un modelo YOLO12 pre-entrenado: Elija la variante YOLO12 apropiada (nano, small, medium, large o extra large) en función del nivel de precisión y velocidad requerido para su tarea.
Proporcione una imagen o vídeo: Introduzca un archivo de imagen o vídeo que desee analizar. YOLO12 también puede procesar transmisiones de vídeo en directo para la detección en tiempo real.
Ejecute el proceso de detección: El modelo escanea los datos visuales, identifica los objetos y coloca cuadros delimitadores a su alrededor. Etiqueta cada objeto detectado con su clase predicha y su puntuación de confianza.
Ajuste la configuración de detección: También puede modificar parámetros como los umbrales de confianza para afinar la precisión y el rendimiento de la detección.
Guarde o utilice la salida: La imagen o el vídeo procesado, que ahora contiene los objetos detectados, se puede guardar o integrar en una aplicación para su posterior análisis, automatización o toma de decisiones.
Estos pasos hacen que YOLO12 sea fácil de usar para una variedad de aplicaciones, desde la vigilancia y el seguimiento minorista hasta las imágenes médicas y los vehículos autónomos.
Aplicaciones prácticas de YOLO12
YOLO12 se puede utilizar en una variedad de aplicaciones del mundo real gracias a su compatibilidad con la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de objetos orientados (OBB).
Fig. 4. YOLO12 admite tareas como la detección de objetos y la segmentación de instancias.
Sin embargo, como comentamos anteriormente, los modelos YOLO12 priorizan la precisión sobre la velocidad, lo que significa que tardan un poco más en procesar las imágenes en comparación con las versiones anteriores. Esta compensación hace que YOLO12 sea ideal para aplicaciones donde la precisión es más importante que la velocidad en tiempo real, como:
Imágenes médicas: YOLO12 se puede entrenar a medida para detectar tumores o anomalías en radiografías y resonancias magnéticas con alta precisión, lo que lo convierte en una herramienta útil para médicos y radiólogos que necesitan un análisis de imagen preciso para el diagnóstico.
Control de calidad en la fabricación: Puede ayudar a identificar defectos del producto durante el proceso de producción, garantizando que solo los artículos de alta calidad lleguen al mercado, reduciendo el desperdicio y mejorando la eficiencia.
Análisis forense: Las agencias de aplicación de la ley pueden ajustar YOLO12 para analizar imágenes de vigilancia y recopilar pruebas. En las investigaciones criminales, la precisión es vital para identificar detalles clave.
Agricultura de precisión: Los agricultores pueden utilizar YOLO12 para analizar la salud de los cultivos, detectar enfermedades o infestaciones de plagas y supervisar las condiciones del suelo. Las evaluaciones precisas ayudan a optimizar las estrategias agrícolas, lo que conduce a un mejor rendimiento y gestión de los recursos.
Primeros pasos con YOLO12
Antes de ejecutar YOLO12, es importante asegurarse de que su sistema cumple con los requisitos necesarios.
Técnicamente, YOLO12 puede ejecutarse en cualquier GPU (Unidad de Procesamiento Gráfico) dedicada. De forma predeterminada, no requiere FlashAttention, por lo que puede funcionar en la mayoría de los sistemas GPU sin él. Sin embargo, habilitar FlashAttention puede ser especialmente útil cuando se trabaja con grandes conjuntos de datos o imágenes de alta resolución, ya que ayuda a prevenir ralentizaciones, reducir el uso de memoria y mejorar la eficiencia del procesamiento.
Para utilizar FlashAttention, necesitará una GPU NVIDIA de una de estas series: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) o Hopper (H100, H200).
Teniendo en cuenta la usabilidad y la accesibilidad, el paquete de Python de Ultralytics aún no es compatible con la inferencia de FlashAttention, ya que su instalación puede ser bastante compleja desde el punto de vista técnico. Para obtener más información sobre cómo empezar a utilizar YOLO12 y optimizar su rendimiento, consulte la documentación oficial de Ultralytics.
Conclusiones clave
A medida que avanza la visión artificial, los modelos son cada vez más precisos y eficientes. YOLO12 mejora las tareas de visión artificial, como la detección de objetos, la segmentación de instancias y la clasificación de imágenes, con procesamiento centrado en la atención y FlashAttention, lo que mejora la precisión al tiempo que optimiza el uso de la memoria.
Al mismo tiempo, la visión artificial es más accesible que nunca. YOLO12 es fácil de usar a través del paquete de Python de Ultralytics y, con su enfoque en la precisión sobre la velocidad, es muy adecuado para imágenes médicas, inspecciones industriales y robótica: aplicaciones donde la precisión es clave.