Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Explora el último modelo Ultralytics YOLO, Ultralytics YOLO26, y sus características de vanguardia que favorecen un equilibrio óptimo entre velocidad, precisión y capacidad de implementación.
El 25 de septiembre, en nuestro evento híbrido anual, YOLO Vision 2025 (YV25) en Londres, Glenn Jocher, nuestro fundador y CEO, anunció oficialmente el último avance en la serie de modelos Ultralytics YOLO, ¡Ultralytics YOLO26! Nuestro nuevo modelo de visión artificial, YOLO26, puede analizar e interpretar imágenes y vídeo con una arquitectura optimizada que equilibra la velocidad, la precisión y la facilidad de implementación.
Si bien Ultralytics YOLO26 simplifica aspectos del diseño del modelo y añade nuevas mejoras, también sigue ofreciendo las características familiares que los usuarios esperan de los modelos Ultralytics YOLO. Por ejemplo, Ultralytics YOLO26 es fácil de usar, admite una amplia gama de tareas de visión artificial y ofrece opciones flexibles de integración e implementación.
Ni que decir tiene que esto hace que el cambio al uso de Ultralytics YOLO26 sea sencillo, y estamos ansiosos por ver a los usuarios experimentarlo por sí mismos cuando esté disponible públicamente a finales de octubre.
Fig. 1. Un ejemplo del uso de YOLO26 para detectar objetos en una imagen.
En pocas palabras, Ultralytics YOLO26 es un modelo de Visión Artificial mejor, más rápido y más pequeño. En este artículo, exploraremos las características clave de Ultralytics YOLO26 y lo que aporta. ¡Empecemos!
Superando los límites de la visión artificial con Ultralytics YOLO26
Antes de profundizar en las características clave de Ultralytics YOLO26 y las aplicaciones que hace posible, retrocedamos un poco y analicemos la inspiración y la motivación que impulsaron el desarrollo de este modelo.
En Ultralytics, siempre hemos creído en el poder de la innovación. Desde el principio, nuestra misión ha sido doble. Por un lado, queremos que la Visión Artificial sea accesible para que cualquiera pueda utilizarla sin barreras. Por otro lado, estamos igualmente comprometidos a mantenerla a la vanguardia, superando los límites de lo que pueden lograr los modelos de visión artificial.
Un factor clave detrás de esta misión es que el espacio de la IA está en constante evolución. Por ejemplo, la IA en el borde, que implica ejecutar modelos de IA directamente en los dispositivos en lugar de depender de la nube, se está adoptando rápidamente en todas las industrias.
Desde cámaras inteligentes hasta sistemas autónomos, se espera que los dispositivos en el edge procesen información en tiempo real. Este cambio exige modelos que sean más ligeros y rápidos, sin dejar de ofrecer el mismo alto nivel de precisión.
Es por eso que existe una necesidad constante de seguir mejorando nuestros modelos Ultralytics YOLO. Como dice Glenn Jocher, “Uno de los mayores desafíos fue asegurarse de que los usuarios puedan aprovechar al máximo YOLO26 sin dejar de ofrecer el máximo rendimiento.”
Una visión general de Ultralytics YOLO26
YOLO26 está disponible de fábrica en cinco variantes de modelo diferentes, lo que le brinda la flexibilidad de aprovechar sus capacidades en aplicaciones de cualquier escala. Todas estas variantes de modelo admiten múltiples tareas de visión artificial, al igual que los modelos Ultralytics YOLO anteriores. Esto significa que, sin importar el tamaño que elija, puede confiar en YOLO26 para ofrecer una amplia gama de capacidades, al igual que Ultralytics YOLO11.
Detección de objetos: YOLO26 puede identificar y localizar múltiples objetos dentro de una imagen o fotograma de vídeo.
Segmentación de instancias: Yendo un paso más allá de la detección, YOLO26 puede generar límites perfectos a nivel de píxel alrededor de cada objeto que identifica.
Clasificación de imágenes: El modelo puede analizar una imagen completa y asignarla a una categoría o etiqueta específica.
Estimación de la pose: YOLO26 puede detectar puntos clave y estimar poses tanto para humanos como para otros objetos.
Cajas delimitadoras orientadas (OBB): El modelo puede detectar objetos en cualquier ángulo, lo cual es especialmente útil para imágenes aéreas, de drones y satelitales, donde elementos como edificios, vehículos o cultivos pueden no estar alineados con el marco de la imagen.
Seguimiento de objetos: YOLO26 se puede utilizar para rastrear objetos a través de fotogramas de video o transmisiones en tiempo real.
Fig. 2. Detección de objetos en una imagen usando YOLO26.
Una mirada a la arquitectura de YOLO26
Ahora que comprendemos mejor de lo que es capaz YOLO26, veamos algunas de las innovaciones en su arquitectura.
El diseño del modelo se ha optimizado eliminando el módulo Distribution Focal Loss (DFL), que antes ralentizaba la inferencia y limitaba la regresión del cuadro delimitador.
El proceso de predicción también se ha simplificado con una opción de inferencia end-to-end (E2E), que permite al modelo omitir el paso tradicional de supresión no máxima (NMS). Esta mejora reduce la complejidad y permite que el modelo ofrezca resultados más rápidamente, lo que facilita la implementación en aplicaciones del mundo real.
Otras mejoras hacen que el modelo sea más inteligente y fiable. El equilibrio progresivo de la pérdida (ProgLoss) ayuda a estabilizar el entrenamiento y a mejorar la precisión, mientras que la asignación de etiquetas con reconocimiento de objetivos pequeños (STAL) garantiza que el modelo detecte los objetos pequeños con mayor eficacia. Además de esto, un nuevo optimizador MuSGD mejora la convergencia del entrenamiento e impulsa el rendimiento general.
De hecho, la versión más pequeña de YOLO26, el modelo nano, ahora se ejecuta hasta un 43% más rápido en las CPU estándar, lo que lo hace especialmente adecuado para aplicaciones móviles, cámaras inteligentes y otros dispositivos de borde donde la velocidad y la eficiencia son fundamentales.
Aquí hay un breve resumen de las características de YOLO26 y lo que los usuarios pueden esperar:
Eliminación de DFL: Hemos eliminado el módulo Distribution Focal Loss de la arquitectura del modelo. Independientemente del tamaño de los objetos en una imagen, YOLO26 puede colocar cuadros delimitadores a medida mientras se ejecuta de manera más eficiente.
Inferencia NMS sin fin a fin: YOLO26 agrega un modo opcional que no necesita Supresión No Máxima (NMS), un paso que normalmente se usa para eliminar predicciones duplicadas, lo que simplifica y acelera la implementación para el uso en tiempo real.
ProgLoss y STAL: Estas mejoras hacen que el entrenamiento sea más estable y aumentan significativamente la precisión, especialmente para detectar objetos pequeños en escenas complejas.
Optimizador MuSGD: YOLO26 utiliza un nuevo optimizador que combina las fortalezas de dos optimizadores de entrenamiento (Muon y SGD), lo que ayuda al modelo a aprender más rápido y alcanzar una mayor precisión.
Fig. 3. Evaluación comparativa de YOLO26.
Simplificando la implementación con Ultralytics YOLO26
Tanto si trabajas en aplicaciones móviles, cámaras inteligentes o sistemas empresariales, la implementación de YOLO26 es sencilla y flexible. El paquete de Python de Ultralytics admite un número cada vez mayor de formatos de exportación, lo que facilita la integración de YOLO26 en los flujos de trabajo existentes y lo hace compatible con casi cualquier plataforma.
Algunas de las opciones de exportación incluyen TensorRT para una máxima aceleración de la GPU, ONNX para una amplia compatibilidad, CoreML para aplicaciones nativas de iOS, TFLite para dispositivos Android y de borde, y OpenVINO para un rendimiento optimizado en hardware Intel. Esta flexibilidad facilita el paso de YOLOv8 del desarrollo a la producción sin obstáculos adicionales.
Otra parte crucial de la implementación es asegurarse de que los modelos se ejecuten de manera eficiente en dispositivos con recursos limitados. Aquí es donde entra en juego la cuantificación. Gracias a su arquitectura simplificada, YOLO26 maneja esto excepcionalmente bien. Admite la implementación INT8 (utilizando compresión de 8 bits para reducir el tamaño y mejorar la velocidad con una pérdida mínima de precisión), así como la media precisión (FP16) para una inferencia más rápida en hardware compatible.
Lo más importante es que YOLO26 ofrece un rendimiento constante en estos niveles de cuantificación, por lo que puede confiar en él tanto si se ejecuta en un servidor potente como en un dispositivo edge compacto.
De la robótica a la fabricación: Casos de uso de YOLO26
YOLO26 se puede utilizar en una amplia variedad de aplicaciones de visión artificial en muchas industrias y casos de uso diferentes. Desde la robótica hasta la fabricación, puede tener un impacto significativo al mejorar los flujos de trabajo y permitir una toma de decisiones más rápida y precisa.
Por ejemplo, un buen caso es en robótica, donde YOLO26 puede ayudar a los robots a interpretar su entorno en tiempo real. Esto facilita la navegación y hace que el manejo de objetos sea más preciso. También permite una colaboración más segura con las personas.
Otro ejemplo es la fabricación, donde el modelo se puede utilizar para la detección de defectos. Puede identificar automáticamente fallas en las líneas de producción de forma más rápida y precisa que la inspección manual.
Fig. 4. Detección de botellas en una fábrica utilizando YOLO26.
En general, debido a que YOLO26 es mejor, más rápido y más ligero, se adapta fácilmente a una amplia gama de entornos, desde dispositivos de borde ligeros hasta grandes sistemas empresariales. Esto lo convierte en una opción práctica para las industrias que buscan mejorar la eficiencia, la precisión y la fiabilidad.
Conclusiones clave
Ultralytics YOLO26 es un modelo de visión artificial mejor, más rápido y más ligero, que a la vez sigue siendo fácil de usar y ofrece un gran rendimiento. Funciona en una amplia gama de tareas y plataformas y estará disponible para todo el mundo a finales de octubre. Estamos impacientes por ver cómo la comunidad lo utiliza para crear nuevas soluciones y superar los límites de la visión artificial.