Yolo Vision Shenzhen
Shenzhen
Únete ahora

Cómo Ultralytics entrena de forma más inteligente con ProgLoss, STAL y MuSGD

Descubra cómo Ultralytics entrena de forma más fiable utilizando el equilibrio progresivo de pérdidas, la asignación de etiquetas con reconocimiento de objetivos pequeños y el optimizador MuSGD.

La semana pasada lanzamos Ultralytics , estableciendo un nuevo estándar para los modelos de visión artificial en tiempo real y orientados al borde. Al igual que YOLO anteriores Ultralytics YOLO , como Ultralytics YOLO11, YOLO26 es compatible con las tareas básicas de visión artificial con las que los usuarios están familiarizados, como la detección de objetos, la segmentación de instancias y la estimación de poses.

Fig. 1. Ejemplo del uso de YOLO26 para segment en una imagen.

Sin embargo, YOLO26 no es solo una actualización incremental. Aunque las tareas compatibles pueden parecer familiares, este nuevo modelo representa un innovador paso adelante en la forma en que se entrenan los modelos de visión artificial. Con YOLO26, el enfoque va más allá de la eficiencia de la inferencia para hacer que el entrenamiento sea más estable.

YOLO26 se diseñó teniendo en cuenta todo el ciclo de vida del entrenamiento. Esto se traduce en una convergencia más rápida, ejecuciones de entrenamiento más fiables y un comportamiento coherente del modelo. Estas mejoras son especialmente importantes en los flujos de trabajo del mundo real, donde la fiabilidad del entrenamiento afecta directamente a la rapidez con la que se pueden iterar y desplegar los modelos. 

Para ello, YOLO26 introduce varias innovaciones específicas en el entrenamiento, como el equilibrio progresivo de pérdidas (ProgLoss), la asignación de etiquetas con reconocimiento de objetivos pequeños (STAL) y el optimizador MuSGD. En conjunto, estos cambios mejoran el equilibrio de las pérdidas de aprendizaje, la asignación de etiquetas y el comportamiento de la optimización a lo largo del tiempo.

En este artículo, exploraremos cómo funciona cada uno de estos mecanismos y por qué hacen que Ultralytics sea más fácil de entrenar y más fiable a gran escala. ¡Empecemos!

Ultralytics : Diseñado para entrenar de forma más inteligente, no solo para correr más rápido.

Ultralytics optimiza de forma nativa todo el proceso de inferencia al eliminar la dependencia de pasos de posprocesamiento, como la supresión no máxima. En lugar de generar muchas predicciones superpuestas y filtrarlas posteriormente, YOLO26 produce detecciones finales directamente desde la red. 

Esto convierte a YOLO26 en un modelo integral, en el que la predicción, la resolución de duplicados y los resultados finales se aprenden dentro de la propia red. Esto simplifica la implementación y mejora la eficiencia de la inferencia, al tiempo que da forma al modo en que el modelo aprende durante el entrenamiento.

Fig. 2. YOLO26 ofrece una inferencia integral de última generación NMS(Fuente)

En un sistema integral como este, el entrenamiento y la inferencia están estrechamente relacionados. Dado que no existe una etapa de posprocesamiento externo para corregir las predicciones posteriormente, el modelo debe aprender a tomar decisiones claras y seguras durante el propio entrenamiento. 

Esto hace que la alineación entre los objetivos de entrenamiento y el comportamiento de inferencia sea especialmente importante. Cualquier discrepancia entre cómo se entrena el modelo y cómo se utiliza en el momento de la inferencia puede dar lugar a un aprendizaje inestable o a una convergencia más lenta.

YOLO26 aborda este problema diseñando su proceso de entrenamiento en torno al uso en el mundo real desde el principio. En lugar de centrarse únicamente en la velocidad de inferencia, el sistema de entrenamiento está diseñado para permitir un aprendizaje estable a largo plazo, una convergencia coherente en todos los tamaños de modelos, desde Nano hasta Extra Large, y un rendimiento sólido en diversos conjuntos de datos.

Cómo dos cabezales de entrenamiento mejoran el aprendizaje en Ultralytics

Una de las innovaciones clave en el entrenamiento Ultralytics se basa en un enfoque de entrenamiento de dos cabezas utilizado en YOLO anteriores. En los modelos de detección de objetos, una cabeza se refiere a la parte de la red responsable de realizar predicciones. 

En otras palabras, los cabezales de detección aprenden a predecir dónde se encuentran los objetos en una imagen y qué objetos son. Lo hacen mediante la regresión de las coordenadas del cuadro delimitador, lo que significa que aprenden a estimar la posición y el tamaño de cada objeto en la imagen de entrada.

Durante el entrenamiento, el modelo aprende minimizando una pérdida, que es una medida numérica de la distancia entre sus predicciones y las respuestas correctas o la verdad fundamental. Una pérdida menor significa que las predicciones del modelo están más cerca de la verdad fundamental, mientras que una pérdida mayor indica errores más grandes. El cálculo de la pérdida guía la forma en que el modelo actualiza sus parámetros durante el entrenamiento.

YOLO26 utiliza dos cabezales de detección durante el entrenamiento que comparten el mismo modelo subyacente, pero tienen diferentes propósitos. El cabezal uno a uno es el que se utiliza en el momento de la inferencia. Aprende a asociar cada objeto con una única predicción fiable, lo cual es esencial para el diseño integral y NMS de YOLO26.

Por su parte, el cabezal uno a muchos solo se utiliza durante el entrenamiento. Permite asociar múltiples predicciones al mismo objeto, lo que proporciona una supervisión más densa. Esta señal de aprendizaje más rica ayuda a estabilizar el entrenamiento y a mejorar la precisión, especialmente en las primeras etapas.

En YOLO26, ambos cabezales utilizan el mismo cálculo de pérdida para la regresión de cajas y la clasificación. Las implementaciones anteriores aplicaban un equilibrio fijo entre estas dos señales de pérdida durante todo el entrenamiento. 

Sin embargo, en la práctica, la importancia de cada cabeza cambia con el tiempo. La supervisión densa es más útil al principio, mientras que la alineación con el comportamiento de inferencia cobra mayor importancia en las últimas fases del entrenamiento. YOLO26 se ha diseñado basándose en esta idea, lo que influye directamente en cómo reequilibra las señales de aprendizaje a medida que avanza el entrenamiento.

Ultralytics utiliza el equilibrio de pérdidas progresivo.

Entonces, ¿cómo gestiona Ultralytics estas necesidades de aprendizaje cambiantes durante el entrenamiento? Utiliza el equilibrio de pérdida progresiva para ajustar cómo se ponderan las señales de aprendizaje a lo largo del tiempo.

ProgLoss funciona cambiando dinámicamente la contribución de cada cabeza a la pérdida total a medida que avanza el entrenamiento. Al principio, se da más peso a la cabeza uno a muchos para estabilizar el aprendizaje y mejorar la memoria. A medida que avanza el entrenamiento, el equilibrio se desplaza gradualmente hacia la cabeza uno a uno, alineando el entrenamiento más estrechamente con el comportamiento de inferencia.

Esta transición gradual permite a YOLO26 aprender en el orden correcto. En lugar de obligar al modelo a optimizar objetivos contrapuestos a la vez, el equilibrio progresivo de pérdidas prioriza la señal de aprendizaje más útil en cada etapa del entrenamiento. El resultado es una convergencia más suave, menos ejecuciones de entrenamiento inestables y un rendimiento final más consistente.

Cómo STAL ayuda a Ultralytics a aprender de objetos diminutos

Otra mejora interesante en el entrenamiento Ultralytics proviene de la forma en que el modelo asigna objetivos de entrenamiento a las predicciones, un proceso conocido como asignación de etiquetas. Es responsable de hacer coincidir los objetos de referencia con las predicciones candidatas, a menudo denominadas anclajes. 

Estas coincidencias determinan qué predicciones reciben supervisión y contribuyen a la pérdida. YOLO26 se basa en un método de asignación de etiquetas existente denominado Task Alignment Learning (TAL), que fue diseñado para alinear mejor la clasificación y la localización durante el entrenamiento.

Aunque TAL funciona bien con la mayoría de los objetos, el entrenamiento reveló una limitación importante. Durante el proceso de emparejamiento, los objetos muy pequeños podían desaparecer por completo. En la práctica, los objetos más pequeños que unos 8 píxeles en una imagen de entrada de 640 píxeles a menudo no recibían ninguna asignación de anclaje. Cuando esto ocurre, el modelo recibe poca o ninguna supervisión para esos objetos, lo que dificulta aprender a detect de forma fiable.

Para abordar este problema, YOLO26 introduce la asignación de etiquetas sensibles a objetivos pequeños (STAL). STAL modifica el proceso de asignación para garantizar que los objetos pequeños no se ignoren durante el entrenamiento. En concreto, impone un mínimo de cuatro asignaciones de anclaje para objetos menores de 8 píxeles. Esto garantiza que incluso los objetos más pequeños contribuyan de forma consistente a la pérdida de entrenamiento.

Al reforzar la supervisión de objetivos pequeños, STAL mejora la estabilidad del aprendizaje y el rendimiento de la detección en escenarios en los que son habituales los objetos pequeños o distantes. Esta mejora es especialmente importante para aplicaciones YOLO26 de borde primero , como imágenes aéreas, robótica y sistemas de Internet de las cosas (IoT), en los que los objetos suelen ser pequeños, distantes o parcialmente visibles y es fundamental una detección fiable.

Ultralytics presenta el optimizador MuSGD.

Para facilitar un entrenamiento más estable y predecible, Ultralytics también introduce un nuevo optimizador llamado MuSGD. Este optimizador está diseñado para mejorar la convergencia y la fiabilidad del entrenamiento en modelos de detección de extremo a extremo, especialmente a medida que aumenta el tamaño del modelo y la complejidad del entrenamiento.

Para que una red neuronal aprenda y, en consecuencia, cambie los pesos según corresponda, durante el entrenamiento calculamos un error (también denominado «pérdida»). Por lo tanto, el modelo mide el grado de error de sus predicciones utilizando un valor de pérdida, calcula los gradientes que indican cómo deben cambiar sus parámetros y, a continuación, actualiza dichos parámetros para reducir el error. El descenso estocástico del gradiente (SGD) es un optimizador muy utilizado que realiza estas actualizaciones, lo que hace que el entrenamiento sea eficiente y escalable.

Fig. 3. Descenso estocástico por gradiente frente a descenso por gradiente (Fuente)

MuSGD se basa en esta base familiar incorporando ideas de optimización inspiradas en Muon, un método utilizado en el entrenamiento de modelos de lenguaje grandes. Estas ideas se vieron influenciadas por avances recientes como Kimi K2 de Moonshot AI, que demostró un comportamiento de entrenamiento mejorado a través de actualizaciones de parámetros más estructuradas.

YOLO26 utiliza una estrategia de actualización híbrida. Algunos parámetros se actualizan utilizando una combinación de actualizaciones inspiradas en Muon y SGD, mientras que otros utilizan SGD . Esto permite a YOLO26 introducir una estructura adicional en el proceso de optimización, al tiempo que mantiene las propiedades de robustez y generalización que han hecho que SGD .

El resultado es una optimización más fluida, una convergencia más rápida y un comportamiento de entrenamiento más predecible en todos los tamaños de modelos, lo que convierte a MuSGD en una pieza clave para que YOLO26 sea más fácil de entrenar y más fiable a gran escala.

La importancia de las innovaciones en formación Ultralytics

Las innovaciones en el entrenamiento Ultralytics , combinadas con características clave como su diseño integral, NMS y centrado en el borde, hacen que el modelo sea más fácil de entrenar y más fiable a gran escala. Quizás se pregunte qué significa eso realmente para las aplicaciones de visión artificial.

Fig. 4. Resumen de las características principales de YOLO26 (Fuente)

En la práctica, facilita mucho llevar la visión artificial al lugar donde realmente se ejecuta. Los modelos se entrenan de forma más predecible, se escalan de manera más consistente en todos los tamaños y son más fáciles de adaptar a nuevos conjuntos de datos. Esto reduce la fricción entre la experimentación y la implementación, especialmente en entornos donde la fiabilidad y la eficiencia son tan importantes como el rendimiento bruto.

Por ejemplo, en aplicaciones de robótica y visión industrial, los modelos suelen necesitar un reentrenamiento frecuente a medida que cambian los entornos, los sensores o las tareas. Con YOLO26, los equipos pueden iterar más rápidamente sin preocuparse por la inestabilidad de las ejecuciones de entrenamiento o el comportamiento inconsistente entre los distintos tamaños de modelos.

Conclusiones clave

Los sistemas de visión artificial fiables dependen tanto de cómo se entrenan los modelos como de su rendimiento en el momento de la inferencia. Al mejorar el equilibrio de las señales de aprendizaje, el manejo de objetos pequeños y el progreso de la optimización, YOLO26 hace que el entrenamiento sea más estable y fácil de escalar. Este enfoque en el entrenamiento fiable ayuda a los equipos a pasar con mayor fluidez de la experimentación a la implementación en el mundo real, especialmente en aplicaciones edge-first.

¿Quieres aprender sobre IA? Visita nuestro repositorio GitHub para obtener más información. Únete a nuestra activa comunidad y descubre las innovaciones en sectores como la IA en logística y la visión artificial en la industria automovilística. Para empezar hoy mismo con la visión artificial, consulta nuestras opciones de licencia.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis