Cómo Ultralytics YOLO26 entrena de forma más inteligente con ProgLoss, STAL y MuSGD
Aprende cómo Ultralytics YOLO26 entrena de forma más fiable utilizando Progressive Loss Balancing, Small-Target-Aware Label Assignment y el optimizador MuSGD.

La semana pasada lanzamos Ultralytics YOLO26, estableciendo un nuevo estándar para modelos de visión artificial en tiempo real orientados al edge. Al igual que los modelos Ultralytics YOLO anteriores, como Ultralytics YOLO11, YOLO26 admite las tareas principales de visión artificial con las que los usuarios están familiarizados, incluyendo detección de objetos, segmentación de instancias y estimación de pose.

Fig 1. Un ejemplo de YOLO26 utilizado para segmentar objetos en una imagen.
Sin embargo, YOLO26 no es solo una actualización incremental. Aunque las tareas admitidas puedan parecer familiares, este nuevo modelo representa un paso innovador en la forma en que se entrenan los modelos de visión artificial. Con YOLO26, el enfoque va más allá de la eficiencia de inferencia para hacer que el entrenamiento sea más estable.
YOLO26 fue diseñado teniendo en cuenta todo el ciclo de vida del entrenamiento. Esto significa una convergencia más rápida, ejecuciones de entrenamiento más fiables y un comportamiento consistente del modelo. Estas mejoras son especialmente importantes en flujos de trabajo del mundo real, donde la fiabilidad del entrenamiento afecta directamente a la rapidez con la que se pueden iterar y desplegar los modelos.
Para lograr esto, YOLO26 introduce varias innovaciones de entrenamiento dirigidas, como el Balanceo de Pérdida Progresivo (ProgLoss), la Asignación de Etiquetas Consciente de Objetos Pequeños (STAL) y el optimizador MuSGD. En conjunto, estos cambios mejoran cómo se equilibra la pérdida de aprendizaje, cómo se asignan las etiquetas y cómo se comporta la optimización a lo largo del tiempo.
En este artículo, exploraremos cómo funciona cada uno de estos mecanismos y por qué hacen que Ultralytics YOLO26 sea más fácil de entrenar y más fiable a escala. ¡Empecemos!
Link to this sectionUltralytics YOLO26: diseñado para entrenar de forma más inteligente, no solo para ejecutarse más rápido#
Ultralytics YOLO26 optimiza de forma nativa todo el pipeline de inferencia al eliminar la dependencia de pasos de post-procesamiento como la Supresión de No-Máximos (NMS). En lugar de generar muchas predicciones superpuestas y filtrarlas después, YOLO26 produce detecciones finales directamente desde la red.
Esto convierte a YOLO26 en un modelo integral, donde la predicción, la resolución de duplicados y los resultados finales se aprenden dentro de la propia red. Esto simplifica el despliegue y mejora la eficiencia de la inferencia, al tiempo que moldea cómo aprende el modelo durante el entrenamiento.

Fig 2. YOLO26 ofrece una inferencia de vanguardia integral y sin NMS (Fuente)
En un sistema integral como este, el entrenamiento y la inferencia están estrechamente conectados. Dado que no hay una etapa de post-procesamiento externa para corregir las predicciones más tarde, el modelo tiene que aprender a tomar decisiones claras y seguras durante el propio entrenamiento.
Esto hace que la alineación entre los objetivos de entrenamiento y el comportamiento de inferencia sea especialmente importante. Cualquier desajuste entre cómo se entrena el modelo y cómo se utiliza en el momento de la inferencia puede llevar a un aprendizaje inestable o a una convergencia más lenta.
YOLO26 gestiona esto diseñando su proceso de entrenamiento en torno al uso en el mundo real desde el principio. En lugar de centrarse solo en la velocidad de inferencia, el sistema de entrenamiento está construido para soportar un aprendizaje estable en ejecuciones largas, una convergencia consistente en todos los tamaños de modelo, desde Nano hasta Extra Large, y un rendimiento robusto en diversos conjuntos de datos.
Link to this sectionCómo dos cabezales de entrenamiento mejoran el aprendizaje en Ultralytics YOLO26#
Una de las innovaciones clave en el entrenamiento de Ultralytics YOLO26 se basa en un enfoque de entrenamiento de dos cabezales utilizado en modelos YOLO anteriores. En los modelos de detección de objetos, un cabezal se refiere a la parte de la red responsable de realizar predicciones.
En otras palabras, los cabezales de detección aprenden a predecir dónde se encuentran los objetos en una imagen y qué son esos objetos. Lo hacen mediante la regresión de las coordenadas de los BBox, lo que significa que aprenden a estimar la posición y el tamaño de cada objeto en la imagen de entrada.
Durante el entrenamiento, el modelo aprende minimizando una pérdida, que es una medida numérica de qué tan lejos están sus predicciones de las respuestas correctas o ground truth. Una pérdida menor significa que las predicciones del modelo están más cerca del ground truth, mientras que una pérdida mayor indica errores más grandes. El cálculo de la pérdida guía cómo el modelo actualiza sus parámetros durante el entrenamiento.
YOLO26 utiliza dos cabezales de detección durante el entrenamiento que comparten el mismo modelo subyacente pero cumplen propósitos diferentes. El cabezal uno-a-uno es el que se utiliza en el momento de la inferencia. Aprende a asociar cada objeto con una única predicción segura, lo cual es esencial para el diseño integral y sin NMS de YOLO26.
Mientras tanto, el cabezal uno-a-muchos se utiliza solo durante el entrenamiento. Permite asociar múltiples predicciones con el mismo objeto, proporcionando una supervisión más densa. Esta señal de aprendizaje más rica ayuda a estabilizar el entrenamiento y mejorar la precisión, especialmente en las primeras etapas.
En YOLO26, ambos cabezales utilizan el mismo cálculo de pérdida para la regresión de cajas y la clasificación. Las implementaciones anteriores aplicaban un equilibrio fijo entre estas dos señales de pérdida a lo largo del entrenamiento.
En la práctica, sin embargo, la importancia de cada cabezal cambia con el tiempo. La supervisión densa es más útil al principio, mientras que la alineación con el comportamiento de inferencia se vuelve más importante más adelante en el entrenamiento. YOLO26 está diseñado en torno a esta idea, lo que lleva directamente a cómo reequilibra las señales de aprendizaje a medida que avanza el entrenamiento.
Link to this sectionUltralytics YOLO26 utiliza el Balanceo de Pérdida Progresivo#
Entonces, ¿cómo gestiona Ultralytics YOLO26 estas necesidades de aprendizaje cambiantes durante el entrenamiento? Utiliza el Balanceo de Pérdida Progresivo para ajustar cómo se ponderan las señales de aprendizaje a lo largo del tiempo.
ProgLoss funciona cambiando dinámicamente cuánto contribuye cada cabezal a la pérdida total a medida que avanza el entrenamiento. Al principio, se le da más peso al cabezal uno-a-muchos para estabilizar el aprendizaje y mejorar la recuperación (recall). A medida que continúa el entrenamiento, el equilibrio se desplaza gradualmente hacia el cabezal uno-a-uno, alineando el entrenamiento más estrechamente con el comportamiento de inferencia.
Esta transición gradual permite a YOLO26 aprender en el orden correcto. En lugar de obligar al modelo a optimizar objetivos en competencia al mismo tiempo, el Balanceo de Pérdida Progresivo prioriza la señal de aprendizaje más útil en cada etapa del entrenamiento. El resultado es una convergencia más fluida, menos ejecuciones de entrenamiento inestables y un rendimiento final más consistente.
Link to this sectionCómo ayuda STAL a Ultralytics YOLO26 a aprender de objetos minúsculos#
Otra mejora de entrenamiento interesante en Ultralytics YOLO26 proviene de cómo el modelo asigna objetivos de entrenamiento a las predicciones, un proceso conocido como asignación de etiquetas. Es responsable de emparejar los objetos ground truth con las predicciones candidatas, a menudo llamadas anchors.
Estos emparejamientos determinan qué predicciones reciben supervisión y contribuyen a la pérdida. YOLO26 se basa en un método de asignación de etiquetas existente llamado Task Alignment Learning (TAL), que fue diseñado para alinear mejor la clasificación y la localización durante el entrenamiento.
Aunque TAL funciona bien para la mayoría de los objetos, el entrenamiento reveló una limitación importante. Durante el proceso de emparejamiento, los objetos muy pequeños podían descartarse por completo. En la práctica, los objetos de menos de unos 8 píxeles en una imagen de entrada de 640 píxeles a menudo no lograban recibir ninguna asignación de anchor. Cuando esto sucede, el modelo recibe poca o ninguna supervisión para esos objetos, lo que dificulta aprender a detectarlos de forma fiable.
Para abordar este problema, YOLO26 introduce la Asignación de Etiquetas Consciente de Objetos Pequeños (STAL). STAL modifica el proceso de asignación para asegurar que los objetos pequeños no sean ignorados durante el entrenamiento. Específicamente, impone un mínimo de cuatro asignaciones de anchor para objetos menores de 8 píxeles. Esto garantiza que incluso los objetos diminutos contribuyan sistemáticamente a la pérdida de entrenamiento.
Al fortalecer la supervisión para objetivos pequeños, STAL mejora la estabilidad del aprendizaje y el rendimiento de la detección en escenarios donde los objetos pequeños o distantes son comunes. Esta mejora es especialmente importante para aplicaciones edge-first de YOLO26 como imágenes aéreas, robótica y sistemas de Internet de las Cosas (IoT), donde los objetos suelen ser pequeños, distantes o parcialmente visibles y la detección fiable es crítica.
Link to this sectionUltralytics YOLO26 introduce el optimizador MuSGD#
Para soportar un entrenamiento más estable y predecible, Ultralytics YOLO26 también introduce un nuevo optimizador llamado MuSGD. Este optimizador está diseñado para mejorar la convergencia y la fiabilidad del entrenamiento en modelos de detección integrales, especialmente a medida que aumenta el tamaño del modelo y la complejidad del entrenamiento.
Para que una red neuronal aprenda y, en consecuencia, cambie los pesos, durante el entrenamiento calculamos un error (también llamado "pérdida"). Por lo tanto, el modelo mide qué tan incorrectas son sus predicciones usando un valor de pérdida, calcula gradientes que indican cómo deben cambiar sus parámetros y luego actualiza esos parámetros para reducir el error. El Stochastic Gradient Descent (SGD) es un optimizador ampliamente utilizado que realiza estas actualizaciones, haciendo que el entrenamiento sea eficiente y escalable.

Fig 3. Descenso de gradiente estocástico frente a descenso de gradiente (Fuente)
MuSGD se basa en esta base familiar incorporando ideas de optimización inspiradas en Muon, un método utilizado en el entrenamiento de modelos de lenguaje de gran tamaño. Estas ideas fueron influenciadas por avances recientes como Kimi K2 de Moonshot AI, que demostró un mejor comportamiento de entrenamiento a través de actualizaciones de parámetros más estructuradas.
YOLO26 utiliza una estrategia de actualización híbrida. Algunos parámetros se actualizan utilizando una combinación de actualizaciones inspiradas en Muon y SGD, mientras que otros utilizan solo SGD. Esto hace posible que YOLO26 introduzca una estructura adicional en el proceso de optimización mientras mantiene la robustez y las propiedades de generalización que han hecho que el SGD sea eficaz.
El resultado es una optimización más fluida, una convergencia más rápida y un comportamiento de entrenamiento más predecible en todos los tamaños de modelo, lo que convierte a MuSGD en una parte clave de por qué YOLO26 es más fácil de entrenar y más fiable a escala.
Link to this sectionEl significado de las innovaciones de entrenamiento de Ultralytics YOLO26#
Las innovaciones de entrenamiento de Ultralytics YOLO26, combinadas con características clave como su diseño integral, sin NMS y orientado al edge, hacen que el modelo sea más fácil de entrenar y más fiable a escala. Quizás te estés preguntando qué significa eso realmente para las aplicaciones de visión artificial.

Fig 4. Un vistazo a las características clave de YOLO26 (Fuente)
En la práctica, hace que llevar la visión artificial al lugar donde realmente se ejecuta sea mucho más fácil. Los modelos se entrenan de manera más predecible, escalan de forma más consistente en diferentes tamaños y son más sencillos de adaptar a nuevos conjuntos de datos. Esto reduce la fricción entre la experimentación y el despliegue, especialmente en entornos donde la fiabilidad y la eficiencia importan tanto como el rendimiento bruto.
Por ejemplo, en aplicaciones de robótica y visión industrial, los modelos a menudo necesitan ser reentrenados con frecuencia a medida que cambian los entornos, los sensores o las tareas. Con YOLO26, los equipos pueden iterar más rápido sin preocuparse por ejecuciones de entrenamiento inestables o un comportamiento inconsistente entre tamaños de modelo.
Link to this sectionConclusiones clave#
Los sistemas de visión artificial fiables dependen tanto de cómo se entrenan los modelos como de cómo funcionan en el momento de la inferencia. Al mejorar cómo se equilibran las señales de aprendizaje, cómo se manejan los objetos pequeños y cómo progresa la optimización, YOLO26 hace que el entrenamiento sea más estable y más fácil de escalar. Este enfoque en un entrenamiento fiable ayuda a los equipos a pasar de forma más fluida de la experimentación al despliegue en el mundo real, especialmente en aplicaciones orientadas al edge.
¿Quieres aprender sobre IA? Visita nuestro repositorio de GitHub para descubrir más. Únete a nuestra comunidad activa e infórmate sobre innovaciones en sectores como la IA en logística y la IA de visión en la industria automotriz. Para empezar con la visión artificial hoy mismo, consulta nuestras opciones de licencia.






