Como o Ultralytics YOLO26 treina de forma mais inteligente com ProgLoss, STAL e MuSGD
Aprende como o Ultralytics YOLO26 treina de forma mais fiável usando Progressive Loss Balancing, Small-Target-Aware Label Assignment e o otimizador MuSGD.

Na semana passada, lançamos o Ultralytics YOLO26, estabelecendo um novo padrão para modelos de visão computacional em tempo real focados na edge. Assim como os modelos Ultralytics YOLO anteriores, como o Ultralytics YOLO11, o YOLO26 suporta as tarefas principais de visão computacional que os usuários já conhecem, incluindo detecção de objetos, segmentação de instâncias e estimativa de pose.

Fig 1. Um exemplo do YOLO26 sendo utilizado para segmentar objetos em uma imagem.
No entanto, o YOLO26 não é apenas uma atualização incremental. Embora as tarefas suportadas possam parecer familiares, este novo modelo representa um passo inovador em como os modelos de visão computacional são treinados. Com o YOLO26, o foco vai além da eficiência de inferência, visando tornar o treinamento mais estável.
O YOLO26 foi projetado com todo o ciclo de vida de treinamento em mente. Isso significa convergência mais rápida, execuções de treinamento mais confiáveis e comportamento consistente do modelo. Essas melhorias são especialmente importantes em fluxos de trabalho reais, onde a confiabilidade do treinamento afeta diretamente a rapidez com que os modelos podem ser iterados e implantados.
Para viabilizar isso, o YOLO26 introduz várias inovações de treinamento direcionadas, como o Progressive Loss Balancing (ProgLoss), o Small-Target-Aware Label Assignment (STAL) e o otimizador MuSGD. Juntas, essas mudanças melhoram a forma como a perda de aprendizado é balanceada, como os rótulos são atribuídos e como a otimização se comporta ao longo do tempo.
Neste artigo, exploraremos como cada um desses mecanismos funciona e por que eles tornam o Ultralytics YOLO26 mais fácil de treinar e mais confiável em escala. Vamos começar!
Link to this sectionUltralytics YOLO26: Criado para treinar de forma mais inteligente, não apenas rodar mais rápido#
O Ultralytics YOLO26 simplifica nativamente todo o pipeline de inferência ao remover a dependência de etapas de pós-processamento, como o Non-Maximum Suppression. Em vez de gerar várias predições sobrepostas e filtrá-las depois, o YOLO26 produz detecções finais diretamente da rede.
Isso faz do YOLO26 um modelo de ponta a ponta, onde a predição, a resolução de duplicatas e os resultados finais são todos aprendidos dentro da própria rede. Isso simplifica a implantação e melhora a eficiência da inferência, ao mesmo tempo que molda como o modelo aprende durante o treinamento.

Fig 2. O YOLO26 oferece inferência de última geração, ponta a ponta e sem NMS (Fonte)
Em um sistema de ponta a ponta como este, o treinamento e a inferência estão estreitamente conectados. Como não há um estágio externo de pós-processamento para corrigir predições posteriormente, o modelo precisa aprender a tomar decisões claras e confiantes durante o próprio treinamento.
Isso torna o alinhamento entre os objetivos de treinamento e o comportamento de inferência especialmente importante. Qualquer incompatibilidade entre como o modelo é treinado e como ele é usado na inferência pode levar a um aprendizado instável ou a uma convergência mais lenta.
O YOLO26 lida com isso projetando seu processo de treinamento em torno do uso real desde o início. Em vez de focar apenas na velocidade de inferência, o sistema de treinamento é construído para suportar um aprendizado estável em longas execuções, convergência consistente entre tamanhos de modelo de Nano a Extra Large e desempenho robusto em diversos datasets.
Link to this sectionComo dois heads de treinamento melhoram o aprendizado no Ultralytics YOLO26#
Uma das principais inovações de treinamento no Ultralytics YOLO26 baseia-se em uma abordagem de treinamento com dois heads, utilizada em modelos YOLO anteriores. Em modelos de detecção de objetos, um head refere-se à parte da rede responsável por fazer as predições.
Em outras palavras, os heads de detecção aprendem a prever onde os objetos estão localizados em uma imagem e quais são esses objetos. Eles fazem isso através da regressão das coordenadas da bounding box, o que significa que aprendem a estimar a posição e o tamanho de cada objeto na imagem de entrada.
Durante o treinamento, o modelo aprende minimizando uma loss, que é uma medida numérica de quão longe suas predições estão das respostas corretas ou ground truth. Uma loss menor significa que as predições do modelo estão mais próximas do ground truth, enquanto uma loss maior indica erros maiores. O cálculo da loss guia como o modelo atualiza seus parâmetros durante o treinamento.
O YOLO26 usa dois heads de detecção durante o treinamento que compartilham o mesmo modelo base, mas servem a propósitos diferentes. O head um-para-um (one-to-one) é o usado durante a inferência. Ele aprende a associar cada objeto a uma única predição confiante, o que é essencial para o design de ponta a ponta e sem NMS do YOLO26.
Enquanto isso, o head um-para-muitos (one-to-many) é usado apenas durante o treinamento. Ele permite que múltiplas predições sejam associadas ao mesmo objeto, fornecendo uma supervisão mais densa. Esse sinal de aprendizado mais rico ajuda a estabilizar o treinamento e melhorar a precisão, especialmente nos estágios iniciais.
No YOLO26, ambos os heads usam o mesmo cálculo de loss para regressão de box e classificação. Implementações anteriores aplicavam um equilíbrio fixo entre esses dois sinais de loss ao longo de todo o treinamento.
Na prática, contudo, a importância de cada head muda com o tempo. A supervisão densa é mais útil no início, enquanto o alinhamento com o comportamento de inferência torna-se mais importante mais tarde no treinamento. O YOLO26 é projetado em torno dessa percepção, o que leva diretamente à forma como ele reequilibra os sinais de aprendizado conforme o treinamento avança.
Link to this sectionO Ultralytics YOLO26 usa o Progressive Loss Balancing#
Então, como o Ultralytics YOLO26 lida com essas necessidades de aprendizado em mudança durante o treinamento? Ele usa o Progressive Loss Balancing para ajustar como os sinais de aprendizado são ponderados ao longo do tempo.
O ProgLoss funciona alterando dinamicamente quanto cada head contribui para a perda total conforme o treinamento progride. No início, mais peso é colocado no head um-para-muitos para estabilizar o aprendizado e melhorar o recall. Conforme o treinamento continua, o equilíbrio muda gradualmente para o head um-para-um, alinhando o treinamento mais estreitamente com o comportamento de inferência.
Essa transição gradual permite que o YOLO26 aprenda na ordem correta. Em vez de forçar o modelo a otimizar objetivos conflitantes de uma só vez, o Progressive Loss Balancing prioriza o sinal de aprendizado mais útil em cada estágio do treinamento. O resultado é uma convergência mais suave, menos execuções de treinamento instáveis e um desempenho final mais consistente.
Link to this sectionComo o STAL ajuda o Ultralytics YOLO26 a aprender com objetos minúsculos#
Outra melhoria de treinamento interessante no Ultralytics YOLO26 vem da maneira como o modelo atribui alvos de treinamento às predições, um processo conhecido como atribuição de rótulos (label assignment). Ele é responsável por combinar objetos ground truth com predições candidatas, muitas vezes chamadas de anchors.
Essas combinações determinam quais predições recebem supervisão e contribuem para a loss. O YOLO26 baseia-se em um método de atribuição de rótulos existente chamado Task Alignment Learning (TAL), que foi projetado para alinhar melhor a classificação e a localização durante o treinamento.
Embora o TAL funcione bem para a maioria dos objetos, o treinamento revelou uma limitação importante. Durante o processo de correspondência, objetos muito pequenos podiam ser descartados completamente. Na prática, objetos menores que cerca de 8 pixels em uma imagem de entrada de 640 pixels frequentemente falhavam em receber qualquer atribuição de anchor. Quando isso acontece, o modelo recebe pouca ou nenhuma supervisão para esses objetos, tornando difícil aprender a detectá-los de forma confiável.
Para resolver esse problema, o YOLO26 introduz o Small-Target-Aware Label Assignment (STAL). O STAL modifica o processo de atribuição para garantir que objetos pequenos não sejam ignorados durante o treinamento. Especificamente, ele impõe um mínimo de quatro atribuições de anchor para objetos menores que 8 pixels. Isso garante que até mesmo objetos minúsculos contribuam consistentemente para a loss de treinamento.
Ao fortalecer a supervisão para alvos pequenos, o STAL melhora a estabilidade de aprendizado e o desempenho de detecção em cenários onde objetos pequenos ou distantes são comuns. Essa melhoria é especialmente importante para aplicações edge-first YOLO26, como imagens aéreas, robótica e sistemas de Internet das Coisas (IoT), onde os objetos são frequentemente pequenos, distantes ou parcialmente visíveis, e a detecção confiável é crítica.
Link to this sectionO Ultralytics YOLO26 introduz o otimizador MuSGD#
Para suportar um treinamento mais estável e previsível, o Ultralytics YOLO26 também introduz um novo otimizador chamado MuSGD. Este otimizador foi projetado para melhorar a convergência e a confiabilidade do treinamento em modelos de detecção de ponta a ponta, especialmente à medida que o tamanho do modelo e a complexidade do treinamento aumentam.
Para que uma rede neural aprenda e, consequentemente, altere os pesos de acordo durante o treinamento, calculamos um erro (também chamado de "loss"). O modelo, portanto, mede o quão erradas estão suas predições usando um valor de loss, calcula gradientes que indicam como seus parâmetros devem mudar e, então, atualiza esses parâmetros para reduzir o erro. O Stochastic Gradient Descent (SGD) é um otimizador amplamente utilizado que realiza essas atualizações, tornando o treinamento eficiente e escalável.

Fig 3. Stochastic gradient descent vs gradient descent (Fonte)
O MuSGD baseia-se nessa fundação familiar ao incorporar ideias de otimização inspiradas no Muon, um método usado no treinamento de modelos de linguagem grande. Essas ideias foram influenciadas por avanços recentes, como o Kimi K2 da Moonshot AI, que demonstrou comportamento de treinamento aprimorado através de atualizações de parâmetros mais estruturadas.
O YOLO26 usa uma estratégia de atualização híbrida. Alguns parâmetros são atualizados usando uma combinação de atualizações inspiradas no Muon e SGD, enquanto outros usam apenas SGD. Isso torna possível para o YOLO26 introduzir estrutura adicional no processo de otimização enquanto mantém as propriedades de robustez e generalização que tornaram o SGD eficaz.
O resultado é uma otimização mais suave, convergência mais rápida e um comportamento de treinamento mais previsível entre tamanhos de modelos, tornando o MuSGD uma parte fundamental de por que o YOLO26 é mais fácil de treinar e mais confiável em escala.
Link to this sectionO significado das inovações de treinamento do Ultralytics YOLO26#
As inovações de treinamento do Ultralytics YOLO26, combinadas com recursos principais como seu design de ponta a ponta, sem NMS e edge-first, tornam o modelo mais fácil de treinar e mais confiável em escala. Você pode estar se perguntando o que isso realmente significa para aplicações de visão computacional.

Fig 4. Um olhar sobre os principais recursos do YOLO26 (Fonte)
Na prática, isso torna muito mais fácil levar a visão computacional para onde ela realmente roda. Os modelos treinam de forma mais previsível, escalam de maneira mais consistente entre tamanhos e são mais simples de adaptar a novos datasets. Isso reduz o atrito entre experimentação e implantação, especialmente em ambientes onde a confiabilidade e a eficiência importam tanto quanto o desempenho bruto.
Por exemplo, em robótica e aplicações de visão industrial, os modelos frequentemente precisam ser retreinados à medida que ambientes, sensores ou tarefas mudam. Com o YOLO26, as equipes podem iterar mais rápido sem se preocupar com execuções de treinamento instáveis ou comportamento inconsistente entre tamanhos de modelos.
Link to this sectionPrincipais pontos#
Sistemas de visão computacional confiáveis dependem tanto de como os modelos são treinados quanto de como eles performam no momento da inferência. Ao melhorar a forma como os sinais de aprendizado são balanceados, como objetos pequenos são tratados e como a otimização progride, o YOLO26 torna o treinamento mais estável e mais fácil de escalar. Esse foco em treinamento confiável ajuda as equipes a avançar com mais fluidez da experimentação para a implantação no mundo real, especialmente em aplicações edge-first.
Quer aprender sobre IA? Visite nosso repositório no GitHub para descobrir mais. Junte-se à nossa comunidade ativa e informe-se sobre inovações em setores como IA na logística e IA de visão na indústria automotiva. Para começar com visão computacional hoje, confira nossas opções de licenciamento.






