Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Ultralytics YOLO

Come Ultralytics YOLO26 si addestra in modo più intelligente con ProgLoss, STAL e MuSGD

Scopri come Ultralytics YOLO26 esegue l'addestramento in modo più affidabile utilizzando Progressive Loss Balancing, Small-Target-Aware Label Assignment e l'ottimizzatore MuSGD.

ABAbirami Vina
5 min read
Innovazioni nell'addestramento di Ultralytics YOLO26: ProgLoss, STAL e MuSGD

La scorsa settimana abbiamo rilasciato Ultralytics YOLO26, stabilendo un nuovo standard per i modelli di computer vision edge-first in tempo reale. Simile ai precedenti modelli Ultralytics YOLO, come Ultralytics YOLO11, YOLO26 supporta le attività principali di computer vision che già conosci, tra cui object detection, instance segmentation e stima della posa.

Un esempio di YOLO26 che segmenta oggetti in un'immagine

Fig 1. Un esempio di YOLO26 utilizzato per segmentare oggetti in un'immagine.

Tuttavia, YOLO26 non è solo un aggiornamento incrementale. Sebbene le attività supportate possano sembrare familiari, questo nuovo modello rappresenta un passo innovativo nel modo in cui vengono addestrati i modelli di computer vision. Con YOLO26, l'attenzione va oltre l'efficienza dell'inferenza, puntando a rendere l'addestramento più stabile.

YOLO26 è stato progettato pensando all'intero ciclo di vita dell'addestramento. Ciò significa una convergenza più rapida, esecuzioni di addestramento più affidabili e un comportamento coerente del modello. Questi miglioramenti sono particolarmente importanti nei flussi di lavoro del mondo reale, dove l'affidabilità dell'addestramento influisce direttamente sulla velocità con cui i modelli possono essere iterati e distribuiti.

Per consentire ciò, YOLO26 introduce diverse innovazioni mirate all'addestramento come Progressive Loss Balancing (ProgLoss), Small-Target-Aware Label Assignment (STAL) e l'ottimizzatore MuSGD. Insieme, questi cambiamenti migliorano il modo in cui la loss di apprendimento viene bilanciata, come vengono assegnate le etichette e come si comporta l'ottimizzazione nel tempo.

In questo articolo esploreremo come funziona ciascuno di questi meccanismi e perché rendono Ultralytics YOLO26 più facile da addestrare e più affidabile su larga scala. Iniziamo!

Link to this sectionUltralytics YOLO26: Progettato per addestrarsi in modo più intelligente, non solo per funzionare più velocemente#

Ultralytics YOLO26 snellisce nativamente l'intera pipeline di inferenza eliminando la dipendenza da passaggi di post-elaborazione come la Non-Maximum Suppression. Invece di generare molte previsioni sovrapposte e filtrarle successivamente, YOLO26 produce le rilevazioni finali direttamente dalla rete.

Questo rende YOLO26 un modello end-to-end, in cui la previsione, la risoluzione dei duplicati e gli output finali vengono tutti appresi all'interno della rete stessa. Ciò semplifica la distribuzione e migliora l'efficienza dell'inferenza, influenzando al contempo il modo in cui il modello impara durante l'addestramento.

Inferenza end-to-end all'avanguardia senza NMS di YOLO26

Fig 2. YOLO26 offre un'inferenza end-to-end all'avanguardia senza NMS (Fonte)

In un sistema end-to-end come questo, addestramento e inferenza sono strettamente collegati. Dato che non esiste una fase di post-elaborazione esterna per correggere le previsioni in seguito, il modello deve imparare a prendere decisioni chiare e sicure durante l'addestramento stesso.

Questo rende l'allineamento tra gli obiettivi di addestramento e il comportamento di inferenza particolarmente importante. Qualsiasi discrepanza tra il modo in cui il modello viene addestrato e il modo in cui viene utilizzato al momento dell'inferenza può portare a un apprendimento instabile o a una convergenza più lenta.

YOLO26 gestisce questo problema progettando il suo processo di addestramento attorno all'utilizzo nel mondo reale fin dall'inizio. Piuttosto che concentrarsi solo sulla velocità di inferenza, il sistema di addestramento è costruito per supportare un apprendimento stabile su lunghe esecuzioni, una convergenza coerente attraverso diverse dimensioni del modello, da Nano a Extra Large, e prestazioni robuste su set di dati eterogenei.

Link to this sectionCome due head di addestramento migliorano l'apprendimento in Ultralytics YOLO26#

Una delle principali innovazioni nell'addestramento di Ultralytics YOLO26 si basa su un approccio di addestramento a due head utilizzato nei precedenti modelli YOLO. Nei modelli di object detection, una head si riferisce alla parte della rete responsabile dell'effettuare le previsioni.

In altre parole, le detection head imparano a prevedere dove si trovano gli oggetti in un'immagine e cosa sono. Lo fanno eseguendo la regressione delle coordinate del bounding box, il che significa che imparano a stimare la posizione e la dimensione di ogni oggetto nell'immagine di input.

Durante l'addestramento, il modello impara riducendo al minimo una loss, che è una misura numerica di quanto le sue previsioni siano lontane dalle risposte corrette o ground truth. Una loss inferiore significa che le previsioni del modello sono più vicine alla ground truth, mentre una loss più elevata indica errori maggiori. Il calcolo della loss guida il modo in cui il modello aggiorna i suoi parametri durante l'addestramento.

YOLO26 utilizza due detection head durante l'addestramento che condividono lo stesso modello sottostante ma servono a scopi diversi. La head one-to-one è quella utilizzata al momento dell'inferenza. Impara ad associare ogni oggetto a una singola previsione sicura, il che è essenziale per il design end-to-end senza NMS di YOLO26.

Nel frattempo, la head one-to-many viene utilizzata solo durante l'addestramento. Consente di associare più previsioni allo stesso oggetto, fornendo una supervisione più densa. Questo segnale di apprendimento più ricco aiuta a stabilizzare l'addestramento e a migliorare l'accuratezza, specialmente nelle fasi iniziali.

In YOLO26, entrambe le head utilizzano lo stesso calcolo della loss per la regressione dei box e la classificazione. Le implementazioni precedenti applicavano un equilibrio fisso tra questi due segnali di loss durante tutto l'addestramento.

In pratica, tuttavia, l'importanza di ciascuna head cambia nel tempo. La supervisione densa è più utile all'inizio, mentre l'allineamento con il comportamento di inferenza diventa più importante nelle fasi successive dell'addestramento. YOLO26 è progettato attorno a questa intuizione, che porta direttamente al modo in cui riequilibra i segnali di apprendimento man mano che l'addestramento procede.

Link to this sectionUltralytics YOLO26 utilizza il Progressive Loss Balancing#

Quindi, come gestisce Ultralytics YOLO26 queste mutevoli esigenze di apprendimento durante l'addestramento? Utilizza il Progressive Loss Balancing per regolare il modo in cui i segnali di apprendimento vengono ponderati nel tempo.

ProgLoss funziona spostando dinamicamente quanto ogni head contribuisce alla loss totale man mano che l'addestramento procede. All'inizio, viene dato più peso alla head one-to-many per stabilizzare l'apprendimento e migliorare il richiamo. Man mano che l'addestramento continua, l'equilibrio si sposta gradualmente verso la head one-to-one, allineando l'addestramento più strettamente con il comportamento di inferenza.

Questa transizione graduale consente a YOLO26 di imparare nell'ordine corretto. Invece di costringere il modello a ottimizzare obiettivi in competizione tutti in una volta, il Progressive Loss Balancing dà la priorità al segnale di apprendimento più utile in ogni fase dell'addestramento. Il risultato è una convergenza più fluida, meno esecuzioni di addestramento instabili e prestazioni finali più coerenti.

Link to this sectionCome STAL aiuta Ultralytics YOLO26 a imparare dagli oggetti minuscoli#

Un altro interessante miglioramento nell'addestramento di Ultralytics YOLO26 deriva dal modo in cui il modello assegna i target di addestramento alle previsioni, un processo noto come label assignment. È responsabile dell'abbinamento degli oggetti ground truth alle previsioni candidate, spesso chiamate anchor.

Questi abbinamenti determinano quali previsioni ricevono supervisione e contribuiscono alla loss. YOLO26 si basa su un metodo di assegnazione delle etichette esistente chiamato Task Alignment Learning (TAL), progettato per allineare meglio la classificazione e la localizzazione durante l'addestramento.

Sebbene TAL funzioni bene per la maggior parte degli oggetti, l'addestramento ha rivelato una limitazione importante. Durante il processo di abbinamento, gli oggetti molto piccoli potevano essere completamente esclusi. In pratica, gli oggetti più piccoli di circa 8 pixel in un'immagine di input da 640 pixel spesso non riuscivano a ricevere alcuna assegnazione di anchor. Quando ciò accade, il modello riceve poca o nessuna supervisione per quegli oggetti, rendendo difficile imparare a rilevarli in modo affidabile.

Per risolvere questo problema, YOLO26 introduce la Small-Target-Aware Label Assignment (STAL). STAL modifica il processo di assegnazione per garantire che gli oggetti piccoli non vengano ignorati durante l'addestramento. Nello specifico, impone un minimo di quattro assegnazioni di anchor per gli oggetti più piccoli di 8 pixel. Ciò garantisce che anche gli oggetti minuscoli contribuiscano costantemente alla loss di addestramento.

Rafforzando la supervisione per i target piccoli, STAL migliora la stabilità dell'apprendimento e le prestazioni di rilevamento in scenari in cui gli oggetti piccoli o distanti sono comuni. Questo miglioramento è particolarmente importante per le applicazioni edge-first di YOLO26 come immagini aeree, robotica e sistemi Internet of Things (IoT), dove gli oggetti sono spesso piccoli, distanti o parzialmente visibili e un rilevamento affidabile è fondamentale.

Link to this sectionUltralytics YOLO26 introduce l'ottimizzatore MuSGD#

Per supportare un addestramento più stabile e prevedibile, Ultralytics YOLO26 introduce anche un nuovo ottimizzatore chiamato MuSGD. Questo ottimizzatore è progettato per migliorare la convergenza e l'affidabilità dell'addestramento nei modelli di rilevamento end-to-end, specialmente quando aumentano la dimensione del modello e la complessità dell'addestramento.

Affinché una rete neurale possa imparare e, di conseguenza, modificare i pesi di conseguenza, durante l'addestramento calcoliamo un errore (chiamato anche "loss"). Il modello, quindi, misura quanto sono errate le sue previsioni utilizzando un valore di loss, calcola i gradienti che indicano come dovrebbero cambiare i suoi parametri e quindi aggiorna tali parametri per ridurre l'errore. Lo Stochastic Gradient Descent (SGD) è un ottimizzatore ampiamente utilizzato che esegue questi aggiornamenti, rendendo l'addestramento efficiente e scalabile.

Discesa del gradiente stocastica contro discesa del gradiente

Fig 3. Stochastic gradient descent rispetto al gradient descent (Fonte)

MuSGD si basa su questa base familiare incorporando idee di ottimizzazione ispirate a Muon, un metodo utilizzato nell'addestramento di modelli linguistici di grandi dimensioni. Queste idee sono state influenzate da recenti progressi come Kimi K2 di Moonshot AI, che ha dimostrato un comportamento di addestramento migliorato attraverso aggiornamenti dei parametri più strutturati.

YOLO26 utilizza una strategia di aggiornamento ibrida. Alcuni parametri vengono aggiornati utilizzando una combinazione di aggiornamenti ispirati a Muon e SGD, mentre altri utilizzano solo SGD. Ciò rende possibile per YOLO26 introdurre ulteriore struttura nel processo di ottimizzazione, mantenendo al contempo le proprietà di robustezza e generalizzazione che hanno reso efficace SGD.

Il risultato è un'ottimizzazione più fluida, una convergenza più rapida e un comportamento di addestramento più prevedibile attraverso diverse dimensioni del modello, rendendo MuSGD una parte fondamentale del perché YOLO26 è più facile da addestrare e più affidabile su larga scala.

Link to this sectionIl significato delle innovazioni nell'addestramento di Ultralytics YOLO26#

Le innovazioni nell'addestramento di Ultralytics YOLO26, combinate con caratteristiche chiave come il design end-to-end, senza NMS ed edge-first, rendono il modello più facile da addestrare e più affidabile su larga scala. Potresti chiederti cosa significhi davvero per le applicazioni di computer vision.

Uno sguardo alle funzionalità chiave di YOLO26

Fig 4. Uno sguardo alle caratteristiche principali di YOLO26 (Fonte)

In pratica, rende molto più semplice portare la computer vision dove viene effettivamente eseguita. I modelli si addestrano in modo più prevedibile, scalano in modo più coerente tra le diverse dimensioni e sono più semplici da adattare a nuovi set di dati. Ciò riduce l'attrito tra sperimentazione e distribuzione, specialmente in ambienti in cui l'affidabilità e l'efficienza contano tanto quanto le prestazioni grezze.

Ad esempio, nella robotica e nelle applicazioni di visione industriale, i modelli devono spesso essere riaddestrati frequentemente al variare di ambienti, sensori o attività. Con YOLO26, i team possono iterare più velocemente senza preoccuparsi di esecuzioni di addestramento instabili o comportamenti incoerenti tra le diverse dimensioni del modello.

Link to this sectionPunti chiave#

I sistemi di computer vision affidabili dipendono tanto dal modo in cui i modelli vengono addestrati quanto dal modo in cui si comportano al momento dell'inferenza. Migliorando il modo in cui i segnali di apprendimento vengono bilanciati, il modo in cui vengono gestiti gli oggetti piccoli e il modo in cui procede l'ottimizzazione, YOLO26 rende l'addestramento più stabile e facile da scalare. Questa attenzione all'addestramento affidabile aiuta i team a passare in modo più fluido dalla sperimentazione alla distribuzione nel mondo reale, specialmente nelle applicazioni edge-first.

Vuoi saperne di più sull'IA? Visita il nostro repository GitHub per scoprire di più. Unisciti alla nostra community attiva e scopri le innovazioni in settori come l'IA nella logistica e l'IA della visione nell'industria automobilistica. Per iniziare subito con la computer vision, dai un'occhiata alle nostre opzioni di licenza.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning