Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Come Ultralytics si allena in modo più intelligente con ProgLoss, STAL e MuSGD

Scopri come Ultralytics garantisce un addestramento più affidabile grazie al bilanciamento progressivo delle perdite, all'assegnazione di etichette sensibili agli obiettivi di piccole dimensioni e all'ottimizzatore MuSGD.

La scorsa settimana abbiamo rilasciato Ultralytics , stabilendo un nuovo standard per i modelli di visione artificiale in tempo reale edge-first. Simile ai precedenti YOLO Ultralytics YOLO , come Ultralytics YOLO11, YOLO26 supporta le attività principali di visione artificiale con cui gli utenti hanno familiarità, tra cui il rilevamento di oggetti, la segmentazione di istanze e la stima della posa.

Fig. 1. Esempio di utilizzo di YOLO26 per segment in un'immagine.

Tuttavia, YOLO26 non è solo un aggiornamento incrementale. Sebbene le attività supportate possano sembrare familiari, questo nuovo modello rappresenta un passo avanti innovativo nel modo in cui vengono addestrati i modelli di visione artificiale. Con YOLO26, l'attenzione si estende oltre l'efficienza dell'inferenza per rendere l'addestramento più stabile.

YOLO26 è stato progettato tenendo conto dell'intero ciclo di vita dell'addestramento. Ciò significa una convergenza più rapida, esecuzioni di addestramento più affidabili e un comportamento coerente del modello. Questi miglioramenti sono particolarmente importanti nei flussi di lavoro reali, dove l'affidabilità dell'addestramento influisce direttamente sulla rapidità con cui i modelli possono essere iterati e implementati. 

Per consentire ciò, YOLO26 introduce diverse innovazioni mirate alla formazione, quali Progressive Loss Balancing (ProgLoss), Small-Target-Aware Label Assignment (STAL) e l'ottimizzatore MuSGD. Insieme, queste modifiche migliorano il modo in cui viene bilanciata la perdita di apprendimento, come vengono assegnate le etichette e come si comporta l'ottimizzazione nel tempo.

In questo articolo vedremo come funzionano questi meccanismi e perché rendono Ultralytics più facile da addestrare e più affidabile su larga scala. Cominciamo!

Ultralytics : progettato per addestrare in modo più intelligente, non solo per funzionare più velocemente

Ultralytics semplifica in modo nativo l'intera pipeline di inferenza eliminando la dipendenza da fasi di post-elaborazione come la soppressione non massima. Invece di generare molte previsioni sovrapposte e filtrarle in seguito, YOLO26 produce rilevamenti finali direttamente dalla rete. 

Questo rende YOLO26 un modello end-to-end, in cui la previsione, la risoluzione dei duplicati e i risultati finali vengono appresi all'interno della rete stessa. Ciò semplifica l'implementazione e migliora l'efficienza dell'inferenza, modellando al contempo il modo in cui il modello apprende durante l'addestramento.

Fig. 2. YOLO26 offre un'inferenza end-to-end all'avanguardia e NMS(Fonte)

In un sistema end-to-end come questo, l'addestramento e l'inferenza sono strettamente collegati. Poiché non esiste una fase di post-elaborazione esterna per correggere le previsioni in un secondo momento, il modello deve imparare a prendere decisioni chiare e sicure durante l'addestramento stesso. 

Ciò rende particolarmente importante l'allineamento tra gli obiettivi di addestramento e il comportamento di inferenza. Qualsiasi discrepanza tra il modo in cui il modello viene addestrato e il modo in cui viene utilizzato al momento dell'inferenza può portare a un apprendimento instabile o a una convergenza più lenta.

YOLO26 gestisce questo aspetto progettando il proprio processo di addestramento in base all'utilizzo nel mondo reale sin dall'inizio. Anziché concentrarsi esclusivamente sulla velocità di inferenza, il sistema di addestramento è progettato per supportare un apprendimento stabile nel lungo periodo, una convergenza coerente tra modelli di dimensioni diverse, da Nano a Extra Large, e prestazioni robuste su diversi set di dati.

Come due responsabili della formazione migliorano l'apprendimento in Ultralytics

Una delle principali innovazioni nell'addestramento di Ultralytics si basa su un approccio di addestramento a due teste utilizzato nei precedenti YOLO . Nei modelli di rilevamento degli oggetti, una testa si riferisce alla parte della rete responsabile delle previsioni. 

In altre parole, le teste di rilevamento imparano a prevedere dove si trovano gli oggetti in un'immagine e di cosa si tratta. Lo fanno regredendo le coordinate del riquadro di delimitazione, ovvero imparano a stimare la posizione e le dimensioni di ciascun oggetto nell'immagine di input.

Durante l'addestramento, il modello apprende minimizzando una perdita, che è una misura numerica della distanza delle sue previsioni dalle risposte corrette o dalla verità di base. Una perdita inferiore significa che le previsioni del modello sono più vicine alla verità di base, mentre una perdita superiore indica errori maggiori. Il calcolo della perdita guida il modo in cui il modello aggiorna i suoi parametri durante l'addestramento.

YOLO26 utilizza due teste di rilevamento durante l'addestramento che condividono lo stesso modello di base ma hanno scopi diversi. La testa uno-a-uno è quella utilizzata in fase di inferenza. Impara ad associare ogni oggetto a una singola previsione affidabile, essenziale per il design end-to-end e NMS di YOLO26.

Nel frattempo, la testa one-to-many viene utilizzata solo durante l'addestramento. Consente di associare più previsioni allo stesso oggetto, fornendo una supervisione più densa. Questo segnale di apprendimento più ricco aiuta a stabilizzare l'addestramento e a migliorare la precisione, soprattutto nelle fasi iniziali.

In YOLO26, entrambe le teste utilizzano lo stesso calcolo della perdita per la regressione box e la classificazione. Le implementazioni precedenti applicavano un equilibrio fisso tra questi due segnali di perdita durante l'addestramento. 

In pratica, tuttavia, l'importanza di ciascuna testa cambia nel tempo. Una supervisione intensa è più utile nelle fasi iniziali, mentre l'allineamento con il comportamento di inferenza diventa più importante nelle fasi successive dell'addestramento. YOLO26 è progettato sulla base di questa intuizione, che porta direttamente al modo in cui riequilibra i segnali di apprendimento man mano che l'addestramento procede.

Ultralytics utilizza il bilanciamento progressivo delle perdite

Quindi, come gestisce Ultralytics queste mutevoli esigenze di apprendimento durante la formazione? Utilizza il bilanciamento progressivo delle perdite per regolare il peso dei segnali di apprendimento nel tempo.

ProgLoss funziona modificando dinamicamente il contributo di ciascuna testa alla perdita totale man mano che l'addestramento procede. All'inizio, viene attribuito maggior peso alla testa uno-a-molti per stabilizzare l'apprendimento e migliorare il richiamo. Man mano che l'addestramento prosegue, l'equilibrio si sposta gradualmente verso la testa uno-a-uno, allineando maggiormente l'addestramento al comportamento di inferenza.

Questa transizione graduale consente a YOLO26 di apprendere nell'ordine corretto. Anziché costringere il modello a ottimizzare contemporaneamente obiettivi contrastanti, il Progressive Loss Balancing assegna la priorità al segnale di apprendimento più utile in ogni fase dell'addestramento. Il risultato è una convergenza più fluida, un minor numero di cicli di addestramento instabili e prestazioni finali più coerenti.

Come STAL aiuta Ultralytics ad apprendere da oggetti minuscoli

Un altro interessante miglioramento nell'addestramento di Ultralytics deriva dal modo in cui il modello assegna gli obiettivi di addestramento alle previsioni, un processo noto come assegnazione delle etichette. Esso è responsabile dell'abbinamento degli oggetti reali alle previsioni candidate, spesso chiamate ancore. 

Queste corrispondenze determinano quali previsioni ricevono supervisione e contribuiscono alla perdita. YOLO26 si basa su un metodo di assegnazione delle etichette esistente chiamato Task Alignment Learning (TAL), progettato per allineare meglio la classificazione e la localizzazione durante l'addestramento.

Sebbene TAL funzioni bene per la maggior parte degli oggetti, l'addestramento ha rivelato un limite importante. Durante il processo di abbinamento, gli oggetti molto piccoli potevano essere completamente ignorati. In pratica, gli oggetti più piccoli di circa 8 pixel in un'immagine di input di 640 pixel spesso non ricevevano alcuna assegnazione di ancoraggio. Quando ciò accade, il modello riceve poca o nessuna supervisione per tali oggetti, rendendo difficile imparare a detect in modo affidabile.

Per risolvere questo problema, YOLO26 introduce l'assegnazione di etichette sensibile agli obiettivi di piccole dimensioni (STAL). STAL modifica il processo di assegnazione per garantire che gli oggetti di piccole dimensioni non vengano ignorati durante l'addestramento. Nello specifico, impone un minimo di quattro assegnazioni di ancoraggio per oggetti inferiori a 8 pixel. Ciò garantisce che anche gli oggetti più piccoli contribuiscano in modo coerente alla perdita di addestramento.

Rafforzando la supervisione dei piccoli obiettivi, STAL migliora la stabilità dell'apprendimento e le prestazioni di rilevamento in scenari in cui sono comuni oggetti piccoli o distanti. Questo miglioramento è particolarmente importante per le applicazioni edge-first YOLO26 come immagini aeree, robotica e sistemi Internet of Things (IoT), in cui gli oggetti sono spesso piccoli, distanti o parzialmente visibili e un rilevamento affidabile è fondamentale.

Ultralytics introduce l'ottimizzatore MuSGD

Per supportare un addestramento più stabile e prevedibile, Ultralytics introduce anche un nuovo ottimizzatore chiamato MuSGD. Questo ottimizzatore è progettato per migliorare la convergenza e l'affidabilità dell'addestramento nei modelli di rilevamento end-to-end, in particolare con l'aumentare delle dimensioni del modello e della complessità dell'addestramento.

Affinché una rete neurale possa apprendere e, di conseguenza, modificare i pesi in modo adeguato, durante l'addestramento calcoliamo un errore (chiamato anche "perdita"). Il modello, quindi, misura quanto siano errate le sue previsioni utilizzando un valore di perdita, calcola i gradienti che indicano come dovrebbero cambiare i suoi parametri e quindi aggiorna tali parametri per ridurre l'errore. Lo Stochastic Gradient Descent (SGD) è un ottimizzatore ampiamente utilizzato che esegue questi aggiornamenti, rendendo l'addestramento efficiente e scalabile.

Fig. 3. Discesa stocastica del gradiente rispetto alla discesa del gradiente (Fonte)

MuSGD si basa su queste solide fondamenta incorporando idee di ottimizzazione ispirate a Muon, un metodo utilizzato nell'addestramento di modelli linguistici di grandi dimensioni. Queste idee sono state influenzate da recenti progressi come Kimi K2 di Moonshot AI, che ha dimostrato un miglioramento nel comportamento di addestramento grazie ad aggiornamenti dei parametri più strutturati.

YOLO26 utilizza una strategia di aggiornamento ibrida. Alcuni parametri vengono aggiornati utilizzando una combinazione di aggiornamenti ispirati a Muon e SGD, mentre altri utilizzano SGD . Ciò consente a YOLO26 di introdurre una struttura aggiuntiva nel processo di ottimizzazione, mantenendo al contempo le proprietà di robustezza e generalizzazione che hanno reso SGD .

Il risultato è un'ottimizzazione più fluida, una convergenza più rapida e un comportamento di addestramento più prevedibile su modelli di diverse dimensioni, rendendo MuSGD un elemento chiave che rende YOLO26 più facile da addestrare e più affidabile su larga scala.

L'importanza delle innovazioni formative Ultralytics

Le innovazioni Ultralytics in materia di addestramento, unite a caratteristiche chiave quali il design end-to-end, NMS e edge-first, rendono il modello più facile da addestrare e più affidabile su larga scala. Vi starete chiedendo cosa significhi realmente questo per le applicazioni di visione artificiale.

Fig. 4. Panoramica delle caratteristiche principali di YOLO26 (Fonte)

In pratica, rende molto più facile portare la visione artificiale dove effettivamente viene utilizzata. I modelli vengono addestrati in modo più prevedibile, sono scalabili in modo più coerente su diverse dimensioni e sono più semplici da adattare a nuovi set di dati. Ciò riduce l'attrito tra sperimentazione e implementazione, specialmente in ambienti in cui l'affidabilità e l'efficienza sono importanti tanto quanto le prestazioni grezze.

Ad esempio, nelle applicazioni di robotica e visione industriale, i modelli devono spesso essere riqualificati frequentemente a causa dei cambiamenti degli ambienti, dei sensori o delle attività. Con YOLO26, i team possono iterare più rapidamente senza preoccuparsi di eseguire training instabili o comportamenti incoerenti tra le diverse dimensioni dei modelli.

Punti chiave

L'affidabilità dei sistemi di visione artificiale dipende tanto dal modo in cui i modelli vengono addestrati quanto dalle loro prestazioni in fase di inferenza. Migliorando l'equilibrio dei segnali di apprendimento, la gestione degli oggetti di piccole dimensioni e il processo di ottimizzazione, YOLO26 rende l'addestramento più stabile e più facile da scalare. Questa attenzione all'affidabilità dell'addestramento aiuta i team a passare più agevolmente dalla fase di sperimentazione a quella di implementazione nel mondo reale, in particolare nelle applicazioni edge-first.

Vuoi saperne di più sull'IA? Visita il nostro repository GitHub per ulteriori informazioni. Entra a far parte della nostra vivace community e scopri le innovazioni in settori quali l'IA nella logistica e la visione artificiale nell'industria automobilistica. Per iniziare oggi stesso con la visione artificiale, dai un'occhiata alle nostre opzioni di licenza.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis