Esplorare l'Ensemble Learning: Il suo ruolo nell'AI e nel ML

Le innovazioni dell'intelligenza artificiale, come i motori di raccomandazione e i sistemi di rilevamento delle frodi, si basano su algoritmi e modelli di apprendimento automatico per fare previsioni e prendere decisioni basate sui dati. Questi modelli possono identificare schemi, prevedere tendenze e aiutare ad automatizzare attività complesse.

Tuttavia, un singolo modello può faticare a catturare tutti i dettagli dei dati del mondo reale. Potrebbe dare buoni risultati in alcuni casi, ma non in altri, come nel caso di un modello di rilevamento delle frodi che non riesce a cogliere nuovi tipi di transazioni.

Questa limitazione è un problema che gli ingegneri dell'intelligenza artificiale devono spesso affrontare quando costruiscono e distribuiscono modelli di apprendimento automatico. Alcuni modelli si adattano troppo ai dati di addestramento, mentre altri si adattano troppo poco, perdendo modelli importanti. L 'apprendimento in gruppo è una tecnica di IA che aiuta ad affrontare queste sfide combinando più modelli, noti come apprenditori di base, in un unico sistema più potente.

Si può pensare a un team di esperti che lavorano insieme per risolvere un problema. In questo articolo esploreremo cos'è l'apprendimento collettivo, come funziona e dove può essere utilizzato. Iniziamo!

Che cos'è l'apprendimento d'insieme?

L'apprendimento in gruppo si riferisce a un insieme di tecniche che combinano più modelli per risolvere lo stesso problema e produrre un unico risultato migliore. Può essere applicato sia all'apprendimento supervisionato (in cui i modelli imparano da dati etichettati) sia all'apprendimento non supervisionato (in cui i modelli trovano modelli in dati non etichettati).

Invece di affidarsi a un solo modello per fare previsioni, un ensemble utilizza diversi modelli che esaminano i dati ciascuno a modo proprio. Quando i loro risultati vengono combinati, il risultato è spesso più accurato, stabile e generalizzabile di quello che un singolo modello potrebbe ottenere da solo.

Si può fare un confronto con un gruppo di analisti che affrontano lo stesso problema. Ogni analista o singolo modello interpreta i dati in modo diverso.

Uno può concentrarsi sui modelli, un altro sulle anomalie e un altro ancora sul contesto. Mettendo insieme le loro prospettive, il gruppo può prendere una decisione più equilibrata e affidabile di qualsiasi giudizio individuale.

Questo approccio aiuta anche a risolvere due delle maggiori sfide dell'apprendimento automatico: il bias e la varianza. Un modello con un'elevata polarizzazione è troppo semplice e trascura modelli importanti, mentre uno con un'elevata varianza è troppo sensibile e si adatta troppo strettamente ai dati di addestramento. Combinando i modelli, l'ensemble learning trova un equilibrio tra questi due aspetti, migliorando le prestazioni del sistema su dati nuovi e non visti.

Capire come funziona l'apprendimento d'insieme

Ogni modello di un ensemble è noto come base learner o modello di base. Questi possono essere lo stesso tipo di algoritmo o un mix di algoritmi diversi, a seconda della tecnica di ensemble utilizzata.

Ecco alcuni esempi comuni dei diversi modelli utilizzati nell'apprendimento collettivo:

Alberi decisionali: Questi modelli dividono i dati in rami in base ai valori delle caratteristiche per prendere decisioni. Per esempio, in problemi di classificazione come la previsione dell'acquisto di un prodotto da parte di un cliente, essi considerano fattori come l'età, il reddito e la cronologia di navigazione.
‍
Reti neurali: Ispirate al modo in cui il cervello umano elabora le informazioni, costituiscono l'architettura di base della maggior parte dei moderni modelli di IA e di apprendimento automatico.
‍
Macchine vettoriali di supporto (SVM): Questi algoritmi classificano i dati trovando un confine decisionale ottimale, chiamato iperpiano, che massimizza il margine tra le diverse classi. In altre parole, la SVM traccia la migliore linea possibile che separa i gruppi lasciando il massimo spazio tra di essi. Ad esempio, può essere utilizzato per stabilire se un'e-mail è spam o meno in base a modelli come la frequenza delle parole e la struttura.
‍
Modelli di regressione logistica: Stimano le probabilità e sono spesso utilizzati per compiti di classificazione binaria. Un esempio tipico è quello di prevedere se una transazione è fraudolenta o legittima.

Un ensemble di modelli combinati è generalmente chiamato strong learner perché integra i punti di forza degli apprendenti di base (chiamati anche modelli deboli) minimizzando le loro debolezze. Lo fa combinando le previsioni di ciascun modello in modo strutturato, utilizzando la votazione a maggioranza per i compiti di classificazione o la media ponderata per i compiti di regressione per produrre un risultato finale più accurato.

Figura 1. Un esempio di apprendimento d'insieme (Fonte)

‍

Quando utilizzare l'apprendimento d'insieme

Prima di immergerci nelle varie tecniche di apprendimento collettivo, facciamo un passo indietro e capiamo quando questo tipo di approccio dovrebbe essere utilizzato in un progetto di apprendimento automatico o di IA.

L'apprendimento collettivo ha un impatto maggiore quando un singolo modello fatica a fare previsioni accurate o coerenti. Può essere utilizzato anche in situazioni in cui i dati sono complessi, rumorosi o imprevedibili.

Ecco alcuni casi comuni in cui i metodi di assemblaggio sono particolarmente efficaci:

Bassa precisione del modello: Quando le previsioni di un modello non sono sufficientemente affidabili, la combinazione di più modelli può migliorare significativamente l'accuratezza e le prestazioni. Ad esempio, nel credit scoring o nella diagnostica medica, anche piccoli miglioramenti nell'accuratezza delle previsioni possono fare una grande differenza.
‍
Dati rumorosi o incoerenti: Se un set di dati contiene valori anomali, errori o fluttuazioni casuali, l'apprendimento d'insieme aiuta a smussare queste irregolarità attraverso la media o la votazione di più modelli.
‍
Necessità di robustezza: I modelli Ensemble sono meno sensibili alle piccole variazioni dei dati, rendendoli più stabili e affidabili per gli ambienti di produzione in cui gli input del mondo reale possono variare.
‍
Compiti di previsione complessi: In compiti come il riconoscimento delle immagini, il rilevamento delle frodi o la previsione delle serie temporali, gli ensemble catturano una gamma più ampia di modelli e relazioni rispetto a quanto potrebbe fare un singolo modello da solo.

È anche più semplice da addestrare, più facile da interpretare e più veloce da mantenere. Prima di utilizzare un ensemble, è importante soppesare il vantaggio di una maggiore accuratezza rispetto al tempo, alla potenza di calcolo e alla complessità aggiuntivi che richiede.

Una panoramica delle tecniche di apprendimento collettivo

Vediamo quindi i modi principali in cui l'apprendimento collettivo può essere applicato nei progetti di apprendimento automatico. Esistono diverse tecniche di base utilizzate per combinare i modelli, ognuna delle quali migliora le prestazioni a modo suo. I metodi di ensemble più comuni sono bagging, boosting, stacking e blending.

Insaccamento

Il bagging, abbreviazione di bootstrap aggregating, è un metodo di apprendimento d'insieme che aiuta a migliorare la stabilità e l'accuratezza del modello addestrando più versioni dello stesso modello su parti diverse dei dati.

Ogni sottoinsieme viene creato utilizzando un processo chiamato campionamento bootstrap, in cui i punti di dati vengono selezionati in modo casuale con sostituzione. Ciò significa che dopo aver scelto un punto di dati, questo viene rimesso nel pool prima che venga scelto il successivo, quindi lo stesso punto può comparire più di una volta, mentre altri potrebbero essere esclusi. Questa casualità garantisce che ogni modello si addestri su una versione leggermente diversa del set di dati.

Durante l'inferenza, tutti i modelli addestrati vengono eseguiti in parallelo per fare previsioni su nuovi dati non visti. Ogni modello produce il proprio output in base a ciò che ha appreso, e queste previsioni individuali vengono poi combinate per formare il risultato finale.

Per i compiti di regressione, come la previsione dei prezzi delle case o delle vendite, questo significa di solito fare la media dei risultati di tutti i modelli per ottenere una stima più uniforme. Per i compiti di classificazione, come l'identificazione di una transazione fraudolenta o meno, l'ensemble spesso vota a maggioranza per decidere la classe finale.

Bagging in azione: L'algoritmo Random Forest

Un buon esempio di come il bagging funzioni bene è quello degli alberi decisionali, che possono facilmente andare in overfit quando vengono addestrati su un singolo set di dati. Addestrando molti alberi su campioni leggermente diversi e combinando i loro risultati, il bagging riduce l'overfitting e migliora l'affidabilità.

Consideriamo l'algoritmo Random Forest. Si tratta di un insieme di alberi decisionali, in cui ogni albero viene addestrato su un sottoinsieme casuale del set di dati di addestramento e su un sottoinsieme casuale di caratteristiche.

La casualità delle caratteristiche aiuta a garantire che gli alberi siano meno correlati e che il modello complessivo sia più stabile e accurato. L'algoritmo Random Forest può essere utilizzato per classificare immagini, rilevare frodi, prevedere l'abbandono dei clienti, prevedere le vendite o stimare i prezzi degli immobili.

Figura 2. Uno sguardo all'algoritmo Random Forest(Fonte)

‍

Potenziamento

Il boosting è un'altra tecnica di apprendimento collettivo che si concentra sul miglioramento degli apprendenti deboli (modelli) addestrandoli in sequenza, uno dopo l'altro, invece che in parallelo. Il concetto centrale del boosting è che ogni nuovo modello impara dagli errori dei precedenti, migliorando gradualmente le prestazioni complessive del modello.

A differenza del bagging, che riduce la varianza facendo la media di modelli indipendenti, il boosting riduce la distorsione facendo sì che ogni nuovo modello presti maggiore attenzione ai casi difficili che i modelli precedenti hanno affrontato con difficoltà.

Poiché i modelli boosting vengono addestrati in sequenza, il modo in cui le loro previsioni vengono combinate alla fine differisce leggermente da altri metodi ensemble. Ogni modello contribuisce alla previsione finale in proporzione alle sue prestazioni durante l'addestramento, con i modelli più accurati che ricevono un peso maggiore.

Per i compiti di regressione, il risultato finale è solitamente una somma ponderata di tutte le previsioni dei modelli. Per i compiti di classificazione, l'algoritmo combina i voti ponderati dei modelli per decidere la classe finale. Questo approccio aiuta il boosting a creare un modello complessivo forte, dando più peso ai modelli più accurati e continuando a imparare dagli altri.

Ecco alcuni tipi comuni di algoritmi di boosting:

AdaBoost (Adaptive Boosting): Questo metodo inizia con l'addestramento di un modello semplice, come un piccolo albero decisionale, e poi aumenta il peso dei punti dati che sono stati classificati in modo errato. Questi pesi fanno sì che il modello successivo si concentri maggiormente sugli esempi difficili. Nel corso di più iterazioni, i modelli si basano l'uno sull'altro e le loro previsioni combinate formano un risultato più forte e più accurato. Ad esempio, AdaBoost può migliorare il rilevamento dello spam o l'accuratezza del riconoscimento facciale.
‍
Gradient Boosting: Invece di ripesare i campioni, il Gradient Boosting addestra ogni nuovo modello per correggere gli errori residui, ovvero le differenze tra i valori reali e quelli previsti, commessi dai modelli precedenti. Questo approccio iterativo lo rende efficace per compiti di regressione e classificazione, come le previsioni di vendita e il credit scoring.
‍
XGBoost (Extreme Gradient Boosting): Questa versione avanzata del gradient boosting migliora sia la velocità che la precisione. Utilizza la regolarizzazione, che penalizza leggermente i modelli troppo complessi durante l'addestramento, in modo che si concentrino su modelli significativi invece di memorizzare i dati. Sebbene i modelli siano ancora addestrati in modo sequenziale, XGBoost accelera il processo utilizzando la parallelizzazione durante la costruzione dell'albero. Può valutare molti possibili punti di divisione contemporaneamente su diversi core della CPU. Questo rende l'addestramento molto più veloce, soprattutto su grandi insiemi di dati, mantenendo alte le prestazioni predittive.

Figura 3. Esempio di classificatore Decision Tree-Based (DTB) addestrato con un approccio boosting per la previsione del rischio di diabete.(Fonte)

‍

Accatastamento

L'impilamento, chiamato anche generalizzazione impilata, fa un ulteriore passo avanti utilizzando le previsioni di diversi modelli come input per un modello finale noto come meta-apprendista. È come avere un gruppo di esperti che condividono la loro opinione, e poi un decisore finale impara a soppesare queste opinioni per prendere la migliore decisione possibile.

Ad esempio, un modello potrebbe essere ottimo per individuare le frodi, mentre un altro è più adatto a prevedere il tasso di abbandono dei clienti. Il meta-apprendista studia le prestazioni di ciascuno e utilizza i loro punti di forza per ottenere una previsione finale più accurata.

Miscelazione

Il blending funziona in modo simile allo stacking, poiché combina le previsioni di diversi modelli per prendere una decisione finale, ma adotta un approccio più semplice e veloce. Invece di usare la convalida incrociata (un metodo che divide i dati in più parti e li fa ruotare tra l'addestramento e il test per rendere il modello più affidabile), come fa lo stacking, il blending mette da parte una piccola porzione di dati, chiamata holdout set.

I modelli di base vengono addestrati sui dati rimanenti e poi fanno previsioni sull'insieme di dati in sospeso, che non hanno mai visto prima. In questo modo si ottengono due informazioni fondamentali: le risposte effettive, o etichette vere, e le previsioni fatte da ciascun modello di base.

Queste previsioni vengono poi passate a un altro modello, chiamato modello di fusione o metamodello. Questo modello finale studia l'accuratezza delle previsioni di ciascun modello di base e impara a combinarle nel miglior modo possibile.

Poiché il blending si basa su un'unica divisione di treno e test, invece di ripetere il processo più volte, è più veloce e più facile da configurare. Il compromesso è che dispone di un numero leggermente inferiore di informazioni da cui apprendere, il che può renderlo un po' meno preciso.

Valutazione degli algoritmi di ensemble

Una parte importante dell'apprendimento collettivo è la valutazione delle prestazioni di un modello su dati che non ha mai visto prima. Indipendentemente da quanto sia avanzata una tecnica, è necessario testarla per assicurarsi che sia in grado di generalizzare, ossia che faccia previsioni accurate su nuovi esempi del mondo reale, anziché limitarsi a memorizzare i dati di addestramento.

Ecco alcune metriche di performance comuni utilizzate per valutare i modelli di IA:

Accuratezza: Questa metrica misura la percentuale di previsioni corrette su tutte quelle effettuate dal modello. Fornisce una rapida panoramica delle prestazioni complessive.
‍
Precisione: Indica quanti dei campioni previsti come positivi sono effettivamente positivi. Una precisione elevata significa che il modello commette pochi errori di falso positivo.
‍
Richiamo: Questa misura si concentra su quanti casi positivi effettivi sono stati identificati correttamente dal modello. È particolarmente importante in settori come quello sanitario, dove la mancata identificazione di un caso positivo, come la diagnosi di una malattia, può avere gravi conseguenze.

Applicazioni reali dell'apprendimento collettivo

Finora abbiamo esplorato il funzionamento e le tecniche dell'apprendimento collettivo. Ora vediamo dove questo approccio sta avendo un impatto.

Ecco alcune aree chiave in cui l'apprendimento collettivo viene comunemente applicato:

Analisi dei dati e previsioni: In ambito commerciale e analitico, i modelli di ensemble aiutano le organizzazioni a fare previsioni migliori combinando le intuizioni di più modelli. Questo porta a previsioni di vendita più accurate, a una pianificazione più intelligente della domanda e a una comprensione più chiara del comportamento dei clienti.
‍
Classificazione binaria: Compiti come il rilevamento di spam, la prevenzione delle frodi e la diagnosi medica richiedono spesso di distinguere tra due possibili risultati. I modelli Ensemble aiutano a ridurre i falsi positivi e i falsi negativi, il che è particolarmente cruciale in settori come la sicurezza informatica e la sanità.
‍
Problemi di regressione: Nella previsione di valori continui come i prezzi delle case, i ricavi delle vendite o il rischio di credito, i metodi ensemble catturano le relazioni complesse all'interno dei dati. Ciò si traduce in previsioni più precise che supportano migliori decisioni finanziarie e operative.

Andare oltre i dati strutturati con l'apprendimento collettivo

Sebbene l'apprendimento collettivo sia più comunemente utilizzato con dati strutturati o tabellari, come i fogli di calcolo contenenti informazioni numeriche o categoriche, può essere applicato anche a dati non strutturati come testo, immagini, audio e video.

Questi tipi di dati sono più complessi e più difficili da interpretare per i modelli, ma i metodi di ensemble aiutano a migliorare l'accuratezza e l'affidabilità. Ad esempio, nella computer vision, gli ensemble possono migliorare compiti come la classificazione delle immagini e il rilevamento degli oggetti.

Combinando le previsioni di più modelli di visione, come le reti neurali convoluzionali (CNN), il sistema può riconoscere gli oggetti con maggiore precisione e gestire le variazioni di illuminazione, angolazione o sfondo che potrebbero confondere un singolo modello.

Uno sguardo all'assemblaggio dei modelli di Ultralytics YOLOv5

Un esempio interessante di utilizzo dell'ensemble learning nella computer vision si ha quando un ingegnere combina più modelli di rilevamento degli oggetti per migliorare la precisione. Immaginiamo che un ingegnere stia lavorando a un sistema di monitoraggio della sicurezza per un cantiere, dove l'illuminazione, gli angoli e le dimensioni degli oggetti cambiano continuamente.

Un singolo modello potrebbe non notare un lavoratore nell'ombra o confondere un macchinario in movimento. Utilizzando un insieme di modelli, ciascuno con punti di forza diversi, il sistema diventa più affidabile e ha meno probabilità di commettere questi errori.

In particolare, i modelli come Ultralytics YOLOv5 vanno di pari passo con l'ensembling dei modelli. Gli ingegneri possono combinare diverse varianti di YOLOv5, come YOLOv5x e YOLOv5l6, per fare previsioni insieme. Ogni modello analizza la stessa immagine e produce i propri rilevamenti, che vengono poi mediati per generare un risultato finale più forte e accurato.

Figura 4. Rilevamento di oggetti in un'immagine con YOLOv5.(Fonte)

‍

Pro e contro dell'apprendimento collettivo

Ecco alcuni vantaggi principali dell'utilizzo dell'apprendimento collettivo:

Resilienza ai dati rumorosi: Gli ensemble sono meno influenzati dai valori anomali o dal rumore casuale del set di dati poiché si basano su più modelli.
‍
Migliore generalizzazione: Gli ensemble riducono l'overfitting, aiutando i modelli a funzionare bene su dati non visti invece di memorizzare semplicemente gli esempi di addestramento.
‍
Flessibilità tra gli algoritmi: È possibile combinare diversi tipi di modelli, come alberi decisionali, reti neurali e modelli lineari, per sfruttare i loro punti di forza.

Se da un lato l'apprendimento collettivo porta diversi vantaggi, dall'altro ci sono anche alcune sfide da considerare. Ecco alcuni fattori da tenere a mente:

Più alto costo di calcolo: L'addestramento e la manutenzione di più modelli richiede più memoria, potenza di elaborazione e tempo rispetto a un singolo modello.
‍
Ridotta interpretabilità: Poiché il risultato finale deriva dalla combinazione di più modelli, può essere difficile capire perché è stata presa una certa decisione. Tuttavia, questo dipende dai modelli utilizzati: quando si utilizzano modelli interpretabili, come gli alberi decisionali o le macchine vettoriali di supporto, di solito è più facile comprendere i risultati.
‍
Considerazioni sulla progettazione dell'ensemble: La costruzione di un ensemble implica la scelta del giusto mix di modelli e la garanzia che funzionino bene insieme. Tuttavia, in alcuni casi può anche essere più semplice, perché non è necessario mettere a punto gli iperparametri di ogni singolo modello.

Punti chiave

L'apprendimento in ensemble mostra come la combinazione di più modelli possa rendere i sistemi di intelligenza artificiale più precisi e affidabili. Aiuta a ridurre gli errori e a migliorare le prestazioni in diversi tipi di attività. Con la continua crescita dell'apprendimento automatico e dell'IA, tecniche come questa favoriscono un'adozione più ampia e soluzioni di IA più pratiche e performanti.

Unitevi alla nostra comunità in crescita e al repository GitHub per saperne di più sulla Vision AI. Esplorate le nostre pagine dedicate alle soluzioni per conoscere le applicazioni della computer vision in agricoltura e dell' IA nella logistica. Scoprite le nostre opzioni di licenza per iniziare a creare il vostro modello di computer vision oggi stesso!

Esplorare l'apprendimento in ensemble e il suo ruolo nell'IA e nel ML

Che cos'è l'apprendimento d'insieme?

Capire come funziona l'apprendimento d'insieme

Quando utilizzare l'apprendimento d'insieme