Glossario

Albero decisionale

Scopri la potenza degli alberi decisionali nell'apprendimento automatico per la classificazione, la regressione e le applicazioni reali come la sanità e la finanza.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'albero delle decisioni è un algoritmo di apprendimento automatico (ML) versatile e ampiamente utilizzato che rientra nella categoria dell'apprendimento supervisionato. Utilizza una struttura ad albero per modellare le decisioni e le loro possibili conseguenze, simile a un diagramma di flusso. Ogni nodo interno rappresenta un test su un attributo (o caratteristica), ogni ramo rappresenta l'esito del test e ogni nodo fogliare rappresenta un'etichetta di classe (nei compiti di classificazione) o un valore continuo (nei compiti di regressione). Grazie alla loro struttura intuitiva, gli alberi decisionali sono noti per essere relativamente facili da capire e interpretare, il che li rende preziosi per l'IA spiegabile (XAI).

Come funzionano gli alberi decisionali

L'idea di base è quella di dividere il set di dati in sottoinsiemi sempre più piccoli in base ai valori delle caratteristiche di input, creando una struttura ad albero. Il processo inizia dal nodo radice, che rappresenta l'intero set di dati. A ogni nodo, l'algoritmo seleziona la caratteristica e la soglia migliore per dividere i dati in modo da aumentare la purezza o l'omogeneità dei sottoinsiemi risultanti rispetto alla variabile target. I criteri comuni per trovare la migliore suddivisione includono l'impurità di Gini e il guadagno di informazioni (basato sull'entropia), che misurano il disordine o la casualità di un insieme. Questo processo di suddivisione continua in modo ricorsivo fino a quando non viene soddisfatto un criterio di arresto, come ad esempio il raggiungimento di una profondità massima, un numero minimo di campioni in un nodo o il raggiungimento di nodi a foglia pura (nodi contenenti campioni di una sola classe). Per fare una previsione per un nuovo punto di dati, l'albero viene attraversato dalla radice fino a un nodo foglia in base ai risultati dei test sulle caratteristiche e la previsione è la classe maggioritaria o il valore medio in quella foglia. Un'attenta pre-elaborazione dei dati e l'ingegnerizzazione delle caratteristiche possono avere un impatto significativo sulle prestazioni di un albero decisionale.

Tipi di alberi decisionali

Gli alberi decisionali possono essere ampiamente classificati in due tipi principali:

  • Alberi di classificazione: Utilizzati quando la variabile target è categorica (ad esempio, per predire "spam" o "non spam"). I nodi foglia rappresentano le etichette delle classi.
  • Alberi di regressione: Utilizzati quando la variabile target è continua (ad esempio, la previsione dei prezzi delle case). I nodi foglia rappresentano un valore numerico previsto, spesso la media dei valori target dei campioni di allenamento che raggiungono quella foglia.

Vantaggi e svantaggi

Gli alberi decisionali offrono diversi vantaggi:

  • Interpretabilità: La loro struttura grafica li rende facili da visualizzare e da capire.
  • Preparazione minima dei dati: Spesso richiedono una minore pulizia dei dati rispetto ad altri algoritmi, come ad esempio una minore normalizzazione dei dati.
  • Gestisce i dati non lineari: Possono catturare relazioni non lineari tra le caratteristiche e la variabile target.
  • Importanza delle caratteristiche: Forniscono intrinsecamente una misura dell'importanza delle caratteristiche in base a quanto presto o spesso una caratteristica viene utilizzata per la suddivisione.

Tuttavia, hanno anche degli svantaggi:

  • Overfitting: Gli alberi decisionali possono facilmente diventare troppo complessi e catturare il rumore nei dati di addestramento, portando a una scarsa generalizzazione sui dati di prova non visti. Tecniche come la potatura o la definizione di vincoli sulla crescita dell'albero aiutano a mitigare l'overfitting.
  • Instabilità: Piccole variazioni nei dati possono generare un albero completamente diverso.
  • Bias: gli alberi possono essere orientati verso caratteristiche con più livelli o classi dominanti se il set di dati è sbilanciato.

Applicazioni del mondo reale

Gli alberi decisionali vengono utilizzati in diversi ambiti:

  1. Diagnosi mediche: Assistere i medici creando modelli che suggeriscono diagnosi basate sui sintomi del paziente e sui risultati degli esami. Ad esempio, un albero potrebbe guidare la diagnosi ponendo domande sui sintomi in sequenza(AI nelle applicazioni sanitarie).
  2. Previsione dell'abbandono dei clienti: Le aziende utilizzano gli alberi decisionali per identificare i clienti che probabilmente smetteranno di utilizzare il loro servizio in base ai modelli di utilizzo, ai dati demografici e alla cronologia delle interazioni, consentendo così sforzi di fidelizzazione mirati(Predicting Customer Churn).
  3. Valutazione del rischio finanziario: Valutare l'affidabilità creditizia analizzando fattori come il reddito, il debito e la storia creditizia(Computer vision models in finance).
  4. Controllo della qualità della produzione: Identificare potenziali difetti nei prodotti in base alle letture dei sensori o ai parametri di processo(Improving Manufacturing with Computer Vision).

Relazione con altri modelli

Gli alberi decisionali costituiscono la base per metodi di ensemble più complessi come le Foreste Casuali e gli Alberi Gradient Boosted (come XGBoost o LightGBM). Le Foreste Casuali, ad esempio, costruiscono più alberi decisionali su diversi sottoinsiemi di dati e caratteristiche e aggregano le loro previsioni, ottenendo spesso una migliore accuratezza e robustezza contro l'overfitting rispetto a un singolo albero. Pur essendo potenti per molti problemi di dati tabellari, gli alberi decisionali differiscono in modo significativo da modelli come le reti neurali convoluzionali (CNN) o i trasformatori di visione (ViT) utilizzati nella computer vision. Modelli come Ultralytics YOLO11 sfruttano architetture di deep learning ottimizzate per compiti come il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze, che comportano l'elaborazione di dati complessi e ad alta dimensionalità come le immagini, un ambito in cui i singoli alberi decisionali sono meno efficaci. La comprensione di modelli fondamentali come gli alberi decisionali fornisce un contesto prezioso nel panorama più ampio dell'IA e della modellazione predittiva. Strumenti come Scikit-learn forniscono implementazioni popolari per gli alberi decisionali, mentre piattaforme come Ultralytics HUB semplificano lo sviluppo e la distribuzione di modelli di visione avanzati.

Leggi tutto