Scopri come l'apprendimento non supervisionato utilizza il clustering, la riduzione della dimensionalità e il rilevamento di anomalie per scoprire modelli nascosti nei dati.
L'apprendimento non supervisionato è una branca dinamica del dell 'apprendimento automatico (ML) in cui gli algoritmi analizzano e raggruppano insiemi di dati non etichettati. A differenza dei metodi supervisionati che richiedono "chiavi di risposta" o coppie ingresso-uscita etichettate, gli algoritmi di apprendimento non supervisionato di input-output etichettati, gli algoritmi di apprendimento non supervisionato sono lasciati liberi di scoprire schemi nascosti, strutture sottostanti e correlazioni all'interno dei dati. all'interno dei dati. Questa capacità lo rende uno strumento essenziale nel campo più ampio dell'intelligenza artificiale (AI). intelligenza artificiale (IA), in particolare per l'analisi esplorativa dei dati, quando le caratteristiche dei dati non sono del tutto chiare.
L'apprendimento non supervisionato comprende diverse metodologie progettate per estrarre intuizioni dai dati grezzi. Queste tecniche sono spesso classificate in base ai loro obiettivi specifici:
La capacità di elaborare grandi volumi di dati non etichettati consente all'apprendimento non supervisionato di guidare l'innovazione in vari settori. settori:
Per capire dove si colloca l'apprendimento non supervisionato nel panorama del ML è necessario distinguerlo dagli altri approcci:
Mentre framework come Ultralytics sono famosi per i compiti di visione supervisionata,
il concetto alla base del raggruppamento dei dati è universale. Di seguito è riportato un semplice esempio che utilizza il popolare
scikit-learn per eseguire il clustering K-Means, raggruppando i punti di dati sulla base delle loro caratteristiche senza
etichette.
import numpy as np
from sklearn.cluster import KMeans
# Create a simple dataset with two distinct groups of data points
# Group 1 is near (1, 2), Group 2 is near (10, 4)
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# Initialize K-Means to find 2 clusters
kmeans = KMeans(n_clusters=2, random_state=0, n_init="auto")
# Fit the model to the data (No labels are provided here)
kmeans.fit(X)
# The model automatically assigns a label (0 or 1) to each point based on proximity
print(f"Predicted Clusters: {kmeans.labels_}")
# Output might look like: [1 1 1 0 0 0] showing the separation
L'apprendimento non supervisionato è fondamentale per il progresso del deep learning (DL). Tecniche moderne come l'apprendimento auto-supervisionato-in cui il sistema genera le proprie etichette dai dati, stanno rivoluzionando campi come l'elaborazione del linguaggio naturale (NLP). elaborazione del linguaggio naturale (NLP) e la Computer Vision (CV). Con la crescita esponenziale del volume di dati globali cresce in modo esponenziale, la capacità di apprendere da informazioni non etichettate diventa sempre più vitale per flussi di lavoro scalabili per la scienza dei dati.
Per un'immersione più approfondita nei dettagli tecnici, risorse come la guida di Guida IBM all'apprendimento non supervisionato e la documentazione di Scikit-learn per il clustering forniscono un'eccellente lettura di approfondimento.