Scopri la classificazione delle immagini con Ultralytics YOLO: addestra modelli personalizzati per sanità, agricoltura, vendita al dettaglio e altro ancora utilizzando strumenti all'avanguardia.
La classificazione delle immagini è un'attività fondamentale nella computer vision (CV) che prevede l'assegnazione di una singola etichetta specifica a un'intera immagine da un insieme predefinito di categorie. L'obiettivo principale è identificare il soggetto principale di un'immagine e classificarlo di conseguenza. Ad esempio, un modello di classificazione analizzerebbe un'immagine e restituirebbe un'etichetta come "gatto", "cane" o "auto". Questa attività costituisce la base per molte applicazioni CV più complesse ed è una componente fondamentale del machine learning (ML). Il processo si basa su algoritmi, in particolare le reti neurali convoluzionali (CNN), per apprendere le caratteristiche distintive da grandi set di dati etichettati.
I modelli di classificazione delle immagini vengono addestrati utilizzando l'apprendimento supervisionato, dove vengono alimentati con un vasto numero di immagini che sono già state etichettate manualmente con la classe corretta. Durante l'addestramento, la rete neurale impara a identificare schemi, texture, forme e combinazioni di colori associati a ciascuna categoria. Questo apprendimento si ottiene attraverso un processo chiamato backpropagation, che regola i parametri interni del modello, o pesi, per ridurre al minimo la differenza tra le sue previsioni e le etichette effettive.
I modelli di classificazione moderni utilizzano spesso architetture di deep learning con molti livelli. I primi livelli potrebbero imparare a riconoscere feature semplici come bordi e angoli, mentre i livelli più profondi li combinano per identificare strutture più complesse come occhi, ruote o volti. Il livello finale della rete utilizza in genere una funzione softmax per produrre un punteggio di probabilità per ogni classe possibile. La classe con la probabilità più alta viene scelta come previsione finale. Fondamentale per questo processo è l'estrazione delle feature, in cui il modello apprende automaticamente le feature più informative per il task di classificazione.
La classificazione delle immagini viene utilizzata in numerosi settori per automatizzare e scalare le attività di riconoscimento visivo. Due esempi importanti includono:
Sebbene strettamente correlata ad altri task di computer vision, la classificazione delle immagini ha uno scopo distinto. È importante distinguerla da:
In sintesi, la classificazione ti dice cosa c'è in un'immagine, il rilevamento ti dice cosa e dove, e la segmentazione fornisce una mappa dettagliata a livello di pixel di tutto ciò che è presente nella scena.
Pur essendo rinomati per l'object detection, i modelli Ultralytics YOLO eccellono anche nelle attività di classificazione delle immagini. Modelli all'avanguardia come YOLO11 possono essere facilmente sottoposti a training o fine-tuning su dataset personalizzati utilizzando l'intuitivo pacchetto Python Ultralytics o la piattaforma no-code Ultralytics HUB.
La nostra documentazione fornisce ampie risorse, tra cui suggerimenti per l'addestramento dei modelli e una guida dettagliata su come utilizzare YOLO11 per la classificazione delle immagini. Gli sviluppatori possono sfruttare modelli pre-addestrati su dataset di riferimento come ImageNet, CIFAR-100 e Caltech-101 oppure addestrare un nuovo modello da zero. Per coloro che sono interessati agli ultimi progressi, risorse come Papers With Code offrono una panoramica completa dei modelli più performanti. Puoi anche confrontare le prestazioni del modello YOLO su benchmark standard. Framework come PyTorch e TensorFlow forniscono le basi per la costruzione e l'addestramento di questi modelli.