Scoprite la classificazione delle immagini con Ultralytics YOLO: addestrate modelli personalizzati per la sanità, l'agricoltura, la vendita al dettaglio e altro ancora, utilizzando strumenti all'avanguardia.
La classificazione delle immagini è un compito fondamentale della computer vision (CV) che prevede l'assegnazione di un'etichetta singola e specifica a un'intera immagine da un insieme predefinito di categorie. L'obiettivo principale è identificare il soggetto principale di un'immagine e classificarla di conseguenza. Ad esempio, un modello di classificazione analizza un'immagine e produce un'etichetta come "gatto", "cane" o "auto". Questo compito è alla base di molte applicazioni CV più complesse ed è un componente fondamentale dell'apprendimento automatico (ML). Il processo si basa su algoritmi, in particolare sulle reti neurali convoluzionali (CNN), per apprendere caratteristiche distintive da grandi insiemi di dati etichettati.
I modelli di classificazione delle immagini vengono addestrati utilizzando l'apprendimento supervisionato, in cui viene alimentato un vasto numero di immagini che sono già state etichettate manualmente con la classe corretta. Durante l'addestramento, la rete neurale impara a identificare i modelli, le texture, le forme e le combinazioni di colori associati a ciascuna categoria. Questo apprendimento avviene attraverso un processo chiamato backpropagation, che regola i parametri interni del modello, o pesi, per ridurre al minimo la differenza tra le sue previsioni e le etichette reali.
I moderni modelli di classificazione utilizzano spesso architetture di apprendimento profondo con molti livelli. I primi strati possono imparare a riconoscere caratteristiche semplici come bordi e angoli, mentre gli strati più profondi li combinano per identificare strutture più complesse come occhi, ruote o volti. Lo strato finale della rete utilizza in genere una funzione softmax per produrre un punteggio di probabilità per ogni possibile classe. La classe con la probabilità più alta viene scelta come predizione finale. La chiave di questo processo è l'estrazione delle caratteristiche, in cui il modello apprende automaticamente le caratteristiche più informative per il compito di classificazione.
La classificazione delle immagini viene utilizzata in numerosi settori per automatizzare e scalare le attività di riconoscimento visivo. Due esempi importanti sono:
Pur essendo strettamente legata ad altre attività di computer vision, la classificazione delle immagini ha uno scopo distinto. È importante differenziarla da:
In sintesi, la classificazione dice cosa c 'è in un'immagine, il rilevamento dice cosa e dove, e la segmentazione fornisce una mappa dettagliata a livello di pixel di tutto ciò che è presente nella scena.
Pur essendo famosi per il rilevamento di oggetti, i modelli YOLO di Ultralytics eccellono anche nelle attività di classificazione delle immagini. Modelli all'avanguardia come YOLO11 possono essere facilmente addestrati o perfezionati su set di dati personalizzati utilizzando l'intuitivo pacchetto Python di Ultralytics o la piattaforma no-code Ultralytics HUB.
La nostra documentazione fornisce ampie risorse, tra cui suggerimenti per l'addestramento dei modelli e una guida dettagliata su come utilizzare YOLO11 per la classificazione delle immagini. Gli sviluppatori possono sfruttare modelli pre-addestrati su dataset di riferimento come ImageNet, CIFAR-100 e Caltech-101 o addestrare un nuovo modello da zero. Per chi è interessato agli ultimi progressi, risorse come Papers With Code offrono una panoramica completa dei modelli più performanti. È inoltre possibile confrontare le prestazioni dei modelli YOLO con i benchmark standard. Framework come PyTorch e TensorFlow forniscono le basi per costruire e addestrare questi modelli.