Incrementare i progetti di CV con gli strumenti open source Hugging Face

La scelta degli algoritmi giusti è solo una parte della creazione di soluzioni di computer vision di grande impatto. Gli ingegneri dell'AI spesso lavorano con grandi dataset, mettono a punto modelli per compiti specifici e ottimizzano i sistemi di AI per le prestazioni nel mondo reale. Con la sempre più rapida adozione delle applicazioni di AI, cresce anche la necessità di strumenti che semplifichino questi processi.

In occasione di YOLO Vision 2024 (YV24), l'evento ibrido annuale promosso da Ultralytics, esperti di IA e appassionati di tecnologia si sono riuniti per esplorare le ultime innovazioni nel campo della computer vision. L'evento ha dato vita a discussioni su vari argomenti, come i modi per accelerare lo sviluppo di applicazioni di IA.

Uno dei momenti salienti dell'evento è stato il keynote su Hugging Face, una piattaforma di intelligenza artificiale open-source che semplifica la formazione, l'ottimizzazione e la distribuzione dei modelli. Pavel Lakubovskii, ingegnere dell'apprendimento automatico presso Hugging Face, ha illustrato come i suoi strumenti migliorino i flussi di lavoro per le attività di visione artificiale, come il rilevamento di oggetti nelle immagini, la categorizzazione delle immagini in gruppi diversi e la formulazione di previsioni senza un addestramento preliminare su esempi specifici (apprendimento a zero colpi).

Hugging Face Hub ospita e fornisce l'accesso a vari modelli di AI e di computer vision, come Ultralytics YOLO11. In questo articolo riassumeremo i punti chiave dell'intervento di Pavel e vedremo come gli sviluppatori possono utilizzare gli strumenti open-source di Hugging Faceper costruire e distribuire rapidamente modelli di AI.

‍

Hugging Face Hub supporta uno sviluppo più rapido dell'intelligenza artificiale

Pavel ha iniziato il suo intervento presentando Hugging Face , una piattaforma di IA open-source che offre modelli pre-addestrati per una varietà di applicazioni. Questi modelli sono progettati per diverse branche dell'IA, tra cui l'elaborazione del linguaggio naturale (NLP), la computer vision e l'IA multimodale, consentendo ai sistemi di elaborare diversi tipi di dati, come testo, immagini e audio.

Pavel ha ricordato che Hugging Face Hub ha ospitato oltre 1 milione di modelli e che gli sviluppatori possono trovare facilmente modelli adatti ai loro progetti specifici. Hugging Face mira a semplificare lo sviluppo dell'IA offrendo strumenti per l'addestramento, la messa a punto e la distribuzione dei modelli. La possibilità di sperimentare diversi modelli semplifica il processo di integrazione dell'IA nelle applicazioni reali.

Se inizialmente Hugging Face era conosciuto per l'NLP, da allora si è esteso alla computer vision e all'IA multimodale, consentendo agli sviluppatori di affrontare una gamma più ampia di compiti di IA. Ha anche una forte comunità in cui gli sviluppatori possono collaborare, condividere intuizioni e ricevere supporto attraverso forum, Discord e GitHub.

Esplorazione di modelli di Hugging Face per applicazioni di visione computerizzata

Entrando più nel dettaglio, Pavel ha spiegato come gli strumenti di Hugging Facefacilitino la creazione di applicazioni di visione artificiale. Gli sviluppatori possono utilizzarli per compiti come la classificazione delle immagini, il rilevamento degli oggetti e le applicazioni di linguaggio di visione.

Ha inoltre sottolineato che molti di questi compiti di computer vision possono essere gestiti con modelli pre-addestrati disponibili su Hugging Face Hub, risparmiando tempo grazie alla riduzione della necessità di addestramento da zero. Hugging Face offre infatti oltre 13.000 modelli pre-addestrati per la classificazione delle immagini, tra cui quelli per la classificazione degli alimenti, degli animali domestici e per il rilevamento delle emozioni.

Sottolineando l'accessibilità di questi modelli, ha affermato: "Probabilmente non hai nemmeno bisogno di addestrare un modello per il tuo progetto: potresti trovarne uno sull'Hub già addestrato da qualcuno della community."

Modelli di Hugging Face per il rilevamento degli oggetti

Con un altro esempio, Pavel ha spiegato come Hugging Face possa essere utile per il rilevamento degli oggetti, una funzione chiave della computer vision utilizzata per identificare e localizzare gli oggetti all'interno delle immagini. Anche con dati etichettati limitati, i modelli pre-addestrati disponibili su Hugging Face Hub possono rendere più efficiente il rilevamento degli oggetti.

Ha anche fornito una rapida panoramica di diversi modelli costruiti per questo compito che potete trovare su Hugging Face:

Modelli di rilevamento degli oggetti in tempo reale: Per gli ambienti dinamici in cui la velocità è fondamentale, modelli come Detection Transformer (DETR) offrono capacità di rilevamento degli oggetti in tempo reale. DETR è addestrato sul set di dati COCO ed è progettato per elaborare in modo efficiente le caratteristiche multiscala, rendendolo adatto ad applicazioni sensibili al tempo.
‍
Modelli di visione-linguaggio: Questi modelli combinano l'elaborazione di immagini e testo, consentendo ai sistemi di IA di abbinare immagini a descrizioni o riconoscere oggetti al di là dei dati di training. Esempi includono CLIP e SigLIP, che migliorano la ricerca di immagini collegando il testo alle immagini e consentono alle soluzioni di IA di identificare nuovi oggetti comprendendone il contesto.
‍
Modelli di rilevamento degli oggetti a scatto zero: Sono in grado di identificare oggetti che non hanno mai visto prima, comprendendo la relazione tra immagini e testo. Ne sono un esempio OwlVit, GroundingDINO e OmDet, che utilizzano l'apprendimento a zero scatti per detect nuovi oggetti senza bisogno di dati di addestramento etichettati.

Come utilizzare i modelli Hugging Face

Pavel ha poi spostato l'attenzione sull'uso pratico dei modelli Hugging Face , spiegando tre modi in cui gli sviluppatori possono sfruttarli: esplorando i modelli, testandoli rapidamente e personalizzandoli ulteriormente.

Ha dimostrato come gli sviluppatori possano sfogliare i modelli direttamente su Hugging Face Hub senza scrivere alcun codice, rendendo facile testare i modelli istantaneamente attraverso un'interfaccia interattiva. "È possibile provarli senza scrivere nemmeno una riga di codice o scaricare il modello sul computer", ha aggiunto Pavel. Poiché alcuni modelli sono di grandi dimensioni, la loro esecuzione sull'Hub consente di evitare le limitazioni di memoria e di elaborazione.

‍

Figura 2. Come si usano i modelli di Hugging Face .

‍

Inoltre, l'Inference API Hugging Face Inference API consente agli sviluppatori di eseguire modelli di intelligenza artificiale con semplici chiamate API. È l'ideale per test rapidi, progetti proof-of-concept e prototipi rapidi senza la necessità di una configurazione complessa.

Per casi d'uso più avanzati, gli sviluppatori possono utilizzare il framework Hugging Face Transformers, uno strumento open-source che fornisce modelli pre-addestrati per compiti di testo, visione e audio, supportando sia PyTorch che TensorFlow. Pavel ha spiegato che con due sole righe di codice gli sviluppatori possono recuperare un modello da Hugging Face Hub e collegarlo a uno strumento di pre-elaborazione, come un processore di immagini, per analizzare i dati delle immagini per applicazioni di Vision AI.

Ottimizzazione dei flussi di lavoro dell'intelligenza artificiale con Hugging Face

Pavel ha poi spiegato come Hugging Face possa ottimizzare i flussi di lavoro dell'intelligenza artificiale. Un argomento chiave che ha trattato è stato l'ottimizzazione del meccanismo di attenzione in Transformers, una caratteristica fondamentale dei modelli di deep learning che li aiuta a concentrarsi sulle parti più rilevanti dei dati in ingresso. Questo migliora l'accuratezza dei compiti che riguardano l'elaborazione del linguaggio e la visione artificiale. Tuttavia, può richiedere un notevole dispendio di risorse.

L'ottimizzazione del meccanismo di attenzione può ridurre significativamente l'utilizzo della memoria migliorando al contempo la velocità. Pavel ha sottolineato: "Ad esempio, passando a un'implementazione di attenzione più efficiente, si potrebbe ottenere una performance fino a 1,8 volte più veloce."

Hugging Face fornisce un supporto integrato per implementazioni dell'attenzione più efficienti all'interno del framework Transformers. Gli sviluppatori possono attivare queste ottimizzazioni semplicemente specificando un'implementazione alternativa dell'attenzione durante il caricamento di un modello.

Compilazione Optimum e Torch

Ha anche parlato della quantizzazione, una tecnica che riduce le dimensioni dei modelli di IA diminuendo la precisione dei numeri che utilizzano senza influire troppo sulle prestazioni. Questo aiuta i modelli a utilizzare meno memoria e a funzionare più velocemente, rendendoli più adatti a dispositivi con potenza di elaborazione limitata, come smartphone e sistemi embedded.

Per migliorare ulteriormente l'efficienza, Pavel ha introdotto la libreria Hugging Face Optimum, un insieme di strumenti progettati per ottimizzare e distribuire i modelli. Con poche righe di codice, gli sviluppatori possono applicare tecniche di quantizzazione e convertire i modelli in formati efficienti come ONNX (Open Neural Network Exchange), consentendo loro di funzionare senza problemi su diversi tipi di hardware, compresi server cloud e dispositivi edge.

‍

Fig. 3. Pavel ha parlato della libreria Optimum e delle sue funzionalità.

‍

Infine, Pavel ha parlato dei vantaggi di Torch Compile, una funzione di PyTorch che ottimizza il modo in cui i modelli di intelligenza artificiale elaborano i dati, rendendoli più veloci ed efficienti. Hugging Face integra Torch Compile nelle sue librerie Transformers e Optimum, consentendo agli sviluppatori di trarre vantaggio da questi miglioramenti delle prestazioni con modifiche minime al codice.

Ottimizzando la struttura di calcolo del modello, Torch Compile è in grado di accelerare i tempi di inferenza e di aumentare la frequenza dei fotogrammi da 29 a 150 fotogrammi al secondo senza compromettere l'accuratezza o la qualità.

Distribuzione dei modelli con gli strumenti Hugging Face

In seguito, Pavel ha illustrato brevemente come gli sviluppatori possono estendere e distribuire i modelli Vision AI utilizzando gli strumenti di Hugging Face , dopo aver selezionato il modello giusto e scelto l'approccio migliore per lo sviluppo.

Ad esempio, gli sviluppatori possono distribuire applicazioni interattive di intelligenza artificiale utilizzando Gradio e Streamlit. Gradio consente agli sviluppatori di creare interfacce basate sul web per i modelli di apprendimento automatico, mentre Streamlit aiuta a creare applicazioni interattive sui dati con semplici script Python .

Pavel ha anche sottolineato che "non è necessario iniziare a scrivere tutto da zero", riferendosi alle guide, ai quaderni di formazione e agli script di esempio che Hugging Face mette a disposizione. Queste risorse aiutano gli sviluppatori a iniziare rapidamente senza dover costruire tutto da zero.

Figura 4. Pavel mentre discute le capacità di Hugging Face a YV24.

‍

Benefici dell'Hugging Face

Per concludere il suo intervento, Pavel ha riassunto i vantaggi dell'utilizzo di Hugging Face Hub. Ha sottolineato come semplifichi la gestione dei modelli e la collaborazione. Ha inoltre richiamato l'attenzione sulla disponibilità di guide, quaderni ed esercitazioni, che possono aiutare sia i principianti che gli esperti a comprendere e implementare i modelli di IA.

"Ci sono già molti spazi interessanti sull'Hub. Puoi trovarne di simili, clonare il codice condiviso, modificare alcune righe, sostituire il modello con il tuo e ricaricarlo", ha spiegato, incoraggiando gli sviluppatori a sfruttare la flessibilità della piattaforma.

Punti chiave

Durante il suo intervento all'YV24, Pavel ha condiviso come Hugging Face fornisca strumenti che supportano l'addestramento, l'ottimizzazione e la distribuzione dei modelli di intelligenza artificiale. Ad esempio, innovazioni come Transformers, Optimum e Torch Compile possono aiutare gli sviluppatori a migliorare le prestazioni dei modelli.

Man mano che i modelli di IA diventano più efficienti, i progressi nella quantizzazione e nell'edge deployment rendono più facile l'esecuzione su dispositivi con risorse limitate. Questi miglioramenti, uniti a strumenti come Hugging Face e a modelli di visione artificiale avanzati come Ultralytics YOLO11, sono fondamentali per creare applicazioni di IA scalabili e ad alte prestazioni.

Unisciti alla nostra comunità in crescita! Esplorate il nostro repository GitHub per conoscere l'IA e controllate le nostre licenzeyolo per avviare i vostri progetti di Vision AI. Siete interessati a innovazioni come la computer vision nella sanità o la computer vision nell'agricoltura? Visitate le nostre pagine dedicate alle soluzioni per saperne di più!

Alimentare i progetti di CV con gli strumenti open-source di Hugging Face

Hugging Face Hub supporta uno sviluppo più rapido dell'intelligenza artificiale

Esplorazione di modelli di Hugging Face per applicazioni di visione computerizzata

Modelli di Hugging Face per il rilevamento degli oggetti

Come utilizzare i modelli Hugging Face

Ottimizzazione dei flussi di lavoro dell'intelligenza artificiale con Hugging Face

Compilazione Optimum e Torch

Distribuzione dei modelli con gli strumenti Hugging Face

Benefici dell'Hugging Face

Punti chiave

Leggi di più in questa categoria

Punti salienti di Ultralytics CES 2026 di Las Vegas

Punti salienti di Ultralytics alla Maker Faire Rome 2025

I punti salienti di Ultralytics alla Maker Faire Shenzhen 2025

Costruiamo insieme il futuro
dell'AI!

Alimentare i progetti di CV con gli strumenti open-source di Hugging Face

Hugging Face Hub supporta uno sviluppo più rapido dell'intelligenza artificiale

Esplorazione di modelli di Hugging Face per applicazioni di visione computerizzata

Modelli di Hugging Face per il rilevamento degli oggetti

Come utilizzare i modelli Hugging Face

Ottimizzazione dei flussi di lavoro dell'intelligenza artificiale con Hugging Face

Compilazione Optimum e Torch

Distribuzione dei modelli con gli strumenti Hugging Face

Benefici dell'Hugging Face

Punti chiave

Leggi di più in questa categoria

Punti salienti di Ultralytics CES 2026 di Las Vegas

Punti salienti di Ultralytics alla Maker Faire Rome 2025

I punti salienti di Ultralytics alla Maker Faire Shenzhen 2025

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!