Alimentare la visione computerizzata open-source con i trasformatori di HuggingFace

Nuvola Ladi

5 minuti di lettura

14 febbraio 2024

Tuffatevi nella computer vision open-source con HuggingFace! Imparate a conoscere l'apprendimento per trasferimento, i trasformatori ed esplorate oltre 8.000 modelli. Unisciti a Merve Noyan per approfondimenti e dimostrazioni pratiche, per consentire agli sviluppatori di innovare l'esplorazione dell'IA.

Mentre continuiamo a esplorare i momenti salienti dell'evento YOLO VISION 2023 (YV23), incontriamo Merve Noyan, Developer Advocacy Engineer di HuggingFace, la principale piattaforma NLP con modelli pre-addestrati per lo sviluppo efficiente di applicazioni linguistiche. Nel suo intervento, Merve ha condiviso alcune incredibili intuizioni sul mondo della computer vision open-source. 

Unitevi a noi in un viaggio attraverso l'affascinante universo dell'apprendimento per trasferimento, dei trasformatori e dell' ecosistema open-source della computer vision.

L'apprendimento per trasferimento svelato: Un rapido riepilogo

Merve ha dato il via ai lavori con una rapida introduzione all'apprendimento per trasferimento, la bacchetta magica che ci permette di trasferire la conoscenza da una rete neurale all'altra. Immaginate di addestrare un modello sulle caratteristiche universali dei primi strati, come spigoli e angoli, e poi di metterlo a punto per compiti specifici. Questa è l'essenza dell'apprendimento per trasferimento, che riduce le dipendenze dai dati e aumenta la precisione.

Merve ha evidenziato le classiche colonne portanti convoluzionali come ResNet e Inception, ponendo le basi per il viaggio di trasformazione che ci attende.

Entrare nei trasformatori: Un enigma svelato

Cosa rende speciali i Transformers? Merve lo ha paragonato a un indovinello, mostrando come si differenziano dai modelli tradizionali basati sulla convoluzione. Il segreto sta nella loro capacità di eseguire l'apprendimento auto-supervisionato, catturando le caratteristiche senza bisogno di dati etichettati. Vision Transformer, Data Efficient Transformer, CLIP e SWIM CLIP fanno parte del cast stellare di modelli basati su trasformatori che ha presentato. 

Si tratta di un terreno comune con Ultralytics, che fornisce il supporto per un modello di trasformatore progettato per il rilevamento degli oggetti. Questo modello è dotato di un efficace codificatore ibrido, di una selezione delle query consapevole dell'IOU e di una velocità di inferenza regolabile. In particolare, si attiene allo schema familiare di altri modelli YOLOv8 di Ultralytics, presentando opzioni per la previsione, l'addestramento, la convalida e l'esportazione.

Il vostro sportello unico

Merve ha poi approfondito il tesoro dell'offerta di HuggingFace, con oltre 8.000 modelli per compiti classici di computer vision e 10.000 modelli per applicazioni multimodali. L'hub di HuggingFace vanta ben oltre 3.000 set di dati, che lo rendono un parco giochi per sviluppatori e appassionati. Merve ha sottolineato l'esperienza senza soluzione di continuità, grazie all'API coerente di HuggingFace, che offre modelli pronti all'uso per vari casi d'uso.

La magia delle mani con HuggingFace

L'intervento è passato alle dimostrazioni pratiche, mostrando come si possa lavorare senza fatica con i modelli. Dall'istanziazione di modelli e processori alla messa a punto con l'API Trainer, Merve ha chiarito che la libreria HuggingFace Transformers è la migliore amica degli sviluppatori. Ha anche introdotto l'API Pipeline, una delle sue preferite, che semplifica il flusso di lavoro per gli utenti.

Figura 1. Merve Noyan presenta l'YV23 presso il Campus Google for Startups di Madrid.

Uno sguardo alle applicazioni

Merve ha concluso l'intervento con uno sguardo ad alcune fantastiche applicazioni, tra cui il modello Plot per la risposta a domande visive, Blip per la didascalia delle immagini e il potente modello Segment Anything per la segmentazione delle immagini. L'API Pipeline dell'ecosistema HuggingFace ha conquistato i riflettori, rendendo semplice l'utilizzo dei modelli senza addentrarsi nei dettagli tecnici.

La ciliegina sulla torta è stata la presentazione di Merve sulla creazione di illusioni ottiche con Elysian Diffusion, un'esperienza accattivante che aggiunge un tocco divertente al mondo dell'IA.

In poche parole!

In conclusione, l'intervento di Merve ci ha lasciati ispirati e desiderosi di esplorare le infinite possibilità della computer vision open-source. HuggingFace ha reso l'intelligenza artificiale accessibile, divertente ed emozionante, consentendo agli sviluppatori di liberare la loro creatività. Al futuro della comunità open-source e alle sue incredibili innovazioni! 

Guardate l'intero discorso qui

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti