Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Alimentare la visione computerizzata open-source con i trasformatori di HuggingFace

Nuvola Ladi

5 minuti di lettura

14 febbraio 2024

Tuffatevi nella computer vision open-source con HuggingFace! Imparate a conoscere l'apprendimento per trasferimento, i trasformatori ed esplorate oltre 8.000 modelli. Unisciti a Merve Noyan per approfondimenti e dimostrazioni pratiche, per consentire agli sviluppatori di innovare l'esplorazione dell'IA.

Mentre continuiamo a esplorare i momenti salienti dell'evento YOLO VISION 2023 (YV23), incontriamo Merve Noyan, Developer Advocacy Engineer di HuggingFacela piattaforma NLP leader con modelli pre-addestrati per lo sviluppo efficiente di applicazioni linguistiche. Nel suo intervento, Merve ha condiviso alcune incredibili intuizioni sul mondo della computer vision open-source. 

Unisciti a noi in un viaggio attraverso l'affascinante universo del transfer learning, dei transformer e dell'ecosistema della computer vision open source.

Transfer learning svelato: un rapido riepilogo

Merve ha iniziato con un rapido riepilogo sul transfer learning, la bacchetta magica che ci consente di trasferire la conoscenza da una rete neurale a un'altra. Immagina di addestrare un modello sulle caratteristiche universali nei primi livelli, come bordi e angoli, e quindi di metterlo a punto per compiti specifici. Questa è l'essenza del transfer learning, che riduce le dipendenze dai dati e aumenta la precisione.

Merve ha evidenziato i classici backbone convoluzionali come ResNet e Inception, preparando il terreno per il viaggio trasformazionale che ci aspetta.

Entrano in scena i transformer: un enigma svelato

Cosa rende speciali i Transformer? Merve lo ha paragonato a un enigma, mostrando come differiscono dai modelli tradizionali basati sulla convoluzione. Il segreto sta nella loro capacità di eseguire l'apprendimento auto-supervisionato, catturando le caratteristiche senza la necessità di dati etichettati. Vision Transformer, Data Efficient Transformer, CLIP e SWIM CLIP sono stati tra i modelli basati su transformer presentati. 

Si tratta di un terreno comune con Ultralytics , che fornisce il supporto per un modello di trasformatore progettato per il rilevamento degli oggetti. Questo modello è dotato di un efficace codificatore ibrido, di una selezione delle query consapevole dell'IOU e di una velocità di inferenza regolabile. In particolare, aderisce allo schema familiare di altri modelli di Ultralytics YOLOv8 Ulralytics YOLOv8, presentando opzioni per la previsione, l'addestramento, la convalida e l'esportazione.

Il tuo sportello unico

Merve ha poi approfondito il tesoro dell'offerta di HuggingFace, con oltre 8.000 modelli per compiti classici di computer vision e 10.000 modelli per applicazioni multimodali. L'hub di HuggingFace vanta ben oltre 3.000 set di dati, che lo rendono un parco giochi per sviluppatori e appassionati. Merve ha sottolineato l'esperienza senza soluzione di continuità, grazie all'API coerente di HuggingFace, che offre modelli pronti all'uso per vari casi d'uso.

La magia delle mani con HuggingFace

L'intervento è passato alle dimostrazioni pratiche, mostrando come si possa lavorare senza fatica con i modelli. Dall'istanziazione di modelli e processori alla messa a punto con l'API Trainer, Merve ha chiarito che la libreria HuggingFace Transformers è la migliore amica degli sviluppatori. Ha anche introdotto l'API Pipeline, una delle sue preferite, che semplifica il flusso di lavoro per gli utenti.

Figura 1. Merve Noyan presenta l'YV23 presso il Campus Google for Startups di Madrid.

Uno sguardo alle applicazioni

Merve ha concluso l'intervento con uno sguardo ad alcune fantastiche applicazioni, tra cui il modello Plot per la risposta a domande visive, Blip per la didascalia delle immagini e il potente modello Segment Anything per la segmentazione delle immagini. L'API Pipeline dell'ecosistema HuggingFace ha conquistato i riflettori, rendendo semplice l'utilizzo dei modelli senza addentrarsi nei dettagli tecnici.

La ciliegina sulla torta è stata la presentazione di Merve della creazione di illusioni ottiche con Elysian Diffusion, un'esperienza accattivante che aggiunge un tocco divertente al mondo dell'IA.

In poche parole!

In conclusione, l'intervento di Merve ci ha lasciati ispirati e desiderosi di esplorare le infinite possibilità della computer vision open-source. HuggingFace ha reso l'intelligenza artificiale accessibile, divertente ed emozionante, consentendo agli sviluppatori di liberare la loro creatività. Al futuro della comunità open-source e alle sue incredibili innovazioni! 

Guarda l'intero intervento qui

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis