Potenziare la computer vision open-source con i transformer di Hugging Face
Tuffati nella computer vision open-source con Hugging Face! Impara il transfer learning, i transformer ed esplora oltre 8.000 modelli. Unisciti a Merve Noyan per approfondimenti e demo pratiche, potenziando gli sviluppatori nell'innovazione dell'esplorazione dell'AI.

Mentre continuiamo a esplorare i momenti salienti dell'evento YOLO VISION 2023 (YV23), conosciamo Merve Noyan, Developer Advocacy Engineer presso Hugging Face, la piattaforma NLP leader con modelli pre-addestrati per uno sviluppo efficiente di applicazioni linguistiche. Nel suo intervento, Merve ha condiviso incredibili approfondimenti sul mondo della computer vision open-source.
Unisciti a noi mentre ti accompagniamo in un viaggio attraverso l'affascinante universo del transfer learning, dei Transformer e dell'ecosistema di computer vision open-source.
Link to this sectionAlla scoperta del transfer learning: un breve riepilogo#
Merve ha iniziato con una rapida introduzione al transfer learning, la bacchetta magica che ci permette di trasferire la conoscenza da una rete neurale a un'altra. Immagina di addestrare un modello sulle caratteristiche universali nei primi strati, come bordi e angoli, e poi di ottimizzarlo per compiti specifici. Questa è l'essenza del transfer learning, che riduce le dipendenze dai dati e aumenta la precisione.
Merve ha messo in luce i classici backbone convoluzionali come ResNet e Inception, preparando il terreno per il viaggio trasformativo che ci attende.
Link to this sectionEntrano in scena i Transformer: un enigma svelato#
Cosa rende speciali i Transformer? Merve lo ha paragonato a un indovinello, mostrando come differiscono dai tradizionali modelli basati su convoluzione. Il segreto risiede nella loro capacità di eseguire l'auto-apprendimento, catturando caratteristiche senza bisogno di dati etichettati. Vision Transformer, Data Efficient Transformer, CLIP e Swin Transformer sono stati tra il cast stellare di modelli basati su Transformer che ha presentato.
Troviamo un terreno comune con Ultralytics, che fornisce supporto per un modello Transformer progettato per il rilevamento di oggetti. Questo modello presenta un efficace encoder ibrido, selezione delle query consapevole dell'IoU e velocità di inferenza regolabile. In particolare, aderisce al familiare pattern degli altri modelli Ultralytics YOLOv8, presentando opzioni per predizione, addestramento, validazione ed esportazione.
Link to this sectionIl tuo punto di riferimento unico#
Merve ha poi approfondito il tesoro delle offerte di Hugging Face, con oltre 8.000 modelli per compiti classici di computer vision e 10.000 modelli per applicazioni multimodali. L'Hugging Face Hub vanta ben oltre 3.000 dataset, rendendolo un parco giochi sia per sviluppatori che per appassionati. Merve ha sottolineato l'esperienza fluida, grazie alla API coerente di Hugging Face, che offre modelli pronti all'uso per vari casi d'uso.
Link to this sectionMagia pratica con Hugging Face#
Il discorso è passato a dimostrazioni pratiche, mostrando con quanta facilità si possa lavorare con i modelli. Dall'istanziazione di modelli e processori al fine-tuning con la Trainer API, Merve ha chiarito che la libreria Hugging Face Transformers è la migliore amica di uno sviluppatore. Ha persino introdotto la Pipeline API, una delle sue preferite, che semplifica il flusso di lavoro per gli utenti.

Fig 1. Merve Noyan presenta allo YV23 presso il Google for Startups Campus di Madrid.
Link to this sectionUno sguardo alle applicazioni#
Merve ha concluso il talk con una panoramica su alcune fantastiche applicazioni, tra cui il modello Plot per il visual question answering, Blip per la didascalia delle immagini e il potente modello Segment Anything per la segmentazione delle immagini. La Pipeline API dell'ecosistema Hugging Face ha rubato la scena, rendendo semplice utilizzare i modelli senza addentrarsi troppo nei tecnicismi.
La ciliegina sulla torta è stata la dimostrazione di Merve sulla creazione di illusioni ottiche con Elysian Diffusion, un'esperienza affascinante che aggiunge un tocco divertente al mondo dell'IA.
Link to this sectionIn poche parole!#
In conclusione, il talk di Merve ci ha lasciati ispirati e impazienti di esplorare le infinite possibilità della computer vision open-source. Hugging Face ha reso l'IA davvero accessibile, divertente ed eccitante, permettendo agli sviluppatori di sprigionare la propria creatività. Brindiamo al futuro della community open-source e alle incredibili innovazioni che ci riserva!
Guarda il video completo sulla computer vision di Hugging Face!






