Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Immergiti nel mondo della computer vision open source con HuggingFace! Scopri il transfer learning, i transformer ed esplora oltre 8.000 modelli. Unisciti a Merve Noyan per approfondimenti e demo pratiche, che consentiranno agli sviluppatori di innovare nell'esplorazione dell'IA.
Mentre continuiamo a esplorare i momenti salienti dell'evento YOLO VISION 2023 (YV23), incontriamo Merve Noyan, Developer Advocacy Engineer presso HuggingFace, la principale piattaforma NLP con modelli pre-addestrati per lo sviluppo efficiente di applicazioni linguistiche. Nel suo intervento, Merve ha condiviso alcune incredibili intuizioni sul mondo della computer vision open source.
Merve ha iniziato con un rapido riepilogo sul transfer learning, la bacchetta magica che ci consente di trasferire la conoscenza da una rete neurale a un'altra. Immagina di addestrare un modello sulle caratteristiche universali nei primi livelli, come bordi e angoli, e quindi di metterlo a punto per compiti specifici. Questa è l'essenza del transfer learning, che riduce le dipendenze dai dati e aumenta la precisione.
Merve ha evidenziato i classici backbone convoluzionali come ResNet e Inception, preparando il terreno per il viaggio trasformazionale che ci aspetta.
Entrano in scena i transformer: un enigma svelato
Cosa rende speciali i Transformer? Merve lo ha paragonato a un enigma, mostrando come differiscono dai modelli tradizionali basati sulla convoluzione. Il segreto sta nella loro capacità di eseguire l'apprendimento auto-supervisionato, catturando le caratteristiche senza la necessità di dati etichettati. Vision Transformer, Data Efficient Transformer, CLIP e SWIM CLIP sono stati tra i modelli basati su transformer presentati.
Stabilendo un terreno comune con Ultralytics, che fornisce supporto per un modello transformer progettato per il rilevamento di oggetti. Questo modello presenta un efficace encoder ibrido, la selezione di query IOU-aware e una velocità di inferenza regolabile. In particolare, aderisce allo schema familiare degli altri modelli Ultralytics YOLOv8, presentando opzioni per la previsione, l'addestramento, la convalida e l'esportazione.
Il tuo sportello unico
Merve ha quindi approfondito il tesoro delle offerte di HuggingFace, con oltre 8.000 modelli per attività di computer vision classiche e 10.000 modelli per applicazioni multimodali. L'HuggingFace Hub vanta oltre 3.000 set di dati, il che lo rende un parco giochi per sviluppatori e appassionati. Merve ha sottolineato l'esperienza senza interruzioni, grazie all'API coerente di HuggingFace, che offre modelli pronti all'uso per vari casi d'uso.
Magia pratica con HuggingFace
Il discorso è passato a dimostrazioni pratiche, mostrando come si può lavorare facilmente con i modelli. Dall'istanzazione di modelli e processori alla messa a punto con l'API Trainer, Merve ha chiarito che la libreria HuggingFace Transformers è la migliore amica di uno sviluppatore. Ha anche introdotto la Pipeline API, una delle sue preferite, semplificando il flusso di lavoro per gli utenti.
Fig. 1. Merve Noyan che presenta a YV23 presso il Google for Startups Campus di Madrid.
Uno sguardo alle applicazioni
Merve ha concluso il discorso con uno sguardo ad alcune fantastiche applicazioni, tra cui il modello Plot per la risposta a domande visive, Blip per la didascalia di immagini e il potente modello Segment Anything per la segmentazione di immagini. La Pipeline API dell'ecosistema HuggingFace è stata protagonista, rendendo semplicissimo l'utilizzo dei modelli senza approfondire gli aspetti tecnici.
La ciliegina sulla torta è stata la presentazione di Merve della creazione di illusioni ottiche con Elysian Diffusion, un'esperienza accattivante che aggiunge un tocco divertente al mondo dell'IA.
In poche parole!
In conclusione, il discorso di Merve ci ha lasciato ispirati e desiderosi di esplorare le infinite possibilità della computer vision open source. HuggingFace ha davvero reso l'IA accessibile, divertente ed entusiasmante, consentendo agli sviluppatori di liberare la propria creatività. Ecco al futuro della community open source e alle incredibili innovazioni che riserva!