Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Impostazioni dei cookie
Facendo clic su "Accetta tutti i cookie", l'utente accetta la memorizzazione dei cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzarne l'utilizzo e contribuire alle nostre iniziative di marketing. Per saperne di più
Vi presentiamo Florence-2, il modello di linguaggio visivo di Microsoft che offre prestazioni migliorate per il rilevamento degli oggetti, la segmentazione e l'eliminazione degli scatti con grande efficienza.
Nel giugno 2024, Microsoft ha presentato Florence-2, un modello di linguaggio visivo (VLM) multimodale progettato per gestire un'ampia gamma di compiti, tra cui il rilevamento di oggetti, la segmentazione, la didascalia di immagini e il grounding. Florence-2 stabilisce un nuovo punto di riferimento per le prestazioni a zero scatti, ovvero è in grado di eseguire compiti senza un addestramento specifico precedente, e vanta una dimensione del modello inferiore rispetto ad altri modelli di linguaggio visivo all'avanguardia.
La versatilità e le prestazioni migliorate di Florence-2 possono avere un impatto significativo su diversi settori industriali, migliorando l'accuratezza e riducendo la necessità di una formazione approfondita. In questo articolo esploreremo le caratteristiche innovative di Florence-2, confronteremo le sue prestazioni con quelle di altri VLM e discuteremo le sue potenziali applicazioni.
Che cos'è Firenze-2?
Florence-2 è in grado di gestire una varietà di compiti all'interno di un unico framework unificato. Le impressionanti capacità del modello sono in parte dovute all'enorme set di dati di addestramento chiamato FLD-5B. FLD-5B comprende 5,4 miliardi di annotazioni su 126 milioni di immagini. Questo set di dati completo è stato creato appositamente per dotare Florence-2 delle capacità necessarie a gestire un'ampia gamma di compiti di visione con elevata precisione ed efficienza.
Ecco un approfondimento sulle attività supportate da Florence-2:
Rilevamento dell'oggetto: È in grado di identificare e localizzare gli oggetti all'interno delle immagini con elevata precisione.
Segmentazione: Si tratta di dividere un'immagine in segmenti significativi per facilitarne l'analisi e l'interpretazione.
Didascalie delle immagini: Florence-2 è in grado di generare didascalie descrittive per le immagini che forniscono contesto e dettagli.
Messa a terra visiva: Il modello può associare frasi o parole specifiche in una didascalia con le regioni corrispondenti nell'immagine.
Prestazioni a colpo zero: È in grado di eseguire compiti senza un addestramento specifico.
Figura 1. Comprendere come è stato addestrato Florence-2.
Il modello supporta compiti sia basati sul testo che sulle regioni. Al vocabolario del modello vengono aggiunti speciali token di localizzazione per compiti che riguardano regioni specifiche di un'immagine. Questi token aiutano il modello a comprendere forme diverse, come i rettangoli intorno agli oggetti (rappresentazione a scatola), le forme a quattro lati (rappresentazione a quadrato) e le forme a molti lati (rappresentazione a poligono). Il modello viene addestrato con un metodo chiamato cross-entropy loss, che lo aiuta ad apprendere confrontando le sue previsioni con le risposte corrette e regolando di conseguenza i suoi parametri interni.
Creazione del set di dati FLD-5B
Il dataset FLD-5B comprende diversi tipi di annotazioni: descrizioni di testo, coppie di regioni e testo e combinazioni di testo, frasi e regioni. È stato creato attraverso un processo in due fasi che prevede la raccolta e l'annotazione dei dati. Le immagini sono state reperite da dataset popolari come ImageNet-22k, Object 365, Open Images, Conceptual Captions e LAION. Le annotazioni del dataset FLD-5B sono per lo più sintetiche, cioè generate automaticamente anziché etichettate manualmente.
Inizialmente, modelli specializzati in compiti specifici, come il rilevamento o la segmentazione degli oggetti, hanno creato queste annotazioni. Successivamente, è stato utilizzato un processo di filtraggio e miglioramento per assicurarsi che le annotazioni fossero dettagliate e accurate. Dopo aver rimosso il rumore, il set di dati è stato sottoposto a un perfezionamento iterativo, in cui i risultati di Florence-2 sono stati utilizzati per aggiornare e migliorare continuamente le annotazioni.
Comprendere l'architettura del modello di Florence-2
L'architettura del modello Florence-2 segue un approccio di apprendimento da sequenza a sequenza. Ciò significa che il modello elabora una sequenza di input (come un'immagine con una richiesta di testo) e genera una sequenza di output (come una descrizione o un'etichetta) in modo graduale. Nella struttura sequence-to-sequence, ogni compito è trattato come un problema di traduzione: il modello prende un'immagine in ingresso e un prompt specifico per il compito e genera l'output corrispondente.
Figura 3. Architettura del modello di linguaggio di visione di Florence-2.
Il cuore dell'architettura del modello è un trasformatore encoder-decoder multimodale, che combina un encoder di immagini e un encoder-decoder multimodale. Il codificatore di immagini, chiamato DaViT (Data-efficient Vision Transformer), elabora le immagini in ingresso convertendole in embedding di token visivi - rappresentazioni compatte dell'immagine che catturano sia le informazioni spaziali (dove si trovano le cose) sia quelle semantiche (cosa sono le cose). Questi token visivi vengono poi combinati con embedding di testo (rappresentazioni del testo), consentendo al modello di unire senza soluzione di continuità dati testuali e visivi.
Confronto tra Florence-2 e altri VLM
Florence-2 si distingue dagli altri modelli di linguaggio visuale per le sue impressionanti capacità di zero colpi. A differenza di modelli come PaliGemma, che richiedono un'ampia messa a punto per adattarsi ai vari compiti, Florence-2 funziona bene fin da subito. Inoltre, Florence-2 è in grado di competere con modelli più grandi come GPT-4V e Flamingo, che spesso dispongono di molti più parametri ma non sempre riescono a eguagliare le prestazioni di Florence-2. Ad esempio, Florence-2 ottiene risultati migliori a colpo zero rispetto a Kosmos-2, nonostante Kosmos-2 abbia un numero di parametri più che doppio.
Nei test di benchmark, Florence-2 ha mostrato prestazioni notevoli in compiti come il captioning COCO e la comprensione delle espressioni di riferimento. Ha superato modelli come PolyFormer e UNINEXT nei compiti di rilevamento e segmentazione degli oggetti sul set di dati COCO. Si tratta di una scelta altamente competitiva per le applicazioni del mondo reale in cui sono fondamentali sia le prestazioni che l'efficienza delle risorse.
Applicazioni di Firenze-2
Florence-2 può essere utilizzato in molti settori diversi, come l'intrattenimento, l'accessibilità, l'istruzione, ecc. Vediamo alcuni esempi per capire meglio.
Applicazioni della didascalia delle immagini
Quando si è su una piattaforma di streaming e si cerca di decidere cosa guardare, si può leggere un riassunto di un film per aiutarsi nella scelta. E se la piattaforma potesse anche fornire una descrizione dettagliata della locandina del film? Florence-2 può renderlo possibile grazie alla didascalia delle immagini, che genera testo descrittivo per le immagini. Florence-2 può generare descrizioni dettagliate delle locandine dei film, rendendo le piattaforme di streaming più inclusive per gli utenti ipovedenti. Analizzando gli elementi visivi di una locandina, come i personaggi, lo scenario e il testo, Florence-2 può creare descrizioni dettagliate che trasmettono il contenuto e l'atmosfera della locandina. L'immagine qui sotto mostra il livello di dettaglio che Florence-2 può fornire nelle sue descrizioni.
Figura 4. Esempio di didascalia di un'immagine generata da Florence-2.
Ecco alcuni altri esempi in cui la didascalia delle immagini può essere utile:
Commercio elettronico: La didascalia delle immagini può fornire descrizioni dettagliate delle immagini dei prodotti, aiutando i clienti a comprenderne meglio le caratteristiche e i dettagli.
Istruzione: La didascalia delle immagini può etichettare e descrivere immagini e diagrammi didattici, favorendo l'insegnamento e l'apprendimento.
Immobili: Può fornire descrizioni dettagliate di immagini di immobili che evidenziano caratteristiche e servizi per i potenziali acquirenti.
Usare la messa a terra visiva mentre si cucina
Florence-2 può essere utilizzato anche per arricchire le esperienze culinarie. Ad esempio, un libro di cucina online potrebbe utilizzare Florence-2 per mettere a fuoco visivamente ed etichettare parti di un'immagine di una ricetta complessa. La messa a terra visiva aiuta in questo caso, collegando parti specifiche dell'immagine al testo descrittivo corrispondente. Ogni ingrediente e ogni fase possono essere accuratamente etichettati e spiegati, rendendo più facile per i cuochi domestici seguire la ricetta e capire il ruolo di ogni componente nel piatto.
Figura 5. Un esempio di messa a terra visiva utilizzando Florence-2.
OCR basato sulla regione per i documenti finanziari
L'OCR con elaborazione basata sulle regioni, che si concentra sull'estrazione del testo da aree specifiche all'interno di un documento, può essere utile quando si tratta di settori come la contabilità. Le aree designate dei documenti finanziari possono essere analizzate per estrarre automaticamente informazioni importanti come i dettagli delle transazioni, i numeri di conto e le date di scadenza. Riducendo la necessità di inserire manualmente i dati, riduce al minimo gli errori e accelera i tempi di elaborazione. Le istituzioni finanziarie possono utilizzarlo per semplificare attività come l'elaborazione delle fatture, la riconciliazione delle ricevute e la compensazione degli assegni, con conseguente accelerazione delle transazioni e miglioramento del servizio clienti.
Figura 6. Un esempio di estrazione OCR con regione utilizzando Florence-2.
Segmentazione regionale nelle applicazioni industriali
La segmentazione per regioni, che prevede la suddivisione di un'immagine in parti significative per un'analisi mirata e un'ispezione dettagliata, può alimentare applicazioni industriali che migliorano la precisione e l'efficienza di vari processi. Concentrandosi su aree specifiche all'interno di un'immagine, questa tecnologia consente l'ispezione e l'analisi dettagliata di componenti e prodotti. Per quanto riguarda il controllo della qualità, può identificare difetti o incongruenze nei materiali, come crepe o disallineamenti, assicurando che solo i prodotti di alta qualità arrivino sul mercato.
Figura 7. Un esempio di segmentazione basata sulle regioni utilizzando Florence-2.
Migliora anche le linee di assemblaggio automatizzate, guidando i bracci robotici verso parti specifiche e ottimizzando il posizionamento e l'assemblaggio dei componenti. Analogamente, nella gestione dell'inventario, aiuta a tracciare e monitorare le condizioni e l'ubicazione delle merci, consentendo una logistica più efficiente e una riduzione dei tempi di fermo. In generale, la segmentazione su base regionale aumenta l'accuratezza e la produttività, consentendo di risparmiare sui costi e di migliorare la qualità dei prodotti in ambito industriale.
Punti di forza
Stiamo iniziando a vedere una tendenza che vede i modelli di IA diventare più leggeri, pur mantenendo prestazioni elevate. Florence-2 segna un importante passo avanti in termini di modelli di linguaggio visivo. È in grado di gestire diversi compiti come il rilevamento di oggetti, la segmentazione, la didascalia delle immagini e il grounding con prestazioni impressionanti a scatto zero. Nonostante le dimensioni ridotte, Florence-2 è efficiente e multifunzionale, il che lo rende estremamente utile in termini di applicazioni in diversi settori. Modelli come Florence-2 offrono ulteriori possibilità, ampliando il potenziale delle innovazioni AI.
Per saperne di più sull'IA, visitate il nostro repository GitHub e unitevi alla nostra comunità. Consultate le nostre pagine dedicate alle soluzioni per scoprire le applicazioni dell'IA nel settore manifatturiero e agricolo. 🚀