Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

Florence-2: l'ultimo modello di linguaggio visivo di Microsoft

Ti presentiamo Florence-2, il modello di linguaggio visivo di Microsoft che offre rilevamento di oggetti, segmentazione e prestazioni zero-shot migliorate con grande efficienza.

ABAbirami Vina
6 min read
Modello di linguaggio visivo Florence-2 di Microsoft

Nel giugno 2024, Microsoft ha introdotto Florence-2, un visual language model (VLM) multimodale progettato per gestire un'ampia gamma di attività, tra cui object detection, segmentation, image captioning e grounding. Florence-2 definisce un nuovo standard per le prestazioni zero-shot, il che significa che può eseguire attività senza una formazione specifica preventiva, e vanta dimensioni del modello ridotte rispetto ad altri vision-language model allo stato dell'arte.

È molto più di un semplice modello; la versatilità e le prestazioni migliorate di Florence-2 hanno il potenziale di incidere in modo significativo su vari settori, migliorando la precisione e riducendo la necessità di una formazione approfondita. In questo articolo, esploreremo le caratteristiche innovative di Florence-2, confronteremo le sue prestazioni con altri VLM e discuteremo le sue potenziali applicazioni.

Link to this sectionCos'è Florence-2?#

Florence-2 può gestire una varietà di attività all'interno di un unico framework unificato. Le impressionanti capacità del modello sono in parte dovute al suo massiccio dataset di addestramento chiamato FLD-5B. FLD-5B include 5,4 miliardi di annotazioni su 126 milioni di immagini. Questo dataset completo è stato creato appositamente per fornire a Florence-2 le capacità necessarie per gestire un'ampia gamma di attività di visione con elevata precisione ed efficienza.

Ecco uno sguardo più da vicino alle attività supportate da Florence-2:

  • Object Detection: può identificare e localizzare oggetti all'interno di immagini con elevata precisione.
  • Segmentation: questa attività comporta la suddivisione di un'immagine in segmenti significativi per una più facile analisi e interpretazione.
  • Image Captioning: Florence-2 è in grado di generare didascalie descrittive per le immagini che forniscono contesto e dettagli.
  • Visual Grounding: Il modello può associare frasi o parole specifiche in una didascalia alle regioni corrispondenti nell'immagine.
  • Zero-shot Performance: Può eseguire attività senza una formazione specifica.

Diagramma di come è stato addestrato Florence-2

Fig 1. Comprendere come è stato addestrato Florence-2.

Il modello supporta sia attività basate sul testo che basate su regioni. Vengono aggiunti token di posizione speciali al vocabolario del modello per le attività che coinvolgono regioni specifiche di un'immagine. Questi token aiutano il modello a comprendere diverse forme, come rettangoli attorno agli oggetti (box representation), forme a quattro lati (quad box representation) e forme a molti lati (polygon representation). Il modello viene addestrato utilizzando un metodo chiamato cross-entropy loss, che lo aiuta a imparare confrontando le sue previsioni con le risposte corrette e regolando di conseguenza i suoi parametri interni.

Link to this sectionCreazione del dataset FLD-5B#

Il dataset FLD-5B include diversi tipi di annotazioni: descrizioni testuali, coppie di regioni e testo, e combinazioni di testo, frasi e regioni. È stato creato attraverso un processo in due fasi che ha coinvolto data collection and annotation. Le immagini provengono da dataset popolari come ImageNet-22k, Object 365, Open Images, Conceptual Captions e LAION. Le annotazioni nel dataset FLD-5B sono per lo più sintetiche, il che significa che sono state generate automaticamente invece di essere etichettate manualmente.

Diagramma della creazione del dataset FLD-5B

Fig 2. Creazione del dataset FLD-5B.

Inizialmente, modelli specialisti esperti in attività specifiche, come l'object detection o la segmentation, hanno creato queste annotazioni. Successivamente, è stato utilizzato un processo di filtrazione e miglioramento per garantire che le annotazioni fossero dettagliate e accurate. Dopo aver rimosso eventuali rumori, il dataset è stato sottoposto a un perfezionamento iterativo, in cui gli output di Florence-2 sono stati utilizzati per aggiornare e migliorare continuamente le annotazioni.

Link to this sectionComprendere l'architettura del modello Florence-2#

L'architettura del modello Florence-2 segue un approccio di apprendimento sequence-to-sequence. Ciò significa che il modello elabora una sequenza di input (come un'immagine con un prompt di testo) e genera una sequenza di output (come una descrizione o un'etichetta) passo dopo passo. Nel framework sequence-to-sequence, ogni attività viene trattata come un problema di traduzione: il modello prende un'immagine di input e un prompt specifico per l'attività e genera l'output corrispondente.

Diagramma dell'architettura del modello vision-language Florence-2

Fig 3. Architettura del vision-language model di Florence-2.

Al centro dell'architettura del modello c'è un Transformer encoder-decoder multimodale, che combina un image encoder e un encoder-decoder multimodale. L'image encoder, chiamato DaViT (Data-efficient Vision Transformer), elabora le immagini di input convertendole in visual token embedding: rappresentazioni compatte dell'immagine che catturano sia informazioni spaziali (dove si trovano le cose) che semantiche (cosa sono le cose). Questi visual token vengono quindi combinati con text embedding (rappresentazioni del testo), consentendo al modello di unire senza problemi dati testuali e visivi.

Link to this sectionConfronto di Florence-2 con altri VLM#

Florence-2 si distingue dagli altri vision-language model per le sue impressionanti capacità zero-shot. A differenza di modelli come PaliGemma, che si affidano a un ampio fine-tuning per adattarsi a varie attività, Florence-2 funziona bene fin da subito. Inoltre, Florence-2 è in grado di competere con modelli più grandi come GPT-4V e Flamingo, che spesso hanno molti più parametri ma non sempre eguagliano le prestazioni di Florence-2. Ad esempio, Florence-2 ottiene risultati zero-shot migliori di Kosmos-2, nonostante Kosmos-2 abbia oltre il doppio dei parametri.

Nei test di benchmark, Florence-2 ha mostrato prestazioni notevoli in attività come il COCO captioning e la referring expression comprehension. Ha superato modelli come PolyFormer e UNINEXT nelle attività di object detection e segmentation sul COCO dataset. È una scelta altamente competitiva per le applicazioni del mondo reale in cui le prestazioni e l'efficienza delle risorse sono cruciali.

Link to this sectionApplicazioni di Florence-2#

Florence-2 può essere utilizzato in molti settori diversi, come intrattenimento, accessibilità, istruzione e altro ancora. Esaminiamo alcuni esempi per capire meglio.

Link to this sectionApplicazioni dell'image captioning#

Quando sei su una piattaforma di streaming e cerchi di decidere cosa guardare, potresti leggere un riassunto di un film per aiutarti a scegliere. E se la piattaforma potesse fornire anche una descrizione dettagliata della locandina del film? Florence-2 può renderlo possibile attraverso l'image captioning, che genera testo descrittivo per le immagini. Florence-2 può generare descrizioni dettagliate delle locandine dei film, rendendo le piattaforme di streaming più inclusive per gli utenti ipovedenti. Analizzando gli elementi visivi di una locandina, come personaggi, scenari e testo, Florence-2 può creare descrizioni dettagliate che trasmettono il contenuto e l'atmosfera della locandina. L'immagine qui sotto mostra il livello di dettaglio che Florence-2 può fornire nella sua descrizione.

Esempio di una didascalia di immagine generata da Florence-2

Fig 4. Un esempio di image caption generato da Florence-2.

Ecco altri esempi in cui l'image captioning può essere utile:

  • E-commerce: L'image captioning può fornire descrizioni dettagliate delle immagini di prodotto, aiutando i clienti a comprendere più chiaramente le caratteristiche e i dettagli del prodotto.
  • Viaggi e Turismo: Può fornire descrizioni dettagliate di punti di riferimento e attrazioni in guide turistiche e app.
  • Istruzione: L'image captioning può etichettare e descrivere immagini e diagrammi didattici, aiutando nell'insegnamento e nell'apprendimento.
  • Immobiliare: Può fornire descrizioni dettagliate delle immagini di proprietà che evidenziano caratteristiche e servizi per i potenziali acquirenti.

Link to this sectionUsare il visual grounding mentre si cucina#

Florence-2 può anche essere utilizzato per arricchire le esperienze culinarie. Ad esempio, un libro di cucina online potrebbe utilizzare Florence-2 per effettuare il visual grounding ed etichettare parti dell'immagine di una ricetta complessa. Il visual grounding aiuta in questo caso collegando parti specifiche dell'immagine al corrispondente testo descrittivo. Ogni ingrediente e passaggio può essere etichettato e spiegato accuratamente, rendendo più facile per chi cucina a casa seguire la ricetta e comprendere il ruolo di ogni componente nel piatto.

Esempio di visual grounding utilizzando Florence-2

Fig 5. Un esempio di visual grounding utilizzando Florence-2.

Link to this sectionOCR basato su regione per documenti finanziari#

L'OCR con elaborazione basata su regioni, che si concentra sull'estrazione di testo da aree specifiche all'interno di un documento, può tornare utile in campi come la contabilità. Aree designate di documenti finanziari possono essere analizzate per estrarre automaticamente informazioni importanti come dettagli delle transazioni, numeri di conto e scadenze. Riducendo la necessità di inserimento manuale dei dati, si minimizzano gli errori e si accelerano i tempi di elaborazione. Le istituzioni finanziarie possono utilizzarlo per semplificare attività come l'elaborazione delle fatture, la riconciliazione delle ricevute e la compensazione degli assegni, portando a transazioni più veloci e a un migliore servizio clienti.

Esempio di OCR con regione utilizzando Florence-2

Fig 6. Un esempio di estrazione OCR con regione utilizzando Florence-2.

Link to this sectionSegmentation basata su regioni nelle applicazioni industriali#

La segmentation basata su regioni, che comporta la suddivisione di un'immagine in parti significative per un'analisi focalizzata e un'ispezione dettagliata, può alimentare applicazioni industriali che migliorano la precisione e l'efficienza in vari processi. Concentrandosi su aree specifiche all'interno di un'immagine, questa tecnologia consente un'ispezione e un'analisi dettagliate di componenti e prodotti. Per quanto riguarda il controllo qualità, può identificare difetti o incoerenze nei materiali, come crepe o disallineamenti, assicurando che solo prodotti di alta qualità raggiungano il mercato.

Esempio di segmentazione basata su regioni utilizzando Florence-2

Fig 7. Un esempio di segmentation basata su regioni utilizzando Florence-2.

Inoltre, migliora le linee di assemblaggio automatizzate guidando bracci robotici verso parti specifiche e ottimizzando il posizionamento e l'assemblaggio dei componenti. Allo stesso modo, nella gestione dell'inventario, aiuta a tracciare e monitorare le condizioni e la posizione delle merci, portando a una logistica più efficiente e a una riduzione dei tempi di inattività. Nel complesso, la segmentation basata su regioni aumenta la precisione e la produttività, portando a risparmi sui costi e a una maggiore qualità del prodotto in ambito industriale.

Link to this sectionPunti chiave#

Stiamo iniziando a vedere una tendenza in cui i modelli di AI stanno diventando più leggeri pur mantenendo prestazioni elevate. Florence-2 segna un importante passo avanti in termini di vision-language model. Può gestire varie attività come object detection, segmentation, image captioning e grounding con impressionanti prestazioni zero-shot. Nonostante le sue dimensioni ridotte, Florence-2 è efficiente e multifunzionale, il che lo rende estremamente utile in termini di applicazioni in diversi settori. Modelli come Florence-2 stanno portando nuove possibilità sul tavolo, espandendo il potenziale per le innovazioni dell'AI.

Esplora di più sull'AI visitando il nostro GitHub repository e unendoti alla nostra community. Dai un'occhiata alle nostre pagine sulle soluzioni per leggere le applicazioni dell'AI nella produzione e nell'agricoltura. 🚀

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning