Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Florence-2: Das neueste Vision-Language-Modell von Microsoft

Abirami Vina

6 Minuten Lesezeit

26. Juli 2024

Wir stellen vor: Florence-2, das visuelle Sprachmodell von Microsoft, das verbesserte Objekterkennung, Segmentierung und Zero-Shot-Performance mit großer Effizienz bietet.

Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben entwickelt wurde, darunter Objekterkennung, Segmentierung, Bildunterschriftung und Grounding. Florence-2 setzt einen neuen Maßstab für die Zero-Shot-Performance, was bedeutet, dass es Aufgaben ohne vorheriges spezifisches Training ausführen kann, und bietet eine geringere Modellgröße als andere hochmoderne Vision-Language-Modelle.

Florence-2 ist mehr als nur ein weiteres Modell. Seine Vielseitigkeit und verbesserte Leistung haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichem Training reduzieren. In diesem Artikel werden wir die innovativen Funktionen von Florence-2 untersuchen, seine Leistung mit anderen VLMs vergleichen und seine potenziellen Anwendungen diskutieren.

Was ist Florence-2?

Florence-2 kann eine Vielzahl von Aufgaben innerhalb eines einzigen, einheitlichen Frameworks bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil seinem massiven Trainingsdatensatz namens FLD-5B zu verdanken. FLD-5B umfasst 5,4 Milliarden Annotationen in 126 Millionen Bildern. Dieser umfassende Datensatz wurde speziell entwickelt, um Florence-2 mit den Fähigkeiten auszustatten, die erforderlich sind, um eine breite Palette von Bildverarbeitungsaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen. 

Hier ist eine genauere Betrachtung der Aufgaben, die Florence-2 unterstützt:

  • Objekterkennung: Sie kann Objekte innerhalb von Bildern mit hoher Präzision identifizieren und lokalisieren.
  • Segmentierung: Diese Aufgabe umfasst das Aufteilen eines Bildes in sinnvolle Segmente zur einfacheren Analyse und Interpretation.
  • Bildunterschriftung: Florence-2 ist in der Lage, beschreibende Bildunterschriften für Bilder zu generieren, die Kontext und Details liefern.
  • Visuelles Grounding: Das Modell kann bestimmte Phrasen oder Wörter in einer Bildunterschrift mit den entsprechenden Regionen im Bild verknüpfen.
  • Zero-Shot-Performance: Es kann Aufgaben ohne spezifisches Training ausführen.
__wf_reserved_inherit
Abb. 1. Funktionsweise des Trainings von Florence-2.

Das Modell unterstützt sowohl textbasierte als auch regionbasierte Aufgaben. Spezielle Ortungs-Token werden dem Vokabular des Modells für Aufgaben hinzugefügt, die bestimmte Regionen eines Bildes betreffen. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, wie z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, die ihm hilft, zu lernen, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.

Erstellung des FLD-5B-Datensatzes

Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare von Regionen und Text sowie Kombinationen aus Text, Phrasen und Regionen. Er wurde in einem zweistufigen Verfahren erstellt, das die Datenerfassung und -annotation umfasst. Die Bilder stammen aus populären Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Annotationen im FLD-5B-Datensatz sind überwiegend synthetisch, d. h. sie wurden automatisch generiert und nicht manuell beschriftet. 

__wf_reserved_inherit
Abb. 2. Erstellung des FLD-5B Datensatzes.

Anfangs erstellten spezialisierte Modelle, die auf bestimmte Aufgaben wie Objekterkennung oder Segmentierung spezialisiert sind, diese Annotationen. Anschließend wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Annotationen detailliert und genau sind. Nach dem Entfernen von Rauschen durchlief der Datensatz eine iterative Verfeinerung, bei der die Ausgaben von Florence-2 verwendet wurden, um die Annotationen kontinuierlich zu aktualisieren und zu verbessern. 

Die Modellarchitektur von Florence-2 verstehen

Die Modellarchitektur von Florence-2 folgt einem Sequence-to-Sequence-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (wie ein Bild mit einer Texteingabeaufforderung) verarbeitet und eine Ausgabesequenz (wie eine Beschreibung oder eine Beschriftung) Schritt für Schritt erzeugt. Im Sequence-to-Sequence-Framework wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung entgegen und erzeugt die entsprechende Ausgabe.

__wf_reserved_inherit
Abb. 3. Die Vision-Language Modellarchitektur von Florence-2.

Das Herzstück der Modellarchitektur ist ein Multi-Modalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multi-Modalitäts-Encoder-Decoder kombiniert. Der Bild-Encoder, genannt DaViT (Data-efficient Vision Transformer), verarbeitet Eingangsbilder, indem er sie in visuelle Token-Einbettungen umwandelt – kompakte Darstellungen des Bildes, die sowohl räumliche (wo sich Dinge befinden) als auch semantische (was Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, wodurch das Modell Text- und Bilddaten nahtlos zusammenführen kann.

Vergleich von Florence-2 mit anderen VLMs

Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die auf eine umfangreiche Feinabstimmung angewiesen sind, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 von Haus aus gut. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo konkurrieren, die oft viel mehr Parameter haben, aber nicht immer mit der Leistung von Florence-2 mithalten können. So erzielt Florence-2 beispielsweise bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.

In Benchmark-Tests hat Florence-2 eine bemerkenswerte Leistung bei Aufgaben wie COCO-Captioning und dem Verständnis von Referring Expressions gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei Objekterkennungs- und Segmentierungsaufgaben auf dem COCO-Datensatz. Es ist eine sehr wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.

Anwendungen von Florence-2

Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in den Bereichen Unterhaltung, Barrierefreiheit, Bildung usw. Lassen Sie uns einige Beispiele durchgehen, um ein besseres Verständnis zu bekommen.

Anwendungen von Bildunterschriften

Wenn Sie auf einer Streaming-Plattform entscheiden möchten, was Sie sehen wollen, lesen Sie möglicherweise eine Zusammenfassung eines Films, um Ihnen bei der Auswahl zu helfen. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 kann dies durch Image Captioning ermöglichen, das beschreibenden Text für Bilder generiert. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen und Streaming-Plattformen so für sehbehinderte Nutzer inklusiver gestalten. Durch die Analyse der visuellen Elemente eines Plakats, wie z. B. Charaktere, Szenerie und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt den Detailgrad, den Florence-2 in seiner Beschreibung liefern kann.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für eine von Florence-2 generierte Bildunterschrift. 

Hier sind einige weitere Beispiele, in denen Bildunterschriften hilfreich sein können:

  • E-Commerce: Bildunterschriften können detaillierte Beschreibungen von Produktbildern liefern, die Kunden helfen, Produktmerkmale und Details klarer zu verstehen.
  • Reisen und Tourismus: Es kann detaillierte Beschreibungen von Sehenswürdigkeiten und Attraktionen in Reiseführern und Apps bereitstellen.
  • Bildung: Image Captioning kann Lehrbilder und Diagramme beschriften und beschreiben und so das Lehren und Lernen unterstützen.
  • Immobilien: Es kann detaillierte Beschreibungen von Immobilienbildern liefern, die Merkmale und Annehmlichkeiten für potenzielle Käufer hervorheben.

Verwendung von Visual Grounding beim Kochen

Florence-2 kann auch zur Bereicherung kulinarischer Erlebnisse eingesetzt werden. So könnte beispielsweise ein Online-Kochbuch Florence-2 verwenden, um Teile eines komplexen Rezeptbildes visuell zu verankern und zu beschriften. Die visuelle Verankerung hilft hier, indem sie bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Schritt kann genau beschriftet und erklärt werden, was es Hobbyköchen erleichtert, das Rezept zu befolgen und die Rolle jeder Komponente im Gericht zu verstehen.

__wf_reserved_inherit
Abb. 5. Ein Beispiel für Visual Grounding mit Florence-2. 

Regionsbasierte OCR für Finanzdokumente

OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen innerhalb eines Dokuments konzentriert, kann sich in Bereichen wie der Buchhaltung als nützlich erweisen. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitstermine zu extrahieren. Durch die Reduzierung der Notwendigkeit manueller Dateneingabe werden Fehler minimiert und die Verarbeitungszeiten beschleunigt. Finanzinstitute können es verwenden, um Aufgaben wie Rechnungsverarbeitung, Belegabstimmung und Scheckeinlösung zu rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt. 

__wf_reserved_inherit
Abb. 6. Ein Beispiel für das Extrahieren von OCR mit Region mithilfe von Florence-2. 

Regionsbasierte Segmentierung in industriellen Anwendungen

Die regionsbasierte Segmentierung, bei der ein Bild in sinnvolle Teile für eine fokussierte Analyse und detaillierte Inspektion unterteilt wird, kann industrielle Anwendungen befeuern, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. In Bezug auf die Qualitätskontrolle können damit Defekte oder Inkonsistenzen in Materialien wie Risse oder Fehlausrichtungen erkannt werden, um sicherzustellen, dass nur Produkte von höchster Qualität auf den Markt gelangen.

__wf_reserved_inherit
Abb. 7. Ein Beispiel für die Segmentierung basierend auf Regionen mit Florence-2.

Es verbessert auch automatisierte Fertigungsstraßen, indem es Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In ähnlicher Weise hilft es im Bestandsmanagement, den Zustand und den Standort von Waren zu verfolgen und zu überwachen, was zu einer effizienteren Logistik und reduzierten Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und einer höheren Produktqualität in industriellen Umgebungen führt.

Wesentliche Erkenntnisse

Wir sehen einen Trend, bei dem KI-Modelle leichter werden und gleichzeitig eine hohe Leistung beibehalten. Florence-2 ist ein wichtiger Schritt nach vorn im Bereich der visuellen Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildunterschriftung und Grounding mit beeindruckender Zero-Shot-Performance bewältigen. Trotz seiner geringeren Größe ist Florence-2 effizient und multifunktional, was es in Bezug auf Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bringen mehr Möglichkeiten auf den Tisch und erweitern das Potenzial für KI-Innovationen.

Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Auf unseren Lösungsseiten erfahren Sie mehr über KI-Anwendungen in der Fertigung und der Landwirtschaft. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert