Florenz-2: Zero-Shot Vision AI von Microsoft

Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben ausgelegt ist, darunter Objekterkennung, Segmentierung, Bildbeschriftung und Erdung. Florence-2 setzt neue Maßstäbe für die Zero-Shot-Performance, d. h. es kann Aufgaben ohne vorheriges spezifisches Training durchführen und verfügt über eine kleinere Modellgröße als andere moderne Bildsprachmodelle.

Florence-2 ist mehr als nur ein weiteres Modell. Seine Vielseitigkeit und verbesserte Leistung haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichem Training reduzieren. In diesem Artikel werden wir die innovativen Funktionen von Florence-2 untersuchen, seine Leistung mit anderen VLMs vergleichen und seine potenziellen Anwendungen diskutieren.

Was ist Florence-2?

Florence-2 kann eine Vielzahl von Aufgaben innerhalb eines einzigen, einheitlichen Frameworks bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil seinem massiven Trainingsdatensatz namens FLD-5B zu verdanken. FLD-5B umfasst 5,4 Milliarden Annotationen in 126 Millionen Bildern. Dieser umfassende Datensatz wurde speziell entwickelt, um Florence-2 mit den Fähigkeiten auszustatten, die erforderlich sind, um eine breite Palette von Bildverarbeitungsaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen.

Hier ist eine genauere Betrachtung der Aufgaben, die Florence-2 unterstützt:

Objekterkennung: Sie kann Objekte innerhalb von Bildern mit hoher Präzision identifizieren und lokalisieren.
‍
Segmentierung: Diese Aufgabe umfasst das Aufteilen eines Bildes in sinnvolle Segmente zur einfacheren Analyse und Interpretation.
‍
Bildunterschriftung: Florence-2 ist in der Lage, beschreibende Bildunterschriften für Bilder zu generieren, die Kontext und Details liefern.
‍
Visuelles Grounding: Das Modell kann bestimmte Phrasen oder Wörter in einer Bildunterschrift mit den entsprechenden Regionen im Bild verknüpfen.
‍
Zero-Shot-Performance: Es kann Aufgaben ohne spezifisches Training ausführen.

__wf_reserved_inherit — Abb. 1. Funktionsweise des Trainings von Florence-2.

‍

Das Modell unterstützt sowohl textbasierte als auch regionbasierte Aufgaben. Spezielle Ortungs-Token werden dem Vokabular des Modells für Aufgaben hinzugefügt, die bestimmte Regionen eines Bildes betreffen. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, wie z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, die ihm hilft, zu lernen, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.

Erstellung des FLD-5B-Datensatzes

Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare von Regionen und Text sowie Kombinationen von Text, Phrasen und Regionen. Er wurde in einem zweistufigen Prozess erstellt, der die Datenerfassung und die Annotation umfasst. Die Bilder stammten aus populären Datensätzen wie ImageNet, Object 365, Open Images, Conceptual Captions und LAION. Die Annotationen im FLD-5B-Datensatz sind größtenteils synthetisch, d. h. sie wurden automatisch generiert und nicht manuell beschriftet.

‍

Anfangs erstellten spezialisierte Modelle, die auf bestimmte Aufgaben wie Objekterkennung oder Segmentierung spezialisiert sind, diese Annotationen. Anschließend wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Annotationen detailliert und genau sind. Nach dem Entfernen von Rauschen durchlief der Datensatz eine iterative Verfeinerung, bei der die Ausgaben von Florence-2 verwendet wurden, um die Annotationen kontinuierlich zu aktualisieren und zu verbessern.

Die Modellarchitektur von Florence-2 verstehen

Die Modellarchitektur von Florence-2 folgt einem Sequence-to-Sequence-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (wie ein Bild mit einer Texteingabeaufforderung) verarbeitet und eine Ausgabesequenz (wie eine Beschreibung oder eine Beschriftung) Schritt für Schritt erzeugt. Im Sequence-to-Sequence-Framework wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung entgegen und erzeugt die entsprechende Ausgabe.

‍

Das Herzstück der Modellarchitektur ist ein Multi-Modalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multi-Modalitäts-Encoder-Decoder kombiniert. Der Bild-Encoder, genannt DaViT (Data-efficient Vision Transformer), verarbeitet Eingangsbilder, indem er sie in visuelle Token-Einbettungen umwandelt – kompakte Darstellungen des Bildes, die sowohl räumliche (wo sich Dinge befinden) als auch semantische (was Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, wodurch das Modell Text- und Bilddaten nahtlos zusammenführen kann.

Vergleich von Florence-2 mit anderen VLMs

Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die auf eine umfangreiche Feinabstimmung angewiesen sind, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 von Haus aus gut. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo konkurrieren, die oft viel mehr Parameter haben, aber nicht immer mit der Leistung von Florence-2 mithalten können. So erzielt Florence-2 beispielsweise bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.

In Benchmark-Tests hat Florence-2 bemerkenswerte Leistungen bei Aufgaben wie COCO und dem Verstehen von Begriffen gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei der Objekterkennung und -segmentierung auf dem COCO . Es ist eine äußerst wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.

Anwendungen von Florence-2

Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in den Bereichen Unterhaltung, Barrierefreiheit, Bildung usw. Lassen Sie uns einige Beispiele durchgehen, um ein besseres Verständnis zu bekommen.

Anwendungen von Bildunterschriften

Wenn Sie auf einer Streaming-Plattform entscheiden möchten, was Sie sehen wollen, lesen Sie möglicherweise eine Zusammenfassung eines Films, um Ihnen bei der Auswahl zu helfen. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 kann dies durch Image Captioning ermöglichen, das beschreibenden Text für Bilder generiert. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen und Streaming-Plattformen so für sehbehinderte Nutzer inklusiver gestalten. Durch die Analyse der visuellen Elemente eines Plakats, wie z. B. Charaktere, Szenerie und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt den Detailgrad, den Florence-2 in seiner Beschreibung liefern kann.

‍

Hier sind einige weitere Beispiele, in denen Bildunterschriften hilfreich sein können:

E-Commerce: Bildunterschriften können detaillierte Beschreibungen von Produktbildern liefern, die Kunden helfen, Produktmerkmale und Details klarer zu verstehen.
‍
Reisen und Tourismus: Es kann detaillierte Beschreibungen von Sehenswürdigkeiten und Attraktionen in Reiseführern und Apps bereitstellen.
‍
Bildung: Image Captioning kann Lehrbilder und Diagramme beschriften und beschreiben und so das Lehren und Lernen unterstützen.
‍
Immobilien: Es kann detaillierte Beschreibungen von Immobilienbildern liefern, die Merkmale und Annehmlichkeiten für potenzielle Käufer hervorheben.

Verwendung von Visual Grounding beim Kochen

Florence-2 kann auch zur Bereicherung kulinarischer Erlebnisse eingesetzt werden. So könnte beispielsweise ein Online-Kochbuch Florence-2 verwenden, um Teile eines komplexen Rezeptbildes visuell zu verankern und zu beschriften. Die visuelle Verankerung hilft hier, indem sie bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Schritt kann genau beschriftet und erklärt werden, was es Hobbyköchen erleichtert, das Rezept zu befolgen und die Rolle jeder Komponente im Gericht zu verstehen.

‍

Regionsbasierte OCR für Finanzdokumente

OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen innerhalb eines Dokuments konzentriert, kann sich in Bereichen wie der Buchhaltung als nützlich erweisen. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitstermine zu extrahieren. Durch die Reduzierung der Notwendigkeit manueller Dateneingabe werden Fehler minimiert und die Verarbeitungszeiten beschleunigt. Finanzinstitute können es verwenden, um Aufgaben wie Rechnungsverarbeitung, Belegabstimmung und Scheckeinlösung zu rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt.

‍

Regionsbasierte Segmentierung in industriellen Anwendungen

Die regionsbasierte Segmentierung, bei der ein Bild in sinnvolle Teile für eine fokussierte Analyse und detaillierte Inspektion unterteilt wird, kann industrielle Anwendungen befeuern, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. In Bezug auf die Qualitätskontrolle können damit Defekte oder Inkonsistenzen in Materialien wie Risse oder Fehlausrichtungen erkannt werden, um sicherzustellen, dass nur Produkte von höchster Qualität auf den Markt gelangen.

‍

Sie verbessert auch automatisierte Montagelinien, indem sie Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In der Bestandsverwaltung hilft es, den Zustand und den Standort von Waren track und zu überwachen, was zu einer effizienteren Logistik und geringeren Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und höherer Produktqualität in der Industrie führt.

Wesentliche Erkenntnisse

Wir sehen einen Trend, bei dem KI-Modelle leichter werden und gleichzeitig eine hohe Leistung beibehalten. Florence-2 ist ein wichtiger Schritt nach vorn im Bereich der visuellen Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildunterschriftung und Grounding mit beeindruckender Zero-Shot-Performance bewältigen. Trotz seiner geringeren Größe ist Florence-2 effizient und multifunktional, was es in Bezug auf Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bringen mehr Möglichkeiten auf den Tisch und erweitern das Potenzial für KI-Innovationen.

Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Auf unseren Lösungsseiten erfahren Sie mehr über KI-Anwendungen in der Fertigung und der Landwirtschaft. 🚀

Florence-2: Microsoft neuestes Vision-Sprachmodell

Was ist Florence-2?

Erstellung des FLD-5B-Datensatzes

Die Modellarchitektur von Florence-2 verstehen

Vergleich von Florence-2 mit anderen VLMs

Anwendungen von Florence-2

Anwendungen von Bildunterschriften

Verwendung von Visual Grounding beim Kochen

Regionsbasierte OCR für Finanzdokumente

Regionsbasierte Segmentierung in industriellen Anwendungen

Wesentliche Erkenntnisse

Mehr in dieser Kategorie lesen

Verstehen, warum Annotationen durch Menschen entscheidend sind

Die Oakley Meta AI-Brille definiert mit Vision AI die Welt der Brillen neu.

Computer Vision macht Ferngläser für die Vogelbeobachtung intelligenter

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Florence-2: Microsoft neuestes Vision-Sprachmodell

Was ist Florence-2?

Erstellung des FLD-5B-Datensatzes

Die Modellarchitektur von Florence-2 verstehen

Vergleich von Florence-2 mit anderen VLMs

Anwendungen von Florence-2

Anwendungen von Bildunterschriften

Verwendung von Visual Grounding beim Kochen

Regionsbasierte OCR für Finanzdokumente

Regionsbasierte Segmentierung in industriellen Anwendungen

Wesentliche Erkenntnisse

Mehr in dieser Kategorie lesen

Verstehen, warum Annotationen durch Menschen entscheidend sind

Die Oakley Meta AI-Brille definiert mit Vision AI die Welt der Brillen neu.

Computer Vision macht Ferngläser für die Vogelbeobachtung intelligenter

Lasst uns gemeinsam die Zukunft der KI gestalten!

Lasst uns gemeinsam die Zukunft
der KI gestalten!