Wir stellen vor: Florence-2, das visuelle Sprachmodell von Microsoft, das verbesserte Objekterkennung, Segmentierung und Zero-Shot-Performance mit großer Effizienz bietet.

Wir stellen vor: Florence-2, das visuelle Sprachmodell von Microsoft, das verbesserte Objekterkennung, Segmentierung und Zero-Shot-Performance mit großer Effizienz bietet.
Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales visuelles Sprachmodell (VLM), das für eine Vielzahl von Aufgaben entwickelt wurde, darunter Objekterkennung, Segmentierung, Bildunterschriftung und Grounding. Florence-2 setzt einen neuen Maßstab für die Zero-Shot-Performance, was bedeutet, dass es Aufgaben ohne vorheriges spezifisches Training ausführen kann, und bietet eine geringere Modellgröße als andere hochmoderne Vision-Language-Modelle.
Florence-2 ist mehr als nur ein weiteres Modell. Seine Vielseitigkeit und verbesserte Leistung haben das Potenzial, verschiedene Branchen erheblich zu beeinflussen, indem sie die Genauigkeit verbessern und den Bedarf an umfangreichem Training reduzieren. In diesem Artikel werden wir die innovativen Funktionen von Florence-2 untersuchen, seine Leistung mit anderen VLMs vergleichen und seine potenziellen Anwendungen diskutieren.
Florence-2 kann eine Vielzahl von Aufgaben innerhalb eines einzigen, einheitlichen Frameworks bewältigen. Die beeindruckenden Fähigkeiten des Modells sind zum Teil seinem massiven Trainingsdatensatz namens FLD-5B zu verdanken. FLD-5B umfasst 5,4 Milliarden Annotationen in 126 Millionen Bildern. Dieser umfassende Datensatz wurde speziell entwickelt, um Florence-2 mit den Fähigkeiten auszustatten, die erforderlich sind, um eine breite Palette von Bildverarbeitungsaufgaben mit hoher Genauigkeit und Effizienz zu bewältigen.
Hier ist eine genauere Betrachtung der Aufgaben, die Florence-2 unterstützt:
Das Modell unterstützt sowohl textbasierte als auch regionbasierte Aufgaben. Spezielle Ortungs-Token werden dem Vokabular des Modells für Aufgaben hinzugefügt, die bestimmte Regionen eines Bildes betreffen. Diese Token helfen dem Modell, verschiedene Formen zu verstehen, wie z. B. Rechtecke um Objekte (Box-Darstellung), vierseitige Formen (Quad-Box-Darstellung) und vielseitige Formen (Polygon-Darstellung). Das Modell wird mit einer Methode namens Cross-Entropy-Loss trainiert, die ihm hilft, zu lernen, indem es seine Vorhersagen mit den richtigen Antworten vergleicht und seine internen Parameter entsprechend anpasst.
Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare von Regionen und Text sowie Kombinationen aus Text, Phrasen und Regionen. Er wurde in einem zweistufigen Verfahren erstellt, das die Datenerfassung und -annotation umfasst. Die Bilder stammen aus populären Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Annotationen im FLD-5B-Datensatz sind überwiegend synthetisch, d. h. sie wurden automatisch generiert und nicht manuell beschriftet.
Anfangs erstellten spezialisierte Modelle, die auf bestimmte Aufgaben wie Objekterkennung oder Segmentierung spezialisiert sind, diese Annotationen. Anschließend wurde ein Filter- und Verbesserungsprozess eingesetzt, um sicherzustellen, dass die Annotationen detailliert und genau sind. Nach dem Entfernen von Rauschen durchlief der Datensatz eine iterative Verfeinerung, bei der die Ausgaben von Florence-2 verwendet wurden, um die Annotationen kontinuierlich zu aktualisieren und zu verbessern.
Die Modellarchitektur von Florence-2 folgt einem Sequence-to-Sequence-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (wie ein Bild mit einer Texteingabeaufforderung) verarbeitet und eine Ausgabesequenz (wie eine Beschreibung oder eine Beschriftung) Schritt für Schritt erzeugt. Im Sequence-to-Sequence-Framework wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Eingabeaufforderung entgegen und erzeugt die entsprechende Ausgabe.
Das Herzstück der Modellarchitektur ist ein Multi-Modalitäts-Encoder-Decoder-Transformer, der einen Bild-Encoder und einen Multi-Modalitäts-Encoder-Decoder kombiniert. Der Bild-Encoder, genannt DaViT (Data-efficient Vision Transformer), verarbeitet Eingangsbilder, indem er sie in visuelle Token-Einbettungen umwandelt – kompakte Darstellungen des Bildes, die sowohl räumliche (wo sich Dinge befinden) als auch semantische (was Dinge sind) Informationen erfassen. Diese visuellen Token werden dann mit Texteinbettungen (Darstellungen des Textes) kombiniert, wodurch das Modell Text- und Bilddaten nahtlos zusammenführen kann.
Florence-2 hebt sich von anderen visuellen Sprachmodellen durch seine beeindruckenden Zero-Shot-Fähigkeiten ab. Im Gegensatz zu Modellen wie PaliGemma, die auf eine umfangreiche Feinabstimmung angewiesen sind, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 von Haus aus gut. Außerdem kann Florence-2 mit größeren Modellen wie GPT-4V und Flamingo konkurrieren, die oft viel mehr Parameter haben, aber nicht immer mit der Leistung von Florence-2 mithalten können. So erzielt Florence-2 beispielsweise bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 mehr als doppelt so viele Parameter hat.
In Benchmark-Tests hat Florence-2 eine bemerkenswerte Leistung bei Aufgaben wie COCO-Captioning und dem Verständnis von Referring Expressions gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei Objekterkennungs- und Segmentierungsaufgaben auf dem COCO-Datensatz. Es ist eine sehr wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.
Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, z. B. in den Bereichen Unterhaltung, Barrierefreiheit, Bildung usw. Lassen Sie uns einige Beispiele durchgehen, um ein besseres Verständnis zu bekommen.
Wenn Sie auf einer Streaming-Plattform entscheiden möchten, was Sie sehen wollen, lesen Sie möglicherweise eine Zusammenfassung eines Films, um Ihnen bei der Auswahl zu helfen. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 kann dies durch Image Captioning ermöglichen, das beschreibenden Text für Bilder generiert. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen und Streaming-Plattformen so für sehbehinderte Nutzer inklusiver gestalten. Durch die Analyse der visuellen Elemente eines Plakats, wie z. B. Charaktere, Szenerie und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt den Detailgrad, den Florence-2 in seiner Beschreibung liefern kann.
Hier sind einige weitere Beispiele, in denen Bildunterschriften hilfreich sein können:
Florence-2 kann auch zur Bereicherung kulinarischer Erlebnisse eingesetzt werden. So könnte beispielsweise ein Online-Kochbuch Florence-2 verwenden, um Teile eines komplexen Rezeptbildes visuell zu verankern und zu beschriften. Die visuelle Verankerung hilft hier, indem sie bestimmte Teile des Bildes mit dem entsprechenden beschreibenden Text verknüpft. Jede Zutat und jeder Schritt kann genau beschriftet und erklärt werden, was es Hobbyköchen erleichtert, das Rezept zu befolgen und die Rolle jeder Komponente im Gericht zu verstehen.
OCR mit regionenbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen innerhalb eines Dokuments konzentriert, kann sich in Bereichen wie der Buchhaltung als nützlich erweisen. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitstermine zu extrahieren. Durch die Reduzierung der Notwendigkeit manueller Dateneingabe werden Fehler minimiert und die Verarbeitungszeiten beschleunigt. Finanzinstitute können es verwenden, um Aufgaben wie Rechnungsverarbeitung, Belegabstimmung und Scheckeinlösung zu rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt.
Die regionsbasierte Segmentierung, bei der ein Bild in sinnvolle Teile für eine fokussierte Analyse und detaillierte Inspektion unterteilt wird, kann industrielle Anwendungen befeuern, die die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. In Bezug auf die Qualitätskontrolle können damit Defekte oder Inkonsistenzen in Materialien wie Risse oder Fehlausrichtungen erkannt werden, um sicherzustellen, dass nur Produkte von höchster Qualität auf den Markt gelangen.
Es verbessert auch automatisierte Fertigungsstraßen, indem es Roboterarme zu bestimmten Teilen führt und die Platzierung und Montage von Komponenten optimiert. In ähnlicher Weise hilft es im Bestandsmanagement, den Zustand und den Standort von Waren zu verfolgen und zu überwachen, was zu einer effizienteren Logistik und reduzierten Ausfallzeiten führt. Insgesamt steigert die regionenbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und einer höheren Produktqualität in industriellen Umgebungen führt.
Wir sehen einen Trend, bei dem KI-Modelle leichter werden und gleichzeitig eine hohe Leistung beibehalten. Florence-2 ist ein wichtiger Schritt nach vorn im Bereich der visuellen Sprachmodelle. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildunterschriftung und Grounding mit beeindruckender Zero-Shot-Performance bewältigen. Trotz seiner geringeren Größe ist Florence-2 effizient und multifunktional, was es in Bezug auf Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 bringen mehr Möglichkeiten auf den Tisch und erweitern das Potenzial für KI-Innovationen.
Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Auf unseren Lösungsseiten erfahren Sie mehr über KI-Anwendungen in der Fertigung und der Landwirtschaft. 🚀