Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Florence-2: Microsofts neuestes Vision-Language-Modell

Lerne Florence-2 kennen, Microsofts visuelles Sprachmodell, das verbesserte Objekterkennung, Segmentierung und Zero-Shot-Performance mit großer Effizienz bietet.

ABAbirami Vina
6 min read
Florence-2 Vision-Language-Modell von Microsoft

Im Juni 2024 stellte Microsoft Florence-2 vor, ein multimodales Vision-Language-Modell (VLM), das für die Bewältigung einer Vielzahl von Aufgaben konzipiert ist, darunter Objekterkennung, Segmentierung, Bildbeschriftung und Grounding. Florence-2 setzt einen neuen Maßstab für Zero-Shot-Leistung, was bedeutet, dass es Aufgaben ohne vorheriges spezifisches Training ausführen kann, und zeichnet sich durch eine geringere Modellgröße als andere hochmoderne Vision-Language-Modelle aus.

Es ist mehr als nur ein weiteres Modell: Die Vielseitigkeit und verbesserte Leistung von Florence-2 haben das Potenzial, verschiedene Branchen maßgeblich zu beeinflussen, indem sie die Genauigkeit erhöhen und den Bedarf an umfangreichem Training reduzieren. In diesem Artikel untersuchen wir die innovativen Funktionen von Florence-2, vergleichen seine Leistung mit anderen VLMs und diskutieren seine potenziellen Anwendungen.

Link to this sectionWas ist Florence-2?#

Florence-2 kann eine Vielzahl von Aufgaben innerhalb eines einzigen vereinheitlichten Frameworks bewältigen. Die beeindruckenden Fähigkeiten des Modells sind teilweise seinem massiven Trainingsdatensatz namens FLD-5B zu verdanken. FLD-5B umfasst 5,4 Milliarden Annotationen für 126 Millionen Bilder. Dieser umfassende Datensatz wurde speziell entwickelt, um Florence-2 die Fähigkeiten zu verleihen, die für die Bewältigung einer breiten Palette von Vision-Aufgaben mit hoher Genauigkeit und Effizienz erforderlich sind.

Hier ist ein genauerer Blick auf die Aufgaben, die Florence-2 unterstützt:

  • Objekterkennung: Es kann Objekte innerhalb von Bildern mit hoher Präzision identifizieren und lokalisieren.
  • Segmentierung: Diese Aufgabe umfasst die Unterteilung eines Bildes in aussagekräftige Segmente für eine einfachere Analyse und Interpretation.
  • Bildbeschriftung: Florence-2 ist in der Lage, beschreibende Bildunterschriften zu generieren, die Kontext und Details liefern.
  • Visual Grounding: Das Modell kann bestimmte Phrasen oder Wörter in einer Bildunterschrift den entsprechenden Bereichen im Bild zuordnen.
  • Zero-Shot-Leistung: Es kann Aufgaben ohne spezifisches Training ausführen.

Diagramm dazu, wie Florence-2 trainiert wurde

Abb. 1. Verständnis, wie Florence-2 trainiert wurde.

Das Modell unterstützt sowohl textbasierte als auch regionsbasierte Aufgaben. Spezielle Standort-Tokens werden dem Vokabular des Modells für Aufgaben hinzugefügt, die bestimmte Bereiche eines Bildes betreffen. Diese Tokens helfen dem Modell, verschiedene Formen zu verstehen, wie Rechtecke um Objekte (Box-Repräsentation), vierseitige Formen (Quad-Box-Repräsentation) und mehrseitige Formen (Polygon-Repräsentation). Das Modell wird mit einer Methode namens Cross-Entropy Loss trainiert, die ihm hilft, durch den Vergleich seiner Vorhersagen mit den richtigen Antworten zu lernen und seine internen Parameter entsprechend anzupassen.

Link to this sectionErstellung des FLD-5B-Datensatzes#

Der FLD-5B-Datensatz enthält verschiedene Arten von Annotationen: Textbeschreibungen, Paare aus Regionen und Text sowie Kombinationen aus Text, Phrasen und Regionen. Er wurde durch einen zweistufigen Prozess erstellt, der Datenerfassung und Annotation umfasst. Bilder stammten aus beliebten Datensätzen wie ImageNet-22k, Object 365, Open Images, Conceptual Captions und LAION. Die Annotationen im FLD-5B-Datensatz sind größtenteils synthetisch, was bedeutet, dass sie automatisch generiert wurden, anstatt sie manuell zu kennzeichnen.

Diagramm zur Erstellung des FLD-5B-Datensatzes

Abb. 2. Erstellung des FLD-5B-Datensatzes.

Anfangs erstellten spezialisierte Modelle, die auf bestimmte Aufgaben wie Objekterkennung oder Segmentierung geschult waren, diese Annotationen. Anschließend wurde ein Filtrations- und Verbesserungsprozess verwendet, um sicherzustellen, dass die Annotationen detailliert und genau waren. Nach dem Entfernen von Rauschen durchlief der Datensatz eine iterative Verfeinerung, bei der die Ausgaben von Florence-2 verwendet wurden, um die Annotationen kontinuierlich zu aktualisieren und zu verbessern.

Link to this sectionVerständnis der Modellarchitektur von Florence-2#

Die Modellarchitektur von Florence-2 folgt einem Sequence-to-Sequence-Lernansatz. Das bedeutet, dass das Modell eine Eingabesequenz (wie ein Bild mit einer Textaufforderung) verarbeitet und eine Ausgabesequenz (wie eine Beschreibung oder ein Label) schrittweise generiert. Im Sequence-to-Sequence-Framework wird jede Aufgabe als Übersetzungsproblem behandelt: Das Modell nimmt ein Eingabebild und eine aufgabenspezifische Aufforderung entgegen und generiert die entsprechende Ausgabe.

Diagramm der Vision-Language-Modellarchitektur von Florence-2

Abb. 3. Vision-Language-Modellarchitektur von Florence-2.

Das Herzstück der Modellarchitektur ist ein multimodaler Encoder-Decoder-Transformer, der einen Bild-Encoder und einen multimodalen Encoder-Decoder kombiniert. Der Bild-Encoder, genannt DaViT (Data-efficient Vision Transformer), verarbeitet Eingangsbilder, indem er sie in visuelle Token-Embeddings umwandelt – kompakte Darstellungen des Bildes, die sowohl räumliche (wo Dinge sind) als auch semantische (was Dinge sind) Informationen erfassen. Diese visuellen Tokens werden dann mit Text-Embeddings (Darstellungen des Textes) kombiniert, wodurch das Modell textuelle und visuelle Daten nahtlos zusammenführen kann.

Link to this sectionVergleich von Florence-2 mit anderen VLMs#

Florence-2 hebt sich aufgrund seiner beeindruckenden Zero-Shot-Fähigkeiten von anderen Vision-Language-Modellen ab. Im Gegensatz zu Modellen wie PaliGemma, die auf umfangreiches Fine-Tuning angewiesen sind, um sich an verschiedene Aufgaben anzupassen, funktioniert Florence-2 direkt einsatzbereit. Außerdem kann sich Florence-2 mit größeren Modellen wie GPT-4V und Flamingo messen, die oft deutlich mehr Parameter besitzen, aber nicht immer die Leistung von Florence-2 erreichen. Beispielsweise erzielt Florence-2 bessere Zero-Shot-Ergebnisse als Kosmos-2, obwohl Kosmos-2 über doppelt so viele Parameter verfügt.

In Benchmark-Tests hat Florence-2 eine bemerkenswerte Leistung bei Aufgaben wie COCO-Bildbeschriftung und Referring Expression Comprehension gezeigt. Es übertraf Modelle wie PolyFormer und UNINEXT bei Objekterkennungs- und Segmentierungsaufgaben auf dem COCO-Datensatz. Es ist eine äußerst wettbewerbsfähige Wahl für reale Anwendungen, bei denen sowohl Leistung als auch Ressourceneffizienz entscheidend sind.

Link to this sectionAnwendungen von Florence-2#

Florence-2 kann in vielen verschiedenen Branchen eingesetzt werden, wie z. B. Unterhaltung, Barrierefreiheit, Bildung usw. Gehen wir einige Beispiele durch, um ein besseres Verständnis zu bekommen.

Link to this sectionAnwendungen der Bildbeschriftung#

Wenn du dich auf einer Streaming-Plattform befindest und versuchst zu entscheiden, was du dir ansehen möchtest, liest du möglicherweise eine Zusammenfassung eines Films, um deine Auswahl zu treffen. Was wäre, wenn die Plattform auch eine detaillierte Beschreibung des Filmplakats liefern könnte? Florence-2 kann dies durch Bildbeschriftung ermöglichen, die beschreibenden Text für Bilder generiert. Florence-2 kann detaillierte Beschreibungen von Filmplakaten erstellen, wodurch Streaming-Plattformen für sehbehinderte Benutzer inklusiver werden. Durch die Analyse der visuellen Elemente eines Plakats, wie Charaktere, Kulissen und Text, kann Florence-2 detaillierte Beschreibungen erstellen, die den Inhalt und die Stimmung des Plakats vermitteln. Das Bild unten zeigt den Detaillierungsgrad, den Florence-2 in seiner Beschreibung liefern kann.

Beispiel einer von Florence-2 generierten Bildunterschrift

Abb. 4. Ein Beispiel für eine von Florence-2 generierte Bildbeschreibung.

Hier sind einige andere Beispiele, bei denen Bildbeschriftung hilfreich sein kann:

  • E-Commerce: Bildbeschriftung kann detaillierte Beschreibungen von Produktbildern liefern und Kunden helfen, Produktfunktionen und Details klarer zu verstehen.
  • Reise und Tourismus: Sie kann detaillierte Beschreibungen von Sehenswürdigkeiten und Attraktionen in Reiseführern und Apps liefern.
  • Bildung: Bildbeschriftung kann pädagogische Bilder und Diagramme kennzeichnen und beschreiben, was beim Lehren und Lernen hilft.
  • Immobilien: Sie kann detaillierte Beschreibungen von Immobilienbildern liefern, die Funktionen und Annehmlichkeiten für potenzielle Käufer hervorheben.

Link to this sectionVisual Grounding beim Kochen verwenden#

Florence-2 kann auch genutzt werden, um kulinarische Erlebnisse zu bereichern. Ein Online-Kochbuch könnte beispielsweise Florence-2 verwenden, um Teile eines komplexen Rezeptbildes visuell zu verknüpfen und zu beschriften. Visual Grounding hilft hier, indem bestimmte Teile des Bildes mit entsprechenden beschreibenden Texten verbunden werden. Jede Zutat und jeder Schritt können genau beschriftet und erklärt werden, was es für Hobbyköche einfacher macht, dem Rezept zu folgen und die Rolle jeder Komponente im Gericht zu verstehen.

Beispiel für Visual Grounding mit Florence-2

Abb. 5. Ein Beispiel für Visual Grounding mit Florence-2.

Link to this sectionRegionsbasierte OCR für Finanzdokumente#

OCR mit regionsbasierter Verarbeitung, die sich auf die Extraktion von Text aus bestimmten Bereichen innerhalb eines Dokuments konzentriert, kann in Bereichen wie der Buchhaltung nützlich sein. Bestimmte Bereiche von Finanzdokumenten können analysiert werden, um automatisch wichtige Informationen wie Transaktionsdetails, Kontonummern und Fälligkeitsdaten zu extrahieren. Durch die Reduzierung der manuellen Dateneingabe werden Fehler minimiert und Verarbeitungszeiten verkürzt. Finanzinstitute können dies nutzen, um Aufgaben wie die Rechnungsbearbeitung, den Abgleich von Belegen und die Scheckabwicklung zu rationalisieren, was zu schnelleren Transaktionen und einem besseren Kundenservice führt.

Beispiel für OCR mit Region unter Verwendung von Florence-2

Abb. 6. Ein Beispiel für die OCR-Extraktion mit Region unter Verwendung von Florence-2.

Link to this sectionRegionsbasierte Segmentierung in industriellen Anwendungen#

Regionsbasierte Segmentierung, bei der ein Bild zur gezielten Analyse und detaillierten Inspektion in aussagekräftige Teile unterteilt wird, kann industrielle Anwendungen vorantreiben, die Präzision und Effizienz in verschiedenen Prozessen verbessern. Durch die Fokussierung auf bestimmte Bereiche innerhalb eines Bildes ermöglicht diese Technologie eine detaillierte Inspektion und Analyse von Komponenten und Produkten. Im Hinblick auf die Qualitätskontrolle können Defekte oder Unstimmigkeiten in Materialien wie Risse oder Fehlausrichtungen identifiziert werden, wodurch sichergestellt wird, dass nur Produkte von höchster Qualität den Markt erreichen.

Beispiel für regionbasierte Segmentierung mit Florence-2

Abb. 7. Ein Beispiel für die regionsbasierte Segmentierung unter Verwendung von Florence-2.

Es verbessert auch automatisierte Montagelinien, indem Roboterarme zu bestimmten Teilen geführt und die Platzierung und Montage von Komponenten optimiert werden. Ebenso hilft es beim Bestandsmanagement, den Zustand und den Standort von Waren zu verfolgen und zu überwachen, was zu einer effizienteren Logistik und reduzierten Ausfallzeiten führt. Insgesamt steigert die regionsbasierte Segmentierung die Genauigkeit und Produktivität, was zu Kosteneinsparungen und höherer Produktqualität in industriellen Umgebungen führt.

Link to this sectionWichtige Erkenntnisse#

Wir beobachten einen Trend, bei dem KI-Modelle leichter werden und dennoch eine hohe Leistung beibehalten. Florence-2 markiert einen bedeutenden Fortschritt bei Vision-Language-Modellen. Es kann verschiedene Aufgaben wie Objekterkennung, Segmentierung, Bildbeschriftung und Grounding mit beeindruckender Zero-Shot-Leistung bewältigen. Trotz seiner geringeren Größe ist Florence-2 effizient und multifunktional, was es in Bezug auf Anwendungen in verschiedenen Branchen äußerst nützlich macht. Modelle wie Florence-2 eröffnen neue Möglichkeiten und erweitern das Potenzial für KI-Innovationen.

Erfahre mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Sieh dir unsere Lösungsseiten an, um mehr über KI-Anwendungen in der Fertigung und Landwirtschaft zu lesen. 🚀

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens