Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Google's PaliGemma 2: Einblicke in fortschrittliche VLM-Modelle

Abirami Vina

4 Min. Lesezeit

6. Dezember 2024

Begleiten Sie uns, wenn wir uns die neuen Vision Language Models von Google genauer ansehen: PaliGemma 2. Diese Modelle können helfen, Bilder und Texte zu verstehen und zu analysieren.

Am 5. Dezember 2024 stellte Google PaliGemma 2 vor, die neueste Version seines hochmodernen Vision-Language-Modells (VLM). PaliGemma 2 wurde entwickelt, um Aufgaben zu bewältigen, die Bilder und Text kombinieren, wie z. B. das Generieren von Bildunterschriften, das Beantworten visueller Fragen und das Erkennen von Objekten in Bildern. 

Aufbauend auf dem ursprünglichen PaliGemma, das bereits ein starkes Werkzeug für mehrsprachige Bildunterschriften und Objekterkennung war, bringt PaliGemma 2 mehrere wichtige Verbesserungen mit sich. Dazu gehören größere Modellgrößen, Unterstützung für höher auflösende Bilder und eine bessere Leistung bei komplexen visuellen Aufgaben. Diese Upgrades machen es noch flexibler und effektiver für eine Vielzahl von Anwendungen.

In diesem Artikel werfen wir einen genaueren Blick auf PaliGemma 2, einschließlich seiner Funktionsweise, seiner wichtigsten Merkmale und der Anwendungen, in denen es glänzt. Los geht's!

Von Gemma 2 zu PaliGemma 2

PaliGemma 2 basiert auf zwei Schlüsseltechnologien: dem SigLIP Vision Encoder und dem Gemma 2 Sprachmodell. Der SigLIP Encoder verarbeitet visuelle Daten, wie Bilder oder Videos, und zerlegt sie in Merkmale, die das Modell analysieren kann. Gemma 2 hingegen verarbeitet Text und ermöglicht es dem Modell, mehrsprachige Sprache zu verstehen und zu generieren. Zusammen bilden sie ein VLM, das entwickelt wurde, um visuelle und Textinformationen nahtlos zu interpretieren und zu verbinden.

Was PaliGemma 2 zu einem wichtigen Fortschritt macht, ist seine Skalierbarkeit und Vielseitigkeit. Im Gegensatz zur Originalversion ist PaliGemma 2 in drei Größen erhältlich - 3 Milliarden (3B), 10 Milliarden (10B) und 28 Milliarden (28B) Parameter. Diese Parameter sind wie die internen Einstellungen des Modells, die ihm helfen, Daten effektiv zu lernen und zu verarbeiten. Es unterstützt auch verschiedene Bildauflösungen (z. B. 224 x 224 Pixel für schnelle Aufgaben und 896 x 896 für detaillierte Analysen), wodurch es an verschiedene Anwendungen angepasst werden kann.

Abb. 1. Eine Übersicht über PaliGemma 2.

Die Integration der fortschrittlichen Sprachfunktionen von Gemma 2 mit der Bildverarbeitung von SigLIP macht PaliGemma 2 deutlich intelligenter. Es kann Aufgaben wie die folgenden bewältigen:

  • Beschriftung von Bildern oder Videos: Das Modell kann detaillierte Textbeschreibungen von Bildern erstellen, was es für die automatische Erstellung von Bildunterschriften nützlich macht.
  • Visuelle Fragen beantworten: PaliGemma 2 kann Fragen beantworten, die auf Bildern basieren, z. B. das Identifizieren von Objekten, Personen oder Aktionen in einer Szene.
  • Objekterkennung: Es identifiziert und kennzeichnet Objekte innerhalb eines Bildes, wie z. B. die Unterscheidung zwischen einer Katze, einem Tisch oder einem Auto auf einem Foto.

PaliGemma 2 geht über die separate Verarbeitung von Bildern und Text hinaus - es bringt sie auf sinnvolle Weise zusammen. Zum Beispiel kann es Beziehungen in einer Szene verstehen, wie z. B. die Erkennung, dass „Die Katze auf dem Tisch sitzt“, oder das Identifizieren von Objekten unter Hinzufügung von Kontext, wie z. B. die Erkennung eines berühmten Wahrzeichens. 

Wie die PaliGemma 2 VLM-Modelle von Google funktionieren

Als Nächstes werden wir ein Beispiel anhand des in der Abbildung unten gezeigten Graphen durchgehen, um ein besseres Verständnis dafür zu bekommen, wie PaliGemma 2 visuelle und textuelle Daten verarbeitet. Nehmen wir an, Sie laden diesen Graphen hoch und fragen das Modell: „Was stellt dieser Graph dar?

Abb. 2. Ein Beispiel für die Fähigkeiten von PaliGemma 2.

Der Prozess beginnt mit dem SigLIP Vision Encoder von PaliGemma 2, um Bilder zu analysieren und Schlüsselmerkmale zu extrahieren. Für einen Graphen umfasst dies die Identifizierung von Elementen wie Achsen, Datenpunkten und Beschriftungen. Der Encoder ist darauf trainiert, sowohl breite Muster als auch feine Details zu erfassen. Er verwendet auch Optical Character Recognition (OCR), um Text, der in das Bild eingebettet ist, zu erkennen und zu verarbeiten. Diese visuellen Merkmale werden in Token umgewandelt, d. h. in numerische Darstellungen, die das Modell verarbeiten kann. Diese Token werden dann mithilfe einer linearen Projektionsebene angepasst, einer Technik, die sicherstellt, dass sie nahtlos mit Textdaten kombiniert werden können.

Gleichzeitig verarbeitet das Gemma 2 Sprachmodell die dazugehörige Anfrage, um ihre Bedeutung und Absicht zu ermitteln. Der Text aus der Anfrage wird in Token umgewandelt, und diese werden mit den visuellen Token von SigLIP kombiniert, um eine multimodale Darstellung zu erstellen, ein einheitliches Format, das visuelle und textuelle Daten miteinander verbindet. 

Mithilfe dieser integrierten Darstellung generiert PaliGemma 2 Schritt für Schritt eine Antwort durch autoregressive Dekodierung, eine Methode, bei der das Modell jeweils einen Teil der Antwort auf der Grundlage des bereits verarbeiteten Kontexts vorhersagt. 

Hauptfunktionen von PaliGemma 2

Nachdem wir nun verstanden haben, wie es funktioniert, wollen wir die wichtigsten Funktionen untersuchen, die PaliGemma 2 zu einem zuverlässigen Vision-Language-Modell machen:

  • Flexibilität bei der Feinabstimmung: Lässt sich problemlos an spezifische Datensätze und Aufgaben anpassen und erzielt gute Ergebnisse in Anwendungen wie Bildunterschriftung, räumliches Denken und medizinische Bildgebung.
  • Vielfältige Trainingsdaten: Trainiert mit Datensätzen wie WebLI und OpenImages, was ihm starke Fähigkeiten zur Objekterkennung und mehrsprachige Ausgabefähigkeiten verleiht.
  • OCR-Integration: Beinhaltet optische Zeichenerkennung zum Extrahieren und Interpretieren von Text aus Bildern, wodurch es ideal für Dokumentenanalyse und andere textbasierte Aufgaben ist.
  • Mehrsprachige Ausgaben: Generiert Bildunterschriften und Antworten in mehreren Sprachen, ideal für globale Anwendungen.
  • Integration mit Tools: Es ist kompatibel mit Frameworks wie Hugging Face Transformers, PyTorch und Keras, was eine einfache Bereitstellung und Experimentierung ermöglicht.

Vergleich von PaliGemma 2 und PaliGemma: Was wurde verbessert?

Ein Blick auf die Architektur der ersten Version von PaliGemma ist eine gute Möglichkeit, die Verbesserungen von PaliGemma 2 zu erkennen. Eine der bemerkenswertesten Änderungen ist der Ersatz des ursprünglichen Gemma-Sprachmodells durch Gemma 2, was zu erheblichen Verbesserungen sowohl in der Leistung als auch in der Effizienz führt. 

Gemma 2, das in den Parametergrößen 9B und 27B erhältlich ist, wurde entwickelt, um erstklassige Genauigkeit und Geschwindigkeit zu liefern und gleichzeitig die Bereitstellungskosten zu senken. Dies wird durch eine neu gestaltete Architektur erreicht, die für die Inferenz-Effizienz über verschiedene Hardware-Konfigurationen hinweg optimiert ist, von leistungsstarken GPUs bis hin zu zugänglicheren Konfigurationen.

Abb. 3. Rückblick auf die erste Version von PaliGemma 2.

Infolgedessen ist PaliGemma 2 ein äußerst genaues Modell. Die 10B-Version von PaliGemma 2 erzielt einen niedrigeren Non-Entailment Sentence (NES)-Score von 20,3 im Vergleich zu 34,3 des ursprünglichen Modells, was bedeutet, dass weniger faktische Fehler in seinen Ausgaben enthalten sind. Diese Fortschritte machen PaliGemma 2 skalierbarer, präziser und anpassungsfähiger an ein breiteres Spektrum von Anwendungen, von detaillierter Bildunterschriftung bis hin zur visuellen Beantwortung von Fragen.

Anwendungen von PaliGemma 2: Reale Einsatzmöglichkeiten für VLM-Modelle

PaliGemma 2 hat das Potenzial, Branchen neu zu definieren, indem es visuelles und sprachliches Verständnis nahtlos miteinander verbindet. In Bezug auf die Barrierefreiheit kann es beispielsweise detaillierte Beschreibungen von Objekten, Szenen und räumlichen Beziehungen generieren und so sehbehinderten Menschen wichtige Unterstützung bieten. Diese Fähigkeit hilft den Benutzern, ihre Umgebung besser zu verstehen, und bietet ihnen mehr Unabhängigkeit bei alltäglichen Aufgaben. 

Abb. 4. PaliGemma 2 kann die Welt zugänglicher machen.

Zusätzlich zur Barrierefreiheit hat PaliGemma 2 Auswirkungen auf verschiedene Branchen, darunter:

  • E-Commerce: Das Modell verbessert die Produktkategorisierung, indem es Artikel in Bildern analysiert und beschreibt, was die Bestandsverwaltung vereinfacht und das Sucherlebnis für die Benutzer verbessert.
  • Gesundheitswesen: Es unterstützt medizinisches Fachpersonal bei der Interpretation medizinischer Bildgebung, wie z. B. Röntgenaufnahmen und MRTs, zusammen mit klinischen Notizen, um genauere und fundiertere Diagnosen zu stellen.
  • Bildung: PaliGemma 2 hilft Pädagogen, beschreibende und zugängliche Lernmaterialien zu erstellen, indem es Bildunterschriften generiert und Kontextinformationen für Bilder bereitstellt.
  • Content Creation: Das Modell automatisiert den Prozess der Generierung von Bildunterschriften und visuellen Beschreibungen für Multimedia-Inhalte und spart so Zeit für die Ersteller.

Probieren Sie es selbst aus: PaliGemma 2

Um PaliGemma 2 auszuprobieren, können Sie mit der interaktiven Demo von Hugging Face beginnen. Hier können Sie die Fähigkeiten bei Aufgaben wie Bildunterschriftung und visueller Beantwortung von Fragen erkunden. Laden Sie einfach ein Bild hoch und stellen Sie dem Modell Fragen dazu oder fordern Sie eine Beschreibung der Szene an.

Abb. 5. Eine Demo von PaliGemma 2 (Quelle: huggingface).

Wenn Sie tiefer eintauchen möchten, erfahren Sie hier, wie Sie selbst Hand anlegen können:

  • Vorab trainierte Modelle: Sie können auf vorab trainierte Modelle und Code von Plattformen wie Hugging Face und Kaggle zugreifen. Diese Ressourcen bieten alles, was Sie für den Einstieg in das Modell benötigen.
  • Notebooks: Es gibt eine umfassende Dokumentation und Beispiel-Notebooks, um sich mit PaliGemma 2 vertraut zu machen. Sie können mit Inferenzbeispielen beginnen und mit der Feinabstimmung des Modells auf Ihrem eigenen Datensatz für bestimmte Aufgaben experimentieren.
  • Integrationen: PaliGemma 2 ist kompatibel mit weit verbreiteten Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp, sodass Sie es mühelos in Ihre bestehenden Workflows integrieren können.

Vor- und Nachteile von Google’s PaliGemma 2

Nachdem wir nun verstanden haben, wie man mit PaliGemma 2 beginnt, wollen wir uns die wichtigsten Stärken und Schwächen genauer ansehen, die bei der Verwendung dieser Modelle zu beachten sind. 

Das zeichnet PaliGemma 2 als Vision-Language-Modell aus:

  • Effizienzsteigerung: Durch die Nutzung der optimierten Architektur von Gemma 2 bietet PaliGemma 2 eine hohe Leistung bei gleichzeitiger Minimierung der Bereitstellungskosten.
  • Verbesserte Sicherheitsfunktionen: PaliGemma 2 umfasst wesentliche Sicherheitsverbesserungen im Trainingsprozess, wie z. B. eine robuste Filterung der Pre-Training-Daten, um Verzerrungen zu reduzieren, und eine strenge Bewertung anhand von Sicherheitsbenchmarks.
  • Geringe Latenz für kleinere Konfigurationen: Das 3B-Modell bietet schnellere Inferenzzeiten und eignet sich daher für Anwendungsfälle, in denen Geschwindigkeit entscheidend ist, wie z. B. Produktempfehlungen im E-Commerce oder Live-Support-Systeme.

Hier sind einige Bereiche, in denen PaliGemma 2 möglicherweise Einschränkungen aufweist:

  • Latenz: Obwohl leistungsstark, können bei den größeren Modellen Latenzprobleme auftreten, insbesondere wenn sie für Aufgaben eingesetzt werden, die sofortige Reaktionen erfordern, wie z. B. interaktive KI-Systeme in Echtzeit.
  • Abhängigkeit von großen Datensätzen: Die Leistung von PaliGemma 2 ist eng mit der Qualität und Vielfalt seiner Trainingsdatensätze verbunden, was seine Effektivität in unterrepräsentierten Bereichen oder Sprachen, die nicht in den Trainingsdaten enthalten sind, einschränken könnte.
  • Hohe Ressourcenanforderungen: Trotz Optimierungen benötigen die Versionen mit 10B und 28B Parametern erhebliche Rechenleistung, was sie für kleinere Unternehmen mit begrenzten Ressourcen weniger zugänglich macht.

Wesentliche Erkenntnisse

PaliGemma 2 ist ein faszinierender Fortschritt im Vision-Language-Modeling und bietet verbesserte Skalierbarkeit, Flexibilität bei der Feinabstimmung und Genauigkeit. Es kann als wertvolles Werkzeug für Anwendungen dienen, die von Lösungen für Barrierefreiheit und E-Commerce bis hin zu Diagnostik im Gesundheitswesen und Bildung reichen. 

Obwohl es Einschränkungen gibt, wie z. B. Rechenanforderungen und eine Abhängigkeit von hochwertigen Daten, machen seine Stärken es zu einer praktischen Wahl für die Bewältigung komplexer Aufgaben, die visuelle und textuelle Daten integrieren. PaliGemma 2 kann Forschern und Entwicklern eine robuste Grundlage bieten, um das Potenzial von KI in multimodalen Anwendungen zu erforschen und zu erweitern.

Werden Sie Teil der KI-Konversation, indem Sie unser GitHub-Repository und unsere Community besuchen. Lesen Sie, wie KI in der Landwirtschaft und im Gesundheitswesen Fortschritte macht! 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert