PaliGemma 2 von Google: Einblicke in fortgeschrittene VLM-Modelle

Abirami Vina

4 Minuten lesen

6. Dezember 2024

Werfen Sie mit uns einen genaueren Blick auf Googles neue Vision-Sprachmodelle: PaliGemma 2. Diese Modelle können beim Verstehen und Analysieren von Bildern und Text helfen.

Am 5. Dezember 2024 stellte Google PaliGemma 2 vor, die neueste Version seines hochmodernen Vision-Language-Modells (VLM). PaliGemma 2 wurde entwickelt, um Aufgaben zu bewältigen, die Bilder und Text kombinieren, wie z. B. die Erstellung von Bildunterschriften, die Beantwortung visueller Fragen und die Erkennung von Objekten in Bildern. 

PaliGemma 2 baut auf dem ursprünglichen PaliGemma auf, das bereits ein leistungsfähiges Werkzeug für mehrsprachige Beschriftungen und Objekterkennung war, und bietet mehrere wichtige Verbesserungen. Dazu gehören größere Modellgrößen, Unterstützung für Bilder mit höherer Auflösung und eine bessere Leistung bei komplexen visuellen Aufgaben. Diese Verbesserungen machen das Programm noch flexibler und effektiver für eine breite Palette von Anwendungen.

In diesem Artikel werfen wir einen genaueren Blick auf PaliGemma 2, einschließlich seiner Funktionsweise, seiner wichtigsten Funktionen und der Anwendungen, in denen es glänzt. Legen wir los!

Von Gemma 2 zu PaliGemma 2

PaliGemma 2 basiert auf zwei Schlüsseltechnologien: dem SigLIP Vision Encoder und dem Gemma 2 Sprachmodell. Der SigLIP-Encoder verarbeitet visuelle Daten, wie Bilder oder Videos, und zerlegt sie in Merkmale, die das Modell analysieren kann. In der Zwischenzeit verarbeitet Gemma 2 Text und ermöglicht es dem Modell, mehrsprachige Sprache zu verstehen und zu erzeugen. Zusammen bilden sie ein VLM, das visuelle und Textinformationen nahtlos interpretieren und verbinden kann.

Was PaliGemma 2 zu einem großen Schritt nach vorn macht, ist seine Skalierbarkeit und Vielseitigkeit. Anders als die ursprüngliche Version ist PaliGemma 2 in drei Größen erhältlich - 3 Milliarden (3B), 10 Milliarden (10B) und 28 Milliarden (28B) Parameter. Diese Parameter sind wie die internen Einstellungen des Modells und helfen ihm, Daten zu lernen und effektiv zu verarbeiten. Außerdem unterstützt es verschiedene Bildauflösungen (z. B. 224 x 224 Pixel für schnelle Aufgaben und 896 x 896 für detaillierte Analysen), wodurch es für verschiedene Anwendungen geeignet ist.

__wf_reserved_inherit
Abbildung 1. Ein Überblick über PaliGemma 2.

Durch die Integration der fortgeschrittenen Sprachfähigkeiten von Gemma 2 mit der Bildverarbeitung von SigLIP wird PaliGemma 2 wesentlich intelligenter. Es kann Aufgaben bewältigen wie:

  • Untertitel für Bilder oder Videos: Das Modell kann detaillierte Textbeschreibungen von Bildern generieren, was es für die automatische Erstellung von Untertiteln nützlich macht.
  • Beantwortung visueller Fragen: PaliGemma 2 kann Fragen anhand von Bildern beantworten, z. B. Objekte, Personen oder Aktionen in einer Szene identifizieren.
  • Erkennung von Objekten: Sie identifiziert und kennzeichnet Objekte in einem Bild, z. B. die Unterscheidung zwischen einer Katze, einem Tisch oder einem Auto in einem Foto.

PaliGemma 2 geht über die getrennte Verarbeitung von Bildern und Text hinaus - es bringt sie auf sinnvolle Weise zusammen. So kann es zum Beispiel Beziehungen in einer Szene erkennen, wie "Die Katze sitzt auf dem Tisch", oder Objekte identifizieren und gleichzeitig Kontext hinzufügen, wie das Erkennen eines berühmten Wahrzeichens. 

Wie die PaliGemma 2 VLM-Modelle von Google funktionieren

Als Nächstes gehen wir anhand eines Beispiels mit dem unten abgebildeten Diagramm durch, um ein besseres Verständnis dafür zu bekommen, wie PaliGemma 2 visuelle und textuelle Daten verarbeitet. Nehmen wir an, Sie laden dieses Diagramm hoch und fragen das Modell: "Was stellt dieses Diagramm dar?

__wf_reserved_inherit
Abb. 2. Ein Beispiel für die Fähigkeiten von PaliGemma 2.

Der Prozess beginnt mit dem SigLIP-Vision-Encoder von PaliGemma 2, der die Bilder analysiert und die wichtigsten Merkmale extrahiert. Bei einem Diagramm umfasst dies die Identifizierung von Elementen wie Achsen, Datenpunkten und Beschriftungen. Der Encoder ist darauf trainiert, sowohl breite Muster als auch feine Details zu erfassen. Außerdem wird eine optische Zeichenerkennung (OCR) eingesetzt, um im Bild eingebetteten Text zu erkennen und zu verarbeiten. Diese visuellen Merkmale werden in Token umgewandelt, d. h. in numerische Darstellungen, die das Modell verarbeiten kann. Diese Tokens werden dann mithilfe einer linearen Projektionsebene angepasst, eine Technik, die gewährleistet, dass sie nahtlos mit Textdaten kombiniert werden können.

Gleichzeitig verarbeitet das Gemma 2-Sprachmodell die begleitende Anfrage, um ihre Bedeutung und Absicht zu ermitteln. Der Text der Anfrage wird in Token umgewandelt und diese werden mit den visuellen Token aus SigLIP kombiniert, um eine multimodale Darstellung zu erstellen, ein einheitliches Format, das visuelle und textuelle Daten verbindet. 

Auf der Grundlage dieser integrierten Darstellung generiert PaliGemma 2 eine Antwort Schritt für Schritt durch autoregressive Dekodierung, eine Methode, bei der das Modell jeweils einen Teil der Antwort auf der Grundlage des bereits verarbeiteten Kontexts vorhersagt. 

Die wichtigsten Funktionen von PaliGemma 2

Nachdem wir nun verstanden haben, wie es funktioniert, wollen wir uns die wichtigsten Merkmale ansehen, die PaliGemma 2 zu einem zuverlässigen Modell für die Bildsprache machen:

  • Flexibilität bei der Feinabstimmung: Einfache Anpassung an spezifische Datensätze und Aufgaben, gute Leistung bei Anwendungen wie Bildbeschriftung, räumliche Schlussfolgerungen und medizinische Bildgebung.
  • Vielfältige Trainingsdaten: Trainiert auf Datensätzen wie WebLI und OpenImages, was ihm starke Objekterkennungsfähigkeiten und mehrsprachige Ausgabefähigkeiten verleiht.
  • OCR-Integration: Mit optischer Zeichenerkennung zum Extrahieren und Interpretieren von Text aus Bildern, ideal für die Dokumentenanalyse und andere textbasierte Aufgaben.
  • Mehrsprachige Ausgaben: Erzeugt Beschriftungen und Antworten in mehreren Sprachen, ideal für globale Anwendungen.
  • Integration mit Tools: Es ist mit Frameworks wie Hugging Face Transformers, PyTorch und Keras kompatibel und ermöglicht so eine einfache Bereitstellung und Experimentierung.

Vergleich zwischen PaliGemma 2 und PaliGemma: Was wurde verbessert?

Ein Blick auf die Architektur der ersten Version von PaliGemma ist ein guter Weg, um die Verbesserungen von PaliGemma 2 zu erkennen. Eine der bemerkenswertesten Änderungen ist die Ersetzung des ursprünglichen Gemma-Sprachmodells durch Gemma 2, was erhebliche Verbesserungen in Bezug auf Leistung und Effizienz mit sich bringt. 

Gemma 2, das in den Parametergrößen 9B und 27B erhältlich ist, wurde entwickelt, um klassenführende Genauigkeit und Geschwindigkeit zu liefern und gleichzeitig die Einsatzkosten zu senken. Erreicht wird dies durch eine neu gestaltete Architektur, die für die Inferenz-Effizienz in verschiedenen Hardware-Konfigurationen optimiert ist, von leistungsstarken GPUs bis hin zu einfacheren Konfigurationen.

__wf_reserved_inherit
Abbildung 3. Ein Blick zurück auf die erste Version von PaliGemma 2.

Infolgedessen ist PaliGemma 2 ein sehr genaues Modell. Die 10B-Version von PaliGemma 2 erreicht einen niedrigeren Non-Entailment Sentence (NES)-Score von 20,3 im Vergleich zu 34,3 beim Originalmodell, was weniger sachliche Fehler in den Ergebnissen bedeutet. Diese Fortschritte machen PaliGemma 2 skalierbarer, präziser und anpassungsfähiger für ein breiteres Spektrum von Anwendungen, von detaillierten Untertiteln bis zur Beantwortung visueller Fragen.

Anwendungen von PaliGemma 2: Reale Anwendungen für VLM-Modelle

PaliGemma 2 hat das Potenzial, durch die nahtlose Verbindung von visuellem und sprachlichem Verständnis die Industrie neu zu definieren. Im Hinblick auf die Barrierefreiheit kann er zum Beispiel detaillierte Beschreibungen von Objekten, Szenen und räumlichen Beziehungen erstellen und damit sehbehinderten Menschen eine entscheidende Hilfe sein. Diese Fähigkeit hilft den Nutzern, ihre Umgebung besser zu verstehen, und ermöglicht eine größere Unabhängigkeit bei der Bewältigung alltäglicher Aufgaben. 

__wf_reserved_inherit
Abbildung 4. PaliGemma 2 kann die Welt zu einem zugänglicheren Ort machen.

Neben der Barrierefreiheit wirkt sich PaliGemma 2 auf verschiedene Branchen aus, darunter auch auf die Industrie:

  • Elektronischer Geschäftsverkehr: Das Modell verbessert die Produktkategorisierung durch die Analyse und Beschreibung von Artikeln in Bildern, was die Bestandsverwaltung vereinfacht und das Sucherlebnis für die Nutzer verbessert.
  • Gesundheitswesen: Es unterstützt medizinisches Fachpersonal, indem es medizinische Bildgebung wie Röntgenaufnahmen und MRTs zusammen mit klinischen Notizen interpretiert, um genauere und fundiertere Diagnosen zu stellen.
  • Bildung: PaliGemma 2 hilft Pädagogen bei der Erstellung anschaulicher und zugänglicher Lernmaterialien, indem es Bildunterschriften generiert und kontextbezogene Informationen für Bilder bereitstellt.
  • Erstellung von Inhalten: Das Modell automatisiert die Erstellung von Untertiteln und visuellen Beschreibungen für Multimedia-Inhalte und spart so Zeit für die Ersteller.

Probieren Sie es selbst aus: PaliGemma 2

Um PaliGemma 2 auszuprobieren, können Sie mit der interaktiven Demo von Hugging Face beginnen. Damit können Sie die Fähigkeiten von PaliGemma bei Aufgaben wie Bildbeschriftung und Beantwortung visueller Fragen erkunden. Laden Sie einfach ein Bild hoch und stellen Sie dem Modell Fragen dazu oder fordern Sie eine Beschreibung der Szene an.

__wf_reserved_inherit
Abb. 5. Eine Demo von PaliGemma 2.

Wenn Sie tiefer eintauchen möchten, erfahren Sie hier, wie Sie selbst aktiv werden können:

  • Vorgefertigte Modelle: Auf Plattformen wie Hugging Face und Kaggle können Sie auf vortrainierte Modelle und Code zugreifen. Diese Ressourcen bieten alles, was Sie brauchen, um mit dem Modell zu arbeiten.
  • Notizbücher: Es gibt eine umfassende Dokumentation und Beispiel-Notebooks, um sich mit PaliGemma 2 vertraut zu machen. Sie können mit Inferenzbeispielen beginnen und mit der Feinabstimmung des Modells auf Ihrem eigenen Datensatz für spezifische Aufgaben experimentieren.
  • Integrationen: PaliGemma 2 ist mit weit verbreiteten Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp kompatibel, so dass Sie es mühelos in Ihre bestehenden Arbeitsabläufe integrieren können.

Vor- und Nachteile von Googles PaliGemma 2

Nachdem wir verstanden haben, wie man mit PaliGemma 2 anfängt, wollen wir uns die wichtigsten Stärken und Nachteile ansehen, die bei der Verwendung dieser Modelle zu beachten sind. 

Das ist es, was PaliGemma 2 als Modell für die Visionssprache auszeichnet:

  • Effizienzsteigerung: Durch die Nutzung der optimierten Architektur von Gemma 2 bietet PaliGemma 2 hohe Leistung bei gleichzeitiger Minimierung der Bereitstellungskosten.
  • Verbesserte Sicherheitsmerkmale: PaliGemma 2 enthält erhebliche Sicherheitsverbesserungen im Trainingsprozess, wie z. B. eine robuste Filterung der Daten vor dem Training, um Verzerrungen zu reduzieren, und eine strenge Bewertung anhand von Sicherheitsbenchmarks.
  • Geringe Latenzzeit für kleinere Konfigurationen: Das 3B-Modell bietet schnellere Inferenzzeiten und eignet sich daher für Anwendungsfälle, bei denen es auf Geschwindigkeit ankommt, wie z. B. bei Produktempfehlungen im E-Commerce oder Live-Support-Systemen.

In der Zwischenzeit gibt es einige Bereiche, in denen PaliGemma 2 an seine Grenzen stoßen könnte:

  • Latenz: Die größeren Modelle sind zwar leistungsfähig, können aber mit Latenzproblemen zu kämpfen haben, insbesondere wenn sie für Aufgaben eingesetzt werden, die sofortige Reaktionen erfordern, wie z. B. interaktive Echtzeit-KI-Systeme.
  • Abhängigkeit von großen Datensätzen: Die Leistung von PaliGemma 2 ist eng mit der Qualität und Vielfalt seiner Trainingsdaten verbunden, was seine Effektivität in unterrepräsentierten Domänen oder Sprachen, die nicht in den Trainingsdaten enthalten sind, einschränken könnte.
  • Hohe Ressourcenanforderungen: Trotz Optimierungen erfordern die 10B- und 28B-Parameter-Versionen eine beträchtliche Rechenleistung, wodurch sie für kleinere Organisationen mit begrenzten Ressourcen weniger geeignet sind.

Die wichtigsten Erkenntnisse

PaliGemma 2 ist ein faszinierender Fortschritt bei der Modellierung von Bildsprachen und bietet eine verbesserte Skalierbarkeit, Flexibilität bei der Feinabstimmung und Genauigkeit. Es kann als wertvolles Werkzeug für Anwendungen dienen, die von Lösungen für Barrierefreiheit und E-Commerce bis hin zu Gesundheitsdiagnostik und Bildung reichen. 

Es hat zwar seine Grenzen, z. B. bei den Rechenanforderungen und der Abhängigkeit von qualitativ hochwertigen Daten, aber seine Stärken machen es zu einer praktischen Wahl für die Bewältigung komplexer Aufgaben, die visuelle und textuelle Daten integrieren. PaliGemma 2 kann eine solide Grundlage für Forscher und Entwickler bieten, um das Potenzial der KI in multimodalen Anwendungen zu erforschen und zu erweitern.

Beteiligen Sie sich an der Diskussion über KI, indem Sie unser GitHub-Repository und unsere Community besuchen. Lesen Sie, wie die KI in der Landwirtschaft und im Gesundheitswesen Fortschritte macht! 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert