Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Googles PaliGemma 2: Einblicke in fortschrittliche VLM-Modelle

Begleite uns, während wir einen genaueren Blick auf die neuen Vision-Sprachmodelle von Google werfen: PaliGemma 2. Diese Modelle können helfen, sowohl Bilder als auch Text zu verstehen und zu analysieren.

ABAbirami Vina
4 min read
Googles PaliGemma 2 Vision-Sprachmodell

Am 5. Dezember 2024 stellte Google PaliGemma 2 vor, die neueste Version seines hochmodernen Vision-Language-Modells (VLM). PaliGemma 2 wurde entwickelt, um Aufgaben zu bewältigen, die Bilder und Text kombinieren, wie zum Beispiel das Generieren von Bildunterschriften, die Beantwortung visueller Fragen und das Erkennen von Objekten in Bildmaterial.

Aufbauend auf dem ursprünglichen PaliGemma, das bereits ein starkes Werkzeug für mehrsprachige Untertitelung und Objekterkennung war, bringt PaliGemma 2 mehrere wichtige Verbesserungen mit. Dazu gehören größere Modellgrößen, Unterstützung für Bilder mit höherer Auflösung und bessere Leistung bei komplexen visuellen Aufgaben. Diese Upgrades machen es noch flexibler und effektiver für eine Vielzahl von Anwendungsbereichen.

In diesem Artikel werden wir PaliGemma 2 genauer betrachten, einschließlich seiner Funktionsweise, der wichtigsten Funktionen und der Anwendungen, in denen es glänzt. Fangen wir an!

Link to this sectionVon Gemma 2 zu PaliGemma 2#

PaliGemma 2 basiert auf zwei Schlüsseltechnologien: dem SigLIP-Vision-Encoder und dem Gemma 2-Sprachmodell. Der SigLIP-Encoder verarbeitet visuelle Daten, wie Bilder oder Videos, und zerlegt sie in Merkmale, die das Modell analysieren kann. Währenddessen kümmert sich Gemma 2 um Text und ermöglicht es dem Modell, mehrsprachige Inhalte zu verstehen und zu generieren. Gemeinsam bilden sie ein VLM, das darauf ausgelegt ist, visuelle und textuelle Informationen nahtlos zu interpretieren und zu verknüpfen.

Was PaliGemma 2 zu einem großen Fortschritt macht, ist seine Skalierbarkeit und Vielseitigkeit. Im Gegensatz zur ursprünglichen Version gibt es PaliGemma 2 in drei Größen - 3 Milliarden (3B), 10 Milliarden (10B) und 28 Milliarden (28B) Parameter. Diese Parameter sind wie die internen Einstellungen des Modells, die ihm helfen, Daten effektiv zu lernen und zu verarbeiten. Es unterstützt zudem verschiedene Bildauflösungen (z. B. 224 x 224 Pixel für schnelle Aufgaben und 896 x 896 für detaillierte Analysen), wodurch es für verschiedene Anwendungen anpassbar ist.

Ein Überblick über PaliGemma 2

Abb 1. Ein Überblick über PaliGemma 2.

Die Integration der fortschrittlichen Sprachfähigkeiten von Gemma 2 mit der Bildverarbeitung von SigLIP macht PaliGemma 2 deutlich intelligenter. Es kann Aufgaben bewältigen wie:

  • Untertitelung von Bildern oder Videos: Das Modell kann detaillierte Textbeschreibungen von Bildmaterial generieren, was nützlich für die automatische Erstellung von Untertiteln ist.
  • Visuelle Beantwortung von Fragen: PaliGemma 2 kann Fragen basierend auf Bildern beantworten, wie z. B. das Identifizieren von Objekten, Personen oder Handlungen in einer Szene.
  • Objekterkennung: Es identifiziert und beschriftet Objekte innerhalb eines Bildes, wie etwa die Unterscheidung zwischen einer Katze, einem Tisch oder einem Auto in einem Foto.

PaliGemma 2 geht über das separate Verarbeiten von Bildern und Text hinaus - es bringt sie auf sinnvolle Weise zusammen. Es kann zum Beispiel Beziehungen in einer Szene verstehen, wie das Erkennen, dass „Die Katze auf dem Tisch sitzt“, oder Objekte identifizieren und dabei Kontext hinzufügen, etwa beim Erkennen eines berühmten Wahrzeichens.

Link to this sectionWie Googles PaliGemma 2 VLM-Modelle funktionieren#

Als nächstes gehen wir ein Beispiel anhand der Grafik im Bild unten durch, um ein besseres Verständnis dafür zu bekommen, wie PaliGemma 2 visuelle und textuelle Daten verarbeitet. Angenommen, du lädst diese Grafik hoch und fragst das Modell: „Was stellt diese Grafik dar?“

Ein Beispiel für die Fähigkeiten von PaliGemma 2

Abb 2. Ein Beispiel für die Fähigkeiten von PaliGemma 2.

Der Prozess beginnt mit dem SigLIP-Vision-Encoder von PaliGemma 2, um Bilder zu analysieren und wichtige Merkmale zu extrahieren. Bei einer Grafik umfasst dies das Identifizieren von Elementen wie Achsen, Datenpunkten und Beschriftungen. Der Encoder ist darauf trainiert, sowohl breite Muster als auch feine Details zu erfassen. Er nutzt auch optische Zeichenerkennung (OCR), um im Bild eingebetteten Text zu erkennen und zu verarbeiten. Diese visuellen Merkmale werden in Tokens umgewandelt, bei denen es sich um numerische Darstellungen handelt, die das Modell verarbeiten kann. Diese Tokens werden dann mithilfe einer linearen Projektionsschicht angepasst, einer Technik, die sicherstellt, dass sie nahtlos mit textuellen Daten kombiniert werden können.

Gleichzeitig verarbeitet das Gemma 2-Sprachmodell die begleitende Anfrage, um deren Bedeutung und Absicht zu bestimmen. Der Text aus der Anfrage wird in Tokens umgewandelt, und diese werden mit den visuellen Tokens von SigLIP kombiniert, um eine multimodale Repräsentation zu erstellen, ein einheitliches Format, das visuelle und textuelle Daten verknüpft.

Unter Verwendung dieser integrierten Repräsentation generiert PaliGemma 2 eine Antwort Schritt für Schritt durch autoregressive Dekodierung, eine Methode, bei der das Modell einen Teil der Antwort nach dem anderen basierend auf dem Kontext, den es bereits verarbeitet hat, vorhersagt.

Link to this sectionHauptfähigkeiten von PaliGemma 2#

Nachdem wir nun verstanden haben, wie es funktioniert, lass uns die wichtigsten Funktionen erkunden, die PaliGemma 2 zu einem zuverlässigen Vision-Language-Modell machen:

  • Flexibilität beim Fine-Tuning: Passt sich leicht an spezifische Datensätze und Aufgaben an und liefert gute Ergebnisse bei Anwendungen wie Bildunterschriften, räumlichem Denken und medizinischer Bildgebung.
  • Vielfältige Trainingsdaten: Trainiert auf Datensätzen wie WebLI und OpenImages, was ihm starke Fähigkeiten zur Objekterkennung und mehrsprachige Ausgabemöglichkeiten verleiht.
  • OCR-Integration: Beinhaltet optische Zeichenerkennung zum Extrahieren und Interpretieren von Text aus Bildern, ideal für Dokumentenanalyse und andere textbasierte Aufgaben.
  • Mehrsprachige Ausgaben: Generiert Untertitel und Antworten in mehreren Sprachen, ideal für globale Anwendungen.
  • Integration mit Tools: Es ist kompatibel mit Frameworks wie Hugging Face Transformers, PyTorch und Keras, was einfache Bereitstellung und Experimente ermöglicht.

Link to this sectionVergleich von PaliGemma 2 und PaliGemma: Was wurde verbessert?#

Ein Blick auf die Architektur der ersten Version von PaliGemma ist ein guter Weg, um die Verbesserungen von PaliGemma 2 zu sehen. Eine der bemerkenswertesten Änderungen ist der Ersatz des ursprünglichen Gemma-Sprachmodells durch Gemma 2, was wesentliche Verbesserungen sowohl bei der Leistung als auch bei der Effizienz mit sich bringt.

Gemma 2, verfügbar in Parametergrößen von 9B und 27B, wurde entwickelt, um erstklassige Genauigkeit und Geschwindigkeit zu liefern und gleichzeitig Bereitstellungskosten zu senken. Dies erreicht es durch eine überarbeitete Architektur, die für Inferenz-Effizienz über verschiedene Hardware-Setups hinweg optimiert ist, von leistungsstarken GPUs bis hin zu zugänglicheren Konfigurationen.

Ein Rückblick auf die erste Version von PaliGemma

Abb 3. Ein Rückblick auf die erste Version von PaliGemma 2.

Als Ergebnis ist PaliGemma 2 ein hoch genaues Modell. Die 10B-Version von PaliGemma 2 erreicht einen niedrigeren Non-Entailment Sentence (NES)-Wert von 20,3 im Vergleich zu 34,3 beim ursprünglichen Modell, was weniger faktische Fehler in den Ausgaben bedeutet. Diese Fortschritte machen PaliGemma 2 skalierbarer, präziser und anpassungsfähiger an eine breitere Palette von Anwendungen, von detaillierter Untertitelung bis zur visuellen Beantwortung von Fragen.

Link to this sectionAnwendungen von PaliGemma 2: Praxisnahe Nutzungen für VLM-Modelle#

PaliGemma 2 hat das Potenzial, Branchen neu zu definieren, indem es visuelles und sprachliches Verständnis nahtlos kombiniert. In Bezug auf Barrierefreiheit kann es beispielsweise detaillierte Beschreibungen von Objekten, Szenen und räumlichen Beziehungen generieren und so sehbehinderten Personen entscheidende Unterstützung bieten. Diese Fähigkeit hilft Nutzern, ihre Umgebung besser zu verstehen und bietet mehr Unabhängigkeit bei alltäglichen Aufgaben.

PaliGemma 2 kann die Welt zugänglicher machen

Abb 4. PaliGemma 2 kann die Welt zu einem barrierefreieren Ort machen.

Neben der Barrierefreiheit hat PaliGemma 2 Einfluss auf verschiedene Branchen, darunter:

  • E-Commerce: Das Modell verbessert die Produktkategorisierung durch das Analysieren und Beschreiben von Artikeln in Bildern, was die Bestandsverwaltung vereinfacht und das Sucherlebnis für Nutzer verbessert.
  • Gesundheitswesen: Es unterstützt medizinisches Fachpersonal bei der Interpretation medizinischer Bildgebung, wie Röntgenbilder und MRIs, zusammen mit klinischen Notizen, um genauere und informiertere Diagnosen zu stellen.
  • Bildung: PaliGemma 2 hilft Pädagogen dabei, beschreibende und barrierefreie Lernmaterialien zu erstellen, indem es Untertitel generiert und kontextuelle Informationen für Bilder bereitstellt.
  • Erstellung von Inhalten: Das Modell automatisiert den Prozess der Erstellung von Untertiteln und visuellen Beschreibungen für Multimedia-Inhalte, was Zeit für Ersteller spart.

Link to this sectionProbiere es selbst aus: PaliGemma 2#

Um PaliGemma 2 auszuprobieren, kannst du mit der interaktiven Demo von Hugging Face beginnen. Sie lässt dich die Fähigkeiten bei Aufgaben wie Bildunterschriften und visueller Fragenbeantwortung erkunden. Lade einfach ein Bild hoch und stelle dem Modell Fragen dazu oder fordere eine Beschreibung der Szene an.

Eine Demo von PaliGemma 2

Abb 5. Eine Demo von PaliGemma 2 (Quelle: Hugging Face).

Wenn du tiefer eintauchen möchtest, erfährst du hier, wie du praktisch loslegen kannst:

  • Vortrainierte Modelle: Du kannst auf vortrainierte Modelle und Code von Plattformen wie Hugging Face und Kaggle zugreifen. Diese Ressourcen bieten alles, was du benötigst, um mit der Arbeit am Modell zu beginnen.
  • Notebooks: Es gibt eine umfassende Dokumentation und Beispiel-Notebooks, um dich mit PaliGemma 2 vertraut zu machen. Du kannst mit Inferenzbeispielen beginnen und mit dem Fine-Tuning des Modells auf deinem eigenen Datensatz für spezifische Aufgaben experimentieren.
  • Integrationen: PaliGemma 2 ist kompatibel mit weit verbreiteten Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp, was es dir ermöglicht, es mühelos in deine bestehenden Arbeitsabläufe zu integrieren.

Link to this sectionVor- und Nachteile von Googles PaliGemma 2#

Nachdem wir nun verstanden haben, wie der Einstieg in PaliGemma 2 gelingt, lass uns die wichtigsten Stärken und Nachteile genauer betrachten, die es bei der Verwendung dieser Modelle zu beachten gilt.

Das macht PaliGemma 2 als Vision-Language-Modell aus:

  • Effizienzgewinne: Durch Nutzung der optimierten Architektur von Gemma 2 liefert PaliGemma 2 eine hohe Leistung bei minimalen Bereitstellungskosten.
  • Verbesserte Sicherheitsfunktionen: PaliGemma 2 beinhaltet signifikante Sicherheitsverbesserungen im Trainingsprozess, wie eine robuste Filterung von Vortrainingsdaten zur Reduzierung von Vorurteilen und eine strenge Evaluierung anhand von Sicherheits-Benchmarks.
  • Geringe Latenz für kleinere Konfigurationen: Das 3B-Modell bietet schnellere Inferenzzeiten und eignet sich daher für Anwendungsfälle, bei denen Geschwindigkeit entscheidend ist, wie etwa E-Commerce-Produktempfehlungen oder Live-Support-Systeme.

In der Zwischenzeit sind hier einige Bereiche, in denen PaliGemma 2 an Grenzen stoßen kann:

  • Latenz: Obwohl leistungsstark, können die größeren Modelle Latenzprobleme haben, insbesondere wenn sie für Aufgaben bereitgestellt werden, die sofortige Antworten erfordern, wie z. B. Echtzeit-interaktive KI-Systeme.
  • Abhängigkeit von großen Datensätzen: Die Leistung von PaliGemma 2 ist eng mit der Qualität und Vielfalt seiner Trainingsdatensätze verknüpft, was seine Effektivität in unterrepräsentierten Bereichen oder Sprachen einschränken könnte, die nicht in den Trainingsdaten enthalten sind.
  • Hoher Ressourcenbedarf: Trotz Optimierungen erfordern die Versionen mit 10B und 28B Parametern erhebliche Rechenleistung, was sie für kleinere Organisationen mit begrenzten Ressourcen weniger zugänglich macht.

Link to this sectionWichtige Erkenntnisse#

PaliGemma 2 ist ein faszinierender Fortschritt in der Vision-Language-Modellierung, der verbesserte Skalierbarkeit, Flexibilität beim Fine-Tuning und Genauigkeit bietet. Es kann als wertvolles Werkzeug für Anwendungen dienen, die von Barrierefreiheitslösungen und E-Commerce bis hin zu medizinischen Diagnosen und Bildung reichen.

Obwohl es Einschränkungen gibt, wie etwa den Rechenbedarf und die Abhängigkeit von qualitativ hochwertigen Daten, machen es seine Stärken zu einer praktischen Wahl für die Bewältigung komplexer Aufgaben, die visuelle und textuelle Daten integrieren. PaliGemma 2 kann eine robuste Grundlage für Forscher und Entwickler bieten, um das Potenzial von KI in multimodalen Anwendungen zu erforschen und zu erweitern.

Werde Teil der KI-Konversation, indem du unser GitHub-Repository und unsere Community besuchst. Lies darüber, wie KI in der Landwirtschaft und im Gesundheitswesen Fortschritte macht! 🚀

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens