Vision-KI

Arbeite praktisch mit Google Gemini 2.5 für Computer-Vision-Aufgaben

Erfahre, wie du praktisch mit Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision-AI-Lösungen arbeiten kannst.

ABAbirami Vina

5 min readMarch 31, 2025

Verwendung von Google Gemini 2.5 für Computer-Vision-Aufgaben

Die KI-Entwicklungen schreiten schnell voran, und fast täglich sorgen neue Innovationen für Schlagzeilen. Ein solcher aktueller Durchbruch ist Gemini 2.5, das neueste multimodale Modell von Google DeepMind, das am 26. März vorgestellt wurde. Während traditionelle Large Language Models (LLMs) aus riesigen Datenmengen lernen können, um menschenähnlichen Text zu generieren, geht Gemini 2.5 noch einen Schritt weiter.

Es wurde als „denkendes Modell“ konzipiert, das Bilder, Audio und Video verarbeiten kann. Es verfügt über verbesserte Argumentations- und Programmierfähigkeiten. Interessanterweise schneidet es auch bei Computer-Vision-Aufgaben außergewöhnlich gut ab, bei denen Maschinen visuelle Daten interpretieren und analysieren, wie etwa bei der Objekterkennung, Bildbeschreibung und optischen Zeichenerkennung (OCR).

Verwendung von Gemini 2.5 zum Verständnis des Bildinhalts

Abb. 1. Ein Beispiel für die Verwendung von Gemini 2.5, um die Inhalte eines Bildes zu verstehen.

In diesem Artikel gehen wir eines der Notebooks von Ultralytics durch, das dir dabei hilft, praktische Erfahrungen mit den Computer-Vision-Fähigkeiten von Gemini 2.5 zu sammeln. Wir werfen außerdem einen genaueren Blick auf die Hauptfunktionen von Gemini 2.5 und zeigen, wie es zur Erstellung von Computer-Vision-Lösungen für reale Anwendungen eingesetzt werden kann. Fangen wir an!

Link to this sectionÜberblick über Gemini 2.5: Funktionen und Fähigkeiten#

Die erste Version der Gemini 2.5-Modellreihe, die gerade veröffentlicht wurde, ist eine experimentelle Version von Gemini 2.5 Pro. Sie ist darauf ausgelegt, komplexe Probleme zu bewältigen, indem sie ihre Antworten durchdenkt, bevor sie ein Ergebnis liefert. Dabei werden Methoden wie Reinforcement Learning (bei dem das Modell aus Feedback lernt) und Chain-of-Thought-Prompting (ein schrittweiser Ansatz zur Problemlösung) eingesetzt.

Eine der wichtigsten Funktionen ist das riesige Kontextfenster, das 1 Million Token (etwa eine Million Wörter oder Wortteile) aufnehmen kann und voraussichtlich auf 2 Millionen wachsen wird. Das bedeutet, dass das Modell eine große Menge an Informationen auf einmal verarbeiten kann, was zu detaillierteren und genaueren Ergebnissen führt.

Neben der Sprachverarbeitung kann Gemini 2.5 für die folgenden Computer-Vision-Aufgaben eingesetzt werden:

Objekterkennung: Dies ist der Prozess der Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes. Er kann in Anwendungen wie der Überwachung oder bei selbstfahrenden Autos eingesetzt werden.
Bildbeschreibung: Diese Aufgabe beinhaltet die Generierung eines beschreibenden Textes für ein Bild. Sie macht visuelle Inhalte zugänglicher und leichter verständlich.
Optische Zeichenerkennung: Diese Technologie wandelt in Bildern enthaltenen Text in bearbeitbaren, maschinenlesbaren Text um. Sie ist nützlich für die Digitalisierung von Dokumenten und die Automatisierung der Dateneingabe.

Link to this sectionBenchmarking und Vergleich von Google Gemini 2.5 mit anderen Modellen#

Es gibt heute mehrere multimodale Modelle im KI-Bereich, daher ist es wichtig zu verstehen, wie Gemini 2.5 Pro im Vergleich zu diesen abschneidet. Basierend auf den von Google DeepMind geteilten Benchmark-Ergebnissen zeigt Gemini 2.5 Pro eine beeindruckende Leistung bei einer Vielzahl von Aufgaben.

Zum Beispiel erzielt Gemini 2.5 Pro bei einem Test namens „Humanity’s Last Exam“, der eine anspruchsvolle Prüfung zu vielen Themenbereichen simuliert und fortgeschrittenes logisches Denken sowie Allgemeinwissen abfragt, etwa 18,8 % und übertrifft damit Modelle wie das o3-mini von OpenAI, das bei etwa 14 % liegt.

Ein Überblick über die Benchmark-Leistung von Gemini 2.5 Pro

Abb. 2. Ein Überblick über die Benchmark-Leistung von Gemini 2.5 Pro.

Es schneidet auch bei Mathematik- und Programmieraufgaben sehr gut ab und erreicht oder übertrifft häufig die Leistung von Modellen wie OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta und DeepSeek R1, was seine Fähigkeit unterstreicht, komplexe Aufgaben zu bewältigen und große Datenmengen zu verarbeiten.

Link to this sectionPraktische Erfahrung mit Gemini 2.5: So nutzt du die Google Gemini API#

Gemini 2.5 Pro ist auf mehreren Plattformen verfügbar. Du kannst in Google AI Studio damit experimentieren und über die Gemini App für Gemini Advanced-Nutzer darauf zugreifen. In seiner Ankündigung erwähnte Google DeepMind zudem, dass das Modell bald auf Vertex AI unterstützt wird. Diese Zugangspunkte erleichtern es Entwicklern, Gemini 2.5 Pro für reale KI-Anwendungen zu nutzen.

Wenn du jedoch die Google Gemini API verwenden möchtest, um in wenigen Minuten ohne komplizierte Einrichtung loszulegen, und ein besseres Verständnis für die Computer-Vision-Fähigkeiten gewinnen willst, kannst du dir das Ultralytics Notebook ansehen, das Aufgaben wie Objekterkennung und Bildbeschreibung mit Gemini 2.5 Pro demonstriert. Gehen wir im Detail durch, was dich im Notebook erwartet.

Link to this sectionEinrichten der Inferenz mit dem Google Gemini 2.5 Notebook#

Um mit dem Ultralytics Notebook loszulegen und Google Gemini 2.5 zu nutzen, musst du zuerst einen API-Schlüssel über Google AI Studio generieren. Dieser Schlüssel gibt dir Zugriff auf die Gemini API, damit du das Modell verwenden kannst.

Sobald du deinen API-Schlüssel hast, stelle sicher, dass in deiner Umgebung die erforderlichen Bibliotheken installiert sind – dazu gehören Pakete von Ultralytics sowie das AI-Toolkit von Google. Dieser Schritt ist im Notebook klar beschrieben, sodass du den Anweisungen zur Einrichtung deiner Arbeitsumgebung leicht folgen kannst.

Sobald alles konfiguriert ist, kannst du eine Verbindung zur Gemini API herstellen, indem du deinen API-Schlüssel eingibst (wie unten gezeigt), wodurch eine Verknüpfung zwischen deiner Arbeitsumgebung und dem Modell entsteht. Danach bist du bereit, Bilder und Text-Prompts an Gemini 2.5 zu senden.

Im Grunde kannst du ein Bild und eine einfache Anweisung (wie „erkenne Objekte in diesem Bild“ oder „beschreibe, was du siehst“) an das Modell geben, und es liefert die gewünschten Ergebnisse. Dieser unkomplizierte Prozess macht es einfach, die Computer-Vision-Fähigkeiten von Gemini 2.5 zu erkunden.

Link to this sectionObjekterkennung mit Google Gemini 2.5#

Eines der Hauptbeispiele im Notebook ist die Objekterkennung mit Gemini 2.5 Pro. In diesem Beispiel gibst du dem Modell ein Bild und einen einfachen Prompt, um Objekte zu erkennen.

Das Modell verarbeitet das Bild und gibt einen Satz von Koordinaten und Labels für jedes erkannte Objekt zurück; diese Koordinaten werden in normalisierter Form bereitgestellt. Funktionen des Ultralytics Python-Pakets werden dann verwendet, um diese normalisierten Werte an die tatsächlichen Dimensionen des Bildes anzupassen und klare Begrenzungsrahmen (Bounding Boxes) um jedes Objekt zu zeichnen, wie unten dargestellt.

Verwendung von Google Gemini 2.5 für die Objekterkennung

Abb. 3. Verwendung von Google Gemini 2.5 zur Objekterkennung.

Link to this sectionBildbeschreibung mit Gemini 2.5#

Ein weiteres interessantes Beispiel im Notebook ist die Bildbeschreibung mit Gemini 2.5 Pro. Hier gibst du dem Modell ein Bild und einen Prompt, der es auffordert, eine detaillierte Bildbeschreibung zu generieren, die den Inhalt des Bildes erklärt.

Das Modell analysiert dann den visuellen Inhalt und gibt eine Erzählung zurück, die oft aus mehreren Sätzen besteht und sowohl den Inhalt als auch den Kontext des Bildes erfasst. Diese Funktion ist nützlich, um die Barrierefreiheit zu verbessern, visuelle Informationen zusammenzufassen und sogar kreatives Storytelling zu unterstützen.

Link to this sectionVerbesserung der OCR-Genauigkeit mit Google Gemini Modellen#

Eine Computer-Vision-Aufgabe, die die Fähigkeit von Gemini 2.5 Pro nutzt, Text in Bildern zu lesen, ist OCR. Im Notebook kannst du dem Modell ein Bild mit Text zusammen mit einem Prompt geben, um diesen Text zu extrahieren. Das Modell verarbeitet das Bild und liefert sowohl den erkannten Text als auch die Koordinaten, an denen sich der Text befindet, wie unten dargestellt.

Funktionen des Ultralytics Python-Pakets werden dann verwendet, um diese normalisierten Koordinaten in die tatsächlichen Dimensionen des Bildes umzurechnen und Bounding Boxes um die Textbereiche zu zeichnen. Diese annotierte Ausgabe macht deutlich, wo sich der Text befindet, was für die Digitalisierung von Dokumenten, die Automatisierung der Dateneingabe und die Verbesserung der Barrierefreiheit nützlich ist.

Extrahieren von Textdaten aus einem Bild mit Google Gemini 2.5

Abb. 4. Extrahieren von Textdaten aus einem Bild mit Google Gemini 2.5.

Link to this sectionReale Anwendungen von Google Gemini 2.5#

Nachdem wir nun durchgegangen sind, wie Google Gemini 2.5 Pro für verschiedene Computer-Vision-Aufgaben eingesetzt werden kann, lass uns einige reale Anwendungen erkunden, in denen diese Fähigkeiten zum Einsatz kommen.

Die Objekterkennungsfähigkeit von Gemini 2.5 Pro kann beispielsweise helfen, große Bildmengen automatisch zu beschriften und zu organisieren, wodurch Aufgaben wie die Erstellung von Datensätzen oder das Content-Management erheblich beschleunigt werden. Es kann auch zur Analyse von Bildern in Branchen wie Einzelhandel und Landwirtschaft eingesetzt werden – zum Beispiel beim Erkennen von Produkten in Regalen oder beim Identifizieren von Anzeichen von Pflanzenstress auf Fotos vom Feld.

Gemini 2.5 Pro bei der Analyse der Pflanzengesundheit

Abb. 5. Gemini 2.5 Pro bei der Analyse der Pflanzengesundheit.

Währenddessen kann die Bildbeschreibungsfunktion des Modells sehbehinderten Nutzern helfen, zu verstehen, was auf einem Bild zu sehen ist. Wenn du beispielsweise ein Foto einer belebten Straße hast, könnte das Modell eine Beschreibung erstellen, die die Szene im Detail erläutert und die Art der Fahrzeuge, die Aktivität der Fußgänger und basierend auf Lichtverhältnissen sogar die Tageszeit erwähnt.

Darüber hinaus kann die OCR-Funktionalität von Gemini 2.5 in einer Vielzahl von Anwendungen eingesetzt werden. Zum Beispiel kannst du gedruckte Dokumente digitalisieren, indem du Seiten oder Quittungen scannst. Diese Fähigkeit ist ideal für die Automatisierung von Dateneingabeaufgaben, die Bearbeitung von Formularen oder sogar das Lesen von Texten von Visitenkarten und Schildern.

Insgesamt eröffnet Google Gemini 2.5 Pro die Tür zu einer breiten Palette praktischer KI-Anwendungen.

Link to this sectionWichtige Erkenntnisse#

Über das Generieren und Analysieren von Text hinaus kann Google Gemini 2.5 Pro für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschreibung und OCR verwendet werden. Mit seinem massiven Kontextfenster und den erweiterten Argumentationsfähigkeiten liefert es detaillierte, kontextbezogene Ergebnisse, die in realen Szenarien gut funktionieren.

Da sich KI-Modelle ständig weiterentwickeln, machen Tools wie Gemini 2.5 Pro es einfacher, komplexe Probleme branchenübergreifend zu lösen. Es ist wahrscheinlich, dass wir eine noch breitere Akzeptanz von KI sehen werden, da immer mehr Organisationen nach flexiblen, multimodalen Lösungen suchen, die eine Vielzahl von Aufgaben bewältigen können, von visuellem Verständnis bis hin zur Sprachverarbeitung.

Werde Teil unserer Community und erfahre mehr über hochmoderne KI-Projekte in unserem GitHub-Repository. Sieh dir die Anwendungen von Vision KI in der Landwirtschaft und die Rolle von KI in der Fertigung auf unseren Lösungsseiten an. Entdecke unsere Lizenzpläne und baue noch heute deine eigenen Computer-Vision-Lösungen!