Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Erfahren Sie, wie Sie Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildunterschriftung und OCR für Vision-AI-Lösungen praktisch anwenden können.
Die Fortschritte im Bereich der KI schreiten schnell voran, und fast täglich machen neue Innovationen Schlagzeilen. Ein solcher aktueller Durchbruch ist Gemini 2.5, das neueste multimodale Modell von Google DeepMind, das am 26. März vorgestellt wurde. Während traditionelle Large Language Models (LLMs) aus riesigen Datenmengen lernen können, um menschenähnlichen Text zu generieren, geht Gemini 2.5 darüber hinaus.
Es ist als ein „Denkmodell“ konzipiert, das Bilder, Audio und Video verarbeiten kann. Es verfügt über verbesserte Denk- und Programmierfähigkeiten. Interessanterweise schneidet es auch in Bezug auf Computer-Vision-Aufgaben außergewöhnlich gut ab, bei denen Maschinen visuelle Daten interpretieren und analysieren, wie z. B. Objekterkennung, Bildunterschriftung und optische Zeichenerkennung (OCR).
Abb. 1. Ein Beispiel für die Verwendung von Gemini 2.5 zum Verständnis des Inhalts eines Bildes.
In diesem Artikel führen wir Sie durch eines der Ultralytics-Notebooks, mit denen Sie die Computer-Vision-Funktionen von Gemini 2.5 praktisch nutzen können. Wir werden uns auch die wichtigsten Funktionen von Gemini 2.5 genauer ansehen und zeigen, wie es zum Aufbau von Computer-Vision-Lösungen für reale Anwendungen verwendet werden kann. Fangen wir an!
Überblick über Gemini 2.5: Funktionen und Möglichkeiten
Die erste Version der Gemini 2.5-Modellreihe, die gerade veröffentlicht wurde, ist eine experimentelle Version von Gemini 2.5 Pro. Es wurde entwickelt, um komplexe Probleme zu bewältigen, indem es seine Antworten durchdenkt, bevor es eine Antwort gibt. Es verwendet Methoden wie Reinforcement Learning (bei dem das Modell aus Feedback lernt) und Chain-of-Thought Prompting (ein schrittweiser Ansatz zur Lösung von Problemen).
Eines seiner Hauptmerkmale ist sein riesiges Kontextfenster, das 1 Million Token (ungefähr eine Million Wörter oder Wortteile) aufnehmen kann und voraussichtlich auf 2 Millionen anwachsen wird. Dies bedeutet, dass das Modell viele Informationen auf einmal aufnehmen kann, was zu detaillierteren und genaueren Ergebnissen führt.
Zusätzlich zur Sprachverarbeitung kann Gemini 2.5 für die folgenden Computer-Vision-Aufgaben verwendet werden:
Objekterkennung: Es ist der Prozess der Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes. Es kann in Anwendungen wie Überwachung oder selbstfahrenden Autos eingesetzt werden.
Bildunterschriftung: Diese Aufgabe umfasst das Generieren eines beschreibenden Textes für ein Bild. Es macht visuelle Inhalte zugänglicher und leichter verständlich.
Optische Zeichenerkennung: Diese Technologie wandelt Text in Bildern in bearbeitbaren, maschinenlesbaren Text um. Sie ist nützlich für die Digitalisierung von Dokumenten und die Automatisierung der Dateneingabe.
Benchmarking und Vergleich von Google Gemini 2.5 mit anderen Modellen
Es gibt heute mehrere multimodale Modelle im KI-Bereich, daher ist es wichtig zu verstehen, wie Gemini 2.5 Pro im Vergleich zu diesen abschneidet. Basierend auf den von Google DeepMind veröffentlichten Benchmarking-Ergebnissen zeigt Gemini 2.5 Pro eine beeindruckende Leistung über eine Reihe von Aufgaben hinweg.
Zum Beispiel erzielt Gemini 2.5 Pro bei einem Test namens Humanity’s Last Exam, der eine anspruchsvolle Prüfung simuliert, die viele Fächer abdeckt und fortgeschrittenes Denken und allgemeines Wissen testet, etwa 18,8 % und übertrifft damit Modelle wie OpenAI’s o3-mini, das etwa 14 % erzielt.
Abb. 2. Ein Überblick über die Benchmark-Leistung von Gemini 2.5 Pro.
Es schneidet auch bei Mathematik- und Programmieraufgaben sehr gut ab und erreicht oder übertrifft oft die Leistung von Modellen wie OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta und DeepSeek R1, was seine Fähigkeit demonstriert, komplexe Aufgaben zu bewältigen und große Datenmengen zu verarbeiten.
Praktische Anwendung von Gemini 2.5: So verwenden Sie die Google Gemini API
Gemini 2.5 Pro ist auf mehreren Plattformen verfügbar. Sie können im Google AI Studio damit experimentieren und über die Gemini App für Gemini Advanced Nutzer darauf zugreifen. In seiner Einführungsankündigung erwähnte Google DeepMind auch, dass das Modell bald auf Vertex AI unterstützt wird. Diese Zugangspunkte erleichtern es Entwicklern, Gemini 2.5 Pro für reale KI-Anwendungen zu nutzen.
Wenn Sie jedoch die Google Gemini API nutzen und in wenigen Minuten ohne komplizierte Einrichtung loslegen möchten und ein besseres Verständnis ihrer Computer-Vision-Fähigkeiten erlangen möchten, können Sie sich das Ultralytics Notebook ansehen, das Aufgaben wie Objekterkennung und Bildunterschriftung mit Gemini 2.5 Pro demonstriert. Lassen Sie uns im Detail durchgehen, was Sie in dem Notebook erwartet.
Einrichten der Inferenz mit dem Google Gemini 2.5 Notebook
Um mit dem Ultralytics Notebook zu beginnen und Google Gemini 2.5 zu nutzen, müssen Sie zunächst einen API-Schlüssel über Google AI Studio generieren. Dieser Schlüssel ermöglicht Ihnen den Zugriff auf die Gemini API, sodass Sie das Modell nutzen können.
Sobald Sie Ihren API-Schlüssel haben, stellen Sie sicher, dass Ihre Umgebung die erforderlichen Bibliotheken installiert hat - dazu gehören Pakete von Ultralytics und Googles AI-Toolkit. Dieser Schritt ist im Notebook klar umrissen, sodass Sie die Anweisungen einfach befolgen können, um Ihren Arbeitsbereich einzurichten.
Nachdem alles konfiguriert ist, können Sie sich mit der Gemini API verbinden, indem Sie Ihren API-Schlüssel eingeben (wie unten gezeigt), wodurch eine Verbindung zwischen Ihrem Arbeitsbereich und dem Modell hergestellt wird. Danach können Sie Bilder und Text-Prompts an Gemini 2.5 senden.
Im Wesentlichen können Sie dem Modell ein Bild und eine einfache Anweisung geben (wie “Objekte in diesem Bild erkennen” oder “beschreibe, was du siehst”), und es gibt die Ergebnisse zurück, die Sie benötigen. Dieser unkomplizierte Prozess erleichtert den Einstieg in die Erforschung der Computer-Vision-Fähigkeiten von Gemini 2.5.
Objekterkennung mit Google Gemini 2.5
Eines der wichtigsten Beispiele im Notebook ist die Objekterkennung mit Gemini 2.5 Pro. In diesem Beispiel stellen Sie dem Modell ein Bild und einen einfachen Prompt zur Verfügung, um Objekte zu erkennen.
Das Modell verarbeitet das Bild und gibt eine Reihe von Koordinaten und Beschriftungen für jedes gefundene Objekt zurück; diese Koordinaten werden in normalisierter Form angegeben. Funktionen aus dem Ultralytics Python-Paket werden dann verwendet, um diese normalisierten Werte an die tatsächlichen Abmessungen des Bildes anzupassen und klare Begrenzungsrahmen um jedes Objekt zu zeichnen, wie unten gezeigt.
Abb. 3. Verwendung von Google Gemini 2.5 für die Objekterkennung.
Bildunterschriftung mit Gemini 2.5
Ein weiteres interessantes Beispiel im Notebook ist die Bildunterschriftung mit Gemini 2.5 Pro. In diesem Beispiel stellen Sie dem Modell ein Bild und eine Aufforderung zur Verfügung, eine detaillierte Bildunterschrift zu erstellen, die beschreibt, was sich in dem Bild befindet.
Das Modell analysiert dann den visuellen Inhalt und gibt eine Beschreibung zurück, die oft als mehrere Sätze formatiert ist und sowohl den Inhalt als auch den Kontext des Bildes erfasst. Diese Funktion ist nützlich, um die Barrierefreiheit zu verbessern, visuelle Informationen zusammenzufassen und sogar kreatives Storytelling zu verbessern.
Verbesserung der OCR-Genauigkeit mit Google Gemini-Modellen
Eine Computer-Vision-Aufgabe, die die Fähigkeit von Gemini 2.5 Pro nutzt, Text in Bildern zu lesen, ist OCR. Im Notebook können Sie dem Modell ein Bild mit Text zusammen mit einer Aufforderung zur Extraktion dieses Textes zur Verfügung stellen. Das Modell verarbeitet das Bild und gibt sowohl den erkannten Text als auch die Koordinaten zurück, an denen sich der Text befindet, wie unten gezeigt.
Funktionen aus dem Ultralytics Python-Paket werden dann verwendet, um diese normalisierten Koordinaten in die tatsächlichen Abmessungen des Bildes umzuwandeln und Begrenzungsrahmen um die Textbereiche zu zeichnen. Diese annotierte Ausgabe macht deutlich, wo sich der Text befindet, was für die Digitalisierung von Dokumenten, die Automatisierung der Dateneingabe und die Verbesserung der Barrierefreiheit nützlich ist.
Abb. 4. Extrahieren von Textdaten in einem Bild mit Google Gemini 2.5.
Reale Anwendungen von Google Gemini 2.5
Nachdem wir nun durchgegangen sind, wie Google Gemini 2.5 Pro für verschiedene Computer-Vision-Aufgaben verwendet werden kann, wollen wir einige reale Anwendungen untersuchen, in denen diese Fähigkeiten eingesetzt werden können.
Die Objekterkennungsfähigkeit von Gemini 2.5 Pro kann beispielsweise dazu beitragen, große Mengen von Bildern automatisch zu beschriften und zu organisieren, wodurch Aufgaben wie die Erstellung von Datensätzen oder die Inhaltsverwaltung erheblich beschleunigt werden. Es kann auch verwendet werden, um Bilder in Bereichen wie Einzelhandel und Landwirtschaft zu analysieren - zum Beispiel, um Produkte in Regalen zu erkennen oder Anzeichen von Pflanzenstress in landwirtschaftlichen Fotos zu identifizieren.
Abb. 5. Gemini 2.5 Pro analysiert die Gesundheit einer Pflanze.
In der Zwischenzeit kann die Bildunterschriftungsfunktion des Modells sehbehinderten Benutzern helfen, zu verstehen, was sich in einem Bild befindet. Wenn Sie beispielsweise ein Foto von einer belebten Straße haben, kann das Modell eine Bildunterschrift erstellen, die die Szene detailliert beschreibt und die Arten von Fahrzeugen, die Aktivität von Fußgängern und sogar die Tageszeit basierend auf den Lichtverhältnissen erwähnt.
Darüber hinaus kann die OCR-Funktionalität von Gemini 2.5 in einer Vielzahl von Anwendungen eingesetzt werden. Sie können beispielsweise gedruckte Dokumente digitalisieren, indem Sie Seiten oder Quittungen scannen. Diese Funktion ist ideal für die Automatisierung von Dateneingabeaufgaben, die Verarbeitung von Formularen oder sogar das Lesen von Text von Visitenkarten und Beschilderungen.
Insgesamt öffnet Google Gemini 2.5 Pro die Türen zu einer breiten Palette von praktischen KI-Anwendungen.
Wesentliche Erkenntnisse
Google Gemini 2.5 Pro geht über das Generieren und Analysieren von Text hinaus und kann für Computer-Vision-Aufgaben wie Objekterkennung, Bildunterschriftung und OCR verwendet werden. Mit seinem riesigen Kontextfenster und den erweiterten Denkfähigkeiten liefert es detaillierte, kontextbezogene Ergebnisse, die in realen Szenarien gut funktionieren.
Da sich KI-Modelle ständig weiterentwickeln, erleichtern Tools wie Gemini 2.5 Pro die Lösung komplexer Probleme in verschiedenen Branchen. Es ist wahrscheinlich, dass wir eine noch breitere Akzeptanz von KI erleben werden, da immer mehr Unternehmen nach flexiblen, multimodalen Lösungen suchen, die ein breites Spektrum von Aufgaben bewältigen können, von visuellem Verständnis bis hin zur Sprachverarbeitung.