Machen Sie sich mit Google Gemini 2.5 für Computer-Vision-Aufgaben vertraut

31. März 2025
Erfahren Sie, wie Sie Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision AI-Lösungen einsetzen können.

31. März 2025
Erfahren Sie, wie Sie Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision AI-Lösungen einsetzen können.
Die Fortschritte in der künstlichen Intelligenz schreiten schnell voran, und fast jeden Tag machen neue Innovationen Schlagzeilen. Ein solcher aktueller Durchbruch ist Gemini 2.5, das neueste multimodale Modell von Google DeepMind, das am 26. März vorgestellt wurde. Während herkömmliche Large Language Models (LLMs) aus riesigen Datenmengen lernen können, um menschenähnlichen Text zu erzeugen, geht Gemini 2.5 darüber hinaus.
Es ist als "Denkmodell" konzipiert, das Bilder, Audio und Video verarbeiten kann. Es verfügt über verbesserte Denk- und Codierungsfähigkeiten. Interessant ist, dass er auch bei Computer-Vision-Aufgaben, bei denen Maschinen visuelle Daten interpretieren und analysieren, wie z. B. Objekterkennung, Bildunterschriften und optische Zeichenerkennung (OCR), außergewöhnlich gut abschneidet.
In diesem Artikel gehen wir durch eines der Ultralytics-Notebooks, das Ihnen helfen kann, die Computer-Vision-Funktionen von Gemini 2.5 in die Praxis umzusetzen. Außerdem werfen wir einen genaueren Blick auf die wichtigsten Funktionen von Gemini 2.5 und zeigen, wie es für die Entwicklung von Computer-Vision-Lösungen für reale Anwendungen verwendet werden kann. Lassen Sie uns beginnen!
Die erste Version der Gemini 2.5 Modellreihe, die gerade veröffentlicht wurde, ist eine experimentelle Version von Gemini 2.5 Pro. Es ist darauf ausgelegt, komplexe Probleme zu lösen, indem es seine Antworten durchdenkt, bevor es eine Antwort gibt. Es verwendet Methoden wie das Verstärkungslernen (bei dem das Modell aus Rückmeldungen lernt) und die Gedankenkette (ein schrittweiser Ansatz zur Lösung von Problemen).
Eines seiner wichtigsten Merkmale ist das riesige Kontextfenster, das 1 Million Token (etwa eine Million Wörter oder Wortteile) aufnehmen kann und voraussichtlich auf 2 Millionen anwachsen wird. Das bedeutet, dass das Modell viele Informationen auf einmal aufnehmen kann, was zu detaillierteren und genaueren Ergebnissen führt.
Zusätzlich zur Sprachverarbeitung kann Gemini 2.5 für die folgenden Computer-Vision-Aufgaben verwendet werden:
Im Bereich der künstlichen Intelligenz gibt es heute mehrere multimodale Modelle. Daher ist es wichtig zu verstehen, wie Gemini 2.5 Pro im Vergleich zu diesen Modellen abschneidet. Basierend auf Benchmarking-Ergebnissen, die von Googles DeepMind veröffentlicht wurden, zeigt Gemini 2.5 Pro eine beeindruckende Leistung bei einer Reihe von Aufgaben.
Bei einem Test namens Humanity's Last Exam, der eine anspruchsvolle Prüfung simuliert, die viele Fächer abdeckt und fortgeschrittenes logisches Denken und Allgemeinwissen testet, erreicht Gemini 2.5 Pro beispielsweise 18,8 % und übertrifft damit Modelle wie o3-mini von OpenAI, das etwa 14 % erreicht.
Auch bei Mathematik- und Codierungsaufgaben schneidet er sehr gut ab und erreicht oder übertrifft oft die Leistung von Modellen wie OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta und DeepSeek R1, was seine Fähigkeit unter Beweis stellt, komplexe Aufgaben zu bewältigen und große Datenmengen zu verarbeiten.
Gemini 2.5 Pro ist auf mehreren Plattformen verfügbar. Sie können damit in Google AI Studio experimentieren und über die Gemini-App für Gemini Advanced-Nutzer darauf zugreifen. In seiner Ankündigung zur Markteinführung erwähnte Google DeepMind auch, dass das Modell bald von Vertex AI unterstützt werden wird. Diese Zugangspunkte machen es für Entwickler einfach, Gemini 2.5 Pro für reale KI-Anwendungen zu nutzen.
Wenn Sie jedoch die Google Gemini-API verwenden und in wenigen Minuten ohne komplizierte Einrichtung loslegen möchten und ein besseres Verständnis der Computer-Vision-Funktionen erlangen wollen, können Sie sich das Ultralytics-Notizbuch ansehen, in dem Aufgaben wie Objekterkennung und Bildbeschriftung mit Gemini 2.5 Pro vorgestellt werden. Schauen wir uns im Detail an, was Sie im Notebook erwarten können.
Um mit dem Ultralytics-Notizbuch zu beginnen und Google Gemini 2.5 zu verwenden, müssen Sie zunächst einen API-Schlüssel über Google AI Studio generieren. Mit diesem Schlüssel erhalten Sie Zugriff auf die Gemini-API, sodass Sie das Modell verwenden können.
Sobald Sie Ihren API-Schlüssel haben, stellen Sie sicher, dass in Ihrer Umgebung die erforderlichen Bibliotheken installiert sind - dazu gehören Pakete von Ultralytics und Googles AI-Toolkit. Dieser Schritt ist im Notebook klar umrissen, sodass Sie den Anweisungen zum Einrichten Ihres Arbeitsbereichs leicht folgen können.
Wenn Sie alles konfiguriert haben, können Sie eine Verbindung zur Gemini-API herstellen, indem Sie Ihren API-Schlüssel eingeben (siehe unten), wodurch eine Verbindung zwischen Ihrem Arbeitsbereich und dem Modell hergestellt wird. Danach sind Sie bereit, Bilder und Textaufforderungen an Gemini 2.5 zu senden.
Im Wesentlichen können Sie dem Modell ein Bild und eine einfache Anweisung (z. B. "Erkenne Objekte in diesem Bild" oder "Beschreibe, was du siehst") zur Verfügung stellen, und es liefert die benötigten Ergebnisse. Dieser unkomplizierte Prozess macht es einfach, die Möglichkeiten von Gemini 2.5 zu erkunden.
Eines der wichtigsten Beispiele im Notizbuch ist die Objekterkennung mit Gemini 2.5 Pro. In diesem Beispiel geben Sie dem Modell ein Bild und eine einfache Aufforderung zur Objekterkennung.
Das Modell verarbeitet das Bild und gibt für jedes gefundene Objekt eine Reihe von Koordinaten und Bezeichnungen zurück; diese Koordinaten werden in normalisierter Form angegeben. Diese Koordinaten werden in normalisierter Form angegeben. Funktionen aus dem Ultralytics Python-Paket werden dann verwendet, um diese normalisierten Werte in die tatsächlichen Abmessungen des Bildes umzuwandeln und klare Begrenzungsrahmen um jedes Objekt zu zeichnen, wie unten gezeigt.
Ein weiteres interessantes Beispiel im Notizbuch ist die Bildbeschriftung mit Gemini 2.5 Pro. In diesem Beispiel geben Sie dem Modell ein Bild und eine Aufforderung, eine detaillierte Bildunterschrift zu erstellen, die den Inhalt des Bildes beschreibt.
Das Modell analysiert dann den visuellen Inhalt und gibt eine Erzählung zurück, die oft in mehreren Sätzen formatiert ist und sowohl den Inhalt als auch den Kontext des Bildes erfasst. Diese Funktion ist nützlich, um die Zugänglichkeit zu verbessern, visuelle Informationen zusammenzufassen und sogar das kreative Erzählen von Geschichten zu verbessern.
Eine Bildverarbeitungsaufgabe, die die Fähigkeit von Gemini 2.5 Pro, Text in Bildern zu lesen, nutzt, ist OCR. Im Notebook können Sie dem Modell ein Bild mit Text sowie eine Aufforderung zum Extrahieren dieses Textes vorgeben. Das Modell verarbeitet das Bild und gibt sowohl den erkannten Text als auch die Koordinaten zurück, an denen sich der Text befindet, wie unten gezeigt.
Funktionen aus dem Ultralytics-Python-Paket werden dann verwendet, um diese normalisierten Koordinaten in die tatsächlichen Abmessungen des Bildes umzuwandeln und Begrenzungsrahmen um die Textbereiche zu zeichnen. Diese kommentierte Ausgabe macht deutlich, wo sich der Text befindet, was für die Digitalisierung von Dokumenten, die Automatisierung der Dateneingabe und die Verbesserung der Zugänglichkeit nützlich ist.
Nachdem wir uns nun angeschaut haben, wie Google Gemini 2.5 Pro für verschiedene Computer-Vision-Aufgaben verwendet werden kann, wollen wir nun einige reale Anwendungen erkunden, bei denen diese Fähigkeiten zum Einsatz kommen können.
Die Objekterkennungsfunktion von Gemini 2.5 Pro kann beispielsweise dabei helfen, große Bildmengen automatisch zu beschriften und zu organisieren, wodurch Aufgaben wie die Erstellung von Datensätzen oder die Verwaltung von Inhalten erheblich beschleunigt werden. Es kann auch zur Analyse von Bildern in Bereichen wie Einzelhandel und Landwirtschaft verwendet werden - zum Beispiel zur Erkennung von Produkten in Regalen oder zur Identifizierung von Anzeichen von Erntestress in Fotos von landwirtschaftlichen Betrieben.
Die Bildbeschriftungsfunktion des Modells kann sehbehinderten Nutzern helfen, den Inhalt eines Bildes zu verstehen. Wenn Sie zum Beispiel ein Foto einer belebten Straße haben, kann das Modell eine Beschriftung erstellen, die die Szene detailliert beschreibt und die Art der Fahrzeuge, die Aktivität der Fußgänger und sogar die Tageszeit anhand von Beleuchtungsmerkmalen erwähnt.
Darüber hinaus kann die OCR-Funktion von Gemini 2.5 in einer Vielzahl von Anwendungen eingesetzt werden. So können Sie beispielsweise gedruckte Dokumente digitalisieren, indem Sie Seiten oder Belege scannen. Diese Funktion ist ideal für die Automatisierung von Dateneingabeaufgaben, die Verarbeitung von Formularen oder sogar das Lesen von Text auf Visitenkarten und Schildern.
Insgesamt öffnet Google Gemini 2.5 Pro die Türen zu einer breiten Palette von praktischen KI-Anwendungen.
Google Gemini 2.5 Pro geht über die Erstellung und Analyse von Text hinaus und kann für Computer-Vision-Aufgaben wie Objekterkennung, Bildunterschriften und OCR verwendet werden. Mit seinem riesigen Kontextfenster und den verbesserten Schlussfolgerungsfähigkeiten liefert es detaillierte, kontextbezogene Ergebnisse, die in realen Szenarien gut funktionieren.
Mit der Weiterentwicklung von KI-Modellen erleichtern Tools wie Gemini 2.5 Pro die Lösung komplexer Probleme in verschiedenen Branchen. Es ist wahrscheinlich, dass wir eine noch breitere Akzeptanz von KI erleben werden, da immer mehr Unternehmen nach flexiblen, multimodalen Lösungen suchen, die eine breite Palette von Aufgaben bewältigen können, vom visuellen Verständnis bis zur Sprachverarbeitung.
Werden Sie Teil unserer Community und erfahren Sie mehr über innovative KI-Projekte in unserem GitHub-Repository. Sehen Sie sich die Anwendungen von Vision AI in der Landwirtschaft und die Rolle von AI in der Fertigung auf unseren Lösungsseiten an. Informieren Sie sich über unsere Lizenzierungspläne und entwickeln Sie noch heute Bildverarbeitungslösungen!