Machen Sie sich mit Google Gemini 2.5 für Computer-Vision-Aufgaben vertraut

31. März 2025
Erfahren Sie, wie Sie Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision AI-Lösungen einsetzen können.

31. März 2025
Erfahren Sie, wie Sie Google Gemini 2.5 für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR für Vision AI-Lösungen einsetzen können.
Die Fortschritte in der Künstlichen Intelligenz schreiten schnell voran, und fast jeden Tag machen neue Innovationen Schlagzeilen. Ein solcher aktueller Durchbruch ist Gemini 2.5, das neueste multimodale Modell von Google DeepMind, das am 26. März vorgestellt wurde. Während herkömmliche Large Language Models (LLMs) aus riesigen Datenmengen lernen können, um menschenähnlichen Text zu erzeugen, geht Gemini 2.5 darüber hinaus.
Es ist als ein „Denkmodell“ konzipiert, das Bilder, Audio und Video verarbeiten kann. Es verfügt über verbesserte Denk- und Programmierfähigkeiten. Interessanterweise schneidet es auch in Bezug auf Computer-Vision-Aufgaben außergewöhnlich gut ab, bei denen Maschinen visuelle Daten interpretieren und analysieren, wie z. B. Objekterkennung, Bildunterschriftung und optische Zeichenerkennung (OCR).

In diesem Artikel gehen wir durch eines der Ultralytics, das Ihnen helfen kann, die Computer-Vision-Funktionen von Gemini 2.5 in die Praxis umzusetzen. Außerdem werfen wir einen genaueren Blick auf die wichtigsten Funktionen von Gemini 2.5 und zeigen, wie es für die Entwicklung von Computer-Vision-Lösungen für reale Anwendungen verwendet werden kann. Lassen Sie uns beginnen!
Die erste Version der Gemini 2.5-Modellreihe, die gerade veröffentlicht wurde, ist eine experimentelle Version von Gemini 2.5 Pro. Es wurde entwickelt, um komplexe Probleme zu bewältigen, indem es seine Antworten durchdenkt, bevor es eine Antwort gibt. Es verwendet Methoden wie Reinforcement Learning (bei dem das Modell aus Feedback lernt) und Chain-of-Thought Prompting (ein schrittweiser Ansatz zur Lösung von Problemen).
Eines seiner Hauptmerkmale ist sein riesiges Kontextfenster, das 1 Million Token (ungefähr eine Million Wörter oder Wortteile) aufnehmen kann und voraussichtlich auf 2 Millionen anwachsen wird. Dies bedeutet, dass das Modell viele Informationen auf einmal aufnehmen kann, was zu detaillierteren und genaueren Ergebnissen führt.
Zusätzlich zur Sprachverarbeitung kann Gemini 2.5 für die folgenden Computer-Vision-Aufgaben verwendet werden:
Im Bereich der künstlichen Intelligenz gibt es heute mehrere multimodale Modelle. Daher ist es wichtig zu verstehen, wie Gemini 2.5 Pro im Vergleich zu diesen Modellen abschneidet. Basierend auf Benchmarking-Ergebnissen, die von Google DeepMind veröffentlicht wurden, zeigt Gemini 2.5 Pro eine beeindruckende Leistung bei einer Reihe von Aufgaben.
Zum Beispiel erzielt Gemini 2.5 Pro bei einem Test namens Humanity’s Last Exam, der eine anspruchsvolle Prüfung simuliert, die viele Fächer abdeckt und fortgeschrittenes Denken und allgemeines Wissen testet, etwa 18,8 % und übertrifft damit Modelle wie OpenAI’s o3-mini, das etwa 14 % erzielt.

Es schneidet auch bei Mathematik- und Programmieraufgaben sehr gut ab und erreicht oder übertrifft oft die Leistung von Modellen wie OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta und DeepSeek R1, was seine Fähigkeit demonstriert, komplexe Aufgaben zu bewältigen und große Datenmengen zu verarbeiten.
Gemini 2.5 Pro ist auf mehreren Plattformen verfügbar. Sie können damit in Google AI Studio experimentieren und über die Gemini-App für Gemini Advanced-Nutzer darauf zugreifen. In seiner Ankündigung zur Markteinführung erwähnte Google DeepMind auch, dass das Modell bald von Vertex AI unterstützt werden wird. Diese Zugangspunkte machen es für Entwickler einfach, Gemini 2.5 Pro für reale KI-Anwendungen zu nutzen.
Wenn Sie jedoch die Google Gemini-API verwenden und in wenigen Minuten ohne komplizierte Einrichtung loslegen möchten und ein besseres Verständnis der Computer-Vision-Funktionen erlangen wollen, können Sie sich das Ultralytics ansehen, in dem Aufgaben wie Objekterkennung und Bildbeschriftung mit Gemini 2.5 Pro vorgestellt werden. Schauen wir uns im Detail an, was Sie im Notebook erwarten können.
Um mit dem Ultralytics zu beginnen und Google Gemini 2.5 zu verwenden, müssen Sie zunächst einen API-Schlüssel über Google AI Studio generieren. Mit diesem Schlüssel erhalten Sie Zugriff auf die Gemini-API, sodass Sie das Modell verwenden können.
Sobald Sie Ihren API-Schlüssel haben, stellen Sie sicher, dass in Ihrer Umgebung die erforderlichen Bibliotheken installiert sind - dazu gehören Pakete von Ultralytics und das KI-Toolkit von Google. Dieser Schritt ist im Notebook klar umrissen, sodass Sie den Anweisungen zum Einrichten Ihres Arbeitsbereichs leicht folgen können.
Nachdem alles konfiguriert ist, können Sie sich mit der Gemini API verbinden, indem Sie Ihren API-Schlüssel eingeben (wie unten gezeigt), wodurch eine Verbindung zwischen Ihrem Arbeitsbereich und dem Modell hergestellt wird. Danach können Sie Bilder und Text-Prompts an Gemini 2.5 senden.
Im Wesentlichen können Sie dem Modell ein Bild und eine einfache Anweisung (z. B. "detect Objekte in diesem Bild" oder "Beschreibe, was du siehst") zur Verfügung stellen, und es liefert die benötigten Ergebnisse. Dieser unkomplizierte Prozess macht es einfach, die Möglichkeiten von Gemini 2.5 zu erkunden.
Eines der wichtigsten Beispiele im Notizbuch ist die Objekterkennung mit Gemini 2.5 Pro. In diesem Beispiel geben Sie dem Modell ein Bild und eine einfache Aufforderung zur detect .
Das Modell verarbeitet das Bild und gibt für jedes gefundene Objekt eine Reihe von Koordinaten und Bezeichnungen zurück; diese Koordinaten werden in normalisierter Form angegeben. Diese Koordinaten werden in normalisierter Form angegeben. Funktionen aus dem Ultralytics Python werden dann verwendet, um diese normalisierten Werte in die tatsächlichen Abmessungen des Bildes umzuwandeln und klare Begrenzungsrahmen um jedes Objekt zu zeichnen, wie unten gezeigt.

Ein weiteres interessantes Beispiel im Notebook ist die Bildunterschriftung mit Gemini 2.5 Pro. In diesem Beispiel stellen Sie dem Modell ein Bild und eine Aufforderung zur Verfügung, eine detaillierte Bildunterschrift zu erstellen, die beschreibt, was sich in dem Bild befindet.
Das Modell analysiert dann den visuellen Inhalt und gibt eine Beschreibung zurück, die oft als mehrere Sätze formatiert ist und sowohl den Inhalt als auch den Kontext des Bildes erfasst. Diese Funktion ist nützlich, um die Barrierefreiheit zu verbessern, visuelle Informationen zusammenzufassen und sogar kreatives Storytelling zu verbessern.
Eine Computer-Vision-Aufgabe, die die Fähigkeit von Gemini 2.5 Pro nutzt, Text in Bildern zu lesen, ist OCR. Im Notebook können Sie dem Modell ein Bild mit Text zusammen mit einer Aufforderung zur Extraktion dieses Textes zur Verfügung stellen. Das Modell verarbeitet das Bild und gibt sowohl den erkannten Text als auch die Koordinaten zurück, an denen sich der Text befindet, wie unten gezeigt.
Funktionen aus demPython werden dann verwendet, um diese normalisierten Koordinaten in die tatsächlichen Abmessungen des Bildes umzuwandeln und Begrenzungsrahmen um die Textbereiche zu zeichnen. Diese kommentierte Ausgabe macht deutlich, wo sich der Text befindet, was für die Digitalisierung von Dokumenten, die Automatisierung der Dateneingabe und die Verbesserung der Zugänglichkeit nützlich ist.

Nachdem wir uns nun angeschaut haben, wie Google Gemini 2.5 Pro für verschiedene Computer-Vision-Aufgaben verwendet werden kann, wollen wir nun einige reale Anwendungen erkunden, bei denen diese Fähigkeiten zum Einsatz kommen können.
Die Objekterkennungsfähigkeit von Gemini 2.5 Pro kann beispielsweise dazu beitragen, große Mengen von Bildern automatisch zu beschriften und zu organisieren, wodurch Aufgaben wie die Erstellung von Datensätzen oder die Inhaltsverwaltung erheblich beschleunigt werden. Es kann auch verwendet werden, um Bilder in Bereichen wie Einzelhandel und Landwirtschaft zu analysieren - zum Beispiel, um Produkte in Regalen zu erkennen oder Anzeichen von Pflanzenstress in landwirtschaftlichen Fotos zu identifizieren.

In der Zwischenzeit kann die Bildunterschriftungsfunktion des Modells sehbehinderten Benutzern helfen, zu verstehen, was sich in einem Bild befindet. Wenn Sie beispielsweise ein Foto von einer belebten Straße haben, kann das Modell eine Bildunterschrift erstellen, die die Szene detailliert beschreibt und die Arten von Fahrzeugen, die Aktivität von Fußgängern und sogar die Tageszeit basierend auf den Lichtverhältnissen erwähnt.
Darüber hinaus kann die OCR-Funktionalität von Gemini 2.5 in einer Vielzahl von Anwendungen eingesetzt werden. Sie können beispielsweise gedruckte Dokumente digitalisieren, indem Sie Seiten oder Quittungen scannen. Diese Funktion ist ideal für die Automatisierung von Dateneingabeaufgaben, die Verarbeitung von Formularen oder sogar das Lesen von Text von Visitenkarten und Beschilderungen.
Insgesamt öffnet Google Gemini 2.5 Pro die Türen zu einer breiten Palette von praktischen KI-Anwendungen.
Google Gemini 2.5 Pro geht über die Erstellung und Analyse von Text hinaus und kann für Computer-Vision-Aufgaben wie Objekterkennung, Bildbeschriftung und OCR verwendet werden. Mit seinem riesigen Kontextfenster und den verbesserten Schlussfolgerungsfähigkeiten liefert es detaillierte, kontextbezogene Ergebnisse, die in realen Szenarien gut funktionieren.
Da sich KI-Modelle ständig weiterentwickeln, erleichtern Tools wie Gemini 2.5 Pro die Lösung komplexer Probleme in verschiedenen Branchen. Es ist wahrscheinlich, dass wir eine noch breitere Akzeptanz von KI erleben werden, da immer mehr Unternehmen nach flexiblen, multimodalen Lösungen suchen, die ein breites Spektrum von Aufgaben bewältigen können, von visuellem Verständnis bis hin zur Sprachverarbeitung.
Werden Sie Teil unserer Community und erfahren Sie mehr über innovative KI-Projekte in unserem GitHub-Repository. Sehen Sie sich die Anwendungen von Vision AI in der Landwirtschaft und die Rolle von KI in der Fertigung auf unseren Lösungsseiten an. Entdecken Sie unsere Lizenzpläne und entwickeln Sie noch heute Computer-Vision-Lösungen!