Was ist YOLOE? Die Weiterentwicklung von Computer Vision Modellen

Abirami Vina

5 Minuten lesen

Mai 8, 2025

Erfahren Sie, wie Sie mit YOLOE Objekte anhand einer einfachen Eingabeaufforderung oder eines Fotos finden können. Es ermöglicht intelligentere, schnellere Computer Vision ohne erneutes Training oder Feinabstimmung der Modelle.

Die Objekterkennung ist eine zentrale Aufgabe der Computer Vision, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Sie ist ein wichtiger Teil der Computer Vision, einem Bereich der künstlichen Intelligenz (AI), der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren. So kann die Objekterkennung beispielsweise dabei helfen, ein Auto auf einem Bild zu identifizieren oder eine Person in einem Video zu erkennen.

Eine der bekanntesten Modellreihen zur Unterstützung von Computer-Vision-Aufgaben wie der Objekterkennung ist die YOLO-Modellreihe (You Only Look Once). Die YOLO-Modelle sind auf Schnelligkeit und Genauigkeit ausgelegt und wurden im Laufe der Zeit kontinuierlich verbessert. Eine der neuesten Versionen, Ultralytics YOLO11, schneidet beispielsweise in realen Situationen gut ab und liefert auch in komplexeren Umgebungen genaue Ergebnisse.

Ein neues Modell mit der Bezeichnung YOLOE soll die Fähigkeiten von YOLO-Modellen weiter ausbauen. Im Gegensatz zu herkömmlichen Modellen, die neu trainiert werden müssen, um neue Objekte zu erkennen, kann YOLOE einfachen Text- oder Bildaufforderungen folgen, um Objekte zu erkennen, die es zuvor noch nicht gesehen hat, wodurch es sich viel besser an veränderte Umgebungen anpassen kann.

In diesem Artikel werden wir einen genaueren Blick darauf werfen, was YOLOE einzigartig macht, wie es sich von früheren YOLO-Modellen unterscheidet und wie Sie es noch heute nutzen können. Legen wir los!

Ein Überblick über YOLOE

YOLOE ist ein Computer-Vision-Modell, das die Objekterkennung einen Schritt weiter bringt. Es wurde im März 2025 von Forschern der Tsinghua-Universität vorgestellt. Was YOLOE von herkömmlichen Modellen unterscheidet, ist die Verwendung eines offenen Vokabulars zur Erkennung. 

Während die meisten Modelle darauf trainiert sind, eine feste Liste von Objekten zu erkennen, können Sie bei YOLOE mit einer kurzen Beschreibung oder einem Beispielbild angeben, wonach gesucht werden soll. Wenn Sie zum Beispiel nach einem "grünen Rucksack" suchen, können Sie entweder diese Beschreibung eingeben oder dem Modell ein Foto zeigen, und YOLOE wird ihn in der Szene finden.

Darüber hinaus kann YOLOE auch ohne Aufforderung viele alltägliche Gegenstände selbstständig erkennen. Diese Fähigkeit, Objekte zu erkennen, die es noch nie zuvor gesehen hat, wird als Zero-Shot-Erkennung bezeichnet. Sie ist besonders nützlich in dynamischen Umgebungen, in denen sich die Aufgabe oder die Objekte von Interesse unerwartet ändern können.

Abbildung 1. Ein Blick auf die Fähigkeiten von YOLOE.

Hauptmerkmale von YOLOE

YOLOE unterstützt eine breite Palette von Funktionen, die seine Leistung in realen Anwendungen verbessern. Mit seiner Fähigkeit, sowohl strukturierte als auch unstrukturierte Eingaben zu verarbeiten, eröffnet YOLOE neue Möglichkeiten für die Objekterkennung und -segmentierung. 

Im Folgenden sind einige der wichtigsten Merkmale des Modells aufgeführt:

  • Aufforderungsbasierte Erkennung: YOLOE kann auf der Grundlage einer kurzen Textaufforderung oder eines Beispielbildes nach Objekten suchen. Das bedeutet, dass Sie das Modell nicht jedes Mal neu trainieren müssen, wenn sich Ihre Aufgabe ändert; beschreiben oder zeigen Sie dem Modell einfach, wonach Sie suchen.
  • Segmentierung der Instanz: Zusätzlich zum Zeichnen von Begrenzungsrahmen um Objekte kann YOLOE deren genaue Form mit Hilfe der Instanzsegmentierung umreißen. Dies ist besonders hilfreich, wenn sich Objekte überlappen oder wenn Sie die genauen Grenzen eines Objekts kennen müssen.
  • Aufforderungsfreie Objekterkennung: YOLOE kann Objekte auch ohne spezifische Anweisungen erkennen. Es verwendet eine Reihe von vorgelernten Beschreibungen, um Objekte schnell zu identifizieren, wodurch der Prozess schneller und effizienter wird.

Vergleich von YOLOE mit anderen YOLO-Modellen

Nachdem wir nun besser verstanden haben, was YOLOE ist, wollen wir uns einige ähnliche Modelle aus der YOLO-Familie ansehen. 

Mit den Fortschritten der Computer Vision haben sich auch die YOLO-Modelle weiterentwickelt. Ultralytics YOLOv8 unterstützte beispielsweise neue Aufgaben wie Segmentierung und Klassifizierung, während sich spätere Versionen wie Ultralytics YOLO11 auf die Verbesserung der Genauigkeit und Leistung für eine breitere Palette von Aufgaben konzentrierten.

YOLO-World wurde im Januar 2024 veröffentlicht und führte die Möglichkeit ein, schriftliche Eingabeaufforderungen zu verwenden, bei denen die Benutzer die Objekte beschreiben können, die sie finden wollen. YOLO-World war zwar eine großartige Option für die Zero-Shot-Erkennung, aber es fehlten Funktionen wie die Segmentierung von Instanzen und die Unterstützung visueller Eingabeaufforderungen. 

YOLOE baut auf YOLO-World auf, indem es diese Fähigkeiten hinzufügt, die Flexibilität und Leistung verbessert und ein effektiveres Werkzeug für reale Computer-Vision-Anwendungen bietet.

Abb. 2. YOLO-World und YOLOE unterstützen beide die Erkennung von Nullschüssen.

Verwendung von YOLOE mit dem Ultralytics-Python-Paket

Ganz gleich, ob Sie bestimmte Objekte erkennen oder alles in einem Bild untersuchen möchten, der Einstieg in YOLOE ist einfach. Dieses Modell wird vom Ultralytics-Python-Paket unterstützt und lässt sich daher leicht in Ihre Projekte integrieren. Als Nächstes gehen wir durch, wie es zu verwenden ist.

Installieren des Ultralytics-Pakets

Der erste Schritt besteht darin, das Ultralytics-Python-Paket mit einem Paketmanager wie "pip" zu installieren. Sie können dies tun, indem Sie den Befehl "pip install ultralytics" in Ihrem Terminal oder in der Eingabeaufforderung ausführen.

Sobald das Paket installiert ist, haben Sie alles, was Sie brauchen, um das Modell zu laden, Vorhersagen zu treffen und mit verschiedenen Erkennungsmodi zu experimentieren. Sollten Sie während der Installation auf Probleme stoßen, finden Sie in der offiziellen Ultralytics-Dokumentation einen hilfreichen Abschnitt zur Fehlerbehebung

Es gibt verschiedene Möglichkeiten, YOLOE zur Durchführung von Vorhersagen zu verwenden. Die Durchführung von Vorhersagen bedeutet die Verwendung des trainierten Modells zur Identifizierung und Lokalisierung von Objekten in Bildern oder Videos. Diese verschiedenen Methoden ermöglichen es Ihnen, die Interaktion mit dem Modell an Ihre spezifischen Bedürfnisse anzupassen.

Lassen Sie uns jede dieser Methoden einzeln besprechen.

Erkennen bestimmter Objekte mit Text- oder Bildhinweisen

YOLOE kann Objekte anhand einer kurzen Textbeschreibung erkennen. Wenn Sie zum Beispiel nach einem Pferd in Bewegung suchen, können Sie eine Eingabeaufforderung wie "Pferd läuft" verwenden.

Um loszulegen, laden Sie zunächst das vortrainierte YOLOE-Modell und legen Sie Ihre Eingabeaufforderung (die Beschreibung dessen, wonach das Modell suchen soll) wie im folgenden Codeschnipsel gezeigt fest.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Sobald das Modell und die Eingabeaufforderung eingestellt sind, können Sie das Modell auf einem Bild oder Video ausführen. Ersetzen Sie den Dateipfad im Code durch den Pfad zu Ihrer Bild- oder Videodatei:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Daraufhin wird das Bild mit dem erkannten Objekt entsprechend Ihrer Eingabeaufforderung deutlich markiert angezeigt. Sie können die Eingabeaufforderung ändern, um nach verschiedenen Objekten zu suchen, z. B. "roter Koffer", "Fahrrad" oder "Zebra", je nachdem, wonach Sie suchen.

Abb. 3. Ein Beispiel für die Verwendung von YOLOE zur Erkennung bestimmter Objekte anhand einer Texteingabeaufforderung.

In ähnlicher Weise können Sie ein Bild verwenden, um YOLOE mit dem Ultralytics Python-Paket aufzufordern. Im visuellen Prompt-Modus verwendet das Modell das Bild, um ähnlich aussehende Objekte in einer anderen Szene zu finden. Dies ist besonders nützlich für Objekte, die schwer zu beschreiben sind oder keine eindeutigen Bezeichnungen haben. 

Um den Code hierfür genauer zu untersuchen, können Sie die Ultralytics-Dokumentation einsehen.

Allgemeine Objekterkennung mit YOLOE

In manchen Fällen wissen Sie vielleicht nicht genau, wonach Sie suchen sollen, oder Sie suchen nicht nach einem bestimmten Objekt. In diesem Fall ist der Modus "Ohne Eingabeaufforderung" sehr nützlich. 

Bei dieser Option brauchen Sie keine Beschreibung einzugeben oder ein Beispielbild zu liefern. YOLOE analysiert die Bilder einfach selbständig und erkennt alles, was es erkennen kann, wie z. B. Menschen, Tiere, Möbel oder Alltagsgegenstände.

Dies ist eine hilfreiche Methode, um eine Szene zu erkunden, ohne dem Modell spezifische Anweisungen zu geben. Ganz gleich, ob Sie einen überfüllten Raum scannen oder Aufnahmen mit viel Aktivität überprüfen, der Modus "Ohne Eingabeaufforderung" gibt Ihnen einen schnellen Überblick über die Inhalte eines Bildes. 

Sie können den folgenden Code verwenden, um YOLOE im prompt-free-Modus auszuführen. Zuerst wird das Modell geladen, dann wird das Bild verarbeitet und die Objekte darin automatisch erkannt. Schließlich werden die Ergebnisse angezeigt und die erkannten Objekte hervorgehoben. 

Achten Sie darauf, dass Sie den Dateipfad durch den tatsächlichen Pfad zu Ihrem Bild ersetzen.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Das unten gezeigte Bild ist ein Beispiel dafür, was YOLOE im prompt-free-Modus erkennen kann.

Abb. 4. Verwendung von YOLOE im prompt-free Modus.

Echtzeit-Anwendungen von YOLOE

Die Fähigkeit von YOLOE, sowohl auf Text- als auch auf Bildaufforderungen zu reagieren, macht es zu einem zuverlässigen Werkzeug für Echtzeitanwendungen. Seine Flexibilität ist besonders nützlich in schnelllebigen Umgebungen, in denen Timing und Genauigkeit entscheidend sind. 

Schauen wir uns einige Beispiele aus der Praxis an, wie YOLOE eingesetzt werden kann.

Verbesserung der Gepäckabfertigung: Gepäckerkennung in Echtzeit

Auf belebten Flughäfen kann das Auffinden bestimmter Gepäckstücke eine Herausforderung sein, insbesondere wenn es sich um vermisste Koffer handelt. YOLOE kann diesen Prozess durch das Scannen von Live-Videos und die schnelle Identifizierung von Gegenständen auf der Grundlage einfacher Aufforderungen wie "rote Tasche" rationalisieren. 

Wenn ein Gepäckstück fehlt oder verlegt wurde, kann das Personal die Eingabeaufforderung leicht ändern und nach einem anderen Gegenstand suchen, z. B. einem "schwarzen Koffer". Diese Fähigkeit zur sofortigen Anpassung kann dem Flughafenpersonal helfen, schnell das richtige Gepäckstück zu finden, ohne stundenlanges Filmmaterial zu sichten oder das Modell neu zu trainieren, was die Gepäckabfertigung und die Lösung von Problemen mit fehlendem Gepäck viel schneller und effizienter macht.

Überwachung öffentlicher Räume mit YOLOE

Überwachungsaufnahmen von öffentlichen Plätzen, wie z. B. belebten Märkten und Cafés, enthalten oft eine Mischung aus Personen, Objekten und Aktivitäten, die sich im Laufe des Tages ändern. YOLOE kann dieses Filmmaterial in Echtzeit analysieren und erkennt dabei automatisch Gegenstände wie Taschen, Tische oder Fahrräder, ohne dass spezifische Anweisungen erforderlich sind.

Abb. 5. YOLOE kann verschiedene Objekte in einem belebten öffentlichen Raum erkennen.

Dies ist besonders nützlich für Sicherheitsteams, um unbeaufsichtigte Gegenstände zu erkennen oder die Bewegung von Menschenmengen zu verfolgen. Die Fähigkeit von YOLOE, mehrere Objekte gleichzeitig zu erkennen, erleichtert die Verwaltung öffentlicher Räume bei Veranstaltungen oder in Stoßzeiten und hilft den Teams, informiert und reaktionsfähig zu bleiben.

Vor- und Nachteile von YOLOE

Hier sind einige der wichtigsten Vorteile der Verwendung von YOLOE für Computer Vision Anwendungen:

  • Leistung in Echtzeit: YOLOE ist für eine schnelle und effiziente Verarbeitung optimiert und ermöglicht eine Erkennung in Echtzeit, selbst in dynamischen Umgebungen wie Live-Videostreams oder belebten öffentlichen Plätzen.
  • Skalierbarkeit: YOLOE ist skalierbar und eignet sich für eine Vielzahl von Anwendungen, von Sicherheit und Überwachung bis hin zu Einzelhandel, Gesundheitswesen und autonomen Fahrzeugen.
  • Einfach zu verwenden: Da YOLOE vom Ultralytics Python-Paket unterstützt wird, lässt es sich leicht in Ihre bestehenden Computer-Vision-Projekte integrieren.

Bei der Nutzung von YOLOE gibt es jedoch einige Einschränkungen zu beachten. Hier sind ein paar Faktoren, die Sie berücksichtigen sollten:

  • Erfordert ausreichende Trainingsdaten: Obwohl YOLOE die Zero-Shot-Erkennung unterstützt, hängt seine Leistung bei ungesehenen Objekten davon ab, wie gut es aus seinen Trainingsdaten verallgemeinert. In einigen Fällen kann es zusätzliche Daten oder eine Feinabstimmung benötigen, um bei hochspezialisierten Aufgaben gut abzuschneiden.
  • Empfindlich gegenüber der Eingabequalität: Die Genauigkeit des Modells kann durch minderwertige Bilder oder Videos beeinträchtigt werden. Unscharfe oder schlecht beleuchtete Eingaben können die Fähigkeit des Modells beeinträchtigen, Objekte genau zu erkennen.

Die wichtigsten Erkenntnisse

YOLOE bringt mehr Flexibilität in die Computer Vision, indem es dem Benutzer erlaubt, die Erkennung mit Text- oder Bildaufforderungen zu steuern. Es funktioniert gut in realen Situationen, in denen sich Szenen schnell ändern und ein erneutes Training nicht möglich ist.

Von der Gepäckabfertigung bis zur Überwachung des öffentlichen Raums passt sich YOLOE problemlos an neue Aufgaben an. Da KI immer zugänglicher wird, helfen Modelle wie YOLOE mehr Branchen dabei, Bildverarbeitungstechnologie auf praktische und effiziente Weise zu nutzen.

Werden Sie Mitglied unserer Community und erkunden Sie unser GitHub-Repository, um mehr über KI-Innovationen zu erfahren. Entdecken Sie die neuesten Fortschritte in Bereichen wie KI im Einzelhandel und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen und starten Sie noch heute mit Computer Vision!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert