Was ist YOLOE? Die Weiterentwicklung von Computer Vision Modellen

Erfahre, wie du mit YOLOE Objekte anhand einer einfachen Eingabeaufforderung oder eines Fotos finden kannst. Es ermöglicht eine intelligentere und schnellere Computer Vision, ohne dass die Modelle neu trainiert oder angepasst werden müssen.

Geschrieben von

Abirami Vina

min lesen

Mai 8, 2025

Ein Überblick über YOLOE

Die wichtigsten Merkmale von YOLOE

Vergleich von YOLOE mit anderen YOLO

YOLOE mit dem Ultralytics Python verwenden

Installation des Ultralytics

Erkennen bestimmter Objekte mit Text- oder Bildaufforderungen

Allgemeine Objekterkennung mit YOLOE

Echtzeit-Anwendungen von YOLOE

Verbesserung der Gepäckabfertigung: Gepäckerkennung in Echtzeit

Überwachung öffentlicher Räume mit YOLOE

Vor- und Nachteile von YOLOE

Die wichtigsten Erkenntnisse

Die Objekterkennung ist eine wichtige Aufgabe der Computer Vision, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Sie ist ein wichtiger Teil der Computer Vision, einem Bereich der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren. Die Objekterkennung kann zum Beispiel dabei helfen, ein Auto auf einem Bild zu identifizieren oder eine Person in einem Video zu erkennen.

Eine der bekanntesten Modellreihen, die Computer-Vision-Aufgaben wie die Objekterkennung unterstützen, ist die YOLO (You Only Look Once). Die YOLO sind auf Schnelligkeit und Genauigkeit ausgelegt und wurden im Laufe der Zeit kontinuierlich verbessert. Zum Beispiel eine der neuesten Versionen, Ultralytics YOLO11hat sich in der Praxis bewährt und liefert auch in komplexeren Umgebungen genaue Ergebnisse.

Ein neues Modell namens YOLOE soll die Fähigkeiten von YOLO weiter ausbauen. Anders als herkömmliche Modelle, die neu trainiert werden müssen, um neue Objekte zu erkennen, kann YOLOE einfachen Text- oder Bildaufforderungen folgen, um Objekte zu erkennen, die es vorher noch nicht gesehen hat, was es viel anpassungsfähiger an veränderte Umgebungen macht.

In diesem Artikel werfen wir einen genaueren Blick darauf, was YOLOE einzigartig macht, wie es sich von früheren YOLO unterscheidet und wie du es noch heute nutzen kannst. Los geht's!

Ein Überblick über YOLOE

YOLOE ist ein Computer Vision Modell, das die Objekterkennung einen Schritt weiter bringt. Es wurde im März 2025 von Forschern der Tsinghua Universität vorgestellt. Was YOLOE von herkömmlichen Modellen unterscheidet, ist die Verwendung eines offenen Vokabulars zur Erkennung.

Während die meisten Modelle darauf trainiert sind, eine feste Liste von Objekten zu erkennen, kannst du bei YOLOE mit einer kurzen Beschreibung oder einem Beispielbild angeben, wonach gesucht werden soll. Wenn du z. B. nach einem "grünen Rucksack" suchst, kannst du entweder diese Beschreibung eingeben oder dem Modell ein Foto zeigen, und YOLOE wird ihn in der Szene finden.

Außerdem kann YOLOE auch ohne Aufforderung viele alltägliche Gegenstände selbständig erkennen. Diese Fähigkeit, Objekte zu erkennen, die sie noch nie zuvor gesehen hat, nennt man Zero-Shot Detection. Sie ist besonders nützlich in dynamischen Umgebungen, in denen sich die Aufgabe oder die Objekte von Interesse unerwartet ändern können.

Abb. 1. Ein Blick auf die Fähigkeiten von YOLOE.

‍

Die wichtigsten Merkmale von YOLOE

YOLOE unterstützt eine breite Palette von Funktionen, die seine Leistung in realen Anwendungen verbessern. Mit seiner Fähigkeit, sowohl strukturierte als auch unstrukturierte Eingaben zu verarbeiten, eröffnet YOLOE neue Möglichkeiten für die Objekterkennung und -segmentierung.

Hier sind einige der wichtigsten Merkmale, die das Modell mitbringt:

Aufforderungsbasierte Erkennung: YOLOE kann anhand einer kurzen Textaufforderung oder eines Beispielbildes nach Objekten suchen. Das bedeutet, dass du das Modell nicht jedes Mal neu trainieren musst, wenn sich deine Aufgabe ändert; beschreibe oder zeige dem Modell einfach, wonach du suchst.
‍
Segmentierung der Instanz: YOLOE kann nicht nur Boundingboxen um Objekte zeichnen, sondern auch ihre genaue Form mithilfe der Instanzsegmentierung umreißen. Das ist besonders hilfreich, wenn sich Objekte überlappen oder wenn du die genauen Grenzen eines Objekts kennen musst.
‍
Aufforderungsfreie Objekterkennung: YOLOE kann Objekte auch ohne spezifische Anweisungen erkennen. Es verwendet eine Reihe von vorgelernten Beschreibungen, um Objekte schnell zu erkennen, wodurch der Prozess schneller und effizienter wird.

Vergleich von YOLOE mit anderen YOLO

Jetzt, wo wir besser verstehen, was YOLOE ist, wollen wir uns einige ähnliche Modelle aus der YOLO ansehen.

Mit den Fortschritten der Computer Vision haben sich auch die YOLO weiterentwickelt. Zum Beispiel, Ultralytics YOLOv8 neue Aufgaben wie Segmentierung und Klassifizierung, während sich spätere Versionen wie Ultralytics YOLO11 darauf konzentriert haben, die Genauigkeit und Leistung für ein breiteres Spektrum von Aufgaben zu verbessern.

Außerdem wurde YOLO im Januar 2024 veröffentlicht und führte die Möglichkeit ein, schriftliche Eingabeaufforderungen zu verwenden, mit denen die Nutzer/innen die Objekte beschreiben konnten, die sie finden wollten. YOLO war zwar eine großartige Option für die Zero-Shot-Erkennung, aber es fehlten Funktionen wie die Segmentierung von Instanzen und die Unterstützung visueller Aufforderungen.

YOLOE baut auf YOLO auf, indem es diese Fähigkeiten hinzufügt, die Flexibilität und Leistung verbessert und ein effektiveres Werkzeug für reale Computer Vision Anwendungen bietet.

Abb. 2. YOLO und YOLOE unterstützen beide die Erkennung von Nullschüssen.

‍

YOLOE mit dem Ultralytics Python verwenden

Egal, ob du bestimmte Objekte erkennen oder alles in einem Bild untersuchen willst, der Einstieg in YOLOE ist einfach. Dieses Modell wird vom Ultralytics Python unterstützt und lässt sich so leicht in deine Projekte integrieren. Als Nächstes erklären wir dir, wie du es verwenden kannst.

Installation des Ultralytics

Der erste Schritt besteht darin, das Ultralytics Python mit einem Paketmanager wie "pip" zu installieren. Du kannst dies tun, indem du den Befehl "pip install ultralytics" in deinem Terminal oder in der Eingabeaufforderung ausführst.

Sobald das Paket installiert ist, hast du alles, was du brauchst, um das Modell zu laden, Vorhersagen zu treffen und mit verschiedenen Erkennungsmodi zu experimentieren. Solltest du während der Installation auf Probleme stoßen, findest du in der offiziellen Ultralytics einen hilfreichen Abschnitt zur Fehlerbehebung.

Es gibt verschiedene Möglichkeiten, YOLOE für Vorhersagen zu nutzen. Vorhersagen machen bedeutet, das trainierte Modell zu verwenden, um Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Mit diesen verschiedenen Methoden kannst du die Art und Weise, wie du mit dem Modell interagierst, an deine spezifischen Bedürfnisse anpassen.

Lass uns jede dieser Methoden einzeln besprechen.

Erkennen bestimmter Objekte mit Text- oder Bildaufforderungen

YOLOE kann Objekte anhand einer kurzen Textbeschreibung erkennen. Wenn du zum Beispiel nach einem Pferd in Bewegung suchst, kannst du eine Aufforderung wie "Pferd läuft" verwenden.

Um loszulegen, lädst du zunächst das vortrainierte YOLOE-Modell und gibst deinen Prompt ein (die Beschreibung dessen, wonach das Modell suchen soll), wie im folgenden Codeschnipsel gezeigt.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

‍

Sobald das Modell und die Eingabeaufforderung eingestellt sind, kannst du das Modell mit einem Bild oder Video ausführen. Ersetze den Dateipfad im Code durch den Pfad zu deiner Bild- oder Videodatei:

results = model.predict("path/to/your/image.jpg")
results[0].show()

‍

Daraufhin wird das Bild mit dem erkannten Objekt entsprechend deiner Eingabeaufforderung deutlich markiert. Du kannst die Eingabeaufforderung ändern, um nach verschiedenen Objekten zu suchen, z. B. "roter Koffer", "Fahrrad" oder "Zebra", je nachdem, wonach du suchst.

Abb. 3. Ein Beispiel für die Verwendung von YOLOE zur Erkennung bestimmter Objekte mithilfe einer Textaufforderung.

‍

Ebenso kannst du ein Bild verwenden, um YOLOE mit dem Ultralytics Python abzufragen. Im visuellen Prompt-Modus verwendet das Modell das Bild, um ähnlich aussehende Objekte in einer anderen Szene zu finden. Das ist besonders nützlich für Objekte, die schwer zu beschreiben sind oder keine eindeutigen Bezeichnungen haben.

Um den Code dafür genauer zu erforschen, kannst du dir die Ultralytics ansehen.

Allgemeine Objekterkennung mit YOLOE

In manchen Fällen weißt du vielleicht nicht genau, wonach du suchen sollst, oder du suchst nicht nach einem bestimmten Objekt. Hier kommt der Modus ohne Eingabeaufforderung ins Spiel.

Bei dieser Option musst du keine Beschreibung eingeben oder ein Beispielbild bereitstellen. YOLOE analysiert die Bilder einfach selbstständig und erkennt alles, was es erkennen kann, wie Menschen, Tiere, Möbel oder Alltagsgegenstände.

Er ist eine hilfreiche Methode, um eine Szene zu erkunden, ohne dem Modell bestimmte Anweisungen zu geben. Ganz gleich, ob du einen überfüllten Raum durchsuchst oder Aufnahmen mit viel Aktivität untersuchst, der Modus "Ohne Eingabeaufforderung" gibt dir einen schnellen Überblick darüber, was in einem Bild vorhanden ist.

Du kannst den folgenden Code verwenden, um YOLOE im prompt-free Modus auszuführen. Zuerst wird das Modell geladen, dann wird das Bild verarbeitet und die Objekte darin werden automatisch erkannt. Zum Schluss werden die Ergebnisse angezeigt und die erkannten Objekte hervorgehoben.

Achte darauf, dass du den Dateipfad durch den tatsächlichen Pfad zu deinem Bild ersetzt.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

‍

Das unten gezeigte Bild ist ein Beispiel dafür, was YOLOE im Prompt-Free-Modus erkennen kann.

Abb. 4. Verwendung von YOLOE im prompt-free Modus.

‍

Echtzeit-Anwendungen von YOLOE

Die Fähigkeit von YOLOE, sowohl auf Text- als auch auf Bildanweisungen zu reagieren, macht es zu einem zuverlässigen Werkzeug für Echtzeitanwendungen. Seine Flexibilität ist besonders nützlich in schnelllebigen Umgebungen, in denen Timing und Genauigkeit entscheidend sind.

Sehen wir uns einige Beispiele aus der Praxis an, wie YOLOE eingesetzt werden kann.

Verbesserung der Gepäckabfertigung: Gepäckerkennung in Echtzeit

Auf belebten Flughäfen kann es schwierig sein, ein bestimmtes Gepäckstück zu finden, vor allem, wenn es sich um vermisste Koffer handelt. YOLOE kann diesen Prozess durch das Scannen von Live-Videos und die schnelle Identifizierung von Gegenständen anhand von einfachen Aufforderungen wie "rote Tasche" vereinfachen.

Wenn ein Gepäckstück fehlt oder verlegt wurde, kann das Personal die Eingabeaufforderung leicht ändern und nach einem anderen Gegenstand suchen, z. B. einem "schwarzen Koffer". Diese Fähigkeit zur sofortigen Anpassung kann dem Flughafenpersonal helfen, das richtige Gepäckstück schnell zu finden, ohne stundenlanges Filmmaterial zu sichten oder das Modell neu zu trainieren, was die Gepäckabfertigung und die Lösung von Problemen mit fehlendem Gepäck viel schneller und effizienter macht.

Überwachung öffentlicher Räume mit YOLOE

Das Überwachungsmaterial von öffentlichen Plätzen wie belebten Märkten und Cafés enthält oft eine Mischung aus Menschen, Gegenständen und Aktivitäten, die sich im Laufe des Tages ändern. YOLOE kann dieses Filmmaterial in Echtzeit analysieren und erkennt automatisch Gegenstände wie Taschen, Tische oder Fahrräder, ohne dass du spezielle Anweisungen benötigst.

Abb. 5. YOLOE kann verschiedene Objekte in einem belebten öffentlichen Raum erkennen.

‍

Das ist besonders nützlich für Sicherheitsteams, um unbeaufsichtigte Gegenstände zu erkennen oder die Bewegung von Menschenmengen zu verfolgen. Die Fähigkeit von YOLOE, mehrere Objekte gleichzeitig zu erkennen, macht es einfacher, öffentliche Räume bei Veranstaltungen oder in Stoßzeiten zu überwachen, und hilft den Teams, informiert und reaktionsfähig zu bleiben.

Vor- und Nachteile von YOLOE

Hier sind einige der wichtigsten Vorteile der Verwendung von YOLOE für Computer Vision Anwendungen:

Leistung in Echtzeit: YOLOE ist für eine schnelle und effiziente Verarbeitung optimiert und ermöglicht eine Erkennung in Echtzeit, selbst in dynamischen Umgebungen wie Live-Videostreams oder belebten öffentlichen Plätzen.
‍
Skalierbarkeit: YOLOE ist skalierbar und eignet sich für eine Vielzahl von Anwendungen, von Sicherheit und Überwachung bis hin zu Einzelhandel, Gesundheitswesen und autonomen Fahrzeugen.
‍
Einfach zu benutzen: Da YOLOE vom Ultralytics Python unterstützt wird, lässt es sich leicht in deine bestehenden Computer Vision Projekte integrieren.

Bei der Nutzung von YOLOE gibt es jedoch ein paar Einschränkungen zu beachten. Hier sind ein paar Faktoren, die du beachten solltest:

Erfordert ausreichend Trainingsdaten: Obwohl YOLOE die Erkennung von Nullschüssen unterstützt, hängt seine Leistung bei ungesehenen Objekten davon ab, wie gut es aus seinen Trainingsdaten verallgemeinert. In einigen Fällen kann es zusätzliche Daten oder eine Feinabstimmung benötigen, um bei hochspezialisierten Aufgaben gut abzuschneiden.
‍
Empfindlich gegenüber der Eingabequalität: Die Genauigkeit des Modells kann durch schlechte Bild- oder Videoqualität beeinträchtigt werden. Unscharfe oder schlecht beleuchtete Eingaben können die Fähigkeit des Modells beeinträchtigen, Objekte genau zu erkennen.

Die wichtigsten Erkenntnisse

YOLOE bringt mehr Flexibilität in die Computer Vision, indem es dem Benutzer erlaubt, die Erkennung mit Text- oder Bildaufforderungen zu steuern. Es funktioniert gut in realen Situationen, in denen sich Szenen schnell ändern und ein erneutes Training nicht möglich ist.

Von der Gepäckabfertigung bis zur Überwachung des öffentlichen Raums passt sich YOLOE mühelos an neue Aufgaben an. Da KI immer zugänglicher wird, helfen Modelle wie YOLOE mehr Branchen dabei, die Bildverarbeitungstechnologie auf praktische und effiziente Weise zu nutzen.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über KI-Innovationen zu erfahren. Entdecke die neuesten Fortschritte in Bereichen wie KI im Einzelhandel und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an und fang noch heute mit Computer Vision an!

Was ist YOLOE? Die Weiterentwicklung von Computer Vision Modellen

Ein Überblick über YOLOE

Die wichtigsten Merkmale von YOLOE

Vergleich von YOLOE mit anderen YOLO

YOLOE mit dem Ultralytics Python verwenden

Installation des Ultralytics

Erkennen bestimmter Objekte mit Text- oder Bildaufforderungen

Allgemeine Objekterkennung mit YOLOE

Echtzeit-Anwendungen von YOLOE

Verbesserung der Gepäckabfertigung: Gepäckerkennung in Echtzeit

Überwachung öffentlicher Räume mit YOLOE

Vor- und Nachteile von YOLOE

Die wichtigsten Erkenntnisse

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Was ist YOLOE? Die Weiterentwicklung von Computer Vision Modellen

Ein Überblick über YOLOE

Die wichtigsten Merkmale von YOLOE

Vergleich von YOLOE mit anderen YOLO

YOLOE mit dem Ultralytics Python verwenden

Installation des Ultralytics

Erkennen bestimmter Objekte mit Text- oder Bildaufforderungen

Allgemeine Objekterkennung mit YOLOE

Echtzeit-Anwendungen von YOLOE

Verbesserung der Gepäckabfertigung: Gepäckerkennung in Echtzeit

Überwachung öffentlicher Räume mit YOLOE

Vor- und Nachteile von YOLOE

Die wichtigsten Erkenntnisse

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft der KI gestalten!

Lass uns gemeinsam die Zukunft
der KI gestalten!