Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Was ist YOLOE? Computervision-Modelle weiterentwickeln

Abirami Vina

5 Min. Lesezeit

8. Mai 2025

Erfahren Sie, wie Sie mit YOLOE Objekte mithilfe einer einfachen Eingabeaufforderung oder eines Fotos finden können. Es ermöglicht eine intelligentere, schnellere Computer Vision ohne Retraining oder Feinabstimmung von Modellen.

Objekterkennung ist eine zentrale Aufgabe der Computer Vision, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Sie ist ein wichtiger Bestandteil der Computer Vision, einem Bereich der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren. So kann die Objekterkennung beispielsweise helfen, ein Auto auf einem Bild zu identifizieren oder eine Person in einem Video zu erkennen.

Eine der bekanntesten Modellreihen, die Computer-Vision-Aufgaben wie die Objekterkennung unterstützen, ist die YOLO-Modellreihe (You Only Look Once). Die YOLO-Modelle sind auf Geschwindigkeit und Genauigkeit ausgelegt und wurden im Laufe der Zeit kontinuierlich verbessert. Beispielsweise schneidet eine der neuesten Versionen, Ultralytics YOLO11, in realen Situationen gut ab und liefert auch in komplexeren Umgebungen genaue Ergebnisse.

Um diesen Fortschritt weiter voranzutreiben, zielt ein neues Modell namens YOLOE darauf ab, die Fähigkeiten von YOLO-Modellen zu erweitern. Im Gegensatz zu traditionellen Modellen, die ein erneutes Training benötigen, um neue Objekte zu erkennen, kann YOLOE einfachen Text- oder Bildaufforderungen folgen, um Objekte zu erkennen, die es noch nicht gesehen hat, wodurch es sich viel besser an veränderte Umgebungen anpassen kann.

In diesem Artikel werden wir uns genauer ansehen, was YOLOE einzigartig macht, wie es sich mit früheren YOLO-Modellen vergleicht und wie Sie es noch heute verwenden können. Los geht's!

Ein Überblick über YOLOE

YOLOE ist ein Computer-Vision-Modell, das die Objekterkennung noch einen Schritt weiterführt. Es wurde im März 2025 von Forschern der Tsinghua University vorgestellt. Was YOLOE von traditionellen Modellen unterscheidet, ist die Verwendung der Open-Vocabulary-Erkennung. 

Während die meisten Modelle darauf trainiert sind, eine feste Liste von Objekten zu erkennen, ermöglicht YOLOE Ihnen, anhand einer kurzen Beschreibung oder eines Beispielbilds anzugeben, wonach Sie suchen. Wenn Sie beispielsweise nach einem „grünen Rucksack“ suchen, können Sie entweder diese Beschreibung eingeben oder dem Modell ein Foto zeigen, und YOLOE wird ihn in der Szene lokalisieren.

Darüber hinaus kann YOLOE auch ohne Prompt viele Alltagsgegenstände selbstständig erkennen. Diese Fähigkeit, Objekte zu erkennen, die es noch nie zuvor gesehen hat, wird als Zero-Shot-Detection bezeichnet. Sie ist besonders nützlich in dynamischen Umgebungen, in denen sich die Aufgabe oder die Objekte von Interesse unerwartet ändern können.

Abb. 1. Eine Darstellung der Fähigkeiten von YOLOE.

Hauptmerkmale von YOLOE

YOLOE unterstützt eine breite Palette von Funktionen, die entwickelt wurden, um seine Leistung in realen Anwendungen zu verbessern. Mit seiner Fähigkeit, sowohl strukturierte als auch unstrukturierte Eingaben zu verarbeiten, eröffnet YOLOE neue Möglichkeiten für die Objekterkennung und -segmentierung. 

Hier sind einige der wichtigsten Eigenschaften, die das Modell mit sich bringt:

  • Prompt-basierte Erkennung: YOLOE kann nach Objekten suchen, die auf einer kurzen Textaufforderung oder einem Beispielbild basieren. Das bedeutet, dass Sie das Modell nicht jedes Mal neu trainieren müssen, wenn sich Ihre Aufgabe ändert; beschreiben oder zeigen Sie dem Modell einfach, wonach Sie suchen.
  • Instanzsegmentierung: Zusätzlich zum Zeichnen von Begrenzungsrahmen um Objekte kann YOLOE mithilfe der Instanzsegmentierung ihre genaue Form umreißen. Dies ist besonders hilfreich, wenn sich Objekte überlappen oder wenn Sie die genauen Grenzen eines Objekts kennen müssen.
  • Promptfreie Objekterkennung: YOLOE kann Objekte auch ohne spezifische Anweisungen erkennen. Es verwendet eine Reihe von vorab gelernten Beschreibungen, um Objekte schnell zu identifizieren, was den Prozess schneller und effizienter macht.

Vergleich von YOLOE mit anderen YOLO-Modellen

Nachdem wir nun ein besseres Verständnis dafür haben, was YOLOE ist, wollen wir uns einige der Modelle in der YOLO-Familie ansehen, die ähnlich sind. 

Mit dem Fortschritt von Computer Vision haben sich auch die YOLO-Modelle weiterentwickelt. So brachte Ultralytics YOLOv8 Unterstützung für neue Aufgaben wie Segmentierung und Klassifizierung, während sich spätere Versionen wie Ultralytics YOLO11 auf die Verbesserung der Genauigkeit und Leistung für ein breiteres Aufgabenspektrum konzentrierten.

Außerdem wurde im Januar 2024 YOLO-World veröffentlicht, das die Möglichkeit einführte, schriftliche Anfragen zu verwenden, sodass Benutzer die Objekte beschreiben können, die sie finden möchten. Obwohl YOLO-World eine großartige Option für die Zero-Shot-Erkennung war, fehlten ihm Funktionen wie Instanzsegmentierung und visuelle Prompt-Unterstützung. 

YOLOE baut auf YOLO-World auf, indem es diese Fähigkeiten hinzufügt, die Flexibilität und Leistung verbessert und ein wirkungsvolleres Werkzeug für reale Computer-Vision-Anwendungen bietet.

Abb. 2. YOLO-World und YOLOE unterstützen beide Zero-Shot-Detection.

Verwendung von YOLOE mit dem Ultralytics Python-Paket

Ob Sie nun bestimmte Objekte erkennen oder alles in einem Bild erkunden möchten, der Einstieg in YOLOE ist einfach. Dieses Modell wird vom Ultralytics Python-Paket unterstützt, wodurch es einfach in Ihre Projekte integriert werden kann. Lassen Sie uns als Nächstes durchgehen, wie man es benutzt.

Installation des Ultralytics-Pakets

Der erste Schritt ist die Installation des Ultralytics Python-Pakets mit einem Paketmanager wie ‘pip’. Sie können dies tun, indem Sie den Befehl “pip install ultralytics” in Ihrem Terminal oder Ihrer Eingabeaufforderung ausführen.

Sobald das Paket installiert ist, haben Sie alles, was Sie zum Laden des Modells, zum Treffen von Vorhersagen und zum Experimentieren mit verschiedenen Erkennungsmodi benötigen. Sollten während der Installation Probleme auftreten, bietet die offizielle Ultralytics-Dokumentation einen hilfreichen Abschnitt zur Fehlerbehebung

Es gibt ein paar verschiedene Möglichkeiten, YOLOE zum Ausführen von Vorhersagen zu verwenden. Das Ausführen von Vorhersagen bedeutet, das trainierte Modell zu verwenden, um Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Diese verschiedenen Methoden ermöglichen es Ihnen, die Interaktion mit dem Modell basierend auf Ihren spezifischen Bedürfnissen anzupassen.

Lassen Sie uns jede dieser Methoden einzeln besprechen.

Erkennung bestimmter Objekte mit Text- oder Bildaufforderungen

YOLOE kann Objekte anhand einer kurzen Textbeschreibung erkennen. Wenn Sie beispielsweise ein Pferd in Bewegung suchen, können Sie eine Eingabeaufforderung wie "Pferd geht" verwenden.

Laden Sie zunächst das vortrainierte YOLOE-Modell und legen Sie Ihren Prompt fest (die Beschreibung dessen, wonach das Modell suchen soll), wie im Code-Snippet unten gezeigt.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Sobald Ihr Modell und Ihr Prompt festgelegt sind, können Sie das Modell auf einem Bild oder Video ausführen. Ersetzen Sie den Dateipfad im Code durch den Pfad zu Ihrer Bild- oder Videodatei:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Dadurch wird das Bild mit dem erkannten Objekt deutlich markiert basierend auf Ihrem Prompt angezeigt. Sie können den Prompt ändern, um nach verschiedenen Objekten zu suchen, z. B. "roter Koffer", "Fahrrad" oder "Zebra", je nachdem, wonach Sie suchen.

Abb. 3. Ein Beispiel für die Verwendung von YOLOE zur Erkennung bestimmter Objekte anhand einer Texteingabe.

Ebenso können Sie ein Bild verwenden, um YOLOE mit dem Ultralytics Python-Paket zu prompten. Im visuellen Prompt-Modus verwendet das Modell das Bild, um ähnlich aussehende Elemente in einer anderen Szene zu finden. Dies ist besonders nützlich für Objekte, die schwer zu beschreiben sind oder keine eindeutigen Beschriftungen haben. 

Um den Code hierfür genauer zu untersuchen, können Sie die Ultralytics-Dokumentation einsehen.

Allgemeine Objekterkennung mit YOLOE

In einigen Fällen wissen Sie möglicherweise nicht genau, wonach Sie suchen, oder Sie suchen nicht nach einem bestimmten Objekt. Hier ist der Prompt-freie Modus nützlich. 

Mit dieser Option müssen Sie keine Beschreibung eingeben oder ein Beispielbild bereitstellen. YOLOE analysiert Bilder einfach selbstständig und erkennt alles, was es erkennen kann, wie z. B. Personen, Tiere, Möbel oder Alltagsgegenstände.

Es ist eine hilfreiche Möglichkeit, eine Szene zu erkunden, ohne dem Modell spezifische Anweisungen zu geben. Egal, ob Sie einen überfüllten Raum scannen oder Filmmaterial mit viel Aktivität überprüfen, der promptfreie Modus bietet Ihnen einen schnellen Überblick darüber, was in einem Bild vorhanden ist. 

Sie können den folgenden Code verwenden, um YOLOE im promptfreien Modus auszuführen. Zuerst wird das Modell geladen, dann verarbeitet es das Bild und erkennt automatisch die Objekte darin. Schließlich werden die Ergebnisse angezeigt und die erkannten Objekte hervorgehoben. 

Ersetzen Sie unbedingt den Dateipfad durch den tatsächlichen Pfad zu Ihrem Bild.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Das unten gezeigte Bild ist ein Beispiel dafür, was YOLOE im promptfreien Modus erkennen kann.

Abb. 4. Verwendung von YOLOE im promptfreien Modus.

Echtzeit-Anwendungen von YOLOE

Die Fähigkeit von YOLOE, sowohl auf Text- als auch auf Bildaufforderungen zu reagieren, macht es zu einem zuverlässigen Werkzeug für Echtzeitanwendungen. Seine Flexibilität ist besonders nützlich in schnelllebigen Umgebungen, in denen Timing und Genauigkeit von entscheidender Bedeutung sind. 

Lassen Sie uns einige Beispiele aus der Praxis untersuchen, wie YOLOE eingesetzt werden kann.

Verbesserung der Gepäckabfertigung: Echtzeit-Gepäckerkennung

Auf stark frequentierten Flughäfen kann es eine Herausforderung sein, bestimmtes Gepäck zu finden, insbesondere wenn es sich um fehlende Gepäckstücke handelt. YOLOE kann diesen Prozess rationalisieren, indem es hilft, Live-Videos zu scannen und Artikel schnell anhand einfacher Eingabeaufforderungen wie “rote Tasche” zu identifizieren. 

Wenn eine Tasche fehlt oder verlegt wurde, kann das Personal die Suchanfrage einfach ändern, um nach einem anderen Gegenstand zu suchen, z. B. nach einem „schwarzen Koffer“. Diese Fähigkeit zur sofortigen Anpassung kann dem Flughafenpersonal helfen, das richtige Gepäck schnell zu finden, ohne stundenlanges Filmmaterial zu sichten oder das Modell neu zu trainieren, wodurch die Gepäckabfertigung und die Lösung von Problemen mit fehlendem Gepäck wesentlich schneller und effizienter werden.

Überwachung öffentlicher Räume mit YOLOE

Überwachungsvideos von öffentlichen Plätzen wie belebten Märkten und Cafés enthalten oft eine Mischung aus Personen, Objekten und Aktivitäten, die sich im Laufe des Tages ändern. YOLOE kann dieses Filmmaterial in Echtzeit im promptfreien Modus analysieren und automatisch Gegenstände wie Taschen, Tische oder Fahrräder erkennen, ohne dass spezifische Anweisungen erforderlich sind.

Abb. 5. YOLOE kann verschiedene Objekte in einem belebten öffentlichen Raum erkennen.

Dies ist besonders nützlich für Sicherheitsteams, um unbeaufsichtigte Gegenstände zu erkennen oder Menschenmengen zu verfolgen. Die Fähigkeit von YOLOE, mehrere Objekte gleichzeitig zu erkennen, erleichtert die Verwaltung öffentlicher Räume während Veranstaltungen oder in stark frequentierten Zeiten und hilft Teams, informiert und reaktionsfähig zu bleiben.

Vor- und Nachteile von YOLOE

Hier sind einige der wichtigsten Vorteile des Einsatzes von YOLOE für Computer-Vision-Anwendungen:

  • Echtzeit-Performance: YOLOE ist für eine schnelle und effiziente Verarbeitung optimiert und ermöglicht eine Echtzeit-Erkennung, selbst in dynamischen Umgebungen wie Live-Video-Streams oder belebten öffentlichen Räumen.
  • Skalierbarkeit: YOLOE ist skalierbar und eignet sich gut für eine Vielzahl von Anwendungen, von Sicherheit und Überwachung bis hin zu Einzelhandel, Gesundheitswesen und autonomen Fahrzeugen.
  • Einfach zu bedienen: Da YOLOE vom Ultralytics Python-Paket unterstützt wird, lässt es sich einfach in Ihre bestehenden Computer-Vision-Projekte integrieren.

Bei der Verwendung von YOLOE sind jedoch einige Einschränkungen zu beachten. Hier sind ein paar Faktoren, die Sie berücksichtigen sollten:

  • Erfordert ausreichend Trainingsdaten: Obwohl YOLOE Zero-Shot-Detection unterstützt, hängt seine Leistung bei unbekannten Objekten davon ab, wie gut es aus seinen Trainingsdaten generalisiert. In einigen Fällen benötigt es möglicherweise zusätzliche Daten oder Feinabstimmung, um in hochspezialisierten Aufgaben gut zu funktionieren.
  • Empfindlich gegenüber Eingabequalität: Die Genauigkeit des Modells kann durch qualitativ minderwertige Bilder oder Videos beeinträchtigt werden. Verschwommene oder schlecht beleuchtete Eingaben können die Fähigkeit des Modells beeinträchtigen, Objekte genau zu erkennen, daher ist eine hohe Eingabequalität für eine optimale Leistung wichtig.

Wesentliche Erkenntnisse

YOLOE bietet mehr Flexibilität für Computer Vision, indem es Benutzern ermöglicht, die Erkennung mit Text- oder Bildaufforderungen zu steuern. Es funktioniert gut in realen Situationen, in denen sich Szenen schnell ändern und ein erneutes Training keine Option ist.

Von der Gepäckabfertigung bis zur Überwachung öffentlicher Räume passt sich YOLOE problemlos an neue Aufgaben an. Da KI immer zugänglicher wird, helfen Modelle wie YOLOE mehr Branchen, Visionstechnologie auf praktische und effiziente Weise einzusetzen.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über KI-Innovationen zu erfahren. Entdecken Sie die neuesten Fortschritte in Bereichen wie KI im Einzelhandel und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Sehen Sie sich unsere Lizenzoptionen an und legen Sie noch heute mit Computer Vision los!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert