Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Anleitungen

Was ist YOLOE? Computer-Vision-Modelle weiterentwickeln

Lerne, wie YOLOE es dir ermöglicht, Objekte mithilfe eines einfachen Prompts oder Fotos zu finden. Es ermöglicht eine intelligentere, schnellere Computer Vision ohne das Nachtrainieren oder Feintuning von Modellen.

ABAbirami Vina
5 min read
YOLOE erkennt Objekte anhand von Text- und Bild-Prompts

Objekterkennung ist eine zentrale Aufgabe der Computer Vision, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Sie ist ein entscheidender Bestandteil der Computer Vision, einem Teilbereich der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren. So kann die Objekterkennung beispielsweise helfen, ein Auto auf einem Bild zu identifizieren oder eine Person in einem Video-Feed zu erkennen.

Eine der bekanntesten Modellreihen für Computer-Vision-Aufgaben wie die Objekterkennung ist die YOLO (You Only Look Once)-Modellreihe. Die auf Geschwindigkeit und Genauigkeit ausgelegten YOLO-Modelle wurden im Laufe der Zeit kontinuierlich verbessert. So liefert beispielsweise eine der neuesten Versionen, Ultralytics YOLO11, in realen Situationen gute Ergebnisse, selbst in komplexeren Umgebungen.

Um diesen Fortschritt weiter voranzutreiben, zielt ein neues Modell namens YOLOE darauf ab, die Fähigkeiten von YOLO-Modellen zu erweitern. Im Gegensatz zu herkömmlichen Modellen, die neu trainiert werden müssen, um neue Objekte zu erkennen, kann YOLOE einfachen Text- oder Bild-Prompts folgen, um Objekte zu erkennen, die es zuvor noch nicht gesehen hat, was es wesentlich anpassungsfähiger an sich ändernde Umgebungen macht.

In diesem Artikel werfen wir einen genaueren Blick darauf, was YOLOE einzigartig macht, wie es im Vergleich zu früheren YOLO-Modellen abschneidet und wie du noch heute damit beginnen kannst. Fangen wir an!

Link to this sectionEin Überblick über YOLOE#

YOLOE ist ein Computer-Vision-Modell, das die Objekterkennung einen Schritt weiter bringt. Es wurde im März 2025 von Forschern der Tsinghua-Universität vorgestellt. Was YOLOE von herkömmlichen Modellen abhebt, ist die Verwendung der Open-Vocabulary-Erkennung.

Während die meisten Modelle darauf trainiert sind, eine feste Liste von Objekten zu erkennen, ermöglicht dir YOLOE, mit einer kurzen Beschreibung oder einem Beispielbild festzulegen, wonach gesucht werden soll. Wenn du beispielsweise nach einem „grünen Rucksack“ suchst, kannst du entweder diese Beschreibung eingeben oder dem Modell ein Foto zeigen, woraufhin YOLOE das Objekt innerhalb der Szene lokalisiert.

Darüber hinaus kann YOLOE auch ohne jeden Prompt viele alltägliche Objekte eigenständig erkennen. Diese Fähigkeit, Objekte zu erkennen, die es noch nie zuvor gesehen hat, nennt man Zero-Shot-Erkennung. Dies ist besonders nützlich in dynamischen Umgebungen, in denen sich die Aufgabe oder die interessierenden Objekte unerwartet ändern können.

Ein Blick auf die Fähigkeiten von YOLOE

Abb. 1. Ein Blick auf die Fähigkeiten von YOLOE.

Link to this sectionHauptmerkmale von YOLOE#

YOLOE unterstützt eine breite Palette an Funktionen, die darauf ausgelegt sind, die Leistung in realen Anwendungen zu verbessern. Mit seiner Fähigkeit, sowohl strukturierte als auch unstrukturierte Eingaben zu verarbeiten, eröffnet YOLOE neue Möglichkeiten für die Objekterkennung und Segmentierung.

Hier sind einige der wichtigsten Funktionen, die das Modell mitbringt:

  • Prompt-basierte Erkennung: YOLOE kann basierend auf einem kurzen Text-Prompt oder einem Beispielbild nach Objekten suchen. Das bedeutet, dass du das Modell nicht jedes Mal neu trainieren musst, wenn sich deine Aufgabe ändert; beschreibe dem Modell einfach, wonach du suchst, oder zeige es ihm.
  • Instanz-Segmentierung: Zusätzlich zum Zeichnen von Bounding Boxes um Objekte herum kann YOLOE deren exakte Form mithilfe von Instanz-Segmentierung umreißen. Dies ist besonders hilfreich, wenn Objekte überlappen oder wenn du die präzisen Grenzen eines Objekts kennen musst.
  • Prompt-freie Objekterkennung: YOLOE kann Objekte auch ohne spezifische Anweisungen erkennen. Es nutzt eine Reihe vorab erlernter Beschreibungen, um Objekte schnell zu identifizieren, was den Prozess schneller und effizienter macht.

Link to this sectionVergleich von YOLOE mit anderen YOLO-Modellen#

Nachdem wir nun ein besseres Verständnis davon haben, was YOLOE ist, schauen wir uns einige der ähnlichen Modelle aus der YOLO-Familie an.

Mit dem Fortschritt der Computer Vision haben sich auch die YOLO-Modelle weiterentwickelt. So brachte beispielsweise Ultralytics YOLOv8 Unterstützung für neue Aufgaben wie Segmentierung und Klassifizierung, während spätere Versionen wie Ultralytics YOLO11 sich auf die Verbesserung der Genauigkeit und Leistung für ein breiteres Spektrum an Aufgaben konzentriert haben.

Zudem wurde im Januar 2024 YOLO-World veröffentlicht, das die Möglichkeit einführte, schriftliche Prompts zu verwenden, sodass Nutzer die Objekte beschreiben können, die sie finden möchten. Während YOLO-World eine großartige Option für die Zero-Shot-Erkennung war, fehlten Funktionen wie Instanz-Segmentierung und visuelle Prompt-Unterstützung.

YOLOE baut auf YOLO-World auf, indem es diese Fähigkeiten hinzufügt, die Flexibilität und Leistung verbessert und ein wirkungsvolleres Werkzeug für reale Computer-Vision-Anwendungen bietet.

YOLO-World und YOLOE unterstützen beide Zero-Shot-Detection

Abb. 2. YOLO-World und YOLOE unterstützen beide Zero-Shot-Erkennung.

Link to this sectionVerwendung von YOLOE mit dem Ultralytics Python-Paket#

Egal, ob du nach spezifischen Objekten suchen oder alles in einem Bild erkunden möchtest, der Einstieg in YOLOE ist einfach. Dieses Modell wird vom Ultralytics Python-Paket unterstützt, was die Integration in deine Projekte erleichtert. Gehen wir als Nächstes durch, wie man es verwendet.

Link to this sectionInstallation des Ultralytics-Pakets#

Der erste Schritt ist die Installation des Ultralytics Python-Pakets mithilfe eines Paketmanagers wie „pip“. Du kannst dies tun, indem du den Befehl “pip install ultralytics” in deinem Terminal oder deiner Eingabeaufforderung ausführst.

Sobald das Paket installiert ist, hast du alles, was du brauchst, um das Modell zu laden, Vorhersagen zu treffen und mit verschiedenen Erkennungsmodi zu experimentieren. Falls bei der Installation Probleme auftreten sollten, bietet die offizielle Ultralytics-Dokumentation einen hilfreichen Bereich zur Fehlerbehebung.

Es gibt einige verschiedene Möglichkeiten, YOLOE zum Ausführen von Vorhersagen zu verwenden. Vorhersagen auszuführen bedeutet, das trainierte Modell zu verwenden, um Objekte innerhalb von Bildern oder Videos zu identifizieren und zu lokalisieren. Diese verschiedenen Methoden ermöglichen es dir, die Interaktion mit dem Modell basierend auf deinen spezifischen Anforderungen anzupassen.

Besprechen wir jede dieser Methoden nacheinander.

Link to this sectionErkennung spezifischer Objekte mit Text- oder Bild-Prompts#

YOLOE kann Objekte basierend auf einer kurzen Textbeschreibung erkennen. Wenn du beispielsweise nach einem sich bewegenden Pferd suchst, kannst du einen Prompt wie „Pferd läuft“ verwenden.

Lade zunächst das vortrainierte YOLOE-Modell und lege deinen Prompt (die Beschreibung dessen, wonach das Modell suchen soll) fest, wie im Code-Schnipsel unten gezeigt.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Sobald Modell und Prompt festgelegt sind, kannst du das Modell auf einem Bild oder Video ausführen. Ersetze den Dateipfad im Code durch den Pfad zu deiner Bild- oder Videodatei:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Dadurch wird das Bild mit dem erkannten Objekt angezeigt, das basierend auf deinem Prompt deutlich markiert ist. Du kannst den Prompt ändern, um nach anderen Objekten zu suchen, wie etwa „roter Koffer“, „Fahrrad“ oder „Zebra“, je nachdem, wonach du suchst.

Verwendung von YOLOE zur Erkennung spezifischer Objekte mit einem Text-Prompt

Abb. 3. Ein Beispiel für die Verwendung von YOLOE zur Erkennung spezifischer Objekte mithilfe eines Text-Prompts.

Ebenso kannst du ein Bild verwenden, um YOLOE mit dem Ultralytics Python-Paket aufzufordern. Im visuellen Prompt-Modus verwendet das Modell das Bild, um ähnlich aussehende Objekte in einer anderen Szene zu finden. Dies ist besonders nützlich für Objekte, die schwer zu beschreiben sind oder keine klaren Beschriftungen haben.

Um den Code hierfür im Detail zu erkunden, kannst du einen Blick in die Ultralytics-Dokumentation werfen.

Link to this sectionAllgemeine Objekterkennung mit YOLOE#

In manchen Fällen weißt du vielleicht nicht genau, wonach du suchen sollst, oder du suchst nicht nach einem bestimmten Objekt. Hier ist der prompt-freie Modus nützlich.

Bei dieser Option musst du keine Beschreibung eingeben oder ein Beispielbild bereitstellen. YOLOE analysiert Bilder einfach von selbst und erkennt alles, was es identifizieren kann, wie etwa Menschen, Tiere, Möbel oder alltägliche Gegenstände.

Dies ist ein hilfreicher Weg, eine Szene zu erkunden, ohne dem Modell spezifische Anweisungen zu geben. Egal, ob du einen überfüllten Raum scannst oder Videomaterial mit viel Aktivität überprüfst, der prompt-freie Modus gibt dir einen schnellen Überblick darüber, was auf einem Bild vorhanden ist.

Du kannst den folgenden Code verwenden, um YOLOE im prompt-freien Modus auszuführen. Zuerst wird das Modell geladen, dann verarbeitet es das Bild und erkennt automatisch die Objekte darin. Schließlich werden die Ergebnisse angezeigt und die erkannten Objekte hervorgehoben.

Achte darauf, den Dateipfad durch den tatsächlichen Pfad zu deinem Bild zu ersetzen.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Das unten gezeigte Bild ist ein Beispiel dafür, was YOLOE im prompt-freien Modus erkennen kann.

Verwendung von YOLOE im promptfreien Modus

Abb. 4. Verwendung von YOLOE im prompt-freien Modus.

Link to this sectionEchtzeitanwendungen von YOLOE#

Die Fähigkeit von YOLOE, auf Text- und Bild-Prompts zu reagieren, macht es zu einem zuverlässigen Werkzeug für Echtzeitanwendungen. Seine Flexibilität ist besonders in schnelllebigen Umgebungen nützlich, in denen Timing und Genauigkeit entscheidend sind.

Lass uns einige reale Beispiele dafür erkunden, wie YOLOE verwendet werden kann.

Link to this sectionVerbesserung der Gepäckabfertigung: Echtzeit-Gepäckerkennung#

Auf geschäftigen Flughäfen kann das Auffinden von speziellem Gepäck eine Herausforderung sein, insbesondere wenn es um verlorene Taschen geht. YOLOE kann diesen Prozess optimieren, indem es dabei hilft, Live-Videos zu scannen und Gegenstände basierend auf einfachen Prompts wie „rote Tasche“ schnell zu identifizieren.

Wenn eine Tasche fehlt oder verlegt wurde, können Mitarbeiter den Prompt einfach ändern, um nach einem anderen Gegenstand zu suchen, wie z. B. einem „schwarzen Koffer“. Diese Fähigkeit zur sofortigen Anpassung kann Flughafenmitarbeitern helfen, das richtige Gepäck schnell zu finden, ohne stundenlanges Videomaterial durchsehen oder das Modell neu trainieren zu müssen, was die Gepäckabfertigung und die Lösung von Problemen mit fehlendem Gepäck wesentlich schneller und effizienter macht.

Link to this sectionÜberwachung öffentlicher Räume mit YOLOE#

Überwachungsaufnahmen öffentlicher Räume, wie überfüllter Märkte und Cafés, enthalten oft eine Mischung aus Menschen, Objekten und Aktivitäten, die sich den ganzen Tag über ändern. YOLOE kann dieses Material in Echtzeit im prompt-freien Modus analysieren und Gegenstände wie Taschen, Tische oder Fahrräder automatisch erkennen, ohne dass spezifische Anweisungen erforderlich sind.

YOLOE erkennt verschiedene Objekte an einem belebten öffentlichen Ort

Abb. 5. YOLOE kann verschiedene Objekte in einem belebten öffentlichen Raum erkennen.

Dies ist besonders nützlich für Sicherheitsteams, um unbeaufsichtigte Gegenstände zu entdecken oder Personenströme zu verfolgen. Die Fähigkeit von YOLOE, mehrere Objekte gleichzeitig zu erkennen, erleichtert die Verwaltung öffentlicher Räume während Veranstaltungen oder Stoßzeiten und hilft Teams, informiert und reaktionsfähig zu bleiben.

Link to this sectionVor- und Nachteile von YOLOE#

Hier sind einige der Hauptvorteile der Verwendung von YOLOE für Computer-Vision-Anwendungen:

  • Echtzeitleistung: YOLOE ist für eine schnelle und effiziente Verarbeitung optimiert und ermöglicht eine Echtzeiterkennung, selbst in dynamischen Umgebungen wie Live-Video-Streams oder belebten öffentlichen Räumen.
  • Skalierbarkeit: YOLOE ist skalierbar und eignet sich gut für eine Vielzahl von Anwendungen, von Sicherheit und Überwachung bis hin zu Einzelhandel, Gesundheitswesen und autonomen Fahrzeugen.
  • Einfach zu bedienen: Da YOLOE vom Ultralytics Python-Paket unterstützt wird, ist es einfach in deine bestehenden Computer-Vision-Projekte zu integrieren.

Es gibt jedoch einige Einschränkungen, die du bei der Verwendung von YOLOE beachten solltest. Hier sind ein paar Faktoren, die du berücksichtigen solltest:

  • Erfordert ausreichend Trainingsdaten: Obwohl YOLOE die Zero-Shot-Erkennung unterstützt, hängt seine Leistung bei unbekannten Objekten davon ab, wie gut es aus seinen Trainingsdaten generalisiert. In manchen Fällen können zusätzliche Daten oder Feinabstimmungen erforderlich sein, um bei hochspezialisierten Aufgaben gute Leistungen zu erbringen.
  • Empfindlich gegenüber Eingabequalität: Die Genauigkeit des Modells kann durch Bilder oder Videos von geringer Qualität beeinträchtigt werden. Verschwommene oder schlecht beleuchtete Aufnahmen können die Fähigkeit des Modells zur genauen Objekterkennung verringern, weshalb eine hohe Eingabequalität wichtig für eine optimale Leistung ist.

Link to this sectionWichtige Erkenntnisse#

YOLOE bringt mehr Flexibilität in die Computer Vision, indem es Benutzern ermöglicht, die Erkennung mit Text- oder Bild-Prompts zu steuern. Es funktioniert gut in realen Situationen, in denen sich Szenen schnell ändern und ein erneutes Training keine Option ist.

Von der Gepäckabfertigung bis zur Überwachung öffentlicher Räume passt sich YOLOE mühelos an neue Aufgaben an. Da KI immer zugänglicher wird, helfen Modelle wie YOLOE immer mehr Branchen dabei, Vision-Technologie auf praktische und effiziente Weise zu nutzen.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über KI-Innovationen zu erfahren. Entdecke die neuesten Fortschritte in Bereichen wie KI im Einzelhandel und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Sieh dir unsere Lizenzierungsoptionen an und beginne noch heute mit Computer Vision!

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens