Erfahre, wie du mit YOLOE Objekte anhand einer einfachen Eingabeaufforderung oder eines Fotos finden kannst. Es ermöglicht eine intelligentere und schnellere Computer Vision, ohne dass die Modelle neu trainiert oder angepasst werden müssen.
Die Objekterkennung ist eine wichtige Aufgabe der Computer Vision, bei der es darum geht, Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Sie ist ein wichtiger Teil der Computer Vision, einem Bereich der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu verstehen und zu interpretieren. Die Objekterkennung kann zum Beispiel dabei helfen, ein Auto auf einem Bild zu identifizieren oder eine Person in einem Video zu erkennen.
Eine der bekanntesten Modellreihen, die Computer-Vision-Aufgaben wie die Objekterkennung unterstützen, ist die YOLO (You Only Look Once). Die YOLO sind auf Schnelligkeit und Genauigkeit ausgelegt und wurden im Laufe der Zeit kontinuierlich verbessert. Zum Beispiel eine der neuesten Versionen, Ultralytics YOLO11hat sich in der Praxis bewährt und liefert auch in komplexeren Umgebungen genaue Ergebnisse.
Ein neues Modell namens YOLOE soll die Fähigkeiten von YOLO weiter ausbauen. Anders als herkömmliche Modelle, die neu trainiert werden müssen, um neue Objekte zu erkennen, kann YOLOE einfachen Text- oder Bildaufforderungen folgen, um Objekte zu erkennen, die es vorher noch nicht gesehen hat, was es viel anpassungsfähiger an veränderte Umgebungen macht.
In diesem Artikel werfen wir einen genaueren Blick darauf, was YOLOE einzigartig macht, wie es sich von früheren YOLO unterscheidet und wie du es noch heute nutzen kannst. Los geht's!
YOLOE ist ein Computer Vision Modell, das die Objekterkennung einen Schritt weiter bringt. Es wurde im März 2025 von Forschern der Tsinghua Universität vorgestellt. Was YOLOE von herkömmlichen Modellen unterscheidet, ist die Verwendung eines offenen Vokabulars zur Erkennung.
Während die meisten Modelle darauf trainiert sind, eine feste Liste von Objekten zu erkennen, kannst du bei YOLOE mit einer kurzen Beschreibung oder einem Beispielbild angeben, wonach gesucht werden soll. Wenn du z. B. nach einem "grünen Rucksack" suchst, kannst du entweder diese Beschreibung eingeben oder dem Modell ein Foto zeigen, und YOLOE wird ihn in der Szene finden.
Außerdem kann YOLOE auch ohne Aufforderung viele alltägliche Gegenstände selbständig erkennen. Diese Fähigkeit, Objekte zu erkennen, die sie noch nie zuvor gesehen hat, nennt man Zero-Shot Detection. Sie ist besonders nützlich in dynamischen Umgebungen, in denen sich die Aufgabe oder die Objekte von Interesse unerwartet ändern können.
YOLOE unterstützt eine breite Palette von Funktionen, die seine Leistung in realen Anwendungen verbessern. Mit seiner Fähigkeit, sowohl strukturierte als auch unstrukturierte Eingaben zu verarbeiten, eröffnet YOLOE neue Möglichkeiten für die Objekterkennung und -segmentierung.
Hier sind einige der wichtigsten Merkmale, die das Modell mitbringt:
Jetzt, wo wir besser verstehen, was YOLOE ist, wollen wir uns einige ähnliche Modelle aus der YOLO ansehen.
Mit den Fortschritten der Computer Vision haben sich auch die YOLO weiterentwickelt. Zum Beispiel, Ultralytics YOLOv8 neue Aufgaben wie Segmentierung und Klassifizierung, während sich spätere Versionen wie Ultralytics YOLO11 darauf konzentriert haben, die Genauigkeit und Leistung für ein breiteres Spektrum von Aufgaben zu verbessern.
Außerdem wurde YOLO im Januar 2024 veröffentlicht und führte die Möglichkeit ein, schriftliche Eingabeaufforderungen zu verwenden, mit denen die Nutzer/innen die Objekte beschreiben konnten, die sie finden wollten. YOLO war zwar eine großartige Option für die Zero-Shot-Erkennung, aber es fehlten Funktionen wie die Segmentierung von Instanzen und die Unterstützung visueller Aufforderungen.
YOLOE baut auf YOLO auf, indem es diese Fähigkeiten hinzufügt, die Flexibilität und Leistung verbessert und ein effektiveres Werkzeug für reale Computer Vision Anwendungen bietet.
Egal, ob du bestimmte Objekte erkennen oder alles in einem Bild untersuchen willst, der Einstieg in YOLOE ist einfach. Dieses Modell wird vom Ultralytics Python unterstützt und lässt sich so leicht in deine Projekte integrieren. Als Nächstes erklären wir dir, wie du es verwenden kannst.
Der erste Schritt besteht darin, das Ultralytics Python mit einem Paketmanager wie "pip" zu installieren. Du kannst dies tun, indem du den Befehl "pip install ultralytics" in deinem Terminal oder in der Eingabeaufforderung ausführst.
Sobald das Paket installiert ist, hast du alles, was du brauchst, um das Modell zu laden, Vorhersagen zu treffen und mit verschiedenen Erkennungsmodi zu experimentieren. Solltest du während der Installation auf Probleme stoßen, findest du in der offiziellen Ultralytics einen hilfreichen Abschnitt zur Fehlerbehebung.
Es gibt verschiedene Möglichkeiten, YOLOE für Vorhersagen zu nutzen. Vorhersagen machen bedeutet, das trainierte Modell zu verwenden, um Objekte in Bildern oder Videos zu identifizieren und zu lokalisieren. Mit diesen verschiedenen Methoden kannst du die Art und Weise, wie du mit dem Modell interagierst, an deine spezifischen Bedürfnisse anpassen.
Lass uns jede dieser Methoden einzeln besprechen.
YOLOE kann Objekte anhand einer kurzen Textbeschreibung erkennen. Wenn du zum Beispiel nach einem Pferd in Bewegung suchst, kannst du eine Aufforderung wie "Pferd läuft" verwenden.
Um loszulegen, lädst du zunächst das vortrainierte YOLOE-Modell und gibst deinen Prompt ein (die Beschreibung dessen, wonach das Modell suchen soll), wie im folgenden Codeschnipsel gezeigt.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Sobald das Modell und die Eingabeaufforderung eingestellt sind, kannst du das Modell mit einem Bild oder Video ausführen. Ersetze den Dateipfad im Code durch den Pfad zu deiner Bild- oder Videodatei:
results = model.predict("path/to/your/image.jpg")
results[0].show()
Daraufhin wird das Bild mit dem erkannten Objekt entsprechend deiner Eingabeaufforderung deutlich markiert. Du kannst die Eingabeaufforderung ändern, um nach verschiedenen Objekten zu suchen, z. B. "roter Koffer", "Fahrrad" oder "Zebra", je nachdem, wonach du suchst.
Ebenso kannst du ein Bild verwenden, um YOLOE mit dem Ultralytics Python abzufragen. Im visuellen Prompt-Modus verwendet das Modell das Bild, um ähnlich aussehende Objekte in einer anderen Szene zu finden. Das ist besonders nützlich für Objekte, die schwer zu beschreiben sind oder keine eindeutigen Bezeichnungen haben.
Um den Code dafür genauer zu erforschen, kannst du dir die Ultralytics ansehen.
In manchen Fällen weißt du vielleicht nicht genau, wonach du suchen sollst, oder du suchst nicht nach einem bestimmten Objekt. Hier kommt der Modus ohne Eingabeaufforderung ins Spiel.
Bei dieser Option musst du keine Beschreibung eingeben oder ein Beispielbild bereitstellen. YOLOE analysiert die Bilder einfach selbstständig und erkennt alles, was es erkennen kann, wie Menschen, Tiere, Möbel oder Alltagsgegenstände.
Er ist eine hilfreiche Methode, um eine Szene zu erkunden, ohne dem Modell bestimmte Anweisungen zu geben. Ganz gleich, ob du einen überfüllten Raum durchsuchst oder Aufnahmen mit viel Aktivität untersuchst, der Modus "Ohne Eingabeaufforderung" gibt dir einen schnellen Überblick darüber, was in einem Bild vorhanden ist.
Du kannst den folgenden Code verwenden, um YOLOE im prompt-free Modus auszuführen. Zuerst wird das Modell geladen, dann wird das Bild verarbeitet und die Objekte darin werden automatisch erkannt. Zum Schluss werden die Ergebnisse angezeigt und die erkannten Objekte hervorgehoben.
Achte darauf, dass du den Dateipfad durch den tatsächlichen Pfad zu deinem Bild ersetzt.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
Das unten gezeigte Bild ist ein Beispiel dafür, was YOLOE im Prompt-Free-Modus erkennen kann.
Die Fähigkeit von YOLOE, sowohl auf Text- als auch auf Bildanweisungen zu reagieren, macht es zu einem zuverlässigen Werkzeug für Echtzeitanwendungen. Seine Flexibilität ist besonders nützlich in schnelllebigen Umgebungen, in denen Timing und Genauigkeit entscheidend sind.
Sehen wir uns einige Beispiele aus der Praxis an, wie YOLOE eingesetzt werden kann.
Auf belebten Flughäfen kann es schwierig sein, ein bestimmtes Gepäckstück zu finden, vor allem, wenn es sich um vermisste Koffer handelt. YOLOE kann diesen Prozess durch das Scannen von Live-Videos und die schnelle Identifizierung von Gegenständen anhand von einfachen Aufforderungen wie "rote Tasche" vereinfachen.
Wenn ein Gepäckstück fehlt oder verlegt wurde, kann das Personal die Eingabeaufforderung leicht ändern und nach einem anderen Gegenstand suchen, z. B. einem "schwarzen Koffer". Diese Fähigkeit zur sofortigen Anpassung kann dem Flughafenpersonal helfen, das richtige Gepäckstück schnell zu finden, ohne stundenlanges Filmmaterial zu sichten oder das Modell neu zu trainieren, was die Gepäckabfertigung und die Lösung von Problemen mit fehlendem Gepäck viel schneller und effizienter macht.
Das Überwachungsmaterial von öffentlichen Plätzen wie belebten Märkten und Cafés enthält oft eine Mischung aus Menschen, Gegenständen und Aktivitäten, die sich im Laufe des Tages ändern. YOLOE kann dieses Filmmaterial in Echtzeit analysieren und erkennt automatisch Gegenstände wie Taschen, Tische oder Fahrräder, ohne dass du spezielle Anweisungen benötigst.
Das ist besonders nützlich für Sicherheitsteams, um unbeaufsichtigte Gegenstände zu erkennen oder die Bewegung von Menschenmengen zu verfolgen. Die Fähigkeit von YOLOE, mehrere Objekte gleichzeitig zu erkennen, macht es einfacher, öffentliche Räume bei Veranstaltungen oder in Stoßzeiten zu überwachen, und hilft den Teams, informiert und reaktionsfähig zu bleiben.
Hier sind einige der wichtigsten Vorteile der Verwendung von YOLOE für Computer Vision Anwendungen:
Bei der Nutzung von YOLOE gibt es jedoch ein paar Einschränkungen zu beachten. Hier sind ein paar Faktoren, die du beachten solltest:
YOLOE bringt mehr Flexibilität in die Computer Vision, indem es dem Benutzer erlaubt, die Erkennung mit Text- oder Bildaufforderungen zu steuern. Es funktioniert gut in realen Situationen, in denen sich Szenen schnell ändern und ein erneutes Training nicht möglich ist.
Von der Gepäckabfertigung bis zur Überwachung des öffentlichen Raums passt sich YOLOE mühelos an neue Aufgaben an. Da KI immer zugänglicher wird, helfen Modelle wie YOLOE mehr Branchen dabei, die Bildverarbeitungstechnologie auf praktische und effiziente Weise zu nutzen.
Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über KI-Innovationen zu erfahren. Entdecke die neuesten Fortschritte in Bereichen wie KI im Einzelhandel und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Schau dir unsere Lizenzierungsoptionen an und fang noch heute mit Computer Vision an!
Beginne deine Reise in die Zukunft des maschinellen Lernens