Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Erfahren Sie mehr über YOLO-World, ein innovatives Objekterkennungsmodell, das Objekte anhand von Texteingaben identifizieren kann. Entdecken Sie die Funktionsweise und die Anwendungen von YOLO-World und machen Sie sich anhand eines kurzen Codebeispiels selbst ein Bild.
Computer-Vision-Projekte erfordern oft viel Zeit für die Annotation von Daten und das Training von Objekterkennungsmodellen. Aber das könnte bald der Vergangenheit angehören. Das KI-Labor von Tencent hat am 31. Januar 2024 YOLO-World veröffentlicht, ein Echtzeit-Objekterkennungsmodell mit offenem Vokabular. YOLO-World ist ein Zero-Shot-Modell, was bedeutet, dass Sie Objekterkennungs-Inferenz auf Bildern ausführen können, ohne es trainieren zu müssen.
Zero-Shot-Modelle haben das Potenzial, die Art und Weise, wie wir Computer-Vision-Anwendungen angehen, zu verändern. In diesem Blog werden wir untersuchen, wie YOLO-World funktioniert und welche potenziellen Einsatzmöglichkeiten es gibt, und ein praktisches Codebeispiel geben, um Ihnen den Einstieg zu erleichtern.
Ein Einblick in YOLO-World
Sie können ein Bild und eine Textaufforderung, die beschreibt, welche Objekte Sie suchen, über das YOLO-World-Modell übergeben. Wenn Sie beispielsweise daran interessiert sind, "eine Person mit einem roten Hemd" auf einem Foto zu finden, nimmt YOLO-World diese Eingabe entgegen und macht sich an die Arbeit.
Die einzigartige Architektur des Modells kombiniert drei Hauptelemente:
Ein Detektor, der auf dem Ultralytics YOLOv8 Objekterkennungsmodell basiert, um den visuellen Inhalt des Bildes zu analysieren.
Ein Text-Encoder, der von OpenAIs CLIP vortrainiert wurde und speziell darauf ausgelegt ist, Ihre Texteingabe zu verstehen.
Ein Netzwerk, das Vision-Language Path Aggregation Network (RepVL-PAN), das die verarbeiteten Bilddaten mit den Textdaten integriert.
Der YOLO-Detektor scannt Ihr Eingangsbild, um potenzielle Objekte zu identifizieren. Der Text-Encoder wandelt Ihre Beschreibung in ein Format um, das das Modell verstehen kann. Diese beiden Informationsströme werden dann durch das RepVL-PAN unter Verwendung einer mehrstufigen, modalitätsübergreifenden Fusion zusammengeführt. Dadurch kann YOLO-World die in Ihrer Eingabeaufforderung beschriebenen Objekte präzise erkennen und innerhalb des Bildes lokalisieren.
Ein Beispiel für Ergebnisse von YOLO-World.
Vorteile der Wahl von YOLO-World
Einer der größten Vorteile der Verwendung von YOLO-World ist, dass Sie das Modell nicht für eine bestimmte Klasse trainieren müssen. Es hat bereits aus Bild- und Textpaaren gelernt, sodass es weiß, wie man Objekte anhand von Beschreibungen findet. Sie können stundenlanges Sammeln von Daten, Annotieren von Daten, Trainieren auf teuren GPUs usw. vermeiden.
Hier sind einige weitere Vorteile der Verwendung von YOLO-World:
Echtzeit-Performance - YOLO-World unterstützt Echtzeit-Performance genau wie die ursprüngliche YOLO-Architektur. Es ist ideal für Anwendungen, die eine sofortige Objekterkennung erfordern, wie z. B. autonome Fahrzeuge und Überwachungssysteme.
Instanzsegmentierung - YOLO-World kann Objekte in Bildern sauber umreißen und trennen, selbst wenn diese Objekte während des Trainings nicht speziell gelehrt wurden.
Effizienz - YOLO-World kombiniert hohe Genauigkeit mit Recheneffizienz und ist somit für reale Anwendungen geeignet. Seine optimierte Architektur ermöglicht eine schnelle Objekterkennung ohne übermäßige Anforderungen an die Rechenleistung.
Die Anwendungen von YOLO-World
YOLO-World-Modelle können für eine Vielzahl von Anwendungen eingesetzt werden. Lassen Sie uns einige davon untersuchen.
Qualitätskontrolle in der Fertigung
Produkte, die am Fließband hergestellt werden, werden vor dem Verpacken visuell auf Fehler überprüft. Die Fehlererkennung erfolgt oft von Hand, was Zeit kostet und zu Fehlern führen kann. Diese Fehler können Probleme wie hohe Kosten und die Notwendigkeit von Reparaturen oder Rückrufen verursachen. Um dabei zu helfen, wurden spezielle Machine-Vision-Kameras und KI-Systeme entwickelt, um diese Kontrollen durchzuführen.
YOLO-World-Modelle sind ein großer Fortschritt in diesem Bereich. Sie können Fehler in Produkten finden, selbst wenn sie nicht für dieses spezifische Problem trainiert wurden, indem sie ihre Zero-Shot-Fähigkeiten nutzen. Beispielsweise kann eine Fabrik, die Wasserflaschen herstellt, mithilfe von YOLO-World leicht zwischen einer ordnungsgemäß mit einem Flaschenverschluss versiegelten Flasche und einer Flasche unterscheiden, bei der ein Verschluss fehlt oder fehlerhaft ist.
Ein Beispiel für die Inspektion von Flaschendeckeln.
Robotik
YOLO-World-Modelle ermöglichen es Robotern, mit unbekannten Umgebungen zu interagieren. Ohne auf bestimmte Objekte trainiert zu sein, die sich in einem Raum befinden könnten, können sie dennoch identifizieren, welche Objekte vorhanden sind. Nehmen wir an, ein Roboter betritt einen Raum, in dem er noch nie zuvor war. Mit einem YOLO-World-Modell kann er immer noch Objekte wie Stühle, Tische oder Lampen erkennen und identifizieren, obwohl er nicht speziell für diese Gegenstände trainiert wurde.
Zusätzlich zur Objekterkennung kann YOLO-World dank seiner 'Prompt-then-Detect'-Funktion auch den Zustand dieser Objekte bestimmen. In der Agrarrobotik kann es beispielsweise verwendet werden, um reife Früchte von nicht reifen Früchten zu unterscheiden, indem der Roboter so programmiert wird, dass er sie erkennt.
KI in der Automobilindustrie
Die Automobilindustrie umfasst viele bewegliche Teile, und YOLO-World kann für verschiedene Automobilanwendungen eingesetzt werden. Wenn es beispielsweise um die Autowartung geht, ist die Fähigkeit von YOLO-World, eine Vielzahl von Objekten ohne manuelle Kennzeichnung oder umfangreiches Vortraining zu erkennen, äußerst nützlich. YOLO-World kann verwendet werden, um Autoteile zu identifizieren, die ausgetauscht werden müssen. Es könnte sogar Aufgaben wie Qualitätskontrollen automatisieren und Fehler oder fehlende Teile in Neuwagen erkennen.
Eine weitere Anwendung ist die Zero-Shot-Objekterkennung in selbstfahrenden Autos. Die Zero-Shot-Erkennungsfähigkeiten von YOLO-World können die Fähigkeit eines autonomen Fahrzeugs verbessern, Objekte auf der Straße, wie Fußgänger, Verkehrszeichen und andere Fahrzeuge, in Echtzeit zu erkennen und zu klassifizieren. Dadurch kann es helfen, Hindernisse zu erkennen und Unfälle zu vermeiden, um eine sicherere Fahrt zu gewährleisten.
Ein Beispiel für die Erkennung von Objekten auf einer Straße.
Bestandsverwaltung für Einzelhandelsgeschäfte
Das Identifizieren von Objekten in Regalen in Einzelhandelsgeschäften ist ein wichtiger Bestandteil der Bestandsverfolgung, der Lagerhaltung und der Automatisierung von Prozessen. Die Fähigkeit von Ultralytics YOLO-World, eine Vielzahl von Objekten ohne manuelle Kennzeichnung oder umfangreiches Vortraining zu erkennen, ist äußerst nützlich für die Bestandsverwaltung.
Beispielsweise kann YOLO-World im Bestandsmanagement schnell Artikel in einem Regal erkennen und kategorisieren, z. B. verschiedene Marken von Energy-Drinks. Einzelhandelsgeschäfte können einen genauen Lagerbestand führen, die Lagerbestände effizient verwalten und die Abläufe in der Lieferkette optimieren.
Alle Anwendungen sind einzigartig und zeigen, wie umfassend YOLO-World eingesetzt werden kann. Als Nächstes werden wir uns mit YOLO-World beschäftigen und ein Codebeispiel ansehen.
Ein Code Walkthrough
Wie bereits erwähnt, kann YOLO-World verwendet werden, um verschiedene Teile eines Autos für die Wartung zu erkennen. Eine Computer-Vision-Anwendung, die alle erforderlichen Reparaturen erkennt, würde ein Bild des Autos aufnehmen, Autoteile identifizieren, jedes Teil des Autos auf Schäden untersuchen und Reparaturen empfehlen. Jeder Teil dieses Systems würde unterschiedliche KI-Techniken und -Ansätze verwenden. Für den Zweck dieser Code-Exkursion konzentrieren wir uns auf den Teil, in dem Autoteile erkannt werden.
Mit YOLO-World können Sie verschiedene Autoteile in einem Bild in weniger als 5 Minuten identifizieren. Sie können diesen Code erweitern, um verschiedene Anwendungen mit YOLO-World auszuprobieren! Um loszulegen, müssen wir das Ultralytics-Paket wie unten gezeigt mit pip installieren.
Weitere Anweisungen und Best Practices im Zusammenhang mit dem Installationsprozess finden Sie in unserem Ultralytics Installationsleitfaden. Wenn Sie bei der Installation der erforderlichen Pakete für YOLOv8 auf Schwierigkeiten stoßen, werfen Sie einen Blick in unseren Leitfaden zu häufigen Problemen für Lösungen und Tipps.
Sobald Sie das benötigte Paket installiert haben, können wir ein Bild aus dem Internet herunterladen, um unsere Inferenz auszuführen. Wir werden das folgende Bild verwenden.
Unser Eingabebild.
Dann importieren wir das benötigte Paket, initialisieren unser Modell und legen die Klassen fest, nach denen wir in unserem Eingangsbild suchen. Hier interessieren wir uns für die folgenden Klassen: Auto, Rad, Autotür, Autospiegel und Nummernschild.
Anschließend verwenden wir die Predict-Methode, wobei wir den Pfad des Bildes zusammen mit Parametern für die maximale Anzahl von Erkennungen und Schwellenwerten für Intersection over Union (IoU) und Confidence (Conf) angeben, um eine Inferenz auf dem Bild durchzuführen. Abschließend werden die erkannten Objekte in einer Datei namens 'result.jpg' gespeichert.
Das folgende Ausgabebild wird in Ihren Dateien gespeichert.
Unser Ausgabebild.
Wenn Sie lieber sehen möchten, was YOLO-World ohne Programmierung kann, können Sie zur YOLO-World-Demoseite gehen, ein Eingabebild hochladen und die benutzerdefinierten Klassen eingeben.
Lesen Sie unsere Dokumentationsseite zu YOLO-World, um zu erfahren, wie Sie das Modell mit den benutzerdefinierten Klassen speichern, sodass es später direkt verwendet werden kann, ohne die benutzerdefinierten Klassen wiederholt eingeben zu müssen.
Ist Ihnen aufgefallen, dass die Autotüren nicht erkannt wurden?
Wenn Sie sich das Ausgabebild noch einmal ansehen, werden Sie feststellen, dass die benutzerdefinierte Klasse „Autotür“ nicht erkannt wurde. Trotz seiner großen Erfolge hat YOLO-World gewisse Einschränkungen. Um diese Einschränkungen zu überwinden und das YOLO-World-Modell effektiv zu nutzen, ist es wichtig, die richtigen Arten von Textprompts zu verwenden.
Hier einige Einblicke:
YOLO-World benötigt möglicherweise keine hohen Konfidenzwerte für genaue Vorhersagen, daher kann die Reduzierung der Konfidenzschwellen die Erkennungsraten verbessern.
Fügen Sie Klassen hinzu, an denen Sie nicht interessiert sind. Dies trägt zur Verbesserung der primären Objekterkennung bei, indem falsch-positive Ergebnisse für sekundäre Objekte reduziert werden.
Die Erkennung größerer Objekte vor der Konzentration auf kleinere Details kann die Erkennungsgenauigkeit verbessern.
Erwähnen Sie Farben in Ihren Klassen, um Objekte basierend auf Farbsignalen zu erkennen.
Das Beschreiben von Objektgrößen in Prompts kann YOLO-World auch dabei helfen, bestimmte Objekte genauer zu identifizieren.
Nachbearbeitungsmethoden, wie z. B. das Filtern von Vorhersagen nach Größe oder das Anpassen von Konfidenzniveaus pro Klasse, können die Ergebnisse der Objekterkennung weiter verbessern.
Die Grenzen sind endlos
Insgesamt können YOLO-World-Modelle mit ihren fortschrittlichen Objekterkennungsfunktionen zu einem leistungsstarken Werkzeug gemacht werden. Es bietet eine hohe Effizienz, Genauigkeit und hilft bei der Automatisierung verschiedener Aufgaben in verschiedenen Anwendungen, wie z. B. dem Beispiel der Identifizierung von Autoteilen, das wir praktisch diskutiert haben.
Sie können gerne unser GitHub-Repository erkunden, um mehr über unsere Beiträge zu Computer Vision und KI zu erfahren. Wenn Sie neugierig sind, wie KI Branchen wie die Gesundheitstechnologie verändert, besuchen Sie unsere Lösungsseiten. Die Möglichkeiten mit Innovationen wie YOLO-World scheinen endlos zu sein!