Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Eine ausführliche Anleitung zur Objekterkennung im Jahr 2025

Abirami Vina

6 Minuten Lesezeit

6. Februar 2025

Erfahren Sie mehr über Objekterkennung, ihre Bedeutung in der KI und wie Modelle wie YOLO11 Branchen wie selbstfahrende Autos, das Gesundheitswesen und die Sicherheit verändern.

Viele Branchen integrieren in rasantem Tempo Lösungen für künstliche Intelligenz (KI) in ihre Abläufe. Unter den vielen heute verfügbaren KI-Technologien ist Computer Vision eine der beliebtesten. Computer Vision ist ein Zweig der KI, der Computern hilft, den Inhalt von Bildern und Videos zu sehen und zu verstehen, genau wie Menschen. Sie ermöglicht es Maschinen, Objekte zu erkennen, Muster zu identifizieren und zu verstehen, was sie sehen. 

Der globale Marktwert von Computer Vision wird bis 2032 auf 175,72 Milliarden Dollar geschätzt. Computer Vision umfasst verschiedene Aufgaben, die es Vision-KI-Systemen ermöglichen, visuelle Daten zu analysieren und zu interpretieren. Eine der am weitesten verbreiteten und wichtigsten Aufgaben von Computer Vision ist die Objekterkennung. 

Objekterkennung konzentriert sich auf die Lokalisierung und Klassifizierung von Objekten in visuellen Daten. Wenn Sie beispielsweise einem Computer ein Bild einer Kuh zeigen, kann er die Kuh erkennen und einen Begrenzungsrahmen um sie herum zeichnen. Diese Fähigkeit ist nützlich in realen Anwendungen wie Tierüberwachung, selbstfahrenden Autos und Überwachung. 

Wie kann Objekterkennung durchgeführt werden? Eine Möglichkeit sind Computer-Vision-Modelle. Zum Beispiel ist Ultralytics YOLO11 ein Computer-Vision-Modell, das Computer-Vision-Aufgaben wie Objekterkennung unterstützt. 

In diesem Leitfaden werden wir die Objekterkennung und ihre Funktionsweise untersuchen. Wir werden auch einige reale Anwendungen der Objekterkennung und Ultralytics YOLO11 diskutieren.

__wf_reserved_inherit
Abb. 1. Nutzung der YOLO11-Unterstützung für Objekterkennung zur Überwachung von Rindern.

Was ist Objekterkennung? 

Objekterkennung ist eine Computer-Vision-Aufgabe, die Objekte in Bildern oder Videos identifiziert und lokalisiert. Sie beantwortet zwei Schlüsselfragen: 'Welche Objekte befinden sich im Bild?' und 'Wo befinden sie sich?'

Sie können sich die Objekterkennung als einen Prozess vorstellen, der zwei Hauptschritte umfasst. Der erste, die Objekterkennung, ermöglicht es dem System, Objekte zu erkennen und zu kennzeichnen, z. B. eine Katze, ein Auto oder eine Person anhand gelernter Muster zu identifizieren. Der zweite, die Lokalisierung, bestimmt die Position des Objekts, indem es einen Begrenzungsrahmen darum zeichnet, der angibt, wo es im Bild erscheint. Zusammengenommen ermöglichen diese Schritte es Maschinen, Objekte in einer Szene zu erkennen und zu verstehen.

Das Besondere an der Objekterkennung ist ihre Fähigkeit, Objekte zu erkennen und ihre Position genau zu bestimmen. Andere Computer-Vision-Aufgaben konzentrieren sich auf andere Ziele.

Die Bildklassifizierung weist beispielsweise einem gesamten Bild eine Bezeichnung zu. Die Bildsegmentierung hingegen bietet ein Pixel-genaues Verständnis verschiedener Elemente. Die Objekterkennung kombiniert Erkennung mit Lokalisierung. Dies macht sie besonders nützlich für Aufgaben wie das Zählen mehrerer Objekte in Echtzeit.

__wf_reserved_inherit
Abb. 2. Vergleich von Computer-Vision-Aufgaben.

Objekterkennung vs. Objekterkennung

Wenn man sich mit verschiedenen Begriffen der Computer Vision auseinandersetzt, könnte man meinen, Objekterkennung und Objektdetektion seien austauschbar – aber sie dienen unterschiedlichen Zwecken. Ein gutes Beispiel, um den Unterschied zu verstehen, ist die Betrachtung von Gesichtserkennung und Gesichtsdetektion.

Gesichtserkennung ist eine Art der Objekterkennung. Sie identifiziert das Vorhandensein eines Gesichts in einem Bild und markiert seine Position mithilfe einer Bounding Box. Sie beantwortet die Frage: „Wo befindet sich das Gesicht im Bild?“ Diese Technologie wird häufig in Smartphone-Kameras verwendet, die automatisch auf Gesichter fokussieren, oder in Überwachungskameras, die erkennen, wenn eine Person anwesend ist.

Gesichtserkennung hingegen ist eine Form der Objekterkennung. Sie erkennt nicht nur ein Gesicht, sondern identifiziert auch, wessen Gesicht es ist, indem sie einzigartige Merkmale analysiert und mit einer Datenbank vergleicht. Sie beantwortet die Frage: “Wer ist diese Person?” Dies ist die Technologie, die hinter dem Entsperren Ihres Telefons mit Face ID oder Flughafensicherheitssystemen zur Überprüfung von Identitäten steckt.

Einfach ausgedrückt: Objekterkennung findet und lokalisiert Objekte, während Objekterkennung sie klassifiziert und identifiziert. 

__wf_reserved_inherit
Abb. 3. Objekterkennung vs. Objekterfassung. Bild vom Autor.

Viele Objekterkennungsmodelle, wie YOLO11, sind so konzipiert, dass sie die Gesichtserkennung unterstützen, nicht aber die Gesichtserkennung. YOLO11 kann effizient das Vorhandensein eines Gesichts in einem Bild erkennen und einen Begrenzungsrahmen darum zeichnen, was es für Anwendungen wie Überwachungssysteme, Crowd-Monitoring und automatisches Foto-Tagging nützlich macht. Es kann jedoch nicht feststellen, wessen Gesicht es ist. YOLO11 kann mit Modellen integriert werden, die speziell für die Gesichtserkennung trainiert wurden, wie z. B. Facenet oder DeepFace, um sowohl die Erkennung als auch die Identifizierung in einem einzigen System zu ermöglichen.

Verstehen, wie Objekterkennung funktioniert

Bevor wir erörtern, wie Objekterkennung funktioniert, wollen wir uns zunächst genauer ansehen, wie ein Computer ein Bild analysiert. Anstatt ein Bild so zu sehen, wie wir es tun, zerlegt ein Computer es in ein Raster aus winzigen Quadraten, die als Pixel bezeichnet werden. Jedes Pixel enthält Farb- und Helligkeitsinformationen, die Computer verarbeiten können, um visuelle Daten zu interpretieren.

Um diese Pixel zu interpretieren, gruppieren Algorithmen sie anhand von Form, Farbe und Nähe zueinander in sinnvolle Regionen. Modelle zur Objekterkennung, wie YOLO11, können Muster oder Merkmale in diesen Pixelgruppen erkennen. 

Beispielsweise sieht ein selbstfahrendes Auto einen Fußgänger nicht so, wie wir es tun – es erkennt Formen und Muster, die mit den Merkmalen eines Fußgängers übereinstimmen. Diese Modelle basieren auf umfangreichem Training mit beschrifteten Bilddatensätzen, wodurch sie die charakteristischen Merkmale von Objekten wie Autos, Verkehrsschildern und Personen erlernen können.

Ein typisches Objekterkennungsmodell besteht aus drei Hauptteilen: Backbone, Neck und Head. Der Backbone extrahiert wichtige Merkmale aus einem Bild. Der Neck verarbeitet und verfeinert diese Merkmale, während der Head für die Vorhersage von Objektstandorten und deren Klassifizierung verantwortlich ist.

Verfeinerung von Erkennungen und Präsentation von Ergebnissen

Sobald die ersten Erkennungen vorgenommen wurden, werden Nachbearbeitungstechniken angewendet, um die Genauigkeit zu verbessern und redundante Vorhersagen herauszufiltern. Zum Beispiel werden überlappende Begrenzungsrahmen entfernt, um sicherzustellen, dass nur die relevantesten Erkennungen beibehalten werden. Außerdem werden jedem erkannten Objekt Konfidenzwerte (numerische Werte, die angeben, wie sicher sich das Modell ist, dass ein erkanntes Objekt zu einer bestimmten Klasse gehört) zugewiesen, um die Sicherheit des Modells bei seinen Vorhersagen anzugeben.

Schließlich wird die Ausgabe mit Begrenzungsrahmen um erkannte Objekte herum dargestellt, zusammen mit ihren vorhergesagten Klassenbezeichnungen und Konfidenzwerten. Diese Ergebnisse können dann für reale Anwendungen verwendet werden.

Beliebte Objekterkennungsmodelle 

Heutzutage sind viele Computer-Vision-Modelle verfügbar, und einige der beliebtesten sind die Ultralytics YOLO-Modelle. Sie sind bekannt für ihre Geschwindigkeit, Genauigkeit und Vielseitigkeit. Im Laufe der Jahre sind diese Modelle schneller, präziser und in der Lage, ein breiteres Spektrum von Aufgaben zu bewältigen. Die Veröffentlichung von Ultralytics YOLOv5 erleichterte die Bereitstellung mit Frameworks wie PyTorch, so dass mehr Menschen fortschrittliche Vision AI nutzen können, ohne über tiefgreifende technische Expertise zu verfügen.

Aufbauend auf dieser Grundlage führte Ultralytics YOLOv8 neue Funktionen wie Instanzsegmentierung, Pose-Schätzung und Bildklassifizierung ein. Jetzt geht YOLO11 mit einer besseren Leistung bei mehreren Aufgaben noch einen Schritt weiter. Mit 22 % weniger Parametern als YOLOv8m erreicht YOLO11m eine höhere mittlere durchschnittliche Präzision (mAP) auf dem COCO-Datensatz. Einfach ausgedrückt: YOLO11 kann Objekte mit größerer Präzision erkennen und gleichzeitig weniger Ressourcen verbrauchen, was es schneller und zuverlässiger macht.

Ob Sie ein KI-Experte sind oder gerade erst anfangen, YOLO11 bietet eine leistungsstarke und dennoch benutzerfreundliche Lösung für Computer-Vision-Anwendungen.

Benutzerdefiniertes Training eines Modells für Objekterkennung

Das Training von Vision AI-Modellen beinhaltet, Computern zu helfen, Bilder und Videos zu erkennen und zu verstehen. Das Training kann jedoch ein zeitaufwendiger Prozess sein. Anstatt von Grund auf neu zu beginnen, beschleunigt Transfer Learning die Dinge, indem vortrainierte Modelle verwendet werden, die bereits gängige Muster erkennen.

YOLO11 wurde beispielsweise bereits mit dem COCO-Datensatz trainiert, der eine vielfältige Sammlung von Alltagsgegenständen enthält. Dieses vortrainierte Modell kann weiter benutzerdefiniert trainiert werden, um bestimmte Objekte zu erkennen, die möglicherweise nicht im ursprünglichen Datensatz enthalten sind. 

Um YOLO11 benutzerdefiniert zu trainieren, benötigen Sie einen beschrifteten Datensatz, der Bilder der Objekte enthält, die Sie erkennen möchten. Wenn Sie beispielsweise ein Modell erstellen möchten, um verschiedene Obstsorten in einem Lebensmittelgeschäft zu identifizieren, erstellen Sie einen Datensatz mit beschrifteten Bildern von Äpfeln, Bananen, Orangen usw. Sobald der Datensatz vorbereitet ist, kann YOLO11 trainiert werden, wobei Parameter wie Batch-Größe, Lernrate und Epochen angepasst werden, um die Leistung zu optimieren.

Mit diesem Ansatz können Unternehmen YOLO11 trainieren, um alles zu erkennen, von defekten Teilen in der Fertigung bis hin zu Wildtierarten in Naturschutzprojekten, und das Modell so an ihre exakten Bedürfnisse anpassen.

Anwendungsbereiche der Objekterkennung

Als Nächstes wollen wir uns einige Anwendungsfälle der Objekterkennung in der Praxis ansehen und wie sie verschiedene Branchen verändert.

Gefahrenerkennung für autonomes Fahren

Selbstfahrende Autos verwenden Computer-Vision-Aufgaben wie die Objekterkennung, um sicher zu navigieren und Hindernisse zu vermeiden. Diese Technologie hilft ihnen, Fußgänger, andere Fahrzeuge, Schlaglöcher und Straßengefahren zu erkennen, wodurch sie ihre Umgebung besser verstehen können. Sie können schnelle Entscheidungen treffen und sich sicher durch den Verkehr bewegen, indem sie ihre Umgebung ständig analysieren.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für die Verwendung von Objekterkennung zur Erkennung von Schlaglöchern mit YOLO11.

Medizinische Bildanalyse im Gesundheitswesen

Medizinische Bildgebungsverfahren wie Röntgenaufnahmen, MRTs, CT-Scans und Ultraschall erzeugen hochdetaillierte Bilder des menschlichen Körpers, um Krankheiten zu diagnostizieren und zu behandeln. Diese Scans erzeugen große Datenmengen, die Ärzte, wie z. B. Radiologen und Pathologen, sorgfältig analysieren müssen, um Krankheiten zu erkennen. Die detaillierte Überprüfung jedes Bildes kann jedoch zeitaufwändig sein, und menschliche Experten übersehen aufgrund von Müdigkeit oder Zeitdruck manchmal Details.

Objekterkennungsmodelle wie YOLO11 können helfen, indem sie automatisch wichtige Merkmale in medizinischen Scans identifizieren, wie z. B. Organe, Tumore oder Anomalien, und das mit hoher Genauigkeit. Kundenspezifisch trainierte Modelle können Problembereiche mit Begrenzungsrahmen hervorheben und so Ärzten helfen, sich schneller auf potenzielle Probleme zu konzentrieren. Dies reduziert die Arbeitsbelastung, verbessert die Effizienz und liefert schnelle Erkenntnisse.

__wf_reserved_inherit
Abb. 5. Analyse medizinischer Bilder mit YOLO11.

Erhöhung der Sicherheit durch Personen- und Anomalieerkennung

Objektverfolgung ist eine Aufgabe der Computer Vision, die von YOLO11 unterstützt wird und Echtzeitüberwachung und Sicherheitsverbesserungen ermöglicht. Sie baut auf der Objekterkennung auf, indem sie Objekte identifiziert und ihre Bewegung kontinuierlich über Frames hinweg verfolgt. Diese Technologie wird häufig in Überwachungssystemen eingesetzt, um die Sicherheit in verschiedenen Umgebungen zu verbessern.

In Schulen und Kindertagesstätten kann die Objektverfolgung beispielsweise dazu beitragen, Kinder zu überwachen und zu verhindern, dass sie sich verirren. In Sicherheitsanwendungen spielt sie eine Schlüsselrolle bei der Erkennung von Eindringlingen in Sperrbereichen, der Überwachung von Menschenmassen auf Überfüllung oder verdächtiges Verhalten und dem Senden von Echtzeitwarnungen, wenn unbefugte Aktivitäten festgestellt werden. Durch die Verfolgung von Objekten in Bewegung verbessern YOLO11-basierte Tracking-Systeme die Sicherheit, automatisieren die Überwachung und ermöglichen schnellere Reaktionen auf potenzielle Bedrohungen.

Vor- und Nachteile der Objekterkennung

Hier sind einige der wichtigsten Vorteile, die Objekterkennung in verschiedenen Branchen mit sich bringen kann:

  • Automatisierung: Objekterkennung kann dazu beitragen, den Bedarf an menschlicher Überwachung bei Aufgaben wie der Überwachung von CCTV-Aufnahmen zu reduzieren.
  • Funktioniert mit anderen KI-Modellen: Es kann mit Gesichtserkennung, Handlungserkennung und Tracking-Systemen integriert werden, um die Genauigkeit und Funktionalität zu verbessern.
  • Echtzeitverarbeitung: Viele Modelle zur Objekterkennung, wie YOLO11, sind schnell und effizient, wodurch sie sich ideal für Echtzeitanwendungen eignen, die sofortige Ergebnisse erfordern. 

Während diese Vorteile verdeutlichen, wie sich Objekterkennung auf verschiedene Anwendungsfälle auswirkt, ist es auch wichtig, die Herausforderungen zu berücksichtigen, die mit ihrer Implementierung verbunden sind. Hier sind einige der wichtigsten Herausforderungen:

  • Datenschutz: Die Verwendung von visuellen Daten, insbesondere in sensiblen Bereichen wie Überwachung oder Gesundheitswesen, kann Datenschutz- und Sicherheitsbedenken aufwerfen.
  • Verdeckung (Occlusion): Verdeckung in der Objekterkennung tritt auf, wenn Objekte teilweise blockiert oder verdeckt sind, was es dem Modell erschwert, sie genau zu erkennen und zu klassifizieren.
  • Rechenintensiv: Hochleistungsmodelle benötigen oft leistungsstarke GPUs (Graphics Processing Units) für die Verarbeitung, was die Echtzeitbereitstellung kostspielig macht.

Wesentliche Erkenntnisse

Objekterkennung ist ein bahnbrechendes Werkzeug in der Computer Vision, das Maschinen hilft, Objekte in Bildern und Videos zu erkennen und zu lokalisieren. Sie wird in verschiedenen Sektoren eingesetzt, von selbstfahrenden Autos bis hin zum Gesundheitswesen, wodurch Aufgaben einfacher, sicherer und effizienter werden. Mit neueren Modellen wie YOLO11 können Unternehmen auf einfache Weise benutzerdefinierte Objekterkennungsmodelle erstellen, um spezialisierte Computer-Vision-Anwendungen zu entwickeln. 

Obwohl es einige Herausforderungen gibt, wie z. B. Datenschutzbedenken und Objekte, die nicht sichtbar sind, ist Objekterkennung eine zuverlässige Technologie. Ihre Fähigkeit, Aufgaben zu automatisieren, visuelle Daten in Echtzeit zu verarbeiten und sich in andere Vision-AI-Tools zu integrieren, macht sie zu einem wesentlichen Bestandteil modernster Innovationen.

Für weitere Informationen besuchen Sie unser GitHub-Repository und treten Sie mit unserer Community in Kontakt. Entdecken Sie Innovationen in Bereichen wie KI in selbstfahrenden Autos und Computer Vision in der Landwirtschaft auf unseren Lösungsseiten. Informieren Sie sich über unsere YOLO-Lizenzierungsoptionen und erwecken Sie Ihre Vision-AI-Projekte zum Leben. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert