Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Cookie-Einstellungen
Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Erfahren Sie mehr über Objekterkennung, ihre Bedeutung in der KI und wie Modelle wie YOLO11 Branchen wie selbstfahrende Autos, Gesundheitswesen und Sicherheit verändern.
In vielen Branchen werden Lösungen der künstlichen Intelligenz (KI) rasch in die Arbeitsabläufe integriert. Unter den vielen KI-Technologien, die heute verfügbar sind, ist die Computer Vision eine der beliebtesten. Computervision ist ein Teilbereich der KI, der Computern hilft, den Inhalt von Bildern und Videos zu sehen und zu verstehen, genau wie Menschen es tun. Sie ermöglicht es Maschinen, Objekte zu erkennen, Muster zu identifizieren und dem, was sie sehen, einen Sinn zu geben.
Der Wert des weltweiten Marktes für Computer Vision wird bis 2032 auf 175,72 Milliarden Dollar geschätzt. Computer Vision umfasst verschiedene Aufgaben, die es Vision AI Systemen ermöglichen, visuelle Daten zu analysieren und zu interpretieren. Eine der am häufigsten verwendeten und wichtigsten Aufgaben der Computer Vision ist die Objekterkennung.
Die Objekterkennung konzentriert sich auf die Lokalisierung und Klassifizierung von Objekten in visuellen Daten. Zeigt man einem Computer beispielsweise das Bild einer Kuh, kann er die Kuh erkennen und einen Begrenzungsrahmen um sie ziehen. Diese Fähigkeit ist in realen Anwendungen wie der Tierüberwachung, selbstfahrenden Autos und der Überwachung nützlich.
Wie kann also eine Objekterkennung durchgeführt werden? Eine Möglichkeit ist der Einsatz von Computer-Vision-Modellen. Ultralytics YOLO11 zum Beispiel ist ein Computer-Vision-Modell, das Computer-Vision-Aufgaben wie die Objekterkennung unterstützt.
In diesem Leitfaden werden wir uns mit der Objekterkennung und ihrer Funktionsweise befassen. Wir werden auch einige reale Anwendungen der Objekterkennung und Ultralytics YOLO11 besprechen.
Abb. 1. Verwendung der YOLO11-Unterstützung für die Objekterkennung zur Überwachung von Rindern.
Was ist Objekterkennung?
Die Objekterkennung ist eine Aufgabe der Computer Vision, die Objekte in Bildern oder Videos identifiziert und lokalisiert. Sie beantwortet zwei Schlüsselfragen: Welche Objekte befinden sich im Bild?" und "Wo befinden sie sich?".
Man kann sich die Objekterkennung als einen Prozess vorstellen, der zwei wichtige Schritte umfasst. Der erste, die Objektklassifizierung, ermöglicht es dem System, Objekte zu erkennen und zu beschriften, z. B. eine Katze, ein Auto oder eine Person auf der Grundlage gelernter Muster zu identifizieren. Im zweiten Schritt, der Lokalisierung, wird die Position des Objekts bestimmt, indem ein Begrenzungsrahmen (Bounding Box) um das Objekt gezogen wird, der angibt, wo es im Bild erscheint. Zusammen ermöglichen diese Schritte Maschinen, Objekte in einer Szene zu erkennen und zu verstehen.
Das Besondere an der Objekterkennung ist ihre Fähigkeit, Objekte zu erkennen und ihren Standort genau zu bestimmen. Andere Aufgaben der Computer Vision konzentrieren sich auf andere Ziele.
Bei der Bildklassifizierung wird beispielsweise einem ganzen Bild eine Bezeichnung zugewiesen. Die Bildsegmentierung hingegen ermöglicht ein Verständnis der verschiedenen Elemente auf Pixelebene. Die Objekterkennung hingegen kombiniert die Erkennung mit der Lokalisierung. Das macht sie besonders nützlich für Aufgaben wie das Zählen mehrerer Objekte in Echtzeit.
Wenn Sie sich mit den verschiedenen Begriffen der Computer Vision befassen, haben Sie vielleicht das Gefühl, dass Objekterkennung und Objekterfassung austauschbar sind - aber sie dienen unterschiedlichen Zwecken. Eine gute Möglichkeit, den Unterschied zu verstehen, ist die Betrachtung von Gesichtserkennung und Gesichtsdetektion.
Die Gesichtserkennung ist eine Art der Objekterkennung. Sie identifiziert das Vorhandensein eines Gesichts in einem Bild und markiert seine Position mithilfe eines Begrenzungsrahmens. Sie beantwortet die Frage: "Wo ist das Gesicht im Bild?" Diese Technologie wird häufig in Smartphone-Kameras eingesetzt, die automatisch auf Gesichter fokussieren, oder in Sicherheitskameras, die die Anwesenheit einer Person erkennen.
Die Gesichtserkennung hingegen ist eine Form der Objekterkennung. Sie erkennt nicht nur ein Gesicht, sondern identifiziert, um wessen Gesicht es sich handelt, indem sie einzigartige Merkmale analysiert und mit einer Datenbank vergleicht. Sie beantwortet die Frage: "Wer ist diese Person?" Diese Technologie steckt hinter der Entsperrung Ihres Telefons mit Face ID oder den Sicherheitssystemen an Flughäfen, die Identitäten überprüfen.
Einfach ausgedrückt: Die Objekterkennung findet und lokalisiert Objekte, während die Objekterkennung sie klassifiziert und identifiziert.
Abb. 3. Objektdetektion vs. Objekterkennung. Bild vom Autor.
Viele Modelle zur Objekterkennung, wie YOLO11, sind für die Erkennung von Gesichtern konzipiert, nicht aber für die Gesichtserkennung. YOLO11 kann das Vorhandensein eines Gesichts in einem Bild effizient identifizieren und eine Bounding Box um das Gesicht zeichnen, was es für Anwendungen wie Überwachungssysteme, die Überwachung von Menschenmengen und die automatische Kennzeichnung von Fotos nützlich macht. Allerdings kann es nicht feststellen, wessen Gesicht es ist. YOLO11 kann mit speziell für die Gesichtserkennung trainierten Modellen wie Facenet oder DeepFace integriert werden, um sowohl die Erkennung als auch die Identifizierung in einem einzigen System zu ermöglichen.
Verstehen, wie die Objekterkennung funktioniert
Bevor wir erörtern, wie die Objekterkennung funktioniert, sollten wir uns zunächst genauer ansehen, wie ein Computer ein Bild analysiert. Anstatt ein Bild so zu sehen, wie wir es tun, zerlegt ein Computer es in ein Gitter aus winzigen Quadraten, die Pixel genannt werden. Jedes Pixel enthält Farb- und Helligkeitsinformationen, die Computer verarbeiten können, um visuelle Daten zu interpretieren.
Um diesen Pixeln einen Sinn zu geben, gruppieren Algorithmen sie auf der Grundlage von Form, Farbe und ihrer Nähe zueinander in sinnvolle Regionen. Modelle zur Objekterkennung, wie YOLO11, können Muster oder Merkmale in diesen Pixelgruppen erkennen.
Ein selbstfahrendes Auto zum Beispiel sieht einen Fußgänger nicht so wie wir - es erkennt Formen und Muster, die den Merkmalen eines Fußgängers entsprechen. Diese Modelle beruhen auf umfangreichem Training mit markierten Bilddatensätzen, wodurch sie die besonderen Merkmale von Objekten wie Autos, Verkehrsschildern und Menschen lernen können.
Ein typisches Objekterkennungsmodell besteht aus drei Hauptteilen: Rückgrat, Hals und Kopf. Das Rückgrat extrahiert wichtige Merkmale aus einem Bild. Der Hals verarbeitet und verfeinert diese Merkmale, während der Kopf für die Vorhersage von Objektpositionen und deren Klassifizierung zuständig ist.
Verfeinerung der Erkennungen und Präsentation der Ergebnisse
Sobald die ersten Erkennungen erfolgt sind, werden Nachbearbeitungstechniken angewandt, um die Genauigkeit zu verbessern und redundante Vorhersagen herauszufiltern. So werden beispielsweise überlappende Bounding Boxes entfernt, um sicherzustellen, dass nur die relevantesten Erkennungen beibehalten werden. Außerdem werden jedem erkannten Objekt Konfidenzwerte (numerische Werte, die angeben, wie sicher das Modell ist, dass ein erkanntes Objekt zu einer bestimmten Klasse gehört) zugewiesen, um die Gewissheit des Modells in Bezug auf seine Vorhersagen anzuzeigen.
Abschließend werden die Ergebnisse in Form von Begrenzungsrahmen um die erkannten Objekte herum dargestellt, zusammen mit den vorhergesagten Klassenbezeichnungen und Vertrauenswerten. Diese Ergebnisse können dann für reale Anwendungen verwendet werden.
Beliebte Modelle zur Objekterkennung
Heutzutage gibt es viele Computer-Vision-Modelle, und einige der beliebtesten sind die YOLO-Modelle von Ultralytics. Sie sind für ihre Geschwindigkeit, Genauigkeit und Vielseitigkeit bekannt. Im Laufe der Jahre sind diese Modelle schneller und präziser geworden und können ein breiteres Spektrum an Aufgaben bewältigen. Mit der Veröffentlichung von Ultralytics YOLOv5 wurde die Bereitstellung mit Frameworks wie PyTorch vereinfacht, so dass mehr Menschen fortschrittliche Vision AI nutzen können, ohne über tiefgreifende technische Kenntnisse verfügen zu müssen.
Aufbauend auf dieser Grundlage wurden mit Ultralytics YOLOv8 neue Funktionen wie Instanzsegmentierung, Posenschätzung und Bildklassifizierung eingeführt. Jetzt geht YOLO11 noch einen Schritt weiter und verbessert die Leistung bei verschiedenen Aufgaben. Mit 22% weniger Parametern als YOLOv8m erreicht YOLO11m eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz. Einfach ausgedrückt: YOLO11 kann Objekte mit höherer Präzision erkennen und verbraucht dabei weniger Ressourcen, was es schneller und zuverlässiger macht.
Ob Sie ein KI-Experte sind oder gerade erst anfangen, YOLO11 bietet eine leistungsstarke und dennoch benutzerfreundliche Lösung für Computer-Vision-Anwendungen.
Benutzerdefiniertes Training eines Modells zur Objekterkennung
Beim Training von KI-Modellen geht es darum, Computern beim Erkennen und Verstehen von Bildern und Videos zu helfen. Allerdings kann das Training ein zeitaufwändiger Prozess sein. Anstatt bei Null anzufangen, beschleunigt das Transfer-Lernen die Dinge, indem es bereits trainierte Modelle verwendet, die bereits gängige Muster erkennen.
YOLO11 wurde zum Beispiel bereits auf dem COCO-Datensatz trainiert, der eine Vielzahl von Alltagsgegenständen enthält. Dieses vortrainierte Modell kann individuell weiter trainiert werden, um bestimmte Objekte zu erkennen, die im ursprünglichen Datensatz nicht enthalten sind.
Um YOLO11 individuell zu trainieren, benötigen Sie einen beschrifteten Datensatz mit Bildern der Objekte, die Sie erkennen möchten. Wenn Sie beispielsweise ein Modell zur Erkennung verschiedener Obstsorten in einem Lebensmittelladen erstellen möchten, würden Sie einen Datensatz mit beschrifteten Bildern von Äpfeln, Bananen, Orangen usw. erstellen. Sobald der Datensatz vorbereitet ist, kann YOLO11 trainiert werden, indem Parameter wie Stapelgröße, Lernrate und Epochen angepasst werden, um die Leistung zu optimieren.
Mit diesem Ansatz können Unternehmen YOLO11 darauf trainieren, alles zu erkennen, von defekten Teilen in der Fertigung bis hin zu Wildtierarten in Naturschutzprojekten, und das Modell genau auf ihre Bedürfnisse zuschneiden.
Anwendungen der Objekterkennung
Werfen wir nun einen Blick auf einige der realen Anwendungsfälle der Objekterkennung und wie sie verschiedene Branchen verändert.
Gefahrenerkennung für autonomes Fahren
Selbstfahrende Autos nutzen Computer-Vision-Aufgaben wie die Objekterkennung, um sicher zu navigieren und Hindernissen auszuweichen. Diese Technologie hilft ihnen, Fußgänger, andere Fahrzeuge, Schlaglöcher und Gefahrenstellen auf der Straße zu erkennen, so dass sie ihre Umgebung besser einschätzen können. Durch die ständige Analyse ihrer Umgebung können sie schnelle Entscheidungen treffen und sich sicher durch den Verkehr bewegen.
Abb. 4. Ein Beispiel für die Verwendung der Objekterkennung zur Erkennung von Schlaglöchern mit YOLO11.
Medizinische Bildanalyse im Gesundheitswesen
Mit bildgebenden Verfahren wie Röntgen, MRT, CT und Ultraschall werden sehr detaillierte Bilder des menschlichen Körpers erstellt, um die Diagnose und Behandlung von Krankheiten zu erleichtern. Diese Scans erzeugen große Datenmengen, die Ärzte, wie Radiologen und Pathologen, sorgfältig analysieren müssen, um Krankheiten zu erkennen. Die detaillierte Überprüfung jedes einzelnen Bildes kann jedoch sehr zeitaufwändig sein, und menschliche Experten können aufgrund von Müdigkeit oder Zeitmangel manchmal Details übersehen.
Objekterkennungsmodelle wie YOLO11 können helfen, indem sie wichtige Merkmale in medizinischen Scans, wie z. B. Organe, Tumore oder Anomalien, automatisch und mit hoher Genauigkeit identifizieren. Individuell trainierte Modelle können problematische Bereiche mit Bounding Boxes hervorheben und Ärzten helfen, sich schneller auf potenzielle Probleme zu konzentrieren. Dies reduziert die Arbeitsbelastung, verbessert die Effizienz und liefert schnelle Erkenntnisse.
Abb. 5. Analyse von medizinischen Bildern mit YOLO11.
Erhöhung der Sicherheit durch Erkennung von Personen und Anomalien
Die Objektverfolgung ist eine von YOLO11 unterstützte Bildverarbeitungsaufgabe, die Echtzeitüberwachung und Sicherheitsverbesserungen ermöglicht. Sie baut auf der Objekterkennung auf, indem sie Objekte identifiziert und ihre Bewegung kontinuierlich über Frames hinweg verfolgt. Diese Technologie wird häufig in Überwachungssystemen eingesetzt, um die Sicherheit in verschiedenen Umgebungen zu verbessern.
In Schulen und Kindertagesstätten zum Beispiel kann die Objektverfolgung dabei helfen, Kinder zu überwachen und zu verhindern, dass sie sich verlaufen. In Sicherheitsanwendungen spielt es eine Schlüsselrolle bei der Erkennung von Eindringlingen in gesperrten Bereichen, bei der Überwachung von Menschenmengen auf Überfüllung oder verdächtiges Verhalten und bei der Versendung von Echtzeitwarnungen, wenn unerlaubte Aktivitäten festgestellt werden. Durch die Verfolgung von Objekten, während sie sich bewegen, verbessern YOLO11-betriebene Ortungssysteme die Sicherheit, automatisieren die Überwachung und ermöglichen eine schnellere Reaktion auf potenzielle Bedrohungen.
Vor- und Nachteile der Objekterkennung
Hier sind einige der wichtigsten Vorteile, die die Objekterkennung in verschiedenen Branchen bieten kann:
Automatisierung: Die Objekterkennung kann dazu beitragen, den Bedarf an menschlicher Aufsicht bei Aufgaben wie der Überwachung von CCTV-Bildern zu verringern.
Funktioniert mit anderen KI-Modellen: Es kann mit Gesichtserkennung, Handlungserkennung und Tracking-Systemen integriert werden, um die Genauigkeit und Funktionalität zu verbessern.
Verarbeitung in Echtzeit: Viele Modelle zur Objekterkennung, wie YOLO11, sind schnell und effizient und daher ideal für Echtzeitanwendungen, die sofortige Ergebnisse erfordern.
Diese Vorteile verdeutlichen zwar, wie sich die Objekterkennung auf verschiedene Anwendungsfälle auswirkt, aber es ist auch wichtig, die Herausforderungen bei der Implementierung zu berücksichtigen. Hier sind einige der wichtigsten Herausforderungen:
Datenschutz: Die Verwendung visueller Daten, insbesondere in sensiblen Bereichen wie der Überwachung oder der Gesundheitsfürsorge, kann Datenschutz- und Sicherheitsfragen aufwerfen.
Verdeckungen: Okklusion bei der Objekterkennung tritt auf, wenn Objekte teilweise blockiert oder verdeckt sind, so dass es für das Modell schwierig ist, sie genau zu erkennen und zu klassifizieren.
Rechenintensiv: Leistungsstarke Modelle erfordern oft leistungsstarke GPUs (Graphics Processing Units) für die Verarbeitung, was den Einsatz in Echtzeit kostspielig macht.
Die wichtigsten Erkenntnisse
Die Objekterkennung ist ein bahnbrechendes Werkzeug der Computer Vision, mit dem Maschinen Objekte in Bildern und Videos erkennen und lokalisieren können. Sie wird in Bereichen von selbstfahrenden Autos bis hin zum Gesundheitswesen eingesetzt und macht Aufgaben einfacher, sicherer und effizienter. Mit neueren Modellen wie YOLO11 können Unternehmen auf einfache Weise benutzerdefinierte Objekterkennungsmodelle erstellen, um spezielle Computer-Vision-Anwendungen zu entwickeln.
Auch wenn es einige Herausforderungen gibt, wie z. B. Bedenken hinsichtlich des Datenschutzes und nicht sichtbarer Objekte, ist die Objekterkennung eine zuverlässige Technologie. Ihre Fähigkeit, Aufgaben zu automatisieren, visuelle Daten in Echtzeit zu verarbeiten und sich in andere Vision-KI-Tools zu integrieren, macht sie zu einem wesentlichen Bestandteil modernster Innovationen.