Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Cookie-Einstellungen
Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Tauchen Sie mit uns tief in die Anwendungen der Computer Vision ein. Wir werden auch verschiedene Bildverarbeitungsaufgaben wie Objekterkennung und Segmentierung durchgehen.
Als wir die Geschichte der Computer-Vision-Modelle erforschten, sahen wir, wie sich die Computer-Vision entwickelt hat und welcher Weg zu den fortschrittlichen Vision-Modellen geführt hat, die wir heute haben. Moderne Modelle wie Ultralytics YOLOv8 unterstützen mehrere Computer-Vision-Aufgaben und werden in verschiedenen spannenden Anwendungen eingesetzt.
In diesem Artikel werfen wir einen Blick auf die Grundlagen der Computer Vision und der Vision-Modelle. Wir gehen auf ihre Funktionsweise und ihre vielfältigen Anwendungen in verschiedenen Branchen ein. Innovationen im Bereich der Computer Vision sind allgegenwärtig und prägen unsere Welt im Stillen. Lassen Sie uns eine nach der anderen aufdecken!
Was ist Computer Vision?
Künstliche Intelligenz (KI) ist ein Oberbegriff, der viele Technologien umfasst, die darauf abzielen, einen Teil der menschlichen Intelligenz nachzubilden. Ein solcher Teilbereich der KI ist die Computer Vision. Beim Computersehen geht es darum, Maschinen mit Augen auszustatten, die ihre Umgebung sehen, beobachten und begreifen können.
Genau wie beim menschlichen Sehen geht es bei Computer-Vision-Lösungen darum, Objekte zu unterscheiden, Entfernungen zu berechnen und Bewegungen zu erkennen. Im Gegensatz zum Menschen, der über lebenslange Erfahrungen verfügt, die ihm beim Sehen und Verstehen helfen, sind Computer jedoch auf riesige Datenmengen, hochauflösende Kameras und komplexe Algorithmen angewiesen.
Abb. 1. Vergleich zwischen menschlichem Sehen und Computer Vision.
Computer-Vision-Systeme können visuelle Daten wie Bilder und Videos mit unglaublicher Geschwindigkeit und Genauigkeit verarbeiten und analysieren. Die Fähigkeit, große Mengen an visuellen Informationen schnell und genau zu analysieren, macht die Computer Vision zu einem leistungsstarken Werkzeug in verschiedenen Branchen, von der Fertigung bis zum Gesundheitswesen.
Bildverarbeitungsmodelle unterstützen verschiedene Computer-Vision-Aufgaben
Computer-Vision-Modelle sind das Herzstück jeder Computer-Vision-Anwendung. Es handelt sich dabei im Wesentlichen um Berechnungsalgorithmen, die mit Hilfe von Deep-Learning-Techniken entwickelt wurden, um Maschinen die Fähigkeit zu verleihen, visuelle Informationen zu interpretieren und zu verstehen. Bildverarbeitungsmodelle ermöglichen wichtige Bildverarbeitungsaufgaben, von der Bildklassifizierung bis zur Objekterkennung. Schauen wir uns einige dieser Aufgaben und ihre Anwendungsfälle genauer an.
Klassifizierung von Bildern
Bei der Bildklassifizierung geht es um die Einteilung und Kennzeichnung von Bildern in vordefinierte Klassen oder Kategorien. Ein Bildverarbeitungsmodell wie YOLOv8 kann auf großen Datensätzen mit beschrifteten Bildern trainiert werden. Während des Trainings lernt das Modell, die mit jeder Klasse verbundenen Muster und Merkmale zu erkennen. Einmal trainiert, kann es die Kategorie neuer, ungesehener Bilder vorhersagen, indem es deren Merkmale analysiert und mit den gelernten Mustern vergleicht.
Abb. 2. Ein Beispiel für eine Bildklassifizierung. (Quelle: towardsdatascience.com)
Es gibt verschiedene Arten der Bildklassifizierung. Bei medizinischen Bildern kann man beispielsweise die binäre Klassifizierung verwenden, um die Bilder in zwei Gruppen einzuteilen, z. B. gesund oder krank. Eine andere Art ist die Multiklassenklassifizierung. Sie kann dabei helfen, Bilder in viele Gruppen einzuteilen, z. B. die verschiedenen Tiere auf einem Bauernhof wie Schweine, Ziegen und Kühe zu klassifizieren. Wenn Sie Tiere in Gruppen und Untergruppen einteilen möchten, z. B. in Säugetiere und Vögel und dann weiter in Arten wie Löwen, Tiger, Adler und Spatzen, ist die hierarchische Klassifizierung die beste Option.
Erkennung von Objekten
Die Objekterkennung ist der Prozess der Identifizierung und Lokalisierung von Objekten in Bildern und Videoframes mit Hilfe der Computer Vision. Sie besteht aus zwei Aufgaben: der Objektlokalisierung, bei der Bounding Boxes um Objekte gezeichnet werden, und der Objektklassifizierung, bei der die Kategorie eines jeden Objekts bestimmt wird. Auf der Grundlage von Bounding-Box-Kommentaren kann ein Bildverarbeitungsmodell lernen, Muster und Merkmale zu erkennen, die für jede Objektkategorie spezifisch sind, und das Vorhandensein und die Position dieser Objekte in neuen, ungesehenen Bildern vorhersagen.
Abb. 3. YOLOv8-Objekterkennung zur Erkennung von Spielern auf einem Fußballfeld.
Für die Objekterkennung gibt es viele Anwendungsfälle in verschiedenen Branchen, vom Sport bis zur Meeresbiologie. Im Einzelhandel beispielsweise nutzt die Just Walk Out-Technologie von Amazon die Objekterkennung, um den Kassiervorgang zu automatisieren, indem die von den Kunden mitgenommenen Artikel identifiziert werden. Eine Kombination aus Computer Vision und Sensordaten ermöglicht es den Kunden, ihre Artikel zu nehmen und zu gehen, ohne in der Schlange zu warten.
Hier ein genauerer Blick darauf, wie es funktioniert:
An der Decke montierte Kameras erfassen die Bewegungen der Kunden im Geschäft, und dieses Videomaterial wird von Bildverarbeitungsmodellen in Echtzeit verarbeitet.
Die Objekterkennung dient dazu, das genaue Produkt zu erkennen, das ein Kunde auswählt und in seinen Korb legt, um den virtuellen Warenkorb entsprechend zu aktualisieren.
Gewichtssensoren in den Regalen verbessern die Genauigkeit, indem sie die Entnahme oder den Austausch von Artikeln erkennen.
Wenn der Kunde das Geschäft verlässt, können Objekterkennung und Gesichtserkennungstechnologie eingesetzt werden, um zu bestätigen, dass der Kunde das Geschäft verlassen hat, und seine Zahlungsdaten, z. B. eine Kreditkarte, können verwendet werden, um ihn automatisch zu belasten.
Semantische und instanzielle Segmentierung
Semantische Segmentierung und Instanzsegmentierung sind Aufgaben der Computer Vision, die dazu beitragen, Bilder in sinnvolle Segmente zu unterteilen. Die semantische Segmentierung klassifiziert Pixel auf der Grundlage ihrer semantischen Bedeutung und behandelt alle Objekte innerhalb einer Kategorie als eine einzige Einheit mit demselben Label. Sie eignet sich für die Kennzeichnung von nicht zählbaren Objekten wie "Himmel" oder "Meer" oder von Clustern wie "Blätter" oder "Gras".
Die Instanzsegmentierung hingegen kann verschiedene Instanzen derselben Klasse unterscheiden, indem sie jedem erkannten Objekt eine eindeutige Bezeichnung zuweist. Sie können die Instanzsegmentierung verwenden, um zählbare Objekte zu segmentieren, bei denen die Anzahl und die Unabhängigkeit der Objekte wichtig sind. Sie ermöglicht eine genauere Identifizierung und Unterscheidung.
Abbildung 4. Ein Beispiel für die semantische und instanzielle Segmentierung.
Der Unterschied zwischen semantischer und instanzieller Segmentierung lässt sich anhand eines Beispiels aus dem Bereich der selbstfahrenden Autos besser verstehen. Die semantische Segmentierung eignet sich hervorragend für Aufgaben, die ein Verständnis des Inhalts einer Szene erfordern, und kann in autonomen Fahrzeugen zur Klassifizierung von Merkmalen auf der Straße, wie Fußgängerüberwegen und Verkehrsschildern, verwendet werden. Die Instanzsegmentierung kann in autonomen Fahrzeugen dazu verwendet werden, zwischen einzelnen Fußgängern, Fahrzeugen und Hindernissen zu unterscheiden.
Schätzung der Pose
Bei der Posenschätzung handelt es sich um eine Aufgabe der Computer Vision, die sich auf die Erkennung und Verfolgung von Schlüsselpunkten der Posen eines Objekts in Bildern oder Videos konzentriert. Sie wird am häufigsten für die Schätzung der menschlichen Pose verwendet, wobei die Schlüsselpunkte Bereiche wie Schultern und Knie umfassen. Die Schätzung der menschlichen Pose hilft uns, Handlungen und Bewegungen zu verstehen und zu erkennen, die für verschiedene Anwendungen wichtig sind.
Abb. 5. Ein Beispiel für eine Posenschätzung mit YOLOv8.
Die Posenschätzung kann im Sport verwendet werden, um zu analysieren, wie sich Sportler bewegen. Die NBA verwendet die Posenschätzung, um die Bewegungen und Positionen der Spieler während des Spiels zu untersuchen. Durch die Verfolgung von Schlüsselpunkten wie Schultern, Ellbogen, Knien und Knöcheln liefert die Pose Estimation detaillierte Einblicke in die Bewegungen der Spieler. Diese Erkenntnisse helfen Trainern, bessere Strategien zu entwickeln, Trainingsprogramme zu optimieren und während des Spiels Anpassungen in Echtzeit vorzunehmen. Außerdem können die Daten helfen, die Ermüdung der Spieler und das Verletzungsrisiko zu überwachen, um die allgemeine Gesundheit und Leistung der Spieler zu verbessern.
Oriented Bounding Boxes - Objekterkennung
Die Objekterkennung mit Oriented Bounding Boxes (OBB) verwendet gedrehte Rechtecke, um Objekte in einem Bild präzise zu identifizieren und zu lokalisieren. Im Gegensatz zu standardmäßigen Bounding Boxes, die sich an den Bildachsen ausrichten, werden OBBs gedreht, um der Ausrichtung des Objekts zu entsprechen. Das macht sie besonders nützlich für Objekte, die nicht perfekt horizontal oder vertikal sind. Sie eignen sich hervorragend zur genauen Lokalisierung und Isolierung gedrehter Objekte, um Überschneidungen in überfüllten Umgebungen zu vermeiden.
Abb. 6. Ein Beispiel für die orientierte Bounding Box-Erkennung auf einem Luftbild von Booten mit YOLOV8.
Bei der Überwachung des Seeverkehrs ist die Identifizierung und Verfolgung von Schiffen für die Sicherheit und das Ressourcenmanagement von entscheidender Bedeutung. Die OBB-Erkennung kann zur präzisen Lokalisierung von Schiffen verwendet werden, selbst wenn diese dicht gedrängt oder in verschiedenen Winkeln ausgerichtet sind. Sie hilft bei der Überwachung von Schifffahrtswegen, der Steuerung des Seeverkehrs und der Optimierung des Hafenbetriebs. Sie kann auch bei der Katastrophenhilfe helfen, indem sie Schäden an Schiffen und Infrastruktur nach Ereignissen wie Wirbelstürmen oder Ölverschmutzungen schnell identifiziert und bewertet.
Objektverfolgung
Bisher haben wir uns mit Bildverarbeitungsaufgaben beschäftigt, die sich mit Bildern befassen. Bei der Objektverfolgung handelt es sich um eine Bildverarbeitungsaufgabe, mit der ein Objekt über die einzelnen Bilder eines Videos hinweg verfolgt werden kann. Zunächst wird das Objekt im ersten Bild mit Hilfe von Erkennungsalgorithmen identifiziert, und dann wird seine Position kontinuierlich verfolgt, während es sich durch das Video bewegt. Die Objektverfolgung umfasst Techniken wie Objekterkennung, Merkmalsextraktion und Bewegungsvorhersage, um die Verfolgung genau zu halten.
Abb. 7. Verwendung von YOLOv8 zur Fischverfolgung.
Bildverarbeitungsmodelle wie YOLOv8 können in der Meeresbiologie zur Verfolgung von Fischen eingesetzt werden. Mit Unterwasserkameras können Forscher die Bewegungen und das Verhalten von Fischen in ihren natürlichen Lebensräumen überwachen. Der Prozess beginnt mit der Erkennung einzelner Fische in den ersten Bildern und verfolgt dann ihre Position im gesamten Video. Die Verfolgung von Fischen hilft Wissenschaftlern, Migrationsmuster, soziales Verhalten und Interaktionen mit der Umwelt zu verstehen. Außerdem unterstützt es nachhaltige Fischereipraktiken, indem es Einblicke in die Verteilung und den Bestand von Fischen gibt.
Ein letzter Blick auf die Computer Vision
Die computergestützte Bildverarbeitung verändert aktiv die Art und Weise, wie wir Technologie nutzen und mit der Welt interagieren. Durch den Einsatz von Deep-Learning-Modellen und komplexen Algorithmen zum Verstehen von Bildern und Videos hilft die Computer Vision der Industrie, viele Prozesse zu optimieren. Bildverarbeitungsaufgaben wie die Objekterkennung und -verfolgung ermöglichen die Entwicklung von Lösungen, die man sich vorher nicht vorstellen konnte. Da die Bildverarbeitungstechnologie immer besser wird, wird die Zukunft viele weitere innovative Anwendungen bereithalten!
Lassen Sie uns gemeinsam lernen und wachsen! Erkunden Sie unser GitHub-Repository, um unsere Beiträge zur KI zu sehen. Sehen Sie sich an, wie wir Branchen wie selbstfahrende Autos und die Landwirtschaft mit KI neu definieren. 🚀