Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.

Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.
Dank Kameras und Fortschritten bei der künstlichen Intelligenz (KI) sind Computer und Maschinen heute in der Lage, die Welt auf ähnliche Weise zu sehen wie Menschen. Sie können zum Beispiel Menschen erkennen, Objekte verfolgen und sogar den Kontext des Geschehens in einem Video verstehen.
Computer Vision ist der Teilbereich der künstlichen Intelligenz, der es Maschinen ermöglicht, visuelle Informationen aus ihrer Umgebung zu verstehen und zu interpretieren. Die Computer Vision umfasst eine Vielzahl von Aufgaben, die jeweils dazu dienen, eine bestimmte Art von Erkenntnissen aus Bildern oder Videos zu gewinnen. So hilft beispielsweise die Objekterkennung bei der Identifizierung und Lokalisierung verschiedener Objekte in einem Bild, während andere Aufgaben wie Verfolgung, Segmentierung und Posenschätzung Maschinen helfen, Bewegungen, Formen und Positionen genauer zu verstehen.
Welche Bildverarbeitungsaufgabe für eine bestimmte Anwendung verwendet wird, hängt davon ab, welche Art von Erkenntnissen Sie benötigen. Computer-Vision-Modelle wie Ultralytics YOLO11 unterstützen verschiedene Computer-Vision-Aufgaben und sind damit eine zuverlässige Wahl für den Aufbau realer Vision-KI-Systeme.
In diesem Leitfaden werfen wir einen genaueren Blick auf die Computer-Vision-Aufgaben, die von Modellen wie YOLO11 unterstützt werden. Wir werden untersuchen, wie jede Aufgabe funktioniert und wie sie in verschiedenen Branchen eingesetzt wird. Fangen wir an!
Computer-Vision-Aufgaben zielen darauf ab, die menschlichen Sehfähigkeiten auf verschiedene Weise nachzubilden. Diese Aufgaben können Maschinen helfen, Objekte zu erkennen, ihre Bewegungen zu verfolgen, Posen zu schätzen und sogar einzelne Elemente in Bildern und Videos zu umreißen. In der Regel werden Computer-Vision-Aufgaben durch Modelle ermöglicht, die visuelle Daten in kleinere Teile zerlegen, so dass sie das Geschehen klarer interpretieren können.
Vision AI-Modelle wie die YOLO-Modelle von Ultralytics unterstützen mehrere Aufgaben, wie z. B. Erkennung, Verfolgung und Segmentierung, in einem einzigen Rahmen. Dank dieser Vielseitigkeit lassen sich YOLO11-Modelle leicht für eine Vielzahl von Anwendungsfällen einsetzen.
Ein gutes Beispiel dafür ist die Sportanalytik. YOLO11 kann mit Hilfe der Objekterkennung jeden Spieler auf dem Spielfeld erkennen und ihn dann während des gesamten Spiels mit Objektverfolgung verfolgen. In der Zwischenzeit können die YOLO11-Funktionen zur Posenschätzung dabei helfen, die Bewegungen und Techniken der Spieler zu analysieren, und die Instanzsegmentierung kann jeden Spieler vom Hintergrund trennen, was die Analyse präziser macht.
Diese YOLO11-fähigen Computer-Vision-Aufgaben ergeben zusammen ein vollständiges Bild des Spielgeschehens und geben den Teams tiefere Einblicke in die Leistung der Spieler, die Taktik und die Gesamtstrategie.
Nachdem wir nun einen Blick darauf geworfen haben, was Computer-Vision-Aufgaben sind, wollen wir die einzelnen Aufgaben, die von YOLO11 unterstützt werden, anhand von Beispielen aus der Praxis näher betrachten.
Wenn Sie ein Foto betrachten, können die meisten Menschen leicht erkennen, ob es einen Hund, einen Berg oder ein Verkehrsschild zeigt, weil wir alle gelernt haben, wie diese Dinge typischerweise aussehen. Die Bildklassifizierung hilft Maschinen dabei, dasselbe zu tun, indem sie ihnen beibringt, ein Bild anhand seines Hauptobjekts zu klassifizieren und zu beschriften - ob es nun ein "Auto", eine "Banane" oder ein "Röntgenbild mit Fraktur" ist. Diese Kennzeichnung hilft Bildverarbeitungssystemen, den visuellen Inhalt zu verstehen, damit sie entsprechend reagieren oder Entscheidungen treffen können.
Eine interessante Anwendung dieser Bildverarbeitungsaufgabe ist die Überwachung von Wildtieren. Mithilfe der Bildklassifizierung lassen sich verschiedene Tierarten anhand von Fotos aus der freien Natur identifizieren. Durch die automatische Kennzeichnung von Bildern können Forscher Populationen nachverfolgen, Migrationsmuster überwachen und gefährdete Arten leichter identifizieren, um Schutzmaßnahmen zu unterstützen.
Die Bildklassifizierung ist zwar hilfreich, um sich einen Überblick über den Inhalt eines Bildes zu verschaffen, aber sie weist dem gesamten Bild nur eine Bezeichnung zu. In Situationen, in denen detaillierte Informationen wie die genaue Position und Identität mehrerer Objekte benötigt werden, ist die Objekterkennung unerlässlich.
Bei der Objekterkennung werden einzelne Objekte innerhalb eines Bildes identifiziert und lokalisiert, häufig durch das Zeichnen von Begrenzungsrahmen um sie herum. Ultralytics YOLO11 eignet sich besonders gut für die Objekterkennung in Echtzeit und ist damit ideal für eine breite Palette von Anwendungen.
Ein Beispiel dafür sind Computer-Vision-Lösungen, die im Einzelhandel für die Bestückung von Regalen eingesetzt werden. Die Objekterkennung kann beim Zählen von Obst, Gemüse und anderen Artikeln helfen und so eine genaue Bestandsaufnahme gewährleisten. Auf landwirtschaftlichen Feldern kann dieselbe Technologie den Reifegrad von Pflanzen überwachen, um den Landwirten zu helfen, den besten Erntezeitpunkt zu bestimmen und sogar zwischen reifen und unreifen Produkten zu unterscheiden.
Bei der Objekterkennung werden Bounding Boxes verwendet, um Objekte in einem Bild zu identifizieren und zu lokalisieren, aber sie erfassen nicht ihre genaue Form. An dieser Stelle kommt die Instanzsegmentierung ins Spiel. Anstatt einen Rahmen um ein Objekt zu zeichnen, zeichnet die Instanzsegmentierung seinen genauen Umriss nach.
Man kann sich das so vorstellen: Anstatt einfach anzugeben, dass "in diesem Bereich ein Apfel liegt", wird die genaue Form des Apfels sorgfältig umrissen und ausgefüllt. Dieser detaillierte Prozess hilft KI-Systemen, die Grenzen eines Objekts klar zu erkennen, vor allem wenn die Objekte nahe beieinander liegen.
Die Instanzsegmentierung kann für viele Anwendungen eingesetzt werden, von Infrastrukturinspektionen bis hin zu geologischen Untersuchungen. So können beispielsweise Daten aus geologischen Untersuchungen mit YOLO11 analysiert werden, um sowohl große als auch kleine Oberflächenrisse oder Anomalien zu segmentieren. Durch das Zeichnen präziser Grenzen um diese Anomalien herum können Ingenieure Probleme lokalisieren und beheben, bevor ein Projekt beginnt.
Bisher haben wir uns bei den Computer-Vision-Aufgaben auf den Inhalt eines einzelnen Bildes konzentriert. Bei Videos benötigen wir jedoch Erkenntnisse, die über ein Einzelbild hinausgehen. Die Aufgabe " Objektverfolgung" kann dafür verwendet werden.
Die Objektverfolgung von YOLO11 kann ein bestimmtes Objekt, z. B. eine Person oder ein Auto, verfolgen, während es sich durch eine Reihe von Videobildern bewegt. Selbst wenn sich der Kamerawinkel ändert oder andere Objekte auftauchen, verfolgt das System weiterhin das gleiche Ziel.
Dies ist entscheidend für Anwendungen, die eine Überwachung über einen längeren Zeitraum erfordern, wie z. B. die Verfolgung von Autos im Verkehr. In der Tat kann YOLO11 Fahrzeuge genau verfolgen und jedem Auto folgen, um dessen Geschwindigkeit in Echtzeit zu schätzen. Dies macht die Objektverfolgung zu einer Schlüsselkomponente in Systemen wie der Verkehrsüberwachung.
Objekte in der realen Welt sind nicht immer perfekt ausgerichtet - sie können geneigt, seitlich oder in ungeraden Winkeln positioniert sein. Auf Satellitenbildern zum Beispiel erscheinen Schiffe und Gebäude oft gedreht.
Herkömmliche Objekterkennungsmethoden verwenden feste rechteckige Boxen, die sich nicht an die Ausrichtung eines Objekts anpassen, was eine genaue Erfassung dieser gedrehten Formen erschwert. Die Erkennung von orientierten Bounding Boxen (OBB) löst dieses Problem durch die Verwendung von Boxen, die sich so drehen, dass sie genau um ein Objekt herum passen und sich an dessen Winkel ausrichten, um eine präzisere Erkennung zu ermöglichen.
Im Hinblick auf die Hafenüberwachung kann die OBB-Erkennung von YOLO11 dazu beitragen, Schiffe unabhängig von ihrer Ausrichtung genau zu identifizieren und zu verfolgen, so dass jedes Schiff, das in den Hafen einläuft oder ihn verlässt, ordnungsgemäß überwacht wird. Diese präzise Erkennung liefert Echtzeitinformationen über Schiffspositionen und -bewegungen, was für das Management stark frequentierter Häfen und die Vermeidung von Kollisionen von entscheidender Bedeutung ist.
Pose Estimation ist eine Computer Vision Technik, die Schlüsselpunkte wie Gelenke, Gliedmaßen oder andere Markierungen verfolgt, um zu verstehen, wie sich ein Objekt bewegt. Anstatt ein ganzes Objekt oder einen Körper als eine vollständige Einheit zu betrachten, wird es bei dieser Methode in seine wichtigsten Teile zerlegt. Auf diese Weise lassen sich Bewegungen, Gesten und Interaktionen im Detail analysieren.
Eine häufige Anwendung dieser Technologie ist die Schätzung der menschlichen Körperhaltung. Indem die Positionen verschiedener Körperteile in Echtzeit verfolgt werden, entsteht ein klares Bild davon, wie sich eine Person bewegt. Diese Informationen können für eine Vielzahl von Zwecken genutzt werden, von der Gestenerkennung und Aktivitätsüberwachung bis hin zur Leistungsanalyse im Sport.
In ähnlicher Weise können Therapeuten in der körperlichen Rehabilitation die menschliche Posenschätzung und YOLO11 nutzen, um die Bewegungen der Patienten während der Übungen zu überwachen. So kann sichergestellt werden, dass jede Bewegung korrekt ausgeführt wird, während gleichzeitig der Fortschritt im Laufe der Zeit verfolgt wird.
Nachdem wir nun alle von YOLO11 unterstützten Bildverarbeitungsaufgaben im Detail kennengelernt haben, wollen wir uns ansehen, wie YOLO11 sie unterstützt.
YOLO11 ist nicht nur ein Modell - es ist eine Reihe von spezialisierten Modellvarianten, die jeweils für eine bestimmte Computer-Vision-Aufgabe entwickelt wurden. Dies macht YOLO11 zu einem vielseitigen Werkzeug, das an eine breite Palette von Anwendungen angepasst werden kann. Sie können diese Modelle auch mit benutzerdefinierten Datensätzen feinabstimmen, um die einzigartigen Herausforderungen Ihrer Projekte zu bewältigen.
Hier sind die YOLO11-Modellvarianten, die für bestimmte Sehaufgaben trainiert wurden:
Jede Variante ist in verschiedenen Größen erhältlich, so dass die Benutzer das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für ihre spezifischen Anforderungen wählen können.
Computer-Vision-Aufgaben verändern die Art und Weise, wie Maschinen die Welt verstehen und mit ihr interagieren. Durch die Zerlegung von Bildern und Videos in Schlüsselelemente erleichtern diese Technologien die Analyse von Objekten, Bewegungen und Interaktionen im Detail.
Von der Verbesserung der Verkehrssicherheit und der sportlichen Leistung bis hin zur Rationalisierung industrieller Prozesse können Modelle wie YOLO11 Erkenntnisse in Echtzeit liefern, die Innovationen vorantreiben. Mit der weiteren Entwicklung von Vision AI wird sie wahrscheinlich eine immer wichtigere Rolle dabei spielen, wie wir visuelle Daten täglich interpretieren und nutzen.
Werden Sie Teil unserer Community und besuchen Sie unser GitHub-Repository, um KI in Aktion zu erleben. Entdecken Sie unsere Lizenzierungsoptionen und erfahren Sie mehr über KI in der Landwirtschaft und Computer Vision in der Fertigung auf unseren Lösungsseiten.