Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.

Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.

Dank Kameras und Fortschritten bei der künstlichen Intelligenz (KI) sind Computer und Maschinen heute in der Lage, die Welt auf ähnliche Weise zu sehen wie Menschen. Sie können zum Beispiel Menschen erkennen, Objekte track und sogar den Kontext des Geschehens in einem Video verstehen.
Insbesondere ist Computer Vision der Zweig der KI, der es Maschinen ermöglicht, visuelle Informationen aus ihrer Umgebung zu verstehen und zu interpretieren. Computer Vision umfasst eine Vielzahl von Aufgaben, die jeweils darauf ausgelegt sind, eine bestimmte Art von Erkenntnis aus Bildern oder Videos zu gewinnen. So hilft beispielsweise die Objekterkennung dabei, verschiedene Elemente in einem Bild zu identifizieren und zu lokalisieren, während andere Aufgaben wie Tracking, Segmentierung und Pose-Schätzung Maschinen helfen, Bewegungen, Formen und Positionen genauer zu verstehen.
Welche Bildverarbeitungsaufgabe für eine bestimmte Anwendung verwendet wird, hängt davon ab, welche Art von Erkenntnissen Sie benötigen. Bildverarbeitungsmodelle wie Ultralytics YOLO11 unterstützen verschiedene Bildverarbeitungsaufgaben und sind daher eine zuverlässige Wahl für den Aufbau von KI-Systemen für die reale Welt.
In diesem Leitfaden werfen wir einen genaueren Blick auf die Computer-Vision-Aufgaben, die von Modellen wie YOLO11 unterstützt werden. Wir werden untersuchen, wie jede Aufgabe funktioniert und wie sie in verschiedenen Branchen eingesetzt wird. Fangen wir an!
Computer-Vision-Aufgaben zielen darauf ab, die menschlichen Sehfähigkeiten auf verschiedene Weise nachzubilden. Diese Aufgaben können Maschinen helfen, Objekte detect , ihre Bewegungen track , Posen zu schätzen und sogar einzelne Elemente in Bildern und Videos zu umreißen. In der Regel werden Computer-Vision-Aufgaben durch Modelle ermöglicht, die visuelle Daten in kleinere Teile zerlegen, so dass sie das Geschehen klarer interpretieren können.
Vision AI-Modelle wie dieYOLO Ultralytics unterstützen mehrere Aufgaben, wie z. B. Erkennung, Verfolgung und Segmentierung, in einem einzigen Rahmen. Dank dieser Vielseitigkeit lassen sich YOLO11 leicht für eine Vielzahl von Anwendungsfällen einsetzen.

Ein gutes Beispiel dafür ist die Sportanalytik. YOLO11 kann mit Hilfe der Objekterkennung jeden Spieler auf dem Spielfeld detect und ihn dann während des gesamten Spiels mit Objektverfolgung verfolgen. In der Zwischenzeit können die YOLO11 zur Posenschätzung dabei helfen, die Bewegungen und Techniken der Spieler zu analysieren, und die Instanzsegmentierung kann jeden Spieler vom Hintergrund trennen, was die Analyse präziser macht.
Diese YOLO11 Computer-Vision-Aufgaben ergeben zusammen ein vollständiges Bild des Spielgeschehens und geben den Teams tiefere Einblicke in die Leistung der Spieler, die Taktik und die Gesamtstrategie.
Nachdem wir nun einen Blick darauf geworfen haben, was Computer-Vision-Aufgaben sind, wollen wir die einzelnen Aufgaben, die von YOLO11 unterstützt werden, anhand von Beispielen aus der Praxis näher betrachten.
Wenn Sie ein Foto betrachten, können die meisten Menschen leicht erkennen, ob es einen Hund, einen Berg oder ein Verkehrsschild zeigt, weil wir alle gelernt haben, wie diese Dinge typischerweise aussehen. Die Bildklassifizierung hilft Maschinen dabei, dasselbe zu tun, indem sie ihnen beibringt, ein Bild anhand seines Hauptobjekts classify und zu beschriften - ob es nun ein "Auto", eine "Banane" oder ein "Röntgenbild mit Fraktur" ist. Diese Kennzeichnung hilft Bildverarbeitungssystemen, den visuellen Inhalt zu verstehen, damit sie entsprechend reagieren oder Entscheidungen treffen können.
Eine interessante Anwendung dieser Bildverarbeitungsaufgabe ist die Überwachung von Wildtieren. Mithilfe der Bildklassifizierung lassen sich verschiedene Tierarten anhand von Fotos aus der freien Natur identifizieren. Durch die automatische Kennzeichnung von Bildern können Forscher Populationen track , Migrationsmuster überwachen und gefährdete Arten leichter identifizieren, um Schutzmaßnahmen zu unterstützen.

Während die Bildklassifizierung hilfreich ist, um eine allgemeine Vorstellung davon zu bekommen, was ein Bild enthält, weist sie dem gesamten Bild nur eine Bezeichnung zu. In Situationen, in denen detaillierte Informationen erforderlich sind, wie z. B. die genaue Position und Identität mehrerer Objekte, wird die Objekterkennung unerlässlich.
Bei der Objekterkennung werden einzelne Objekte innerhalb eines Bildes identifiziert und lokalisiert, oft durch das Zeichnen von Begrenzungsrahmen um sie herum. Ultralytics YOLO11 eignet sich besonders gut für die Objekterkennung in Echtzeit und ist damit ideal für eine breite Palette von Anwendungen.
Nehmen wir zum Beispiel Computer-Vision-Lösungen, die in Einzelhandelsgeschäften zum Auffüllen von Regalen eingesetzt werden. Die Objekterkennung kann helfen, Obst, Gemüse und andere Artikel zu zählen und so eine genaue Bestandsaufnahme zu gewährleisten. In der Landwirtschaft kann dieselbe Technologie die Reife von Feldfrüchten überwachen, um Landwirten zu helfen, den besten Zeitpunkt für die Ernte zu bestimmen, und sogar zwischen reifen und unreifen Produkten zu unterscheiden.
.webp)
Die Objekterkennung verwendet Begrenzungsrahmen, um Objekte in einem Bild zu identifizieren und zu lokalisieren, erfasst aber nicht ihre genauen Formen. Hier kommt die Instanzsegmentierung ins Spiel. Anstatt einen Rahmen um ein Objekt zu zeichnen, zeichnet die Instanzsegmentierung dessen genaue Kontur nach.
Man kann es sich so vorstellen: Anstatt einfach nur anzugeben, dass "sich in diesem Bereich ein Apfel befindet", wird die genaue Form des Apfels sorgfältig umrissen und ausgefüllt. Dieser detaillierte Prozess hilft KI-Systemen, die Grenzen eines Objekts klar zu verstehen, insbesondere wenn Objekte nahe beieinander liegen.
Die Segmentierung von Instanzen kann für viele Anwendungen eingesetzt werden, von Infrastrukturinspektionen bis hin zu geologischen Untersuchungen. So können beispielsweise Daten aus geologischen Untersuchungen mit YOLO11 analysiert werden, um sowohl große als auch kleine Oberflächenrisse oder Anomalien segment . Durch das Zeichnen präziser Grenzen um diese Anomalien herum können Ingenieure Probleme lokalisieren und beheben, bevor ein Projekt beginnt.

Bisher konzentrieren sich die Computer-Vision-Aufgaben, die wir uns angesehen haben, darauf, was sich in einem einzelnen Bild befindet. Wenn es jedoch um Videos geht, benötigen wir Erkenntnisse, die über einen einzelnen Frame hinausgehen. Die Aufgabe der Objektverfolgung kann hierfür verwendet werden.
Die Objektverfolgung von YOLO11 kann ein bestimmtes Objekt, z. B. eine Person oder ein Auto, verfolgen, während es sich durch eine Reihe von Videobildern bewegt. Selbst wenn sich der Kamerawinkel ändert oder andere Objekte auftauchen, verfolgt das System weiterhin das gleiche Ziel.
Dies ist entscheidend für Anwendungen, die eine Überwachung über einen längeren Zeitraum erfordern, wie z. B. die Verfolgung von Autos im Verkehr. In der Tat kann YOLO11 Fahrzeuge genau track und jedem Auto folgen, um dessen Geschwindigkeit in Echtzeit zu schätzen. Dies macht die Objektverfolgung zu einer Schlüsselkomponente in Systemen wie der Verkehrsüberwachung.

Objekte in der realen Welt sind nicht immer perfekt ausgerichtet - sie können geneigt, seitwärts oder in einem ungünstigen Winkel positioniert sein. So erscheinen beispielsweise auf Satellitenbildern Schiffe und Gebäude oft gedreht.
Traditionelle Objekterkennungsmethoden verwenden feste rechteckige Rahmen, die sich nicht an die Ausrichtung eines Objekts anpassen, was es schwierig macht, diese gedrehten Formen genau zu erfassen. Die Orientierte Begrenzungsrahmen (OBB)-Erkennung löst dieses Problem, indem sie Rahmen verwendet, die sich drehen, um sich eng an ein Objekt anzupassen und sich an seinem Winkel auszurichten, um eine präzisere Erkennung zu ermöglichen.
Im Hinblick auf die Hafenüberwachung kann die Unterstützung von YOLO11für die OBB-Erkennung dazu beitragen, Schiffe unabhängig von ihrer Ausrichtung genau zu identifizieren und track , um sicherzustellen, dass jedes Schiff, das in den Hafen einläuft oder ihn verlässt, ordnungsgemäß überwacht wird. Diese präzise Erkennung liefert Echtzeitinformationen über Schiffspositionen und -bewegungen, was für das Management stark frequentierter Häfen und die Vermeidung von Kollisionen von entscheidender Bedeutung ist.

Pose-Schätzung ist eine Technik des maschinellen Sehens, die Schlüsselpunkte wie Gelenke, Gliedmaßen oder andere Markierungen verfolgt, um zu verstehen, wie sich ein Objekt bewegt. Anstatt ein ganzes Objekt oder einen Körper als eine vollständige Einheit zu behandeln, zerlegt diese Methode es in seine Hauptteile. Dies ermöglicht die detaillierte Analyse von Bewegungen, Gesten und Interaktionen.
Eine gängige Anwendung dieser Technologie ist die Schätzung der menschlichen Pose (Human Pose Estimation). Durch die Echtzeit-Verfolgung der Positionen verschiedener Körperteile entsteht ein klares Bild der Bewegung einer Person. Diese Informationen können für eine Vielzahl von Zwecken verwendet werden, von der Gestenerkennung und Aktivitätsüberwachung bis hin zur Leistungsanalyse im Sport.
In ähnlicher Weise können Therapeuten in der körperlichen Rehabilitation die menschliche Posenschätzung und YOLO11 nutzen, um die Bewegungen der Patienten während der Übungen zu überwachen. So kann sichergestellt werden, dass jede Bewegung korrekt ausgeführt wird, während gleichzeitig der Fortschritt im Laufe der Zeit verfolgt wird.

Nachdem wir nun alle von YOLO11 unterstützten Bildverarbeitungsaufgaben im Detail kennengelernt haben, wollen wir uns ansehen, wie YOLO11 sie unterstützt.
YOLO11 ist nicht nur ein Modell - es ist eine Reihe von spezialisierten Modellvarianten, die jeweils für eine bestimmte Computer-Vision-Aufgabe entwickelt wurden. Dies macht YOLO11 zu einem vielseitigen Werkzeug, das an eine breite Palette von Anwendungen angepasst werden kann. Sie können diese Modelle auch mit benutzerdefinierten Datensätzen feinabstimmen, um die einzigartigen Herausforderungen Ihrer Projekte zu bewältigen.
Hier sind die YOLO11 , die für bestimmte Sehaufgaben trainiert wurden:
Jede Variante ist in verschiedenen Größen erhältlich, sodass Benutzer das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für ihre spezifischen Anforderungen wählen können.
Aufgaben des maschinellen Sehens verändern die Art und Weise, wie Maschinen die Welt verstehen und mit ihr interagieren. Indem sie Bilder und Videos in Schlüsselelemente zerlegen, erleichtern diese Technologien die detaillierte Analyse von Objekten, Bewegungen und Interaktionen.
Von der Verbesserung der Verkehrssicherheit und der sportlichen Leistung bis hin zur Rationalisierung industrieller Prozesse können Modelle wie YOLO11 Erkenntnisse in Echtzeit liefern, die Innovationen vorantreiben. Mit der Weiterentwicklung von Vision AI wird sie wahrscheinlich eine immer wichtigere Rolle dabei spielen, wie wir visuelle Daten täglich interpretieren und nutzen.
Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um KI in Aktion zu sehen. Entdecken Sie unsere Lizenzoptionen und erfahren Sie mehr über KI in der Landwirtschaft und maschinelles Sehen in der Fertigung auf unseren Lösungsseiten.