Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.

Erfahren Sie, wie Computer-Vision-Aufgaben wie Objektverfolgung, Instanzsegmentierung und Bildklassifizierung funktionieren und wie Ultralytics YOLO11 sie unterstützt.
Dank Kameras und Fortschritten in der künstlichen Intelligenz (KI) können Computer und Maschinen die Welt jetzt auf eine ähnliche Weise sehen wie Menschen. Sie können beispielsweise Personen erkennen, Objekte verfolgen und sogar den Kontext dessen verstehen, was in einem Video passiert.
Insbesondere ist Computer Vision der Zweig der KI, der es Maschinen ermöglicht, visuelle Informationen aus ihrer Umgebung zu verstehen und zu interpretieren. Computer Vision umfasst eine Vielzahl von Aufgaben, die jeweils darauf ausgelegt sind, eine bestimmte Art von Erkenntnis aus Bildern oder Videos zu gewinnen. So hilft beispielsweise die Objekterkennung dabei, verschiedene Elemente in einem Bild zu identifizieren und zu lokalisieren, während andere Aufgaben wie Tracking, Segmentierung und Pose-Schätzung Maschinen helfen, Bewegungen, Formen und Positionen genauer zu verstehen.
Die für eine bestimmte Anwendung verwendete Computer-Vision-Aufgabe hängt von der Art der benötigten Erkenntnisse ab. Computer-Vision-Modelle wie Ultralytics YOLO11 unterstützen verschiedene Computer-Vision-Aufgaben und sind somit eine zuverlässige Wahl für die Entwicklung von realen Vision-KI-Systemen.
In diesem Leitfaden werden wir uns die von Modellen wie YOLO11 unterstützten Computer-Vision-Aufgaben genauer ansehen. Wir werden untersuchen, wie die einzelnen Aufgaben funktionieren und wie sie in verschiedenen Branchen eingesetzt werden. Los geht's!
Computer-Vision-Aufgaben zielen darauf ab, die menschlichen Sehfähigkeiten auf unterschiedliche Weise zu replizieren. Diese Aufgaben können Maschinen helfen, Objekte zu erkennen, ihre Bewegungen zu verfolgen, Posen zu schätzen und sogar einzelne Elemente in Bildern und Videos zu umreißen. Typischerweise werden Computer-Vision-Aufgaben durch Modelle ermöglicht, die visuelle Daten in kleinere Teile zerlegen, so dass sie klarer interpretieren können, was geschieht.
Vision-KI-Modelle wie Ultralytics YOLO-Modelle unterstützen mehrere Aufgaben, wie z. B. Erkennung, Verfolgung und Segmentierung, in einem einzigen Framework. Aufgrund dieser Vielseitigkeit lassen sich YOLO11-Modelle leicht für eine Vielzahl von Anwendungsfällen einsetzen.
Ein gutes Beispiel dafür ist die Sportanalyse. YOLO11 kann verwendet werden, um jeden Spieler auf dem Feld mithilfe der Objekterkennung zu erkennen und ihn dann während des gesamten Spiels mit der Objektverfolgung zu verfolgen. In der Zwischenzeit können die Pose-Schätzungsfunktionen von YOLO11 helfen, Spielerbewegungen und -techniken zu analysieren, und die Instanzsegmentierung kann jeden Spieler vom Hintergrund trennen, was die Analyse präziser macht.
Zusammen ergeben diese YOLO11-fähigen Computer-Vision-Aufgaben ein vollständiges Bild dessen, was während des Spiels geschieht, und geben den Teams tiefere Einblicke in die Leistung, Taktik und Gesamtstrategie der Spieler.
Nachdem wir uns nun angesehen haben, was Computer-Vision-Aufgaben sind, wollen wir uns die einzelnen von YOLO11 unterstützten Aufgaben genauer ansehen und dabei Beispiele aus der Praxis verwenden.
Wenn man sich ein Foto ansieht, können die meisten Menschen leicht erkennen, ob es einen Hund, einen Berg oder ein Verkehrsschild zeigt, weil wir alle gelernt haben, wie diese Dinge typischerweise aussehen. Die Bildklassifizierung hilft Maschinen, dasselbe zu tun, indem sie ihnen beibringt, wie man ein Bild anhand seines Hauptobjekts klassifiziert und kennzeichnet - sei es ein "Auto", eine "Banane" oder ein "Röntgenbild mit Fraktur". Diese Kennzeichnung hilft Computer-Vision-Systemen, den visuellen Inhalt zu verstehen, damit sie entsprechend reagieren oder Entscheidungen treffen können.
Eine interessante Anwendung dieser Computer-Vision-Aufgabe ist die Wildtierüberwachung. Die Bildklassifizierung kann verwendet werden, um verschiedene Tierarten anhand von Fotos zu identifizieren, die in freier Wildbahn aufgenommen wurden. Durch die automatische Kennzeichnung von Bildern können Forscher Populationen verfolgen, Migrationsmuster überwachen und gefährdete Arten leichter identifizieren, um Naturschutzbemühungen zu unterstützen.
Während die Bildklassifizierung hilfreich ist, um eine allgemeine Vorstellung davon zu bekommen, was ein Bild enthält, weist sie dem gesamten Bild nur eine Bezeichnung zu. In Situationen, in denen detaillierte Informationen erforderlich sind, wie z. B. die genaue Position und Identität mehrerer Objekte, wird die Objekterkennung unerlässlich.
Objekterkennung ist der Prozess der Identifizierung und Lokalisierung einzelner Objekte innerhalb eines Bildes, oft durch das Zeichnen von Begrenzungsrahmen um diese herum. Ultralytics YOLO11 schneidet besonders gut bei der Echtzeit-Objekterkennung ab, was es ideal für eine Vielzahl von Anwendungen macht.
Nehmen wir zum Beispiel Computer-Vision-Lösungen, die in Einzelhandelsgeschäften zum Auffüllen von Regalen eingesetzt werden. Die Objekterkennung kann helfen, Obst, Gemüse und andere Artikel zu zählen und so eine genaue Bestandsaufnahme zu gewährleisten. In der Landwirtschaft kann dieselbe Technologie die Reife von Feldfrüchten überwachen, um Landwirten zu helfen, den besten Zeitpunkt für die Ernte zu bestimmen, und sogar zwischen reifen und unreifen Produkten zu unterscheiden.
Die Objekterkennung verwendet Begrenzungsrahmen, um Objekte in einem Bild zu identifizieren und zu lokalisieren, erfasst aber nicht ihre genauen Formen. Hier kommt die Instanzsegmentierung ins Spiel. Anstatt einen Rahmen um ein Objekt zu zeichnen, zeichnet die Instanzsegmentierung dessen genaue Kontur nach.
Man kann es sich so vorstellen: Anstatt einfach nur anzugeben, dass "sich in diesem Bereich ein Apfel befindet", wird die genaue Form des Apfels sorgfältig umrissen und ausgefüllt. Dieser detaillierte Prozess hilft KI-Systemen, die Grenzen eines Objekts klar zu verstehen, insbesondere wenn Objekte nahe beieinander liegen.
Die Instanzsegmentierung kann in vielen Anwendungen eingesetzt werden, von Infrastrukturinspektionen bis hin zu geologischen Vermessungen. So können beispielsweise Daten aus geologischen Vermessungen mit YOLO11 analysiert werden, um sowohl große als auch kleine Oberflächenrisse oder Anomalien zu segmentieren. Durch das Zeichnen präziser Grenzen um diese Anomalien können Ingenieure Probleme genau lokalisieren und beheben, bevor ein Projekt beginnt.
Bisher konzentrieren sich die Computer-Vision-Aufgaben, die wir uns angesehen haben, darauf, was sich in einem einzelnen Bild befindet. Wenn es jedoch um Videos geht, benötigen wir Erkenntnisse, die über einen einzelnen Frame hinausgehen. Die Aufgabe der Objektverfolgung kann hierfür verwendet werden.
Die Objektverfolgungsfunktion von YOLO11 kann ein bestimmtes Objekt, wie eine Person oder ein Auto, verfolgen, während es sich über eine Reihe von Videoframes bewegt. Selbst wenn sich der Kamerawinkel ändert oder andere Objekte auftauchen, verfolgt das System weiterhin dasselbe Ziel.
Dies ist entscheidend für Anwendungen, die eine Überwachung über die Zeit erfordern, wie z. B. die Verfolgung von Autos im Straßenverkehr. Tatsächlich kann YOLO11 Fahrzeuge genau verfolgen und jedes Auto verfolgen, um seine Geschwindigkeit in Echtzeit zu schätzen. Dies macht die Objektverfolgung zu einer Schlüsselkomponente in Systemen wie der Verkehrsüberwachung.
Objekte in der realen Welt sind nicht immer perfekt ausgerichtet - sie können geneigt, seitwärts oder in einem ungünstigen Winkel positioniert sein. So erscheinen beispielsweise auf Satellitenbildern Schiffe und Gebäude oft gedreht.
Traditionelle Objekterkennungsmethoden verwenden feste rechteckige Rahmen, die sich nicht an die Ausrichtung eines Objekts anpassen, was es schwierig macht, diese gedrehten Formen genau zu erfassen. Die Orientierte Begrenzungsrahmen (OBB)-Erkennung löst dieses Problem, indem sie Rahmen verwendet, die sich drehen, um sich eng an ein Objekt anzupassen und sich an seinem Winkel auszurichten, um eine präzisere Erkennung zu ermöglichen.
In Bezug auf die Hafenüberwachung kann die Unterstützung von YOLO11 für die OBB-Erkennung dazu beitragen, Schiffe unabhängig von ihrer Ausrichtung genau zu identifizieren und zu verfolgen, um sicherzustellen, dass jedes Schiff, das in den Hafen ein- oder ausfährt, ordnungsgemäß überwacht wird. Diese präzise Erkennung liefert Echtzeitinformationen über Schiffspositionen und -bewegungen, was für die Verwaltung stark frequentierter Häfen und die Verhinderung von Kollisionen von entscheidender Bedeutung ist.
Pose-Schätzung ist eine Technik des maschinellen Sehens, die Schlüsselpunkte wie Gelenke, Gliedmaßen oder andere Markierungen verfolgt, um zu verstehen, wie sich ein Objekt bewegt. Anstatt ein ganzes Objekt oder einen Körper als eine vollständige Einheit zu behandeln, zerlegt diese Methode es in seine Hauptteile. Dies ermöglicht die detaillierte Analyse von Bewegungen, Gesten und Interaktionen.
Eine gängige Anwendung dieser Technologie ist die Schätzung der menschlichen Pose (Human Pose Estimation). Durch die Echtzeit-Verfolgung der Positionen verschiedener Körperteile entsteht ein klares Bild der Bewegung einer Person. Diese Informationen können für eine Vielzahl von Zwecken verwendet werden, von der Gestenerkennung und Aktivitätsüberwachung bis hin zur Leistungsanalyse im Sport.
In ähnlicher Weise können Therapeuten in der physikalischen Rehabilitation die Schätzung der menschlichen Pose und YOLO11 verwenden, um die Bewegungen der Patienten während der Übungen zu überwachen. Dies trägt dazu bei, dass jede Bewegung korrekt ausgeführt wird, während gleichzeitig der Fortschritt im Laufe der Zeit verfolgt wird.
Nachdem wir nun die verschiedenen Aufgaben des maschinellen Sehens, die von YOLO11 unterstützt werden, im Detail untersucht haben, wollen wir uns ansehen, wie YOLO11 diese unterstützt.
YOLO11 ist nicht nur ein einzelnes Modell, sondern eine Suite von spezialisierten Modellvarianten, die jeweils für eine bestimmte Aufgabe im Bereich des maschinellen Sehens entwickelt wurden. Dies macht YOLO11 zu einem vielseitigen Werkzeug, das an eine breite Palette von Anwendungen angepasst werden kann. Sie können diese Modelle auch mit benutzerdefinierten Datensätzen feinabstimmen, um die besonderen Herausforderungen Ihrer Projekte zu bewältigen.
Hier sind die YOLO11-Modellvarianten, die für bestimmte Aufgaben im Bereich des maschinellen Sehens vortrainiert wurden:
Jede Variante ist in verschiedenen Größen erhältlich, sodass Benutzer das richtige Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für ihre spezifischen Anforderungen wählen können.
Aufgaben des maschinellen Sehens verändern die Art und Weise, wie Maschinen die Welt verstehen und mit ihr interagieren. Indem sie Bilder und Videos in Schlüsselelemente zerlegen, erleichtern diese Technologien die detaillierte Analyse von Objekten, Bewegungen und Interaktionen.
Von der Verbesserung der Verkehrssicherheit und der sportlichen Leistung bis hin zur Rationalisierung industrieller Prozesse können Modelle wie YOLO11 Echtzeit-Einblicke liefern, die Innovationen vorantreiben. Da sich Vision AI ständig weiterentwickelt, wird sie wahrscheinlich eine immer wichtigere Rolle bei der Interpretation und Nutzung visueller Daten im Alltag spielen.
Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um KI in Aktion zu sehen. Entdecken Sie unsere Lizenzoptionen und erfahren Sie mehr über KI in der Landwirtschaft und maschinelles Sehen in der Fertigung auf unseren Lösungsseiten.