Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Vision AI ermöglicht berührungslose Gestenerkennungstechnologie

Entdecken Sie, wie Computer Vision die Gestenerkennungstechnologie unterstützt, um Handgesten in verschiedenen Anwendungen detect, track und zu verstehen.

Mit der Weiterentwicklung der Technologie verändert sich auch die Art und Weise, wie wir mit ihr interagieren. Frühe Maschinen waren auf körperliche Anstrengung und mechanische Steuerungen angewiesen, während die moderne Informatik Touchscreens und Spracheingabe eingeführt hat. 

Nun ist die Gestenerkennung Teil des nächsten Schritts, bei dem natürliche Bewegungen als Benutzeroberfläche verwendet werden. Eine einfache Handbewegung, eine Geste mit zwei Fingern oder ein schnelles Handzeichen können bereits Apps, Bildschirme und Maschinen steuern. 

Diese berührungslose Interaktion kann durch Computer Vision ermöglicht werden, einem Zweig der KI, der Maschinen dabei hilft, das, was eine Kamera aufnimmt, zu sehen und zu interpretieren. Vision-KI-Systeme können in Smartphones, Virtual-Reality- (VR) und Augmented-Reality- (AR) Headsets, Autos und Smart-Home-Geräte integriert werden, wo Gesten Tippen, Klicken und Tasten drücken ersetzen können, um eine flüssigere Benutzererfahrung zu ermöglichen.

Berührungslose Steuerung wird im Alltag immer häufiger eingesetzt. An Arbeitsplätzen und in Gemeinschaftsräumen kann die Vermeidung von Körperkontakt die Hygiene und Sicherheit verbessern. Auch viele digitale Produkte entwickeln sich in Richtung berührungsloser Interaktion, wobei Gesten eine einfache und intuitive Möglichkeit bieten, Geräte zu steuern, ohne sie zu berühren.

In diesem Artikel erfahren Sie, was Gestenerkennung ist, wie Computer Vision sie präziser macht und wo sie in der Praxis eingesetzt wird. Los geht's!

Was ist Gestenerkennung?

Die Gestenerkennung ist eine Sensortechnologie, mit der Maschinen menschliche Gesten wie Handzeichen oder Körperbewegungen verstehen und in digitale Aktionen umwandeln können. Anstatt auf einen Bildschirm zu tippen oder Tasten zu drücken, können Benutzer Geräte durch einfache, natürliche Bewegungen steuern. 

Dadurch fühlen sich Interaktionen intuitiver an, weshalb gestenbasierte Eingaben in vielen maschinellen Lern- und KI-gesteuerten Steuerungssystemen zum Einsatz kommen. Insbesondere die Erkennung von Handgesten ist eine der am häufigsten verwendeten Formen der Gestenerkennung und stützt sich häufig auf Computer Vision. 

Einfach ausgedrückt kann eine Vision-KI-Lösung Hände in einem Kamerafeed erkennen, ihre track oder Formänderungen track und diese Muster mit einer bekannten Geste abgleichen, um eine Aktion auf dem Bildschirm auszulösen.

Ein wichtiger Bestandteil dieser Lösungen ist ein Computer-Vision-Modell, das anhand von Datensätzen mit gekennzeichneten Bildern oder Videos trainiert wird, die verschiedene Handgesten zeigen. Mit vielfältigen Trainingsdaten und sorgfältiger Auswertung kann das Modell besser auf verschiedene Benutzer, Lichtverhältnisse und Hintergründe verallgemeinert werden, wodurch es Gesten in realen Situationen zuverlässiger erkennen kann.

Abb. 1: Daten, die zum Trainieren eines Computervisionsmodells zur detect -Keypoints verwendet wurden (Quelle)

Untersuchung verschiedener Arten von Gesten und Mensch-Computer-Interaktion

Bevor wir uns näher mit der Rolle der Computervision bei der Gestenerkennung befassen, wollen wir einen Schritt zurücktreten und uns ansehen, welche Arten von Gesten diese Systeme in der Regel erkennen.

In den meisten Fällen lassen sich Gesten in zwei Kategorien einteilen: statische und dynamische. Statische Gesten sind feste Handhaltungen, wie beispielsweise ein Daumen hoch, ein Stoppzeichen oder ein Peace-Zeichen. Da sie keine Bewegung beinhalten, können sie oft anhand eines einzigen Bildausschnitts erkannt werden.

Dynamische Gesten hingegen umfassen Bewegungen über einen bestimmten Zeitraum hinweg, wie beispielsweise Winken oder Wischen in der Luft. Um diese zu erkennen, muss ein Vision-KI-System mehrere Bilder analysieren, damit es track und die Richtung und den Zeitpunkt der Geste verstehen kann.

Die Rolle von Computervisionsalgorithmen bei der Gestenerkennung

Gestenerkennungssysteme können auf unterschiedliche Weise aufgebaut sein. Einige Eingabemethoden verwenden tragbare Sensoren wie Handschuhe oder am Handgelenk befestigte Tracker, um Handbewegungen zu erfassen. 

Diese Konfigurationen können zwar präzise sein, sind jedoch nicht immer praktisch. Wearables müssen getragen, eingerichtet, aufgeladen und gewartet werden und können in gemeinsam genutzten Räumen oder bei täglicher Verwendung als einschränkend empfunden werden.

Aus diesem Grund setzen viele hochmoderne Systeme stattdessen auf Computer Vision. Mit Standard-RGB-Kameras und Tiefen- oder Time-of-Flight-Sensoren können Geräte Hand- und Körperbewegungen in Echtzeit erfassen, ohne dass die Benutzer zusätzliche Geräte tragen müssen. Dadurch eignet sich die bildbasierte Gestenerkennung hervorragend für Smartphones, Autos, Smart-TVs sowie AR- und VR-Headsets.

Beispielsweise Computer-Vision-Modelle wie Ultralytics YOLO11 und das in Kürze erscheinende Ultralytics unterstützen Aufgaben wie Objekterkennung, Objektverfolgung und Posenschätzung. Diese Funktionen können verwendet werden, um detect in jedem Bild detect , track Bewegung im Zeitverlauf track und Schlüsselpunkte wie Fingerspitzen und Gelenke zu kartieren. Dadurch ist es möglich, Gesten wie eine erhobene Handfläche zum Anhalten, eine Kneifbewegung zum Zoomen, eine Wischbewegung zum Navigieren in Menüs oder eine Zeigegeste zum Auswählen eines Elements in AR und VR zu erkennen.

Computer-Vision-Aufgaben zur Erkennung der Mensch-Maschine-Interaktion

Hier finden Sie einen Überblick über einige der wichtigsten Computer-Vision-Aufgaben, die bei der Gestenerkennung zum Einsatz kommen:

  • Objekterkennung: Diese Aufgabe dient dazu, Hände in einem Bild oder Videobild zu lokalisieren, in der Regel durch Einzeichnen von Begrenzungsrahmen um sie herum. Dies hilft dem System, sich auf den Gestenbereich zu konzentrieren und unnötige Hintergrunddetails zu ignorieren.
  • Objektverfolgung: Aufbauend auf der Objekterkennung verfolgt diese Aufgabe erkannte Hände über mehrere Bilder hinweg und behält ihre Identität über die Zeit bei. Dies ist besonders nützlich für dynamische Gesten, bei denen Bewegung und Richtung entscheidend sind.
  • Posen-Schätzung: Anstatt sich auf Begrenzungsrahmen zu konzentrieren, identifiziert die Posen-Schätzung Schlüsselpunkte an der Hand, wie Fingerspitzen, Knöchel und Handgelenk. Diese Orientierungspunkte bilden ein einfaches Handskelett, das Fingerpositionen und subtile Bewegungen erfasst und so eine detailliertere Gestenklassifizierung ermöglicht.
  • Instanzsegmentierung: Diese Aufgabe zielt darauf ab, jede Hand auf Pixelebene vom Hintergrund zu trennen, indem für jede sichtbare Hand eine Maske generiert wird. Dies ist hilfreich in unübersichtlichen Szenen, wenn sich Hände überlappen oder wenn mehrere Hände im Bildausschnitt erscheinen.

Viele Vision-KI-Lösungen verwenden diese Aufgaben zusammen als Teil einer einzigen Pipeline. Ein System könnte beispielsweise mit der Objekterkennung beginnen, um die Hände zu finden, und dann mithilfe von Tracking diese über mehrere Frames hinweg verfolgen, um dynamische Gesten zu erfassen. 

Wenn die Geste von der Fingerposition abhängt, kann die Posenschätzung Schlüsselpunkte für feinere Details hinzufügen, während die Instanzsegmentierung dabei helfen kann, jede Hand in unübersichtlichen Szenen oder bei Überlappung mehrerer Hände präziser zu isolieren. Zusammen liefern diese Schritte sowohl Standort- als auch Bewegungsinformationen, wodurch die Gestenerkennung genauer und zuverlässiger wird.

Wie die bildbasierte Gestenerkennung funktioniert

Nachdem wir nun ein besseres Verständnis für die Computer-Vision-Aufgaben hinter der Gestenerkennung haben, wollen wir uns Schritt für Schritt ansehen, wie ein bildbasiertes System funktioniert.

Ein typisches System beginnt mit der Erfassung von Videodaten von einer Kamera, manchmal zusammen mit Tiefendaten, wenn das Gerät dies unterstützt. Die Bilder werden dann mithilfe von Bildverarbeitung vorverarbeitet, damit sie vom Modell konsistent verarbeitet werden können, z. B. durch Größenanpassung, Stabilisierung oder Reduzierung von Rauschen und Bewegungsunschärfe.

Als Nächstes identifiziert das System Hände im Bild mithilfe von Erkennung oder Segmentierung und verfolgt sie im Zeitverlauf mithilfe von Tracking. Wenn die Anwendung detailliertere Informationen benötigt, kann sie auch eine Posenschätzung durchführen, um Schlüsselpunkte wie Fingerspitzen und Gelenke zu extrahieren. Anhand dieser Informationen klassifiziert das Modell die Geste, unabhängig davon, ob es sich um eine Einzelbildpose wie einen Daumen hoch oder ein Bewegungsmuster wie ein Wischen handelt.

Schließlich wird die erkannte Geste einer Aktion in der Benutzeroberfläche zugeordnet, z. B. Scrollen, Zoomen, Auswählen eines Elements, Anpassen der Lautstärke oder Steuern von AR- und VR-Interaktionen. Der genaue Ablauf kann variieren, wobei einfachere Anwendungen weniger Schritte erfordern und komplexere Anwendungen zur Erhöhung der Genauigkeit Erkennung, Verfolgung und Posenschätzung kombinieren.

Anwendungen der bildbasierten Gestenerkennung

Als Nächstes wollen wir uns ansehen, wie die Gestenerkennung in realen Anwendungen eingesetzt wird, um Handpositionen zu verstehen.

Gestenbasierte Interaktion mit Infotainment-Systemen in Fahrzeugen

Die Gestenerkennung hält zunehmend Einzug in intelligente Fahrzeugschnittstellen, insbesondere in Infotainmentsysteme. Sie bietet eine bequeme Möglichkeit, bestimmte Funktionen mit einfachen Handbewegungen zu steuern, wodurch Fahrer seltener auf Touchscreens oder physische Tasten zugreifen müssen. So lassen sich beispielsweise mit einer schnellen Geste die Lautstärke einstellen, Anrufe verwalten oder Bildschirmmenüs navigieren. 

Abb. 2: Ein Fahrer, der Handgesten im Erfassungsbereich eines Infotainmentsystems ausführt (Quelle)

Gestenbasierte Interaktionen in Spielen

In Spielen und immersiven Erlebnissen verändert die gestenbasierte Steuerung die Art und Weise, wie Menschen mit virtuellen Welten interagieren. Anstatt sich nur auf Controller oder Joysticks zu verlassen, können Spieler natürliche Handbewegungen verwenden, um durch Menüs zu navigieren, virtuelle Objekte aufzunehmen, Charaktere zu steuern oder Aktionen in einem Spiel auszulösen.

Abb. 3: Spielen mit Handgesten (Quelle).

Diese Art der berührungslosen Interaktion kann sich flüssiger anfühlen, insbesondere in AR und VR. Daher werden Hand-Tracking und Gestensteuerung zu gängigen Funktionen in VR- und Mixed-Reality-Headsets.

Nahtlose Gestensteuerung für Smart-Home-Geräte

Smart-Home-Geräte wie Smart-TVs, Lautsprecher und vernetzte Leuchten unterstützen zunehmend die gestenbasierte Steuerung für schnelle, berührungslose Aktionen. Mit einer einfachen Handbewegung können Benutzer das Licht einschalten, die Lautstärke einstellen oder grundlegende Befehle auslösen, ohne nach Schaltern oder Fernbedienungen greifen zu müssen.

Beispielsweise können in Heimkinoanlagen integrierte oder angeschlossene Tiefenkameras Gesten wie Wischen, Zeigen oder Handheben erkennen. Dies kann das Durchsuchen von Menüs, Ändern von Einstellungen oder Bestätigen von Auswahlen aus der Entfernung erleichtern. Im Hintergrund verarbeiten Computer-Vision-Modelle die Kameraaufnahmen in Echtzeit, um diese Gesten detect zu interpretieren. 

Künstliche Intelligenz-gestützte Gestensteuerung in der Robotik 

Stellen Sie sich eine Situation in einer Fabrik vor, in der ein Arbeiter einen Roboter führen muss, während er Teile trägt, Handschuhe trägt oder in sicherem Abstand zu beweglichen Maschinen steht. In solchen Situationen kann das Greifen nach Knöpfen oder einem Bedienfeld langsam oder sogar unsicher sein. 

Im Gegensatz dazu können gestenbasierte Steuerungssysteme eine praktischere, freihändige Möglichkeit zur Interaktion mit diesen Maschinen darstellen. Dies ist besonders nützlich für kollaborative Roboter oder Cobots, die für die Zusammenarbeit mit Menschen konzipiert sind. 

Anstatt zu einem Bedienfeld zu gehen, können Bediener einfache Handzeichen verwenden, um einen Roboter aus der Ferne zu starten, zu stoppen oder zu steuern. Dies reduziert die Abhängigkeit von physischen Bedienelementen und kann zu sichereren Arbeitsabläufen in der Fertigung beitragen.

Fortschrittliche bildbasierte Steuerungssysteme, die durch Deep-Learning-Modelle oder Lernalgorithmen ermöglicht werden, können auch über grundlegende Befehle hinausgehen. Sie können feinere Handbewegungen interpretieren und reibungslos auf kleine Richtungsänderungen sowie präzisere Steuerungen und Automatisierungen reagieren. 

Abb. 4: Eine Roboterhand analysiert die Gesten eines Benutzers (Quelle)

Vor- und Nachteile der Gestenerkennungstechnologie

Hier sind einige wichtige Vorteile der Verwendung von Gestenerkennungstechnologie:

  • Verbesserte Barrierefreiheit: Gesten können eine Alternative für Benutzer darstellen, denen die Verwendung von Tastaturen, Touchscreens oder Controllern Schwierigkeiten bereitet.
  • Funktioniert aus der Entfernung: Gesten können aus der Entfernung erkannt werden, was für Smart-TVs, Kiosksysteme und Heimgeräte hilfreich ist.
  • Flexibel über verschiedene Geräte hinweg: Ähnliche Gesten können auf Smartphones, in Autos, auf Smart Displays und AR- oder VR-Headsets verwendet werden, wodurch die Interaktion einheitlich bleibt.

Gleichzeitig gibt es einige Herausforderungen in der Praxis, die sich auf die Genauigkeit und Konsistenz auswirken können. Hier sind einige Faktoren, die zu berücksichtigen sind:

  • Probleme mit der Beleuchtung und der Kameraqualität: Schlechtes Licht, Blendung, Schatten oder Kameras mit geringer Auflösung können die Erkennungsleistung beeinträchtigen. Dies kann sich wiederum auf die Bewegungssteuerung auswirken.
  • Unterschiede zwischen Benutzern: Menschen führen Gesten naturgemäß unterschiedlich aus, und Unterschiede in der Handgröße, Fingerflexibilität oder bei Accessoires können die Genauigkeit beeinträchtigen.
  • Einschränkungen bei schnellen Bewegungen: Schnelle Gesten können zu Bewegungsunschärfe führen oder dazu, dass das Modell wichtige Bildrahmen verpasst, insbesondere bei Kameras mit niedriger Bildfrequenz.

Wesentliche Erkenntnisse

Die Gestenerkennungstechnologie hat den Sprung aus den Forschungslabors geschafft und ist nun Teil alltäglicher Geräte und Innovationen. Insbesondere ermöglicht Computer Vision die berührungslose Steuerung in den Bereichen Gaming, Robotik, Smart Homes und Automobilsysteme. Mit der Verbesserung der Bildverarbeitungsmodelle werden diese berührungslosen Schnittstellen wahrscheinlich einfacher zu realisieren sein und eine breitere Anwendung finden.

Entdecken Sie unsere Community und unser GitHub-Repository, um mehr über Computer-Vision-Modelle zu erfahren. Auf unseren Lösungsseiten finden Sie Informationen zu Anwendungen wie KI in der Landwirtschaft und Computer Vision in der Logistik. Informieren Sie sich über unsere Lizenzoptionen und beginnen Sie mit der Entwicklung Ihres eigenen Vision-KI-Modells.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten