Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Vision AI ermöglicht berührungslose Gestenerkennungstechnologie

Erkunde, wie Computer Vision Gestenerkennungstechnologie antreibt, um Handgesten in verschiedenen Anwendungen zu erkennen, zu verfolgen und zu verstehen.

ABAbirami Vina
4 min read
Vision AI ermöglicht berührungslose Gestenerkennung

Mit der Weiterentwicklung der Technologie verändert sich auch die Art und Weise, wie wir mit ihr interagieren. Frühe Maschinen waren auf physische Anstrengung und mechanische Bedienelemente angewiesen, während die moderne Informatik Touchscreens und Spracheingaben einführte.

Die Gestenerkennung ist nun Teil des nächsten Schritts und nutzt natürliche Bewegungen als Benutzeroberfläche. Ein einfaches Winken, eine Kneifbewegung oder ein kurzes Handzeichen können bereits Apps, Bildschirme und Maschinen steuern.

Diese berührungslose Interaktion kann durch Computer Vision unterstützt werden, einen Zweig der KI, der Maschinen dabei hilft, zu sehen und zu interpretieren, was eine Kamera aufnimmt. Vision AI-Systeme können in Smartphones, Virtual-Reality- (VR) und Augmented-Reality- (AR) Headsets, Autos und Smart-Home-Geräte integriert werden, wo Gesten Tippen, Klicken und Tasten für ein flüssigeres Benutzererlebnis ersetzen können.

Berührungslose Steuerung wird im Alltag immer üblicher. An Arbeitsplätzen und in gemeinsam genutzten Räumen kann die Vermeidung von physischem Kontakt die Hygiene und Sicherheit verbessern. Viele digitale Produkte verlagern sich ebenfalls auf eine freihändige Interaktion, und Gesten bieten eine einfache, intuitive Möglichkeit, Geräte ohne Berührung zu steuern.

In diesem Artikel werden wir untersuchen, was Gestenerkennung ist, wie Computer Vision sie präziser macht und wo sie in realen Anwendungen eingesetzt wird. Legen wir los!

Link to this sectionWas ist Gestenerkennung?#

Gestenerkennung ist eine Sensortechnologie, die es Maschinen ermöglicht, menschliche Gesten, wie Handzeichen oder Körperbewegungen, zu verstehen und in digitale Aktionen umzuwandeln. Anstatt auf einen Bildschirm zu tippen oder Tasten zu drücken, können Benutzer Geräte durch einfache, natürliche Bewegungen steuern.

Dies lässt Interaktionen intuitiver erscheinen und ist der Grund, warum gestenbasierte Eingaben in vielen Machine Learning- und KI-gesteuerten Steuerungssystemen übernommen werden. Insbesondere die Handgestenerkennung ist eine der am häufigsten verwendeten Formen der Gestenerkennung und basiert oft auf Computer Vision.

Einfach ausgedrückt: Eine Vision AI-Lösung kann Hände in einem Kamera-Feed erkennen, ihre Bewegung oder Formänderung verfolgen und diese Muster mit einer bekannten Geste abgleichen, um eine Aktion auf dem Bildschirm auszulösen.

Ein wesentlicher Bestandteil dieser Lösungen ist ein Computer Vision-Modell, das mit Datensätzen von beschrifteten Bildern oder Videos trainiert wird, die verschiedene Handgesten zeigen. Mit vielfältigen Trainingsdaten und sorgfältiger Bewertung kann das Modell besser über verschiedene Benutzer, Lichtverhältnisse und Hintergründe hinweg generalisieren und so Gesten in realen Umgebungen zuverlässiger erkennen.

Daten, die zum Trainieren eines Computer-Vision-Modells zur Erkennung von Gesten-Keypoints verwendet werden

Abb. 1. Daten, die verwendet werden, um ein Computer Vision-Modell zur Erkennung von Gesten-Keypoints zu trainieren (Quelle)

Link to this sectionErkundung verschiedener Arten von Gesten und Mensch-Computer-Interaktion#

Bevor wir uns genauer ansehen, welche Rolle Computer Vision bei der Gestenerkennung spielt, machen wir einen Schritt zurück und betrachten die Arten von Gesten, die diese Systeme typischerweise erkennen.

In den meisten Fällen lassen sich Gesten in zwei Kategorien einteilen: statisch und dynamisch. Statische Gesten sind festgelegte Handhaltungen, wie ein Daumen hoch, ein Stoppsignal oder ein Peace-Zeichen. Da sie keine Bewegung beinhalten, können sie oft aus einem einzelnen Einzelbild erkannt werden.

Dynamische Gesten hingegen beinhalten Bewegungen über einen Zeitraum hinweg, wie Winken oder Wischen in der Luft. Um sie zu erkennen, muss ein Vision AI-System mehrere Bilder analysieren, um die Bewegung der Hand verfolgen und die Richtung sowie das Timing der Geste verstehen zu können.

Link to this sectionDie Rolle von Computer Vision-Algorithmen bei der Gestenerkennung#

Gestenerkennungssysteme können auf unterschiedliche Weise aufgebaut sein. Einige Eingabemethodensysteme nutzen tragbare Sensoren, wie Handschuhe oder am Handgelenk montierte Tracker, um Handbewegungen zu erfassen.

Diese Setups können präzise sein, sind aber nicht immer praktikabel. Wearables müssen getragen, eingerichtet, aufgeladen und gewartet werden, und sie können in gemeinsam genutzten Räumen oder bei täglicher Nutzung einschränkend wirken.

Deshalb setzen viele modernste Systeme stattdessen auf Computer Vision. Mit Standard-RGB-Kameras und Tiefen- oder Time-of-Flight-Sensoren können Geräte Hand- und Körperbewegungen in Echtzeit erfassen, ohne dass Benutzer zusätzliche Geräte tragen müssen. Dies macht die vision-basierte Gestenerkennung ideal für Smartphones, Autos, Smart-TVs sowie AR- und VR-Headsets.

Zum Beispiel unterstützen Computer Vision-Modelle wie Ultralytics YOLO11 und das kommende Ultralytics YOLO26 Aufgaben wie Objekterkennung, Objektverfolgung und Pose Estimation. Diese Fähigkeiten können genutzt werden, um Hände in jedem Frame zu erkennen, ihre Bewegung über die Zeit zu verfolgen und Keypoints wie Fingerspitzen und Gelenke abzubilden. Dies ermöglicht das Erkennen von Gesten wie einer erhobenen Handfläche zum Pausieren, einer Kneifbewegung zum Zoomen, einer Wischbewegung zum Navigieren in Menüs oder einer Zeigegeste zum Auswählen eines Elements in AR und VR.

Link to this sectionComputer Vision-Aufgaben für die Erkennung der Mensch-Maschine-Interaktion#

Hier ist ein Überblick über einige der wichtigsten Computer Vision-Aufgaben, die bei der Gestenerkennung verwendet werden:

  • Objekterkennung: Diese Aufgabe wird verwendet, um Hände in einem Bild oder Videobild zu lokalisieren, meist durch das Zeichnen von Bounding Boxes um sie herum. Sie hilft dem System, sich auf den Gestenbereich zu konzentrieren und unnötige Hintergrunddetails zu ignorieren.
  • Objektverfolgung: Aufbauend auf der Objekterkennung verfolgt diese Aufgabe erkannte Hände über mehrere Frames hinweg und behält ihre Identität über die Zeit bei. Dies ist besonders nützlich für dynamische Gesten, bei denen Bewegung und Richtung entscheidend sind.
  • Pose Estimation: Anstatt sich auf Bounding Boxes zu konzentrieren, identifiziert Pose Estimation Keypoints an der Hand, wie Fingerspitzen, Knöchel und das Handgelenk. Diese Landmarken erstellen ein einfaches Handskelett, das Fingerpositionen und subtile Bewegungen erfasst und eine detailliertere Gestenklassifizierung ermöglicht.
  • Instanzsegmentierung: Diese Aufgabe zielt darauf ab, jede Hand auf Pixelebene vom Hintergrund zu trennen, indem eine Maske für jede sichtbare Hand generiert wird. Dies ist hilfreich in überfüllten Szenen, wenn sich Hände überlappen oder wenn mehrere Hände im Bild erscheinen.

Viele Vision AI-Lösungen nutzen diese Aufgaben zusammen als Teil einer einzigen Pipeline. Ein System könnte zum Beispiel mit der Objekterkennung beginnen, um die Hände zu finden, und dann die Verfolgung nutzen, um sie für dynamische Gesten über Frames hinweg zu verfolgen.

Wenn die Geste von der Fingerplatzierung abhängt, kann Pose Estimation Keypoints für feinere Details hinzufügen, während die Instanzsegmentierung helfen kann, jede Hand in überfüllten Szenen oder bei sich überlappenden Händen präziser zu isolieren. Zusammen liefern diese Schritte sowohl Standort- als auch Bewegungsinformationen, was die Gestenerkennung genauer und zuverlässiger macht.

Link to this sectionWie vision-basierte Gestenerkennung funktioniert#

Nachdem wir nun ein besseres Verständnis der Computer Vision-Aufgaben hinter der Gestenerkennung haben, schauen wir uns Schritt für Schritt an, wie ein vision-basiertes System funktioniert.

Ein typisches System beginnt mit der Aufnahme von Video von einer Kamera, manchmal zusammen mit Tiefendaten, falls das Gerät dies unterstützt. Die Frames werden dann durch Bildverarbeitung vorverarbeitet, um sie für das Modell konsistent handhabbar zu machen, wie zum Beispiel durch Skalieren, Stabilisieren oder Reduzieren von Rauschen und Bewegungsunschärfe.

Als Nächstes identifiziert das System Hände im Frame durch Erkennung oder Segmentierung und folgt ihnen über die Zeit mittels Verfolgung. Wenn die Anwendung feinere Details benötigt, kann sie auch Pose Estimation ausführen, um Keypoints wie Fingerspitzen und Gelenke zu extrahieren. Unter Verwendung dieser Informationen klassifiziert das Modell die Geste, ob es sich um eine Einzelbildhaltung wie Daumen hoch oder ein Bewegungsmuster wie Wischen handelt.

Schließlich wird die erkannte Geste einer Aktion in der Benutzeroberfläche zugeordnet, wie Scrollen, Zoomen, Auswählen eines Elements, Anpassen der Lautstärke oder Steuern von AR- und VR-Interaktionen. Die genaue Pipeline kann variieren, wobei einfachere Anwendungen weniger Schritte verwenden und komplexere Anwendungen Objekterkennung, Verfolgung und Pose Estimation für eine bessere Genauigkeit kombinieren.

Link to this sectionAnwendungen der vision-basierten Gestenerkennung#

Lassen Sie uns als Nächstes durchgehen, wie Gestenerkennung in realen Anwendungen verwendet wird, um Handpositionen zu verstehen.

Link to this sectionGestenbasierte Interaktion mit Infotainmentsystemen in Autos#

Gestenerkennung beginnt in intelligenten Fahrzeugschnittstellen aufzutauchen, insbesondere in Infotainmentsystemen. Es ist eine bequeme Art, bestimmte Funktionen mit einfachen Handbewegungen zu steuern, was die Häufigkeit verringern kann, mit der Fahrer nach Touchscreens oder physischen Tasten greifen müssen. Zum Beispiel kann eine schnelle Geste verwendet werden, um die Lautstärke anzupassen, Anrufe zu verwalten oder durch Menüs auf dem Bildschirm zu navigieren.

Ein Fahrer, der im Erfassungsbereich eines Infotainment-Systems Handgesten ausführt

Abb. 2. Ein Fahrer, der Handgesten im Erfassungsbereich eines Infotainmentsystems ausführt (Quelle)

Link to this sectionGestenbasierte Interaktionen beim Gaming#

Im Gaming und bei immersiven Erlebnissen verändert die gestenbasierte Steuerung die Art und Weise, wie Menschen mit virtuellen Welten interagieren. Anstatt sich nur auf Controller oder Joysticks zu verlassen, können Spieler natürliche Handbewegungen verwenden, um durch Menüs zu navigieren, virtuelle Objekte aufzuheben, Charaktere zu steuern oder Aktionen in einem Spiel auszulösen.

Spielen von Videospielen mittels Handgesten

Abb. 3. Spielen von Videospielen mit Handgesten (Quelle).

Diese Art der berührungslosen Interaktion kann sich flüssiger anfühlen, insbesondere in AR und VR. Infolgedessen werden Handverfolgung und Gestensteuerung zu gängigen Funktionen in VR- und Mixed-Reality-Headsets.

Link to this sectionNahtlose Gestensteuerung für Smart-Home-Geräte#

Smart-Home-Geräte wie Smart-TVs, Lautsprecher und vernetzte Lampen beginnen, gestenbasierte Steuerung für schnelle, berührungslose Aktionen zu unterstützen. Mit einer einfachen Handbewegung können Benutzer das Licht einschalten, die Lautstärke anpassen oder grundlegende Befehle auslösen, ohne nach Schaltern oder Fernbedienungen zu greifen.

Zum Beispiel können in Home-Entertainment-Setups eingebaute oder angeschlossene Tiefenkameras Gesten wie Wischen, Zeigen oder das Heben einer Hand erkennen. Dies kann es einfacher machen, durch Menüs zu stöbern, Einstellungen zu ändern oder Auswahlen von der anderen Seite des Raums zu bestätigen. Hinter den Kulissen verarbeiten Computer Vision-Modelle den Kamera-Feed in Echtzeit, um diese Gesten zu erkennen und zu interpretieren.

Link to this sectionKI-gestützte Gestensteuerung in der Robotik#

Stellen Sie sich eine Situation in einer Fabrik vor, in der ein Arbeiter einen Roboter führen muss, während er Teile trägt, Handschuhe trägt oder in sicherem Abstand zu beweglichen Geräten steht. In diesen Umgebungen kann das Erreichen von Tasten oder einem Bedienfeld langsam oder sogar unsicher sein.

Im Gegensatz dazu können gestenbasierte Steuerungssysteme eine praktischere, freihändige Möglichkeit sein, mit diesen Maschinen zu interagieren. Dies ist besonders nützlich für kollaborative Roboter, oder Cobots, die für die Arbeit mit Menschen konzipiert sind.

Anstatt zu einem Bedienfeld zu gehen, können Bediener einfache Handzeichen verwenden, um einen Roboter aus der Ferne zu starten, zu stoppen oder zu führen. Dies reduziert die Abhängigkeit von physischen Bedienelementen und kann sicherere Arbeitsabläufe in der Werkshalle unterstützen.

Fortgeschrittene vision-basierte Steuerungssysteme, die durch Deep Learning-Modelle oder Lernalgorithmen ermöglicht werden, können auch über grundlegende Befehle hinausgehen. Sie können feinere Handbewegungen interpretieren und reibungslos auf kleine Richtungsänderungen sowie präzisere Führung und Automatisierung reagieren.

Eine Roboterhand, die die Geste eines Benutzers analysiert

Abb. 4. Eine Roboterhand, die die Geste eines Benutzers analysiert (Quelle)

Link to this sectionVor- und Nachteile der Gestenerkennungstechnologie#

Hier sind einige wichtige Vorteile der Nutzung von Gestenerkennungstechnologie:

  • Verbesserte Barrierefreiheit: Gesten können eine Alternative für Benutzer bieten, die Tastaturen, Touchscreens oder Controller schwer bedienen können.
  • Funktioniert auf Distanz: Gesten können über einen Raum hinweg erkannt werden, was für Smart-TVs, Kioske und Home-Geräte hilfreich ist.
  • Geräteübergreifend flexibel: Ähnliche Gestensätze können auf Telefonen, Autos, Smart-Displays sowie AR- oder VR-Headsets funktionieren, was die Interaktion konsistent macht.

Gleichzeitig gibt es einige reale Herausforderungen, die sich auf Genauigkeit und Konsistenz auswirken können. Hier sind einige Faktoren, die berücksichtigt werden sollten:

  • Probleme mit Licht und Kameraqualität: Schwaches Licht, Blendung, Schatten oder Kameras mit niedriger Auflösung können die Erkennungsleistung verringern. Dies kann wiederum die Bewegungssteuerung beeinträchtigen.
  • Variation zwischen Benutzern: Menschen führen Gesten von Natur aus unterschiedlich aus, und Unterschiede in Handgröße, Fingerflexibilität oder Accessoires können die Genauigkeit beeinflussen.
  • Einschränkungen bei schnellen Bewegungen: Schnelle Gesten können Bewegungsunschärfe verursachen oder dazu führen, dass das Modell wichtige Frames verpasst, insbesondere bei Kameras mit niedriger Bildrate.

Link to this sectionWichtige Erkenntnisse#

Die Gestenerkennungstechnologie hat sich über Forschungslabore hinausbewegt und ist nun Teil von Alltagsgeräten und Innovationen. Insbesondere ermöglicht Computer Vision berührungslose Steuerung beim Gaming, in der Robotik, in Smart Homes und in Automobilsystemen. Da sich Vision-Modelle verbessern, werden diese berührungslosen Schnittstellen wahrscheinlich einfacher zu bauen und weiter verbreitet sein.

Entdecken Sie unsere Community und unser GitHub-Repository, um mehr über Computer Vision-Modelle zu erfahren. Erkunden Sie unsere Lösungsseiten, um mehr über Anwendungen wie KI in der Landwirtschaft und Computer Vision in der Logistik zu lesen. Prüfen Sie unsere Lizenzoptionen und beginnen Sie mit dem Aufbau Ihres eigenen Vision AI-Modells.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens