Verbesserung der Schätzung von Hand-Keypoints mit Ultralytics YOLO11
Erkunde die KI-gestützte Schätzung von Hand-Keypoints mit der Unterstützung von Ultralytics YOLO11 für Pose Estimation in Anwendungen wie der Echtzeit-Gestensteuerung.

In letzter Zeit haben die Gebärdensprachdolmetscher beim Super Bowl viel Aufmerksamkeit erregt. Wenn du ihnen im Fernsehen dabei zusiehst, wie sie das Lied deines Lieblingskünstlers übersetzen, kannst du sie verstehen, falls du Gebärdensprache beherrschst, da dein Gehirn ihre Handbewegungen verarbeitet. Aber was, wenn ein Computer das Gleiche könnte? Dank KI-gestützter Hand-Tracking-Lösungen ist es Maschinen möglich, Handbewegungen mit beeindruckender Genauigkeit zu verfolgen und zu interpretieren.
Im Zentrum dieser Lösungen steht Computer Vision, ein Teilbereich der KI, der es Maschinen ermöglicht, visuelle Informationen zu verarbeiten und zu verstehen. Durch die Analyse von Bildern und Videos hilft Vision AI dabei, Objekte zu erkennen, Bewegungen zu verfolgen und komplexe Gesten mit bemerkenswerter Präzision zu interpretieren.
Computer-Vision-Modelle wie Ultralytics YOLO11 können beispielsweise darauf trainiert werden, Hand-Keypoints mittels Pose Estimation in Echtzeit zu erkennen und zu analysieren. Dadurch können diese Modelle für Anwendungen wie Gestenerkennung, Gebärdensprachübersetzung und AR/VR-Interaktionen genutzt werden.
In diesem Artikel untersuchen wir, wie YOLO11 KI-basiertes Hand-Tracking ermöglicht, welche Datensätze für das Training verwendet werden und wie du ein Modell für Hand Pose Estimation benutzerdefiniert trainierst. Wir werfen außerdem einen Blick auf praktische Anwendungsfälle. Fangen wir an!
Link to this sectionVerständnis der KI-basierten Hand-Keypoint-Erkennung#
KI kann dazu genutzt werden, Handbewegungen in visuellen Daten zu erkennen und zu verfolgen, indem Schlüsselpunkte wie Handgelenk, Fingerspitzen und Fingergelenke identifiziert werden. Ein Ansatz, bekannt als Pose Estimation, hilft Computern, menschliche Bewegungen zu verstehen, indem Schlüsselpunkte kartiert und ihre zeitliche Veränderung analysiert werden. Dies ermöglicht es KI-Systemen, Körperhaltung, Gesten und Bewegungsmuster mit hoher Genauigkeit zu interpretieren.
Computer-Vision-Modelle machen dies möglich, indem sie Bilder oder Videos analysieren, um Schlüsselpunkte an der Hand zu identifizieren und deren Bewegung zu verfolgen. Sobald diese Punkte zugeordnet sind, kann die KI Gesten erkennen, indem sie die räumlichen Beziehungen zwischen den Schlüsselpunkten und deren zeitliche Entwicklung analysiert.
Wenn beispielsweise der Abstand zwischen Daumen und Zeigefinger abnimmt, kann die KI dies als Greifbewegung interpretieren. Ähnlich hilft das Verfolgen von Schlüsselpunktsequenzen dabei, komplexe Handgesten zu identifizieren und sogar zukünftige Bewegungen vorherzusagen.

Abb. 1. Ein Beispiel für die Erkennung der Schlüsselpunkte einer Hand mittels Computer Vision.
Interessanterweise hat die Pose Estimation für das Hand-Tracking spannende Möglichkeiten eröffnet, von der berührungslosen Steuerung intelligenter Geräte bis hin zu verbesserter Robotikpräzision und Unterstützung im Gesundheitswesen. Da KI und Computer Vision sich ständig weiterentwickeln, wird Hand-Tracking voraussichtlich eine größere Rolle dabei spielen, Technologie interaktiver, zugänglicher und intuitiver im Alltag zu machen.
Link to this sectionYOLO11 für Pose Estimation erkunden#
Bevor wir uns ansehen, wie du eine Lösung für KI-basiertes Hand-Tracking erstellst, schauen wir uns die Pose Estimation genauer an und wie YOLO11 diese Computer-Vision-Aufgabe unterstützt. Im Gegensatz zur Standard-Objekterkennung, die ganze Objekte identifiziert, konzentriert sich die Pose Estimation auf die Erkennung wichtiger Orientierungspunkte – wie Gelenke, Gliedmaßen oder Kanten –, um Bewegung und Haltung zu analysieren.
Insbesondere ist Ultralytics YOLO11 für Pose Estimation in Echtzeit konzipiert. Durch die Nutzung von Top-Down- und Bottom-Up-Methoden erkennt es effizient Personen und schätzt Schlüsselpunkte in einem Schritt, womit es vorherige Modelle in Geschwindigkeit und Genauigkeit übertrifft.
Von Haus aus ist YOLO11 auf dem COCO-Pose-Datensatz vortrainiert und kann Schlüsselpunkte am menschlichen Körper erkennen, einschließlich Kopf, Schultern, Ellbogen, Handgelenke, Hüften, Knie und Knöchel.

Abb. 2. Verwendung von YOLO11 zur menschlichen Pose Estimation.
Über die menschliche Pose Estimation hinaus kann YOLO11 benutzerdefiniert trainiert werden, um Schlüsselpunkte an einer Vielzahl von Objekten zu erkennen, sowohl belebt als auch unbelebt. Diese Flexibilität macht YOLO11 zu einer großartigen Option für eine breite Palette von Anwendungen.
Link to this sectionEin Überblick über den Hand Keypoints Datensatz#
Der erste Schritt beim benutzerdefinierten Training eines Modells besteht darin, Daten zu sammeln und zu annotieren oder einen bestehenden Datensatz zu finden, der den Anforderungen des Projekts entspricht. Zum Beispiel ist der Hand Keypoints Datensatz ein guter Ausgangspunkt für das Training von Vision AI-Modellen für Hand-Tracking und Pose Estimation. Mit 26.768 annotierten Bildern erübrigt er die manuelle Etikettierung.
Er kann dazu verwendet werden, Modelle wie Ultralytics YOLO11 zu trainieren, um schnell zu lernen, wie Handbewegungen erkannt und verfolgt werden. Der Datensatz enthält 21 Schlüsselpunkte pro Hand, die Handgelenk, Finger und Gelenke abdecken. Zudem wurden die Annotationen des Datensatzes mit Google MediaPipe generiert, einem Werkzeug zur Entwicklung von KI-gestützten Lösungen für die Echtzeit-Medienverarbeitung, was eine präzise und zuverlässige Keypoint-Erkennung gewährleistet.

Abb. 3. Die 21 im Hand Keypoints Datensatz enthaltenen Schlüsselpunkte.
Die Verwendung eines so strukturierten Datensatzes spart Zeit und ermöglicht es Entwicklern, sich auf das Training und die Feinabstimmung ihrer Modelle zu konzentrieren, anstatt Daten zu sammeln und zu labeln. Tatsächlich ist der Datensatz bereits in Trainings- (18.776 Bilder) und Validierungs- (7.992 Bilder) Teilmengen unterteilt, was die Bewertung der Modellleistung erleichtert.
Link to this sectionSo trainierst du YOLO11 für Hand Pose Estimation#
Das Training von YOLO11 für Hand Pose Estimation ist ein unkomplizierter Prozess, insbesondere mit dem Ultralytics Python-Paket, das die Einrichtung und das Training des Modells erleichtert. Da der Hand Keypoints Datensatz bereits in der Trainings-Pipeline unterstützt wird, kann er sofort ohne zusätzliche Formatierung verwendet werden, was Zeit und Mühe spart.
So funktioniert der Trainingsprozess:
- Umgebung einrichten: Der erste Schritt ist die Installation des Ultralytics Python-Pakets.
- Hand Keypoints Datensatz laden: YOLO11 unterstützt diesen Datensatz nativ, sodass er automatisch heruntergeladen und vorbereitet werden kann.
- Vortrainiertes Modell verwenden: Du kannst mit einem vortrainierten YOLO11 Pose Estimation-Modell beginnen, was die Genauigkeit verbessert und den Trainingsprozess beschleunigt.
- Modell trainieren: Das Modell lernt, Hand-Keypoints zu erkennen und zu verfolgen, indem es mehrere Trainingszyklen durchläuft.
- Leistung überwachen: Das Ultralytics-Paket bietet zudem integrierte Werkzeuge, um wichtige Kennzahlen wie Genauigkeit und Verlust zu verfolgen, was sicherstellt, dass sich das Modell mit der Zeit verbessert.
- Speichern und bereitstellen: Sobald das Modell trainiert ist, kann es exportiert und für Echtzeit-Hand-Tracking-Anwendungen genutzt werden.
Link to this sectionDein benutzerdefiniertes Modell bewerten#
Während du die Schritte zur Erstellung eines benutzerdefinierten Modells durchläufst, wirst du merken, dass die Überwachung der Leistung unerlässlich ist. Neben der Fortschrittsverfolgung während des Trainings ist eine anschließende Bewertung des Modells entscheidend, um sicherzustellen, dass es Hand-Keypoints präzise erkennt und verfolgt.
Wichtige Leistungskennzahlen wie Genauigkeit, Verlustwerte und mean average precision (mAP) helfen bei der Bewertung, wie gut das Modell abschneidet. Das Ultralytics Python-Paket bietet integrierte Tools zur Visualisierung von Ergebnissen und zum Vergleich von Vorhersagen mit echten Annotationen, was es einfacher macht, Bereiche für Verbesserungen zu erkennen.
Um die Leistung des Modells besser zu verstehen, kannst du Bewertungsdiagramme wie Verlustkurven, Precision-Recall-Plots und Konfusionsmatrizen überprüfen, die automatisch in den Trainingsprotokollen generiert werden.
Diese Diagramme helfen dabei, Probleme wie Overfitting (wenn das Modell Trainingsdaten auswendig lernt, aber bei neuen Daten Schwierigkeiten hat) oder Underfitting (wenn das Modell Muster nicht gut genug lernt, um präzise zu arbeiten) zu identifizieren und Anpassungen zur Verbesserung der Genauigkeit anzuleiten. Zudem ist das Testen des Modells mit neuen Bildern oder Videos wichtig, um zu sehen, wie es in realen Szenarien funktioniert.
Link to this sectionAnwendungen von KI-gestützten Hand-Tracking-Lösungen#
Als Nächstes gehen wir einige der einflussreichsten Anwendungen der Hand-Keypoint-Schätzung mit Ultralytics YOLO11 durch.
Link to this sectionEchtzeit-Gestenerkennung mit YOLO11#
Stell dir vor, du könntest die Lautstärke deines Fernsehers einfach durch Winken anpassen oder ein Smart-Home-System mit einer einfachen Wischbewegung in der Luft steuern. Die durch YOLO11 unterstützte Gestenerkennung in Echtzeit macht diese berührungslosen Interaktionen möglich, indem sie Handbewegungen in Echtzeit präzise erkennt.
Dies funktioniert durch den Einsatz von KI-Kameras, um Schlüsselpunkte deiner Hand zu verfolgen und Gesten als Befehle zu interpretieren. Tiefensensorkameras, Infrarotsensoren oder sogar normale Webcams erfassen Handbewegungen, während YOLO11 die Daten verarbeitet, um verschiedene Gesten zu erkennen. So kann ein solches System beispielsweise den Unterschied zwischen einem Wisch zum Ändern eines Songs, einer Kneifbewegung zum Zoomen oder einer kreisförmigen Bewegung zum Anpassen der Lautstärke unterscheiden.
Link to this sectionKI-basierte Hand-Keypoint-Erkennung zur Gebärdenspracherkennung#
KI-Lösungen für Hand-Tracking können die nahtlose Kommunikation zwischen einer gehörlosen Person und jemandem, der keine Gebärdensprache beherrscht, unterstützen. Intelligente Geräte mit integrierten Kameras und YOLO11 können beispielsweise genutzt werden, um Gebärdensprache sofort in Text oder Sprache zu übersetzen.
Dank Fortschritten wie YOLO11 werden Tools zur Übersetzung von Gebärdensprache immer genauer und zugänglicher. Dies wirkt sich auf Anwendungen wie assistierende Technologien, Live-Übersetzungsdienste und Bildungsplattformen aus. KI kann helfen, Kommunikationsbarrieren abzubauen und Inklusion an Arbeitsplätzen, in Schulen und in öffentlichen Räumen zu fördern.
Link to this sectionComputer Vision für Hand-Tracking: Verbesserung von AR- und VR-Erlebnissen#
Hast du jemals ein Virtual Reality (VR) Spiel gespielt, bei dem du Objekte greifen konntest, ohne einen Controller zu benutzen? Hand-Tracking auf Basis von Computer Vision macht dies möglich, indem es Benutzern erlaubt, auf natürliche Weise in Augmented Reality (AR) und VR-Umgebungen zu interagieren.

Abb. 4. Hand-Tracking ist eine Schlüsselkomponente von AR- und VR-Anwendungen.
Mit der Hand-Keypoint-Schätzung unter Verwendung von Modellen wie Ultralytics YOLO11 verfolgt die KI Bewegungen in Echtzeit und ermöglicht Gesten wie Kneifen, Greifen und Wischen. Dies verbessert Gaming, virtuelle Trainings und Remote-Zusammenarbeit, wodurch Interaktionen intuitiver werden. Mit der Verbesserung der Hand-Tracking-Technologie werden AR und VR noch immersiver und lebensechter wirken.
Link to this sectionWichtige Erkenntnisse#
Die Hand-Keypoint-Schätzung mit Ultralytics YOLO11 macht KI-gestützte Hand-Tracking-Lösungen zugänglicher und zuverlässiger. Von der Gestenerkennung in Echtzeit bis hin zu Gebärdensprachdolmetschen und AR/VR-Anwendungen eröffnet Computer Vision neue Möglichkeiten in der Mensch-Computer-Interaktion.
Darüber hinaus helfen optimierte Prozesse für benutzerdefiniertes Training und Feinabstimmung Entwicklern dabei, effiziente Modelle für verschiedene reale Anwendungen zu erstellen. Während sich die Computer-Vision-Technologie weiterentwickelt, können wir noch mehr Innovationen in Bereichen wie Gesundheitswesen, Robotik, Gaming und Sicherheit erwarten.
Engagiere dich in unserer Community und entdecke KI-Fortschritte auf unserem GitHub-Repository. Entdecke die Auswirkungen von KI in der Fertigung und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Entdecke unsere Lizenzierungspläne und starte noch heute deine KI-Reise!






