Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Verbesserung der Schätzung von Hand-Tastatureingaben mit Ultralytics YOLO11

Abirami Vina

6 Minuten Lesezeit

5. März 2025

Entdecken Sie die KI-gesteuerte Schätzung von Hand-Tastenpunkten mit der Unterstützung von Ultralytics YOLO11 für die Posenschätzung in Anwendungen wie Echtzeit-Gestenerkennung.

In letzter Zeit haben die Gebärdensprachdolmetscher beim Super Bowl viel Aufmerksamkeit erregt. Wenn man sie im Fernsehen das Lied seines Lieblingskünstlers singen sieht, kann man sie verstehen, wenn man die Gebärdensprache beherrscht, weil das Gehirn ihre Handbewegungen verarbeitet. Aber was wäre, wenn ein Computer dasselbe tun könnte? Dank KI-gesteuerter Lösungen zur Handverfolgung können Maschinen Handbewegungen mit beeindruckender Genauigkeit track und interpretieren.

Das Herzstück dieser Lösungen ist die Computer Vision, ein Teilbereich der KI, der es Maschinen ermöglicht, visuelle Informationen zu verarbeiten und zu verstehen. Durch die Analyse von Bildern und Videos hilft Vision AI ihnen, Objekte detect , Bewegungen track und komplexe Gesten mit bemerkenswerter Genauigkeit zu erkennen.

Zum Beispiel können Computer-Vision-Modelle wie Ultralytics YOLO11 können so trainiert werden, dass sie Tastenpunkte der Hand in Echtzeit detect und analysieren, indem sie eine Posenschätzung vornehmen. Auf diese Weise können diese Modelle für Anwendungen wie Gestenerkennung, Gebärdensprachübersetzung und AR/VR-Interaktionen verwendet werden. 

In diesem Artikel erfahren Sie, wie YOLO11 die KI-basierte Handverfolgung ermöglicht, welche Datensätze für das Training verwendet werden und wie Sie ein Modell für die Schätzung der Handhaltung individuell trainieren können. Wir werden auch einen Blick auf reale Anwendungen werfen. Legen wir los!

Grundlegendes zur KI-basierten Erkennung von Hand-Keypoints

Mithilfe von künstlicher Intelligenz lassen sich Handbewegungen in visuellen Daten erkennen und track , indem Schlüsselpunkte wie Handgelenk, Fingerspitzen und Fingergelenke identifiziert werden. Ein Ansatz, der als Posenschätzung bekannt ist, hilft Computern dabei, menschliche Bewegungen zu verstehen, indem sie Schlüsselpunkte abbilden und analysieren, wie sie sich im Laufe der Zeit verändern. Dadurch können KI-Systeme Körperhaltung, Gesten und Bewegungsmuster mit hoher Genauigkeit interpretieren.

Computer-Vision-Modelle machen dies möglich, indem sie Bilder oder Videos analysieren, um Schlüsselpunkte auf der Hand zu identifizieren und ihre Bewegung track . Sobald diese Punkte kartiert sind, kann die KI Gesten erkennen, indem sie die räumlichen Beziehungen zwischen den Schlüsselpunkten und deren Veränderung im Laufe der Zeit analysiert. 

Wenn beispielsweise der Abstand zwischen Daumen und Zeigefinger abnimmt, kann KI dies als Kneifbewegung interpretieren. In ähnlicher Weise hilft die Verfolgung, wie sich Keypoints in Sequenzen bewegen, komplexe Handgesten zu identifizieren und sogar zukünftige Bewegungen vorherzusagen.

__wf_reserved_inherit
Abb. 1. Ein Beispiel für die Erkennung der Keypoints in einer Hand mithilfe von Computer Vision.

Interessanterweise hat die Pose-Schätzung für das Handtracking aufregende Möglichkeiten eröffnet, von der freihändigen Steuerung intelligenter Geräte über eine verbesserte Roboterpräzision bis hin zur Unterstützung in Gesundheitsanwendungen. Da sich KI und Computer Vision ständig weiterentwickeln, wird das Handtracking wahrscheinlich eine größere Rolle dabei spielen, Technologie im Alltag interaktiver, zugänglicher und intuitiver zu gestalten.

Erkundung von YOLO11 für die Posenschätzung

Bevor wir uns mit der Erstellung einer Lösung für die KI-basierte Handverfolgung befassen, wollen wir einen genaueren Blick auf die Pose Estimation werfen und darauf, wie YOLO11 diese Computer Vision Aufgabe unterstützt. Im Gegensatz zur standardmäßigen Objekterkennung, bei der ganze Objekte identifiziert werden, konzentriert sich die Posenschätzung auf die Erkennung wichtiger Orientierungspunkte - wie Gelenke, Gliedmaßen oder Kanten - um Bewegung und Haltung zu analysieren. 

Ultralytics YOLO11 ist speziell für die Posenschätzung in Echtzeit konzipiert. Durch die Nutzung von Top-Down- und Bottom-Up-Methoden erkennt es effizient Personen und schätzt die Keypoints in einem Schritt und übertrifft frühere Modelle in Geschwindigkeit und Genauigkeit.

YOLO11 ist bereits mit dem COCO trainiert und kann Schlüsselpunkte am menschlichen Körper erkennen, darunter Kopf, Schultern, Ellbogen, Handgelenke, Hüften, Knie und Knöchel. 

__wf_reserved_inherit
Abb. 2. Die Verwendung von YOLO11 für die Schätzung der menschlichen Pose.

Neben der Schätzung der menschlichen Pose kann YOLO11 auch so trainiert werden, dass es Keypoints auf einer Vielzahl von Objekten detect , sowohl auf belebten als auch auf unbelebten. Diese Flexibilität macht YOLO11 zu einer großartigen Option für eine breite Palette von Anwendungen.

Ein Überblick über den Hand Keypoints-Datensatz

Der erste Schritt beim benutzerdefinierten Training eines Modells ist das Sammeln und Annotieren von Daten oder das Finden eines vorhandenen Datensatzes, der den Projektanforderungen entspricht. Beispielsweise ist der Hand Keypoints-Datensatz ein guter Ausgangspunkt für das Training von Vision-AI-Modellen für Handtracking und Pose-Schätzung. Mit 26.768 annotierten Bildern entfällt die Notwendigkeit der manuellen Beschriftung. 

Er kann zum Trainieren von Modellen wie Ultralytics YOLO11 verwendet werden, um schnell zu lernen, wie man Handbewegungen detect und track . Der Datensatz umfasst 21 Keypoints pro Hand, die das Handgelenk, die Finger und die Gelenke abdecken. Die Annotationen des Datensatzes wurden mit Google MediaPipe erstellt, einem Tool zur Entwicklung von KI-gestützten Lösungen für die Medienverarbeitung in Echtzeit, das eine präzise und zuverlässige Erkennung von Keypoints gewährleistet. 

__wf_reserved_inherit
Abb. 3. Die 21 im Hand Keypoints-Datensatz enthaltenen Keypoints.

Die Verwendung eines strukturierten Datensatzes wie diesem spart Zeit und ermöglicht es Entwicklern, sich auf das Training und die Feinabstimmung ihrer Modelle zu konzentrieren, anstatt Daten zu sammeln und zu beschriften. Tatsächlich ist der Datensatz bereits in Trainings- (18.776 Bilder) und Validierungs-Teilmengen (7.992 Bilder) unterteilt, was die Bewertung der Modellleistung erleichtert. 

So trainieren Sie YOLO11 für die Schätzung der Handhaltung

Das Training von YOLO11 für die Schätzung der Handhaltung ist ein unkomplizierter Prozess, insbesondere mit dem Ultralytics Python , das die Einrichtung und das Training des Modells erleichtert. Da der Hand Keypoints-Datensatz bereits in der Trainingspipeline unterstützt wird, kann er ohne zusätzliche Formatierung sofort verwendet werden, was Zeit und Mühe spart.

So funktioniert der Trainingsprozess:

  • Richten Sie die Umgebung ein: Der erste Schritt ist die Installation des Ultralytics Python .
  • Laden Sie den Hand Keypoints-Datensatz: YOLO11 unterstützt diesen Datensatz von Haus aus, so dass er automatisch heruntergeladen und vorbereitet werden kann.
  • Verwenden Sie ein vortrainiertes Modell: Sie können mit einem vortrainierten YOLO11 beginnen, was die Genauigkeit verbessert und den Trainingsprozess beschleunigt.
  • Trainieren Sie das Modell: Das Modell lernt durch mehrere Trainingszyklen, Hand-Tastenpunkte detect und zu track .
  • Leistung überwachen: Das Ultralytics bietet auch integrierte Tools zur track Schlüsselkennzahlen wie Genauigkeit und Verlust, um sicherzustellen, dass das Modell im Laufe der Zeit verbessert wird.
  • Speichern und bereitstellen: Nach dem Training kann das Modell exportiert und für Echtzeit-Anwendungen zur Handverfolgung verwendet werden.

Evaluierung Ihres benutzerdefinierten, trainierten Modells

Wenn Sie die Schritte zur Erstellung eines benutzerdefinierten Modells durchgehen, werden Sie feststellen, dass die Überwachung der Leistung unerlässlich ist. Neben der Verfolgung des Fortschritts während des Trainings ist die anschließende Evaluierung des Modells entscheidend, um sicherzustellen, dass es Hand Keypoints genau erkennt und verfolgt. 

Wichtige Leistungskennzahlen wie Genauigkeit, Verlustwerte und mittlere durchschnittliche PräzisionmAP) helfen bei der Beurteilung der Leistung des Modells. DasPython von Ultralytics bietet integrierte Tools zur Visualisierung von Ergebnissen und zum Vergleich von Vorhersagen mit echten Anmerkungen, wodurch sich Bereiche mit Verbesserungsbedarf leichter erkennen lassen.

Um die Leistung des Modells besser zu verstehen, können Sie Auswertungsgraphen wie Verlustkurven, Precision-Recall-Diagramme und Konfusionsmatrizen überprüfen, die automatisch in den Trainingsprotokollen generiert werden. 

Diese Graphen helfen, Probleme wie Overfitting (wenn sich das Modell Trainingsdaten merkt, aber Schwierigkeiten mit neuen Daten hat) oder Underfitting (wenn das Modell Muster nicht gut genug lernt, um genau zu arbeiten) zu identifizieren und Anpassungen zur Verbesserung der Genauigkeit vorzunehmen. Außerdem ist es wichtig, das Modell mit neuen Bildern oder Videos zu testen, um zu sehen, wie gut es in realen Szenarien funktioniert.

Anwendungen von KI-gestützten Hand Tracking-Lösungen

Als Nächstes wollen wir einige der wirkungsvollsten Anwendungen der Hand-Keypoint-Schätzung mit Ultralytics YOLO11 durchgehen.

Gestenerkennung in Echtzeit mit YOLO11

Stellen Sie sich vor, Sie könnten die Lautstärke Ihres Fernsehers durch einfaches Winken mit der Hand regeln oder ein Smart-Home-System mit einer einfachen Wischbewegung in der Luft steuern. Die Echtzeit-Gestenerkennung von YOLO11 macht diese berührungslosen Interaktionen möglich, indem sie Handbewegungen in Echtzeit präzise erkennt. 

Dies funktioniert mithilfe von KI-Kameras, die Schlüsselpunkte auf Ihrer Hand track und Gesten als Befehle interpretieren. Tiefenerkennungskameras, Infrarotsensoren oder sogar normale Webcams erfassen die Handbewegungen, und YOLO11 kann die Daten verarbeiten, um verschiedene Gesten zu erkennen. So kann ein solches System zum Beispiel zwischen einem Wischen zum Wechseln eines Titels, einem Auf- und Zuziehen zum Zoomen oder einer kreisförmigen Bewegung zum Einstellen der Lautstärke unterscheiden.

KI-basierte Hand Keypoints-Erkennung für die Erkennung von Gebärdensprache

KI-Lösungen für das Hand-Tracking können die nahtlose Kommunikation zwischen einer gehörlosen Person und jemandem, der die Gebärdensprache nicht beherrscht, unterstützen. So können beispielsweise intelligente Geräte mit integrierten Kameras und YOLO11 verwendet werden, um Gebärdensprache sofort in Text oder Sprache zu übersetzen. 

Dank Fortschritten wie YOLO11 werden Übersetzungswerkzeuge für Gebärdensprache immer genauer und zugänglicher. Dies wirkt sich auf Anwendungen wie unterstützende Technologien, Live-Übersetzungsdienste und Bildungsplattformen aus. KI kann helfen, Kommunikationslücken zu schließen und die Inklusion am Arbeitsplatz, in Schulen und im öffentlichen Raum zu fördern.

Computer Vision für Hand-Tracking: Verbesserung von AR- und VR-Erlebnissen

Haben Sie schon einmal ein Virtual-Reality-Spiel (VR) gespielt, in dem Sie Objekte greifen konnten, ohne einen Controller zu benutzen? Hand-Tracking mit Computer Vision macht dies möglich, indem es Benutzern ermöglicht, auf natürliche Weise in Augmented Reality (AR)- und VR-Umgebungen zu interagieren. 

__wf_reserved_inherit
Abb. 4. Hand-Tracking ist ein wichtiger Bestandteil von AR- und VR-Anwendungen.

Mit der Schätzung von Hand-Tastenpunkten unter Verwendung von Modellen wie Ultralytics YOLO11 verfolgt die KI Bewegungen in Echtzeit und ermöglicht Gesten wie Kneifen, Greifen und Streichen. Dies verbessert Spiele, virtuelles Training und Remote-Zusammenarbeit und macht Interaktionen intuitiver. Mit der Verbesserung der Hand-Tracking-Technologie werden sich AR und VR noch realistischer und lebensechter anfühlen. 

Wesentliche Erkenntnisse

Die Schätzung von Hand-Tastenpunkten mit Ultralytics YOLO11 macht KI-gesteuerte Hand-Tracking-Lösungen zugänglicher und zuverlässiger. Von der Gestenerkennung in Echtzeit über die Interpretation von Gebärdensprache bis hin zu AR/VR-Anwendungen eröffnet die Computer Vision neue Möglichkeiten für die Interaktion zwischen Mensch und Computer.

Darüber hinaus helfen optimierte, kundenspezifische Trainings- und Feinabstimmungsprozesse Entwicklern, effiziente Modelle für verschiedene reale Anwendungen zu erstellen. Mit der Weiterentwicklung der Computer-Vision-Technologie können wir noch mehr Innovationen in Bereichen wie Gesundheitswesen, Robotik, Gaming und Sicherheit erwarten.

Tauschen Sie sich mit unserer Community aus und entdecken Sie die Fortschritte im Bereich der KI auf unserem GitHub-Repository. Entdecken Sie die Auswirkungen von KI in der Fertigung und Computer Vision im Gesundheitswesen auf unseren Lösungsseiten. Erkunden Sie unsere Lizenzmodelle und beginnen Sie noch heute Ihre KI-Reise!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten