Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Entdecken Sie die KI-gestützte Schätzung von Hand-Keypoints mit der Unterstützung von Ultralytics YOLO11 für die Pose-Schätzung in Anwendungen wie der Echtzeit-Gestenerkennung.
In letzter Zeit haben die Gebärdensprachdolmetscher beim Super Bowl viel Aufmerksamkeit erregt. Wenn Sie ihnen im Fernsehen dabei zusehen, wie sie das Lied Ihres Lieblingskünstlers "singen", können Sie sie verstehen, wenn Sie die Gebärdensprache beherrschen, weil Ihr Gehirn ihre Handbewegungen verarbeitet. Aber was wäre, wenn ein Computer das Gleiche könnte? Dank KI-gestützter Handtracking-Lösungen ist es Maschinen möglich, Handbewegungen mit beeindruckender Genauigkeit zu verfolgen und zu interpretieren.
Das Herzstück dieser Lösungen ist Computer Vision, ein Teilbereich der KI, der es Maschinen ermöglicht, visuelle Informationen zu verarbeiten und zu verstehen. Durch die Analyse von Bildern und Videos hilft Vision AI ihnen, Objekte zu erkennen, Bewegungen zu verfolgen und komplexe Gesten mit bemerkenswerter Genauigkeit zu erkennen.
Beispielsweise können Computer-Vision-Modelle wie Ultralytics YOLO11 trainiert werden, um Hand-Keypoints in Echtzeit mithilfe der Pose-Schätzung zu erkennen und zu analysieren. Auf diese Weise können diese Modelle für Anwendungen wie Gestenerkennung, Gebärdensprachübersetzung und AR/VR-Interaktionen eingesetzt werden.
In diesem Artikel werden wir untersuchen, wie YOLO11 KI-basiertes Handtracking ermöglicht, welche Datensätze für das Training verwendet werden und wie man ein Modell für die Hand-Pose-Schätzung benutzerdefiniert trainiert. Wir werden uns auch reale Anwendungen ansehen. Los geht's!
Grundlegendes zur KI-basierten Erkennung von Hand-Keypoints
KI kann verwendet werden, um Handbewegungen in visuellen Daten zu erkennen und zu verfolgen, indem sie Keypoints wie Handgelenk, Fingerspitzen und Fingergelenke identifiziert. Ein Ansatz, bekannt als Pose-Schätzung, hilft Computern, menschliche Bewegungen zu verstehen, indem er Keypoints abbildet und analysiert, wie sie sich im Laufe der Zeit verändern. Dies ermöglicht es KI-Systemen, Körperhaltung, Gesten und Bewegungsmuster mit hoher Genauigkeit zu interpretieren.
Computer-Vision-Modelle ermöglichen dies, indem sie Bilder oder Videos analysieren, um Keypoints an der Hand zu identifizieren und ihre Bewegung zu verfolgen. Sobald diese Punkte abgebildet sind, kann KI Gesten erkennen, indem sie die räumlichen Beziehungen zwischen Keypoints und deren Veränderungen im Laufe der Zeit analysiert.
Wenn beispielsweise der Abstand zwischen Daumen und Zeigefinger abnimmt, kann KI dies als Kneifbewegung interpretieren. In ähnlicher Weise hilft die Verfolgung, wie sich Keypoints in Sequenzen bewegen, komplexe Handgesten zu identifizieren und sogar zukünftige Bewegungen vorherzusagen.
Abb. 1. Ein Beispiel für die Erkennung der Keypoints in einer Hand mithilfe von Computer Vision.
Interessanterweise hat die Pose-Schätzung für das Handtracking aufregende Möglichkeiten eröffnet, von der freihändigen Steuerung intelligenter Geräte über eine verbesserte Roboterpräzision bis hin zur Unterstützung in Gesundheitsanwendungen. Da sich KI und Computer Vision ständig weiterentwickeln, wird das Handtracking wahrscheinlich eine größere Rolle dabei spielen, Technologie im Alltag interaktiver, zugänglicher und intuitiver zu gestalten.
Erkundung von YOLO11 für die Pose-Schätzung
Bevor wir uns damit beschäftigen, wie man eine Lösung für KI-basiertes Handtracking erstellt, wollen wir uns die Pose-Schätzung genauer ansehen und wie YOLO11 diese Computer-Vision-Aufgabe unterstützt. Im Gegensatz zur Standard-Objekterkennung, die ganze Objekte identifiziert, konzentriert sich die Pose-Schätzung auf die Erkennung wichtiger Landmarken – wie Gelenke, Gliedmaßen oder Kanten –, um Bewegung und Haltung zu analysieren.
Insbesondere Ultralytics YOLO11 ist für die Echtzeit-Pose-Schätzung konzipiert. Durch die Nutzung von Top-Down- und Bottom-Up-Methoden erkennt es effizient Personen und schätzt Keypoints in einem Schritt, wodurch es frühere Modelle in Bezug auf Geschwindigkeit und Genauigkeit übertrifft.
YOLO11 ist standardmäßig auf dem COCO-Pose-Datensatz vortrainiert und kann Keypoints am menschlichen Körper erkennen, einschließlich Kopf, Schultern, Ellbogen, Handgelenke, Hüften, Knie und Knöchel.
Abb. 2. Verwendung von YOLO11 für die Schätzung der menschlichen Pose.
Über die Schätzung der menschlichen Pose hinaus kann YOLO11 benutzerdefiniert trainiert werden, um Keypoints auf einer Vielzahl von Objekten zu erkennen, sowohl belebten als auch unbelebten. Diese Flexibilität macht YOLO11 zu einer großartigen Option für eine Vielzahl von Anwendungen.
Ein Überblick über den Hand Keypoints-Datensatz
Der erste Schritt beim benutzerdefinierten Training eines Modells ist das Sammeln und Annotieren von Daten oder das Finden eines vorhandenen Datensatzes, der den Projektanforderungen entspricht. Beispielsweise ist der Hand Keypoints-Datensatz ein guter Ausgangspunkt für das Training von Vision-AI-Modellen für Handtracking und Pose-Schätzung. Mit 26.768 annotierten Bildern entfällt die Notwendigkeit der manuellen Beschriftung.
Er kann verwendet werden, um Modelle wie Ultralytics YOLO11 zu trainieren, damit sie schnell lernen, Handbewegungen zu erkennen und zu verfolgen. Der Datensatz enthält 21 Keypoints pro Hand, die Handgelenk, Finger und Gelenke abdecken. Außerdem wurden die Annotationen des Datensatzes mit Google MediaPipe generiert, einem Tool zur Entwicklung KI-gestützter Lösungen für die Echtzeit-Medienverarbeitung, wodurch eine präzise und zuverlässige Keypoint-Erkennung gewährleistet wird.
Abb. 3. Die 21 im Hand Keypoints-Datensatz enthaltenen Keypoints.
Die Verwendung eines strukturierten Datensatzes wie diesem spart Zeit und ermöglicht es Entwicklern, sich auf das Training und die Feinabstimmung ihrer Modelle zu konzentrieren, anstatt Daten zu sammeln und zu beschriften. Tatsächlich ist der Datensatz bereits in Trainings- (18.776 Bilder) und Validierungs-Teilmengen (7.992 Bilder) unterteilt, was die Bewertung der Modellleistung erleichtert.
Wie man YOLO11 für die Hand-Pose-Schätzung trainiert
Das Training von YOLO11 für die Schätzung der Handpose ist ein unkomplizierter Prozess, insbesondere mit dem Ultralytics Python-Paket, das die Einrichtung und das Training des Modells vereinfacht. Da der Hand Keypoints-Datensatz bereits in der Trainingspipeline unterstützt wird, kann er ohne zusätzliche Formatierung sofort verwendet werden, was Zeit und Aufwand spart.
So funktioniert der Trainingsprozess:
Umgebung einrichten: Der erste Schritt ist die Installation des Ultralytics Python-Pakets.
Hand Keypoints-Datensatz laden: YOLO11 unterstützt diesen Datensatz nativ, sodass er automatisch heruntergeladen und vorbereitet werden kann.
Ein vortrainiertes Modell verwenden: Sie können mit einem vortrainierten YOLO11 Pose Estimation-Modell beginnen, was die Genauigkeit verbessert und den Trainingsprozess beschleunigt.
Modell trainieren: Das Modell lernt, Hand Keypoints zu erkennen und zu verfolgen, indem es mehrere Trainingszyklen durchläuft.
Leistung überwachen: Das Ultralytics-Paket bietet auch integrierte Tools zur Verfolgung wichtiger Metriken wie Genauigkeit und Verlust, um sicherzustellen, dass sich das Modell im Laufe der Zeit verbessert.
Speichern und bereitstellen: Nach dem Training kann das Modell exportiert und für Echtzeit-Anwendungen zur Handverfolgung verwendet werden.
Evaluierung Ihres benutzerdefinierten, trainierten Modells
Wenn Sie die Schritte zur Erstellung eines benutzerdefinierten Modells durchgehen, werden Sie feststellen, dass die Überwachung der Leistung unerlässlich ist. Neben der Verfolgung des Fortschritts während des Trainings ist die anschließende Evaluierung des Modells entscheidend, um sicherzustellen, dass es Hand Keypoints genau erkennt und verfolgt.
Wichtige Leistungsmetriken wie Genauigkeit, Verlustwerte und mittlere durchschnittliche Präzision (mAP) helfen bei der Beurteilung der Leistung des Modells. Das Ultralytics Python-Paket bietet integrierte Tools zur Visualisierung der Ergebnisse und zum Vergleich von Vorhersagen mit realen Annotationen, wodurch es einfacher wird, Bereiche für Verbesserungen zu erkennen.
Um die Leistung des Modells besser zu verstehen, können Sie Auswertungsgraphen wie Verlustkurven, Precision-Recall-Diagramme und Konfusionsmatrizen überprüfen, die automatisch in den Trainingsprotokollen generiert werden.
Diese Graphen helfen, Probleme wie Overfitting (wenn sich das Modell Trainingsdaten merkt, aber Schwierigkeiten mit neuen Daten hat) oder Underfitting (wenn das Modell Muster nicht gut genug lernt, um genau zu arbeiten) zu identifizieren und Anpassungen zur Verbesserung der Genauigkeit vorzunehmen. Außerdem ist es wichtig, das Modell mit neuen Bildern oder Videos zu testen, um zu sehen, wie gut es in realen Szenarien funktioniert.
Anwendungen von KI-gestützten Hand Tracking-Lösungen
Nehmen wir an, Sie könnten die Lautstärke Ihres Fernsehers einfach durch Winken mit der Hand einstellen oder ein Smart-Home-System mit einem einfachen Wischen in der Luft bedienen. Die Echtzeit-Gestenerkennung mit YOLO11 ermöglicht diese berührungslosen Interaktionen, indem sie Handbewegungen in Echtzeit genau erkennt.
Dies funktioniert, indem KI-Kameras verwendet werden, um wichtige Punkte auf Ihrer Hand zu verfolgen und Gesten als Befehle zu interpretieren. Tiefensensorkameras, Infrarotsensoren oder sogar normale Webcams erfassen Handbewegungen, während YOLO11 die Daten verarbeiten kann, um verschiedene Gesten zu erkennen. Zum Beispiel kann ein solches System zwischen einem Wischen zum Wechseln eines Songs, einem Zusammenziehen zum Vergrößern oder einer kreisförmigen Bewegung zum Anpassen der Lautstärke unterscheiden.
KI-basierte Hand Keypoints-Erkennung für die Erkennung von Gebärdensprache
KI-Lösungen für Hand-Tracking können eine nahtlose Kommunikation zwischen einer gehörlosen Person und jemandem, der keine Gebärdensprache beherrscht, unterstützen. Zum Beispiel können intelligente Geräte mit integrierten Kameras und YOLO11 verwendet werden, um Gebärdensprache sofort in Text oder Sprache zu übersetzen.
Dank Fortschritten wie YOLO11 werden Werkzeuge zur Übersetzung von Gebärdensprache immer genauer und zugänglicher. Dies wirkt sich auf Anwendungen wie assistive Technologien, Live-Übersetzungsdienste und Bildungsplattformen aus. KI kann helfen, Kommunikationslücken zu schließen und Inklusion an Arbeitsplätzen, Schulen und öffentlichen Räumen zu fördern.
Computer Vision für Hand-Tracking: Verbesserung von AR- und VR-Erlebnissen
Haben Sie schon einmal ein Virtual-Reality-Spiel (VR) gespielt, in dem Sie Objekte greifen konnten, ohne einen Controller zu benutzen? Hand-Tracking mit Computer Vision macht dies möglich, indem es Benutzern ermöglicht, auf natürliche Weise in Augmented Reality (AR)- und VR-Umgebungen zu interagieren.
Abb. 4. Hand-Tracking ist ein wichtiger Bestandteil von AR- und VR-Anwendungen.
Mit der Schätzung von Hand Keypoints mithilfe von Modellen wie Ultralytics YOLO11 verfolgt KI Bewegungen in Echtzeit und ermöglicht Gesten wie Kneifen, Greifen und Wischen. Dies verbessert das Spielerlebnis, virtuelle Schulungen und die Zusammenarbeit aus der Ferne und macht Interaktionen intuitiver. Mit der Verbesserung der Hand-Tracking-Technologie werden sich AR und VR noch immersiver und lebensechter anfühlen.
Wesentliche Erkenntnisse
Die Schätzung von Hand-Keypoints mit Ultralytics YOLO11 macht KI-gestützte Hand-Tracking-Lösungen zugänglicher und zuverlässiger. Von der Echtzeit-Gestenerkennung über die Gebärdensprachübersetzung bis hin zu AR/VR-Anwendungen eröffnet Computer Vision neue Möglichkeiten in der Mensch-Computer-Interaktion.
Darüber hinaus helfen optimierte, kundenspezifische Trainings- und Feinabstimmungsprozesse Entwicklern, effiziente Modelle für verschiedene reale Anwendungen zu erstellen. Mit der Weiterentwicklung der Computer-Vision-Technologie können wir noch mehr Innovationen in Bereichen wie Gesundheitswesen, Robotik, Gaming und Sicherheit erwarten.