Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Cookie-Einstellungen
Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Entdecken Sie die KI-gesteuerte Schätzung von Hand-Tastenpunkten mit der Unterstützung von Ultralytics YOLO11 für die Posenschätzung in Anwendungen wie Echtzeit-Gestenerkennung.
In letzter Zeit haben die Gebärdensprachdolmetscher beim Super Bowl viel Aufmerksamkeit erregt. Wenn man sie im Fernsehen das Lied seines Lieblingskünstlers singen sieht, kann man sie verstehen, wenn man die Gebärdensprache beherrscht, weil das Gehirn ihre Handbewegungen verarbeitet. Aber was wäre, wenn ein Computer dasselbe tun könnte? Dank KI-gesteuerter Lösungen zur Handverfolgung können Maschinen Handbewegungen mit beeindruckender Genauigkeit verfolgen und interpretieren.
Das Herzstück dieser Lösungen ist die Computer Vision, ein Teilbereich der KI, der es Maschinen ermöglicht, visuelle Informationen zu verarbeiten und zu verstehen. Durch die Analyse von Bildern und Videos hilft Vision AI ihnen, Objekte zu erkennen, Bewegungen zu verfolgen und komplexe Gesten mit bemerkenswerter Genauigkeit zu erkennen.
Zum Beispiel können Computer-Vision-Modelle wie Ultralytics YOLO11 trainiert werden, um Hand-Tastenpunkte in Echtzeit zu erkennen und zu analysieren, indem eine Posenschätzung durchgeführt wird. Auf diese Weise können diese Modelle für Anwendungen wie Gestenerkennung, Gebärdensprachübersetzung und AR/VR-Interaktionen verwendet werden.
In diesem Artikel erfahren Sie, wie YOLO11 die KI-basierte Handverfolgung ermöglicht, welche Datensätze für das Training verwendet werden und wie Sie ein Modell für die Schätzung der Handhaltung individuell trainieren können. Wir werden auch einen Blick auf reale Anwendungen werfen. Legen wir los!
Verständnis der AI-basierten Erkennung von Handtastenpunkten
Mithilfe von künstlicher Intelligenz lassen sich Handbewegungen in visuellen Daten erkennen und verfolgen, indem Schlüsselpunkte wie Handgelenk, Fingerspitzen und Fingergelenke identifiziert werden. Ein Ansatz, der als Posenschätzung bekannt ist, hilft Computern dabei, menschliche Bewegungen zu verstehen, indem sie Schlüsselpunkte abbilden und analysieren, wie sie sich im Laufe der Zeit verändern. So können KI-Systeme Körperhaltung, Gesten und Bewegungsmuster mit hoher Genauigkeit interpretieren.
Computer-Vision-Modelle machen dies möglich, indem sie Bilder oder Videos analysieren, um Schlüsselpunkte auf der Hand zu identifizieren und ihre Bewegung zu verfolgen. Sobald diese Punkte kartiert sind, kann die KI Gesten erkennen, indem sie die räumlichen Beziehungen zwischen den Schlüsselpunkten und deren Veränderung im Laufe der Zeit analysiert.
Verringert sich beispielsweise der Abstand zwischen Daumen und Zeigefinger, kann die KI dies als eine Kneifbewegung interpretieren. In ähnlicher Weise hilft die Verfolgung der Bewegung von Tastenpunkten in Sequenzen dabei, komplexe Handgesten zu erkennen und sogar zukünftige Bewegungen vorherzusagen.
Abb. 1. Ein Beispiel für die Erkennung von Schlüsselpunkten in einer Hand mit Hilfe von Computer Vision.
Interessanterweise hat die Posenschätzung für die Handverfolgung aufregende Möglichkeiten eröffnet, von der freihändigen Steuerung intelligenter Geräte bis hin zu verbesserter Roboterpräzision und Unterstützung bei Anwendungen im Gesundheitswesen. Mit der weiteren Entwicklung von KI und Computer Vision wird die Handverfolgung wahrscheinlich eine größere Rolle dabei spielen, Technologie im Alltag interaktiver, zugänglicher und intuitiver zu machen.
Erkundung von YOLO11 für die Posenschätzung
Bevor wir uns mit der Erstellung einer Lösung für die KI-basierte Handverfolgung befassen, wollen wir einen genaueren Blick auf die Pose Estimation werfen und darauf, wie YOLO11 diese Computer Vision Aufgabe unterstützt. Im Gegensatz zur standardmäßigen Objekterkennung, bei der ganze Objekte identifiziert werden, konzentriert sich die Posenschätzung auf die Erkennung wichtiger Orientierungspunkte - wie Gelenke, Gliedmaßen oder Kanten - um Bewegung und Haltung zu analysieren.
Ultralytics YOLO11 ist speziell für die Posenschätzung in Echtzeit konzipiert. Durch die Nutzung von Top-Down- und Bottom-Up-Methoden erkennt es effizient Personen und schätzt die Keypoints in einem Schritt und übertrifft frühere Modelle in Geschwindigkeit und Genauigkeit.
YOLO11 ist bereits mit dem COCO-Pose-Datensatz trainiert und kann Schlüsselpunkte am menschlichen Körper erkennen, darunter Kopf, Schultern, Ellbogen, Handgelenke, Hüften, Knie und Knöchel.
Abb. 2. Die Verwendung von YOLO11 für die Schätzung der menschlichen Pose.
Neben der Schätzung der menschlichen Pose kann YOLO11 auch so trainiert werden, dass es Keypoints auf einer Vielzahl von Objekten erkennt, sowohl auf belebten als auch auf unbelebten. Diese Flexibilität macht YOLO11 zu einer großartigen Option für eine breite Palette von Anwendungen.
Ein Überblick über den Hand Keypoints-Datensatz
Der erste Schritt beim individuellen Training eines Modells besteht darin, Daten zu sammeln und zu beschriften oder einen vorhandenen Datensatz zu finden, der den Anforderungen des Projekts entspricht. Der Hand Keypoints-Datensatz ist beispielsweise ein guter Ausgangspunkt für das Training von Vision AI-Modellen zur Handverfolgung und Posenschätzung. Mit 26.768 beschrifteten Bildern entfällt die Notwendigkeit einer manuellen Beschriftung.
Er kann zum Trainieren von Modellen wie Ultralytics YOLO11 verwendet werden, um schnell zu lernen, wie man Handbewegungen erkennt und verfolgt. Der Datensatz umfasst 21 Keypoints pro Hand, die das Handgelenk, die Finger und die Gelenke abdecken. Die Annotationen des Datensatzes wurden mit Google MediaPipe erstellt, einem Tool zur Entwicklung von KI-gestützten Lösungen für die Medienverarbeitung in Echtzeit, das eine präzise und zuverlässige Erkennung von Keypoints gewährleistet.
Abbildung 3. Die 21 Keypoints, die im Hand Keypoints-Datensatz enthalten sind.
Die Verwendung eines strukturierten Datensatzes wie diesem spart Zeit und ermöglicht es den Entwicklern, sich auf das Training und die Feinabstimmung ihrer Modelle zu konzentrieren, anstatt Daten zu sammeln und zu beschriften. Der Datensatz ist bereits in Trainings- (18.776 Bilder) und Validierungsdaten (7.992 Bilder) unterteilt, was die Bewertung der Modellleistung erleichtert.
So trainieren Sie YOLO11 für die Schätzung der Handhaltung
Das Training von YOLO11 für die Schätzung der Handhaltung ist ein unkomplizierter Prozess, insbesondere mit dem Ultralytics Python-Paket, das die Einrichtung und das Training des Modells erleichtert. Da der Hand Keypoints-Datensatz bereits in der Trainingspipeline unterstützt wird, kann er ohne zusätzliche Formatierung sofort verwendet werden, was Zeit und Mühe spart.
So funktioniert der Ausbildungsprozess:
Richten Sie die Umgebung ein: Der erste Schritt ist die Installation des Ultralytics Python-Pakets.
Laden Sie den Hand Keypoints-Datensatz: YOLO11 unterstützt diesen Datensatz von Haus aus, so dass er automatisch heruntergeladen und vorbereitet werden kann.
Verwenden Sie ein vortrainiertes Modell: Sie können mit einem vortrainierten YOLO11-Positionsschätzungsmodell beginnen, was die Genauigkeit verbessert und den Trainingsprozess beschleunigt.
Trainieren Sie das Modell: Das Modell lernt durch mehrere Trainingszyklen, Hand-Tastenpunkte zu erkennen und zu verfolgen.
Leistung überwachen: Das Ultralytics-Paket bietet auch integrierte Tools zur Verfolgung von Schlüsselkennzahlen wie Genauigkeit und Verlust, um sicherzustellen, dass das Modell im Laufe der Zeit verbessert wird.
Speichern und einsetzen: Sobald das Modell trainiert ist, kann es exportiert und für Echtzeitanwendungen zur Handverfolgung verwendet werden.
Bewerten Sie Ihr individuell trainiertes Modell
Wenn Sie die Schritte zur Erstellung eines benutzerdefinierten Modells durchgehen, werden Sie feststellen, dass die Überwachung der Leistung unerlässlich ist. Neben der Verfolgung des Fortschritts während des Trainings ist die anschließende Bewertung des Modells von entscheidender Bedeutung, um sicherzustellen, dass es die Hand-Keypoints genau erkennt und verfolgt.
Wichtige Leistungskennzahlen wie Genauigkeit, Verlustwerte und mittlere durchschnittliche Präzision (mAP) helfen bei der Beurteilung der Leistung des Modells. Das Python-Paket von Ultralytics bietet integrierte Tools zur Visualisierung der Ergebnisse und zum Vergleich der Vorhersagen mit echten Anmerkungen, wodurch sich Bereiche mit Verbesserungsbedarf leichter erkennen lassen.
Um die Leistung des Modells besser zu verstehen, können Sie Auswertungsdiagramme wie Verlustkurven, Precision-Recall-Diagramme und Konfusionsmatrizen prüfen, die automatisch in den Trainingsprotokollen erstellt werden.
Anhand dieser Diagramme lassen sich Probleme wie Überanpassung (wenn sich das Modell Trainingsdaten merkt, aber mit neuen Daten Schwierigkeiten hat) oder Unteranpassung (wenn das Modell Muster nicht gut genug lernt, um präzise zu arbeiten) erkennen und Anpassungen zur Verbesserung der Genauigkeit vornehmen. Außerdem ist es wichtig, das Modell an neuen Bildern oder Videos zu testen, um zu sehen, wie gut es in realen Szenarien funktioniert.
Anwendungen von AI-gesteuerten Lösungen für die Handaufzeichnung
Stellen Sie sich vor, Sie könnten die Lautstärke Ihres Fernsehers durch einfaches Winken mit der Hand regeln oder ein Smart-Home-System mit einer einfachen Wischbewegung in der Luft steuern. Die Echtzeit-Gestenerkennung von YOLO11 macht diese berührungslosen Interaktionen möglich, indem sie Handbewegungen in Echtzeit präzise erkennt.
Dies funktioniert mithilfe von KI-Kameras, die Schlüsselpunkte auf Ihrer Hand verfolgen und Gesten als Befehle interpretieren. Tiefenerkennungskameras, Infrarotsensoren oder sogar normale Webcams erfassen die Handbewegungen, und YOLO11 kann die Daten verarbeiten, um verschiedene Gesten zu erkennen. So kann ein solches System zum Beispiel zwischen einem Wischen zum Wechseln eines Titels, einem Auf- und Zuziehen zum Zoomen oder einer kreisförmigen Bewegung zum Einstellen der Lautstärke unterscheiden.
KI-basierte Erkennung von Handtastenpunkten für die Erkennung von Gebärdensprache
KI-Lösungen für das Hand-Tracking können die nahtlose Kommunikation zwischen einer gehörlosen Person und jemandem, der die Gebärdensprache nicht beherrscht, unterstützen. So können beispielsweise intelligente Geräte mit integrierten Kameras und YOLO11 verwendet werden, um Gebärdensprache sofort in Text oder Sprache zu übersetzen.
Dank Fortschritten wie YOLO11 werden Übersetzungswerkzeuge für Gebärdensprache immer genauer und zugänglicher. Dies wirkt sich auf Anwendungen wie unterstützende Technologien, Live-Übersetzungsdienste und Bildungsplattformen aus. KI kann helfen, Kommunikationslücken zu schließen und die Inklusion am Arbeitsplatz, in Schulen und im öffentlichen Raum zu fördern.
Computer Vision für die Handverfolgung: Verbesserung von AR- und VR-Erlebnissen
Haben Sie schon einmal ein Virtual-Reality (VR)-Spiel gespielt, bei dem Sie Objekte greifen konnten, ohne einen Controller zu benutzen? Die computergesteuerte Handverfolgung macht dies möglich, indem sie den Nutzern eine natürliche Interaktion in Augmented-Reality- (AR) und VR-Umgebungen ermöglicht.
Abb. 4. Die Handverfolgung ist ein wichtiger Bestandteil von AR- und VR-Anwendungen.
Mit der Schätzung von Hand-Tastenpunkten unter Verwendung von Modellen wie Ultralytics YOLO11 verfolgt die KI Bewegungen in Echtzeit und ermöglicht Gesten wie Kneifen, Greifen und Streichen. Dies verbessert Spiele, virtuelles Training und Remote-Zusammenarbeit und macht Interaktionen intuitiver. Mit der Verbesserung der Hand-Tracking-Technologie werden sich AR und VR noch realistischer und lebensechter anfühlen.
Die wichtigsten Erkenntnisse
Die Schätzung von Hand-Tastenpunkten mit Ultralytics YOLO11 macht KI-gesteuerte Hand-Tracking-Lösungen zugänglicher und zuverlässiger. Von der Gestenerkennung in Echtzeit über die Interpretation von Gebärdensprache bis hin zu AR/VR-Anwendungen eröffnet die Computer Vision neue Möglichkeiten für die Interaktion zwischen Mensch und Computer.
Darüber hinaus helfen optimierte benutzerdefinierte Trainings- und Feinabstimmungsprozesse den Entwicklern, effiziente Modelle für verschiedene reale Anwendungen zu erstellen. Mit der Weiterentwicklung der Computer-Vision-Technologie können wir noch mehr Innovationen in Bereichen wie Gesundheitswesen, Robotik, Spiele und Sicherheit erwarten.