Entdecken Sie, wie die Aktionserkennung Verhaltensweisen in Videos identifiziert. Lernen Sie, Ultralytics für die Posenschätzung zu verwenden und intelligente KI-Systeme für HAR-Aufgaben zu entwickeln.
Die Aktionserkennung, auch bekannt als Human Activity Recognition (HAR), ist ein dynamischer Teilbereich der Computervision (CV), der sich mit der Identifizierung und Klassifizierung bestimmter Verhaltensweisen oder Bewegungen von Personen in Videodaten befasst. Während die traditionelle Objekterkennung die Frage „Was ist auf dem Bild zu sehen?“ beantwortet, befasst sich die Aktionserkennung mit der komplexeren Frage „Was geschieht im Laufe der Zeit?“. Durch die Analyse von Bildsequenzen anstelle von statischen Bildern können Modelle des maschinellen Lernens (ML) zwischen komplexen Aktivitäten wie „Gehen”, „Radfahren”, „Fallen” oder „Händeschütteln” unterscheiden und sind damit eine wichtige Komponente für die Entwicklung intelligenter Systeme, die menschliche Absichten und Zusammenhänge verstehen.
Um Handlungen zu erkennen, ist ein Modell erforderlich, das sowohl räumliche Informationen (wie Objekte oder Personen aussehen) als auch zeitliche Informationen (wie sie sich im Laufe der Zeit bewegen) verarbeitet. Um dies zu erreichen, verwenden moderne Künstliche-Intelligenz-Systeme (KI) oft spezialisierte Architekturen, die über die Standard- Convolutional Neural Networks (CNNs) hinausgehen.
Die Fähigkeit, menschliche Bewegungen automatisch zu interpretieren, hat transformatives Potenzial in verschiedenen Branchen und verbessert die Sicherheit, Effizienz und Benutzererfahrung.
Ein gängiger Arbeitsablauf besteht darin, zunächst Personen und ihre Skeletthaltung zu erkennen und anschließend die Bewegung dieser Gelenke zu analysieren. Das Ultralytics bietet modernste Geschwindigkeit und Genauigkeit für den ersten Schritt der Haltungsabschätzung, der die Grundlage für viele Aktionserkennungs-Pipelines bildet.
Das folgende Beispiel zeigt, wie man mit Python Skelett-Schlüsselpunkte aus einem Videobild extrahiert:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")
Es ist wichtig, die Aktionserkennung von ähnlichen Aufgaben der Computervision zu unterscheiden, um sicherzustellen, dass die richtigen Methoden angewendet werden.
Die Entwicklung robuster Aktionserkennungsmodelle stellt eine Herausforderung dar, insbesondere hinsichtlich des Bedarfs an großen, annotierten Videodatensätzen wie Kinetics-400 oder UCF101. Die Kennzeichnung von Videodaten ist wesentlich zeitaufwändiger als die Kennzeichnung statischer Bilder. Um diesem Problem zu begegnen, helfen Tools wie die Ultralytics dabei, den Annotations- und Trainings-Workflow zu optimieren .
Darüber hinaus ist die Recheneffizienz von entscheidender Bedeutung. Die Verarbeitung hochauflösender Videos in Echtzeit erfordert erhebliche Hardware-Ressourcen. Die Branche bewegt sich zunehmend in Richtung Edge-KI und optimiert Modelle so, dass sie direkt auf Kameras und mobilen Geräten ausgeführt werden können, um Latenzzeiten und Bandbreitennutzung zu reduzieren. Zukünftige Weiterentwicklungen zielen darauf ab, die Modellgeneralisierung zu verbessern, sodass Systeme Aktionen auch aus Blickwinkeln erkennen können, für die sie nicht explizit trainiert wurden.