Action Recognition
Erkunde, wie Aktionserkennung Verhaltensweisen in Videos identifiziert. Lerne, Ultralytics YOLO26 zur Pose Estimation zu nutzen und intelligente KI-Systeme für HAR-Aufgaben zu entwickeln.
Aktionserkennung, auch allgemein als Human Activity Recognition (HAR) bekannt, ist ein dynamisches Teilgebiet der Computer Vision (CV), das sich mit der Identifizierung und Klassifizierung spezifischer Verhaltensweisen oder Bewegungen von Subjekten in Videodaten befasst. Während die traditionelle Objekterkennung die Frage „Was ist auf dem Bild zu sehen?“ beantwortet, adressiert die Aktionserkennung die komplexere Frage „Was passiert im Zeitverlauf?“. Durch die Analyse von Bildsequenzen anstelle statischer Bilder können Machine Learning (ML)-Modelle zwischen komplexen Aktivitäten wie „Gehen“, „Radfahren“, „Stürzen“ oder „Händeschütteln“ unterscheiden, was sie zu einer entscheidenden Komponente für den Aufbau intelligenter Systeme macht, die menschliche Absichten und Kontexte verstehen.
Link to this sectionKernkonzepte und -techniken#
Das Erkennen von Aktionen erfordert von einem Modell die Verarbeitung sowohl räumlicher Informationen (wie Objekte oder Personen aussehen) als auch zeitlicher Informationen (wie sie sich im Zeitverlauf bewegen). Um dies zu erreichen, nutzen moderne Künstliche Intelligenz (AI)-Systeme häufig spezialisierte Architekturen, die über herkömmliche Convolutional Neural Networks (CNNs) hinausgehen.
- Pose Estimation: Eine leistungsstarke Technik, bei der das Modell spezifische Keypoints am menschlichen Körper verfolgt, wie Ellbogen, Knie und Schultern. Die geometrischen Veränderungen dieser Keypoints im Zeitverlauf liefern ein starkes Signal zur Klassifizierung von Aktionen, unabhängig von Hintergrundrauschen.
- Zeitliche Modellierung: Algorithmen nutzen Strukturen wie Recurrent Neural Networks (RNNs) oder Long Short-Term Memory (LSTM)-Netzwerke, um sich an vergangene Frames zu erinnern und zukünftige Aktionen vorherzusagen. In jüngerer Zeit haben Video Transformers aufgrund ihrer Fähigkeit, weitreichende Abhängigkeiten in Videoströmen zu verarbeiten, an Beliebtheit gewonnen.
- Zwei-Strom-Netzwerke: Dieser Ansatz verarbeitet räumliche Merkmale (RGB-Frames) und zeitliche Merkmale (oft unter Verwendung von Optical Flow) in parallelen Strömen und führt die Daten zusammen, um eine abschließende Klassifizierung vorzunehmen.
Link to this sectionPraxisanwendungen#
Die Fähigkeit, menschliche Bewegungen automatisch zu interpretieren, besitzt transformatives Potenzial in verschiedenen Branchen und verbessert Sicherheit, Effizienz und Benutzererfahrung.
- AI im Gesundheitswesen: Aktionserkennung ist entscheidend für Patientenüberwachungssysteme. Sie ermöglicht beispielsweise die automatisierte Sturzerkennung in Pflegeheimen und benachrichtigt das Personal sofort, wenn ein Patient kollabiert. Sie wird auch bei der remote physikalischen Rehabilitation eingesetzt, wo KI-Coaches die Übungsausführung eines Patienten analysieren, um sicherzustellen, dass Bewegungen korrekt und sicher ausgeführt werden.
- Intelligente Überwachung und Sicherheit: Über eine einfache Bewegungserkennung hinaus nutzen fortschrittliche Sicherheitssysteme die Aktionserkennung, um verdächtige Verhaltensweisen wie Kämpfe, Ladendiebstahl oder unbefugtes Eindringen zu identifizieren, während harmlose Aktivitäten ignoriert werden. Dies reduziert Fehlalarme und verbessert die Echtzeit-Sicherheitsüberwachung.
Link to this sectionImplementierung der Aktionsanalyse mit Ultralytics#
Ein gängiger Arbeitsablauf besteht darin, zuerst Personen und ihre Skelett-Pose zu erkennen und dann die Bewegung dieser Gelenke zu analysieren. Das Ultralytics YOLO26-Modell bietet erstklassige Geschwindigkeit und Genauigkeit für den ersten Schritt der Pose Estimation, der das Fundament für viele Aktionserkennungs-Pipelines bildet.
Das folgende Beispiel zeigt, wie du Skelett-Keypoints aus einem Video-Frame mit Python extrahierst:
from ultralytics import YOLO
# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
# Access the keypoints (x, y, visibility)
if result.keypoints is not None:
print(f"Detected keypoints shape: {result.keypoints.data.shape}")Link to this sectionUnterscheidung verwandter Begriffe#
Es ist wichtig, die Aktionserkennung von ähnlichen Computer-Vision-Aufgaben zu unterscheiden, um sicherzustellen, dass die richtigen Methoden angewendet werden.
- Aktionserkennung vs. Object Tracking: Object Tracking konzentriert sich darauf, die Identität eines bestimmten Objekts oder einer Person beizubehalten, während sie sich über Frames hinweg bewegt (z. B. „Person A befindet sich an Koordinate X“). Die Aktionserkennung interpretiert das Verhalten dieses verfolgten Subjekts (z. B. „Person A rennt“).
- Aktionserkennung vs. Video Understanding: Während die Aktionserkennung spezifische physische Handlungen identifiziert, ist Video Understanding ein breiteres Konzept, das das Verständnis der gesamten Erzählung, des Kontexts und der kausalen Beziehungen innerhalb einer Videoszene beinhaltet.
Link to this sectionHerausforderungen und zukünftige Trends#
Die Entwicklung robuster Aktionserkennungsmodelle stellt Herausforderungen dar, insbesondere im Hinblick auf den Bedarf an großen, annotierten Video-Datensätzen wie Kinetics-400 oder UCF101. Das Labeln von Videodaten ist wesentlich zeitaufwendiger als das Labeln statischer Bilder. Um dies zu adressieren, helfen Tools wie die Ultralytics Platform, den Annotations- und Trainings-Workflow zu optimieren.
Darüber hinaus ist die Recheneffizienz entscheidend. Die Verarbeitung hochauflösender Videos in Echtzeit erfordert erhebliche Hardwareressourcen. Die Industrie bewegt sich zunehmend in Richtung Edge AI und optimiert Modelle für die direkte Ausführung auf Kameras und mobilen Geräten, um Latenz und Bandbreitennutzung zu reduzieren. Zukünftige Fortschritte zielen darauf ab, die Modell-Generalisierung zu verbessern, damit Systeme Aktionen auch aus Blickwinkeln erkennen können, für die sie nicht explizit trainiert wurden.






