Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Aktion Anerkennung

Entdecken Sie, wie die Aktionserkennung Verhaltensweisen in Videos identifiziert. Lernen Sie, Ultralytics für die Posenschätzung zu verwenden und intelligente KI-Systeme für HAR-Aufgaben zu entwickeln.

Die Aktionserkennung, auch bekannt als Human Activity Recognition (HAR), ist ein dynamischer Teilbereich der Computervision (CV), der sich mit der Identifizierung und Klassifizierung bestimmter Verhaltensweisen oder Bewegungen von Personen in Videodaten befasst. Während die traditionelle Objekterkennung die Frage „Was ist auf dem Bild zu sehen?“ beantwortet, befasst sich die Aktionserkennung mit der komplexeren Frage „Was geschieht im Laufe der Zeit?“. Durch die Analyse von Bildsequenzen anstelle von statischen Bildern können Modelle des maschinellen Lernens (ML) zwischen komplexen Aktivitäten wie „Gehen”, „Radfahren”, „Fallen” oder „Händeschütteln” unterscheiden und sind damit eine wichtige Komponente für die Entwicklung intelligenter Systeme, die menschliche Absichten und Zusammenhänge verstehen.

Kernkonzepte und Techniken

Um Handlungen zu erkennen, ist ein Modell erforderlich, das sowohl räumliche Informationen (wie Objekte oder Personen aussehen) als auch zeitliche Informationen (wie sie sich im Laufe der Zeit bewegen) verarbeitet. Um dies zu erreichen, verwenden moderne Künstliche-Intelligenz-Systeme (KI) oft spezialisierte Architekturen, die über die Standard- Convolutional Neural Networks (CNNs) hinausgehen.

  • Posen-Schätzung: Eine leistungsstarke Technik, bei der das Modell bestimmte Schlüsselpunkte am menschlichen Körper wie Ellbogen, Knie und Schultern verfolgt. Die geometrischen Veränderungen dieser Schlüsselpunkte im Laufe der Zeit liefern ein starkes Signal für die Klassifizierung von Aktionen, unabhängig von Hintergrundstörungen.
  • Zeitliche Modellierung: Algorithmen nutzen Strukturen wie rezursive neuronale Netze (RNNs) oder Long Short-Term Memory (LSTM)-Netzwerke, um vergangene Frames zu speichern und zukünftige Aktionen vorherzusagen. In jüngerer Zeit haben Video-Transformer aufgrund ihrer Fähigkeit, weitreichende Abhängigkeiten in Videostreams zu verarbeiten, an Popularität gewonnen.
  • Zwei-Stream-Netzwerke: Dieser Ansatz verarbeitet räumliche Merkmale (RGB-Frames) und zeitliche Merkmale (oft unter Verwendung des optischen Flusses) in parallelen Streams und führt die Daten zusammen, um eine endgültige Klassifizierung vorzunehmen.

Anwendungsfälle in der Praxis

Die Fähigkeit, menschliche Bewegungen automatisch zu interpretieren, hat transformatives Potenzial in verschiedenen Branchen und verbessert die Sicherheit, Effizienz und Benutzererfahrung.

  • KI im Gesundheitswesen: Die Aktionserkennung ist für Patientenüberwachungssysteme von entscheidender Bedeutung. So ermöglicht sie beispielsweise die automatische Sturzerkennung in Pflegeheimen und alarmiert das Personal sofort, wenn ein Patient stürzt. Sie wird auch in der ferngesteuerten physikalischen Rehabilitation eingesetzt, wo KI-Coaches die Übungsform eines Patienten analysieren, um sicherzustellen, dass er die Bewegungen korrekt und sicher ausführt.
  • Intelligente Überwachung und Sicherheit: Über die einfache Bewegungserkennung hinaus nutzen fortschrittliche Sicherheitssysteme die Aktionserkennung, um verdächtige Verhaltensweisen wie Schlägereien, Ladendiebstahl oder unbefugtes Betreten zu identifizieren, während harmlose Aktivitäten ignoriert werden. Dies reduziert Fehlalarme und verbessert die Sicherheitsüberwachung in Echtzeit.

Implementierung der Aktionsanalyse mit Ultralytics

Ein gängiger Arbeitsablauf besteht darin, zunächst Personen und ihre Skeletthaltung zu erkennen und anschließend die Bewegung dieser Gelenke zu analysieren. Das Ultralytics bietet modernste Geschwindigkeit und Genauigkeit für den ersten Schritt der Haltungsabschätzung, der die Grundlage für viele Aktionserkennungs-Pipelines bildet.

Das folgende Beispiel zeigt, wie man mit Python Skelett-Schlüsselpunkte aus einem Videobild extrahiert:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

Unterscheidung verwandter Begriffe

Es ist wichtig, die Aktionserkennung von ähnlichen Aufgaben der Computervision zu unterscheiden, um sicherzustellen, dass die richtigen Methoden angewendet werden.

  • Aktionserkennung vs. Objektverfolgung: Die Objektverfolgung konzentriert sich darauf, die Identität eines bestimmten Objekts oder einer bestimmten Person beizubehalten, während diese sich über mehrere Bilder hinweg bewegen (z. B. „Person A befindet sich an der Koordinate X“). Die Aktionserkennung interpretiert das Verhalten des verfolgten Subjekts (z. B. „Person A rennt“).
  • Aktionserkennung vs. Videoverständnis: Während die Aktionserkennung bestimmte physische Handlungen identifiziert, ist das Videoverständnis ein breiteres Konzept, das das Verstehen der gesamten Erzählung, des Kontexts und der kausalen Zusammenhänge innerhalb einer Videoszene umfasst.

Herausforderungen und zukünftige Trends

Die Entwicklung robuster Aktionserkennungsmodelle stellt eine Herausforderung dar, insbesondere hinsichtlich des Bedarfs an großen, annotierten Videodatensätzen wie Kinetics-400 oder UCF101. Die Kennzeichnung von Videodaten ist wesentlich zeitaufwändiger als die Kennzeichnung statischer Bilder. Um diesem Problem zu begegnen, helfen Tools wie die Ultralytics dabei, den Annotations- und Trainings-Workflow zu optimieren .

Darüber hinaus ist die Recheneffizienz von entscheidender Bedeutung. Die Verarbeitung hochauflösender Videos in Echtzeit erfordert erhebliche Hardware-Ressourcen. Die Branche bewegt sich zunehmend in Richtung Edge-KI und optimiert Modelle so, dass sie direkt auf Kameras und mobilen Geräten ausgeführt werden können, um Latenzzeiten und Bandbreitennutzung zu reduzieren. Zukünftige Weiterentwicklungen zielen darauf ab, die Modellgeneralisierung zu verbessern, sodass Systeme Aktionen auch aus Blickwinkeln erkennen können, für die sie nicht explizit trainiert wurden.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten