Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Aktion Anerkennung

Erforschen Sie die Handlungserkennung (Human Activity Recognition): wie Video, Posenschätzung und Deep Learning menschliche Handlungen für das Gesundheitswesen, die Sicherheit und den Sport detect .

Handlungserkennung, oft auch als Human Activity Recognition (HAR) bezeichnet, ist ein spezieller Teilbereich der Computer Vision (CV), die sich auf die Identifizierung und und die Klassifizierung bestimmter Bewegungen oder Verhaltensweisen in Videodaten. Im Gegensatz zur Standard Bilderkennung, die statische Bilder analysiert, um um Objekte detect , wird bei der Handlungserkennung die zeitliche Dimension einbezogen, um dynamische Ereignisse zu verstehen. Durch die Verarbeitung von von Bildsequenzen, können Systeme der künstlichen Intelligenz (KI) zwischen Aktionen wie Gehen, Laufen, Winken oder Fallen unterscheiden. Diese Fähigkeit ist entscheidend für die Entwicklung von Systeme, die menschliches Verhalten in realen Umgebungen interpretieren und die Lücke zwischen dem Sehen von Pixeln und dem Absicht zu verstehen.

Zentrale Wirkmechanismen Erkennung

Um Aktionen genau zu identifizieren, müssen Deep Learning (DL) -Modelle zwei Arten von von Merkmalen extrahieren: räumliche und zeitliche. Räumliche Merkmale beschreiben das visuelle Erscheinungsbild einer Szene, z. B. das Vorhandensein von einer Person oder eines Objekts, die normalerweise über Convolutional Neural Networks (CNNs) extrahiert. Zeitliche Merkmale beschreiben, wie sich diese räumlichen Elemente im Laufe der Zeit verändern.

Moderne Ansätze verwenden häufig eine Pipeline, die Folgendes umfasst:

  • Objekt-Erkennung: Das System lokalisiert effektiv Personen innerhalb des Bildes. State-of-the-Art-Modelle wie YOLO11 werden hier aufgrund ihrer Geschwindigkeit und Genauigkeit.
  • Schätzung der Körperhaltung: Diese Technik bildet die Skelettstruktur eines menschlichen Körpers und verfolgt Schlüsselpunkte wie Ellbogen, Knie und Schultern. Die geometrische Beziehung zwischen diesen Punkten über eine Folge von Einzelbildern liefert ein robustes Signal zur Klassifizierung von Aktionen.
  • Zeitliche Analyse: Sequenzen von Daten werden mit Architekturen verarbeitet, die für Zeitseriendaten Daten ausgelegt sind, wie zum Beispiel rekurrente neuronale Netze (RNNs) oder Langes Kurzzeitgedächtnis (LSTM) Netzwerke. In jüngerer Zeit haben Video-Transformatoren Popularität erlangt, da sie in der Lage sind, weitreichende Abhängigkeiten in Videoströmen zu modellieren.

Das folgende Python zeigt, wie man die ultralytics Bibliothek zur Extraktion von Pose-Keypoints aus einem Video zu extrahieren, die als grundlegende Datenschicht für viele Handlungserkennungssysteme dient.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Relevanz und Anwendungen in der Praxis

Die Möglichkeit, die Interpretation menschlicher Bewegungen zu automatisieren, hat in verschiedenen Sektoren zu einer erheblichen Verbreitung geführt. Der globale Markt für die Erkennung menschlicher Aktivitäten wird weiter wachsen, da die Industrie versucht, physische Arbeitsabläufe zu digitalisieren.

Gesundheitswesen und Patientensicherheit

Auf dem Gebiet der KI im Gesundheitswesen ist die Handlungs Erkennung entscheidend für die automatische Patientenüberwachung. Systeme können darauf trainiert werden, Stürze in Krankenhäusern oder Einrichtungen für betreutes Wohnen trainiert werden und sofortige Warnungen an das Personal auslösen. Außerdem erleichtert die Computer Vision die physische Rehabilitation durch die Analyse der Die Analyse der Bewegungsabläufe eines Patienten in Echtzeit stellt sicher, dass die Bewegungen korrekt ausgeführt werden, um die Genesung zu fördern und Verletzungen zu vermeiden.

Sport-Analytik

Trainer und Fernsehsender nutzen KI im Sport, um die die Leistung von Sportlern zu analysieren. Algorithmen zur Erkennung von Aktionen können automatisch Ereignisse im Spielmaterial markieren, z. B. einen Basketballwurf, ein Tennisaufschlag oder ein Fußballpass - automatisch markieren und so eine detaillierte statistische Analyse ermöglichen. Diese Daten helfen bei Technik zu verfeinern und Strategien zu entwickeln, die auf Bewegungsmustern der Spieler.

Smart Surveillance

Sicherheitssysteme haben sich über die einfache Bewegungserkennung hinaus entwickelt. Erweiterte Sicherheitsüberwachung nutzt die Handlungserkennung, um verdächtige Verhaltensweisen wie Schlägereien, Herumlungern oder Ladendiebstahl zu erkennen, während während harmlose Bewegungen ignoriert werden. Dadurch werden Fehlalarme reduziert und die Effizienz des Sicherheitspersonals verbessert.

Unterscheidung von verwandten Konzepten

Es ist wichtig, Action Recognition von ähnlichen Begriffen in der Computer Vision Landschaft zu unterscheiden, um das das richtige Werkzeug für die Aufgabe auszuwählen.

  • Erkennung von Handlungen vs. Videoverstehen: Während sich die Handlungserkennung auf die Identifizierung bestimmter physischer Aktivitäten konzentriert (z. B. "Öffnen einer Tür"), Videoverstehen ist ein breiteres Feld, das darauf abzielt, den gesamten Kontext, die Erzählung und die kausalen Beziehungen innerhalb eines Videos zu verstehen und kausale Zusammenhänge innerhalb eines Videos zu verstehen (z. B. "die Person öffnet die Tür, um den Hund rauszulassen").
  • Handlungserkennung vs. Objektverfolgung: Bei der Objektverfolgung geht es darum, die Identität eines Objekts oder einer Person über mehrere Bilder hinweg zu erhalten. Handlungserkennung analysiert das Verhalten der verfolgten Person. Oft ist die Verfolgung eine Voraussetzung für die Erkennung von Aktionen in Szenen mit mehreren Personen.
  • Handlungserkennung vs. Posenschätzung. Schätzung der Körperhaltung: Bei der Posenschätzung werden die Rohkoordinatendaten der Körpergelenke ausgegeben. Die Handlungserkennung verwendet diese Daten (oder die visuellen Merkmale) als Eingabe, um eine semantische Bezeichnung auszugeben, z. B. "Radfahren" oder "Springen".

Herausforderungen und zukünftige Richtungen

Der Einsatz dieser Systeme ist mit Herausforderungen verbunden, darunter der Bedarf an großen Mengen an markierten Trainingsdaten und die Rechenkosten für die Verarbeitung von Videos. Benchmark-Datensätze wie Kinetics-400 und UCF101 sind Standard für das Training und die Evaluierung von Modellen.

Mit der Verbesserung der Hardware findet eine Verlagerung in Richtung Edge AI statt, wodurch Modelle direkt auf Kameras oder mobilen Geräten ausgeführt werden können. Dies ermöglicht Echtzeit-Inferenz mit geringerer Latenz und und besserem Datenschutz, da die Videodaten nicht in die Cloud übertragen werden müssen. Künftige Entwicklungen, darunter das kommende YOLO26, zielen auf eine weitere Optimierung der Geschwindigkeit und Genauigkeit der Geschwindigkeit und Genauigkeit der zugrundeliegenden Erkennungs- und Posenschätzungs-Engines zu optimieren, die diese komplexen Erkennungsaufgaben unterstützen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten