Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Aktion Anerkennung

Erforschen Sie die Handlungserkennung (Human Activity Recognition): wie Video, Posenschätzung und Deep Learning menschliche Handlungen für das Gesundheitswesen, die Sicherheit und den Sport detect .

Die Aktionserkennung, häufig auch als Human Activity Recognition (HAR) bezeichnet, ist ein Spezialgebiet der Computer Vision (CV), das sich auf die Identifizierung und Klassifizierung bestimmter Bewegungen oder Verhaltensweisen in Videodaten konzentriert. Während die Standard- Bilderkennung statische Bilder analysiert, um detect , bezieht die Aktionserkennung die vierte Dimension – die Zeit – mit ein, um dynamische Ereignisse zu interpretieren. Durch die Verarbeitung von Bildsequenzen können fortschrittliche KI-Systeme (Künstliche Intelligenz) zwischen komplexen Verhaltensweisen wie Gehen, Winken, Fallen oder der Ausführung einer bestimmten Sporttechnik unterscheiden. Diese Fähigkeit ist für die Entwicklung intelligenter Systeme unerlässlich, die menschliche Absichten verstehen und sicher in realistischen Umgebungen interagieren können.

Kernmechanismen und -techniken

Um Handlungen genau zu identifizieren, müssen Deep-Learning-Modelle (DL) zwei primäre Arten von Merkmalen extrahieren und synthetisieren: räumliche und zeitliche. Räumliche Merkmale erfassen das visuelle Erscheinungsbild der Szene, wie z. B. die Anwesenheit einer Person oder eines Objekts, in der Regel unter Verwendung von Convolutional Neural Networks (CNNs). Zeitliche Merkmale beschreiben, wie sich diese Elemente im Laufe der Zeit verändern, und liefern den notwendigen Kontext, um eine „Sitzenbleiben”-Aktion von einer „Aufstehen”-Aktion zu unterscheiden.

Moderne Ansätze nutzen häufig eine mehrstufige Pipeline, um eine hohe Genauigkeit zu erreichen:

  • Posen-Schätzung: Diese Technik bildet die Skelettstruktur des menschlichen Körpers ab und verfolgt bestimmte Schlüsselpunkte wie Ellbogen, Knie und Schultern. Die geometrische Beziehung zwischen diesen Punkten liefert ein robustes Signal für die Klassifizierung von Aktionen, unabhängig von Hintergrundstörungen oder Lichtverhältnissen.
  • Zeitliche Modellierung: Datensequenzen werden mit Architekturen verarbeitet, die für die Zeitreihenanalyse entwickelt wurden , wie beispielsweise rekurrenten neuronalen Netzen (RNNs) oder Long Short-Term Memory (LSTM)-Netzwerken . In letzter Zeit haben sich Video-Transformer zum Standard für die Modellierung von Langzeitabhängigkeiten in Videostreams entwickelt.
  • Bewegungsmerkmale: Algorithmen integrieren häufig den optischen Fluss, um track Richtung und Geschwindigkeit der Pixelbewegung zwischen den Bildern explizit track . Dies hilft dem Modell, subtile Bewegungsmuster zu erkennen, die bei einer rein räumlichen Analyse möglicherweise übersehen würden.

Anwendungsfälle in der Praxis

Die Möglichkeit, die Interpretation menschlicher Bewegungen zu automatisieren, hat zu einer breiten Akzeptanz in verschiedenen Branchen geführt. Der weltweite Markt für die Erkennung menschlicher Aktivitäten wächst weiter, da Unternehmen bestrebt sind, physische Arbeitsabläufe zu digitalisieren und die Sicherheit zu erhöhen.

Gesundheitswesen und Patientensicherheit

Im Bereich der KI im Gesundheitswesen ist die Aktionserkennung für die automatisierte Patientenüberwachung von entscheidender Bedeutung. Systeme können darauf trainiert werden, detect in Krankenhäusern oder betreuten Wohnanlagen detect und sofortige Warnmeldungen an das Pflegepersonal auszulösen. Darüber hinaus erleichtert Computer Vision die physische Fernrehabilitation , indem sie die Bewegungsabläufe eines Patienten in Echtzeit analysiert und sicherstellt, dass er die Bewegungen korrekt ausführt, um die Genesung zu unterstützen und Verletzungen zu vermeiden.

Sport-Analytik

Trainer und Kommentatoren nutzen KI im Sport, um die Leistung von Athleten zu analysieren. Algorithmen zur Bewegungserkennung können Ereignisse in Spielaufnahmen automatisch markieren – beispielsweise einen Basketballwurf, einen Tennisaufschlag oder einen Fußballpass – und ermöglichen so eine detaillierte statistische Analyse. Diese Daten helfen dabei, die Technik zu verfeinern und Strategien auf der Grundlage spezifischer Bewegungsmuster der Spieler zu entwickeln.

Unterscheidung von verwandten Konzepten

Es ist wichtig, Action Recognition von ähnlichen Begriffen in der Computer Vision Landschaft zu unterscheiden, um das das richtige Werkzeug für die Aufgabe auszuwählen.

  • Erkennung von Handlungen vs. Videoverstehen: Während sich die Handlungserkennung auf die Identifizierung bestimmter physischer Aktivitäten konzentriert (z. B. "Öffnen einer Tür"), Videoverstehen ist ein breiteres Feld, das darauf abzielt, den gesamten Kontext, die Erzählung und die kausalen Beziehungen innerhalb eines Videos zu verstehen und kausale Zusammenhänge innerhalb eines Videos zu verstehen (z. B. "die Person öffnet die Tür, um den Hund rauszulassen").
  • Aktionserkennung vs. Objektverfolgung: Bei der Objektverfolgung geht es darum, die Identität eines Objekts oder einer Person über mehrere Frames hinweg beizubehalten (durch Zuweisung einer eindeutigen ID). Die Aktionserkennung analysiert das Verhalten des verfolgten Objekts. Oft ist die Verfolgung eine Voraussetzung für die Erkennung von Aktionen in Szenen mit mehreren Personen.

Umsetzung der Aktionsanalyse

Ein grundlegender Schritt in vielen Pipelines zur Aktionserkennung ist die Extraktion von Skelettdaten. Das folgende Python zeigt, wie man die ultralytics Bibliothek mit YOLO26 um Positionsschlüsselpunkte zu extrahieren, die als grundlegende Datenschicht für die nachgelagerte Aktionsklassifizierung dienen.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

Herausforderungen und zukünftige Richtungen

Der Einsatz dieser Systeme ist mit Herausforderungen verbunden, darunter der Bedarf an riesigen Mengen beschrifteter Trainingsdaten und die Rechenkosten für die Verarbeitung von Videos. Benchmark-Datensätze wie Kinetics-400 sind Standard für die Bewertung der Modellleistung.

Mit der Verbesserung der Hardware vollzieht sich ein Wandel hin zu Edge-KI, wodurch Modelle direkt auf Kameras oder Mobilgeräten ausgeführt werden können. Dies ermöglicht Echtzeit-Inferenzen mit geringerer Latenz und besserem Datenschutz, da die Videodaten nicht in die Cloud gesendet werden müssen. Zukünftige Entwicklungen zielen darauf ab, die Geschwindigkeit und Genauigkeit der zugrunde liegenden Erkennungs- und Positionsschätzungs-Engines, die diese komplexen Erkennungsaufgaben ausführen, weiter zu optimieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten