Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Vision-KI

Kann KI menschliche Handlungen erkennen? Erforschung der Aktivitätserkennung

Von Fitness-Apps bis zur Patientenüberwachung – entdecke, wie Computer Vision die Frage beantwortet: Kann KI menschliche Handlungen in realen Umgebungen erkennen?

ABAbirami Vina
6 min read
KI erkennt menschliche Handlungen durch Aktivitätserkennung

Der Alltag ist voller kleiner Bewegungen, über die wir selten nachdenken. Durch einen Raum zu gehen, an einem Schreibtisch zu sitzen oder einem Freund zuzuwinken mag uns mühelos erscheinen, doch sie mit KI zu erkennen, ist weitaus komplizierter. Was für Menschen ganz natürlich ist, übersetzt sich in etwas weitaus Komplexeres, wenn eine Maschine versucht, es zu verstehen.

Diese Fähigkeit ist als Human Activity Recognition (HAR) bekannt und ermöglicht es Computern, Muster im menschlichen Verhalten zu erkennen und zu interpretieren. Eine Fitness-App ist ein hervorragendes Beispiel für HAR in Aktion. Durch das Tracking von Schritten und Trainingsroutinen zeigt sie, wie KI tägliche Aktivitäten überwachen kann.

Da viele Industrien das Potenzial von HAR erkennen, beginnen sie, diese Technologie einzusetzen. Tatsächlich wird erwartet, dass der Markt für Action Recognition bis 2033 über 12,56 Milliarden US-Dollar erreichen wird.

Ein wesentlicher Teil dieses Fortschritts wird durch Computer Vision vorangetrieben, einem Zweig der KI, der es Maschinen ermöglicht, visuelle Daten wie Bilder und Videos zu analysieren. Mit Computer Vision und Bilderkennung hat sich HAR von einem Forschungskonzept zu einem praktischen und spannenden Teil modernster KI-Anwendungen entwickelt.

In diesem Artikel untersuchen wir, was HAR ist, welche verschiedenen Methoden zur Erkennung menschlicher Handlungen verwendet werden und wie Computer Vision dabei hilft, die Frage zu beantworten: Kann KI in realen Anwendungen menschliche Handlungen erkennen? Fangen wir an!

Link to this sectionWas ist Human Action Recognition?#

Human Action Recognition ermöglicht es Computersystemen, menschliche Aktivitäten oder Handlungen durch die Analyse von Körperbewegungen zu verstehen. Im Gegensatz zum einfachen Erkennen einer Person auf einem Bild kann HAR dabei helfen, festzustellen, was die Person gerade tut. Zum Beispiel die Unterscheidung zwischen Gehen und Laufen, das Erkennen eines Winkens oder das Bemerken, wenn jemand stürzt.

Die Grundlage von HAR liegt in Bewegungs- und Haltungsmustern. Eine leichte Veränderung der Arm- oder Beinposition eines Menschen kann eine Vielzahl von Handlungen signalisieren. Durch das Erfassen und Interpretieren dieser subtilen Details können HAR-Systeme aussagekräftige Erkenntnisse aus Körperbewegungen gewinnen.

Um dies zu erreichen, kombiniert Human Action Recognition mehrere Technologien wie Machine Learning, Deep Learning-Modelle, Computer Vision und Bildverarbeitung, die zusammenarbeiten, um Körperbewegungen zu analysieren und menschliche Handlungen mit höherer Genauigkeit zu interpretieren.

Die Erkennung menschlicher Aktivitäten umfasst verschiedene Bereiche der Informatik

Abb. 1. Human Activity Recognition beinhaltet verschiedene Zweige der Informatik (Quelle: cell.com)

Frühere HAR-Systeme waren weitaus begrenzter. Sie konnten nur wenige einfache, repetitive Handlungen in kontrollierten Umgebungen bewältigen und hatten in realen Situationen oft Schwierigkeiten.

Heute hat sich HAR dank KI und riesigen Mengen an Videodaten sowohl in der Genauigkeit als auch in der Robustheit erheblich weiterentwickelt. Moderne Systeme können eine breite Palette von Aktivitäten mit wesentlich höherer Genauigkeit erkennen, was die Technologie für Bereiche wie Gesundheitswesen, Sicherheit und interaktive Geräte praktikabel macht.

Link to this sectionVerschiedene Methoden zur Erkennung menschlicher Handlungen#

Nachdem wir nun ein besseres Verständnis davon haben, was Human Action Recognition ist, werfen wir einen Blick auf die verschiedenen Möglichkeiten, wie Maschinen menschliche Handlungen erkennen können.

Hier sind einige der gängigen Methoden:

  • Sensorbasierte Methoden: Intelligente Geräte wie Beschleunigungssensoren, Wearables und Smartphones können Signale direkt vom menschlichen Körper erfassen. Sie können Bewegungsmuster wie Gehen, Laufen oder sogar Stillstand aufzeigen. Ein Schrittzähler an einer Smartwatch ist ein großartiges Beispiel für diese Methode.
  • Vision-basierte Methoden: Kameras in Verbindung mit Computer Vision analysieren Bilder und Videos, um das Aussehen und die Bewegung des Körpers Frame für Frame zu verfolgen. Dies ermöglicht die Erkennung komplexerer Aktivitäten. Gestensteuerbare Fernsehgeräte oder Spielsysteme basieren auf dieser Methode.
  • Multimodale Methoden: Es handelt sich um eine Kombination aus Sensoren und Kameras, die ein zuverlässigeres System schafft, da eine Quelle bestätigen kann, was die andere erkennt. Zum Beispiel kann ein Wearable eine Bewegung registrieren, während eine Kamera die Haltung überprüft – eine Konfiguration, die häufig bei der Sturzerkennung in der Altenpflege eingesetzt wird.

Link to this sectionDie Rolle von Datensätzen bei der Human Activity Recognition#

Für jedes HAR-Modell oder -System sind Datensätze der Ausgangspunkt. Ein HAR-Datensatz ist eine Sammlung von Beispielen wie Videoclips, Bildern oder Sensordaten, die Handlungen wie Gehen, Sitzen oder Winken erfassen. Diese Beispiele werden verwendet, um KI-Modelle darauf zu trainieren, Muster in menschlichen Bewegungen zu erkennen, die dann in realen Anwendungen eingesetzt werden können.

Die Qualität der Trainingsdaten beeinflusst direkt, wie gut ein Modell abschneidet. Saubere, konsistente Daten erleichtern es dem System, Handlungen präzise zu erkennen.

Deshalb werden Datensätze oft vor dem Training vorverarbeitet. Ein gängiger Schritt ist die Normalisierung, die Werte einheitlich skaliert, um Fehler zu reduzieren und Overfitting zu verhindern (wenn ein Modell auf Trainingsdaten gut funktioniert, aber mit neuen Daten Schwierigkeiten hat).

Um die Leistung von Modellen über das Training hinaus zu messen, verlassen sich Forscher auf Bewertungsmetriken und Benchmark-Datensätze, die ein faires Testen und Vergleichen ermöglichen. Beliebte Sammlungen wie UCF101, HMDB51 und Kinetics enthalten Tausende von gelabelten Videoclips für die Erkennung menschlicher Handlungen. Auf der Sensorseite liefern Datensätze von Smartphones und Wearables wertvolle Bewegungssignale, die Erkennungsmodelle über verschiedene Umgebungen hinweg robuster machen.

Ein Einblick in einen Datensatz zur Erkennung menschlicher Aktivitäten

Abb. 2. Ein Einblick in einen Datensatz zur Human Activity Recognition. (Quelle)

Link to this sectionWie Computer Vision die Human Activity Recognition unterstützt#

Von den verschiedenen Methoden zur Erkennung menschlicher Handlungen hat sich Computer Vision schnell zu einer der beliebtesten und am intensivsten erforschten entwickelt. Ihr Hauptvorteil ist, dass sie reichhaltige Details direkt aus Bildern und Videos ziehen kann. Indem sie Pixel Frame für Frame betrachtet und Bewegungsmuster analysiert, kann sie Aktivitäten in Echtzeit erkennen, ohne dass Personen zusätzliche Geräte tragen müssen.

Jüngste Fortschritte im Deep Learning, insbesondere bei Convolutional Neural Networks (CNNs), die für die Bildanalyse konzipiert sind, haben Computer Vision schneller, genauer und zuverlässiger gemacht.

Zum Beispiel basieren weit verbreitete, modernste Computer Vision-Modelle wie Ultralytics YOLO11 auf diesen Fortschritten. YOLO11 unterstützt Aufgaben wie Objekterkennung, Instanzsegmentierung, das Verfolgen von Personen über Videoframes hinweg und das Schätzen menschlicher Posen, was es zu einem großartigen Werkzeug für die Human Activity Recognition macht.

Link to this sectionEin Überblick über Ultralytics YOLO11#

Ultralytics YOLO11 ist ein Vision-KI-Modell, das sowohl auf Geschwindigkeit als auch auf Präzision ausgelegt ist. Es unterstützt grundlegende Aufgaben der Computer Vision wie Objekterkennung, Objektverfolgung und Pose Estimation. Diese Funktionen sind besonders nützlich für die Human Activity Recognition.

Die Objekterkennung identifiziert und lokalisiert Personen in einer Szene, die Verfolgung verfolgt ihre Bewegungen über Videoframes hinweg, um Handlungssequenzen zu erkennen, und die Pose Estimation bildet wichtige Gelenke des menschlichen Körpers ab, um ähnliche Aktivitäten zu unterscheiden oder plötzliche Veränderungen wie einen Sturz zu erkennen.

Beispielsweise können die Erkenntnisse des Modells verwendet werden, um den Unterschied zu erkennen zwischen jemandem, der ruhig sitzt, dann aufsteht und schließlich die Arme zum Jubeln hebt. Diese einfachen alltäglichen Handlungen mögen auf den ersten Blick ähnlich erscheinen, tragen aber bei der Analyse in einer Sequenz sehr unterschiedliche Bedeutungen.

Verwendung von Ultralytics YOLO11 zur Pose-Schätzung

Abb. 3. Verwendung von Ultralytics YOLO11 für Pose Estimation. (Quelle)

Link to this sectionReale Anwendungen von Computer Vision und HAR#

Als Nächstes werfen wir einen genaueren Blick darauf, wie die durch Computer Vision unterstützte Human Activity Recognition in realen Anwendungsfällen eingesetzt wird, die unseren Alltag beeinflussen.

Link to this sectionGesundheitswesen und Wohlbefinden#

Im Gesundheitswesen können kleine Veränderungen in der Bewegung nützliche Erkenntnisse über den Zustand einer Person liefern. Zum Beispiel kann ein Stolpern eines älteren Patienten oder der Winkel eines Gliedmaßes während der Rehabilitation Risiken oder Fortschritte aufzeigen. Diese Anzeichen sind bei herkömmlichen Methoden wie Kontrolluntersuchungen oft leicht zu übersehen.

YOLO11 kann helfen, indem es Pose Estimation und Bildanalyse verwendet, um Patienten in Echtzeit zu überwachen. Es kann eingesetzt werden, um Stürze zu erkennen, Rehabilitationsübungen zu verfolgen und tägliche Aktivitäten wie Gehen oder Dehnen zu beobachten. Da es durch visuelle Analyse ohne die Notwendigkeit von Sensoren oder Wearables funktioniert, bietet es eine einfache Möglichkeit, genaue Informationen zu sammeln, die die Patientenversorgung unterstützen.

Verfolgung von Körperbewegungen mithilfe der YOLO11 Pose-Schätzung

Abb. 4. Verfolgung von Körperbewegungen mit der YOLO11-Unterstützung für Pose Estimation. (Quelle)

Link to this sectionSicherheit und Überwachung#

Sicherheitssysteme verlassen sich darauf, ungewöhnliche menschliche Aktivitäten schnell zu erkennen, wie etwa jemanden, der herumlungert, in einem gesperrten Bereich rennt oder plötzliche Aggression zeigt. Diese Anzeichen werden in geschäftigen Umgebungen oft übersehen, in denen Sicherheitskräfte nicht alles manuell beobachten können. Hier kommen Computer Vision und YOLO11 ins Spiel.

YOLO11 macht die Sicherheitsüberwachung einfacher, indem es eine Echtzeit-Videoüberwachung ermöglicht, die verdächtige Bewegungen erkennen und sofortige Warnungen senden kann. Es unterstützt die Sicherheit von Menschenmengen an öffentlichen Orten und stärkt die Eindringlingserkennung in privaten Bereichen.

Mit diesem Ansatz können Sicherheitskräfte gemeinsam mit Computer Vision-Systemen arbeiten und eine Mensch-Computer-Interaktion und Partnerschaft schaffen, die schnellere und zeitnahere Reaktionen auf verdächtige Aktivitäten ermöglicht.

Link to this sectionVor- und Nachteile der Nutzung von Computer Vision für HAR#

Hier sind einige der Vorteile der Nutzung von Computer Vision für die Human Activity Recognition:

  • Skalierbarkeit: Einmal eingerichtet, kann dasselbe Erkennungssystem automatisch mehrere Personen gleichzeitig überwachen, was es nützlich für die Automatisierung in Gesundheitseinrichtungen, Fabriken und öffentlichen Räumen macht.
  • Echtzeitverarbeitung: Vision-KI-Lösungen können verwendet werden, um Videostreams in Echtzeit zu analysieren, was schnellere Reaktionen ermöglicht.
  • Nicht-invasives Tracking: Im Gegensatz zu Wearables oder Sensoren erfordert es nicht, dass Personen Geräte bei sich tragen, was eine natürliche und mühelose Verhaltensanalyse ermöglicht.

Obwohl die Verwendung von Computer Vision für HAR viele Vorteile bietet, gibt es auch Einschränkungen zu beachten. Hier sind einige Faktoren, die du im Hinterkopf behalten solltest:

  • Datenschutzbedenken: Video-basierte Überwachung kann Probleme beim Datenschutz und bei der Zustimmung aufwerfen, insbesondere in sensiblen Umgebungen wie zu Hause oder am Arbeitsplatz.
  • Potenzielle Voreingenommenheit: Wenn Trainingsdatensätze nicht vielfältig sind, können Algorithmen die Handlungen bestimmter Personengruppen falsch interpretieren, was zu unfairen oder ungenauen Ergebnissen führen kann.
  • Umweltsensibilität: Die Genauigkeit kann aufgrund schlechter Beleuchtung, Hintergrundrauschen oder teilweise verdeckten Personen abnehmen, was bedeutet, dass Systeme sorgfältig entworfen werden müssen.

Link to this sectionWichtige Erkenntnisse#

Künstliche Intelligenz und Computer Vision ermöglichen es Maschinen, menschliche Handlungen präziser und in Echtzeit zu erkennen. Durch die Analyse von Videoframes und Bewegungsmustern können diese Systeme sowohl alltägliche Gesten als auch plötzliche Veränderungen identifizieren. Während sich die Technologie weiter verbessert, bewegt sich die Human Activity Recognition über Forschungslabore hinaus und wird zu einem praktischen Werkzeug für das Gesundheitswesen, Sicherheit und alltägliche Anwendungen.

Erfahre mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Sieh dir unsere Lösungsseiten an, um mehr über KI in der Robotik und Computer Vision in der Fertigung zu erfahren. Entdecke unsere Lizenzierungsoptionen, um mit Vision-KI loszulegen.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens