Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Признание действий

Изучите распознавание действий (Human Activity Recognition): как видео, оценка позы и глубокое обучение detect действия человека для здравоохранения, безопасности и спорта.

Распознавание действий, часто называемое распознаванием человеческой деятельности (HAR), является специализированным подмножеством Компьютерное зрение (КВ), ориентированное на идентификацию и классификации определенных движений или поведения в видеоданных. В отличие от стандартного распознавания изображений, которое анализирует статичные кадры detect действий включает в себя измерение времени для понимания динамических событий. Путем обработки последовательности изображений, системы искусственного интеллекта (ИИ) могут различать такие действия, как ходьба, бег, взмахи руками или падение. Эта способность необходима для создания систем, способных интерпретировать поведение человека в реальной обстановке, преодолевая разрыв между восприятием пикселей и пониманием намерений.

Распознавание основных механизмов действия

Для точной идентификации действий, Модели Deep Learning (DL) должны извлекать два типа признаков: пространственных и временных. Пространственные признаки описывают визуальный вид сцены, например наличие человека или объекта, обычно извлекаются с помощью Конволюционные нейронные сети (CNN). Временные признаки описывают, как эти пространственные элементы изменяются с течением времени.

В современных подходах часто используется конвейер, который включает в себя:

  • Обнаружение объектов: Система эффективно определяет местоположение людей в кадре. Современные модели, такие как YOLO11 часто используются здесь благодаря своей скорости и точности.
  • Оценка позы: Эта техника отображает скелетной структуры человеческого тела, отслеживая ключевых точек, таких как локти, колени и плечи. Геометрическая связь между этими точками в последовательности кадров обеспечивает надежный сигнал геометрическая связь между этими точками в последовательности кадров обеспечивает надежный сигнал для классификации действий.
  • Темпоральный анализ: Последовательности данных обрабатываются с помощью архитектур, разработанных для временных рядов данных, таких как рекуррентные нейронные сети (РНС) или сети с длинной кратковременной памятью (LSTM) сети. В последнее время видеотрансформаторы завоевали популярность благодаря своей способности моделировать дальние зависимости в видеопотоках.

Следующий пример на Python демонстрирует, как использовать ultralytics библиотека для извлечения ключевых точек позы из видео, которая служит базовым слоем данных для многих систем распознавания действий.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Актуальность и реальные приложения

Возможность автоматизировать интерпретацию человеческих движений способствовала значительному распространению этой технологии в различных отраслях. Глобальный рынок распознавания человеческой активности продолжает расширяться по мере того, как отрасли стремятся оцифровать физические рабочие процессы.

Здравоохранение и безопасность пациентов

В области искусственного интеллекта в здравоохранении распознавание действий распознавание действий имеет решающее значение для автоматизированного мониторинга пациентов. Системы могут быть обучены detect падения в больницах или и других учреждениях, вызывая немедленное оповещение персонала. Кроме того, компьютерное зрение облегчает удаленной физической реабилитации, анализируя в режиме реального времени, обеспечивая правильное выполнение пациентом упражнений для восстановления и предотвращения травм.

Спортивная аналитика

Тренеры и телеведущие используют ИИ в спорте для Разбирают результаты спортсменов. Алгоритмы распознавания действий могут автоматически отмечать события на игровых кадрах, например баскетбольный бросок, теннисная подача или футбольный пас, что позволяет проводить детальный статистический анализ. Эти данные помогают совершенствованию техники и разработке стратегий на основе модели движения игрока.

Интеллектуальное наблюдение

Системы безопасности вышли за рамки простого обнаружения движения. Передовые мониторинг безопасности Используется распознавание действий для выявления подозрительного поведения, такого как драка, бродяжничество или кража в магазине, при этом игнорируя при этом доброкачественные движения. Это снижает количество ложных тревог и повышает эффективность работы персонала службы безопасности.

Различение смежных понятий

Важно отличать распознавание действий от аналогичных терминов в области компьютерного зрения, чтобы выбрать правильный инструмент для работы.

  • Распознавание действий против понимания видео. Видеопонимание: В то время как распознавание действий сосредоточено на определении конкретных физических действий (например, "открыть дверь"), понимание видео - это более широкая область, направленная на понимание всего контекста, повествования и причинно-следственных связей в видео (например, "человек открывает дверь"). (например, "человек открывает дверь, чтобы выпустить собаку").
  • Распознавание действий в сравнении с отслеживанием объектов. Отслеживание объектов: Отслеживание объектов связано с сохранением идентичности объекта или человека во всех кадрах. Распознавание действий анализирует поведение отслеживаемого объекта. Часто отслеживание является необходимым условием для распознавания действий в сценах с участием нескольких человек.
  • Распознавание действий в сравнении с оценкой позы. Оценка позы: При оценке позы на выходе получаются необработанные данные о координатах суставов тела. Распознавание действий использует эти данные (или визуальные признаки) в качестве входных данных для вывода семантической метки, например "езда на велосипеде" или "прыжок".

Проблемы и будущие направления

Развертывание таких систем сопряжено с определенными трудностями, включая необходимость в огромных объемах помеченных обучающих данных и вычислительные затраты на обработки видео. Такие эталонные наборы данных, как Kinetics-400 и UCF101 являются стандартными для обучения и оценки моделей.

По мере совершенствования аппаратного обеспечения происходит переход к Edge AI, позволяющий запускать модели непосредственно на камерах или мобильных устройствах. Это позволяет делать выводы в реальном времени с меньшей задержкой и Повышается уровень конфиденциальности, поскольку видеоданные не нужно отправлять в облако. Будущие разработки, включая предстоящий YOLO26, направлены на дальнейшую оптимизацию скорости и точности Скорость и точность работы базовых механизмов обнаружения и оценки позы, которые обеспечивают выполнение этих сложных задач распознавания.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас