Изучите распознавание действий (Human Activity Recognition): как видео, оценка позы и глубокое обучение detect действия человека для здравоохранения, безопасности и спорта.
Распознавание действий, часто называемое распознаванием человеческой деятельности (HAR), является специализированной отраслью компьютерного зрения (CV), направленной на идентификацию и классификацию определенных движений или поведений в видеоданных. В то время как стандартное распознавание изображений анализирует статические кадры для detect , распознавание действий включает в себя четвертое измерение — время — для интерпретации динамических событий. Обрабатывая последовательности кадров, передовые системы искусственного интеллекта (AI) могут различать сложные виды поведения, такие как ходьба, махание рукой, падение или выполнение определенной спортивной техники. Эта способность необходима для создания интеллектуальных систем, которые могут понимать намерения человека и безопасно взаимодействовать в реальных условиях.
Чтобы точно идентифицировать действия, модели глубокого обучения (DL) должны извлекать и синтезировать два основных типа характеристик: пространственные и временные. Пространственные характеристики фиксируют визуальный облик сцены, например, присутствие человека или объекта, как правило, с помощью сверточных нейронных сетей (CNN). Временные особенности описывают, как эти элементы меняются со временем, предоставляя контекст, необходимый для отличия действия «сесть» от действия «встать».
Современные подходы часто используют многоступенчатый конвейер для достижения высокой точности:
Возможность автоматизировать интерпретацию движений человека способствовала широкому внедрению этой технологии в различных отраслях. Глобальный рынок распознавания человеческой деятельности продолжает расширяться, поскольку компании стремятся оцифровать физические рабочие процессы и повысить безопасность.
В сфере применения ИИ в здравоохранении распознавание действий имеет решающее значение для автоматизированного мониторинга пациентов. Системы могут быть обучены detect в больницах или учреждениях для проживания с помощью посторонних лиц, мгновенно оповещая об этом медицинский персонал. Кроме того, компьютерное зрение облегчает дистанционную физическую реабилитацию , анализируя форму упражнений пациента в режиме реального времени, обеспечивая правильное выполнение движений для содействия выздоровлению и предотвращения травм.
Тренеры и комментаторы используют ИИ в спорте для разбора выступлений спортсменов. Алгоритмы распознавания действий могут автоматически маркировать события в игровых записях, такие как бросок в баскетболе, подача в теннисе или пас в футболе, что позволяет проводить подробный статистический анализ. Эти данные помогают усовершенствовать технику и разработать стратегии на основе конкретных паттернов движений игроков.
Важно отличать распознавание действий от аналогичных терминов в области компьютерного зрения, чтобы выбрать правильный инструмент для работы.
Основополагающим шагом во многих конвейерах распознавания действий является извлечение данных о скелете. Следующий Python
демонстрирует, как использовать ultralytics библиотека с
YOLO26 для извлечения ключевых точек позы, которые служат
основой для классификации последующих действий.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
Развертывание этих систем сопряжено с рядом сложностей, в том числе с необходимостью иметь огромные объемы помеченных учебных данных и с вычислительными затратами на обработку видео. Для оценки эффективности модели стандартно используются эталонные наборы данных, такие как Kinetics-400 .
По мере совершенствования аппаратного обеспечения наблюдается переход к Edge AI, позволяющему запускать модели непосредственно на камерах или мобильных устройствах. Это обеспечивает вывод в реальном времени с меньшей задержкой и лучшей конфиденциальностью, поскольку видеоданные не нужно отправлять в облако. Будущие разработки направлены на дальнейшую оптимизацию скорости и точности базовых механизмов обнаружения и оценки позы, которые обеспечивают выполнение этих сложных задач распознавания.