Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Признание действий

Изучите распознавание действий (Human Activity Recognition): как видео, оценка позы и глубокое обучение detect действия человека для здравоохранения, безопасности и спорта.

Распознавание действий, часто называемое распознаванием человеческой деятельности (HAR), является специализированной отраслью компьютерного зрения (CV), направленной на идентификацию и классификацию определенных движений или поведений в видеоданных. В то время как стандартное распознавание изображений анализирует статические кадры для detect , распознавание действий включает в себя четвертое измерение — время — для интерпретации динамических событий. Обрабатывая последовательности кадров, передовые системы искусственного интеллекта (AI) могут различать сложные виды поведения, такие как ходьба, махание рукой, падение или выполнение определенной спортивной техники. Эта способность необходима для создания интеллектуальных систем, которые могут понимать намерения человека и безопасно взаимодействовать в реальных условиях.

Основные механизмы и методы

Чтобы точно идентифицировать действия, модели глубокого обучения (DL) должны извлекать и синтезировать два основных типа характеристик: пространственные и временные. Пространственные характеристики фиксируют визуальный облик сцены, например, присутствие человека или объекта, как правило, с помощью сверточных нейронных сетей (CNN). Временные особенности описывают, как эти элементы меняются со временем, предоставляя контекст, необходимый для отличия действия «сесть» от действия «встать».

Современные подходы часто используют многоступенчатый конвейер для достижения высокой точности:

  • Оценка позы: эта техника отображает скелетную структуру человеческого тела, отслеживая определенные ключевые точки, такие как локти, колени и плечи. Геометрические отношения между этими точками обеспечивают надежный сигнал для классификации действий, независимо от фоновых помех или условий освещения.
  • Временное моделирование: Последовательности данных обрабатываются с помощью архитектур, разработанных для анализа временных рядов, таких как рекуррентные нейронные сети (RNN) или сети с длинной краткосрочной памятью (LSTM) . В последнее время Video Transformers стали стандартом для моделирования долгосрочных зависимостей в видеопотоках.
  • Особенности движения: Алгоритмы часто включают оптический поток для явного track и скорости движения пикселей между кадрами, помогая модели различать тонкие паттерны движения, которые могут быть упущены при только пространственном анализе.

Применение в реальном мире

Возможность автоматизировать интерпретацию движений человека способствовала широкому внедрению этой технологии в различных отраслях. Глобальный рынок распознавания человеческой деятельности продолжает расширяться, поскольку компании стремятся оцифровать физические рабочие процессы и повысить безопасность.

Здравоохранение и безопасность пациентов

В сфере применения ИИ в здравоохранении распознавание действий имеет решающее значение для автоматизированного мониторинга пациентов. Системы могут быть обучены detect в больницах или учреждениях для проживания с помощью посторонних лиц, мгновенно оповещая об этом медицинский персонал. Кроме того, компьютерное зрение облегчает дистанционную физическую реабилитацию , анализируя форму упражнений пациента в режиме реального времени, обеспечивая правильное выполнение движений для содействия выздоровлению и предотвращения травм.

Спортивная аналитика

Тренеры и комментаторы используют ИИ в спорте для разбора выступлений спортсменов. Алгоритмы распознавания действий могут автоматически маркировать события в игровых записях, такие как бросок в баскетболе, подача в теннисе или пас в футболе, что позволяет проводить подробный статистический анализ. Эти данные помогают усовершенствовать технику и разработать стратегии на основе конкретных паттернов движений игроков.

Различение смежных понятий

Важно отличать распознавание действий от аналогичных терминов в области компьютерного зрения, чтобы выбрать правильный инструмент для работы.

  • Распознавание действий против понимания видео. Видеопонимание: В то время как распознавание действий сосредоточено на определении конкретных физических действий (например, "открыть дверь"), понимание видео - это более широкая область, направленная на понимание всего контекста, повествования и причинно-следственных связей в видео (например, "человек открывает дверь"). (например, "человек открывает дверь, чтобы выпустить собаку").
  • Распознавание действий и отслеживание объектов: Отслеживание объектов заключается в поддержании идентичности объекта или человека в разных кадрах (присвоение уникального идентификатора). Распознавание действий анализирует поведение отслеживаемого объекта. Часто отслеживание является необходимым шагом для распознавания действий в сценах с участием нескольких человек.

Анализ реализации действий

Основополагающим шагом во многих конвейерах распознавания действий является извлечение данных о скелете. Следующий Python демонстрирует, как использовать ultralytics библиотека с YOLO26 для извлечения ключевых точек позы, которые служат основой для классификации последующих действий.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

Проблемы и будущие направления

Развертывание этих систем сопряжено с рядом сложностей, в том числе с необходимостью иметь огромные объемы помеченных учебных данных и с вычислительными затратами на обработку видео. Для оценки эффективности модели стандартно используются эталонные наборы данных, такие как Kinetics-400 .

По мере совершенствования аппаратного обеспечения наблюдается переход к Edge AI, позволяющему запускать модели непосредственно на камерах или мобильных устройствах. Это обеспечивает вывод в реальном времени с меньшей задержкой и лучшей конфиденциальностью, поскольку видеоданные не нужно отправлять в облако. Будущие разработки направлены на дальнейшую оптимизацию скорости и точности базовых механизмов обнаружения и оценки позы, которые обеспечивают выполнение этих сложных задач распознавания.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас