Yolo 비전 선전
선전
지금 참여하기
용어집

동작 인식

동작 인식(인간 활동 인식) 살펴보기: 비디오, 포즈 추정 및 딥러닝이 의료, 보안 및 스포츠에서 사람의 행동을 detect 방법.

동작 인식(Action Recognition)은 흔히 인간 활동 인식(HAR)으로 불리며, 컴퓨터 비전(CV) 의 한 분야로 비디오 데이터 내 특정 동작이나 행동을 식별하고 분류하는 데 중점을 둡니다. 표준 이미지 인식이 정적 프레임을 분석하여 detect 반면, 동작 인식은 네 번째 차원인 시간을 통합하여 동적 사건을 해석합니다. 고급 인공지능(AI) 시스템은 프레임 시퀀스를 처리함으로써 걷기, 손 흔들기, 넘어지기 또는 특정 스포츠 기술 수행과 같은 복잡한 행동을 구분할 수 있습니다. 이러한 능력은 인간의 의도를 이해하고 실제 환경에서 안전하게 상호작용할 수 있는 지능형 시스템을 구축하는 데 필수적입니다.

핵심 메커니즘과 기술

행동을 정확히 식별하기 위해 딥 러닝(DL) 모델은 두 가지 주요 특징 유형인 공간적 특징과 시간적 특징을 추출하고 종합해야 합니다. 공간적 특징은 일반적으로 컨볼루션 신경망(CNN)을 사용하여 장면의 시각적 외관(예: 사람이나 사물의 존재 여부)을 포착합니다. 시간적 특징은 이러한 요소들이 시간에 따라 어떻게 변화하는지 설명하여, "앉기" 동작과 "일어서기" 동작을 구분하는 데 필요한 맥락을 제공합니다.

현대적인 접근법은 높은 정확도를 달성하기 위해 종종 다단계 파이프라인을 활용합니다:

  • 자세 추정: 이 기술은 인체의 골격 구조를 매핑하여 팔꿈치, 무릎, 어깨와 같은 특정 키포인트를 추적합니다. 이러한 점들 간의 기하학적 관계는 배경 잡음이나 조명 조건과 무관하게 동작을 분류하는 강력한 신호를 제공합니다.
  • 시계열 모델링: 데이터 시퀀스는 시계열 분석을 위해 설계된 아키텍처로 처리됩니다. 예를 들어 순환 신경망(RNN) 이나 장단기 기억(LSTM) 네트워크가 있습니다. 최근에는 비디오 트랜스포머가 비디오 스트림 내 장거리 의존성을 모델링하는 표준이 되었습니다.
  • 모션 기능: 알고리즘은 종종 광학 흐름을 활용하여 프레임 간 픽셀 이동의 track 속도를 명시적으로 track , 공간 분석만으로는 놓칠 수 있는 미묘한 모션 패턴을 모델이 식별하도록 돕습니다.

실제 애플리케이션

인간의 동작 해석을 자동화하는 능력은 다양한 산업 분야에서 상당한 도입을 이끌어냈다. 기업들이 물리적 업무 흐름을 디지털화하고 안전성을 강화하려는 노력에 힘입어 글로벌 인간 활동 인식 시장은지속적으로 확장 중이다.

의료 및 환자 안전

의료 분야 인공지능에서 행동 인식은 자동화된 환자 모니터링에 핵심적입니다. 병원이나 요양 시설에서 detect 시스템을 훈련시켜 간호진에게 즉각적인 경보를 발령할 수 있습니다. 또한 컴퓨터 비전은 환자의 운동 자세를 실시간으로 분석하여 원격 물리 재활을지원함으로써, 회복을 돕고 부상을 예방하기 위해 동작을 정확히 수행하도록 보장합니다.

스포츠 분석

코치와 중계진은 스포츠 분야에서 AI를 활용해 선수들의 경기력을 분석합니다. 동작 인식 알고리즘은 경기 영상 속 사건들—예를 들어 농구 슛, 테니스 서브, 축구 패스—을 자동으로 태그하여 상세한 통계 분석을 가능하게 합니다. 이 데이터는 특정 선수 움직임 패턴을 기반으로 기술을 개선하고 전략을 개발하는 데 도움을 줍니다.

관련 개념 구분하기

작업에 적합한 도구를 선택하려면 컴퓨터 비전 환경에서 동작 인식을 유사한 용어와 구별하여 올바른 도구를 선택하는 것이 중요합니다.

  • 동작 인식 대 비디오 이해: 동작 인식은 특정 신체 활동(예: "문 열기")을 식별하는 데 중점을 둡니다, 비디오 이해는 비디오 내의 전체 맥락, 내러티브 및 인과 관계를 이해하는 것을 목표로하는 더 넓은 분야입니다. 관계(예: "사람이 개를 내보내기 위해 문을 열고 있다")를 이해하는 것을 목표로 합니다.
  • 동작 인식 대 객체 추적: 객체 추적은 프레임 간에 객체나 인물의 동일성을 유지하는 데 중점을 둡니다(고유 ID 할당). 동작 인식은 추적 대상의 행동을 분석합니다. 다인물 장면에서 동작을 인식하기 위한 선행 단계로 추적이 필요한 경우가 많습니다.

행동 분석 구현

많은 동작 인식 파이프라인의 기초 단계는 골격 데이터를 추출하는 것입니다. 다음 Python 사용 방법을 보여줍니다. ultralytics 라이브러리 with YOLO26 동작 분류를 위한 하위 작업의 기초 데이터 계층 역할을 하는 동작 키포인트를 추출하기 위해.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

과제 및 향후 방향

이러한 시스템의 배포에는 방대한 양의 라벨링된 훈련 데이터 필요성과 영상 처리의 계산 비용 등 여러 과제가 존재합니다. Kinetics-400과 같은 벤치마크 데이터셋은 모델 성능 평가의 표준으로 사용됩니다.

하드웨어가 발전함에 따라 에지 AI로의 전환이 이루어지고 있으며, 이를 통해 모델을 카메라나 모바일 기기에서 직접 실행할 수 있게 되었습니다. 이로 인해 비디오 데이터를 클라우드로 전송할 필요가 없어 더 낮은 지연 시간과 향상된 프라이버시를 갖춘 실시간 추론이 가능해집니다. 향후 발전 방향은 이러한 복잡한 인식 작업을 수행하는 기반 탐지 및 자세 추정 엔진의 속도와 정확도를 더욱 최적화하는 데 초점을 맞출 것입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기