Yolo 비전 선전
선전
지금 참여하기
용어집

동작 인식

동영상에서 행동을 식별하는 동작 인식 기술을 탐구하세요. 자세 추정용 Ultralytics 활용법을 배우고 행동 인식(HAR) 작업을 위한 스마트 AI 시스템을 구축하세요.

동작 인식(Action Recognition)은 일반적으로 인간 활동 인식(HAR)으로도 알려져 있으며, 컴퓨터 비전(CV) 의 역동적인 하위 분야로 비디오 데이터 내 피사체가 수행하는 특정 행동이나 움직임을 식별하고 분류하는 것을 다룹니다. 전통적인 객체 탐지가 "이미지에 무엇이 있는가?"라는 질문에 답하는 반면, 동작 인식은 "시간에 따라 무슨 일이 일어나고 있는가?"라는 더 복잡한 질문을 다룹니다. 정적 이미지 대신 프레임 시퀀스를 분석함으로써 머신 러닝(ML) 모델은 "걷기", "자전거 타기", "넘어지기", "악수하기"와 같은 복잡한 활동을 구분할 수 있어, 인간의 의도와 맥락을 이해하는 지능형 시스템 구축에 핵심적인 요소로 작용합니다.

핵심 개념과 기법

행동을 인식하려면 공간 정보(물체나 사람의 외관)와 시간 정보(시간에 따른 움직임)를 모두 처리할 수 있는 모델이 필요합니다. 이를 달성하기 위해 현대 인공지능(AI) 시스템은 표준 컨볼루션 신경망(CNN)을 넘어선 특수화된 아키텍처를 종종 활용합니다.

  • 자세 추정: 모델이 팔꿈치, 무릎, 어깨 등 인체 특정 키포인트를 추적하는 강력한 기법이다. 시간에 따른 이러한 키포인트의 기하학적 변화는 배경 잡음과 무관하게 동작 분류를 위한 강력한 신호를 제공한다.
  • 시간적 모델링: 알고리즘은 순환 신경망(RNN) 이나 장단기 기억(LSTM) 네트워크와 같은 구조를 활용하여 과거 프레임을 기억하고 미래 행동을 예측합니다. 최근에는 비디오 트랜스포머가 비디오 스트림 내 장거리 의존성을 처리하는 능력으로 인기를 얻고 있습니다.
  • 이중 스트림 네트워크: 이 접근법은 공간적 특징(RGB 프레임)과 시간적 특징(주로 광학 흐름을 사용)을 병렬 스트림으로 처리하며, 데이터를 융합하여 최종 분류를 수행합니다.

실제 애플리케이션

인간의 움직임을 자동으로 해석하는 능력은 다양한 산업 분야에서 혁신적인 잠재력을 지니며, 안전성, 효율성 및 사용자 경험을 향상시킵니다.

  • 의료 분야의 인공지능: 동작 인식은 환자 모니터링 시스템에 필수적입니다. 예를 들어, 요양원에서 자동 낙상 감지를 가능하게 하여 환자가 쓰러지면 즉시 직원에게 알립니다. 또한 원격 물리 재활 치료에도 활용되며, 인공지능 코치가 환자의 운동 자세를 분석하여 동작을 정확하고 안전하게 수행하도록 합니다.
  • 스마트 감시 및 보안: 단순한 동작 감지를 넘어선 첨단 보안 시스템은 행동 인식을 활용하여 싸움, 절도, 무단 침입과 같은 의심스러운 행동을 식별하는 동시에 무해한 활동은 무시합니다. 이를 통해 오경보를 줄이고 실시간 보안 모니터링을 개선합니다.

Ultralytics 활용한 행동 분석 구현

일반적인 워크플로는 먼저 사람과 그 골격 자세를 감지한 후 해당 관절의 움직임을 분석하는 방식으로 진행됩니다. Ultralytics 모델은 초기 자세 추정 단계에서 최첨단 속도와 정확도를 제공하며, 이는 많은 동작 인식 파이프라인의 기반이 됩니다.

다음 예제는 Python 사용하여 비디오 프레임에서 스켈레탈 키포인트를 추출하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

관련 용어 구분하기

동작 인식과 유사한 컴퓨터 비전 작업을 구분하는 것은 올바른 방법이 적용되도록 보장하기 위해 중요합니다.

  • 동작 인식 vs. 물체 추적: 물체 추적은 특정 물체나 인물이 프레임 간 이동할 때 그 정체성을 유지하는 데 중점을 둡니다(예: "인물 A는 좌표 X에 위치"). 동작 인식은 추적 대상의 행동을 해석합니다(예: "인물 A는 달리고 있다").
  • 동작 인식 vs. 영상 이해: 동작 인식이 특정 신체적 행동을 식별하는 반면, 영상 이해는 영상 장면 내 전체 서사, 맥락 및 인과 관계를 포괄적으로 파악하는 더 광범위한 개념입니다.

도전 과제와 미래 트렌드

강력한 동작 인식 모델 개발은 특히 Kinetics-400이나 UCF101과 같은 대규모 주석 처리된 영상 데이터 세트의 필요성과 관련해 어려움을 제기합니다. 영상 데이터에 라벨을 부여하는 작업은 정적 이미지에 라벨을 부여하는 것보다 훨씬 더 많은 시간이 소요됩니다. 이를 해결하기 위해 Ultralytics 같은 도구는 주석 작업 및 훈련 워크플로우를 간소화하는 데 도움을 줍니다.

또한 계산 효율성은 매우 중요합니다. 고해상도 영상을 실시간으로 처리하려면 상당한 하드웨어 자원이 필요합니다. 업계는 지연 시간과 대역폭 사용량을 줄이기 위해 카메라와 모바일 기기에서 직접 실행되도록 모델을 최적화하는 엣지 AI로 점점 더 이동하고 있습니다. 향후 발전은 모델의 일반화 능력을 향상시켜 시스템이 명시적으로 훈련되지 않은 시점에서조차 행동을 인식할 수 있도록 하는 것을 목표로 합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기