용어집

동작 인식

동영상에서 행동을 식별하는 동작 인식 기술을 탐구하세요. 자세 추정용 Ultralytics 활용법을 배우고 행동 인식(HAR) 작업을 위한 스마트 AI 시스템을 구축하세요.

동작 인식(Action Recognition)은 일반적으로 인간 활동 인식(HAR)으로도 알려져 있으며, 컴퓨터 비전(CV) 의 역동적인 하위 분야로 비디오 데이터 내 피사체가 수행하는 특정 행동이나 움직임을 식별하고 분류하는 것을 다룹니다. 전통적인 객체 탐지가 "이미지에 무엇이 있는가?"라는 질문에 답하는 반면, 동작 인식은 "시간에 따라 무슨 일이 일어나고 있는가?"라는 더 복잡한 질문을 다룹니다. 정적 이미지 대신 프레임 시퀀스를 분석함으로써 머신 러닝(ML) 모델은 "걷기", "자전거 타기", "넘어지기", "악수하기"와 같은 복잡한 활동을 구분할 수 있어, 인간의 의도와 맥락을 이해하는 지능형 시스템 구축에 핵심적인 요소로 작용합니다.

핵심 개념과 기법

행동을 인식하려면 공간 정보(물체나 사람의 외관)와 시간 정보(시간에 따른 움직임)를 모두 처리할 수 있는 모델이 필요합니다. 이를 달성하기 위해 현대 인공지능(AI) 시스템은 표준 컨볼루션 신경망(CNN)을 넘어선 특수화된 아키텍처를 종종 활용합니다.

자세 추정: 모델이 팔꿈치, 무릎, 어깨 등 인체 특정 키포인트를 추적하는 강력한 기법이다. 시간에 따른 이러한 키포인트의 기하학적 변화는 배경 잡음과 무관하게 동작 분류를 위한 강력한 신호를 제공한다.
시간적 모델링: 알고리즘은 순환 신경망(RNN) 이나 장단기 기억(LSTM) 네트워크와 같은 구조를 활용하여 과거 프레임을 기억하고 미래 행동을 예측합니다. 최근에는 비디오 트랜스포머가 비디오 스트림 내 장거리 의존성을 처리하는 능력으로 인기를 얻고 있습니다.
이중 스트림 네트워크: 이 접근법은 공간적 특징(RGB 프레임)과 시간적 특징(주로 광학 흐름을 사용)을 병렬 스트림으로 처리하며, 데이터를 융합하여 최종 분류를 수행합니다.

실제 애플리케이션

인간의 움직임을 자동으로 해석하는 능력은 다양한 산업 분야에서 혁신적인 잠재력을 지니며, 안전성, 효율성 및 사용자 경험을 향상시킵니다.

의료 분야의 인공지능: 동작 인식은 환자 모니터링 시스템에 필수적입니다. 예를 들어, 요양원에서 자동 낙상 감지를 가능하게 하여 환자가 쓰러지면 즉시 직원에게 알립니다. 또한 원격 물리 재활 치료에도 활용되며, 인공지능 코치가 환자의 운동 자세를 분석하여 동작을 정확하고 안전하게 수행하도록 합니다.
스마트 감시 및 보안: 단순한 동작 감지를 넘어선 첨단 보안 시스템은 행동 인식을 활용하여 싸움, 절도, 무단 침입과 같은 의심스러운 행동을 식별하는 동시에 무해한 활동은 무시합니다. 이를 통해 오경보를 줄이고 실시간 보안 모니터링을 개선합니다.

Ultralytics 활용한 행동 분석 구현

일반적인 워크플로는 먼저 사람과 그 골격 자세를 감지한 후 해당 관절의 움직임을 분석하는 방식으로 진행됩니다. Ultralytics 모델은 초기 자세 추정 단계에서 최첨단 속도와 정확도를 제공하며, 이는 많은 동작 인식 파이프라인의 기반이 됩니다.

다음 예제는 Python 사용하여 비디오 프레임에서 스켈레탈 키포인트를 추출하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

도전 과제와 미래 트렌드

강력한 동작 인식 모델 개발은 특히 Kinetics-400이나 UCF101과 같은 대규모 주석 처리된 영상 데이터 세트의 필요성과 관련해 어려움을 제기합니다. 영상 데이터에 라벨을 부여하는 작업은 정적 이미지에 라벨을 부여하는 것보다 훨씬 더 많은 시간이 소요됩니다. 이를 해결하기 위해 Ultralytics 같은 도구는 주석 작업 및 훈련 워크플로우를 간소화하는 데 도움을 줍니다.

또한 계산 효율성은 매우 중요합니다. 고해상도 영상을 실시간으로 처리하려면 상당한 하드웨어 자원이 필요합니다. 업계는 지연 시간과 대역폭 사용량을 줄이기 위해 카메라와 모바일 기기에서 직접 실행되도록 모델을 최적화하는 엣지 AI로 점점 더 이동하고 있습니다. 향후 발전은 모델의 일반화 능력을 향상시켜 시스템이 명시적으로 훈련되지 않은 시점에서조차 행동을 인식할 수 있도록 하는 것을 목표로 합니다.

동작 인식

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

핵심 개념과 기법

실제 애플리케이션

Ultralytics 활용한 행동 분석 구현

관련 용어 구분하기

도전 과제와 미래 트렌드

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입