Yolo 비전 선전
선전
지금 참여하기
용어집

동작 인식

동작 인식(인간 활동 인식) 살펴보기: 비디오, 포즈 추정 및 딥러닝이 의료, 보안 및 스포츠에서 사람의 행동을 detect 방법.

행동 인식은 종종 인간 활동 인식(HAR)이라고도 하며, 다음과 같은 특수한 하위 집합입니다. 컴퓨터 비전(CV)의 전문화된 집합으로, 비디오 데이터에서 특정 움직임이나 행동을 식별하고 비디오 데이터에서 특정 움직임이나 행동을 식별하고 분류하는 데 중점을 둡니다. 표준 정적인 프레임을 분석하는 이미지 인식과 달리 detect 분석하는 표준 이미지 인식과 달리, 동작 인식은 동적 이벤트를 이해하기 위해 시간 차원을 통합합니다. 처리함으로써 이미지의 시퀀스를 처리합니다, 인공 지능(AI) 시스템은 걷기, 달리기, 손 흔들기, 넘어짐과 같은 동작을 구분할 수 있습니다. 이 기능은 인간의 행동을 실시간으로 해석할 수 있는 실제 환경에서 사람의 행동을 해석할 수 있는 시스템을 만들어 픽셀을 보는 것과 의도를 이해하는 데 필수적입니다.

동작 인식의 핵심 메커니즘

행동을 정확하게 식별하려면, 딥러닝(DL) 모델은 두 가지 유형의 특징을 추출해야 합니다. 공간적 특징과 시간적 특징을 추출해야 합니다. 공간적 특징은 장면의 시각적 외관을 설명하며, 사람이나 물체의 존재 여부와 같은 사람이나 물체의 존재와 같은 장면의 시각적 외관을 설명하며, 일반적으로 다음을 통해 추출됩니다. 컨볼루션 신경망(CNN)을 통해 추출됩니다. 시간적 특징은 이러한 공간적 요소가 시간에 따라 어떻게 변화하는지를 설명합니다.

최신 접근 방식은 종종 다음을 포함하는 파이프라인을 활용합니다:

  • 물체 감지: 시스템 은 프레임 내에서 개체를 효과적으로 찾아냅니다. 다음과 같은 최첨단 모델 YOLO11 과 같은 최신 모델은 속도와 정확성.
  • 포즈 추정: 이 기술은 인체의 인체의 골격 구조를 매핑하여 팔꿈치, 무릎, 어깨와 같은 키포인트를 추적합니다. 이러한 포인트 사이의 일련의 프레임에 걸쳐 이러한 포인트 사이의 기하학적 관계는 동작을 분류하기 위한 강력한 신호를 제공합니다. 동작을 분류하는 강력한 신호를 제공합니다.
  • 시간적 분석: 데이터 시퀀스는 시계열 데이터용으로 설계된 아키텍처를 사용하여 처리됩니다. 데이터를 위해 설계된 아키텍처를 사용하여 처리됩니다. 순환 신경망(RNN) 또는 장단기 메모리(LSTM) 네트워크를 사용합니다. 최근에는 비디오 트랜스포머가 비디오 스트림의 장거리 종속성을 모델링하는 기능으로 인기를 얻고 있습니다.

다음 Python 예제에서는 다음과 같이 ultralytics 라이브러리를 사용하여 동영상에서 포즈 키포인트 을 추출하는 라이브러리로 많은 동작 인식 시스템의 기본 데이터 레이어 역할을 합니다.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

관련성 및 실제 응용 분야

사람의 움직임 해석을 자동화하는 기능은 다양한 분야에서 상당한 채택을 이끌어냈습니다. 전 세계 인간 활동 인식 시장 의 글로벌 시장은 업계에서 물리적 워크플로우의 디지털화를 모색함에 따라 계속 확장되고 있습니다.

의료 및 환자 안전

의료 분야의 AI 분야에서는 자동화된 환자 모니터링을 위해 행동 인식은 자동화된 환자 모니터링에 매우 중요합니다. 병원이나 요양 시설에서 낙상을 detect 시스템을 학습시킬 수 있습니다. 낙상을 감지하여 직원에게 즉각적인 경보를 발동하도록 시스템을 학습시킬 수 있습니다. 또한 컴퓨터 비전은 환자의 운동 형태를 실시간으로 분석하여 환자의 운동 형태를 실시간으로 분석하여 환자가 올바르게 동작을 수행하여 회복을 돕고 부상을 예방할 수 있도록 합니다.

스포츠 분석

코치와 방송사는 스포츠의 AI를 사용하여 선수의 경기력을 분석합니다. 동작 인식 알고리즘은 경기 영상에서 농구 슛, 테니스 서브, 축구 패스 등의 이벤트에 자동으로 태그를 지정하여 농구 슛, 테니스 서브, 축구 패스 등의 이벤트에 자동으로 태그를 지정하여 상세한 통계 분석을 할 수 있습니다. 이 데이터는 다음을 지원합니다. 기술을 개선하고 선수의 움직임 패턴을 기반으로 선수의 움직임 패턴.

스마트 감시

보안 시스템은 단순한 동작 감지를 넘어 진화했습니다. 고급 보안 모니터링 은 동작 인식을 활용하여 싸움, 배회, 도둑질과 같은 의심스러운 행동을 식별하는 동시에 정상적인 움직임은 무시합니다. 이를 통해 오경보를 줄이고 보안 인력의 효율성을 개선할 수 있습니다.

관련 개념 구분하기

작업에 적합한 도구를 선택하려면 컴퓨터 비전 환경에서 동작 인식을 유사한 용어와 구별하여 올바른 도구를 선택하는 것이 중요합니다.

  • 동작 인식 대 비디오 이해: 동작 인식은 특정 신체 활동(예: "문 열기")을 식별하는 데 중점을 둡니다, 비디오 이해는 비디오 내의 전체 맥락, 내러티브 및 인과 관계를 이해하는 것을 목표로하는 더 넓은 분야입니다. 관계(예: "사람이 개를 내보내기 위해 문을 열고 있다")를 이해하는 것을 목표로 합니다.
  • 동작 인식 대 객체 추적: 객체 추적은 여러 프레임에서 객체 또는 사람의 신원을 유지하는 것과 관련이 있습니다. 동작 인식 은 추적된 피사체의 행동을 분석합니다. 종종 추적은 여러 사람이 있는 장면에서 행동을 인식하기 위한 동작을 인식하기 위한 필수 단계인 경우가 많습니다.
  • 동작 인식 대 포즈 추정: 포즈 추정은 신체 관절의 원시 좌표 데이터를 출력합니다. 동작 인식은 이 데이터(또는 시각적 특징)를 입력으로 받아 '자전거 타기' 또는 '점프'와 같은 의미론적 레이블을 출력합니다. 특징)을 입력으로 받아 "자전거 타기" 또는 "점프"와 같은 의미론적 레이블을 출력합니다.

과제 및 향후 방향

이러한 시스템을 배포하는 데는 방대한 양의 레이블이 지정된 훈련 데이터와 트레이닝 데이터와 비디오 처리의 계산 비용 등의 문제가 있습니다. Kinetics-400과 같은 벤치마크 데이터 세트와 UCF101과 같은 벤치마크 데이터 세트는 모델 훈련 및 평가를 위한 표준입니다.

하드웨어가 개선됨에 따라 엣지 AI로 전환하고 있습니다, 카메라나 모바일 디바이스에서 직접 모델을 실행할 수 있게 되었습니다. 이를 통해 지연 시간을 줄인 실시간 추론과 비디오 데이터를 클라우드로 전송할 필요가 없으므로 개인정보 보호가 향상됩니다. 곧 출시될 YOLO26을 포함한 향후 개발은 속도와 정확도를 더욱 최적화하는 것을 목표로 합니다. 이러한 복잡한 인식 작업을 지원하는 기본 감지 및 포즈 추정 엔진의 속도와 정확도를 더욱 최적화하는 것을 목표로 합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기