포즈 추정 도구에 대한 궁극의 가이드

인간은 본능적으로 움직임을 읽어냅니다. 누군가 몸을 앞으로 기울이거나 고개를 돌리거나 팔을 들어 올릴 때, 우리는 즉시 그 행동의 의미를 추론할 수 있습니다. 이는 조용하고 거의 무의식적인 능력으로, 우리가 사람들과 교류하고 세상을 탐색하는 방식을 형성합니다.

기술이 일상생활에서 차지하는 비중이 커짐에 따라, 우리 기기들이 우리처럼 움직임을 자연스럽게 이해해주길 바라는 것은 당연한 일입니다. 최근 인공지능, 특히 딥러닝 기반 기술의 발전이 이를 가능하게 하고 있습니다. 특히 컴퓨터 비전은 기계가 이미지와 영상에서 의미를 추출하도록 돕고 있으며, 이러한 진보를 주도하고 있습니다.

예를 들어, 자세 추정(pose estimation)은 이미지나 영상 프레임 내에서 미리 정의된 신체 주요 지점(예: 어깨, 팔꿈치, 엉덩이, 무릎)의 위치를 예측하는 일반적인 컴퓨터 비전 작업입니다. 이러한 주요 지점들은 고정된 골격 정의를 사용하여 연결되어 단순화된 자세 표현을 형성할 수 있습니다.

컴퓨터 비전 모델들, 예를 들어 Ultralytics YOLO11 및 곧 출시될 Ultralytics 컴퓨터 비전 모델은 자세 추정과 같은 작업을 지원하며, 피트니스 및 스포츠에서의 자세 피드백, 안전 모니터링, 인터랙티브 증강 현실 경험 등 실시간 애플리케이션에 활용될 수 있습니다.

‍

그림 1. 자세YOLO11 Ultralytics YOLO11 활용 사례 (출처)

‍

이 글에서는 자세 추정 도구에 대해 깊이 있게 살펴보고, 자세 추정이 어떻게 작동하는지, 어디에 사용되는지, 그리고 현재 사용 가능한 주요 모델과 라이브러리를 알아보겠습니다. 시작해 보겠습니다!

포즈 추정이란 무엇입니까?

자세 추정(Pose estimation) 은 컴퓨터 비전 기술로, 시스템이 이미지나 영상에서 사람이나 사물의 위치를 이해하도록 돕습니다. 모든 픽셀을 동일하게 분석하기보다는 머리, 어깨, 팔꿈치, 엉덩이, 무릎, 발목과 같은 일관된 랜드마크 집합을 예측합니다.

대부분의 모델은 이러한 키포인트의 좌표와 각 예측이 올바른지 여부를 반영하는 점수를 출력합니다. 이후 미리 정의된 스켈레톤 레이아웃을 사용하여 이러한 키포인트를 연결함으로써 간단한 자세 표현을 형성할 수 있습니다.

동영상에서 프레임별로 적용할 경우, 결과적으로 추출된 키포인트를 시간에 따라 연관시켜 동작을 추정할 수 있습니다. 이를 통해 형태 검사, 동작 분석, 제스처 기반 상호작용과 같은 응용이 가능해집니다.

자세 추정 도구의 필요성

인간의 움직임은 많은 정보를 담고 있다. 누군가가 몸을 굽히거나, 손을 뻗거나, 체중을 이동시키는 방식은 의도, 노력, 피로, 심지어 부상 위험까지 드러낼 수 있다. 최근까지도 이러한 수준의 세부 사항을 포착하려면 일반적으로 특수 센서, 모션 캡처 슈트, 또는 통제된 실험실 환경이 필요했다.

자세 추정 기술이 이를 바꿉니다. 일반 이미지와 영상에서 주요 신체 지점을 추출함으로써 컴퓨터가 표준 카메라로 동작을 분석할 수 있게 합니다. 이로 인해 동작 분석이 보다 접근성이 높아지고 확장 가능해지며 실제 환경에서 실용적으로 활용될 수 있습니다.

다음은 자세 추정 기술이 영향을 미칠 수 있는 몇 가지 방법입니다:

안전한 작업장: 비전 기반 시스템을 활용하면 부상 발생 전에 detect 자세, 반복적 긴장 손상 또는 안전하지 않은 물건 들기 기술을 detect 수 있습니다.
더 나은 피트니스 및 스포츠 훈련: 비전 AI 솔루션은 착용형 기기 없이도 사용자에게 즉각적인 피드백을 제공하며, 자세, 균형, 기술을 실시간으로 평가할 수 있습니다.
의료 및 재활: 의료진은 간단한 영상 기록을 통해 원격으로 track 진행 상황, 자세 및 관절 가동 범위를 track 수 있습니다.
상호작용 경험: 자세 추정 기술은 디지털 아바타와 몰입형 환경이 인간의 동작을 정확하게 추적하고 반영하는 것을 용이하게 합니다.

자세 추정 알고리즘의 진화

동작 추정 개념은 수년 전부터 존재해 왔다. 초기 접근법은 단순한 기하학적 모델과 수작업 규칙을 사용했으며, 일반적으로 통제된 환경에서만 작동했다.

예를 들어, 시스템은 사람이 고정된 위치에 가만히 서 있을 때는 잘 작동할 수 있지만, 걷기 시작하거나, 방향을 전환하거나, 실제 장면에서 물체와 상호작용할 때는 제대로 작동하지 못할 수 있습니다. 이러한 방법들은 자연스러운 움직임, 변화하는 카메라 각도, 복잡한 배경, 부분적인 가림 현상 등에 종종 어려움을 겪었습니다.

현대적인 자세 추정 기술은 이러한 과제들을 해결하기 위해 딥러닝에 의존합니다. 대규모 라벨링 데이터셋으로 컨볼루션 신경망을 훈련시킴으로써, 모델은 다양한 자세, 사람, 환경에 걸쳐 detect 보다 안정적으로 detect 데 도움이 되는 시각적 패턴을 학습합니다.

더 많은 예시를 통해 모델은 예측 정확도를 높이고 새로운 장면에 대한 일반화 능력을 향상시킵니다. 이러한 발전 덕분에 자세 추정 기술은 이제 작업장 모니터링 및 인체공학, 코치와 분석가가 선수들의 움직임을 연구하는 스포츠 분석 등 다양한 실용적 용도를 지원합니다.

자세 추정 기법의 종류

자세 추정에는 설정과 측정 대상에 따라 몇 가지 다른 형태가 있습니다. 주로 접하게 될 주요 유형은 다음과 같습니다:

2D 자세 추정: 이 접근법은 2차원 이미지 또는 비디오 프레임에서 신체 주요 지점을 감지합니다. 표준 카메라와 잘 호환되며 계산 효율성이 높아 기본적인 동작 추적, 자세 분석, 실시간 동작 피드백과 같은 작업에 적합합니다.
3D 자세 추정: 이미지 좌표에 더해 깊이를 추정함으로써, 3D 자세 추정은 신체 움직임에 대한 공간적 이해를 제공합니다. 이는 스포츠 분석, 재활, 생체역학, 애니메이션 등 전진 및 후진 동작이 중요한 경우에 특히 유용합니다. 구체적으로, 3D 인간 자세 추정 기술은 3차원 공간에서 관절 위치와 움직임을 포착하여 2차원 투영에서 발생할 수 있는 모호성을 줄입니다.
단일인물 자세 추정: 이러한 시스템은 한 번에 track 개인을 track 설계되었습니다. 가이드 운동 애플리케이션, 화상 통화 또는 동작 분석 설정과 같이 피사체가 명확하게 보이는 통제된 환경이나 반통제 환경에서 가장 우수한 성능을 발휘하는 경향이 있습니다.
다중 인물 자세 추정: 여러 사람이 등장하는 장면을 위해 설계된 이 접근법은 동시에 여러 개인의 자세를 감지하고 추적합니다. 특히 직장, 체육관, 공공장소, 단체 활동과 같이 피사체가 서로 겹치거나 가려질 수 있는 복잡한 환경에서 유용합니다.

‍

그림 3. 3차원 공간과 2차원 이미지 공간에서의 인간 동작 이해 (출처)

인간 자세 추정 모델의 작동 원리 이해

자세 추정 기술은 다양한 종류의 대상에 적용될 수 있지만, 설명을 단순화하기 위해 인간 자세 추정에 집중해 보겠습니다.

대부분의 인간 자세 추정 시스템은 주요 신체 부위가 대규모 이미지 및 비디오 프레임 컬렉션에 걸쳐 라벨링된 주석이 달린 데이터셋으로 훈련됩니다. 이러한 예시를 통해 모델은 어깨, 팔꿈치, 엉덩이, 무릎, 발목과 같은 인체 랜드마크와 연결된 시각적 패턴을 학습하여 새로운 장면에서 키포인트를 정확하게 예측할 수 있습니다.

또 다른 핵심 요소는 모델의 추론 아키텍처로, 이는 키포인트를 탐지하고 이를 완전한 포즈로 조합하는 방식을 결정합니다. 일부 시스템은 먼저 detect 인물을 detect 후 해당 인물 영역 내에서 키포인트를 추정하는 반면, 다른 시스템은 전체 이미지에서 detect 후 이를 개인별로 그룹화합니다. 최신 단일 단계 설계는 포즈를 한 번에 예측할 수 있어 속도와 정확도의 균형을 유지하며 실시간 사용에 적합합니다.

다음으로, 다양한 자세 추정 접근법을 자세히 살펴보겠습니다.

하향식 자세 추정

하향식 접근법에서 모델은 전체 이미지를 살펴보고 먼저 머리, 어깨, 팔꿈치, 엉덩이, 무릎, 발목과 같은 신체 키포인트를 찾습니다. 이 단계에서는 사람을 분리하려고 하지 않습니다. 단순히 장면 전체에 걸쳐 포즈 스켈레톤으로 정의된 모든 키포인트 또는 신체 관절을 탐지할 뿐입니다.

그 후 시스템은 두 번째 단계로 점들을 연결합니다. 서로 속한 키포인트를 연결하고 이를 완전한 스켈레톤으로 그룹화하며, 사람마다 하나씩 생성합니다. detect 개인을 먼저 detect 필요가 없기 때문에, 하향식 접근법은 사람들이 겹치거나 크기가 다르게 나타나거나 부분적으로 가려진 혼잡한 장면에서 종종 효과적입니다.

탑다운 자세 감지

반면, 하향식 시스템은 먼저 이미지 내 각 인물을 감지하는 것으로 시작합니다. 이들은 모든 개인 주위에 경계 상자를 배치하고 각 상자를 분석할 독립된 영역으로 취급합니다.

사람이 분리되면 모델은 해당 영역 내의 신체 키포인트를 예측합니다. 이 단계별 설정은 특히 장면에 사람이 소수이고 각 사람이 선명하게 보일 때 매우 정확한 결과를 자주 산출합니다.

단일 단계 또는 하이브리드 자세 추정

단일 단계 모델(때로는 하이브리드 모델이라고도 함)은 한 번의 처리로 포즈를 예측합니다. 사람 검출을 먼저 실행하고 키포인트 추정을 나중에 실행하는 대신, 사람 위치와 신체 키포인트를 동시에 출력합니다.

모든 작업이 단일 모듈 내에서 수행되기 때문에 이러한 모델은 일반적으로 더 빠르고 효율적이며, 이는 실시간 모션 추적 및 모션 캡처와 같은 실시간 용도에 매우 적합합니다.YOLO11 같은 모델은 이러한 개념을 바탕으로YOLO11 속도와 신뢰할 수 있는 키포인트 예측 간의 균형을 목표로 합니다.

자세 추정 모델의 훈련 및 평가

사용하는 접근 방식에 관계없이, 자세 추정 모델은 실제 환경에서 신뢰할 수 있게 되기 전에 신중하게 훈련 및 테스트되어야 합니다. 일반적으로 신체 주요 지점이 라벨링된 대규모 이미지(때로는 동영상) 세트로부터 학습하여 다양한 자세, 카메라 각도 및 환경을 처리하는 데 도움을 줍니다.

잘 알려진 자세 추정 데이터셋으로는 COCO , MPII Human Pose, CrowdPose, OCHuman 등이 있습니다. 이러한 데이터셋이 모델이 실제 배포 환경에서 마주할 조건을 반영하지 못할 경우, 엔지니어들은 공장 현장, 체육관, 진료소 등 대상 환경에서 추가 이미지를 수집하고 라벨링하는 경우가 많습니다.

‍

훈련 후 모델의 성능은 표준 벤치마크를 통해 평가되어 정확도와 견고성을 측정하고 실제 사용을 위한 추가 튜닝을 안내합니다. 결과는 일반적으로 mAP( mean average precision)로 보고되며, 이는 예측된 포즈를 라벨링된 진실 데이터와 비교하여 다양한 신뢰도 임계값에 걸친 성능을 종합적으로 요약합니다.

많은 자세 벤치마크에서 예측된 자세는 객체 키포인트 유사도(OKS)를 사용하여 실제 자세와 일치됩니다. OKS는 예측된 키포인트가 주석 처리된 키포인트와 얼마나 가까운지를 측정하며, 사람의 크기나 각 키포인트의 전형적인 위치 파악 난이도 같은 요소를 고려합니다.

포즈 모델은 탐지된 사람과 개별 키포인트에 대한 신뢰도 점수도 출력합니다. 이 점수는 모델의 신뢰도를 반영하며 예측 결과의 순위 지정 및 필터링에 사용됩니다. 이는 가림 현상, 모션 블러, 비정상적인 카메라 각도 등 까다로운 조건에서 특히 중요합니다.

자세 분석 및 추정의 실제 적용 사례

자세 추정 기술은 평범한 영상을 유용한 동작 분석 자료로 전환하는 데 점점 더 많이 활용되고 있다. 프레임별로 신체 주요 지점을 추적함으로써, 이러한 시스템은 카메라 영상으로부터 자세, 동작 및 신체적 행동을 추론할 수 있어 다양한 실제 환경에서 실용적인 기술로 자리매김하고 있다.

예를 들어, 의료 및 재활 분야에서 자세 추적 기술은 치료사와 재활 전문가가 환자의 치료 및 회복 과정 중 움직임을 관찰하고 측정하는 데 도움을 줄 수 있습니다. 일반적인 영상 기록에서 신체 랜드마크를 추출함으로써, 시간 경과에 따른 자세, 가동 범위 및 전반적인 움직임 패턴을 평가하는 데 활용될 수 있습니다. 이러한 측정값은 기존 임상 평가를 보완하고 최적화할 수 있으며, 경우에 따라 웨어러블 센서나 특수 장비 없이도 track 쉽게 만들어줍니다.

마찬가지로 스포츠 및 방송 분야에서도 자세 추정 기술은 영상 피드에서 운동선수의 움직임을 직접 분석할 수 있습니다. 흥미로운 사례로는 프로 스포츠에서 심판 판정 및 방송 그래픽에 활용되는 카메라 기반 추적 시스템인 호크아이(Hawk-Eye)가 있습니다. 이 시스템은 카메라 시점에서 운동선수의 신체 주요 지점을 추정하여 골격 추적 기능도 제공합니다.

적합한 자세 추정 도구 선택하기

적합한 자세 추정 도구를 선택하려면 컴퓨터 비전 프로젝트의 요구 사항을 이해하는 것부터 시작해야 합니다. 일부 애플리케이션은 실시간 속도를 우선시하는 반면, 다른 애플리케이션은 더 높은 정확도와 세부 사항을 요구합니다.

대상 배포 장치도 차이를 만듭니다. 모바일 앱과 엣지 디바이스는 일반적으로 가볍고 효율적인 모델을 필요로 하는 반면, 더 큰 모델은 서버나 클라우드 환경에 더 적합한 경우가 많습니다.

이 외에도 사용 편의성이 중요한 역할을 할 수 있습니다. 훌륭한 문서화, 원활한 배포, 맞춤형 훈련 지원은 프로젝트를 효율적으로 진행하는 데 도움이 됩니다.

간단히 말해, 각기 다른 도구는 서로 다른 영역에서 뛰어난 성능을 발휘합니다. 예를 들어, Ultralytics YOLO 실제 포즈 추정 애플리케이션 다수에서 속도, 정확도, 배포 용이성 간의 실용적인 균형을 제공합니다.

그림 5. Ultralytics YOLO11 이용한 동물 자세 추정YOLO11 출처)

주요 내용

자세 추정 기술은 이미지와 영상에서 인체의 주요 지점을 탐지함으로써 컴퓨터가 인간의 움직임을 이해하도록 돕습니다. YOLO11 YOLO26과 같은 모델은 스포츠, 의료, 작업장 안전, 인터랙티브 경험 등 다양한 분야의 실시간 애플리케이션 구축을 용이하게 합니다. 모델의 속도와 정확도가 지속적으로 향상됨에 따라 자세 추정 기술은 향후 많은 비전 AI 시스템에서 보편적인 기능으로 자리 잡을 전망입니다.

인공지능에 대해 더 알고 싶으신가요? 저희 커뮤니티와 GitHub 저장소를 확인해 보세요. 로봇 공학에서의 인공지능과 제조업에서의 컴퓨터 비전에 대해 알아보려면 솔루션 페이지를 살펴보세요. 라이선싱 옵션을 확인하고 지금 바로 컴퓨터 비전으로 개발을 시작하세요!

포즈 추정 도구에 대한 궁극의 가이드

포즈 추정이란 무엇입니까?

자세 추정 도구의 필요성

자세 추정 알고리즘의 진화

자세 추정 기법의 종류

인간 자세 추정 모델의 작동 원리 이해

하향식 자세 추정

탑다운 자세 감지

단일 단계 또는 하이브리드 자세 추정

자세 추정 모델의 훈련 및 평가

인기 있는 자세 추정 도구 및 라이브러리

자세 분석 및 추정의 실제 적용 사례

적합한 자세 추정 도구 선택하기

주요 내용

이 카테고리에서 더 읽어보기

단안 깊이 추정이란 무엇인가? 개요

이미지 컴퓨팅이란 무엇인가? 간략한 소개

템플릿 매칭이란 무엇인가? 간단한 안내서

함께 미래의 AI를 만들어 갑시다!