포즈 추정 도구에 대한 궁극적인 가이드
포즈 추정 도구를 사용하여 이미지 및 비디오에서 신체 핵심 포인트를 탐지하고, 2D 및 3D 포즈를 추정하며, 다양한 비전 AI 애플리케이션을 구동하는 방법을 알아보십시오.

인간은 본능적으로 움직임을 읽어냅니다. 누군가 몸을 앞으로 숙이거나, 고개를 돌리거나, 팔을 들어 올리면 우리는 즉시 그들이 무엇을 하고 있는지 추론할 수 있습니다. 이는 우리가 사람들과 교류하고 세상을 탐색하는 방식을 형성하는 조용하고 거의 잠재의식적인 기술입니다.
기술이 일상의 더 큰 부분이 됨에 따라, 우리 기기들도 우리만큼이나 원활하게 움직임을 이해하기를 바라는 것은 당연합니다. 인공지능, 특히 딥러닝 기반의 최근 발전이 이를 가능하게 만들고 있습니다. 특히 computer vision은 기계가 이미지와 비디오에서 의미를 추출하도록 돕고 이러한 발전을 주도하고 있습니다.
예를 들어, 포즈 추정은 이미지나 비디오 프레임 내에서 미리 정의된 신체 키포인트(어깨, 팔꿈치, 골반, 무릎 등)의 위치를 예측하는 일반적인 컴퓨터 비전 작업입니다. 이러한 키포인트들은 고정된 스켈레톤 정의를 사용하여 연결됨으로써 단순화된 포즈 표현을 형성할 수 있습니다.
Ultralytics YOLO11 및 곧 출시될 Ultralytics YOLO26과 같은 컴퓨터 비전 모델들은 포즈 추정과 같은 작업을 지원하며, 피트니스 및 스포츠 분야의 자세 피드백, 안전 모니터링, 대화형 증강 현실 경험을 포함한 실시간 애플리케이션을 구동하는 데 사용될 수 있습니다.

그림 1. 포즈 추정에 Ultralytics YOLO11을 사용하는 모습 (출처)
이 글에서는 포즈 추정 도구에 대해 심층적으로 살펴보고, 포즈 추정이 어떻게 작동하는지, 어디에 사용되는지, 그리고 오늘날 이용 가능한 최고의 모델과 라이브러리들에는 어떤 것들이 있는지 알아보겠습니다. 시작해 봅시다!
Link to this section포즈 추정이란 무엇인가요?#
Pose estimation은 시스템이 이미지나 비디오 내에서 사람이나 객체의 위치를 이해하도록 돕는 컴퓨터 비전 기술입니다. 모든 픽셀을 동일하게 분석하는 대신, 머리, 어깨, 팔꿈치, 골반, 무릎, 발목과 같은 일관된 랜드마크 세트를 예측합니다.
대부분의 모델은 이러한 키포인트의 좌표와 각 예측이 정확할 확률을 나타내는 점수를 출력합니다. 이러한 키포인트들은 미리 정의된 스켈레톤 레이아웃을 사용하여 연결함으로써 간단한 포즈 표현을 형성할 수 있습니다.
비디오에서 프레임별로 적용하면, 결과로 나온 키포인트들을 시간 흐름에 따라 연관시켜 움직임을 추정할 수 있습니다. 이는 자세 교정, 움직임 분석, 제스처 기반 상호작용과 같은 애플리케이션을 가능하게 합니다.

그림 2. 포즈 추정의 예시 (출처)
Link to this section포즈 추정 도구가 필요한 이유#
인간의 움직임에는 많은 정보가 담겨 있습니다. 누군가 몸을 구부리거나, 손을 뻗거나, 체중을 이동하는 방식은 의도, 노력, 피로, 심지어 부상 위험까지 드러낼 수 있습니다. 최근까지 그러한 수준의 세부 정보를 캡처하려면 일반적으로 특수 센서, 모션 캡처 수트 또는 통제된 실험실 환경이 필요했습니다.
포즈 추정은 이를 변화시킵니다. 일반 이미지와 비디오에서 신체 주요 랜드마크를 추출함으로써 컴퓨터는 표준 카메라를 사용하여 움직임을 분석할 수 있게 됩니다. 이는 움직임 분석을 더욱 접근 가능하고 확장 가능하며 실제 환경에서 실용적으로 사용할 수 있게 합니다.
포즈 추정이 영향을 미칠 수 있는 몇 가지 방법은 다음과 같습니다:
- 더 안전한 작업 환경: 비전 기반 시스템을 사용하면 부상이 발생하기 전에 위험한 자세, 반복적인 긴장 또는 안전하지 않은 리프팅 기술을 감지할 수 있습니다.
- 더 나은 피트니스 및 스포츠 훈련: 비전 AI 솔루션은 실시간으로 자세, 균형, 기술을 평가하여 웨어러블 기기 없이도 사용자에게 즉각적인 피드백을 제공할 수 있습니다.
- 의료 및 재활: 임상의들은 간단한 비디오 녹화본을 사용하여 원격으로 회복 과정, 자세, 관절 가동 범위를 추적할 수 있습니다.
- 대화형 경험: 포즈 추정을 통해 디지털 아바타와 몰입형 환경이 인간의 움직임을 정확하게 따라가고 반영하기가 더 쉬워집니다.
Link to this section포즈 추정 알고리즘의 진화#
포즈를 추정한다는 아이디어는 수년 동안 존재해 왔습니다. 초기 접근 방식은 단순한 기하학적 모델과 수작업으로 만든 규칙을 사용했으며, 일반적으로 통제된 환경에서만 작동했습니다.
예를 들어, 시스템은 사람이 고정된 위치에 가만히 서 있을 때는 잘 작동할 수 있지만, 걷기 시작하거나 회전하거나 실제 환경에서 객체와 상호작용하기 시작하면 성능이 저하될 수 있습니다. 이러한 방법들은 종종 자연스러운 움직임, 변하는 카메라 각도, 복잡한 배경 및 부분적인 가림 현상(occlusion)으로 인해 어려움을 겪었습니다.
현대적인 포즈 추정은 이러한 문제들을 해결하기 위해 딥러닝에 의존합니다. 대규모 라벨링된 데이터셋에서 컨볼루션 신경망을 훈련함으로써, 모델은 다양한 포즈, 사람, 환경 전반에서 키포인트를 보다 안정적으로 감지하는 데 도움이 되는 시각적 패턴을 학습합니다.
더 많은 예시를 통해 모델은 예측을 개선하고 새로운 환경으로 일반화하는 능력이 향상됩니다. 이러한 발전 덕분에 포즈 추정은 이제 작업장 모니터링 및 인체공학, 코치와 분석가가 선수의 움직임을 연구하는 스포츠 분석을 포함한 광범위한 실제 사용 사례를 지원합니다.
Link to this section포즈 추정 기술의 유형#
포즈 추정은 환경과 측정해야 할 항목에 따라 몇 가지 다른 형태로 제공됩니다. 여러분이 접하게 될 주요 유형은 다음과 같습니다:
- 2D 포즈 추정: 이 접근 방식은 2차원 이미지 또는 비디오 프레임에서 신체 키포인트를 감지합니다. 표준 카메라와 잘 작동하며 계산 효율성이 뛰어나 기본적인 움직임 추적, 자세 분석, 실시간 자세 피드백과 같은 작업에 적합합니다.
- 3D 포즈 추정: 이미지 좌표 외에도 깊이(depth)를 추정함으로써, 3D 포즈 추정은 신체 움직임에 대한 공간적 이해를 제공합니다. 이는 스포츠 분석, 재활, 생체 역학 및 애니메이션과 같이 전후 움직임이 중요할 때 특히 유용합니다. 구체적으로 3D 인간 포즈 추정은 3D 공간에서의 관절 위치와 움직임을 캡처하여 2D 투영 시 발생할 수 있는 모호성을 줄여줍니다.
- 단일 사람(Single-person) 포즈 추정: 이 시스템들은 한 번에 한 명의 개인을 추적하도록 설계되었습니다. 가이드 운동 애플리케이션, 화상 통화 또는 모션 분석 설정과 같이 피사체가 명확하게 보이는 통제되거나 반쯤 통제된 환경에서 가장 잘 작동하는 경향이 있습니다.
- 다중 사람(Multi-person) 포즈 추정: 여러 사람이 있는 장면을 위해 구축된 이 접근 방식은 동시에 여러 개인의 포즈를 감지하고 추적합니다. 이는 피사체들이 겹치거나 서로 가릴 수 있는 작업장, 체육관, 공공 장소 및 그룹 활동과 같이 바쁜 환경에서 특히 유용합니다.

그림 3. 3D 공간과 2D 이미지 공간에서의 인간 동작 이해 (출처)
Link to this section인간 포즈 추정 모델이 작동하는 방식 이해하기#
포즈 추정은 많은 종류의 객체에 적용될 수 있지만, 간단하게 하기 위해 인간 포즈 추정에 집중해 보겠습니다.
대부분의 인간 포즈 추정 시스템은 대규모 이미지 및 비디오 프레임 컬렉션 전반에 걸쳐 신체 주요 부위가 라벨링된 주석 데이터셋으로 훈련됩니다. 이러한 예시들을 사용하여, 모델은 어깨, 팔꿈치, 골반, 무릎, 발목과 같은 인간 신체 랜드마크와 관련된 시각적 패턴을 학습하므로 새로운 장면에서도 키포인트를 정확하게 예측할 수 있습니다.
또 다른 핵심 요소는 모델의 추론 아키텍처이며, 이는 키포인트를 감지하고 이를 전체 포즈로 조립하는 방식을 결정합니다. 일부 시스템은 먼저 각 사람을 감지한 다음 각 사람의 영역 내에서 키포인트를 추정하는 반면, 다른 시스템은 전체 이미지에서 키포인트를 감지한 다음 이를 개인별로 그룹화합니다. 더 새로운 단일 단계 설계는 한 번의 패스로 포즈를 예측할 수 있어, 실시간 사용을 위해 속도와 정확성의 균형을 맞춥니다.
다음으로, 다양한 포즈 추정 접근 방식을 자세히 살펴보겠습니다.
Link to this section바텀업(Bottom-up) 포즈 추정#
바텀업 접근 방식에서 모델은 전체 이미지를 보고 머리, 어깨, 팔꿈치, 골반, 무릎, 발목과 같은 신체 키포인트를 먼저 찾습니다. 이 단계에서는 사람들을 분리하려고 하지 않습니다. 단순히 장면 전체에 걸쳐 포즈 스켈레톤에 의해 정의된 모든 키포인트나 신체 관절을 감지합니다.
그 후, 시스템은 점들을 연결하는 두 번째 단계를 수행합니다. 함께 속하는 키포인트들을 링크하고 이를 사람당 하나씩 완전한 스켈레톤으로 그룹화합니다. 먼저 각 사람을 감지할 필요가 없기 때문에, 바텀업 방법은 사람들이 겹치거나, 다른 크기로 나타나거나, 부분적으로 가려진 혼잡한 장면에서 종종 잘 작동합니다.
Link to this section탑다운(Top-down) 포즈 감지#
이와 대조적으로 탑다운 시스템은 먼저 이미지 속의 각 사람을 감지하는 것으로 시작합니다. 모든 개인 주위에 bbox를 배치하고 각 상자를 분석할 고유 영역으로 처리합니다.
사람이 분리되면, 모델은 해당 영역 내의 신체 키포인트를 예측합니다. 이 단계별 설정은 특히 장면에 사람이 적고 각 사람이 명확하게 보일 때 매우 정확한 결과를 생성하는 경우가 많습니다.
Link to this section단일 단계(Single-stage) 또는 하이브리드 포즈 추정#
단일 단계, 때로는 하이브리드라고 불리는 모델들은 한 번의 패스로 포즈를 예측합니다. 먼저 사람 감지를 실행하고 두 번째로 키포인트 추정을 수행하는 대신, 사람 위치와 신체 키포인트를 동시에 출력합니다.
모든 것이 단일 모듈에서 일어나기 때문에, 이 모델들은 종종 더 빠르고 효율적이어서 실시간 동작 추적 및 모션 캡처와 같은 실시간 사용 사례에 매우 적합합니다. Ultralytics YOLO11과 같은 모델들은 이 아이디어를 중심으로 구축되어, 신뢰할 수 있는 키포인트 예측과 속도 사이의 균형을 맞추는 것을 목표로 합니다.
Link to this section포즈 추정 모델 훈련 및 평가#
사용된 접근 방식에 관계없이, 포즈 추정 모델은 실제 환경에서 신뢰할 수 있기 전에 여전히 신중하게 훈련되고 테스트되어야 합니다. 일반적으로 신체 키포인트가 라벨링된 대규모 이미지(때로는 비디오) 세트로부터 학습하며, 이를 통해 다양한 포즈, 카메라 각도 및 환경을 처리하는 데 도움을 받습니다.
잘 알려진 pose estimation datasets으로는 COCO Keypoints, MPII Human Pose, CrowdPose, OCHuman이 있습니다. 이러한 데이터셋이 모델이 배포 시 직면하게 될 조건을 반영하지 못할 때, 엔지니어들은 공장 현장, 체육관 또는 진료실과 같은 대상 설정에서 추가 이미지를 수집하고 라벨링하는 경우가 많습니다.

그림 4. 컴퓨터 비전을 사용하여 추정 중인 다양한 포즈 (출처)
훈련 후, 모델의 성능은 정확성과 견고성을 측정하고 실제 사용을 위한 추가 튜닝을 안내하기 위해 표준 벤치마크에서 평가됩니다. 결과는 종종 mean average precision, 흔히 mAP라고 불리는 지표를 사용하여 보고되며, 이는 예측된 포즈를 라벨링된 정답(ground truth)과 비교하여 다양한 신뢰도 임계값 전반의 성능을 요약합니다.
많은 포즈 벤치마크에서 예측된 포즈는 Object Keypoint Similarity (OKS)를 사용하여 정답 포즈와 일치됩니다. OKS는 사람의 척도 및 각 키포인트의 일반적인 위치 파악 난이도와 같은 요소를 고려하면서, 예측된 키포인트가 라벨링된 키포인트에 얼마나 가까운지를 측정합니다.
포즈 모델은 또한 감지된 사람과 개별 키포인트에 대한 신뢰도 점수를 출력합니다. 이러한 점수들은 모델의 신뢰도를 반영하며, 가림 현상(occlusion), 모션 블러 또는 일반적이지 않은 카메라 각도와 같은 어려운 상황에서 특히 중요한 예측 순위를 매기고 필터링하는 데 사용됩니다.
Link to this section인기 있는 포즈 추정 도구 및 라이브러리#
오늘날 많은 포즈 추정 도구를 이용할 수 있으며, 각각 속도, 정확성, 사용 편의성 사이에서 균형을 맞추고 있습니다. 가장 널리 사용되는 도구와 라이브러리들은 다음과 같습니다:
- Ultralytics YOLO11: 최첨단 오픈 소스 비전 AI 모델로 개발된 YOLO11은 Ultralytics YOLOv8과 같은 이전 모델들을 기반으로 합니다. 이는 속도, 정확성, 전반적인 효율성을 향상시키는 동시에 포즈 추정을 포함한 다양한 컴퓨터 비전 작업을 지원합니다. 노트북에서 엣지 기기에 이르기까지 플랫폼 전반에서 뛰어난 성능을 보여주는 YOLO11은 많은 실제 배포 환경을 위한 훌륭한 옵션입니다.
- Ultralytics YOLO26: 이 차세대 모델은 더 가볍고, 작고, 빠르게 설계되었으면서도 강력한 정확도를 유지하도록 의도되었습니다. 실시간 사용과 더 쉬운 배포를 위해 구축되었으며, 엣지 기기부터 더 큰 시스템에 이르기까지 모든 것에 적합한 모델 크기로 객체 감지, 인스턴스 세그멘테이션, 포즈 추정 작업을 지원합니다.
- MediaPipe: 비전 및 머신러닝 파이프라인 구축을 위한 크로스 플랫폼 프레임워크입니다. 가볍고 모바일 기기, 태블릿 및 웹 앱에서 효율적으로 실행되며, 전신 포즈, 얼굴 랜드마크 및 손 추적을 위한 바로 사용 가능한 솔루션과 모델을 포함하고 있습니다.
- OpenPose: 이 엔드투엔드 오픈 소스 포즈 추정 시스템은 다중 사람 키포인트 감지로 널리 알려져 있습니다. 신체, 손, 얼굴 키포인트를 함께 추정할 수 있으며 연구, 애니메이션 및 모션 분석에 일반적으로 사용됩니다.
- MMPose: MMPose는 OpenMMLab 생태계에서 제공하는 PyTorch 기반 포즈 추정 툴킷입니다. 실험 및 심층적인 사용자 정의에 유용한 많은 모델 구현, 훈련 유틸리티 및 구성 옵션을 제공합니다.
- HRNet 및 AlphaPose: 이들은 오늘날 연구에서 여전히 사용되는 이전 포즈 추정 모델들입니다. HRNet은 네트워크 전반에 걸쳐 고해상도 이미지 특징을 유지하는 포즈 모델 아키텍처로, 키포인트를 정확하게 위치시키는 데 도움이 됩니다. AlphaPose는 널리 사용되는 다중 사람 포즈 추정 시스템으로, 혼잡하거나 복잡한 장면에서 높은 정확도가 필요할 때 일반적으로 사용됩니다.
Link to this section포즈 분석 및 추정의 실제 응용 사례#
포즈 추정은 일반 비디오를 유용한 움직임 인사이트로 전환하는 데 점점 더 많이 사용되고 있습니다. 프레임별로 신체 키포인트를 추적함으로써, 이러한 시스템들은 카메라 피드에서 자세, 움직임, 신체 행동을 추론할 수 있으며, 이는 많은 실제 환경에서 그러한 기술을 실용적으로 만듭니다.
예를 들어, 의료 및 재활 분야에서 포즈 추적은 임상의가 환자가 치료와 회복 중에 어떻게 움직이는지 보고 측정하는 데 도움을 줄 수 있습니다. 일반적인 비디오 녹화본에서 신체 랜드마크를 추출함으로써 시간 경과에 따른 자세, 관절 가동 범위, 전반적인 움직임 패턴을 평가하는 데 사용할 수 있습니다. 이러한 측정값은 전통적인 임상 평가를 지원하고 최적화할 수 있으며, 경우에 따라 웨어러블 센서나 특수 장비 없이도 진행 상황을 추적하기 쉽게 만들어 줍니다.
유사하게, 스포츠 및 방송 분야에서 포즈 추정은 비디오 피드로부터 직접 선수의 움직임을 분석할 수 있습니다. 흥미로운 예로 심판 판정 및 방송 그래픽을 위해 프로 스포츠에서 사용되는 카메라 기반 추적 시스템인 Hawk-Eye가 있습니다. 이 시스템은 카메라 뷰로부터 선수의 신체 키포인트를 추정하여 스켈레톤 추적도 제공합니다.
Link to this section적절한 포즈 추정 도구 선택하기#
적절한 포즈 추정 도구를 선택하는 것은 컴퓨터 비전 프로젝트의 요구 사항을 이해하는 것에서 시작합니다. 일부 애플리케이션은 실시간 속도를 우선시하는 반면, 다른 애플리케이션은 더 높은 정확도와 세부 정보를 요구합니다.
대상 배포 기기 또한 차이를 만듭니다. 모바일 앱과 엣지 기기는 일반적으로 가볍고 효율적인 모델이 필요한 반면, 더 큰 모델들은 서버나 클라우드 환경에 더 적합한 경우가 많습니다.
이 외에도 사용 편의성이 중요한 역할을 할 수 있습니다. 좋은 문서화, 원활한 배포, 사용자 정의 훈련 지원은 여러분의 프로젝트를 간소화할 수 있습니다.
간단히 말해서, 도구마다 뛰어난 분야가 다릅니다. 예를 들어, Ultralytics YOLO models은 많은 실제 포즈 추정 애플리케이션에 대해 속도, 정확성, 배포 용이성의 실용적인 균형을 제공합니다.

그림 5. Ultralytics YOLO11을 사용한 동물 포즈 추정 (출처)
Link to this section핵심 요약#
포즈 추정은 이미지와 비디오에서 신체 키포인트를 감지하여 컴퓨터가 인간의 움직임을 이해하도록 돕습니다. YOLO11 및 YOLO26과 같은 모델들은 스포츠, 의료, 작업장 안전 및 대화형 경험과 같은 분야를 위한 실시간 애플리케이션 구축을 더 쉽게 만듭니다. 모델들이 계속해서 더 빠르고 정확해짐에 따라, 포즈 추정은 많은 비전 AI 시스템의 일반적인 기능이 될 가능성이 높습니다.
AI에 대해 더 알고 싶으신가요? 저희 community와 GitHub repository를 확인해 보세요. AI in robotics와 computer vision in manufacturing에 대해 알아보려면 솔루션 페이지를 탐색해 보세요. our licensing 옵션을 확인하고 지금 바로 컴퓨터 비전으로 구축을 시작해 보세요!






