OpenPose란 무엇인가요? 포즈 추정의 기초

오늘날 이미지와 카메라는 휴대폰, 가정, 공공장소 등 어디에나 내장되어 있습니다. 우리는 단순히 순간을 포착하는 것뿐만 아니라 주변 세계를 이해하고 상호 작용하는 데에도 의존합니다.

인공지능(AI)의 하위 분야인 컴퓨터 비전은 기계가 시각적 데이터를 해석할 수 있게 함으로써 이를 가능하게 합니다. 컴퓨터 비전은 시스템이 물체를 detect , 얼굴을 인식하고, 움직임을 track 수 있게 해주며, 우리가 매일 사용하는 많은 기술에서 핵심적인 역할을 합니다.

AI의 최근 발전 덕분에 컴퓨터 비전 모델은 이제 더 복잡한 데이터와 통찰력을 분석하고 추출할 수 있습니다. 이에 대한 한 가지 예는 인간의 움직임을 이해하는 데 중점을 둔 컴퓨터 비전 작업인 자세 추정입니다.

이미지나 비디오에서 어깨, 팔꿈치, 무릎과 같은 신체의 주요 지점을 식별하여 작동합니다. 이를 통해 사람들의 움직임을 분석할 수 있어 피트니스 추적, 애니메이션, 헬스케어 등 다양한 애플리케이션이 가능합니다.

포즈 추정을 위해 개발된 많은 도구 중에서 OpenPose는 주요 혁신으로 두드러집니다. Carnegie Mellon University의 Perceptual Computing Lab 연구원들이 만든 이 시스템은 카메라만 사용하여 실시간으로 여러 사람의 손, 발, 얼굴 키포인트를 포함한 전신 포즈를 감지할 수 있는 최초의 오픈 소스 시스템 중 하나였습니다(사람당 최대 135개의 키포인트).

이번 글에서는 OpenPose, 작동 방식, 그리고 컴퓨터 비전의 이정표로서의 중요성에 대해 살펴보겠습니다.

‍

포즈 추정의 역사 살펴보기

AI가 널리 채택되기 전에는 비디오에서 사람의 움직임을 추적하려면 특수 장비를 사용해야 했습니다. 영화 및 애니메이션과 같은 산업에서는 배우들이 반사 마커가 있는 옷을 입고 카메라가 통제된 스튜디오 환경에서 그들의 움직임을 캡처할 수 있도록 했습니다.

이러한 마커 기반 모션 캡처 기술은 정확하지만 비용이 많이 들고 특정 설정으로 제한되었습니다. 컴퓨터 비전이 발전함에 따라 연구자들은 마커를 사용하지 않고도 신체 움직임을 track 수 있는 방법을 모색했습니다. 연구자들은 가장자리, 윤곽선, 템플릿을 사용하여 이미지에서 사람의 모양을 찾았습니다.

이러한 초기 시스템은 간단하고 직접적인 인스턴스에서는 작동했지만 실제 시나리오에서는 어려움을 겪었습니다. 사람들의 움직임이 예상치 못한 방식으로 움직이거나 프레임에 두 명 이상의 사람이 나타날 때 종종 좋지 않은 결과를 보였습니다.

2010년대 후반에 딥러닝은 자세 추정에 큰 변화를 가져왔습니다. 비전 AI 모델은 대규모 인체 자세 데이터 세트에 대해 훈련할 수 있었습니다. 모델은 가장자리와 템플릿에 의존하는 대신 수천 개의 레이블이 지정된 이미지를 연구하여 신체 관절과 구조를 인식하는 방법을 학습했습니다. 이를 통해 자세 추정이 더욱 정확하고 유연해졌으며 더 넓은 범위의 설정에서 영향력을 발휘할 수 있게 되었습니다.

Fig 2. 2017년부터 2023년까지의 인체 자세 추정 모델의 발전 과정입니다.

‍

OpenPose: 현대적인 자세 추정 기술이 시작된 곳

OpenPose는 2017년에 처음 출시되었으며 단일 이미지에서 여러 사람의 포즈를 동시에 추정할 수 있습니다. 기존 시스템과 달리 OpenPose는 특수 슈트나 마커가 필요하지 않습니다. 표준 카메라와 함께 작동하며 이미지와 비디오를 실시간으로 처리할 수 있습니다. 이러한 기능 덕분에 개발자와 연구자가 포즈 추정에 더 쉽게 접근할 수 있게 되었습니다.

OpenPose가 컴퓨터 비전을 위해 마련한 기반은 다른 사람들이 다양한 다른 애플리케이션을 위한 새로운 아키텍처를 구축하는 데 도움이 되었습니다. 오늘날, Ultralytics YOLO8과 같은 비전 AI 모델과 Ultralytics YOLO11 와 같은 비전 AI 모델은 포즈 추정 작업을 지원하여 더 빠른 결과와 더 짧은 지연 시간을 제공합니다.

‍

하지만 포즈 추정 기술이 어떻게 발전해 왔는지 궁금하다면 OpenPose부터 시작하는 것이 좋습니다. OpenPose는 많은 최신 시스템이 여전히 의존하는 핵심 아이디어를 소개했습니다.

OpenPose의 주요 기능

이제 OpenPose가 왜 중요한지 더 잘 이해했으니, 실제로 무엇을 할 수 있는지 자세히 살펴보겠습니다.

OpenPose 기능의 핵심은 키포인트 감지 기능입니다. 키포인트는 코끝, 어깨 중앙, 팔꿈치, 손목, 엉덩이, 무릎, 발목과 같은 인체의 특정 랜드마크를 말합니다. OpenPose는 손가락과 얼굴 특징과 같은 세부 영역을 포함하여 1인당 최대 135개까지 이러한 지점을 detect 수 있습니다.

이러한 점들이 연결되면 인체의 단순화된 표현이 형성됩니다. 디지털 골격이라고 생각할 수 있습니다. 이 골격 윤곽선은 사람이 어디에 있는지 뿐만 아니라 앉아 있는지, 서 있는지, 손을 흔들고 있는지, 웃고 있는지, 걷고 있는지 등 자세를 보여줍니다. 컴퓨터는 우리가 본능적으로 누군가의 바디 랭귀지를 이해하는 것처럼 이러한 골격을 사용하여 인간의 움직임을 시각적으로 해석할 수 있습니다.

골격 추적은 특히 배경 소음과 방해 요소를 제거하여 시스템이 순전히 사람의 자세와 움직임에 집중할 수 있도록 하므로 유용합니다. OpenPose는 모든 픽셀을 분석하는 대신 사람이 어떻게 움직이거나 상호 작용하는지에 대한 스토리를 알려주는 의미 있는 지점에 집중합니다.

OpenPose는 일상적인 이미지나 비디오에서 이러한 구조화된 정보를 추출하여 제스처에 반응하고, 신체 활동을 모니터링하고, 감정적 신호를 평가하거나, 디지털 캐릭터를 애니메이션화하는 애플리케이션을 구축할 수 있도록 합니다.

OpenPose는 어떻게 작동하나요?

다음은 OpenPose가 시각적 입력에서 인체 주요 지점을 감지하고 연결하는 방법에 대한 개요입니다.

이미지로 시작: OpenPose는 사진, 비디오 또는 라이브 카메라 피드에서 단일 이미지를 가져옵니다.
‍
주요 신체 부위 식별: 이 시스템은 코, 팔꿈치, 손목, 무릎, 발목과 같은 신체의 주요 지점을 찾습니다. 시스템이 특정 신체 부위가 있다고 판단하는 곳마다 표시됩니다.
‍
어떤 부분이 함께 연결되는지 파악: 다음으로 OpenPose는 키포인트가 어떻게 연결되어 있는지 확인합니다. 수학적 계산을 사용하여 어떤 관절이 동일한 사람에 속하는지 결정합니다. 예를 들어 손목을 오른쪽 팔꿈치와 어깨에 일치시키는 것입니다.
‍
각 사람의 골격 그림: 키포인트를 그룹화한 후 OpenPose는 각 사람의 포즈를 보여주는 "막대기 그림"으로 연결합니다. 이는 여러 사람이 동일한 프레임에 나타나는 경우에도 작동합니다.
‍
포즈 데이터 반환: 마지막으로, 감지된 모든 키포인트의 정확한 위치를 제공합니다. 이는 움직임 추적, 제스처 인식 또는 대화형 도구 구축에 실시간으로 사용될 수 있습니다.

Fig 4. OpenPose를 사용한 인체 키포인트 감지 및 추적입니다.

‍

OpenPose를 사용하여 산업 전반에 걸쳐 포즈 추정 애플리케이션

OpenPose는 다양한 실제 사용 사례에 대해 포즈 추정을 실용적으로 만든 최초의 고급 도구 중 하나였습니다. 오늘날 실시간 컴퓨터 비전 솔루션에서 일반적으로 사용되지는 않지만 스포츠, 엔터테인먼트, 교육 및 안전과 같은 분야에서 초기 작업을 형성하는 데 중요한 역할을 했습니다.

이러한 영역에서 어떻게 길을 열었는지 자세히 살펴보겠습니다.

피트니스 및 스포츠를 위한 OpenPose를 이용한 자세 추정

야구를 볼 때 무슨 일이 일어나는지 쉽게 이해할 수 있습니다. 투구, 스윙, 도루를 즉시 알아볼 수 있습니다. 인간으로서 우리는 직관적으로 몸의 움직임을 읽고 큰 노력 없이도 이해합니다. 하지만 기계가 이러한 행동을 인식하는 것은 훨씬 더 복잡합니다. 신체의 각 부분이 공간을 통해 어떻게 움직이는지에 대한 정확한 정보가 필요합니다.

OpenPose는 컴퓨터 비전 분야에서 상당한 진전이었습니다. 다양한 환경에서 운동 자세를 분석하는 데 유용한 도구였습니다.

많은 연구 프로젝트에서 OpenPose를 사용하여 스윙 및 점프와 같은 움직임을 분석하고, 선수들의 움직임에 따라 특정 야구 동작을 분류하기도 했습니다. OpenPose는 표준 비디오를 사용하여 개방된 환경에서 작동하므로 연구원들은 이러한 시스템이 실제 훈련 또는 코칭 시나리오에서 어떻게 작동하는지 테스트할 수 있었습니다.

이러한 초기 연구는 고급 스포츠 기술에 사용되는 성능 추적 도구를 위한 토대를 마련하는 데 도움이 되었습니다.

Fig 5. OpenPose를 사용한 야구 동작 분류 파이프라인의 모습입니다.

‍

보안 및 안전 시스템에서 OpenPose 사용

마찬가지로, 연구원들은 또한 OpenPose를 사용하여 비디오 기반 포즈 추적이 안전 모니터링을 어떻게 지원할 수 있는지 탐구했습니다. 공공 장소에서 넘어짐, 예상치 못한 제스처 또는 움직임 패턴과 같은 행동 감지에서 테스트되었습니다.

OpenPose는 표준 카메라와 함께 작동했기 때문에 병원 및 교통 허브와 같은 환경에서 초기 실험이 더 쉬워졌습니다. 이러한 연구는 현재 감시, 낙상 감지 및 응급 대응 시스템에 사용되는 최신 모델 개발을 촉진하는 데 도움이 되었습니다.

‍

OpenPose의 장단점

다음은 OpenPose가 제공하는 몇 가지 장점입니다.

연구 및 프로토타입 제작에 유용: 특히 인간-컴퓨터 상호 작용, 생체 역학 및 행동 분석과 같은 분야의 학술 연구에서 널리 사용되었습니다.
‍
플랫폼 간 지원: Windows, Linux 및 macOS에서 실행할 수 있으며 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU)를 모두 지원합니다.
‍
오프라인 처리 기능: 인터넷에 연결되지 않은 환경에서 실행할 수 있으므로 의료 또는 교육과 같이 개인 정보 보호에 민감한 설정에 적합합니다.

OpenPose는 중요한 진전이었지만, 염두에 두어야 할 기술적인 제한 사항도 있습니다. 다음은 OpenPose와 관련된 주요 과제 중 일부입니다.

높은 처리 요구 사항: OpenPose를 실시간으로 실행하려면 강력한 GPU 상당한 컴퓨팅 리소스가 필요합니다.
↪cf_200D↩
환경에 민감함: 조명이 어둡거나, 혼잡한 공간이거나, 카메라 각도가 이상적이지 않을 때 성능이 저하될 수 있습니다.
‍
최신 모델에 비해 무거움: 최신 포즈 추정 모델에 비해 OpenPose는 상대적으로 크고 느립니다. 스마트폰, 태블릿 또는 임베디드 시스템과 같이 리소스가 제한된 장치에 배포하는 데 적합하지 않습니다.

주요 내용

OpenPose는 포즈 추정을 보다 쉽게 접근할 수 있도록 하는 데 중요한 역할을 했습니다. 특수 슈트나 장비에 의존하지 않고 간단한 카메라로 신체 움직임을 추적할 수 있음을 보여주었습니다.

이는 헬스케어, 교육, 엔터테인먼트 및 연구 분야에서 많은 실용적인 응용 프로그램의 토대를 마련했습니다. 최신 모델이 더 빠른 속도와 더 가벼운 성능을 제공하지만, OpenPose는 포즈 추정이 어떻게 발전해 왔는지 이해하는 데 중요한 기준점으로 남아 있습니다.

커뮤니티에 참여하고 GitHub 저장소를 방문하여 AI에 대해 자세히 알아보세요. 자체 컴퓨터 비전 솔루션을 구축하려는 경우 라이선스 옵션을 살펴보세요. 또한 헬스케어 분야의 컴퓨터 비전과 물류 분야의 AI가 어떻게 영향을 미치는지 확인해 보세요!

OpenPose란 무엇인가? 자세 추정의 이정표 살펴보기

포즈 추정의 역사 살펴보기

OpenPose: 현대적인 자세 추정 기술이 시작된 곳

OpenPose의 주요 기능

OpenPose는 어떻게 작동하나요?

OpenPose를 사용하여 산업 전반에 걸쳐 포즈 추정 애플리케이션

피트니스 및 스포츠를 위한 OpenPose를 이용한 자세 추정

보안 및 안전 시스템에서 OpenPose 사용

OpenPose의 장단점

주요 내용

이 카테고리에서 더 읽어보기

단안 깊이 추정이란 무엇인가? 개요

이미지 컴퓨팅이란 무엇인가? 간략한 소개

템플릿 매칭이란 무엇인가? 간단한 안내서

함께 미래의 AI를 만들어 갑시다!