YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

Ultralytics YOLO11로 핸드 키포인트 추정 기능 향상

Abirami Vina

6분 소요

2025년 3월 5일

실시간 제스처 인식과 같은 애플리케이션에서 포즈 추정을 지원하는 Ultralytics YOLO11을 통해 AI 기반 손 키포인트 추정을 살펴보세요.

최근 슈퍼볼의 수화 통역사들이 많은 관심을 받았습니다. 좋아하는 아티스트의 노래를 TV에서 부르는 모습을 볼 때, 수화를 안다면 그들의 손동작을 뇌가 처리하기 때문에 이해할 수 있습니다. 하지만 컴퓨터가 똑같이 할 수 있다면 어떨까요? AI 기반 핸드 트래킹 솔루션 덕분에 기계가 놀라운 정확도로 손동작을 추적하고 해석할 수 있습니다.

이러한 솔루션의 핵심은 기계가 시각 정보를 처리하고 이해할 수 있도록 하는 AI의 하위 분야인 컴퓨터 비전입니다. Vision AI는 이미지와 비디오를 분석하여 객체를 감지하고, 움직임을 추적하고, 복잡한 제스처를 놀라운 정확도로 인식하도록 돕습니다.

예를 들어 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 포즈 추정을 사용하여 실시간으로 손의 주요 지점을 탐지하고 분석하도록 훈련할 수 있습니다. 이를 통해 이러한 모델은 제스처 인식, 수화 번역 및 AR/VR 상호 작용과 같은 애플리케이션에 사용될 수 있습니다. 

이번 글에서는 YOLO11이 어떻게 AI 기반 핸드 트래킹을 가능하게 하는지, 학습에 사용되는 데이터 세트, 그리고 핸드 포즈 추정을 위해 모델을 사용자 정의 학습하는 방법에 대해 살펴보겠습니다. 또한 실제 애플리케이션도 살펴보겠습니다. 그럼 시작해 볼까요!

AI 기반 손 키포인트 감지 이해

AI는 손목, 손가락 끝, 손가락 관절과 같은 주요 지점을 식별하여 시각적 데이터에서 손 움직임을 인식하고 추적하는 데 사용될 수 있습니다. 자세 추정으로 알려진 한 가지 접근 방식은 주요 지점을 매핑하고 시간이 지남에 따라 어떻게 변하는지 분석하여 컴퓨터가 사람의 움직임을 이해하는 데 도움이 됩니다. 이를 통해 AI 시스템은 신체 자세, 제스처 및 동작 패턴을 매우 정확하게 해석할 수 있습니다.

컴퓨터 비전 모델은 이미지나 비디오를 분석하여 손의 주요 지점을 식별하고 움직임을 추적함으로써 이를 가능하게 합니다. 이러한 지점이 매핑되면 AI는 키포인트 간의 공간적 관계와 시간이 지남에 따라 어떻게 변하는지 분석하여 제스처를 인식할 수 있습니다. 

예를 들어 엄지손가락과 검지 사이의 거리가 줄어들면 AI는 이를 꼬집는 동작으로 해석할 수 있습니다. 마찬가지로 주요 지점이 시퀀스에서 어떻게 움직이는지 추적하면 복잡한 손 제스처를 식별하고 미래의 움직임을 예측하는 데 도움이 됩니다.

__wf_reserved_inherit
Fig 1. 컴퓨터 비전을 사용하여 손의 주요 지점을 인식하는 예입니다.

흥미롭게도, 핸드 트래킹을 위한 자세 추정은 스마트 기기의 핸즈프리 제어부터 로봇 정밀도 향상, 의료 애플리케이션 지원에 이르기까지 흥미로운 가능성을 열었습니다. AI와 컴퓨터 비전이 계속 발전함에 따라 핸드 트래킹은 일상생활에서 기술을 더욱 상호 작용적이고 접근 가능하며 직관적으로 만드는 데 더 큰 역할을 할 것입니다.

포즈 추정을 위한 YOLO11 탐색

AI 기반 핸드 트래킹 솔루션을 만드는 방법에 대해 자세히 알아보기 전에 포즈 추정과 YOLO11이 이 컴퓨터 비전 작업을 어떻게 지원하는지 자세히 살펴보겠습니다. 전체 객체를 식별하는 표준 객체 탐지와 달리 포즈 추정은 관절, 팔다리 또는 가장자리와 같은 주요 랜드마크를 감지하여 움직임과 자세를 분석하는 데 중점을 둡니다. 

특히, Ultralytics YOLO11은 실시간 자세 추정을 위해 설계되었습니다. 하향식 및 상향식 방법을 모두 활용하여 사람을 효율적으로 감지하고 키포인트를 한 번에 추정하여 속도와 정확성 면에서 이전 모델보다 뛰어납니다.

YOLO11은 즉시 사용 가능하며 COCO-Pose 데이터 세트에서 사전 훈련되었으며 머리, 어깨, 팔꿈치, 손목, 엉덩이, 무릎 및 발목을 포함한 인체 키포인트를 인식할 수 있습니다. 

__wf_reserved_inherit
Fig 2. YOLO11을 사용한 인간 자세 추정.

인간 자세 추정 외에도 YOLO11은 애니메이션 및 무생물을 포함한 다양한 객체의 키포인트를 감지하도록 맞춤형으로 훈련할 수 있습니다. 이러한 유연성 덕분에 YOLO11은 광범위한 응용 분야에 적합한 옵션입니다.

Hand Keypoints 데이터 세트 개요

모델을 사용자 정의 훈련하는 첫 번째 단계는 데이터를 수집하고 주석을 달거나 프로젝트의 요구 사항에 맞는 기존 데이터 세트를 찾는 것입니다. 예를 들어 손 키포인트 데이터 세트는 손 추적 및 포즈 추정을 위한 Vision AI 모델 훈련을 위한 좋은 시작점입니다. 26,768개의 주석이 달린 이미지를 통해 수동 레이블링의 필요성을 없애줍니다. 

Ultralytics YOLO11과 같은 모델을 훈련하여 손 움직임을 빠르고 정확하게 감지하고 추적하는 방법을 학습하는 데 사용할 수 있습니다. 이 데이터 세트는 손목, 손가락, 관절을 포함하여 손당 21개의 키포인트를 포함합니다. 또한 데이터 세트의 어노테이션은 실시간 미디어 처리를 위한 AI 기반 솔루션 개발 도구인 Google MediaPipe를 사용하여 생성되었으며, 이는 정확하고 신뢰할 수 있는 키포인트 감지를 보장합니다. 

__wf_reserved_inherit
Fig 3. Hand Keypoints 데이터 세트에 포함된 21개의 주요점.

이와 같이 구조화된 데이터 세트를 사용하면 시간을 절약하고 개발자가 데이터를 수집하고 라벨링하는 대신 모델 훈련 및 미세 조정에 집중할 수 있습니다. 실제로 데이터 세트는 이미 훈련(18,776개 이미지) 및 검증(7,992개 이미지) 하위 집합으로 나뉘어 모델 성능을 쉽게 평가할 수 있습니다. 

YOLO11을 사용하여 손 자세 추정을 훈련하는 방법

YOLO11을 이용한 손 자세 추정 훈련은 특히 모델 설정 및 훈련을 더 쉽게 만들어주는 Ultralytics Python 패키지를 사용하면 간단한 프로세스입니다. Hand Keypoints 데이터 세트는 이미 훈련 파이프라인에서 지원되므로 추가 포맷 없이 바로 사용할 수 있어 시간과 노력을 절약할 수 있습니다.

학습 과정은 다음과 같이 진행됩니다.

  • 환경 설정: 첫 번째 단계는 Ultralytics Python 패키지를 설치하는 것입니다.
  • Hand Keypoints 데이터 세트 로드: YOLO11은 이 데이터 세트를 기본적으로 지원하므로 자동으로 다운로드하고 준비할 수 있습니다.
  • 사전 훈련된 모델 사용: 정확도를 높이고 훈련 프로세스 속도를 높이는 데 도움이 되는 사전 훈련된 YOLO11 포즈 추정 모델로 시작할 수 있습니다.
  • 모델 훈련: 모델은 여러 훈련 주기를 거치면서 손의 주요 지점을 감지하고 추적하는 방법을 학습합니다.
  • 성능 모니터링: Ultralytics 패키지는 정확도 및 손실과 같은 주요 지표를 추적하는 데 도움이 되는 기본 제공 도구도 제공하여 모델이 시간이 지남에 따라 개선되도록 합니다.
  • 저장 및 배포: 훈련이 완료되면 모델을 내보내기하여 실시간 손 추적 애플리케이션에 사용할 수 있습니다.

사용자 정의 훈련된 모델 평가

커스텀 모델을 생성하는 단계를 진행하면서 성능 모니터링이 필수적이라는 것을 알게 될 것입니다. 학습 과정 동안의 진행 상황을 추적하는 것과 더불어, 모델이 손의 주요 지점을 정확하게 감지하고 추적하는지 확인하기 위해 학습 후 모델을 평가하는 것이 중요합니다. 

정확도, 손실 값 및 평균 정밀도(mAP)와 같은 주요 성능 지표는 모델이 얼마나 잘 수행되는지 평가하는 데 도움이 됩니다. Ultralytics Python 패키지는 결과를 시각화하고 예측을 실제 주석과 비교하는 데 도움이 되는 기본 제공 도구를 제공하여 개선할 영역을 쉽게 찾을 수 있도록 합니다.

모델의 성능을 더 잘 이해하기 위해 트레이닝 로그에서 자동으로 생성되는 손실 곡선, 정밀도-재현율 플롯, 오차 행렬과 같은 평가 그래프를 확인할 수 있습니다. 

이러한 그래프는 과적합(모델이 훈련 데이터를 암기하지만 새로운 데이터로 어려움을 겪는 경우) 또는 과소적합(모델이 정확하게 수행하기에 충분히 패턴을 학습하지 못하는 경우)과 같은 문제를 식별하고 정확도를 개선하기 위한 조정을 안내하는 데 도움이 됩니다. 또한 새로운 이미지나 비디오에서 모델을 테스트하여 실제 시나리오에서 얼마나 잘 작동하는지 확인하는 것이 중요합니다.

AI 기반 핸드 트래킹 솔루션의 응용

다음으로, Ultralytics YOLO11을 사용한 손 키포인트 추정의 가장 영향력 있는 애플리케이션 몇 가지를 살펴보겠습니다.

YOLO11을 사용한 실시간 제스처 인식

손을 흔드는 것만으로 TV 볼륨을 조절하거나 공중에서 간단히 스와이프하여 스마트 홈 시스템을 탐색할 수 있다고 가정해 보겠습니다. YOLO11로 구동되는 실시간 제스처 인식은 실시간으로 손의 움직임을 정확하게 감지하여 이러한 터치 프리 상호 작용을 가능하게 합니다. 

이는 AI 카메라를 사용하여 손의 주요 지점을 추적하고 제스처를 명령으로 해석하는 방식으로 작동합니다. 깊이 감지 카메라, 적외선 센서 또는 일반 웹캠조차도 손의 움직임을 캡처하고 YOLO11은 데이터를 처리하여 다양한 제스처를 인식할 수 있습니다. 예를 들어, 이러한 시스템은 노래를 바꾸기 위한 스와이프, 확대하기 위한 핀치 또는 볼륨을 조절하기 위한 원형 동작을 구별할 수 있습니다.

수화 인식을 위한 AI 기반 손 키포인트 감지

수화 추적을 위한 AI 솔루션은 청각 장애인과 수화를 모르는 사람 간의 원활한 의사 소통을 지원할 수 있습니다. 예를 들어, 카메라와 YOLO11이 통합된 스마트 장치를 사용하여 수화를 즉시 텍스트나 음성으로 번역할 수 있습니다. 

YOLO11과 같은 발전 덕분에 수화 번역 도구가 더욱 정확하고 접근하기 쉬워지고 있습니다. 이는 보조 기술, 실시간 번역 서비스 및 교육 플랫폼과 같은 애플리케이션에 영향을 미칩니다. AI는 직장, 학교 및 공공 장소에서 의사 소통 격차를 해소하고 포용성을 증진하는 데 도움이 될 수 있습니다.

핸드 트래킹을 위한 컴퓨터 비전: AR 및 VR 경험 개선

컨트롤러 없이 가상 현실(VR) 게임에서 물체를 잡을 수 있었던 적이 있나요? 컴퓨터 비전으로 구동되는 핸드 트래킹은 사용자가 증강 현실(AR) 및 VR 환경에서 자연스럽게 상호 작용할 수 있도록 하여 이를 가능하게 합니다. 

__wf_reserved_inherit
Fig 4. 핸드 트래킹은 AR 및 VR 애플리케이션의 핵심 요소입니다.

Ultralytics YOLO11과 같은 모델을 사용한 손 키포인트 추정으로 AI는 실시간으로 움직임을 추적하여 핀치, 잡기, 스와이프와 같은 제스처를 가능하게 합니다. 이는 게임, 가상 훈련 및 원격 협업을 향상시켜 상호 작용을 더욱 직관적으로 만듭니다. 핸드 트래킹 기술이 향상됨에 따라 AR 및 VR은 더욱 몰입감 있고 생생하게 느껴질 것입니다. 

주요 내용

Ultralytics YOLO11을 사용한 손 키포인트 추정은 AI 기반 손 추적 솔루션을 보다 접근 가능하고 안정적으로 만들고 있습니다. 실시간 제스처 인식에서 수화 통역 및 AR/VR 애플리케이션에 이르기까지 컴퓨터 비전은 인간-컴퓨터 상호 작용에서 새로운 가능성을 열고 있습니다.

또한 간소화된 맞춤형 학습 및 미세 조정 프로세스는 개발자가 다양한 실제 사용 사례에 맞는 효율적인 모델을 구축하는 데 도움이 됩니다. 컴퓨터 비전 기술이 발전함에 따라 의료, 로봇 공학, 게임 및 보안과 같은 분야에서 훨씬 더 많은 혁신을 기대할 수 있습니다.

커뮤니티에 참여하고 GitHub 저장소에서 AI 발전을 탐색하십시오. 솔루션 페이지를 통해 제조업에서 AI의 영향헬스케어에서 컴퓨터 비전의 영향을 알아보십시오. 라이선스 계획을 살펴보고 오늘 AI 여정을 시작하십시오!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.