Yolo 비전 선전
선전
지금 참여하기

Ultralytics YOLO11 손 키포인트 추정 향상

Abirami Vina

6분 소요

2025년 3월 5일

실시간 제스처 인식과 같은 애플리케이션에서 포즈 추정을 지원하는 Ultralytics YOLO11 통해 AI 기반 손 키포인트 추정에 대해 알아보세요.

최근 슈퍼볼의 수화 통역사가 많은 관심을 받고 있습니다. TV에서 좋아하는 아티스트의 노래를 부르는 모습을 볼 때 수화를 아는 사람은 뇌가 손동작을 처리하기 때문에 노래를 이해할 수 있습니다. 하지만 컴퓨터가 똑같이 할 수 있다면 어떨까요? AI 기반 손 추적 솔루션 덕분에 기계가 손의 움직임을 놀라운 정확도로 track 해석할 수 있습니다.

이러한 솔루션의 핵심은 컴퓨터 비전의 하위 분야로, 기계가 시각 정보를 처리하고 이해할 수 있도록 하는 AI의 한 분야입니다. 비전 AI는 이미지와 동영상을 분석하여 물체를 detect , 움직임을 track , 복잡한 제스처를 놀라운 정확도로 인식할 수 있도록 지원합니다.

예를 들어, 다음과 같은 컴퓨터 비전 모델은 Ultralytics YOLO11 와 같은 컴퓨터 비전 모델은 포즈 추정을 사용하여 실시간으로 손 키포인트를 detect 분석하도록 훈련할 수 있습니다. 이렇게 함으로써 이러한 모델을 제스처 인식, 수화 번역, AR/VR 상호 작용과 같은 애플리케이션에 사용할 수 있습니다. 

이 글에서는 YOLO11 통해 AI 기반 손 추적을 가능하게 하는 방법, 훈련에 사용되는 데이터 세트, 손 포즈 추정을 위한 모델을 맞춤 훈련하는 방법에 대해 살펴봅니다. 또한 실제 적용 사례도 살펴볼 것입니다. 시작해 보겠습니다!

AI 기반 손 키포인트 감지 이해

AI는 손목, 손가락 끝, 손가락 관절과 같은 키포인트를 식별하여 시각 데이터에서 손의 움직임을 인식하고 track 데 사용할 수 있습니다. 포즈 추정이라고 하는 한 가지 접근 방식은 키포인트를 매핑하고 시간에 따른 변화를 분석하여 컴퓨터가 사람의 움직임을 이해하는 데 도움이 됩니다. 이를 통해 AI 시스템은 몸의 자세, 제스처, 동작 패턴을 높은 정확도로 해석할 수 있습니다.

컴퓨터 비전 모델은 이미지나 동영상을 분석하여 손의 키포인트를 식별하고 그 움직임을 track 이를 가능하게 합니다. 이러한 포인트가 매핑되면 AI는 키포인트 간의 공간적 관계와 시간에 따른 변화를 분석하여 제스처를 인식할 수 있습니다. 

예를 들어 엄지손가락과 검지 사이의 거리가 줄어들면 AI는 이를 꼬집는 동작으로 해석할 수 있습니다. 마찬가지로 주요 지점이 시퀀스에서 어떻게 움직이는지 추적하면 복잡한 손 제스처를 식별하고 미래의 움직임을 예측하는 데 도움이 됩니다.

__wf_reserved_inherit
Fig 1. 컴퓨터 비전을 사용하여 손의 주요 지점을 인식하는 예입니다.

흥미롭게도, 핸드 트래킹을 위한 자세 추정은 스마트 기기의 핸즈프리 제어부터 로봇 정밀도 향상, 의료 애플리케이션 지원에 이르기까지 흥미로운 가능성을 열었습니다. AI와 컴퓨터 비전이 계속 발전함에 따라 핸드 트래킹은 일상생활에서 기술을 더욱 상호 작용적이고 접근 가능하며 직관적으로 만드는 데 더 큰 역할을 할 것입니다.

포즈 추정을 위한 YOLO11 살펴보기

AI 기반 손 추적 솔루션을 만드는 방법을 살펴보기 전에 포즈 추정에 대해 자세히 알아보고 YOLO11 이 컴퓨터 비전 작업을 어떻게 지원하는지 살펴보겠습니다. 전체 객체를 식별하는 표준 객체 감지와 달리, 포즈 추정은 관절, 팔다리 또는 가장자리와 같은 주요 랜드마크를 감지하여 움직임과 자세를 분석하는 데 중점을 둡니다. 

특히, Ultralytics YOLO11 실시간 포즈 추정을 위해 설계되었습니다. 하향식 및 상향식 방식을 모두 활용하여 한 번에 효율적으로 사람을 감지하고 키포인트를 추정함으로써 속도와 정확성 면에서 이전 모델보다 뛰어난 성능을 발휘합니다.

YOLO11 기본적으로 COCO 데이터 세트에 대해 사전 학습된 상태로 제공되며 머리, 어깨, 팔꿈치, 손목, 엉덩이, 무릎, 발목 등 인체의 주요 지점을 인식할 수 있습니다. 

__wf_reserved_inherit
그림 2. 사람 포즈 추정에 YOLO11 사용.

사람의 포즈 추정 외에도 YOLO11 애니메이션과 무생물을 포함한 다양한 물체의 키포인트를 detect 맞춤 학습할 수 있습니다. 이러한 유연성 덕분에 YOLO11 다양한 애플리케이션에 적합한 옵션입니다.

Hand Keypoints 데이터 세트 개요

모델을 사용자 정의 훈련하는 첫 번째 단계는 데이터를 수집하고 주석을 달거나 프로젝트의 요구 사항에 맞는 기존 데이터 세트를 찾는 것입니다. 예를 들어 손 키포인트 데이터 세트는 손 추적 및 포즈 추정을 위한 Vision AI 모델 훈련을 위한 좋은 시작점입니다. 26,768개의 주석이 달린 이미지를 통해 수동 레이블링의 필요성을 없애줍니다. 

손의 움직임을 detect track 방법을 빠르게 학습하기 위해 Ultralytics YOLO11 같은 모델을 훈련하는 데 사용할 수 있습니다. 이 데이터 세트에는 손목, 손가락, 관절을 포함하는 손당 21개의 키포인트가 포함되어 있습니다. 또한 데이터 세트의 주석은 실시간 미디어 처리를 위한 AI 기반 솔루션 개발 도구인 Google MediaPipe로 생성되어 정확하고 신뢰할 수 있는 키포인트 감지를 보장합니다. 

__wf_reserved_inherit
Fig 3. Hand Keypoints 데이터 세트에 포함된 21개의 주요점.

이와 같이 구조화된 데이터 세트를 사용하면 시간을 절약하고 개발자가 데이터를 수집하고 라벨링하는 대신 모델 훈련 및 미세 조정에 집중할 수 있습니다. 실제로 데이터 세트는 이미 훈련(18,776개 이미지) 및 검증(7,992개 이미지) 하위 집합으로 나뉘어 모델 성능을 쉽게 평가할 수 있습니다. 

손 포즈 추정을 위한 YOLO11 훈련 방법

손 포즈 추정을 위한 YOLO11 훈련은 매우 간단한 과정이며, 특히 Ultralytics Python 패키지를 사용하면 모델 설정과 훈련이 더욱 쉬워집니다. 손 키포인트 데이터 세트는 이미 훈련 파이프라인에서 지원되므로 별도의 포맷 없이 바로 사용할 수 있어 시간과 노력을 절약할 수 있습니다.

학습 과정은 다음과 같이 진행됩니다.

  • 환경을 설정합니다: 첫 번째 단계는 Ultralytics Python 패키지를 설치하는 것입니다.
  • 손 키포인트 데이터 세트를 로드합니다: YOLO11 이 데이터세트를 기본적으로 지원하므로 자동으로 다운로드하여 준비할 수 있습니다.
  • 사전 훈련된 모델 사용: 사전 학습된 YOLO11 포즈 추정 모델로 시작하면 정확도를 높이고 학습 프로세스의 속도를 높일 수 있습니다.
    ↪cf_200D↩
  • 모델 훈련하기: 모델은 여러 번의 훈련 주기를 거쳐 손 키 포인트를 detect track 방법을 학습합니다.
    ↪f_200D↩
  • 성능 모니터링: Ultralytics 패키지는 정확도 및 손실과 같은 주요 지표를 track 기본 제공 도구도 제공하여 시간이 지남에 따라 모델이 개선되도록 지원합니다.
    ↪f_200D↩
  • 저장 및 배포: 훈련이 완료되면 모델을 내보내기하여 실시간 손 추적 애플리케이션에 사용할 수 있습니다.

사용자 정의 훈련된 모델 평가

커스텀 모델을 생성하는 단계를 진행하면서 성능 모니터링이 필수적이라는 것을 알게 될 것입니다. 학습 과정 동안의 진행 상황을 추적하는 것과 더불어, 모델이 손의 주요 지점을 정확하게 감지하고 추적하는지 확인하기 위해 학습 후 모델을 평가하는 것이 중요합니다. 

정확도, 손실 값, 평균 평균 정밀도mAP 같은 주요 성능 메트릭은 모델의 성능을 평가하는 데 도움이 됩니다. Ultralytics Python 패키지는 결과를 시각화하고 예측을 실제 주석과 비교할 수 있는 기본 제공 도구를 제공하므로 개선이 필요한 부분을 쉽게 파악할 수 있습니다.

모델의 성능을 더 잘 이해하기 위해 트레이닝 로그에서 자동으로 생성되는 손실 곡선, 정밀도-재현율 플롯, 오차 행렬과 같은 평가 그래프를 확인할 수 있습니다. 

이러한 그래프는 과적합(모델이 훈련 데이터를 암기하지만 새로운 데이터로 어려움을 겪는 경우) 또는 과소적합(모델이 정확하게 수행하기에 충분히 패턴을 학습하지 못하는 경우)과 같은 문제를 식별하고 정확도를 개선하기 위한 조정을 안내하는 데 도움이 됩니다. 또한 새로운 이미지나 비디오에서 모델을 테스트하여 실제 시나리오에서 얼마나 잘 작동하는지 확인하는 것이 중요합니다.

AI 기반 핸드 트래킹 솔루션의 응용

다음으로, 가장 영향력 있는 손 키포인트 추정 애플리케이션 중 하나인 Ultralytics YOLO11 대해 살펴보겠습니다.

YOLO11 통한 실시간 제스처 인식

손을 흔들기만 하면 TV의 볼륨을 조절하거나 허공을 스와이프하는 간단한 동작으로 스마트 홈 시스템을 탐색할 수 있다고 가정해 봅시다. YOLO11 실시간 제스처 인식 기능은 손의 움직임을 실시간으로 정확하게 감지하여 이러한 터치 없는 상호 작용을 가능하게 합니다. 

이 기능은 AI 카메라를 사용하여 손의 주요 지점을 track 제스처를 명령으로 해석하는 방식으로 작동합니다. 깊이 감지 카메라, 적외선 센서 또는 일반 웹캠으로도 손의 움직임을 포착할 수 있지만, YOLO11 데이터를 처리하여 다양한 제스처를 인식할 수 있습니다. 예를 들어, 이러한 시스템은 스와이프하여 노래를 변경하거나 핀치하여 확대하거나 원을 그리며 볼륨을 조절하는 동작의 차이를 구분할 수 있습니다.

수화 인식을 위한 AI 기반 손 키포인트 감지

손 추적용 AI 솔루션은 청각장애인과 수화를 모르는 사람 간의 원활한 의사소통을 지원할 수 있습니다. 예를 들어 카메라와 YOLO11 통합된 스마트 기기를 사용하면 수어를 텍스트나 음성으로 즉시 번역할 수 있습니다. 

YOLO11 같은 발전 덕분에 수어 번역 도구의 정확성과 접근성이 더욱 향상되고 있습니다. 이는 보조 기술, 실시간 번역 서비스, 교육 플랫폼과 같은 애플리케이션에 영향을 미칩니다. AI는 직장, 학교, 공공장소에서 의사소통의 격차를 해소하고 포용성을 증진하는 데 도움이 될 수 있습니다.

핸드 트래킹을 위한 컴퓨터 비전: AR 및 VR 경험 개선

컨트롤러 없이 가상 현실(VR) 게임에서 물체를 잡을 수 있었던 적이 있나요? 컴퓨터 비전으로 구동되는 핸드 트래킹은 사용자가 증강 현실(AR) 및 VR 환경에서 자연스럽게 상호 작용할 수 있도록 하여 이를 가능하게 합니다. 

__wf_reserved_inherit
Fig 4. 핸드 트래킹은 AR 및 VR 애플리케이션의 핵심 요소입니다.

Ultralytics YOLO11 같은 모델을 사용한 손 키포인트 추정을 통해 AI는 실시간으로 움직임을 추적하여 집기, 잡기, 스와이프와 같은 제스처를 구현할 수 있습니다. 이를 통해 게임, 가상 교육, 원격 협업이 향상되어 상호 작용이 더욱 직관적으로 이루어집니다. 손 추적 기술이 개선됨에 따라 AR과 VR은 더욱 몰입감 있고 생생하게 느껴질 것입니다. 

주요 내용

Ultralytics YOLO11 통한 손 키포인트 추정으로 AI 기반 손 추적 솔루션의 접근성과 신뢰성이 향상되고 있습니다. 실시간 제스처 인식부터 수화 통역, AR/VR 애플리케이션에 이르기까지 컴퓨터 비전은 인간과 컴퓨터 간의 상호작용에 새로운 가능성을 열어주고 있습니다.

또한 간소화된 맞춤형 학습 및 미세 조정 프로세스는 개발자가 다양한 실제 사용 사례에 맞는 효율적인 모델을 구축하는 데 도움이 됩니다. 컴퓨터 비전 기술이 발전함에 따라 의료, 로봇 공학, 게임 및 보안과 같은 분야에서 훨씬 더 많은 혁신을 기대할 수 있습니다.

커뮤니티에 참여하고 GitHub 저장소에서 AI 발전을 탐색하십시오. 솔루션 페이지를 통해 제조업에서 AI의 영향헬스케어에서 컴퓨터 비전의 영향을 알아보십시오. 라이선스 계획을 살펴보고 오늘 AI 여정을 시작하십시오!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기