Ultralytics 어떻게 향상된 비인간 키포인트 지원, 더 빠른 수렴 속도, 개선된 가림 처리, 효율적인 실시간 배포를 통해 자세 추정 성능을 향상시키는지 알아보세요.
Ultralytics 어떻게 향상된 비인간 키포인트 지원, 더 빠른 수렴 속도, 개선된 가림 처리, 효율적인 실시간 배포를 통해 자세 추정 성능을 향상시키는지 알아보세요.
누군가의 자세를 보면, 그 사람이 허리를 굽히거나 앞으로 기울여 서 있는지, 아니면 똑바로 서 있는지 쉽게 알아챌 수 있습니다. 인간은 신체 각 부분이 서로 어떻게 연결되어 있는지 빠르게 이해할 수 있습니다.
이는 일상생활에서 움직임과 신체 언어를 해석하는 방식의 본질적인 부분입니다. 그러나 기계에게는 이러한 시각적 이해가 자동적으로 이루어지지 않습니다. 시스템이 움직임과 구조를 인식하도록 가르치려면, 이미지를 의미 있는 방식으로 해석할 수 있게 해주는 고급 딥러닝 및 컴퓨터 비전 기술이 필요합니다.
특히, 자세 추정(pose estimation )은 컴퓨터 비전 모델이 유사한 이해를 구축할 수 있게 하는 비전 AI 기술입니다. 단순히 이미지 내 물체를 탐지하는 대신, 모델은 중요한 구조적 지점을 나타내는 키포인트(keypoints)를 예측합니다.
이러한 핵심 지점은 신체 관절, 동물 사지, 기계 부품 또는 코트 모서리와 같은 고정 지점에 대응될 수 있습니다. 이러한 지점을 식별하고 추적함으로써 시스템은 체계적이고 측정 가능한 방식으로 위치, 정렬 및 움직임을 이해할 수 있습니다.
포즈 추정 기술이 더 많은 실제 시나리오에 적용됨에 따라, 모델들은 비인간 키포인트, 복잡한 장면, 맞춤형 데이터셋을 보다 효과적으로 처리해야 합니다. 예를 들어, Ultralytics 같은 최신 모델들은 포즈 추정과 같은 컴퓨터 비전 작업을 지원하며, 유연성과 전반적인 성능 향상을 위해 설계된 아키텍처 및 훈련 개선 사항을 바탕으로 이전 YOLO 모델들을 발전시켰습니다.

이 글에서는 YOLO26-pose를 기존 Ultralytics YOLO 모델들과 비교하고, 복잡한 장면에서 유연성, 수렴 속도 및 성능이 어떻게 향상되는지 살펴보겠습니다. 시작해 보겠습니다!
비교에 들어가기 전에 Ultralytics YOLO 포즈 모델을 비교하기 전에, 컴퓨터 비전 분야에서 포즈 추정(pose estimation)이 실제로 무엇을 의미하는지 자세히 살펴보겠습니다.
자세 추정(Pose estimation)은 이미지 또는 영상 프레임 내 track 키포인트를 detect track 기술입니다. 이러한 키포인트는 인체의 관절, 동물의 사지, 기계의 구성 요소, 장면 내 고정 기준점 등 중요한 구조적 랜드마크를 나타낼 수 있습니다.

이러한 점들의 좌표를 식별함으로써 모델은 물체가 어떻게 위치해 있으며 시간이 지남에 따라 어떻게 움직이는지 이해할 수 있습니다. 이미지 전체에 단일 레이블을 할당하는 이미지 분류나 물체 주변에 경계 상자를 그리는 데 초점을 맞춘 물체 탐지 모델과 달리, 자세 추정(pose estimation)은 구조와 움직임에 대한 보다 상세한 공간 정보를 제공합니다.
YOLO26-pose는 YOLO26n-pose와 같은 경량 옵션부터 YOLO26m-pose, YOLO26l-pose, YOLO26x-pose와 같은 대형 모델에 이르기까지 다양한 모델 변형 또는 모델 크기로 제공됩니다. 이를 통해 팀은 하드웨어 및 성능 요구 사항에 따라 속도와 정확도 사이의 적절한 균형을 선택할 수 있습니다.
Ultralytics COCO 같은 대규모 일반 데이터셋, 특히 인간 자세 추정용 COCO(COCO ) 주석 데이터로 사전 훈련된 자세 모델을 제공합니다. 따라서 처음부터 시작할 필요가 없습니다. 대부분의 경우 팀들은 특정 키포인트, 레이아웃 또는 환경에 적응시키기 위해 자체 데이터셋으로 이러한 모델을 미세 조정합니다.
이는 일반적으로 구조화된 형식으로 키포인트 좌표와 클래스 레이블을 정의하는 맞춤형 주석 파일을 준비하는 것을 포함합니다. 이러한 주석은 각 이미지 내에서 키포인트를 특정 픽셀 좌표에 매핑하여 모델이 훈련 과정에서 정확한 공간적 관계를 학습할 수 있도록 합니다.
사전 훈련된 모델을 사용하면 훈련 속도가 빨라지고, 데이터 요구 사항이 줄어들며, 프로젝트를 더 효율적으로 생산 환경으로 전환하는 데 도움이 됩니다.
다음은 자세 추정 기술이 중요한 역할을 하는 실제 적용 사례를 간략히 살펴본 것입니다:

Ultralytics 기존 Ultralytics YOLO 기반으로 훈련 및 배포를 보다 실용적으로 만들기 위해 설계된 업데이트를 적용했습니다.
이전 버전과 마찬가지로 통합 프레임워크의 일부로 자세 추정 기능을 지원합니다. 주요 차이점은 YOLO26이 더 넓은 범위의 실제 사용 사례에서 더 유연하고 안정적으로 작동하도록 설계되었다는 점입니다.

초기 Ultralytics YOLO 모델은 주로 인간 자세 데이터셋의 영향을 받았으며, 이는 기존 방법의 일부가 인간 관절 구조를 중심으로 최적화되었음을 의미합니다. YOLO26은 이러한 인간 특유의 가정을 제거합니다.
따라서 테니스 코트의 코너나 기타 사용자 정의 구조적 랜드마크를 감지하는 등 인간이 아닌 키포인트에 더 적합합니다. 이는 사전 훈련된 YOLO26-pose 모델이 기본적으로 COCO 같은 데이터셋으로 훈련되어 데이터셋 주석에 정의된 인간 키포인트를 예측하기 때문에 중요한 점입니다.
그러나 팀이 기계 부품, 스포츠 경기장 마커, 인프라 지점 등 detect 유형의 랜드마크를 detect 할 때는 일반적으로 해당 특정 키포인트가 주석 처리된 맞춤형 데이터셋으로 모델을 미세 조정해야 합니다.
YOLO26은 인간의 관절 구조에 대한 가정에 얽매이지 않으므로, 미세 조정 과정에서 보다 효과적으로 적응할 수 있습니다. 이러한 유연성 덕분에 모델은 맞춤형 키포인트 배치를 보다 안정적으로 학습할 수 있으며, 이는 독특한 키포인트 구성을 가진 데이터셋에서 검증할 때 향상된 평가 지표를 이끌어냅니다.
YOLO26-pose는 물체의 일부가 부분적으로 가려지거나 매우 작은 규모로 나타날 때 키포인트 위치 파악 능력을 향상시키도록 설계되었습니다. 원거리 피사체가 등장하는 실제 장면, 드론 촬영 영상 또는 소형 물체 시나리오에서 이 모델은 기존 포즈 모델에 비해 더 정확한 키포인트 예측을 가능하게 합니다.
또 다른 중요한 업데이트는 훈련 과정에서 사용되는 손실 함수의 개선입니다. 손실 함수는 모델이 학습 과정에서 오류를 수정하는 방식을 결정합니다.
YOLO26-pose의 경우 이 과정이 더 효과적이어서 모델이 더 빠르게 학습하고 적은 에포크 수로 높은 정확도에 도달할 수 있습니다. 여기서 에포크는 훈련 데이터셋을 한 번 완전히 통과하는 것을 의미합니다.
전반적으로 YOLO26-pose는 기존 Ultralytics YOLO 모델을 기반으로 하며, 비인간 키포인트 지원 및 훈련 수렴성 측면에서 명확한 개선을 이루었음에도 동일한 익숙한 워크플로를 유지합니다.
Ultralytics YOLO 의 초기 버전, Ultralytics YOLOv5는 주로 객체 탐지를 위해 구축되었습니다. YOLOv5 인스턴스 분할을 지원하도록 확장되었지만, 공식 Ultralytics 내에는 기본적인 전용 자세 추정 헤드가 포함되어 있지 않습니다.
키포인트 검출이 필요한 팀들은 일반적으로 별도의 구현이나 맞춤형 수정에 의존했습니다. Ultralytics 포즈 추정 기능을 내장 작업으로 포함하며, 키포인트 예측을 위해 특별히 설계된 전용 아키텍처 헤드를 제공합니다.
이는 YOLO26-pose 모델이 탐지 및 분할과 동일한 통합 워크플로 내에서 훈련, 검증 및 배포될 수 있음을 의미합니다. 구조화된 키포인트 탐지에 중점을 둔 프로젝트의 경우, YOLO26은 YOLOv5 기본적으로 YOLOv5 네이티브 자세 지원과 작업 특화 아키텍처를 제공합니다.
Ultralytics YOLOv8 통합된 Ultralytics 내에서 네이티브 자세 추정 기능을 도입하여, 검출 및 분할과 동일한 워크플로우로 키포인트 모델을 쉽게 훈련하고 배포할 수 있게 했습니다. 이는 비최대 억제(NMS)를 포함한 전통적인 후처리 파이프라인에 의존하며, 바운딩 박스 회귀 및 훈련을 위한 기존 손실 함수 방식을 사용합니다.
YOLO26은 이러한 기반 위에 자세 추정 성능에 직접적인 영향을 미치는 아키텍처 및 훈련 업데이트를 적용합니다. 주요 차이점 중 하나는 엔드투엔드 설계입니다. YOLO26은 추론 NMS 외부 NMS (Normalization Mean Scale)의 필요성을 제거하여 배포를 단순화하고, 특히 CPU 및 에지 디바이스에서 지연 시간 일관성을 개선합니다.
또 다른 핵심 개선점은 훈련 방법론에 있습니다. YOLO26은 MuSGD 최적화기와 함께 업데이트된 손실 전략을 도입했습니다. 포즈 작업의 경우 잔차 로그 가능도 추정(Residual Log-Likelihood Estimation)을 통합하여 키포인트 불확실성 모델링 방식을 개선했습니다. 이러한 변경 사항들은 특히 복잡하거나 부분적으로 가려진 장면에서 더 빠른 수렴과 더 안정적인 키포인트 예측으로 이어질 수 있습니다.
요약하자면, YOLOv8 강력하고 다재다능한 기준 모델을 확립했습니다. YOLO26-pose는 향상된 훈련 효율성, 더 나은 가림 현상 처리 능력, 그리고 실제 환경에서 인간이 아닌 자세 적용을 위한 더 큰 유연성으로 이 기준 모델을 개선했습니다.
Ultralytics YOLO11Ultralytics YOLOv8 기반으로 백본과 특징 추출 레이어를YOLOv8 . FLOPs를 줄이고, 매개변수 효율성을 높였으며, 강력한 실시간 성능을 mAP 더 높은 mAP 제공했습니다. 포즈 작업의 경우, 이는 더 가벼운 아키텍처로 더 나은 키포인트 정확도를 의미했습니다.
YOLO26-pose는 보다 근본적인 아키텍처 변경을 통해 이러한 진화를 이어갑니다. 간단히 말해, YOLO11 YOLOv8 효율성과 정확도를 YOLO11 , YOLO26은 더 빠른 수렴, 더 안정적인 추론, 복잡한 시나리오에서의 향상된 자세 정확도를 목표로 아키텍처 및 훈련 업데이트를 통해 그 기반 위에 구축되었습니다.
Ultralytics YOLO 간의 차이점을 살펴보면서, YOLO26-pose로 전환해야 할지 고민하고 계실 수 있습니다.
간단히 말해, 업그레이드는 매우 쉽습니다. 이미 Ultralytics YOLOv8 또는 Ultralytics YOLO11 사용 중이라면, YOLO26-pose로 전환하는 것은 일반적으로 모델 버전을 변경하는 것만으로 충분하며, 파이프라인을 재구축할 필요가 없습니다.
비인간 키포인트에 대한 향상된 지원, 훈련 중 더 빠른 수렴, 가려진 포인트 처리 개선 등의 이점을 동일한 Ultralytics 내에서 누릴 수 있습니다. 대부분의 신규 및 기존 포즈 프로젝트에서 YOLO26-pose로 전환하는 것은 최소한의 마찰로 이러한 개선 사항을 얻는 간단한 방법입니다.
또한 YOLO26-pose는 PyTorch 기반으로 구축된 Python 완벽하게 지원되어 훈련, 검증 및 배포를 간편하게 수행할 수 있습니다. 모델은 ONNX, TensorRT, OpenVINO, CoreML, TFLite 등의 형식으로 내보낼 수 있어 전체 워크플로를 변경하지 않고도 GPU, CPU 및 에지 디바이스에 쉽게 배포할 수 있습니다.
Ultralytics 특히 비인간 키포인트나 복잡한 장면에서 동작 추정(pose estimation)을 더욱 유연하고 안정적으로 수행합니다. 더 빠르게 학습되며, 가림 현상을 더 잘 처리하고, 다양한 데이터셋에서 더 일관된 결과를 제공합니다. 기존에 Ultralytics YOLO 모델을 사용 중인 팀의 경우, YOLO26은 기존 워크플로우를 변경하지 않고도 뚜렷한 개선 효과를 제공합니다.
AI에 대해 더 자세히 알고 싶으십니까? 커뮤니티 및 GitHub 저장소를 확인하십시오. 솔루션 페이지에서 로보틱스 분야의 AI 및 농업 분야의 컴퓨터 비전에 대해 알아보십시오. 라이선스 옵션을 살펴보고 오늘 컴퓨터 비전으로 개발을 시작하십시오!