객체 추적, 인스턴스 분할 및 이미지 분류와 같은 컴퓨터 비전 작업이 어떻게 작동하는지, 그리고 Ultralytics YOLO11이 이를 어떻게 지원하는지 알아보세요.

객체 추적, 인스턴스 분할 및 이미지 분류와 같은 컴퓨터 비전 작업이 어떻게 작동하는지, 그리고 Ultralytics YOLO11이 이를 어떻게 지원하는지 알아보세요.
카메라와 인공 지능(AI)의 발전 덕분에 컴퓨터와 기계는 이제 인간이 하는 방식과 유사한 방식으로 세상을 볼 수 있습니다. 예를 들어 사람을 인식하고, 물체를 추적하고, 비디오에서 일어나는 일의 컨텍스트를 이해할 수도 있습니다.
특히 컴퓨터 비전은 기계가 주변 세계의 시각 정보를 이해하고 해석할 수 있도록 하는 AI의 한 분야입니다. 컴퓨터 비전은 이미지나 비디오에서 특정 종류의 통찰력을 추출하도록 설계된 다양한 작업을 포함합니다. 예를 들어 객체 탐지는 그림에서 서로 다른 항목을 식별하고 찾는 데 도움이 되며, 추적, 분할 및 자세 추정과 같은 다른 작업은 기계가 움직임, 모양 및 위치를 더 정확하게 이해하는 데 도움이 됩니다.
특정 애플리케이션에 사용되는 컴퓨터 비전 작업은 필요한 인사이트 유형에 따라 다릅니다. Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 다양한 컴퓨터 비전 작업을 지원하므로 실제 비전 AI 시스템을 구축하는 데 안정적인 선택입니다.
이 가이드에서는 YOLO11과 같은 모델에서 지원하는 컴퓨터 비전 작업을 자세히 살펴보겠습니다. 각 작업이 어떻게 작동하는지, 다양한 산업 분야에서 어떻게 사용되고 있는지 살펴보겠습니다. 시작해 보겠습니다!
컴퓨터 비전 작업은 다양한 방식으로 인간의 시각 능력을 복제하는 것을 목표로 합니다. 이러한 작업은 기계가 객체를 감지하고, 움직임을 추적하고, 포즈를 추정하고, 이미지와 비디오에서 개별 요소를 윤곽선으로 표시하는 데 도움이 될 수 있습니다. 일반적으로 컴퓨터 비전 작업은 시각적 데이터를 더 작은 부분으로 분해하여 발생하는 상황을 더 명확하게 해석할 수 있도록 하는 모델에 의해 활성화됩니다.
Ultralytics YOLO 모델과 같은 Vision AI 모델은 하나의 프레임워크에서 감지, 추적 및 분할과 같은 여러 작업을 지원합니다. 이러한 다재다능함 덕분에 YOLO11 모델은 광범위한 사용 사례에 쉽게 적용할 수 있습니다.
좋은 예는 스포츠 분석에 있습니다. YOLO11을 사용하여 객체 탐지를 통해 필드에 있는 각 플레이어를 감지한 다음 객체 추적을 통해 경기 내내 플레이어를 따라갈 수 있습니다. 한편 YOLO11의 포즈 추정 기능을 통해 플레이어 움직임과 기술을 분석할 수 있으며, 인스턴스 분할을 통해 각 플레이어를 배경에서 분리하여 분석에 정확성을 더할 수 있습니다.
함께 이러한 YOLO11 기반 컴퓨터 비전 작업은 경기 중에 일어나는 일에 대한 완전한 그림을 만들어 팀에게 선수 성과, 전술 및 전체 전략에 대한 더 깊은 통찰력을 제공합니다.
이제 컴퓨터 비전 작업이 무엇인지 살펴보았으므로 실제 사례를 사용하여 YOLO11에서 지원하는 각 작업을 더 자세히 이해해 보겠습니다.
사진을 볼 때, 대부분의 사람들은 그것이 개, 산 또는 교통 표지판을 보여주는지 쉽게 알 수 있습니다. 왜냐하면 우리는 모두 이러한 것들이 일반적으로 어떻게 보이는지 배웠기 때문입니다. 이미지 분류는 기계가 주요 객체를 기반으로 이미지를 분류하고 레이블을 지정하는 방법을 가르쳐 줌으로써 동일한 작업을 수행하도록 돕습니다. 예를 들어 "자동차", "바나나" 또는 "골절이 있는 엑스레이"와 같이 레이블을 지정합니다. 이 레이블은 컴퓨터 비전 시스템이 시각적 콘텐츠를 이해하여 그에 따라 대응하거나 결정을 내릴 수 있도록 돕습니다.
이 컴퓨터 비전 작업의 흥미로운 응용 분야 중 하나는 야생 동물 모니터링입니다. 이미지 분류를 사용하여 야생에서 캡처한 사진에서 다양한 동물 종을 식별할 수 있습니다. 이미지를 자동으로 레이블링함으로써 연구자들은 개체 수를 추적하고, 이동 패턴을 모니터링하고, 멸종 위기에 처한 종을 더 쉽게 식별하여 보존 노력을 지원할 수 있습니다.
이미지 분류는 이미지에 무엇이 들어 있는지 전반적인 아이디어를 얻는 데 유용하지만, 전체 이미지에 단 하나의 레이블만 할당합니다. 여러 객체의 정확한 위치와 식별 정보와 같이 자세한 정보가 필요한 경우에는 객체 탐지가 필수적입니다.
객체 탐지는 이미지 내에서 개별 객체를 식별하고 위치를 파악하는 프로세스로, 일반적으로 경계 상자를 사용하여 객체 주위에 표시합니다. Ultralytics YOLO11은 실시간 객체 탐지에서 특히 뛰어난 성능을 보여 다양한 애플리케이션에 이상적입니다.
예를 들어, 소매점에서 재고를 채우는 데 사용되는 컴퓨터 비전 솔루션을 생각해 볼 수 있습니다. 객체 탐지는 과일, 채소 및 기타 품목을 계산하여 정확한 재고를 확보하는 데 도움이 될 수 있습니다. 농경지에서는 동일한 기술로 작물 성숙도를 모니터링하여 농부가 수확하기 가장 좋은 시기를 결정하는 데 도움을 줄 수 있으며, 익은 농산물과 익지 않은 농산물을 구별할 수도 있습니다.
객체 탐지는 경계 상자를 사용하여 이미지에서 객체를 식별하고 위치를 찾지만 정확한 모양을 캡처하지는 않습니다. 이럴 때 인스턴스 분할이 필요합니다. 인스턴스 분할은 객체 주위에 상자를 그리는 대신 정확한 윤곽선을 추적합니다.
이것을 다음과 같이 생각할 수 있습니다. 단순히 "이 영역에 사과가 있다"고 표시하는 대신 사과의 정확한 모양을 신중하게 윤곽을 그리고 채웁니다. 이 상세한 프로세스는 특히 물체가 서로 가까이 있을 때 AI 시스템이 물체의 경계를 명확하게 이해하는 데 도움이 됩니다.
개체 인스턴스 분할은 기반 시설 검사에서 지질 조사에 이르기까지 다양한 애플리케이션에 적용할 수 있습니다. 예를 들어, 지질 조사 데이터는 YOLO11을 사용하여 크고 작은 표면 균열 또는 이상 징후를 분할하는 데 사용할 수 있습니다. 엔지니어는 이러한 이상 징후 주위에 정확한 경계를 그려 문제를 정확히 찾아내고 프로젝트 시작 전에 해결할 수 있습니다.
지금까지 살펴본 컴퓨터 비전 작업은 단일 이미지에 있는 내용에 중점을 둡니다. 그러나 비디오의 경우 단일 프레임을 넘어서는 통찰력이 필요합니다. 이 작업인 객체 추적을 사용하여 이를 수행할 수 있습니다.
YOLO11의 객체 추적 기능은 사람이나 자동차와 같이 특정 객체가 일련의 비디오 프레임을 가로질러 이동할 때 이를 따라갈 수 있습니다. 카메라 각도가 변경되거나 다른 객체가 나타나더라도 시스템은 동일한 대상을 계속 추적합니다.
이는 교통 상황에서 차량을 추적하는 것과 같이 시간 경과에 따른 모니터링이 필요한 애플리케이션에 매우 중요합니다. 실제로 YOLO11은 차량을 정확하게 추적하여 각 차량을 따라가면서 실시간으로 속도를 추정할 수 있습니다. 따라서 객체 추적은 교통 모니터링과 같은 시스템의 핵심 구성 요소입니다.
실제 세계의 객체는 항상 완벽하게 정렬되어 있지 않으며 기울어지거나 옆으로 놓이거나 이상한 각도로 배치될 수 있습니다. 예를 들어 위성 이미지에서 선박과 건물은 종종 회전되어 나타납니다.
기존의 객체 감지 방법은 객체의 방향에 맞게 조정되지 않는 고정된 직사각형 상자를 사용하므로 회전된 모양을 정확하게 캡처하기 어렵습니다. OBB(Oriented Bounding Box) 감지는 객체 주위에 꼭 맞게 회전하는 상자를 사용하여 이 문제를 해결하고, 각도에 맞춰 보다 정확한 감지를 수행합니다.
항구 모니터링과 관련하여 YOLO11의 OBB 감지 지원은 선박의 방향에 관계없이 선박을 정확하게 식별하고 추적하는 데 도움이 되어 항구에 들어가거나 나가는 모든 선박이 적절하게 모니터링되도록 합니다. 이 정확한 감지는 선박 위치 및 이동에 대한 실시간 정보를 제공하며 이는 혼잡한 항구를 관리하고 충돌을 방지하는 데 매우 중요합니다.
포즈 추정은 객체의 움직임을 이해하기 위해 관절, 팔다리 또는 기타 마커와 같은 주요 지점을 추적하는 컴퓨터 비전 기술입니다. 전체 객체 또는 신체를 하나의 완전한 단위로 취급하는 대신 이 방법은 주요 부분으로 분해합니다. 이를 통해 움직임, 제스처 및 상호 작용을 자세히 분석할 수 있습니다.
이 기술의 일반적인 응용 분야 중 하나는 인간 자세 추정입니다. 다양한 신체 부위의 위치를 실시간으로 추적하여 사람이 어떻게 움직이는지 명확하게 보여줍니다. 이 정보는 제스처 인식 및 활동 모니터링에서 스포츠의 성능 분석에 이르기까지 다양한 목적으로 사용할 수 있습니다.
마찬가지로, 물리 치료에서 치료사는 인간 자세 추정 및 YOLO11을 사용하여 운동 중 환자의 움직임을 모니터링할 수 있습니다. 이를 통해 각 움직임이 올바르게 수행되는지 확인하면서 시간 경과에 따른 진행 상황을 추적할 수 있습니다.
이제 YOLO11에서 지원하는 모든 컴퓨터 비전 작업을 자세히 살펴보았으므로 YOLO11이 이러한 작업을 어떻게 지원하는지 살펴보겠습니다.
YOLO11은 단일 모델이 아니라 특정 컴퓨터 비전 작업을 위해 설계된 특수 모델 변형 제품군입니다. 이를 통해 YOLO11은 광범위한 애플리케이션에 적용할 수 있는 다용도 도구가 됩니다. 또한 사용자 정의 데이터 세트에서 이러한 모델을 미세 조정하여 프로젝트의 고유한 문제를 해결할 수도 있습니다.
다음은 특정 비전 작업을 위해 사전 훈련된 YOLO11 모델 변형입니다.
각 변형은 다양한 크기로 제공되므로 사용자는 특정 요구 사항에 맞는 속도와 정확성 간의 적절한 균형을 선택할 수 있습니다.
컴퓨터 비전 작업은 기계가 세상을 이해하고 상호 작용하는 방식을 바꾸고 있습니다. 이미지와 비디오를 핵심 요소로 분해함으로써 이러한 기술은 객체, 움직임 및 상호 작용을 자세히 분석하는 것을 더 쉽게 만듭니다.
교통 안전 및 스포츠 경기력 향상부터 산업 공정 간소화에 이르기까지, YOLOv8과 같은 모델은 혁신을 주도하는 실시간 인사이트를 제공할 수 있습니다. Vision AI가 계속 발전함에 따라, 우리가 시각적 데이터를 해석하고 사용하는 방식에서 점점 더 중요한 역할을 할 것입니다.
커뮤니티에 참여하고 GitHub 저장소를 방문하여 AI가 실제로 어떻게 사용되는지 확인하세요. 솔루션 페이지에서 라이선스 옵션을 살펴보고 농업 분야의 AI 및 제조 분야의 컴퓨터 비전에 대해 자세히 알아보세요.