컴퓨터 비전 응용 프로그램의 작동 원리 탐구
컴퓨터 비전의 응용 분야에 대해 심층적으로 다뤄보겠습니다. 또한 객체 감지 및 세그멘테이션과 같은 다양한 컴퓨터 비전 작업에 대해서도 살펴봅니다.

컴퓨터 비전 모델의 역사를 살펴보면서, 우리는 컴퓨터 비전이 어떻게 발전해 왔는지 그리고 오늘날의 고도화된 비전 모델로 이어지는 과정을 확인했습니다. Ultralytics YOLOv8과 같은 현대적인 모델들은 다양한 컴퓨터 비전 작업을 지원하며, 흥미로운 여러 분야에서 활용되고 있습니다.
본 글에서는 컴퓨터 비전과 비전 모델의 기초에 대해 알아봅니다. 모델의 작동 원리와 다양한 산업 전반에 걸친 응용 사례를 다룰 것입니다. 컴퓨터 비전 혁신은 도처에 존재하며 조용히 우리 세상을 변화시키고 있습니다. 하나씩 자세히 알아보겠습니다!
Link to this section컴퓨터 비전이란 무엇인가요?#
인공지능(AI)은 인간 지능의 일부를 복제하려는 많은 기술을 포괄하는 상위 개념입니다. 이러한 AI의 하위 분야 중 하나가 바로 컴퓨터 비전입니다. 컴퓨터 비전은 기계가 주변 환경을 보고, 관찰하며, 이해할 수 있도록 '눈'을 제공하는 데 초점을 맞춥니다.
인간의 시각과 마찬가지로, 컴퓨터 비전 솔루션은 객체를 구별하고 거리를 계산하며 움직임을 감지하는 것을 목표로 합니다. 하지만 평생의 경험을 통해 사물을 보고 이해하는 인간과 달리, 컴퓨터는 방대한 데이터와 고해상도 카메라, 복잡한 알고리즘에 의존합니다.

그림 1. 인간 시각과 컴퓨터 비전 비교.
컴퓨터 비전 시스템은 이미지나 영상과 같은 시각적 데이터를 엄청난 속도와 정확도로 처리하고 분석할 수 있습니다. 방대한 양의 시각 정보를 빠르고 정확하게 분석할 수 있는 능력 덕분에 컴퓨터 비전은 제조업부터 의료 분야에 이르기까지 다양한 산업에서 강력한 도구로 활용됩니다.
Link to this section비전 모델은 다양한 컴퓨터 비전 작업을 지원합니다#
컴퓨터 비전 모델은 모든 컴퓨터 비전 애플리케이션의 핵심입니다. 이 모델들은 기계가 시각 정보를 해석하고 이해할 수 있도록 설계된 딥러닝 기술 기반의 계산 알고리즘입니다. 비전 모델은 이미지 분류부터 객체 탐지에 이르는 중요한 컴퓨터 비전 작업을 수행하게 합니다. 이러한 작업들과 그 활용 사례를 더 자세히 살펴보겠습니다.
Link to this section이미지 분류#
이미지 분류는 이미지를 사전에 정의된 클래스나 범주로 분류하고 라벨링하는 과정입니다. YOLOv8과 같은 비전 모델은 라벨링된 대규모 데이터셋으로 학습할 수 있습니다. 학습 중에 모델은 각 클래스와 연관된 패턴과 특징을 인식하는 방법을 배웁니다. 학습이 완료되면 모델은 새로운 미지의 이미지 특징을 분석하고 학습된 패턴과 비교하여 카테고리를 예측할 수 있습니다.

그림 2. 이미지 분류의 예. (출처: towardsdatascience.com)
이미지 분류에는 다양한 유형이 있습니다. 예를 들어, 의료 영상을 다룰 때 이진 분류를 사용하여 사진을 건강함 또는 질병과 같은 두 그룹으로 나눌 수 있습니다. 또 다른 유형은 다중 클래스 분류입니다. 이는 돼지, 염소, 소와 같이 농장의 여러 동물을 분류하는 것처럼 많은 그룹으로 분류하는 데 도움을 줍니다. 또는 동물을 포유류와 조류로 분류한 다음 사자, 호랑이, 독수리, 참새와 같은 종으로 세분화하는 것처럼 동물을 그룹 및 하위 그룹으로 나누고 싶다면 계층적 분류가 가장 좋은 선택입니다.
Link to this section객체 탐지#
객체 탐지는 컴퓨터 비전을 사용하여 이미지와 영상 프레임 내 객체를 식별하고 위치를 파악하는 과정입니다. 객체 탐지는 객체 주위에 BBox를 그리는 객체 위치 파악과 각 객체의 카테고리를 식별하는 객체 분류라는 두 가지 작업으로 구성됩니다. BBox 주석을 기반으로 비전 모델은 각 객체 카테고리 특유의 패턴과 특징을 인식하는 법을 학습하며, 새로운 미지의 이미지에서 해당 객체의 존재와 위치를 예측할 수 있게 됩니다.

그림 3. 축구 경기장에서 선수를 감지하기 위해 사용되는 YOLOv8 객체 탐지.
객체 탐지는 스포츠부터 해양 생물학까지 다양한 산업에서 활용됩니다. 예를 들어, 유통 분야에서 Amazon의 Just Walk Out 기술은 고객이 집어 든 물건을 식별하여 체크아웃을 자동화하기 위해 객체 탐지를 사용합니다. 컴퓨터 비전과 센서 데이터의 결합을 통해 고객은 줄을 서서 기다릴 필요 없이 물건을 들고 나갈 수 있습니다.
작동 원리를 자세히 살펴보면 다음과 같습니다:
- 천장에 설치된 카메라는 매장 내 고객의 움직임을 포착하며, 이 영상 데이터는 비전 모델에 의해 실시간으로 처리됩니다.
- 객체 탐지는 고객이 집어 들어 바구니에 넣는 정확한 상품을 감지하여 가상 카트를 그에 맞춰 업데이트하는 데 사용됩니다.
- 선반에 설치된 무게 센서는 물건이 제거되거나 교체되는 것을 감지하여 정확도를 높입니다.
- 고객이 매장을 나갈 때, 객체 탐지와 얼굴 인식 기술을 사용하여 고객의 퇴장을 확인하고, 신용카드와 같은 결제 수단으로 자동 청구할 수 있습니다.
Link to this section시맨틱 및 인스턴스 세그멘테이션#
시맨틱 세그멘테이션과 인스턴스 세그멘테이션은 이미지를 의미 있는 세그먼트로 분할하는 데 도움을 주는 컴퓨터 비전 작업입니다. 시맨틱 세그멘테이션은 픽셀의 의미론적 의미를 기반으로 분류하며, 같은 범주 내의 모든 객체를 동일한 라벨을 가진 단일 개체로 처리합니다. 이는 '하늘'이나 '바다'처럼 셀 수 없는 객체나 '잎' 또는 '풀'과 같은 군집을 라벨링하는 데 적합합니다.
반면, 인스턴스 세그멘테이션은 감지된 각 객체에 고유한 라벨을 할당하여 동일 클래스의 개별 인스턴스를 구별할 수 있습니다. 개체의 수와 독립성이 중요한 셀 수 있는 객체를 세그멘테이션할 때 인스턴스 세그멘테이션을 사용할 수 있으며, 이를 통해 더욱 정밀한 식별과 구분이 가능합니다.

그림 4. 시맨틱 및 인스턴스 세그멘테이션 예시.
자율주행 자동차와 관련된 사례를 통해 시맨틱 세그멘테이션과 인스턴스 세그멘테이션의 차이를 더 명확히 이해할 수 있습니다. 시맨틱 세그멘테이션은 장면의 내용을 이해해야 하는 작업에 적합하며, 자율주행 차량에서 횡단보도나 교통 표지판 같은 도로 위 특징을 분류하는 데 사용될 수 있습니다. 한편, 인스턴스 세그멘테이션은 개별 보행자, 차량, 장애물을 각각 식별하는 데 사용될 수 있습니다.
Link to this section자세 추정#
포즈 추정은 이미지나 영상 내 객체 포즈의 키포인트를 탐지하고 추적하는 데 집중하는 컴퓨터 비전 작업입니다. 가장 일반적으로는 어깨와 무릎 같은 영역을 포함한 키포인트를 사용하는 인간 포즈 추정에 활용됩니다. 인간의 포즈를 추정하면 다양한 애플리케이션에서 중요한 행동과 움직임을 이해하고 인식하는 데 도움이 됩니다.

그림 5. YOLOv8을 이용한 포즈 추정 예시.
포즈 추정은 스포츠에서 운동선수의 움직임을 분석하는 데 사용될 수 있습니다. NBA는 경기 중 선수의 움직임과 위치를 연구하기 위해 포즈 추정을 활용합니다. 어깨, 팔꿈치, 무릎, 발목과 같은 키포인트를 추적함으로써 포즈 추정은 선수의 동작에 대한 상세한 인사이트를 제공합니다. 이러한 인사이트는 코치가 더 나은 전략을 개발하고, 훈련 프로그램을 최적화하며, 경기 중에 실시간으로 조정하는 데 도움을 줍니다. 또한, 이 데이터는 선수의 피로도와 부상 위험을 모니터링하여 전반적인 선수 건강과 경기력을 향상시키는 데 기여할 수 있습니다.
Link to this section회전된 BBox 객체 탐지#
회전된 BBox 객체 탐지(OBB)는 회전된 직사각형을 사용하여 이미지 내 객체를 정밀하게 식별하고 위치를 파악합니다. 이미지 축과 정렬되는 일반적인 BBox와 달리, OBB는 객체의 방향에 맞춰 회전합니다. 이는 수평이나 수직이 아닌 객체에 특히 유용합니다. 혼잡한 환경에서 객체가 겹치는 것을 방지하기 위해 회전된 객체를 정확히 찾아내고 격리하는 데 매우 효과적입니다.

그림 6. YOLOv8을 사용한 보트 항공 이미지에서의 회전된 BBox 탐지 예시.
해양 감시에서 선박을 식별하고 추적하는 것은 보안 및 자원 관리에 핵심입니다. OBB 탐지는 선박이 밀집해 있거나 다양한 각도로 배치되어 있을 때도 정밀한 위치 파악을 가능하게 합니다. 이는 항로를 모니터링하고, 해상 교통을 관리하며, 항만 운영을 최적화하는 데 도움을 줍니다. 또한 허리케인이나 기름 유출과 같은 사건 발생 후 선박과 인프라의 피해를 신속하게 식별하고 평가함으로써 재난 대응을 지원할 수 있습니다.
Link to this section객체 추적#
지금까지 이미지를 처리하는 컴퓨터 비전 작업을 다루었습니다. 객체 추적은 영상의 프레임 전반에 걸쳐 객체를 추적하는 컴퓨터 비전 작업입니다. 먼저 탐지 알고리즘을 사용하여 첫 번째 프레임에서 객체를 식별하고, 영상 전반에 걸쳐 이동함에 따라 그 위치를 지속적으로 따라갑니다. 객체 추적은 추적 정확도를 유지하기 위해 객체 탐지, 특징 추출, 동작 예측과 같은 기술을 포함합니다.

그림 7. YOLOv8을 사용한 물고기 추적.
YOLOv8과 같은 비전 모델은 해양 생물학에서 물고기를 추적하는 데 사용될 수 있습니다. 수중 카메라를 활용하여 연구원들은 자연 서식지 내 물고기의 움직임과 행동을 모니터링할 수 있습니다. 이 과정은 첫 번째 프레임에서 개별 물고기를 탐지하고 영상 전반에서 그 위치를 따라가는 것으로 시작합니다. 물고기 추적은 과학자들이 이동 패턴, 사회적 행동, 그리고 환경과의 상호작용을 이해하도록 돕습니다. 또한 물고기의 분포와 개체 수에 대한 인사이트를 제공하여 지속 가능한 어업 활동을 지원합니다.
Link to this section컴퓨터 비전에 대한 마지막 고찰#
컴퓨터 비전은 우리가 기술을 사용하고 세상과 상호작용하는 방식을 적극적으로 변화시키고 있습니다. 딥러닝 모델과 복잡한 알고리즘을 사용하여 이미지와 영상을 이해함으로써 컴퓨터 비전은 여러 산업이 프로세스를 간소화하도록 돕습니다. 객체 탐지 및 객체 추적과 같은 컴퓨터 비전 작업은 이전에는 상상하지 못했던 솔루션을 창조할 수 있게 합니다. 컴퓨터 비전 기술이 계속 발전함에 따라, 미래에는 훨씬 더 혁신적인 애플리케이션이 등장할 것입니다!
함께 배우고 성장해 봅시다! 저희 GitHub 저장소를 탐색하여 AI에 대한 기여 내용을 확인해 보세요. 저희가 어떻게 자율 주행 자동차 및 농업과 같은 산업을 AI로 재정의하고 있는지 확인해 보시기 바랍니다. 🚀






