2025년 최고의 객체 탐지 모델

올해 초, 인공지능 및 기계학습 분야의 선구자인 앤드류 응(Andrew Ng)은 에이전트 기반 객체 탐지(agentic object detection) 개념을 소개했다. 이 접근법은 방대한 훈련 데이터 없이도 텍스트 프롬프트를 기반으로 추론 에이전트를 활용해 detect .

이미지와 동영상 속 물체를 거대한 라벨링 데이터셋 없이 식별할 수 있다는 것은 더 스마트하고 유연한 컴퓨터 비전 시스템으로 나아가는 한 걸음이다. 그러나 행위적 비전 AI는 아직 초기 단계에 머물러 있다.

이미지 내 사람이나 도로 표지판을 감지하는 등 일반적인 작업은 처리할 수 있지만, 보다 정밀한 컴퓨터 비전 응용 분야는 여전히 기존 객체 탐지 모델에 의존합니다. 이러한 모델들은 대규모로 세심하게 라벨링된 데이터셋을 통해 훈련되어 정확히 무엇을 찾아야 하는지와 객체의 위치를 학습합니다.

‍

전통적인 객체 탐지는 인식(객체가 무엇인지 식별)과 위치 파악(이미지 내 정확한 위치 결정)을 모두 제공하기 때문에 필수적입니다. 이러한 조합을 통해 기계는 자율주행 차량부터 산업 자동화, 의료 진단에 이르기까지 복잡한 실제 세계 작업을 안정적으로 수행할 수 있습니다.

기술 발전 덕분에 객체 탐지 모델은 계속해서 개선되어 더 빠르고 정확해지며 실제 환경에 더 적합해지고 있습니다. 이 글에서는 현재 이용 가능한 최고의 객체 탐지 모델 몇 가지를 살펴보겠습니다. 시작해 보겠습니다!

물체 탐지의 필요성

이미지 분류와 같은 컴퓨터 비전 작업은 이미지에 자동차, 사람 또는 다른 물체가 포함되어 있는지 판단하는 데 사용될 수 있습니다. 그러나 이러한 작업은 물체가 이미지 내에서 어디에 위치하는지 파악할 수는 없습니다.

여기서 객체 탐지가 유용한 통찰력을 제공할 수 있습니다. 객체 탐지 모델은 어떤 객체가 존재하는지 식별할 뿐만 아니라 정확한 위치를 특정할 수 있습니다. 로컬라이제이션으로 알려진 이 과정은 기계가 장면을 더 정확하게 이해하고 자율주행 차량을 정지시키거나 로봇 팔을 안내하거나 의료 영상에서 특정 영역을 강조 표시하는 등 상황에 맞게 적절히 대응할 수 있게 합니다.

딥 러닝의 부상은 객체 탐지 방식을 혁신적으로 변화시켰습니다. 수작업으로 코딩된 규칙에 의존하는 대신, 현대 모델들은 주석과 시각적 데이터로부터 직접 패턴을 학습합니다. 이러한 데이터셋은 모델들에게 객체의 외관, 주로 나타나는 위치, 그리고 작은 객체, 복잡한 장면, 변화하는 조명 조건과 같은 도전 과제를 처리하는 방법을 가르칩니다.

사실, 최신 객체 탐지 시스템은 detect 객체를 동시에 정확하게 detect 수 있습니다. 이로 인해 객체 탐지 기술은 자율 주행, 로봇 공학, 의료, 산업 자동화 같은 분야에서 핵심 기술로 자리매김하고 있습니다.

객체 탐지 작업의 작동 방식

객체 탐지 모델의 입력은 카메라, 비디오 프레임 또는 의료 스캔에서 비롯될 수 있는 이미지입니다. 입력 이미지는 시각적 데이터의 패턴을 인식하도록 훈련된 신경망, 일반적으로 컨볼루션 신경망(CNN)을 통해 처리됩니다.

네트워크 내부에서 이미지는 단계별로 분석됩니다. 모델은 감지한 특징을 바탕으로 어떤 객체가 존재하는지, 그리고 어디에 나타나는지를 예측합니다.

이러한 예측은 감지된 각 객체 주위에 그려진 직사각형인 바운딩 박스로 표현됩니다. 모든 바운딩 박스에 대해 모델은 클래스 레이블(예: 자동차, 사람, 개)과 예측에 대한 확신을 나타내는 신뢰도 점수(확률로도 생각할 수 있음)를 할당합니다.

그림 2. 경계 상자를 사용하여 객체 탐지 예측 결과를 시각화할 수 있다.

‍

전체 프로세스는 특징 추출에 크게 의존합니다. 모델은 가장자리, 모양, 질감 및 기타 구별되는 특성 같은 유용한 시각적 패턴을 식별하도록 학습합니다. 이러한 패턴은 특징 맵에 인코딩되어 네트워크가 여러 세부 수준에서 이미지를 이해하는 데 도움을 줍니다.

물체 탐지: 2단계 방식과 단일 단계 방식

모델 아키텍처에 따라 객체 탐지기는 속도, 정확도, 복잡성 간의 균형을 맞추며 객체를 위치 파악하기 위한 다양한 전략을 사용합니다.

많은 객체 탐지 모델, 특히 Faster R-CNN과 같은 2단계 탐지기는 관심 영역(ROI)이라 불리는 이미지의 특정 부분에 집중합니다. 이러한 영역에 집중함으로써 모델은 모든 픽셀을 동일하게 분석하기보다는 객체가 포함될 가능성이 더 높은 영역을 우선시합니다.

반면 초기 YOLO 같은 단일 단계 모델은 2단계 모델처럼 특정 관심 영역(ROI)을 선별하지 않습니다. 대신 이미지를 격자로 분할하고, 앵커 박스(anchor boxes)라 불리는 사전 정의된 박스와 특징 맵을 함께 사용하여 한 번의 패스로 전체 이미지에서 객체를 예측합니다.

최근 첨단 객체 탐지 모델들은 앵커 프리(anchor-free) 접근법을 탐구하고 있다. 사전 정의된 앵커 박스에 의존하는 기존 단일 단계 모델과 달리, 앵커 프리 모델은 특징 맵으로부터 직접 객체의 위치와 크기를 예측한다. 이는 아키텍처를 단순화하고, 계산 오버헤드를 줄이며, 특히 다양한 모양과 크기의 객체를 탐지할 때 성능을 향상시킬 수 있다.

최고의 객체 탐지 모델 살펴보기

현재 다양한 객체 탐지 모델이 존재하며, 각각 특정 목표를 염두에 두고 설계되었습니다. 일부는 실시간 성능에 최적화되어 있는 반면, 다른 모델들은 최고 정확도 달성에 중점을 둡니다. 컴퓨터 비전 솔루션에 적합한 모델을 선택하는 것은 주로 특정 사용 사례와 성능 요구 사항에 따라 달라집니다.

다음으로, 2025년 최고의 객체 탐지 모델 몇 가지를 살펴보겠습니다.

1. Ultralytics YOLO

현재 가장 널리 사용되는 객체 탐지 모델 계열 중 하나는 Ultralytics )의YOLO 계열입니다. YOLO(You Only Look Once) YOLO 강력한 탐지 성능을 제공하면서도 빠르고 안정적이며 사용하기 쉬워 다양한 산업 분야에서 인기를 끌고 있습니다.

Ultralytics YOLO 에는 다음이 포함됩니다. Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11, 그리고 곧 출시될 Ultralytics 제공하여 다양한 성능 및 사용 사례 요구 사항에 맞는 옵션을 제공합니다. 경량 설계와 속도 최적화 덕분에 Ultralytics YOLO 실시간 감지에 이상적이며, 제한된 컴퓨팅 성능과 메모리를 가진 에지 장치에 배포할 수 있습니다.

그림 3. 객체 탐지를YOLO11 Ultralytics YOLO11 사용 (출처)

‍

기본적인 객체 탐지를 넘어, 이 모델들은 매우 다재다능합니다. 또한 픽셀 단위로 객체를 윤곽선으로 표시하는 인스턴스 분할이나 사람 또는 물체의 주요 지점을 식별하는 자세 추정과 같은 작업도 지원합니다. 이러한 유연성 덕분에 Ultralytics YOLO 농업과 물류부터 소매 및 제조에 이르기까지 다양한 분야에서 선호되는 선택지가 됩니다.

Ultralytics YOLO 인기가 높은 또 다른 핵심 이유는 Ultralytics Python 덕분입니다. 이 패키지는 모델 훈련, 미세 조정 및 배포를 위한 간편하고 사용자 친화적인 인터페이스를 제공합니다. 개발자는 사전 훈련된 가중치로 시작하여 자체 데이터셋에 맞게 모델을 맞춤화하고, 단 몇 줄의 코드만으로 배포할 수 있습니다.

2. RT-DETR RT-DETRv2

RT-DETR(실시간 탐지 트랜스포머)와 최신 버전인 RT-DETRv2는 실시간 사용을 위해 설계된 객체 탐지 모델입니다. 기존 모델들과 달리, 이 모델들은 이미지를 입력받아 비최대 억제(NMS)를 거치지 않고도 최종 탐지 결과를 직접 제공할 수 있습니다.

NMS 모델이 동일한 객체를 여러 번 예측할 때 중복되는 박스를 제거하는 NMS . NMS 생략하면 탐지 과정이 더 간단하고 NMS .

이 모델들은 CNN과 트랜스포머를 결합합니다. CNN은 가장자리나 형태 같은 시각적 세부 사항을 찾아내는 반면, 트랜스포머는 전체 이미지를 한 번에 살펴보고 서로 다른 부분들이 어떻게 연관되는지 이해할 수 있는 신경망의 한 유형입니다. 이러한 포괄적인 이해를 통해 모델은 서로 가까이 있거나 겹쳐진 detect 수 있습니다.

RT-DETRv2는 다중 스케일 탐지 기능으로 소형 및 대형 객체를 모두 찾아내고 복잡한 장면을 더 잘 처리하는 등 기존 모델을 개선했습니다. 이러한 변경 사항으로 모델의 속도는 유지하면서 정확도를 높였습니다.

3. RF-DETR

RF-DETR은 트랜스포머 기반의 실시간 모델로, 트랜스포머 아키텍처의 정확성과 실제 응용에 필요한 속도를 결합하도록 설계되었습니다. RT-DETR 및 RT-DETRv2와 마찬가지로, 전체 이미지를 분석하기 위해 트랜스포머를 사용하고, 가장자리, 모양, 질감과 같은 정교한 시각적 특징을 추출하기 위해 CNN을 사용합니다.

이 모델은 입력 이미지에서 직접 물체를 예측하며, 앵커 박스와 비최대 억제 단계를 생략합니다. 이는 탐지 과정을 단순화하고 추론 속도를 유지합니다. RF-DETR은 인스턴스 분할도 지원하여 경계 상자 예측 외에도 픽셀 단위로 물체를 윤곽선으로 표시할 수 있습니다.

4. 효율적 탐지

2019년 말 출시된 EfficientDet는 효율적인 확장성과 고성능을 위해 설계된 객체 탐지 모델입니다. EfficientDet의 차별점은 복합 확장(compound scaling)으로, 입력 해상도, 네트워크 깊이, 네트워크 너비를 동시에 조정하는 방식입니다. 이는 단일 요소만 조정하는 기존 방식과 달리, 고성능 작업을 위해 모델을 확장하거나 경량 배포를 위해 축소할 때도 안정적인 정확도를 유지하도록 돕습니다.

EfficientDet의 또 다른 핵심 구성 요소는 효율적인 피처 피라미드 네트워크(FPN)로, 이를 통해 모델은 다양한 스케일에서 이미지를 분석할 수 있습니다. 이러한 다중 스케일 분석은 서로 다른 크기의 물체를 탐지하는 데 매우 중요하며, EfficientDet가 동일한 이미지 내에서 작은 물체와 큰 물체를 모두 안정적으로 식별할 수 있게 합니다.

5. PP-YOLOE+

2022년에 출시된 PP-YOLOE+는 YOLO 스타일의 객체 탐지 모델로, 단일 패스로 이미지를 처리하며 객체를 탐지하고 분류합니다. 이 접근 방식은 높은 정확도를 유지하면서도 빠른 속도를 제공하여 실시간 애플리케이션에 적합합니다.

PP-YOLOE+의 주요 개선점 중 하나는 작업 정렬 학습으로, 모델의 신뢰도 점수가 물체의 위치 정확도를 반영하도록 돕습니다. 이는 특히 작거나 겹치는 물체를 감지할 때 유용합니다.

‍

이 모델은 또한 분리된 헤드 아키텍처를 사용하여 객체 위치 예측과 클래스 레이블 예측 작업을 분리합니다. 이를 통해 객체를 정확히 분류하면서 경계 상자를 더 정밀하게 그릴 수 있습니다.

6. 접지DINO

GroundingDINO는 비전과 언어를 결합한 트랜스포머 기반 객체 탐지 모델입니다. 고정된 범주 집합에 의존하는 대신, 사용자가 자연어 텍스트 프롬프트를 통해 detect 수 있도록 합니다.

이미지의 시각적 특징을 텍스트 설명과 정렬함으로써, 모델은 훈련 데이터에 해당 정확한 레이블이 없더라도 물체를 찾아낼 수 있습니다. 이는 "헬멧을 쓴 사람"이나 "건물 근처의 빨간 차"와 같은 설명으로 모델에 프롬프트를 제공하면, 일치하는 물체 주변에 정확한 바운딩 박스를 생성한다는 의미입니다.

또한 GroundingDINO는 제로샷 탐지 기능을 지원함으로써 새로운 사용 사례마다 모델을 재훈련하거나 미세 조정할 필요성을 줄여, 광범위한 응용 분야에서 높은 유연성을 제공합니다. 이러한 언어 이해와 시각적 인식의 결합은 상호작용적이고 적응형 AI 시스템에 대한 새로운 가능성을 열어줍니다.

객체 탐지기를 평가하는 데 사용되는 일반적인 지표

다양한 객체 탐지 모델을 비교할 때, 어떤 모델이 실제로 가장 우수한 성능을 보이는지 판단하는 방법이 궁금할 수 있습니다. 이는 좋은 질문입니다. 모델 구조와 데이터 품질 외에도 성능에 영향을 미치는 요소가 많기 때문입니다.

연구자들은 모델을 일관되게 평가하고 결과를 비교하며 속도와 정확도 간의 상충 관계를 이해하기 위해 공유된 벤치마크와 표준 성능 지표를 자주 활용합니다. 특히 COCO 같이 많은 객체 탐지 모델이 동일한 데이터셋에서 평가되기 때문에 표준 벤치마크는 매우 중요합니다.

탐지 정확도와 속도 측정

다음은 객체 탐지 모델을 평가하는 데 사용되는 일반적인 지표들을 자세히 살펴본 것입니다:

교집합 대비 합집합(IoU): 이 지표는 예측된 경계 상자가 이미지 내 실제 객체와 얼마나 겹치는지를 측정합니다. 모델이 그린 상자와 데이터셋에 라벨링된 객체의 위치인 진실 상자를 비교합니다. IoU 두 상자의 겹치는 영역을 합집합 영역으로 나눈 값으로 IoU . IoU 높을수록 모델이 박스를 더 정확하게 배치하고 있음을 IoU , IoU 예측 정확도가 떨어짐을 IoU . 간단히 말해, IoU 모델의 예측이 실제 객체 위치와 얼마나 근접한지를 IoU .‍
평균 정밀도(mAP)): 객체 탐지 성능을 종합적으로 평가하는 주요 지표입니다. 모델이 정확히 탐지한 객체 수와 다양한 신뢰도 수준 및 객체 범주에 걸친 탐지 정확도를 모두 고려합니다.‍
초당 프레임 수(FPS) 및 지연 시간: FPS는 모델이 1초 동안 처리할 수 있는 이미지 또는 비디오 프레임 수를 나타냅니다. 예를 들어, 30 FPS로 실행되는 모델은 초당 30개의 프레임을 처리할 수 있습니다. 높은 FPS는 시스템이 더 빠르게 반응할 수 있음을 의미하며, 이는 라이브 비디오, 교통 모니터링 또는 로봇 공학과 같은 사용 사례에 중요합니다. 반면 지연 시간은 모델이 단일 이미지나 프레임을 수신한 시점부터 결과가 준비될 때까지 처리하는 데 걸리는 시간을 측정합니다.

객체 탐지 알고리즘 사용의 장단점

실제 응용 분야에서 객체 탐지 모델을 사용할 때의 주요 장점은 다음과 같습니다:

다양한 산업 분야에 적용 가능: 객체 탐지 기술은 교통 모니터링과 소매 분석부터 의료, 농업, 제조업에 이르기까지 광범위한 사용 사례에 적용될 수 있습니다.
수동 작업 감소: 시각적 검사 및 모니터링 작업을 자동화하면 지속적인 인적 감독의 필요성이 줄어들고 팀이 더 높은 가치의 업무에 집중할 수 있도록 지원합니다.
오픈소스 생태계의 이점: GitHub의 활발한 오픈소스 커뮤니티와 리소스를 통해 사전 훈련된 모델에 쉽게 접근하고, 실험하며, 솔루션을 맞춤화할 수 있습니다.

이러한 장점에도 불구하고, 객체 탐지 모델의 성능에 영향을 미칠 수 있는 실질적인 한계가 존재합니다. 고려해야 할 몇 가지 중요한 요소는 다음과 같습니다:

고품질 데이터 요구 사항: 객체 탐지 모델은 훈련을 위해 방대하고 정확하게 주석이 달린 데이터셋에 의존합니다. 이러한 데이터를 생성하고 유지하는 것은 시간이 많이 소요되고 비용이 많이 들며 확장하기 어려울 수 있습니다.
계산 요구 사항: 높은 탐지 정확도를 제공하는 모델은 일반적으로 훈련 및 실시간 배포 과정에서 상당한 처리 능력이 필요합니다. 이는 대개 고성능 GPU 사용을 의미하며, 이로 인해 인프라 비용이 증가할 수 있습니다.
실제 환경 조건에 대한 민감도: 조명, 카메라 각도, 날씨, 혼잡한 장면 등의 변동은 탐지 성능에 영향을 미칠 수 있으므로 지속적인 테스트와 조정이 필요합니다.

주요 내용

컴퓨터 비전 프로젝트에 가장 적합한 객체 탐지 모델은 사용 사례, 데이터 구성, 성능 요구사항 및 하드웨어 제약 조건에 따라 달라집니다. 일부 모델은 속도에 최적화되어 있는 반면, 다른 모델은 정확도에 중점을 두며, 대부분의 실제 응용 분야에서는 두 가지의 균형이 필요합니다. 오픈소스 프레임워크와 GitHub의 활발한 커뮤니티 덕분에 이러한 모델들을 평가하고, 적용하며, 실용적인 용도로 배포하는 것이 점점 더 쉬워지고 있습니다.

자세한 내용은 GitHub 저장소를 살펴보세요. 커뮤니티에 참여하고 솔루션 페이지를 확인하여 의료 분야의 AI, 자동차 산업의 컴퓨터 비전과 같은 응용 사례를 알아보세요. Vision AI를 지금 바로 시작하기 위한 라이선스 옵션을 확인하세요.