Yolo 비전 선전
선전
지금 참여하기

YOLOE란 무엇인가요? 컴퓨터 비전 모델을 더욱 발전시키기

Abirami Vina

5분 분량

2025년 5월 8일

YOLOE를 사용하면 간단한 프롬프트나 사진을 사용하여 객체를 찾을 수 있습니다. 모델을 재훈련하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 가능하게 합니다.

객체 감지는 이미지나 비디오에서 객체를 식별하고 위치를 파악하는 것을 목표로 하는 핵심 컴퓨터 비전 작업입니다. 이는 기계가 시각적 데이터를 이해하고 해석할 수 있도록 하는 인공 지능(AI) 분야인 컴퓨터 비전의 중요한 부분입니다. 예를 들어 객체 감지는 사진에서 자동차를 식별하거나 비디오 피드에서 사람을 찾는 데 도움이 될 수 있습니다.

물체 감지와 같은 컴퓨터 비전 작업을 지원하는 가장 잘 알려진 모델 시리즈 중 하나는 YOLO (You Only Look Once) 모델 시리즈입니다. 속도와 정확성을 위해 설계된 YOLO 모델은 시간이 지남에 따라 지속적으로 개선되었습니다. 예를 들어, 최신 버전 중 하나입니다, Ultralytics YOLO11은 실제 상황에서 우수한 성능을 발휘하여 보다 복잡한 환경에서도 정확한 결과를 제공합니다.

이러한 발전을 더욱 촉진하기 위해 YOLOE라는 새로운 모델은 YOLO 모델의 기능을 확장하는 것을 목표로 합니다. 새로운 물체를 인식하기 위해 재학습이 필요한 기존 모델과 달리, YOLOE는 간단한 텍스트나 이미지 프롬프트에 따라 이전에 보지 못한 물체를 detect 수 있어 변화하는 환경에 훨씬 더 잘 적응할 수 있습니다.

이 글에서는 YOLOE의 특징과 이전 YOLO 모델과의 비교, 그리고 지금 바로 사용할 수 있는 방법에 대해 자세히 살펴보겠습니다. 지금 바로 시작해보세요!

YOLOE 개요

YOLOE는 객체 감지를 한 단계 더 발전시킨 컴퓨터 비전 모델입니다. 칭화대학교 연구원들이 2025년 3월에 소개했습니다. 기존 모델과 YOLOE를 차별화하는 것은 개방형 어휘 감지 사용입니다. 

대부분의 모델은 고정된 객체 목록을 인식하도록 학습되지만, YOLOE를 사용하면 짧은 설명이나 예시 이미지를 사용하여 찾을 대상을 지정할 수 있습니다. 예를 들어 “녹색 배낭”을 검색하는 경우 해당 설명을 입력하거나 모델에 사진을 보여주면 YOLOE가 장면 내에서 해당 배낭을 찾습니다.

또한, YOLOE는 별도의 지시가 없어도 일상적인 많은 사물을 스스로 detect 수 있습니다. 한 번도 본 적이 없는 물체를 인식하는 이 기능을 제로 샷 감지라고 합니다. 이 기능은 작업이나 관심 대상이 예기치 않게 변경될 수 있는 동적인 환경에서 특히 유용합니다.

그림 1. YOLOE의 기능 살펴보기.

YOLOE의 주요 기능

YOLOE는 실제 애플리케이션에서 성능을 향상시키도록 설계된 광범위한 기능을 지원합니다. 구조화된 입력과 비구조화된 입력을 모두 처리할 수 있는 YOLOE는 객체 감지 및 분할에 대한 새로운 가능성을 열어줍니다. 

이 모델이 제공하는 주요 기능은 다음과 같습니다.

  • 프롬프트 기반 감지: YOLOE는 짧은 텍스트 프롬프트 또는 예제 이미지를 기반으로 객체를 검색할 수 있습니다. 즉, 작업이 변경될 때마다 모델을 다시 학습할 필요가 없습니다. 모델에 찾고 있는 것을 설명하거나 보여주기만 하면 됩니다.
  • 인스턴스 분할: YOLOE는 객체 주위에 경계 상자를 그리는 것 외에도 인스턴스 분할을 사용하여 정확한 모양을 윤곽선으로 표시할 수 있습니다. 이는 객체가 겹치거나 객체의 정확한 경계를 알아야 할 때 특히 유용합니다.
  • 프롬프트 없는 객체 인식: YOLOE는 특정 지침 없이도 객체를 인식할 수 있습니다. 미리 학습된 설명 세트를 사용하여 객체를 빠르게 식별하므로 프로세스가 더 빠르고 효율적입니다.

다른 욜로 모델과 YOLO 비교하기

이제 욜로에 대해 더 잘 이해했으니, YOLO 비슷한 몇 가지 모델을 살펴봅시다. 

컴퓨터 비전이 발전함에 따라 YOLO 모델도 발전했습니다. 예를 들어 Ultralytics YOLOv8 은 세분화 및 분류와 같은 새로운 작업을 지원했으며, 이후 버전인 Ultralytics YOLO11 더 광범위한 작업에 대한 정확도와 성능을 개선하는 데 중점을 두었습니다.

또한 2024년 1월에 출시된 YOLO 사용자가 찾고자 하는 대상을 설명할 수 있도록 서면 프롬프트를 사용할 수 있는 기능을 도입했습니다. YOLO 제로 샷 감지를 위한 훌륭한 옵션이었지만 인스턴스 세분화 및 시각적 프롬프트 지원과 같은 기능이 부족했습니다. 

YOLOE는 이러한 기능을 추가하고 유연성과 성능을 개선하며 실제 컴퓨터 비전 애플리케이션을 위한 더욱 영향력 있는 도구를 제공함으로써 YOLO 기반으로 합니다.

그림 2. YOLO YOLOE는 모두 제로 샷 감지를 지원합니다.

Ultralytics Python 패키지와 함께 YOLOE 사용

특정 개체를 detect 이미지의 모든 것을 탐색하든, YOLOE를 시작하는 것은 간단합니다. 이 모델은 Ultralytics Python 패키지에서 지원되므로 프로젝트에 쉽게 통합할 수 있습니다. 이제 사용 방법을 살펴보겠습니다.

Ultralytics 패키지 설치

첫 번째 단계는 'pip'와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치하는 것입니다. 터미널이나 명령 프롬프트에서 "pip install ultralytics" 명령을 실행하면 됩니다.

패키지가 설치되면 모델을 로드하고, 예측을 수행하고, 다양한 탐지 모드로 실험하는 데 필요한 모든 것을 갖추게 됩니다. 설치 중에 문제가 발생하는 경우, 공식 Ultralytics 설명서에서 유용한 문제 해결 섹션을 참조하세요. 

YOLOE를 사용하여 예측을 실행하는 방법에는 몇 가지가 있습니다. 예측 실행은 학습된 모델을 사용하여 이미지나 비디오 내에서 객체를 식별하고 찾는 것을 의미합니다. 이러한 다양한 방법을 통해 특정 요구 사항에 따라 모델과 상호 작용하는 방식을 사용자 정의할 수 있습니다.

이러한 방법들을 하나씩 차례대로 논의해 보겠습니다.

텍스트 또는 이미지 프롬프트로 특정 객체 감지

YOLOE는 짧은 텍스트 설명을 기반으로 사물을 detect 수 있습니다. 예를 들어, 움직이는 말을 찾고 있다면 "말 걷기"와 같은 문구를 사용할 수 있습니다.

시작하려면 먼저 사전 훈련된 YOLOE 모델을 로드하고 아래 코드 스니펫에 표시된 대로 프롬프트(모델이 찾을 내용에 대한 설명)를 설정합니다.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

모델과 프롬프트가 설정되면 이미지 또는 비디오에서 모델을 실행할 수 있습니다. 코드에서 파일 경로를 이미지 또는 비디오 파일 경로로 바꿉니다.

results = model.predict("path/to/your/image.jpg")
results[0].show()

프롬프트에 따라 감지된 객체가 명확하게 표시된 이미지가 표시됩니다. 찾고 있는 항목에 따라 "빨간색 여행 가방", "자전거" 또는 "얼룩말"과 같이 프롬프트를 변경하여 다른 객체를 검색할 수 있습니다.

그림 3. 텍스트 프롬프트를 사용하여 특정 개체를 detect 위해 YOLOE를 사용하는 예제입니다.

마찬가지로, 이미지를 사용하여 Ultralytics Python 패키지로 YOLOE를 프롬프트할 수 있습니다. 시각적 프롬프트 모드에서 모델은 이미지를 사용하여 다른 장면에서 비슷한 모양의 항목을 찾습니다. 이 모드는 설명하기 어렵거나 명확한 레이블이 없는 객체에 특히 유용합니다. 

이에 대한 코드를 더 자세히 살펴보려면 Ultralytics 설명서를 참조하세요.

YOLOE를 사용한 일반 객체 감지

어떤 경우에는 정확히 무엇을 검색해야 할지 모르거나 특정 객체를 찾고 있지 않을 수도 있습니다. 이러한 경우에 프롬프트가 필요 없는 모드가 유용합니다. 

이 옵션을 사용하면 설명이나 예시 이미지를 입력할 필요가 없습니다. YOLOE는 이미지를 자체적으로 분석하고 사람, 동물, 가구 또는 일상적인 물건과 같이 인식할 수 있는 모든 것을 감지합니다.

모델에 특정 지침을 제공하지 않고도 장면을 탐색할 수 있는 유용한 방법입니다. 붐비는 방을 스캔하든 활동이 많은 영상을 검토하든 프롬프트 없는 모드를 사용하면 이미지에 있는 내용을 빠르게 확인할 수 있습니다. 

다음 코드를 사용하여 프롬프트 없는 모드에서 YOLOE를 실행할 수 있습니다. 먼저 모델을 로드한 다음 이미지를 처리하고 자동으로 객체를 탐지합니다. 마지막으로 결과를 표시하고 탐지된 객체를 강조 표시합니다. 

파일 경로는 실제 이미지 파일 경로로 변경해야 합니다.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

아래 이미지는 프롬프트 없는 모드에서 YOLOE가 detect 수 있는 항목의 예시입니다.

Fig 4. 프롬프트 없는 모드에서 YOLOE 사용.

YOLOE의 실시간 애플리케이션

텍스트 및 이미지 프롬프트 모두에 응답할 수 있는 YOLOE의 기능은 실시간 애플리케이션을 위한 안정적인 도구입니다. 이러한 유연성은 타이밍과 정확성이 필수적인 빠르게 변화하는 환경에서 특히 유용합니다. 

YOLOE가 어떻게 사용될 수 있는지에 대한 몇 가지 실제 사례를 살펴보겠습니다.

수하물 처리 개선: 실시간 수하물 감지

붐비는 공항에서 특정 수하물을 찾는 것은 특히 분실된 가방을 처리할 때 어려울 수 있습니다. YOLOE는 라이브 비디오를 스캔하고 "빨간 가방"과 같은 간단한 프롬프트를 기반으로 품목을 빠르게 식별하여 이 프로세스를 간소화할 수 있습니다. 

가방이 분실되거나 잘못 놓인 경우 직원은 프롬프트를 쉽게 변경하여 '검은색 여행 가방'과 같은 다른 품목을 검색할 수 있습니다. 이러한 즉각적인 적응 능력은 공항 직원이 긴 시간의 영상을 검토하거나 모델을 재훈련하지 않고도 올바른 수하물을 신속하게 찾을 수 있도록 도와 수하물 처리 및 분실 수하물 문제 해결을 훨씬 빠르고 효율적으로 만듭니다.

YOLOE를 이용한 공공장소 모니터링

혼잡한 시장이나 카페와 같은 공공 장소의 감시 영상에는 하루 종일 변화하는 사람, 사물 및 활동이 혼합되어 있는 경우가 많습니다. YOLOE는 프롬프트가 필요 없는 모드를 사용하여 이 영상을 실시간으로 분석하고 특정 지침 없이도 가방, 테이블 또는 자전거와 같은 항목을 자동으로 감지할 수 있습니다.

그림 5. YOLOE는 복잡한 공공장소에서 다양한 물체를 detect 수 있습니다.

이는 보안팀이 무인 물품을 발견하거나 군중의 움직임을 track 데 특히 유용합니다. 한 번에 여러 개의 물체를 detect YOLOE의 기능 덕분에 이벤트나 바쁜 기간 동안 공공 장소를 더 쉽게 관리할 수 있어 팀이 정보를 파악하고 대응할 수 있습니다.

YOLOE의 장점과 단점

컴퓨터 비전 애플리케이션에 YOLOE를 사용할 때의 주요 이점은 다음과 같습니다.

  • 실시간 성능: YOLOE는 빠르고 효율적인 처리에 최적화되어 라이브 비디오 스트림이나 혼잡한 공공 장소와 같은 동적 환경에서도 실시간 감지가 가능합니다.
  • 확장성: YOLOE는 확장 가능하며 보안 및 감시에서 소매, 의료, 자율 주행 차량에 이르기까지 광범위한 애플리케이션에서 잘 작동합니다.
  • 간편한 사용: YOLOE는 Ultralytics Python 패키지에서 지원되므로 기존 컴퓨터 비전 프로젝트에 쉽게 통합할 수 있습니다.

그러나 YOLOE를 사용할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 고려해야 할 몇 가지 요소는 다음과 같습니다.

  • 충분한 훈련 데이터 필요: YOLOE는 제로샷 감지를 지원하지만, 보이지 않는 객체에 대한 성능은 훈련 데이터로부터 얼마나 잘 일반화되는지에 따라 달라집니다. 경우에 따라 고도로 전문화된 작업에서 제대로 수행하려면 추가 데이터 또는 미세 조정이 필요할 수 있습니다.
  • 입력 품질에 민감합니다: 모델의 정확도는 저화질 이미지나 비디오의 영향을 받을 수 있습니다. 흐릿하거나 조명이 어두운 입력은 모델의 물체를 정확하게 detect 능력을 저하시킬 수 있으므로 최적의 성능을 위해서는 고품질 입력이 중요합니다.

주요 내용

YOLOE는 사용자가 텍스트 또는 이미지 프롬프트로 감지를 안내할 수 있도록 하여 컴퓨터 비전에 더 많은 유연성을 제공합니다. 장면이 빠르게 변하고 재학습이 선택 사항이 아닌 실제 상황에서 잘 작동합니다.

수하물 처리에서 공공 공간 모니터링에 이르기까지 YOLOE는 새로운 작업에 쉽게 적응합니다. AI가 더욱 접근하기 쉬워짐에 따라 YOLOE와 같은 모델은 더 많은 산업에서 실용적이고 효율적인 방식으로 비전 기술을 사용하는 데 도움이 됩니다.

커뮤니티에 가입하고 GitHub 저장소를 탐색하여 AI 혁신에 대해 자세히 알아보세요. 솔루션 페이지에서 리테일 분야의 AI헬스케어 분야의 컴퓨터 비전과 같은 분야의 최신 발전을 찾아보세요. 라이선스 옵션을 확인하고 오늘 컴퓨터 비전을 시작하세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기