YOLOE를 사용하면 간단한 프롬프트나 사진을 사용하여 객체를 찾을 수 있습니다. 모델을 재훈련하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 가능하게 합니다.
YOLOE를 사용하면 간단한 프롬프트나 사진을 사용하여 객체를 찾을 수 있습니다. 모델을 재훈련하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 가능하게 합니다.
객체 감지는 이미지나 비디오에서 객체를 식별하고 위치를 파악하는 것을 목표로 하는 핵심 컴퓨터 비전 작업입니다. 이는 기계가 시각적 데이터를 이해하고 해석할 수 있도록 하는 인공 지능(AI) 분야인 컴퓨터 비전의 중요한 부분입니다. 예를 들어 객체 감지는 사진에서 자동차를 식별하거나 비디오 피드에서 사람을 찾는 데 도움이 될 수 있습니다.
객체 탐지와 같은 컴퓨터 비전 작업을 지원하는 가장 잘 알려진 모델 시리즈 중 하나는 YOLO(You Only Look Once) 모델 시리즈입니다. 속도와 정확성을 위해 설계된 YOLO 모델은 시간이 지남에 따라 지속적으로 개선되었습니다. 예를 들어, 최신 버전 중 하나인 Ultralytics YOLO11은 실제 상황에서 뛰어난 성능을 발휘하여 더욱 복잡한 환경에서도 정확한 결과를 제공합니다.
이러한 발전을 더욱 촉진하기 위해 YOLOE라는 새로운 모델은 YOLO 모델의 기능을 확장하는 것을 목표로 합니다. 새로운 객체를 인식하기 위해 재학습이 필요한 기존 모델과 달리 YOLOE는 간단한 텍스트 또는 이미지 프롬프트를 따라 이전에 본 적이 없는 객체를 감지할 수 있어 변화하는 환경에 훨씬 더 잘 적응할 수 있습니다.
본 문서에서는 YOLOE를 특별하게 만드는 요소, 이전 YOLO 모델과의 비교, 그리고 오늘 바로 사용하는 방법을 자세히 살펴보겠습니다. 그럼 시작해 볼까요!
YOLOE는 객체 감지를 한 단계 더 발전시킨 컴퓨터 비전 모델입니다. 칭화대학교 연구원들이 2025년 3월에 소개했습니다. 기존 모델과 YOLOE를 차별화하는 것은 개방형 어휘 감지 사용입니다.
대부분의 모델은 고정된 객체 목록을 인식하도록 학습되지만, YOLOE를 사용하면 짧은 설명이나 예시 이미지를 사용하여 찾을 대상을 지정할 수 있습니다. 예를 들어 “녹색 배낭”을 검색하는 경우 해당 설명을 입력하거나 모델에 사진을 보여주면 YOLOE가 장면 내에서 해당 배낭을 찾습니다.
또한 프롬프트가 없어도 YOLOE는 많은 일상적인 물체를 스스로 감지할 수 있습니다. 이전에 본 적이 없는 물체를 인식하는 이러한 능력은 제로샷 감지라고 합니다. 특히 작업 또는 관심 대상이 예기치 않게 변경될 수 있는 동적 환경에서 유용합니다.

YOLOE는 실제 애플리케이션에서 성능을 향상시키도록 설계된 광범위한 기능을 지원합니다. 구조화된 입력과 비구조화된 입력을 모두 처리할 수 있는 YOLOE는 객체 감지 및 분할에 대한 새로운 가능성을 열어줍니다.
이 모델이 제공하는 주요 기능은 다음과 같습니다.
이제 YOLOE가 무엇인지 더 잘 이해했으므로, YOLO 제품군에서 유사한 모델을 살펴보겠습니다.
컴퓨터 비전이 발전함에 따라 YOLO 모델도 발전했습니다. 예를 들어 Ultralytics YOLOv8은 분할 및 분류와 같은 새로운 작업에 대한 지원을 제공했으며, 이후 버전인 Ultralytics YOLO11은 더 광범위한 작업에 대한 정확도 및 성능 향상에 중점을 두었습니다.
또한 2024년 1월에 YOLO-World가 출시되어 사용자가 찾고자 하는 객체를 설명하는 글쓰기 프롬프트를 사용할 수 있는 기능이 도입되었습니다. YOLO-World는 제로샷 감지에 훌륭한 선택지였지만 인스턴스 분할 및 시각적 프롬프트 지원과 같은 기능이 부족했습니다.
YOLOE는 이러한 기능을 추가하여 YOLO-World를 기반으로 구축되어 유연성과 성능을 개선하고 실제 컴퓨터 비전 애플리케이션을 위한 더욱 강력한 도구를 제공합니다.

특정 객체를 감지하든 이미지의 모든 것을 탐색하든 YOLOE를 시작하는 것은 간단합니다. 이 모델은 Ultralytics Python 패키지에서 지원되므로 프로젝트에 쉽게 통합할 수 있습니다. 다음으로 사용 방법을 살펴보겠습니다.
첫 번째 단계는 ‘pip’과 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치하는 것입니다. 터미널 또는 명령 프롬프트에서 “pip install ultralytics” 명령을 실행하여 이 작업을 수행할 수 있습니다.
패키지가 설치되면 모델을 로드하고, 예측을 수행하고, 다양한 감지 모드를 실험하는 데 필요한 모든 것이 갖춰집니다. 설치 중에 문제가 발생하면 공식 Ultralytics 문서에서 유용한 문제 해결 섹션을 제공합니다.
YOLOE를 사용하여 예측을 실행하는 방법에는 몇 가지가 있습니다. 예측 실행은 학습된 모델을 사용하여 이미지나 비디오 내에서 객체를 식별하고 찾는 것을 의미합니다. 이러한 다양한 방법을 통해 특정 요구 사항에 따라 모델과 상호 작용하는 방식을 사용자 정의할 수 있습니다.
이러한 방법들을 하나씩 차례대로 논의해 보겠습니다.
YOLOE는 짧은 텍스트 설명을 기반으로 객체를 감지할 수 있습니다. 예를 들어 움직이는 말을 찾고 있다면 "말 걷기"와 같은 프롬프트를 사용할 수 있습니다.
시작하려면 먼저 사전 훈련된 YOLOE 모델을 로드하고 아래 코드 스니펫에 표시된 대로 프롬프트(모델이 찾을 내용에 대한 설명)를 설정합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))모델과 프롬프트가 설정되면 이미지 또는 비디오에서 모델을 실행할 수 있습니다. 코드에서 파일 경로를 이미지 또는 비디오 파일 경로로 바꿉니다.
results = model.predict("path/to/your/image.jpg")
results[0].show()프롬프트에 따라 감지된 객체가 명확하게 표시된 이미지가 표시됩니다. 찾고 있는 항목에 따라 "빨간색 여행 가방", "자전거" 또는 "얼룩말"과 같이 프롬프트를 변경하여 다른 객체를 검색할 수 있습니다.

마찬가지로 Ultralytics Python 패키지를 사용하여 이미지를 YOLOE에 대한 프롬프트로 사용할 수 있습니다. 시각적 프롬프트 모드에서 모델은 이미지를 사용하여 다른 장면에서 유사하게 보이는 항목을 찾습니다. 이는 설명하기 어렵거나 명확한 레이블이 없는 객체에 특히 유용합니다.
이에 대한 코드를 더 자세히 살펴보려면 Ultralytics 문서를 확인하십시오.
어떤 경우에는 정확히 무엇을 검색해야 할지 모르거나 특정 객체를 찾고 있지 않을 수도 있습니다. 이러한 경우에 프롬프트가 필요 없는 모드가 유용합니다.
이 옵션을 사용하면 설명이나 예시 이미지를 입력할 필요가 없습니다. YOLOE는 이미지를 자체적으로 분석하고 사람, 동물, 가구 또는 일상적인 물건과 같이 인식할 수 있는 모든 것을 감지합니다.
모델에 특정 지침을 제공하지 않고도 장면을 탐색할 수 있는 유용한 방법입니다. 붐비는 방을 스캔하든 활동이 많은 영상을 검토하든 프롬프트 없는 모드를 사용하면 이미지에 있는 내용을 빠르게 확인할 수 있습니다.
다음 코드를 사용하여 프롬프트 없는 모드에서 YOLOE를 실행할 수 있습니다. 먼저 모델을 로드한 다음 이미지를 처리하고 자동으로 객체를 탐지합니다. 마지막으로 결과를 표시하고 탐지된 객체를 강조 표시합니다.
파일 경로는 실제 이미지 파일 경로로 변경해야 합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()아래 이미지는 YOLOE가 프롬프트 없이 감지할 수 있는 대상을 보여주는 예시입니다.

텍스트 및 이미지 프롬프트 모두에 응답할 수 있는 YOLOE의 기능은 실시간 애플리케이션을 위한 안정적인 도구입니다. 이러한 유연성은 타이밍과 정확성이 필수적인 빠르게 변화하는 환경에서 특히 유용합니다.
YOLOE가 어떻게 사용될 수 있는지에 대한 몇 가지 실제 사례를 살펴보겠습니다.
붐비는 공항에서 특정 수하물을 찾는 것은 특히 분실된 가방을 처리할 때 어려울 수 있습니다. YOLOE는 라이브 비디오를 스캔하고 "빨간 가방"과 같은 간단한 프롬프트를 기반으로 품목을 빠르게 식별하여 이 프로세스를 간소화할 수 있습니다.
가방이 분실되거나 잘못 놓인 경우 직원은 프롬프트를 쉽게 변경하여 '검은색 여행 가방'과 같은 다른 품목을 검색할 수 있습니다. 이러한 즉각적인 적응 능력은 공항 직원이 긴 시간의 영상을 검토하거나 모델을 재훈련하지 않고도 올바른 수하물을 신속하게 찾을 수 있도록 도와 수하물 처리 및 분실 수하물 문제 해결을 훨씬 빠르고 효율적으로 만듭니다.
혼잡한 시장이나 카페와 같은 공공 장소의 감시 영상에는 하루 종일 변화하는 사람, 사물 및 활동이 혼합되어 있는 경우가 많습니다. YOLOE는 프롬프트가 필요 없는 모드를 사용하여 이 영상을 실시간으로 분석하고 특정 지침 없이도 가방, 테이블 또는 자전거와 같은 항목을 자동으로 감지할 수 있습니다.

이는 보안 팀이 방치된 물품을 발견하거나 군중의 움직임을 추적하는 데 특히 유용합니다. YOLOE는 여러 객체를 동시에 감지하는 기능을 통해 이벤트 또는 혼잡한 시간 동안 공공 장소를 더 쉽게 관리할 수 있도록 지원하여 팀이 정보를 얻고 대응할 수 있도록 돕습니다.
컴퓨터 비전 애플리케이션에 YOLOE를 사용할 때의 주요 이점은 다음과 같습니다.
그러나 YOLOE를 사용할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 고려해야 할 몇 가지 요소는 다음과 같습니다.
YOLOE는 사용자가 텍스트 또는 이미지 프롬프트로 감지를 안내할 수 있도록 하여 컴퓨터 비전에 더 많은 유연성을 제공합니다. 장면이 빠르게 변하고 재학습이 선택 사항이 아닌 실제 상황에서 잘 작동합니다.
수하물 처리에서 공공 공간 모니터링에 이르기까지 YOLOE는 새로운 작업에 쉽게 적응합니다. AI가 더욱 접근하기 쉬워짐에 따라 YOLOE와 같은 모델은 더 많은 산업에서 실용적이고 효율적인 방식으로 비전 기술을 사용하는 데 도움이 됩니다.
커뮤니티에 가입하고 GitHub 저장소를 탐색하여 AI 혁신에 대해 자세히 알아보세요. 솔루션 페이지에서 리테일 분야의 AI 및 헬스케어 분야의 컴퓨터 비전과 같은 분야의 최신 발전을 찾아보세요. 라이선스 옵션을 확인하고 오늘 컴퓨터 비전을 시작하세요!