YOLOE를 사용하면 간단한 프롬프트나 사진을 사용하여 객체를 찾을 수 있습니다. 모델을 재훈련하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 가능하게 합니다.
YOLOE를 사용하면 간단한 프롬프트나 사진을 사용하여 객체를 찾을 수 있습니다. 모델을 재훈련하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 가능하게 합니다.
객체 감지는 이미지나 비디오에서 객체를 식별하고 위치를 파악하는 것을 목표로 하는 핵심 컴퓨터 비전 작업입니다. 이는 기계가 시각적 데이터를 이해하고 해석할 수 있도록 하는 인공 지능(AI) 분야인 컴퓨터 비전의 중요한 부분입니다. 예를 들어 객체 감지는 사진에서 자동차를 식별하거나 비디오 피드에서 사람을 찾는 데 도움이 될 수 있습니다.
물체 감지와 같은 컴퓨터 비전 작업을 지원하는 가장 잘 알려진 모델 시리즈 중 하나는 YOLO (You Only Look Once) 모델 시리즈입니다. 속도와 정확성을 위해 설계된 YOLO 모델은 시간이 지남에 따라 지속적으로 개선되었습니다. 예를 들어, 최신 버전 중 하나입니다, Ultralytics YOLO11은 실제 상황에서 우수한 성능을 발휘하여 보다 복잡한 환경에서도 정확한 결과를 제공합니다.
이러한 발전을 더욱 촉진하기 위해 YOLOE라는 새로운 모델은 YOLO 모델의 기능을 확장하는 것을 목표로 합니다. 새로운 물체를 인식하기 위해 재학습이 필요한 기존 모델과 달리, YOLOE는 간단한 텍스트나 이미지 프롬프트에 따라 이전에 보지 못한 물체를 detect 수 있어 변화하는 환경에 훨씬 더 잘 적응할 수 있습니다.
이 글에서는 YOLOE의 특징과 이전 YOLO 모델과의 비교, 그리고 지금 바로 사용할 수 있는 방법에 대해 자세히 살펴보겠습니다. 지금 바로 시작해보세요!
YOLOE는 객체 감지를 한 단계 더 발전시킨 컴퓨터 비전 모델입니다. 칭화대학교 연구원들이 2025년 3월에 소개했습니다. 기존 모델과 YOLOE를 차별화하는 것은 개방형 어휘 감지 사용입니다.
대부분의 모델은 고정된 객체 목록을 인식하도록 학습되지만, YOLOE를 사용하면 짧은 설명이나 예시 이미지를 사용하여 찾을 대상을 지정할 수 있습니다. 예를 들어 “녹색 배낭”을 검색하는 경우 해당 설명을 입력하거나 모델에 사진을 보여주면 YOLOE가 장면 내에서 해당 배낭을 찾습니다.
또한, YOLOE는 별도의 지시가 없어도 일상적인 많은 사물을 스스로 detect 수 있습니다. 한 번도 본 적이 없는 물체를 인식하는 이 기능을 제로 샷 감지라고 합니다. 이 기능은 작업이나 관심 대상이 예기치 않게 변경될 수 있는 동적인 환경에서 특히 유용합니다.

YOLOE는 실제 애플리케이션에서 성능을 향상시키도록 설계된 광범위한 기능을 지원합니다. 구조화된 입력과 비구조화된 입력을 모두 처리할 수 있는 YOLOE는 객체 감지 및 분할에 대한 새로운 가능성을 열어줍니다.
이 모델이 제공하는 주요 기능은 다음과 같습니다.
이제 욜로에 대해 더 잘 이해했으니, YOLO 비슷한 몇 가지 모델을 살펴봅시다.
컴퓨터 비전이 발전함에 따라 YOLO 모델도 발전했습니다. 예를 들어 Ultralytics YOLOv8 은 세분화 및 분류와 같은 새로운 작업을 지원했으며, 이후 버전인 Ultralytics YOLO11 더 광범위한 작업에 대한 정확도와 성능을 개선하는 데 중점을 두었습니다.
또한 2024년 1월에 출시된 YOLO 사용자가 찾고자 하는 대상을 설명할 수 있도록 서면 프롬프트를 사용할 수 있는 기능을 도입했습니다. YOLO 제로 샷 감지를 위한 훌륭한 옵션이었지만 인스턴스 세분화 및 시각적 프롬프트 지원과 같은 기능이 부족했습니다.
YOLOE는 이러한 기능을 추가하고 유연성과 성능을 개선하며 실제 컴퓨터 비전 애플리케이션을 위한 더욱 영향력 있는 도구를 제공함으로써 YOLO 기반으로 합니다.

특정 개체를 detect 이미지의 모든 것을 탐색하든, YOLOE를 시작하는 것은 간단합니다. 이 모델은 Ultralytics Python 패키지에서 지원되므로 프로젝트에 쉽게 통합할 수 있습니다. 이제 사용 방법을 살펴보겠습니다.
첫 번째 단계는 'pip'와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치하는 것입니다. 터미널이나 명령 프롬프트에서 "pip install ultralytics" 명령을 실행하면 됩니다.
패키지가 설치되면 모델을 로드하고, 예측을 수행하고, 다양한 탐지 모드로 실험하는 데 필요한 모든 것을 갖추게 됩니다. 설치 중에 문제가 발생하는 경우, 공식 Ultralytics 설명서에서 유용한 문제 해결 섹션을 참조하세요.
YOLOE를 사용하여 예측을 실행하는 방법에는 몇 가지가 있습니다. 예측 실행은 학습된 모델을 사용하여 이미지나 비디오 내에서 객체를 식별하고 찾는 것을 의미합니다. 이러한 다양한 방법을 통해 특정 요구 사항에 따라 모델과 상호 작용하는 방식을 사용자 정의할 수 있습니다.
이러한 방법들을 하나씩 차례대로 논의해 보겠습니다.
YOLOE는 짧은 텍스트 설명을 기반으로 사물을 detect 수 있습니다. 예를 들어, 움직이는 말을 찾고 있다면 "말 걷기"와 같은 문구를 사용할 수 있습니다.
시작하려면 먼저 사전 훈련된 YOLOE 모델을 로드하고 아래 코드 스니펫에 표시된 대로 프롬프트(모델이 찾을 내용에 대한 설명)를 설정합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))모델과 프롬프트가 설정되면 이미지 또는 비디오에서 모델을 실행할 수 있습니다. 코드에서 파일 경로를 이미지 또는 비디오 파일 경로로 바꿉니다.
results = model.predict("path/to/your/image.jpg")
results[0].show()프롬프트에 따라 감지된 객체가 명확하게 표시된 이미지가 표시됩니다. 찾고 있는 항목에 따라 "빨간색 여행 가방", "자전거" 또는 "얼룩말"과 같이 프롬프트를 변경하여 다른 객체를 검색할 수 있습니다.

마찬가지로, 이미지를 사용하여 Ultralytics Python 패키지로 YOLOE를 프롬프트할 수 있습니다. 시각적 프롬프트 모드에서 모델은 이미지를 사용하여 다른 장면에서 비슷한 모양의 항목을 찾습니다. 이 모드는 설명하기 어렵거나 명확한 레이블이 없는 객체에 특히 유용합니다.
이에 대한 코드를 더 자세히 살펴보려면 Ultralytics 설명서를 참조하세요.
어떤 경우에는 정확히 무엇을 검색해야 할지 모르거나 특정 객체를 찾고 있지 않을 수도 있습니다. 이러한 경우에 프롬프트가 필요 없는 모드가 유용합니다.
이 옵션을 사용하면 설명이나 예시 이미지를 입력할 필요가 없습니다. YOLOE는 이미지를 자체적으로 분석하고 사람, 동물, 가구 또는 일상적인 물건과 같이 인식할 수 있는 모든 것을 감지합니다.
모델에 특정 지침을 제공하지 않고도 장면을 탐색할 수 있는 유용한 방법입니다. 붐비는 방을 스캔하든 활동이 많은 영상을 검토하든 프롬프트 없는 모드를 사용하면 이미지에 있는 내용을 빠르게 확인할 수 있습니다.
다음 코드를 사용하여 프롬프트 없는 모드에서 YOLOE를 실행할 수 있습니다. 먼저 모델을 로드한 다음 이미지를 처리하고 자동으로 객체를 탐지합니다. 마지막으로 결과를 표시하고 탐지된 객체를 강조 표시합니다.
파일 경로는 실제 이미지 파일 경로로 변경해야 합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()아래 이미지는 프롬프트 없는 모드에서 YOLOE가 detect 수 있는 항목의 예시입니다.

텍스트 및 이미지 프롬프트 모두에 응답할 수 있는 YOLOE의 기능은 실시간 애플리케이션을 위한 안정적인 도구입니다. 이러한 유연성은 타이밍과 정확성이 필수적인 빠르게 변화하는 환경에서 특히 유용합니다.
YOLOE가 어떻게 사용될 수 있는지에 대한 몇 가지 실제 사례를 살펴보겠습니다.
붐비는 공항에서 특정 수하물을 찾는 것은 특히 분실된 가방을 처리할 때 어려울 수 있습니다. YOLOE는 라이브 비디오를 스캔하고 "빨간 가방"과 같은 간단한 프롬프트를 기반으로 품목을 빠르게 식별하여 이 프로세스를 간소화할 수 있습니다.
가방이 분실되거나 잘못 놓인 경우 직원은 프롬프트를 쉽게 변경하여 '검은색 여행 가방'과 같은 다른 품목을 검색할 수 있습니다. 이러한 즉각적인 적응 능력은 공항 직원이 긴 시간의 영상을 검토하거나 모델을 재훈련하지 않고도 올바른 수하물을 신속하게 찾을 수 있도록 도와 수하물 처리 및 분실 수하물 문제 해결을 훨씬 빠르고 효율적으로 만듭니다.
혼잡한 시장이나 카페와 같은 공공 장소의 감시 영상에는 하루 종일 변화하는 사람, 사물 및 활동이 혼합되어 있는 경우가 많습니다. YOLOE는 프롬프트가 필요 없는 모드를 사용하여 이 영상을 실시간으로 분석하고 특정 지침 없이도 가방, 테이블 또는 자전거와 같은 항목을 자동으로 감지할 수 있습니다.

이는 보안팀이 무인 물품을 발견하거나 군중의 움직임을 track 데 특히 유용합니다. 한 번에 여러 개의 물체를 detect YOLOE의 기능 덕분에 이벤트나 바쁜 기간 동안 공공 장소를 더 쉽게 관리할 수 있어 팀이 정보를 파악하고 대응할 수 있습니다.
컴퓨터 비전 애플리케이션에 YOLOE를 사용할 때의 주요 이점은 다음과 같습니다.
그러나 YOLOE를 사용할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 고려해야 할 몇 가지 요소는 다음과 같습니다.
YOLOE는 사용자가 텍스트 또는 이미지 프롬프트로 감지를 안내할 수 있도록 하여 컴퓨터 비전에 더 많은 유연성을 제공합니다. 장면이 빠르게 변하고 재학습이 선택 사항이 아닌 실제 상황에서 잘 작동합니다.
수하물 처리에서 공공 공간 모니터링에 이르기까지 YOLOE는 새로운 작업에 쉽게 적응합니다. AI가 더욱 접근하기 쉬워짐에 따라 YOLOE와 같은 모델은 더 많은 산업에서 실용적이고 효율적인 방식으로 비전 기술을 사용하는 데 도움이 됩니다.
커뮤니티에 가입하고 GitHub 저장소를 탐색하여 AI 혁신에 대해 자세히 알아보세요. 솔루션 페이지에서 리테일 분야의 AI 및 헬스케어 분야의 컴퓨터 비전과 같은 분야의 최신 발전을 찾아보세요. 라이선스 옵션을 확인하고 오늘 컴퓨터 비전을 시작하세요!