간단한 프롬프트나 사진으로 물체를 찾을 수 있는 YOLOE에 대해 알아보세요. 모델을 재교육하거나 미세 조정하지 않고도 더 스마트하고 빠른 컴퓨터 비전을 구현할 수 있습니다.
객체 감지는 이미지나 동영상에서 객체를 식별하고 위치를 찾는 것이 목표인 컴퓨터 비전의 핵심 작업입니다. 이는 기계가 시각적 데이터를 이해하고 해석할 수 있도록 하는 인공 지능(AI)의 한 분야인 컴퓨터 비전의 중요한 부분입니다. 예를 들어, 객체 감지는 사진에서 자동차를 식별하거나 동영상 피드에서 사람을 찾아내는 데 도움이 될 수 있습니다.
물체 감지와 같은 컴퓨터 비전 작업을 지원하는 가장 잘 알려진 모델 시리즈 중 하나는 YOLO (You Only Look Once) 모델 시리즈입니다. 속도와 정확성을 위해 설계된 YOLO 모델은 시간이 지남에 따라 지속적으로 개선되었습니다. 예를 들어, 최신 버전 중 하나입니다, Ultralytics YOLO11은 실제 상황에서 우수한 성능을 발휘하여 보다 복잡한 환경에서도 정확한 결과를 제공합니다.
이러한 발전을 더욱 촉진하기 위해 YOLOE라는 새로운 모델은 YOLO 모델의 기능을 확장하는 것을 목표로 합니다. 새로운 물체를 인식하기 위해 재학습이 필요한 기존 모델과 달리, YOLOE는 간단한 텍스트나 이미지 프롬프트에 따라 이전에 보지 못한 물체를 감지할 수 있어 변화하는 환경에 훨씬 더 잘 적응할 수 있습니다.
이 글에서는 YOLOE의 특징과 이전 YOLO 모델과의 비교, 그리고 지금 바로 사용할 수 있는 방법에 대해 자세히 살펴보겠습니다. 지금 바로 시작해보세요!
YOLOE는 물체 감지를 한 단계 더 발전시킨 컴퓨터 비전 모델입니다. 칭화대학교의 연구원들이 2025년 3월에 도입했습니다. YOLOE가 기존 모델과 차별화되는 점은 개방형 어휘 감지를 사용한다는 점입니다.
대부분의 모델은 고정된 사물 목록을 인식하도록 학습되지만, YOLOE를 사용하면 짧은 설명이나 예시 이미지를 사용하여 찾을 대상을 지정할 수 있습니다. 예를 들어, '녹색 배낭'을 검색하는 경우 해당 설명을 입력하거나 모델에게 사진을 보여주면 YOLOE가 장면 내에서 이를 찾아냅니다.
또한 YOLOE는 별도의 안내 없이도 많은 일상적인 사물을 스스로 감지할 수 있습니다. 한 번도 본 적이 없는 물체를 인식하는 이 기능을 제로 샷 감지라고 합니다. 이 기능은 작업이나 관심 대상이 예기치 않게 변경될 수 있는 동적인 환경에서 특히 유용합니다.
YOLOE는 실제 애플리케이션에서 성능을 향상시키기 위해 설계된 다양한 기능을 지원합니다. 정형 및 비정형 입력을 모두 처리할 수 있는 YOLOE는 객체 감지 및 세분화의 새로운 가능성을 열어줍니다.
다음은 이 모델이 제공하는 몇 가지 주요 기능입니다:
이제 욜로에 대해 더 잘 이해했으니, YOLO 비슷한 몇 가지 모델을 살펴봅시다.
컴퓨터 비전이 발전함에 따라 YOLO 모델도 발전했습니다. 예를 들어 Ultralytics YOLOv8 은 세분화 및 분류와 같은 새로운 작업을 지원했으며, 이후 버전인 Ultralytics YOLO11 더 광범위한 작업에 대한 정확도와 성능을 개선하는 데 중점을 두었습니다.
또한 2024년 1월에 출시된 YOLO 사용자가 찾고자 하는 대상을 설명할 수 있도록 서면 프롬프트를 사용할 수 있는 기능을 도입했습니다. YOLO 제로 샷 감지를 위한 훌륭한 옵션이었지만 인스턴스 세분화 및 시각적 프롬프트 지원과 같은 기능이 부족했습니다.
YOLOE는 이러한 기능을 추가하고 유연성과 성능을 개선하며 실제 컴퓨터 비전 애플리케이션을 위한 더욱 영향력 있는 도구를 제공함으로써 YOLO 기반으로 합니다.
특정 개체를 감지하든 이미지의 모든 것을 탐색하든, YOLOE를 시작하는 것은 간단합니다. 이 모델은 Ultralytics Python 패키지에서 지원되므로 프로젝트에 쉽게 통합할 수 있습니다. 이제 사용 방법을 살펴보겠습니다.
첫 번째 단계는 'pip'와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치하는 것입니다. 터미널이나 명령 프롬프트에서 "pip install ultralytics" 명령을 실행하면 됩니다.
패키지가 설치되면 모델을 로드하고, 예측을 수행하고, 다양한 탐지 모드로 실험하는 데 필요한 모든 것을 갖추게 됩니다. 설치 중에 문제가 발생하는 경우, 공식 Ultralytics 설명서에서 유용한 문제 해결 섹션을 참조하세요.
YOLOE를 사용하여 예측을 실행하는 방법에는 몇 가지가 있습니다. 예측을 실행한다는 것은 학습된 모델을 사용하여 이미지 또는 동영상 내에서 객체를 식별하고 위치를 찾는 것을 의미합니다. 이러한 다양한 방법을 통해 특정 요구 사항에 따라 모델과 상호 작용하는 방식을 사용자 지정할 수 있습니다.
이러한 각 방법에 대해 한 번에 하나씩 살펴보겠습니다.
YOLOE는 짧은 텍스트 설명을 기반으로 사물을 감지할 수 있습니다. 예를 들어, 움직이는 말을 찾고 있다면 "말 걷기"와 같은 문구를 사용할 수 있습니다.
시작하려면 먼저 아래 코드 스니펫과 같이 사전 학습된 YOLOE 모델을 로드하고 프롬프트(모델에서 찾고자 하는 항목에 대한 설명)를 설정합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
모델과 프롬프트가 설정되면 이미지 또는 동영상에서 모델을 실행할 수 있습니다. 코드의 파일 경로를 이미지 또는 동영상 파일의 경로로 바꿉니다:
results = model.predict("path/to/your/image.jpg")
results[0].show()
그러면 프롬프트에 따라 감지된 물체가 선명하게 표시된 이미지가 표시됩니다. 찾고 있는 대상에 따라 '빨간 여행 가방', '자전거', '얼룩말' 등 다른 물체를 검색하도록 프롬프트를 변경할 수 있습니다.
마찬가지로, 이미지를 사용하여 Ultralytics Python 패키지로 YOLOE를 프롬프트할 수 있습니다. 시각적 프롬프트 모드에서 모델은 이미지를 사용하여 다른 장면에서 비슷한 모양의 항목을 찾습니다. 이 모드는 설명하기 어렵거나 명확한 레이블이 없는 객체에 특히 유용합니다.
이에 대한 코드를 더 자세히 살펴보려면 Ultralytics 설명서를 참조하세요.
어떤 경우에는 무엇을 검색해야 할지 정확히 모르거나 특정 개체를 찾고 있지 않을 수도 있습니다. 이럴 때 프롬프트 없는 모드가 유용합니다.
이 옵션을 사용하면 설명을 입력하거나 예시 이미지를 제공할 필요가 없습니다. YOLOE는 사람, 동물, 가구, 일상적인 사물 등 인식할 수 있는 모든 것을 스스로 이미지를 분석하여 감지합니다.
모델에게 구체적인 지시를 내리지 않고도 장면을 탐색할 수 있는 유용한 방법입니다. 붐비는 방을 스캔하거나 활동이 많은 영상을 검토할 때 프롬프트 없는 모드를 사용하면 이미지에 무엇이 있는지 빠르게 살펴볼 수 있습니다.
다음 코드를 사용하여 프롬프트 없는 모드에서 YOLOE를 실행할 수 있습니다. 먼저 모델을 로드한 다음 이미지를 처리하고 그 안에 있는 개체를 자동으로 감지합니다. 마지막으로 결과가 표시되고 감지된 개체가 강조 표시됩니다.
파일 경로를 이미지의 실제 경로로 바꾸어야 합니다.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
아래 이미지는 프롬프트 없는 모드에서 YOLOE가 감지할 수 있는 항목의 예시입니다.
텍스트와 이미지 프롬프트에 모두 응답할 수 있는 YOLOE는 실시간 애플리케이션을 위한 신뢰할 수 있는 도구입니다. 유연성은 타이밍과 정확성이 필수인 빠르게 변화하는 환경에서 특히 유용합니다.
YOLOE가 어떻게 사용되는지 실제 사례를 몇 가지 살펴보겠습니다.
분주한 공항에서는 특히 분실된 가방을 처리할 때 특정 수하물을 찾는 것이 어려울 수 있습니다. YOLOE는 실시간 비디오를 스캔하고 "빨간 가방"과 같은 간단한 프롬프트에 따라 신속하게 물품을 식별할 수 있도록 지원하여 이 과정을 간소화할 수 있습니다.
가방이 분실되거나 잘못 놓인 경우 직원은 "검은색 여행 가방"과 같은 다른 품목을 검색하도록 안내 메시지를 쉽게 변경할 수 있습니다. 이러한 즉각적인 적응 기능을 통해 공항 직원은 장시간 영상을 검토하거나 모델을 재교육하지 않고도 올바른 수하물을 신속하게 찾을 수 있으므로 수하물 처리와 분실 수하물 문제를 훨씬 빠르고 효율적으로 해결할 수 있습니다.
붐비는 시장이나 카페와 같은 공공장소의 감시 영상에는 하루 종일 변화하는 사람, 사물, 활동이 혼합되어 있는 경우가 많습니다. YOLOE는 프롬프트 없는 모드를 사용하여 이러한 영상을 실시간으로 분석하여 특정 지침 없이도 가방, 테이블 또는 자전거와 같은 물체를 자동으로 감지할 수 있습니다.
이는 보안팀이 무인 물품을 발견하거나 군중의 움직임을 추적하는 데 특히 유용합니다. 한 번에 여러 개의 물체를 감지하는 YOLOE의 기능 덕분에 이벤트나 바쁜 기간 동안 공공 장소를 더 쉽게 관리할 수 있어 팀이 정보를 파악하고 대응할 수 있습니다.
컴퓨터 비전 애플리케이션에 YOLOE를 사용하면 얻을 수 있는 몇 가지 주요 이점은 다음과 같습니다:
하지만 욜로를 사용할 때 염두에 두어야 할 몇 가지 제한 사항이 있습니다. 다음은 고려해야 할 몇 가지 요소입니다:
YOLOE는 사용자가 텍스트 또는 이미지 프롬프트를 통해 감지를 안내할 수 있도록 하여 컴퓨터 비전에 더 많은 유연성을 제공합니다. 장면이 빠르게 변하고 재교육이 불가능한 실제 상황에서 잘 작동합니다.
수하물 처리부터 공공장소 모니터링에 이르기까지 YOLOE는 새로운 업무에 쉽게 적응합니다. AI의 접근성이 높아짐에 따라 더 많은 산업 분야에서 실용적이고 효율적인 방식으로 비전 기술을 사용할 수 있도록 YOLOE와 같은 모델이 등장하고 있습니다.
커뮤니티에 가입하고 GitHub 리포지토리를 살펴보고 AI 혁신에 대해 자세히 알아보세요. 솔루션 페이지에서 리테일 분야의 AI 및 의료 분야의 컴퓨터 비전과 같은 분야의 최신 발전 사항을 살펴보세요. 라이선스 옵션을 확인하고 지금 바로 컴퓨터 비전을 시작하세요!