텍스트 프롬프트를 통해 객체를 식별할 수 있는 혁신적인 객체 감지 모델인 YOLO-World에 대해 알아보세요. YOLO-World의 작동 방식과 응용 분야를 살펴보고 빠른 코드 예제를 통해 직접 체험해 보세요.

텍스트 프롬프트를 통해 객체를 식별할 수 있는 혁신적인 객체 감지 모델인 YOLO-World에 대해 알아보세요. YOLO-World의 작동 방식과 응용 분야를 살펴보고 빠른 코드 예제를 통해 직접 체험해 보세요.
컴퓨터 비전 프로젝트는 종종 데이터에 주석을 달고 객체 탐지 모델을 훈련하는 데 많은 시간을 소비합니다. 하지만 곧 과거의 일이 될 수도 있습니다. Tencent의 AI Lab은 2024년 1월 31일에 실시간 개방형 어휘 객체 탐지 모델인 YOLO-World를 출시했습니다. YOLO-World는 제로샷 모델입니다. 즉, 훈련 없이 이미지에서 객체 탐지 추론을 실행할 수 있습니다.
제로샷 모델은 컴퓨터 비전 애플리케이션에 접근하는 방식을 바꿀 수 있는 잠재력을 가지고 있습니다. 이 블로그에서는 YOLO-World의 작동 방식과 잠재적 사용 사례를 살펴보고 시작하는 데 도움이 되는 실용적인 코드 예제를 공유합니다.
YOLO-World 모델을 통해 이미지와 찾고 있는 객체를 설명하는 텍스트 프롬프트를 전달할 수 있습니다. 예를 들어 사진 속에서 "빨간 셔츠를 입은 사람"을 찾는 데 관심이 있다면 YOLO-World는 이 입력을 받아 작업을 시작합니다.
이 모델의 고유한 아키텍처는 세 가지 주요 요소로 구성됩니다.
YOLO 탐지기는 입력 이미지를 스캔하여 잠재적인 객체를 식별합니다. 텍스트 인코더는 설명을 모델이 이해할 수 있는 형식으로 변환합니다. 그런 다음 이러한 두 정보 스트림은 다단계 교차 양식 융합을 사용하여 RepVL-PAN을 통해 병합됩니다. 이를 통해 YOLO-World는 프롬프트에 설명된 객체를 이미지 내에서 정확하게 감지하고 찾을 수 있습니다.
YOLO-World 사용의 가장 큰 장점 중 하나는 특정 클래스에 대해 모델을 학습시킬 필요가 없다는 것입니다. 이미지와 텍스트 쌍으로부터 이미 학습되었기 때문에 설명을 기반으로 객체를 찾는 방법을 알고 있습니다. 따라서 데이터 수집, 데이터 어노테이션, 고가의 GPU를 사용한 학습 등에 소요되는 시간을 절약할 수 있습니다.
YOLO-World 사용의 다른 이점은 다음과 같습니다.
YOLO-World 모델은 광범위한 애플리케이션에 사용될 수 있습니다. 몇 가지 예를 살펴보겠습니다.
조립 라인에서 제조된 제품은 포장 전에 결함이 있는지 육안으로 검사합니다. 결함 탐지는 종종 수작업으로 이루어지기 때문에 시간이 오래 걸리고 실수가 발생할 수 있습니다. 이러한 실수는 높은 비용, 수리 또는 리콜 필요성과 같은 문제를 일으킬 수 있습니다. 이를 돕기 위해 이러한 검사를 수행하는 특수 머신 비전 카메라와 AI 시스템이 개발되었습니다.
YOLO-World 모델은 이 분야에서 큰 발전을 이루었습니다. 제로샷 기능을 사용하여 특정 문제에 대해 학습되지 않은 경우에도 제품의 결함을 찾을 수 있습니다. 예를 들어, 생수병을 제조하는 공장에서는 YOLO-World를 사용하여 병뚜껑으로 제대로 밀봉된 병과 병뚜껑이 누락되거나 결함이 있는 병을 쉽게 식별할 수 있습니다.
YOLO-World 모델을 통해 로봇은 익숙하지 않은 환경과 상호 작용할 수 있습니다. 방에 있을 수 있는 특정 객체에 대해 학습하지 않아도 어떤 객체가 있는지 식별할 수 있습니다. 예를 들어, 로봇이 이전에 들어간 적이 없는 방에 들어간다고 가정해 보겠습니다. YOLO-World 모델을 사용하면 의자, 테이블 또는 램프와 같이 특정 항목에 대해 구체적으로 학습하지 않았더라도 이러한 객체를 인식하고 식별할 수 있습니다.
객체 탐지 외에도 YOLO-World는 '프롬프트 후 탐지' 기능 덕분에 해당 객체의 상태도 확인할 수 있습니다. 예를 들어, 농업 로봇 공학에서 로봇이 익은 과일을 탐지하도록 프로그래밍하여 익은 과일과 익지 않은 과일을 식별하는 데 사용할 수 있습니다.
자동차 산업은 많은 움직이는 부품과 관련되어 있으며 YOLO-World는 다양한 자동차 애플리케이션에 사용될 수 있습니다. 예를 들어, 자동차 유지 보수와 관련하여 수동 태깅이나 광범위한 사전 학습 없이도 다양한 객체를 인식하는 YOLO-World의 기능은 매우 유용합니다. YOLO-World는 교체해야 할 자동차 부품을 식별하는 데 사용할 수 있습니다. 또한 신차의 결함이나 누락된 부품을 찾아내는 품질 검사와 같은 작업을 자동화할 수도 있습니다.
또 다른 응용 분야는 자율 주행 자동차의 제로샷 객체 탐지입니다. YOLO-World의 제로샷 탐지 기능은 보행자, 교통 표지판 및 기타 차량과 같은 도로 위의 객체를 실시간으로 탐지하고 분류하는 자율 주행 차량의 기능을 향상시킬 수 있습니다. 이를 통해 장애물을 감지하고 사고를 예방하여 보다 안전한 주행을 할 수 있습니다.
소매점의 선반에 있는 객체를 식별하는 것은 재고 추적, 재고 유지 및 프로세스 자동화에 중요한 부분입니다. 수동 태깅이나 광범위한 사전 학습 없이도 다양한 객체를 인식하는 Ultralytics YOLO-World의 기능은 재고 관리에 매우 유용합니다.
예를 들어, 재고 관리에서 YOLO-World는 다양한 브랜드의 에너지 드링크와 같이 선반에 있는 품목을 신속하게 찾아 분류할 수 있습니다. 소매점은 정확한 재고를 유지하고, 재고 수준을 효율적으로 관리하고, 공급망 운영을 원활하게 할 수 있습니다.
모든 애플리케이션은 고유하며 YOLO-World가 얼마나 광범위하게 사용될 수 있는지를 보여줍니다. 다음으로 YOLO-World를 직접 사용해 보고 코딩 예제를 살펴보겠습니다.
앞서 언급했듯이 YOLO-World는 자동차 유지 보수를 위해 다양한 부품을 탐지하는 데 사용할 수 있습니다. 필요한 수리를 탐지하는 컴퓨터 비전 애플리케이션은 자동차 사진을 찍고, 자동차 부품을 식별하고, 각 부품의 손상 여부를 검사하고, 수리를 권장하는 과정을 포함합니다. 이 시스템의 각 부분은 서로 다른 AI 기술과 접근 방식을 사용합니다. 이 코드 연습에서는 자동차 부품을 탐지하는 부분에 초점을 맞추겠습니다.
YOLO-World를 사용하면 5분 안에 이미지에서 다양한 자동차 부품을 식별할 수 있습니다. 이 코드를 확장하여 YOLO-World를 사용하여 다양한 애플리케이션을 시도해 볼 수도 있습니다! 시작하려면 아래와 같이 Ultralytics 패키지를 pip install해야 합니다.
설치 프로세스와 관련된 자세한 지침 및 모범 사례는 Ultralytics 설치 가이드를 참조하십시오. YOLOv8에 필요한 패키지를 설치하는 동안 어려움이 발생하면 일반적인 문제 해결 가이드에서 해결 방법과 팁을 확인하십시오.
필요한 패키지를 설치했으면 인터넷에서 이미지를 다운로드하여 추론을 실행할 수 있습니다. 아래 이미지를 사용하겠습니다.
다음으로 필요한 패키지를 가져오고, 모델을 초기화하고, 입력 이미지에서 찾고 있는 클래스를 설정합니다. 여기서는 자동차, 바퀴, 자동차 문, 자동차 거울, 번호판 클래스에 관심이 있습니다.
그런 다음 이미지 경로와 최대 탐지 수, IoU(Intersection over Union) 임계값, 신뢰도(conf) 파라미터를 제공하여 predict 메서드를 사용하여 이미지에 대한 추론을 실행합니다. 마지막으로 탐지된 객체는 'result.jpg'라는 파일에 저장됩니다.
다음 출력 이미지가 파일에 저장됩니다.
코딩 없이 YOLO-World가 무엇을 할 수 있는지 보려면 YOLO-World 데모 페이지로 이동하여 입력 이미지를 업로드하고 사용자 정의 클래스를 입력하면 됩니다.
사용자 정의 클래스를 반복적으로 입력하지 않고 나중에 직접 사용할 수 있도록 사용자 정의 클래스로 모델을 저장하는 방법은 YOLO-World 문서 페이지를 참조하십시오.
출력 이미지를 다시 살펴보면 사용자 정의 클래스인 '자동차 문'이 탐지되지 않은 것을 알 수 있습니다. 뛰어난 성과에도 불구하고 YOLO-World에는 특정 제한 사항이 있습니다. 이러한 제한 사항을 극복하고 YOLO-World 모델을 효과적으로 사용하려면 올바른 유형의 텍스트 프롬프트를 사용하는 것이 중요합니다.
다음은 몇 가지 통찰력입니다.
전반적으로 YOLO-World 모델은 고급 객체 탐지 기능을 통해 강력한 도구로 만들 수 있습니다. 뛰어난 효율성, 정확성을 제공하며 실제로 논의한 자동차 부품 식별 예제와 같이 다양한 애플리케이션에서 다양한 작업을 자동화하는 데 도움이 됩니다.
컴퓨터 비전 및 AI에 대한 기여에 대해 자세히 알아보려면 GitHub 저장소를 자유롭게 탐색하십시오. AI가 헬스케어 기술과 같은 분야를 어떻게 재편하고 있는지 궁금하다면 솔루션 페이지를 확인하십시오. YOLO-World와 같은 혁신의 가능성은 무한해 보입니다!