욜로 비전 선전
선전
지금 참여하기

울트라리틱스의 YOLO 비전 2025 심천의 주요 하이라이트!

Abirami Vina

5분 분량

2025년 11월 10일

울트라리틱스가 혁신가, 파트너, AI 커뮤니티를 한자리에 모아 하루 동안 영감을 얻었던 YOLO 비전 2025 심천의 주요 순간을 다시 한 번 살펴보세요.

10월 26일, 심천의 OCT 창조 문화 공원에 있는 빌딩 B10에서 욜로 비전 2025(YV25 )가 중국에서 첫 선을 보였습니다. 울트라리틱스의 하이브리드 비전 AI 이벤트에는 200명 이상의 참석자가 직접 모였으며, 더 많은 사람들이 유튜브와 빌리빌리를 통해 온라인으로 참여했습니다. 

YV25 심천 라이브스트림은 이미 YouTube에서 조회수 3,500회를 돌파했으며, 행사 하이라이트가 커뮤니티에 공유되면서 계속해서 관심을 받고 있습니다. 비전 AI가 앞으로 나아갈 방향에 대한 아이디어와 대화, 실질적인 탐색으로 가득 찬 하루였습니다.

이날 행사는 행사 내내 모든 사람을 초대하여 서로 연결하고, 배우고, 토론에 참여하도록 한 호스트인 Huang Xueying의 따뜻한 환영으로 시작되었습니다. 그녀는 이번 행사가 지난 9월 런던에 이어 올해 두 번째 욜로 비전이라고 설명하며, 비전 AI 커뮤니티가 이곳 심천에서 다시 한자리에 모이게 되어 매우 기쁘다고 말했습니다.

이 글에서는 모델 업데이트, 발표자 세션, 라이브 데모, 모두가 함께한 커뮤니티의 순간 등 그날의 하이라이트를 다시 한 번 살펴봅니다. 지금 시작하겠습니다!

지금까지 울트라리틱스 YOLO 모델의 여정

이날의 첫 번째 기조연설은 울트라리틱스의 창립자 겸 CEO인 글렌 조처(Glenn Jocher)가 맡았으며, 그는 울트라리틱스의 YOLO 모델이 어떻게 연구 혁신에서 시작하여 세계에서 가장 널리 사용되는 비전 AI 모델로 성장했는지에 대해 공유했습니다. Glenn은 자신의 초기 작업은 YOLO를 더 쉽게 사용할 수 있도록 하는 데 중점을 두었다고 설명했습니다. 

그는 모델을 PyTorch로 포팅하고, 문서를 개선하고, 모든 것을 공개적으로 공유하여 전 세계 개발자가 이를 기반으로 구축할 수 있도록 했습니다. 그는 "2018년에 가장 먼저 뛰어들었습니다. 이곳이 제 미래라고 생각했기 때문입니다." 개인적인 노력으로 시작된 것이 곧 글로벌 오픈소스 운동으로 발전했습니다.

그림 1. YOLO 비전 2025 선전 무대에서 연설하는 글렌 조처.

오늘날 Ultralytics YOLO 모델은 매일 수십억 건의 추론에 사용되고 있으며, Glenn은 이 규모를 구축하는 데 도움을 준 사람들이 있었기에 가능했다고 강조했습니다. 전 세계의 연구원, 엔지니어, 학생, 애호가, 오픈 소스 기여자들이 오늘날의 YOLO를 만들어냈습니다. 

Glenn은 "거의 천 명에 달하는 기여자가 있으며, 이들에게 정말 감사하고 있습니다."라고 말합니다. 이 분들이 없었다면 오늘날의 저희는 여기까지 오지 못했을 것입니다."

Ultralytics YOLO26 업데이트

올해 초에 열린 YOLO 비전 2025 런던 행사에서 Ultralytics YOLO26에 대한 첫 번째 모습이 공유되었으며, 이 행사에서 Ultralytics YOLO 모델 제품군의 다음 주요 단계로 소개되었습니다. YV25 심천에서 글렌은 발표 이후 진행 상황에 대한 업데이트를 제공하고 이 모델이 어떻게 발전해 왔는지 AI 커뮤니티에 자세히 설명했습니다. 

YOLO26은 더 작고, 더 빠르고, 더 정확하면서도 실제 사용에 실용성을 유지하도록 설계되었습니다. Glenn은 지난 1년 동안 아키텍처를 개선하고 여러 디바이스의 성능을 벤치마킹하며 연구와 커뮤니티 피드백을 통해 얻은 인사이트를 통합했다고 설명했습니다. 목표는 모델을 배포하기 어렵게 만들지 않으면서도 최첨단 성능을 제공하는 것입니다.

Ultralytics YOLO26에서 기대할 수 있는 기능

Glenn이 강조한 핵심 업데이트 중 하나는 YOLO26이 전용 하이퍼파라미터 튜닝 캠페인과 결합되어 처음부터 다시 학습하는 방식에서 대규모 데이터 세트에 대한 미세 튜닝으로 전환했다는 점입니다. 그는 이러한 접근 방식이 실제 실제 사용 사례에 훨씬 더 부합한다고 설명했습니다.

이번 행사에서 공유된 다른 주요 개선 사항은 다음과 같습니다:

  • 간소화된 아키텍처: 분포 초점 손실(DFL) 레이어가 제거되었습니다. 따라서 동일한 수준의 정확도를 유지하면서 모델을 더 간단하고 빠르게 실행할 수 있습니다.
  • 엔드투엔드 추론 지원: YOLO26은 기본적으로 엔드투엔드로, 별도의 NMS 계층 없이 실행할 수 있습니다. 따라서 ONNX 및 TensorRT와 같은 형식으로 내보내고 엣지 하드웨어에 훨씬 쉽게 배포할 수 있습니다.
  • 작은 물체 성능 향상: 업데이트된 손실 전략으로 컴퓨터 비전의 오랜 과제였던 작은 물체를 보다 안정적으로 감지할 수 있습니다.
    ↪f_200D↩
  • 새로운 하이브리드 옵티마이저: YOLO26에는 최근 대규모 언어 모델 훈련 연구에서 영감을 얻은 새로운 최적화 도구가 포함되어 모델 정확도를 향상시키며, 이제 Ultralytics Python 패키지에 직접 빌드됩니다.

실용적인 비전 AI의 다음 단계, Ultralytics YOLO26

이러한 업데이트가 합쳐져 CPU에서 최대 43% 더 빨라진 모델과 Ultralytics YOLO11보다 더 정확해진 YOLO26은 특히 임베디드 장치, 로봇 공학 및 엣지 시스템에 큰 영향을 미칩니다. 

YOLO26은 현재 YOLO11에서 사용 가능한 모든 동일한 작업과 모델 크기를 지원하므로 제품군 전체에 걸쳐 25개의 모델 변형이 제공됩니다. 여기에는 나노에서 초대형에 이르는 감지, 분할, 포즈 추정, 방향성 바운딩 박스, 분류용 모델이 포함됩니다. 

팀은 또한 5가지 프롬프트 가능한 변형을 개발 중입니다. 이는 별도의 교육 없이도 텍스트 프롬프트를 받아 바운딩 박스를 바로 반환할 수 있는 모델입니다. 

이는 다양한 사용 사례에 쉽게 적용할 수 있는 보다 유연한 인스트럭션 기반 비전 워크플로우를 향한 초기 단계입니다. YOLO26 모델은 아직 개발 중이지만 초기 성능 결과가 매우 좋으며 곧 출시할 수 있도록 노력하고 있습니다.

U트래널리틱스 플랫폼 살펴보기

YOLO26 업데이트가 끝난 후, 글렌은 제품 엔지니어링 책임자인 프라텍 바트나가르를 초대해 울트라틱스 플랫폼에 대한 라이브 데모를 선보였습니다. 이 플랫폼은 데이터 세트 탐색, 이미지 주석 달기, 모델 훈련, 결과 비교 등 컴퓨터 비전 워크플로우의 주요 부분을 하나로 모으기 위해 구축되고 있습니다.

그림 2. 울트라리틱스 플랫폼을 소개하는 프라텍 바트나가르.

프라텍은 개발자가 서로의 작업에 기여하고 재사용하며 개선할 수 있는 데이터 세트 커뮤니티와 프로젝트 커뮤니티라는 두 가지 커뮤니티 공간을 소개하면서, 이 플랫폼이 울트라틱스의 오픈 소스 뿌리에 충실하다고 강조했습니다. 데모에서는 AI 지원 주석, 간편한 클라우드 교육, 로컬 GPU 리소스 없이도 커뮤니티에서 직접 모델을 미세 조정할 수 있는 기능을 선보였습니다.

이 플랫폼은 현재 개발 중입니다. Prateek은 청중들에게 발표를 지켜봐 달라고 독려하며, 출시를 지원하기 위해 중국에서 팀이 성장하고 있다고 언급했습니다.

YOLO를 뒷받침하는 목소리: 저자 패널

분위기가 무르익자, 행사는 다양한 욜로 모델을 개발한 여러 연구자들이 참여하는 패널 토론으로 전환되었습니다. 패널에는 글렌 조처와 함께 수석 머신러닝 엔지니어인 징 치우, 메타의 머신러닝 엔지니어이자 YOLOv10의 저자 중 한 명인 첸 후이, 메이퇀의 알고리즘 전략가이자 YOLOv6의 저자 중 한 명인 보 장이 참여했습니다.

그림 3. 황쉐잉, 첸 후이, 보 장, 징 치우, 글렌 조처가 참여한 YOLO 모델 개발에 관한 패널 토론.

이 토론은 실제 사용을 통해 YOLO가 어떻게 계속 진화하고 있는지에 초점을 맞추었습니다. 연사들은 엣지 디바이스에서 효율적으로 실행, 작은 물체 감지 개선, 모델 내보내기 간소화 등 실질적인 배포 과제에 의해 진전이 이뤄지는 경우가 많다는 점에 대해 언급했습니다. 

패널은 정확성만을 추구하기보다는 프로덕션 환경에서 속도, 사용성, 안정성의 균형을 맞추는 것이 중요하다는 점에 주목했습니다. 반복 작업과 커뮤니티 피드백의 가치도 공유했습니다. 

다음은 대화에서 얻은 몇 가지 흥미로운 인사이트입니다:

  • 개방형 어휘 감지는 YOLO 생태계에서 주목을 받고 있습니다: 최신 모델은 비전 언어 정렬 및 프롬프트 기반 워크플로우가 어떻게 고정된 카테고리를 넘어서는 객체를 감지할 수 있는지 보여줍니다.
    ↪cf_200D↩
  • 경량 주의가 부상하고 있습니다: 패널은 모든 곳에서 전체 주의가 아닌 효율적인 주의 메커니즘을 사용하면 엣지 디바이스에서 추론의 무게를 가볍게 유지하면서 정확도를 높일 수 있는 방법에 대해 논의했습니다.
    ↪f_200D↩
  • 커뮤니티와 함께 일찍 그리고 자주 반복하세요: 패널리스트들은 모델을 더 빨리 출시하고 사용자로부터 학습하는 것이 긴 비공개 개발 주기보다 더 강력한 결과를 이끌어내는 빌드-테스트-개선 사고방식을 강조했습니다.

AI의 미래와 비전을 정의하는 사고의 리더들

다음으로, AI 커뮤니티의 리더들이 디지털 휴먼과 로보틱스에서 멀티모달 추론과 효율적인 엣지 배포에 이르기까지 비전 AI가 어떻게 진화하고 있는지 공유한 YV25 심천의 기조 강연을 자세히 살펴보겠습니다.

인간 경험을 이해하도록 AI 교육하기

통찰력 있는 세션에서 알리바바 퀀 연구소의 펭 장 박사는 자신의 팀이 보다 자연스러운 움직임과 컨트롤로 표현력이 풍부한 디지털 휴먼을 생성할 수 있는 대형 비디오 모델을 개발하는 방법을 공유했습니다. 그는 오디오 또는 모션 레퍼런스를 사용하여 사실적인 음성, 제스처, 애니메이션을 생성하고 순수 텍스트 기반 생성의 한계를 극복하는 Wan S2V와 Wan Animate에 대해 설명했습니다.

그림 4. 대형 비디오 모델이 디지털 휴먼을 어떻게 지원하는지 설명하는 펭 장.

또한 장 박사는 실시간 인터랙티브 아바타를 향한 진전에 대해 이야기했는데, 여기에는 외모와 동작의 제로 샷 복제, 라이브 카메라 피드에서 직접 얼굴에 애니메이션을 적용할 수 있는 경량 모델 등 실제와 같은 디지털 휴먼이 일상적인 기기에서 원활하게 실행될 수 있는 단계에 한 걸음 더 가까워졌다는 점이 포함됩니다.

지각에서 행동으로: 체화된 지능의 시대

YV25 심천의 핵심 주제 중 하나는 단순히 세상을 보는 비전 모델에서 그 안에서 행동할 수 있는 시스템으로 전환하는 것이었습니다. 즉, 인식은 더 이상 파이프라인의 끝이 아니라 행동의 시작이 되고 있습니다.

예를 들어, 기조연설에서 D-Robotics의 후 춘슈는 개발 키트와 SoC(시스템 온 칩) 솔루션이 통합된 하드웨어 및 소프트웨어 스택에서 감지, 실시간 모션 제어, 의사 결정을 통합하는 방법을 설명했습니다. 인식과 동작을 별도의 단계가 아닌 연속적인 피드백 루프로 처리함으로써 실제 환경에서 보다 안정적으로 움직이고 적응하며 상호 작용할 수 있는 로봇을 지원하는 접근 방식입니다.

그림 5. 중국 심천에서 열린 욜로 비전 2025에서 디로보틱스의 데모.

바이두 패들의 알렉스 장은 강연에서 이 아이디어를 반영하여 YOLO와 패들OCR이 어떻게 함께 작동하여 물체를 감지하고 그 주변의 텍스트와 구조를 해석하는지에 대해 설명했습니다. 이를 통해 시스템은 이미지와 문서를 물류, 검사 및 자동 처리와 같은 작업에 사용할 수 있는 구조화된 정보로 변환할 수 있습니다. 

엣지에서의 인텔리전스: 모든 디바이스를 위한 효율적인 AI

YV25 심천의 또 다른 흥미로운 주제는 엣지 디바이스에서 비전 AI의 효율성과 성능이 어떻게 향상되고 있는지에 대한 것이었습니다. 

DEEPX의 폴 정은 임베디드 하드웨어에 직접 YOLO 모델을 배포하여 클라우드에 대한 의존도를 줄이는 방법에 대해 설명했습니다. 저전력 소비, 최적화된 추론, 하드웨어 인식 모델 튜닝에 중점을 둔 DEEPX는 동적 환경에서 작동하는 드론, 모바일 로봇, 산업용 시스템의 실시간 인식을 가능하게 합니다.

마찬가지로 무어 스레드의 리우 링페이는 무어 스레드 E300 플랫폼이 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 신경 처리 장치(NPU) 컴퓨팅을 통합하여 소형 기기에서 고속 비전 추론을 제공하는 방법을 공유했습니다. 

이 플랫폼은 높은 프레임 속도로 여러 개의 YOLO 스트림을 실행할 수 있으며, 툴체인은 양자화, 정적 컴파일, 성능 튜닝과 같은 단계를 간소화합니다. 또한 무어 스레드는 개발자의 장벽을 낮추기 위해 다양한 컴퓨터 비전 모델과 배포 예제를 오픈소스화했습니다.

더 스마트한 AI 시스템을 위한 비전과 언어의 융합

최근까지만 해도 이미지 이해와 언어 해석이 모두 가능한 단일 모델을 구축하려면 운영 비용이 많이 드는 대형 트랜스포머 아키텍처가 필요했습니다. YV25 심천에서 Yuanshi Intelligence의 Yue Ziyin은 트랜스포머의 장문 추론 능력과 반복 모델의 효율성을 결합한 아키텍처인 RWKV에 대한 개요를 설명했습니다. 

그는 해상도에 따라 선형적으로 확장되는 방식으로 이미지를 처리하여 이 설계를 컴퓨터 비전에 적용하는 Vision-RWKV에 대해 설명했습니다. 따라서 고해상도 입력과 연산이 제한적인 에지 디바이스에 적합합니다.

또한 유는 이미지 기능과 텍스트 이해를 결합하여 객체 감지를 넘어 장면, 문서, 실제 맥락을 해석하는 비전 언어 시스템에서 RWKV가 어떻게 사용되는지 보여주었습니다. 

그림 6. RWKV의 애플리케이션에 대해 이야기하는 Yue Ziyin.

비전 AI를 생생하게 구현한 부스 및 라이브 데모

무대에서 진행된 강연에서 비전 AI가 앞으로 나아갈 방향을 전망했다면, 현장의 부스에서는 이미 비전 AI가 오늘날 어떻게 사용되고 있는지를 보여주었습니다. 참석자들은 실시간으로 작동하는 모델을 보고, 하드웨어 옵션을 비교하고, 이러한 시스템을 구축하는 팀과 직접 대화할 수 있었습니다.

전시된 기술을 살짝 엿볼 수 있습니다:

  • 개발자 및 프로토타이핑 플랫폼: Seeed, M5Stack, Infermove는 YOLO 기반 애플리케이션을 쉽게 실험하고 아이디어에서 실제 데모로 빠르게 전환할 수 있는 소형 개발 보드와 스타터 키트를 선보였습니다.
    ↪cf_200D↩
  • 고성능 엣지 하드웨어: 빠르고 효율적인 추론을 위해 제작된 칩과 모듈을 Hailo, DEEPX, Intel 및 무어 스레드에서 시연했습니다.
    ↪f_200D↩
  • 비전 및 언어 워크플로우: 물체를 감지하고 이미지나 문서에 나타난 내용을 읽고 해석하고 추론할 수 있는 소프트웨어 스택을 강조한 Baidu Paddle 및 RWKV
    ↪cf_200D↩
  • 오픈 소스 및 커뮤니티 도구: 실시간 모델 데모, 교육 팁 및 실습 가이드를 통해 개발자의 참여를 유도하고, 공유 지식이 혁신을 가속화하는 방법을 강화한 Ultralytics와 Datawhale.
그림 6. YV25 심천의 M5Stack 부스 모습.

Vision AI 커뮤니티와 연결

모든 흥미로운 기술 외에도 YV25 심천에서 가장 좋았던 점 중 하나는 컴퓨터 비전 커뮤니티와 울트라 애널리틱스 팀이 다시 한 번 직접 만나게 되었다는 점입니다. 하루 종일 사람들이 데모 주위에 모여 커피를 마시며 아이디어를 공유하고, 강연이 끝난 후에도 오랫동안 대화를 이어갔습니다. 

연구원, 엔지니어, 학생, 건축업자들은 서로 메모를 비교하고 질문하며 배포부터 모델 교육까지 실제 경험을 교환했습니다. 또한 Grupo Osborne의 Cinco Jotas 덕분에 갓 구운 하몽으로 스페인 문화까지 더해져 따뜻한 연결의 순간을 만들었습니다. 아름다운 장소, 열광적인 관중, 공유된 추진력이 이 날을 진정으로 특별하게 만들었습니다.

주요 내용

영감을 주는 기조연설부터 실습 데모까지, YOLO 비전 2025 심천은 울트라리틱스 커뮤니티를 정의하는 혁신의 정신을 담아냈습니다. 하루 종일 연사와 참석자들은 아이디어를 교환하고, 새로운 기술을 탐구하고, AI의 미래에 대한 비전을 공유하며 소통했습니다. 참석자들은 함께 활력을 되찾고 다음 단계로 나아갈 준비를 마쳤습니다.

AI와 컴퓨터 비전으로 무엇이 가능한지 다시 상상해 보세요. 커뮤니티와 GitHub 리포지토리에 참여하여 자세히 알아보세요. 농업 분야의 컴퓨터 비전과 소매업의 AI와 같은 애플리케이션에 대해 자세히 알아보세요. 라이선스 옵션을 살펴보고 지금 바로 컴퓨터 비전을 시작하세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.