YOLO Vision 2024의 패널 토크에서 흥미로운 통찰력을 발견하십시오. 생성형 AI가 실시간 비전 AI 모델의 미래를 어떻게 형성하고 있는지 살펴보십시오.
YOLO Vision 2024의 패널 토크에서 흥미로운 통찰력을 발견하십시오. 생성형 AI가 실시간 비전 AI 모델의 미래를 어떻게 형성하고 있는지 살펴보십시오.
생성형 AI는 기존 데이터에서 패턴을 학습하여 이미지, 텍스트 또는 오디오와 같은 새로운 콘텐츠를 생성하는 인공 지능(AI)의 한 분야입니다. 최근의 발전 덕분에 이제 인간의 창의력을 모방하는 매우 사실적인 콘텐츠를 생성하는 데 사용할 수 있습니다.
하지만 생성형 AI의 영향력은 단순히 콘텐츠를 생성하는 것을 넘어섭니다. Ultralytics YOLO 모델과 같은 실시간 컴퓨터 비전 모델이 계속 발전함에 따라 생성형 AI는 시각적 데이터가 처리되고 확장되는 방식을 재정의하여 실제 시나리오에서 혁신적인 애플리케이션의 길을 열고 있습니다.
이러한 새로운 기술 변화는 Ultralytics에서 주최하는 연례 하이브리드 행사인 YOLO Vision 2024 (YV24)에서 흥미로운 대화 주제였습니다. YV24에는 AI 애호가와 업계 리더들이 모여 컴퓨터 비전의 최신 혁신 기술에 대해 논의했습니다. 이 행사는 혁신, 효율성 및 실시간 AI 솔루션의 미래에 초점을 맞췄습니다.
이 행사의 주요 하이라이트 중 하나는 생성형 AI 시대의 YOLO에 대한 패널 토크였습니다. 이 패널에는 Ultralytics의 설립자 겸 CEO인 Glenn Jocher, Ultralytics의 수석 머신 러닝 엔지니어인 Jing Qiu, 칭화 대학의 Ao Wang이 참여했습니다. 그들은 생성형 AI가 컴퓨터 비전에 미치는 영향과 실용적인 AI 모델 구축의 어려움을 탐구했습니다.
이 기사에서는 그들의 논의에서 나온 주요 통찰력을 다시 살펴보고 생성형 AI가 Vision AI를 어떻게 변화시키고 있는지 자세히 살펴보겠습니다.
Glenn Jocher 외에도 많은 숙련된 엔지니어들이 Ultralytics YOLO 모델 개발에 중요한 역할을 했습니다. 그중 한 명인 Jing Qiu는 YOLO와의 예상치 못한 시작을 회상했습니다. 그는 AI에 대한 열정이 대학 시절에 시작되었다고 설명했습니다. 그는 이 분야를 탐구하고 배우는 데 상당한 시간을 보냈습니다. Jing Qiu는 GitHub에서 Glenn Jocher와 어떻게 연결되었고 다양한 AI 프로젝트에 참여하게 되었는지 회상했습니다.
Jing Qiu의 말에 덧붙여 Glenn Jocher는 GitHub를 "만난 적 없는 사람들이 서로 돕고 서로의 작업에 기여하는 놀라운 공유 방법입니다. 훌륭한 커뮤니티이며 AI를 시작하는 정말 좋은 방법입니다."라고 설명했습니다.

AI에 대한 Jing Qiu의 관심과 Ultralytics YOLOv5에 대한 그의 작업은 모델을 개선하는 데 도움이 되었습니다. 이후 그는 Ultralytics YOLOv8 개발에 핵심적인 역할을 수행하여 추가적인 개선 사항을 도입했습니다. 그는 이를 놀라운 여정이라고 묘사했습니다. 현재 Jing Qiu는 Ultralytics YOLO11과 같은 모델을 계속 개선하고 작업하고 있습니다.
중국에서 원격으로 패널 토크에 참여한 Ao Wang은 자신을 박사 과정 학생이라고 소개했습니다. 처음에는 소프트웨어 엔지니어링을 공부했지만 AI에 대한 열정으로 컴퓨터 비전 및 딥 러닝으로 전환했습니다.
유명한 YOLO 모델과의 첫 만남은 다양한 AI 기술과 모델을 실험하는 동안이었습니다. 그는 속도와 정확성에 감명을 받아 객체 감지와 같은 컴퓨터 비전 작업에 더 깊이 빠져들게 되었습니다. 최근 Ao Wang은 YOLO 모델의 최신 버전인 YOLOv10에 기여했습니다. 그의 연구는 모델을 더 빠르고 정확하게 최적화하는 데 중점을 두었습니다.
그런 다음 패널은 생성형 AI에 대해 논의하기 시작했고 Jing Qiu는 생성형 AI와 Vision AI는 매우 다른 목적을 가지고 있다고 지적했습니다. 생성형 AI는 텍스트, 이미지 및 비디오와 같은 것을 생성하는 반면 Vision AI는 주로 이미지를 통해 이미 존재하는 것을 분석합니다.
Glenn Jocher는 크기 또한 큰 차이점이라고 강조했습니다. 생성형 AI 모델은 방대하며 모델이 데이터에서 학습하는 데 도움이 되는 내부 설정인 수십억 개의 파라미터를 포함하는 경우가 많습니다. 컴퓨터 비전 모델은 훨씬 더 작습니다. 그는 "우리에게 가장 작은 YOLO 모델은 가장 작은 LLM [Large Language Model]보다 약 천 배 더 작습니다. 따라서 300만 개의 파라미터와 30억 개를 비교할 수 있습니다."라고 말했습니다.

Jing Qiu는 생성형 AI와 컴퓨터 비전의 학습 및 배포 프로세스도 매우 다르다고 덧붙였습니다. 생성형 AI는 실행하는 데 거대하고 강력한 서버가 필요합니다. 반면에 YOLO와 같은 모델은 효율성을 위해 구축되었으며 표준 하드웨어에서 학습하고 배포할 수 있습니다. 따라서 Ultralytics YOLO 모델은 실제 사용에 더 실용적입니다.
서로 다르지만 이 두 분야는 얽히기 시작했습니다. Glenn Jocher는 생성형 AI가 Vision AI에 새로운 발전을 가져와 모델을 더 스마트하고 효율적으로 만들고 있다고 설명했습니다.
생성형 AI는 빠르게 발전했으며 이러한 혁신은 컴퓨터 비전을 포함한 다른 많은 인공 지능 영역에 영향을 미치고 있습니다. 다음으로 이에 대한 패널의 흥미로운 통찰력을 살펴보겠습니다.
패널 초기에 Glenn Jocher는 머신 러닝 아이디어가 오랫동안 존재했지만 컴퓨터가 이를 작동시킬 만큼 강력하지 않았다고 설명했습니다. AI 아이디어를 현실로 만들기 위해서는 더 강력한 하드웨어가 필요했습니다.
병렬 처리 기능을 갖춘 지난 20년 동안 GPU(Graphics Processing Units)의 부상은 모든 것을 변화시켰습니다. GPU는 AI 모델 학습을 훨씬 빠르고 효율적으로 만들어 딥 러닝이 빠른 속도로 발전할 수 있도록 했습니다.
오늘날 TPU(Tensor Processing Units)와 최적화된 GPU와 같은 AI 칩은 더 적은 전력을 사용하면서 더 크고 복잡한 모델을 처리합니다. 이를 통해 AI는 실제 애플리케이션에서 더욱 접근하기 쉽고 유용해졌습니다.
새로운 하드웨어 개선이 있을 때마다 생성형 AI와 컴퓨터 비전 애플리케이션 모두 더욱 강력해지고 있습니다. 이러한 발전으로 실시간 AI는 더욱 빠르고 효율적이며 더 많은 산업에서 사용할 준비가 되었습니다.
징 치우는 생성형 AI가 컴퓨터 비전에 어떤 영향을 미치는지에 대한 질문에, AI가 이미지에서 가장 중요한 부분을 집중하도록 돕는 모델인 트랜스포머가 AI가 이미지를 이해하고 처리하는 방식을 변화시켰다고 말했습니다. 첫 번째 큰 단계는 객체 탐지에 이 새로운 접근 방식을 사용한 DETR(Detection Transformer)이었습니다. 이는 정확도를 향상시켰지만, 경우에 따라 속도를 느리게 만드는 성능 문제가 있었습니다.
이 문제를 해결하기 위해 연구자들은 RT-DETR과 같은 하이브리드 모델을 개발했습니다. 이러한 모델은 CNN(Convolutional Neural Networks, 이미지에서 특징을 자동으로 학습하고 추출하는 딥러닝 모델)과 트랜스포머를 결합하여 속도와 정확도의 균형을 맞춥니다. 이 접근 방식은 트랜스포머의 장점을 활용하면서 객체 탐지 속도를 향상시킵니다.
흥미롭게도 YOLOv10은 트랜스포머 기반의 어텐션 레이어(이미지에서 가장 중요한 영역을 강조하고 덜 중요한 세부 사항을 무시하도록 스포트라이트 역할을 하는 모델의 일부)를 사용하여 성능을 향상시킵니다.
아오 왕은 또한 생성형 AI가 모델 훈련 방식을 어떻게 변화시키고 있는지 언급했습니다. 마스크 이미지 모델링과 같은 기술은 AI가 이미지에서 더 효율적으로 학습하도록 도와 수동으로 레이블링된 대규모 데이터 세트의 필요성을 줄입니다. 이는 컴퓨터 비전 훈련을 더 빠르고 리소스 소모가 적게 만듭니다.
패널 토론에서 논의된 또 다른 핵심 아이디어는 생성형 AI와 비전 AI가 어떻게 결합하여 더 강력한 모델을 구축할 수 있는지였습니다. 글렌 조커는 이러한 두 가지 접근 방식이 서로 다른 강점을 가지고 있지만, 이를 결합하면 새로운 가능성이 열릴 수 있다고 설명했습니다.
예를 들어, YOLO와 같은 비전 AI 모델은 종종 이미지를 그리드로 나누어 객체를 식별합니다. 이 그리드 기반 방법은 언어 모델이 세부 사항을 정확히 찾아내고 설명하는 능력을 향상시키는 데 도움이 될 수 있습니다. 이는 많은 언어 모델이 오늘날 직면하고 있는 과제입니다. 본질적으로 이러한 기술을 병합하면 보이는 것을 정확하게 감지하고 명확하게 설명할 수 있는 시스템으로 이어질 수 있습니다.

생성형 AI와 컴퓨터 비전은 함께 발전하고 있습니다. 생성형 AI는 이미지와 비디오를 생성하는 동시에 비전 AI 모델을 더욱 정확하고 효율적으로 만들 수 있는 혁신적인 아이디어를 제시함으로써 이미지 및 비디오 분석을 개선합니다.
이 통찰력 있는 YV24 패널 토크에서 글렌 조커, 징 치우, 아오 왕은 이러한 기술이 미래를 어떻게 만들어가고 있는지에 대한 생각을 공유했습니다. 더 나은 AI 하드웨어와 함께 생성형 AI와 비전 AI는 계속 발전하여 훨씬 더 큰 혁신을 이끌어낼 것입니다. 이 두 분야는 더 스마트하고 빠르며 일상 생활에 유용한 AI를 만들기 위해 협력하고 있습니다.
커뮤니티에 참여하고 GitHub 저장소를 탐색하여 비전 AI에 대해 자세히 알아보세요. 라이선스 옵션을 확인하여 컴퓨터 비전 프로젝트를 시작하세요. 제조 분야의 AI 또는 자율 주행의 컴퓨터 비전과 같은 혁신에 관심이 있으신가요? 솔루션 페이지를 방문하여 자세히 알아보세요.