YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

Google DeepMind의 Veo로 비디오 생성

Abirami Vina

6분 소요

2024년 5월 15일

텍스트, 이미지 및 비디오 프롬프트에서 고품질 1080P 비디오를 손쉽게 만들 수 있는 Google DeepMind의 최신 생성 비디오 모델인 Veo에 대해 자세히 알아보세요.

지난 5월 14일 Google I/O 2024 프레젠테이션에서 DeepMind의 최신 업데이트가 공유되었습니다. 가장 흥미로운 발전 중 하나는 최신 생성 비디오 모델인 Veo였습니다. Veo는 텍스트, 이미지 및 비디오 프롬프트를 기반으로 고품질 1080P 비디오를 만들 수 있습니다. 또한 후속 프롬프트로 생성된 비디오를 편집할 수도 있습니다. Veo는 생성형 AI를 한 단계 더 발전시킵니다. Veo가 제공하는 기능을 자세히 살펴보겠습니다. 

Veo의 기능 이해

Veo는 언어와 시각적 요소를 깊이 이해하여 사용자의 창의적인 비전에 밀접하게 부합하는 비디오를 생성하는 생성형 비디오 모델입니다. 더 긴 프롬프트의 톤과 세부 사항을 정확하게 캡처할 수 있으므로 아이디어를 정확한 비디오 콘텐츠로 변환하려는 제작자에게 강력한 도구입니다.

Veo는 '타임랩스' 및 '풍경의 항공 촬영'과 같은 영화 기술을 이해할 수 있기 때문에 사용자는 생성된 비디오에 대한 획기적인 창의적 제어력을 가질 수 있습니다. 이러한 창의적 제어 덕분에 사람, 동물 및 사물이 자연스럽게 움직이는 비디오를 만들 수 있습니다. Veo에서 생성된 비디오는 AI 모델에서 생성되었다는 것을 알아채기 어렵기 때문에 매력적이고 시각적으로 매력적입니다.

Veo는 프롬프트에서 비디오를 단순히 생성하는 것을 넘어섭니다. 이전에 생성된 비디오와 해안선의 항공 뷰에 카약을 삽입하는 것과 같은 특정 편집 요청을 제공하면 Veo는 이 변경 사항을 원본 비디오에 원활하게 통합하여 업데이트된 버전을 생성할 수 있습니다.

Fig 1. Veo를 사용한 비디오 편집의 예시입니다.

Veo에서 제공하는 더 많은 기능은 다음과 같습니다.

  • 마스크 편집: Veo는 비디오의 정의된 영역을 편집하는 데 도움을 줄 수 있습니다.
  • 이미지 기반 비디오 생성: 이미지와 텍스트 프롬프트를 사용하여 Veo는 이미지의 스타일을 반영하고 프롬프트의 지시를 따르는 비디오를 생성할 수 있습니다.
  • 확장된 비디오 클립: Veo는 단일 프롬프트 또는 스토리를 함께 전달하는 일련의 프롬프트에서 60초 이상의 비디오 클립을 생성하고 확장할 수 있습니다.

Veo가 생성한 놀라운 비디오

Veo가 생성한 몇 가지 비디오와 그 이유가 그토록 놀라운지에 대해 살펴보겠습니다. 

짧은 텍스트 프롬프트에서 타임랩스 비디오를 생성하는 것은 어렵습니다. 일반적으로 짧은 텍스트 프롬프트는 타임랩스 장면 내의 변경 사항과 움직임을 정확하게 전달할 수 없습니다. 따라서 Veo가 세부 사항에 들어가지 않고도 타임랩스에서 기대할 수 있는 것을 이해할 수 있다는 것은 놀라운 일입니다. 

Fig 2. Veo가 생성한 타임 랩스 비디오의 프레임입니다.

마찬가지로, 정확한 물리 법칙을 사용하여 비디오를 생성하는 것은 쉽지 않습니다. AI 모델은 움직임과 상호 작용이 현실적으로 보이도록 중력, 운동량 및 충돌과 같은 물리 법칙을 이해하고 시뮬레이션해야 합니다. Veo가 텍스트 프롬프트에서 자세한 지침 없이 이러한 역학을 정확하게 모델링할 수 있다는 것은 인상적입니다.

Fig 3. Veo를 사용하여 생성된 비디오의 프레임으로, 해파리 움직임의 물리학을 정확하게 캡처합니다.

지금까지는 계산상의 제약과 더 긴 시퀀스에서 일관성을 유지하는 복잡성으로 인해 AI에서 생성된 더 짧은 비디오만 보았습니다. Google의 2024 I/O 프레젠테이션에서 Veo의 더 길고 복잡한 비디오를 만드는 놀라운 능력이 공개되었습니다.

Fig 4. Google 2024 I/O 프레젠테이션에서 보여준 더 긴 Veo 비디오의 프레임입니다.

Veo는 어떻게 작동하나요?

다른 많은 AI 모델과 마찬가지로 Veo 역시 거인들의 어깨 위에 서 있습니다. Veo는 GQN(Generative Query Network), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere와 같은 이전의 발전과 Google의 독점적인 Transformer 아키텍처 및 Gemini에서 파생되었습니다. 또한 Veo가 프롬프트를 정확하게 해석하는 능력을 향상시키기 위해 학습 데이터 세트에 있는 각 비디오의 캡션을 더 자세하게 만들었습니다. 

Google에서 공유한 대략적인 모델 워크플로를 기반으로 Veo의 작동 방식은 다음과 같습니다.

  • 입력 프롬프트: 텍스트 프롬프트와 선택적으로 이미지 프롬프트를 제공합니다.
  • 인코딩: 텍스트 프롬프트는 UL2 인코더에 의해 처리되고, 이미지 프롬프트는 이미지 인코더에 의해 처리됩니다.
  • 임베디드 프롬프트: 텍스트 및 이미지 인코더의 출력이 결합되어 단일 임베디드 프롬프트를 형성합니다.
  • 잠재 확산 모델: 내장된 프롬프트와 노이즈가 있는 압축된 비디오가 이 모델로 전달되어 압축된 비디오를 생성합니다. Veo는 고품질의 압축된 비디오 표현(잠재 변수라고 함)을 사용하여 품질을 유지하면서 효율성을 향상시킵니다.
  • 디코딩: 마지막 단계는 압축된 비디오에서 1080p 비디오 출력을 디코딩합니다.
Fig 5. Veo 작동 방식.

영화 제작에 대한 설득력 있는 사례 연구

Veo의 능력을 테스트하기 위해 Google은 영화 제작자 Donald Glover와 그의 크리에이티브 스튜디오 Gilga와 협력했습니다. 그들은 Veo를 사용하여 정확한 움직임과 일관된 프레이밍이 필요한 동적 추적 샷을 포함한 다양한 창의적 기술을 탐구했습니다. 

Fig 6. 영화 제작 과정에서 Veo 활용.

전통적으로 영화 제작자는 시간과 자원 제약으로 인해 한계에 직면합니다. Glover와 그의 팀은 Veo를 통해 복잡한 장면을 빠르게 실험하고 생성할 수 있었고, 이는 결과적으로 영화 제작 과정에서 더 많은 유연성과 혁신을 제공했습니다.

Veo를 통해 Glover와 그의 팀은 실제 촬영 전에 복잡한 장면을 빠르게 실험하고 생성할 수 있었습니다. 예를 들어 다양한 동적 추적 장면을 테스트하여 어떻게 보이는지 확인하고 필요에 따라 조정할 수 있었습니다. 이러한 사전 시각화 프로세스는 아이디어를 개선하고 장면이 의도한 대로 작동하도록 하는 데 도움이 되었으며 궁극적으로 실제 촬영 중에 필요한 테이크 수를 줄였습니다. 그들은 Veo가 영화 산업을 변화시킬 잠재력을 보여주는 설득력 있는 사례 연구를 만들 수 있었습니다. 창의적인 비전을 실현하는 더 빠르고 효율적인 방법을 제공합니다.

다양한 산업 분야에서 Veo의 실제 사용 

Veo의 고급 비디오 생성 기능은 여러 산업 분야에서 실질적인 응용 프로그램을 제공합니다. 광고에서는 타겟 고객을 위해 맞춤화된 고품질 광고를 신속하게 제작하여 시간과 제작 비용을 절약할 수 있습니다. 교육에서는 Veo가 매력적인 교육용 비디오를 만들어 복잡한 개념을 더 쉽게 이해할 수 있도록 합니다. 

기업은 Veo를 교육 및 기업 커뮤니케이션에 사용할 수 있습니다. 의료 전문가들은 교육 목적으로 Veo를 사용하여 의료 절차를 시뮬레이션할 수 있습니다. 가상 이벤트 및 컨퍼런스와 관련하여 Veo는 장소 및 무대의 실감나는 시뮬레이션을 만들어 참석자에게 어디에서나 매력적이고 상호 작용적인 경험을 제공할 수 있습니다. 주최자는 확장된 도달 범위와 향후 이벤트를 위한 귀중한 통찰력을 얻을 수 있습니다. Veo 덕분에 수많은 기회가 열렸습니다.

AI 모델이 여러 산업에 영향을 미칠 가능성이 있는 경우 안전 및 윤리적 AI를 염두에 두는 것이 중요합니다. Google은 광범위한 채택을 가능하게 하고 책임감 있는 사용을 보장하기 위해 여러 안전 조치를 구현했습니다. Veo에서 만든 동영상은 AI 생성 콘텐츠를 워터마크하고 식별하는 도구인 SynthID를 사용하여 워터마크됩니다. SynthID는 투명성을 보장하고 개인 정보 보호, 저작권 및 편향 위험을 완화하는 데 도움이 됩니다. 이 외에도 생성된 모든 동영상은 안전 필터 및 메모리 확인 프로세스를 거칩니다. 이러한 안전 장치는 Veo를 책임감 있고 혁신적인 비디오 제작을 지원하는 가치 있고 윤리적인 도구로 만듭니다.

Veo 액세스 방법

향후 몇 주 안에 Google은 labs.google에서 제공되는 새로운 도구인 VideoFX를 통해 Veo의 획기적인 기능 중 일부를 일부 크리에이터에게 제공하기 시작할 예정입니다. 이 이니셔티브를 통해 크리에이터는 Veo의 고급 비디오 생성 기능을 먼저 사용해 보고 혁신적인 기능을 실험해 볼 수 있습니다. Veo 대기자 명단은 현재 열려 있으며, 관심 있는 크리에이터는 가입하여 프로젝트에서 Veo의 강력한 도구를 사용할 수 있습니다.

DeepMind의 2024년 생성 AI 업데이트에 대한 추가 정보

Veo 외에도 DeepMind는 2024년에 생성형 AI 분야에서 여러 최첨단 업데이트를 발표했습니다. 그중 하나는 가장 발전된 텍스트-이미지 모델인 Imagen 3입니다. Imagen 3는 실사처럼 생생한 이미지를 만드는 데 탁월하며, 자연어 프롬프트를 깊이 이해하고 복잡한 디테일을 포착하는 동시에 시각적 결함을 최소화합니다.

Fig 7. Imagen 3을 사용하여 생성된 이미지.

DeepMind는 또한 AI 음악 생성을 위한 최첨단 모델인 Lyria를 개발했습니다. 이러한 노력의 일환으로 DeepMind는 Music AI Sandbox라는 음악 AI 도구 모음을 만들었습니다. 이러한 도구를 통해 음악가와 프로듀서는 음악 작곡 및 사운드 변환에서 새로운 창의적 가능성을 탐색할 수 있습니다.

Fig 8. DeepMind의 AI 음악 도구 UI 예시.

Veo와 유사하게 DeepMind는 다른 업데이트와 관련해서도 여러 안전 조치를 구현했습니다. SynthID는 AI가 생성한 콘텐츠를 워터마킹하고 식별하는 도구로 이러한 업데이트 전반에 걸쳐 사용될 예정입니다. DeepMind의 이러한 업데이트는 고품질의 시각 및 오디오 콘텐츠를 생성하기 위한 고급스럽고 효율적이며 책임감 있는 도구를 제공함으로써 다양한 산업을 혁신할 것을 약속합니다.

생성형 AI의 다음 단계 탐색

Veo, Imagen 3 및 Lyria를 포함한 DeepMind의 2024년 생성 AI 발전은 AI 기능에서 상당한 도약을 의미합니다. Veo는 간단한 프롬프트에서 고품질 1080p 비디오를 생성하는 기능을 통해 비디오 제작을 혁신하여 영화 제작자와 콘텐츠 제작자에게 다재다능한 도구가 됩니다. Imagen 3는 실사적인 이미지를 생성하는 데 탁월하며, Lyria는 고급 AI 도구를 통해 음악 생성에 새로운 가능성을 제시합니다.

이러한 기술은 고품질 시각 및 오디오 콘텐츠를 만들기 위한 효율적이고 책임감 있는 도구를 제공함으로써 다양한 산업을 변화시킬 것을 약속합니다. SynthID와 같은 안전 조치를 통해 윤리적 사용을 보장하면서 DeepMind는 AI의 경계를 계속 확장하여 미래의 혁신적인 애플리케이션을 위한 길을 열고 있습니다.

GitHub 저장소를 방문하고 커뮤니티에 참여하여 AI를 경험해 보세요. 솔루션 페이지에서 AI가 제조농업에 어떻게 적용되는지 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.