비전 AI

Google DeepMind의 Veo로 비디오 생성하기

텍스트, 이미지 및 비디오 프롬프트에서 고품질 1080P 비디오를 손쉽게 생성할 수 있는 Google DeepMind의 최신 생성형 비디오 모델인 Veo에 대해 더 알아보십시오.

ABAbirami Vina

6 min readMay 15, 2024

5월 14일에 열린 Google 2024 I/O 발표에서 Google은 자사의 AI 부서인 DeepMind의 최신 업데이트를 공유했습니다. 가장 흥미로운 발전 중 하나는 최신 생성형 영상 모델인 Veo입니다. Veo는 텍스트, 이미지, 영상 프롬프트를 기반으로 고품질의 1080p 영상을 제작할 수 있습니다. 또한 후속 프롬프트를 사용하여 생성된 영상을 수정할 수도 있습니다. Veo는 생성형 AI를 한 단계 더 높은 수준으로 끌어올렸습니다. Veo가 제공하는 기능들을 자세히 살펴보겠습니다.

Link to this sectionVeo의 기능 이해하기#

Veo는 언어와 시각에 대한 깊은 이해를 바탕으로 사용자의 창의적인 비전을 정확하게 반영하는 영상을 만드는 생성형 영상 모델입니다. 더 긴 프롬프트의 어조와 세부 사항을 정확하게 포착할 수 있어, 자신의 아이디어를 정교한 영상 콘텐츠로 변환하고자 하는 크리에이터들에게 강력한 도구가 됩니다.

사용자는 Veo가 "타임랩스"나 "풍경의 항공 촬영"과 같은 영화적 기법을 이해할 수 있기 때문에 생성된 영상에 대해 획기적인 창의적 통제력을 가질 수 있습니다. 이러한 창의적 통제 덕분에 사용자는 사람, 동물, 사물이 자연스럽게 움직이는 영상을 만들 수 있습니다. Veo가 생성한 영상은 AI 모델이 만들었다는 것을 알아차리기 어렵기 때문에 매우 매력적이고 시각적으로도 뛰어납니다.

Veo는 단순히 프롬프트에서 영상을 생성하는 것을 넘어섭니다. 이전에 생성된 영상과 해안선의 항공 뷰에 카약을 삽입해 달라는 등의 구체적인 수정 요청을 제공하면, Veo는 이러한 변경 사항을 원본 영상에 매끄럽게 통합하여 업데이트된 버전을 생성할 수 있습니다.

Veo를 사용한 동영상 편집 예시

그림 1. Veo를 사용한 영상 편집의 예시.

Veo가 제공하는 추가 기능은 다음과 같습니다:

마스크 편집(Masked Editing): Veo를 사용하면 영상의 특정 영역을 편집할 수 있습니다.
이미지 기반 영상 생성(Image-Inspired Video Creation): 이미지와 텍스트 프롬프트를 사용하여 Veo는 이미지의 스타일을 반영하고 프롬프트의 지시를 따르는 영상을 생성할 수 있습니다.
영상 클립 확장(Extended Video Clips): Veo는 단일 프롬프트나 이야기를 전달하는 연속적인 프롬프트 조합을 통해 최대 60초 이상의 영상 클립을 생성하고 확장할 수 있습니다.

Link to this sectionVeo가 생성한 숨 막히게 아름다운 영상들#

Veo가 생성한 몇 가지 영상과 그 이유가 왜 그렇게 놀라운지 살펴보겠습니다.

짧은 텍스트 프롬프트로 타임랩스 영상을 생성하는 것은 어려운 일입니다. 일반적으로 짧은 텍스트 프롬프트로는 타임랩스 장면 내의 변화와 움직임을 정확하게 전달할 수 없습니다. 따라서 Veo가 세부적인 지시 없이도 타임랩스에서 무엇을 기대해야 하는지 이해할 수 있다는 것은 놀라운 일입니다.

Veo가 생성한 타임랩스 동영상의 한 장면

그림 2. Veo가 생성한 타임랩스 영상의 한 프레임.

마찬가지로 정확한 물리 법칙이 적용된 영상을 생성하는 것도 쉽지 않습니다. AI 모델은 움직임과 상호작용이 현실적으로 보이도록 중력, 운동량, 충돌과 같은 물리 법칙을 이해하고 시뮬레이션해야 합니다. Veo가 텍스트 프롬프트의 상세한 가이드 없이도 이러한 역학을 정확하게 모델링할 수 있다는 점은 매우 인상적입니다.

해파리의 움직임에 대한 물리학적 원리를 포착하여 Veo로 생성한 동영상의 한 장면

그림 3. 해파리 움직임의 물리 법칙을 정확하게 포착하여 Veo로 생성된 영상의 한 프레임.

지금까지는 컴퓨팅 제한과 긴 시퀀스에 걸쳐 일관성을 유지하는 복잡성 때문에 AI가 생성한 짧은 영상만 볼 수 있었습니다. Google의 2024 I/O 발표에서는 더 길고 복잡한 영상을 생성하는 Veo의 놀라운 능력이 공개되었습니다.

Google 2024 I/O 발표에서 공개된 더 긴 Veo 동영상의 장면들

그림 4. Google 2024 I/O 발표에서 공개된 긴 Veo 영상의 프레임들.

Link to this sectionVeo는 어떻게 작동하나요?#

많은 다른 AI 모델과 마찬가지로, Veo는 거인의 어깨 위에 서 있습니다. 이 모델은 GQN(Generative Query Network), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere와 같은 이전의 발전 사항과 Google의 독자적인 Transformer 아키텍처 및 Gemini를 활용합니다. 또한 Veo의 프롬프트 해석 능력을 향상하기 위해 학습 데이터셋에 포함된 각 영상의 캡션을 더 상세하게 작성했습니다.

Google이 공유한 대략적인 모델 워크플로에 따른 Veo의 작동 방식은 다음과 같습니다:

입력 프롬프트(Input Prompts): 텍스트 프롬프트를 제공하며, 선택적으로 이미지 프롬프트를 함께 제공할 수 있습니다.
인코딩(Encoding): 텍스트 프롬프트는 UL2 인코더에 의해 처리되고, 이미지 프롬프트는 이미지 인코더에 의해 처리됩니다.
임베디드 프롬프트(Embedded Prompt): 텍스트 및 이미지 인코더의 출력값이 결합되어 단일 임베디드 프롬프트가 형성됩니다.
잠재 확산 모델(Latent Diffusion Model): 임베디드 프롬프트와 노이즈가 섞인 압축 영상이 이 모델로 전달되어 압축 영상을 생성합니다. Veo는 품질을 유지하면서 효율성을 높이기 위해 레이턴트(latents)라고 알려진 고품질 압축 영상 표현을 사용합니다.
디코딩(Decoding): 마지막 단계는 압축된 영상에서 1080p 영상 결과물을 디코딩하는 것입니다.

Veo 작동 방식을 보여주는 다이어그램

그림 5. Veo의 작동 방식.

Link to this section영화 제작 분야의 설득력 있는 사례 연구#

Veo의 능력을 테스트하기 위해 Google은 영화 제작자 Donald Glover 및 그의 크리에이티브 스튜디오인 Gilga와 협력했습니다. 그들은 Veo를 사용하여 정밀한 움직임과 일관된 프레이밍이 필요한 다이내믹 트래킹 샷을 포함한 다양한 창의적 기법을 탐구했습니다.

영화 제작 과정에서 Veo 활용하기

그림 6. 영화 제작 과정에서의 Veo 활용.

전통적으로 영화 제작자들은 시간과 자원의 제약으로 인해 한계에 직면합니다. Veo를 통해 Glover와 그의 팀은 복잡한 샷을 빠르게 실험하고 생성할 수 있었으며, 결과적으로 영화 제작 과정에서 더 많은 유연성과 혁신을 제공할 수 있었습니다.

Veo를 통해 Glover와 그의 팀은 실제 촬영 전에 복잡한 샷을 빠르게 실험하고 생성할 수 있었습니다. 예를 들어, 다양한 다이내믹 트래킹 샷을 테스트하여 어떻게 보이는지 확인하고 필요에 따라 조정할 수 있었습니다. 이러한 사전 시각화 과정은 아이디어를 구체화하고 의도한 대로 샷이 작동하도록 보장하여 실제 촬영 중 필요한 테이크 수를 줄이는 데 도움이 되었습니다. 그들은 Veo가 영화 산업을 변화시킬 수 있는 잠재력을 보여주는 설득력 있는 사례 연구를 만들 수 있었습니다. 이는 창의적인 비전을 현실로 구현하는 더 빠르고 효율적인 방법을 제공합니다.

Link to this section다양한 산업 분야에서의 Veo 실용적 활용#

Veo의 고급 영상 생성 기능은 많은 산업 분야에서 실용적인 응용이 가능합니다. 광고 분야에서는 타겟 고객을 위한 맞춤형 고품질 광고를 빠르게 제작하여 시간과 비용을 절약할 수 있습니다. 교육 분야에서는 Veo를 통해 매력적인 교육용 영상을 제작하여 복잡한 개념을 더 쉽게 이해하도록 도울 수 있습니다.

기업은 교육 및 사내 커뮤니케이션에 Veo를 사용할 수 있습니다. 의료 전문가는 교육 목적으로 의료 절차를 시뮬레이션하기 위해 Veo를 사용할 수 있습니다. 가상 이벤트 및 컨퍼런스의 경우 Veo를 사용하여 장소와 무대의 생생한 시뮬레이션을 생성함으로써 참석자들에게 어디서나 참여할 수 있는 매력적이고 상호작용적인 경험을 제공합니다. 주최자는 도달 범위 확대와 향후 이벤트를 위한 귀중한 인사이트를 얻을 수 있습니다. Veo 덕분에 수많은 기회가 열렸습니다.

AI 모델이 다양한 산업에 영향을 줄 잠재력이 있을 때는 안전과 윤리적 AI를 고려하는 것이 중요합니다. 더 넓은 채택을 가능하게 하고 책임 있는 사용을 보장하기 위해 Google은 여러 안전 조치를 구현했습니다. Veo가 만든 영상은 AI 생성 콘텐츠를 워터마킹하고 식별하는 도구인 SynthID를 사용하여 워터마크가 표시됩니다. SynthID는 투명성을 보장하고 개인정보 보호, 저작권 및 편향성 위험을 완화하는 데 도움을 줍니다. 이 외에도 생성된 모든 영상은 안전 필터와 암기 확인 과정을 거칩니다. 이러한 안전장치는 Veo를 책임감 있고 혁신적인 영상 제작을 지원하는 가치 있고 윤리적인 도구로 만들어 줍니다.

Link to this sectionVeo에 액세스하는 방법#

앞으로 몇 주 내에 Google은 labs.google에서 사용할 수 있는 새로운 도구인 VideoFX를 통해 엄선된 크리에이터들에게 Veo의 획기적인 기능 중 일부를 제공하기 시작할 예정입니다. 이 이니셔티브는 Veo의 고급 영상 생성 기능에 대한 조기 액세스를 허용하여 크리에이터들이 혁신적인 기능을 실험해 볼 기회를 제공합니다. 현재 Veo 대기자 명단이 열려 있으며, 관심 있는 크리에이터들은 가입하여 프로젝트에 Veo의 강력한 도구를 사용할 수 있습니다.

Link to this sectionDeepMind의 2024 생성형 AI 업데이트 추가 정보#

Veo 외에도 DeepMind는 2024년 생성형 AI 분야에서 몇 가지 최첨단 업데이트를 도입했습니다. 그중 하나는 현재까지 가장 진보된 텍스트-이미지 모델인 Imagen 3입니다. Imagen 3는 사진처럼 사실적이고 생생한 이미지를 생성하는 데 탁월합니다. 자연어 프롬프트를 깊이 있게 이해하고 시각적 왜곡을 최소화하면서 복잡한 세부 사항을 포착합니다.

Imagen 3를 사용하여 생성된 이미지

그림 7. Imagen 3를 사용하여 생성된 이미지.

DeepMind는 또한 가장 진보된 AI 음악 생성 모델인 Lyria를 개발했습니다. 이러한 노력의 일환으로 DeepMind는 Music AI Sandbox라는 음악 AI 도구 모음을 만들었습니다. 이 도구들은 음악가와 프로듀서들이 음악 작곡 및 사운드 변환 분야에서 새로운 창의적 가능성을 탐구할 수 있게 합니다.

DeepMind의 AI 음악 도구 UI 예시

그림 8. DeepMind의 AI 음악 도구 UI 예시.

Veo와 마찬가지로 DeepMind는 다른 업데이트와 관련해서도 여러 안전 조치를 구현했습니다. SynthID는 AI 생성 콘텐츠를 워터마킹하고 식별하는 도구로서 이러한 업데이트 전반에 걸쳐 사용될 것입니다. DeepMind의 이러한 업데이트는 고품질의 시각 및 오디오 콘텐츠를 생성하기 위한 진보되고 효율적이며 책임감 있는 도구를 제공함으로써 다양한 산업을 변화시킬 것으로 기대됩니다.

Link to this section생성형 AI의 다음 단계 탐색#

Veo, Imagen 3, Lyria를 포함한 DeepMind의 2024년 생성형 AI 발전은 AI 역량의 상당한 도약을 의미합니다. Veo는 간단한 프롬프트에서 고품질의 1080p 영상을 생성하는 능력으로 영상 제작을 변화시켜 영화 제작자와 콘텐츠 크리에이터를 위한 다재다능한 도구가 되었습니다. Imagen 3는 사진처럼 사실적인 이미지 생성에 뛰어나며, Lyria는 고급 AI 도구로 음악 생성 분야에서 새로운 가능성을 제시합니다.

이러한 기술들은 고품질의 시각 및 오디오 콘텐츠를 생성하기 위한 효율적이고 책임감 있는 도구를 제공함으로써 다양한 산업을 변화시킬 것입니다. 윤리적 사용을 보장하는 SynthID와 같은 안전 조치를 통해 DeepMind는 AI의 경계를 계속 확장하며 미래의 혁신적인 응용 사례를 위한 길을 닦고 있습니다.

당사의 GitHub 저장소를 방문하고 커뮤니티에 참여하여 AI 세계로 빠져보세요. 제조 및 농업 분야에 AI가 어떻게 적용되는지 알아보려면 솔루션 페이지를 확인하세요.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Google DeepMind의 Veo로 비디오 생성하기

Link to this sectionVeo의 기능 이해하기#

Link to this sectionVeo가 생성한 숨 막히게 아름다운 영상들#

Link to this sectionVeo는 어떻게 작동하나요?#

Link to this section영화 제작 분야의 설득력 있는 사례 연구#

Link to this section다양한 산업 분야에서의 Veo 실용적 활용#

Link to this sectionVeo에 액세스하는 방법#

Link to this sectionDeepMind의 2024 생성형 AI 업데이트 추가 정보#

Link to this section생성형 AI의 다음 단계 탐색#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!