비전 AI

Meta Movie Gen: 콘텐츠 제작의 재상상

Meta Movie Gen이 비디오 및 사운드 제작을 어떻게 재정의하고 있는지 확인해 보세요. 이 모델이 어떻게 정밀한 비디오 편집을 제공하고 개인화된 미디어 제작을 지원하는지 배워보세요.

ABAbirami Vina

4 min readNovember 15, 2024

영화 제작을 꿈꾸는 지망생이든 청중을 위한 영상 제작을 즐기는 콘텐츠 크리에이터이든, 창의성을 확장해 주는 AI 도구는 언제나 큰 도움이 됩니다. 최근 Meta는 Meta Movie Gen이라 불리는 최신 생성형 비디오 모델을 출시했습니다.

미디어 및 엔터테인먼트 분야의 글로벌 생성형 AI 시장은 2033년까지 115억 7천만 달러 규모에 이를 것으로 예상되며, Runway, OpenAI, Meta와 같은 기업들이 획기적인 혁신을 주도하고 있습니다. 특히 Meta Movie Gen은 영화 제작, 영상 콘텐츠 제작, 디지털 스토리텔링과 같은 분야에 매우 적합하며, 고품질의 AI 생성 영상을 통해 창의적인 비전을 현실로 구현하기가 그 어느 때보다 쉬워졌습니다. 이 기사에서는 Meta Movie Gen의 작동 원리를 살펴보고 몇 가지 활용 사례를 자세히 알아보겠습니다. 바로 시작해 보겠습니다!

Meta Movie Gen을 사용하여 생성된 비디오 클립의 한 프레임

Fig 1. Meta Movie Gen을 사용하여 생성된 비디오 클립의 한 프레임입니다.

Link to this sectionMeta Movie Gen이란 무엇인가요?#

Meta Movie Gen이 무엇인지 논의하기 전에, 이 기술이 어떻게 탄생했는지 살펴보겠습니다.

Meta’s research efforts related to generative AI started with their Make-A-Scene series of models. This research focuses on a multimodal generative AI method that helps artists and visionaries bring their imagination to life. Artists can input images, audio, videos, or 3D animations to get the image output that they desire. The next leap in innovation came with diffusion models like the Llama Image Foundation models (Emu), which made it possible to generate images and videos of much higher quality and enabled image editing.

Make-A-Scene 스케치 및 텍스트 입력을 사용하여 이미지 생성

Fig 2. Make-A-Scene의 스케치와 텍스트 입력을 사용하여 생성된 이미지의 예시입니다.

Movie Gen은 생성형 AI 연구에 대한 Meta의 최신 기여입니다. 이 모델은 앞서 언급된 모든 모달리티를 결합하여 더욱 세밀한 제어가 가능하도록 함으로써, 사람들이 모델을 더욱 창의적인 방식으로 사용할 수 있게 합니다. Meta Movie Gen은 텍스트-비디오, 텍스트-오디오, 텍스트-이미지 등 다양한 유형의 미디어를 생성하기 위한 기반 모델들의 모음입니다. 이 모델들은 라이선스 데이터와 공개적으로 이용 가능한 데이터셋을 결합하여 학습된 4개의 모델로 구성됩니다.

이 모델들에 대한 간략한 개요는 다음과 같습니다:

Movie Gen Video 모델: 텍스트 프롬프트로부터 고품질 비디오를 생성하는 300억 개의 파라미터 모델입니다.
Movie Gen Audio 모델: 비디오 콘텐츠와 동기화되는 사운드트랙을 생성할 수 있는 130억 개의 파라미터 모델입니다.
Personalized Movie Gen Video 모델: 특정 개인의 이미지와 텍스트 프롬프트를 기반으로 그들의 외형을 유지하면서 비디오를 생성합니다.
Movie Gen Edit 모델: 실제 비디오와 허구의 비디오 모두에 대해 상세한 텍스트 기반 비디오 편집을 수행할 수 있는 모델입니다.

Link to this sectionMeta Movie Gen 비디오 모델 학습#

Movie Gen Video 모델을 생성하고 학습시키는 데에는 몇 가지 핵심 프로세스가 포함되었습니다. 첫 번째 단계는 주로 인간의 활동을 담은 이미지와 비디오 클립을 품질, 동작, 관련성에 따라 필터링하여 수집하고 시각적 데이터를 준비하는 작업이었습니다. 그런 다음 데이터를 각 장면에서 일어나는 일을 설명하는 텍스트 캡션과 연결했습니다. Meta의 LLaMa3-Video 모델을 사용하여 생성된 캡션은 각 장면의 콘텐츠에 대한 풍부한 세부 정보를 제공하여 모델의 시각적 스토리텔링 역량을 강화했습니다.

Movie Gen Video 모델 사전 학습 데이터 파이프라인 개요

Fig 3. Movie Gen Video 모델의 사전 학습 데이터 큐레이션 파이프라인 개요입니다.

학습 과정은 모델이 텍스트를 저해상도 이미지로 변환하는 법을 배우는 것부터 시작되었습니다. 그 후 텍스트-이미지와 텍스트-비디오 학습을 결합하여 점점 더 높은 품질의 시각 자료를 사용함으로써 완전한 비디오 클립을 생성하는 단계로 발전했습니다.

TAE(Temporal Autoencoder)라는 도구가 대량의 데이터를 효율적으로 관리하기 위해 비디오를 압축했습니다. 파인튜닝을 통해 비디오 품질을 더욱 선명하게 다듬었으며, 모델 평균화(더 부드럽고 일관된 결과를 위해 여러 모델 출력을 결합하는 방법)라는 기법으로 출력 일관성을 높였습니다. 마지막으로, 초기 768p 해상도의 비디오를 공간 업샘플러 기법을 사용하여 선명한 1080p 해상도로 업스케일링했습니다. 이 기법은 픽셀 데이터를 추가하여 이미지 해상도를 높여 더욱 깨끗한 시각 효과를 제공합니다. 결과적으로 고품질의 상세한 비디오 출력을 얻을 수 있었습니다.

Link to this sectionMeta Movie Gen 역량 살펴보기#

Meta Movie Gen 모델은 기본적으로 4가지 기능을 지원합니다. 각 기능을 자세히 살펴보겠습니다.

Link to this section비디오 및 오디오 생성#

Meta Movie Gen은 고품질 비디오를 생성할 수 있습니다. 이 비디오 클립은 최대 16초 길이로 16fps(초당 프레임 수)로 재생되며, 텍스트 프롬프트를 기반으로 움직임, 상호작용 및 카메라 각도를 포착하는 사실적인 시각 효과를 만들어냅니다. 130억 개의 파라미터를 가진 오디오 모델과 결합하여 주변 소리, 폴리 효과음, 음악 등 시각 자료에 어울리는 동기화된 오디오를 생성할 수 있습니다.

이 구성은 다양한 장면과 프롬프트 전반에 걸쳐 시각 자료와 오디오가 일관되고 사실적으로 유지되는 매끄럽고 생동감 넘치는 경험을 보장합니다. 예를 들어, 이 모델들은 태국의 화제인 새끼 하마 무뎅(Moo Deng)의 비디오 클립을 만드는 데 사용되었습니다.

Meta Movie Gen을 사용하여 만든 Moo Deng 비디오 클립의 한 프레임

Fig 4. Meta의 Movie Gen으로 제작된 무뎅 비디오 클립의 한 프레임입니다.

Link to this section개인화된 비디오 생성#

Meta Movie Gen 모델의 또 다른 흥미로운 기능은 개인화된 비디오 생성입니다. 사용자는 인물의 이미지와 비디오 클립이 어떻게 생성되어야 하는지 설명하는 텍스트 프롬프트를 제공할 수 있습니다. 결과적으로 해당 인물이 포함되고 텍스트 프롬프트에 명시된 풍부한 시각적 세부 사항이 결합된 비디오가 생성됩니다. 이 모델은 두 가지 입력(이미지와 텍스트)을 모두 사용하여 인물의 고유한 외모와 자연스러운 신체 움직임을 유지하면서도 프롬프트에 설명된 장면을 정확하게 따라갑니다.

모델의 개인화된 비디오 생성 기능 예시

Fig 5. 모델의 개인화된 비디오 생성 기능 예시입니다.

Link to this section정밀한 비디오 편집#

사용자는 Movie Gen Edit 모델을 사용하여 비디오 클립과 텍스트 프롬프트를 입력함으로써 창의적인 방식으로 비디오를 편집할 수 있습니다. 이 모델은 비디오 생성과 고급 이미지 편집을 결합하여 요소 추가, 제거 또는 교체와 같은 매우 구체적인 편집을 수행합니다. 비디오 클립의 배경이나 전체 스타일을 수정하는 등의 전역적인 변경도 가능합니다. 하지만 이 모델을 진정으로 독보적으로 만드는 것은 정밀함입니다. 편집이 필요한 특정 픽셀만 수정하고 나머지는 그대로 유지할 수 있어 원본 콘텐츠를 최대한 보존합니다.

Movie Gen Edit 모델의 비디오 편집 기능 예시

Fig 6. Movie Gen Edit 모델의 비디오 편집 기능에 대한 다양한 예시입니다.

Link to this sectionMeta Movie Gen의 벤치마킹 도구#

생성형 AI 모델과 함께 Meta는 생성형 AI 모델의 성능을 테스트하기 위한 벤치마킹 도구 제품군인 Movie Gen Bench도 도입했습니다. 여기에는 Movie Gen Video Bench와 Movie Gen Audio Bench라는 두 가지 주요 도구가 포함되어 있습니다. 두 도구 모두 비디오 및 오디오 생성의 다양한 측면을 테스트하도록 설계되었습니다.

두 도구에 대한 간략한 소개입니다:

Movie Gen Video Bench: 인간 활동, 동물, 자연 경관, 물리학 등 다양한 테스트 카테고리와 이례적인 주제 및 활동을 포괄하는 1003개의 프롬프트로 구성됩니다. 이 평가 벤치마크가 특히 가치 있는 이유는 동작 수준을 광범위하게 다루어 비디오 생성 모델이 빠른 속도의 시퀀스와 느린 시퀀스 모두에 대해 테스트되도록 보장하기 때문입니다.
Movie Gen Audio Bench: 527개의 프롬프트를 통해 오디오 생성 기능을 테스트하도록 설계되었습니다. 이 프롬프트들은 생성된 비디오와 쌍을 이루어 모델이 음향 효과와 음악을 시각 콘텐츠와 얼마나 잘 동기화할 수 있는지 평가합니다.

Movie Gen Bench 평가 프롬프트 및 워드 클라우드 분석

Fig 7. 이 다이어그램은 평가 프롬프트의 분석 내용을 보여주며, 왼쪽에는 개념 목록이, 오른쪽에는 일반적으로 사용되는 명사와 동사의 워드 클라우드가 나타나 있습니다.

Link to this sectionMeta Movie Gen의 실용적인 응용#

이제 Meta Movie Gen 모델이 무엇이며 어떻게 작동하는지 알아보았으니, 실용적인 응용 사례 중 하나를 살펴보겠습니다.

Link to this section영화 제작 분야에서의 Movie Gen AI 혁신#

One of the most exciting uses of Meta's Movie Gen is how it can transform filmmaking through AI-powered video and audio creation. With Movie Gen, creators can generate high-quality visuals and sounds from simple text prompts, opening up new ways to tell stories.

실제로 Meta는 Blumhouse 및 여러 영화 제작자 그룹과 협력하여 Movie Gen이 창의적인 프로세스를 어떻게 가장 잘 지원할 수 있는지에 대한 피드백을 수집했습니다. Aneesh Chaganty, Spurlock Sisters, Casey Affleck과 같은 영화 제작자들은 분위기, 톤, 시각적 연출을 포착하는 도구의 능력을 테스트했습니다. 그들은 모델이 새로운 아이디어를 자극하는 데 도움이 된다는 사실을 발견했습니다.

이 파일럿 프로그램은 Movie Gen이 전통적인 영화 제작을 대체하지는 않지만, 감독들에게 시각 및 오디오 요소를 빠르고 창의적으로 실험할 수 있는 새로운 방법을 제공한다는 점을 보여주었습니다. 또한 영화 제작자들은 이 도구의 편집 기능을 통해 배경음, 효과음, 시각적 스타일을 더욱 자유롭게 다룰 수 있다는 점을 높이 평가했습니다.

Meta Movie Gen을 사용하여 제작된 단편 영화의 한 프레임

Fig 8. Meta Movie Gen으로 제작된 단편 영화의 한 프레임입니다.

Link to this section핵심 요약#

Meta Movie Gen은 간단한 텍스트 설명에서 고품질 비디오와 사운드를 만들기 위해 생성형 AI를 사용하는 데 있어 한 걸음 더 나아간 기술입니다. 이 도구는 사용자가 사실적이고 맞춤화된 비디오를 쉽게 만들 수 있도록 지원합니다. 정밀한 비디오 편집 및 개인화된 미디어 생성과 같은 기능을 갖춘 Meta Movie Gen은 스토리텔링, 영화 제작 등을 위한 새로운 가능성을 열어주는 유연한 도구 모음을 제공합니다. Meta Movie Gen은 상세하고 유용한 시각 자료를 만들기 쉽게 함으로써 다양한 분야에서 비디오가 제작되고 사용되는 방식을 변화시키고 있으며, AI 기반 콘텐츠 제작의 새로운 표준을 정립하고 있습니다.

자세한 내용은 GitHub 저장소를 방문하고, 커뮤니티와 소통하십시오. 솔루션 페이지에서 자율 주행 자동차 및 농업 분야의 AI 애플리케이션을 살펴보십시오. 🚀

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Meta Movie Gen: 콘텐츠 제작의 재상상

Link to this sectionMeta Movie Gen이란 무엇인가요?#

Link to this sectionMeta Movie Gen 비디오 모델 학습#

Link to this sectionMeta Movie Gen 역량 살펴보기#

Link to this section비디오 및 오디오 생성#

Link to this section개인화된 비디오 생성#

Link to this section정밀한 비디오 편집#

Link to this sectionMeta Movie Gen의 벤치마킹 도구#

Link to this sectionMeta Movie Gen의 실용적인 응용#

Link to this section영화 제작 분야에서의 Movie Gen AI 혁신#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!