Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Meta Movie Gen: Tái định hình việc tạo nội dung

Abirami Vina

4 phút đọc

15 tháng 11, 2024

Xem cách Meta Movie Gen định nghĩa lại việc tạo video và âm thanh. Tìm hiểu cách mô hình này cung cấp khả năng chỉnh sửa video chính xác và hỗ trợ tạo phương tiện được cá nhân hóa.

Cho dù bạn là một nhà làm phim đầy tham vọng hay một người sáng tạo nội dung thích làm video cho khán giả của mình, thì việc có các công cụ AI mở rộng khả năng sáng tạo của bạn luôn hữu ích. Gần đây, Meta đã ra mắt mô hình video tổng quát mới nhất của mình, được gọi là Meta Movie Gen. 

Thị trường AI tạo sinh toàn cầu trong lĩnh vực truyền thông và giải trí được dự đoán sẽ đạt 11,57 tỷ đô la vào năm 2033, với các công ty như Runway, OpenAIMeta dẫn đầu về các đổi mới đột phá. Meta Movie Gen, đặc biệt, rất phù hợp cho các ứng dụng như làm phim, tạo nội dung video và kể chuyện kỹ thuật số, giúp bạn dễ dàng hơn bao giờ hết để biến những tầm nhìn sáng tạo thành hiện thực thông qua các video do AI tạo ra chất lượng cao. Trong bài viết này, chúng ta sẽ khám phá Meta Movie Gen và cách nó hoạt động. Chúng ta cũng sẽ xem xét kỹ hơn một số ứng dụng của nó. Hãy bắt đầu nào!

__wf_reserved_inherit
Hình 1. Một khung hình của một đoạn video được tạo bằng Meta Movie Gen.

Meta Movie Gen là gì?

Trước khi chúng ta thảo luận về Meta Movie Gen là gì, hãy xem xét cách nó ra đời. 

Những nỗ lực nghiên cứu của Meta liên quan đến AI tạo sinh bắt đầu với chuỗi mô hình Make-A-Scene của họ. Nghiên cứu này tập trung vào một phương pháp đa phương thức AI tạo sinh giúp các nghệ sĩ và những người có tầm nhìn hiện thực hóa trí tưởng tượng của họ. Các nghệ sĩ có thể nhập hình ảnh, âm thanh, video hoặc hoạt ảnh 3D để có được đầu ra hình ảnh mà họ mong muốn. Bước nhảy vọt tiếp theo trong đổi mới đến với các mô hình khuếch tán (diffusion models) như các mô hình Llama Image Foundation (Emu), giúp tạo ra hình ảnh và video chất lượng cao hơn nhiều và cho phép chỉnh sửa hình ảnh.

__wf_reserved_inherit
Hình 2. Một ví dụ về việc sử dụng bản phác thảo và nhập liệu văn bản của Make-A-Scene để tạo ra một hình ảnh được tạo.

Movie Gen là đóng góp mới nhất của Meta cho nghiên cứu về AI tạo sinh. Nó kết hợp tất cả các phương thức đã đề cập trước đó và cho phép kiểm soát chi tiết hơn để mọi người có thể sử dụng các mô hình theo những cách sáng tạo hơn. Meta Movie Gen là một tập hợp các mô hình nền tảng để tạo ra các loại phương tiện khác nhau, bao gồm chuyển văn bản thành video, văn bản thành âm thanh và văn bản thành hình ảnh. Nó bao gồm bốn mô hình, được huấn luyện trên sự kết hợp của các tập dữ liệu được cấp phép và có sẵn công khai. 

Sau đây là tổng quan nhanh về các mô hình này:

  • Mô hình Movie Gen Video: Một mô hình 30 tỷ tham số tạo ra các video chất lượng cao từ các đoạn văn bản gợi ý.
  • Mô hình Movie Gen Audio: Một mô hình 13 tỷ tham số có thể tạo ra các bản nhạc phim đồng bộ với nội dung video.
  • Mô hình Movie Gen Video được cá nhân hóa: Nó tạo ra các video về những cá nhân cụ thể dựa trên một đoạn văn bản gợi ý và một hình ảnh duy nhất, giữ lại sự giống nhau của họ.
  • Mô hình Movie Gen Edit: Mô hình cho phép chỉnh sửa video chi tiết, dựa trên văn bản cho các video thực và hư cấu. 

Huấn luyện mô hình video Meta Movie Gen

Một số quy trình chính đã tham gia vào việc tạo và huấn luyện mô hình Movie Gen Video. Bước đầu tiên liên quan đến việc thu thập và chuẩn bị dữ liệu trực quan, bao gồm hình ảnh và video clip, chủ yếu là các hoạt động của con người được lọc theo chất lượng, chuyển động và mức độ liên quan. Sau đó, dữ liệu được ghép nối với các chú thích văn bản giải thích những gì đang xảy ra trong mỗi cảnh. Các chú thích, được tạo bằng mô hình LLaMa3-Video của Meta, cung cấp thông tin chi tiết phong phú về nội dung của mỗi cảnh, nâng cao khả năng kể chuyện bằng hình ảnh của mô hình.

__wf_reserved_inherit
Hình 3. Tổng quan về quy trình tuyển chọn dữ liệu tiền huấn luyện của mô hình Movie Gen Video.

Quá trình huấn luyện bắt đầu với việc mô hình học cách chuyển đổi văn bản thành hình ảnh có độ phân giải thấp. Sau đó, nó tiến tới việc tạo ra các video clip đầy đủ thông qua sự kết hợp giữa chuyển văn bản thành hình ảnh và huấn luyện chuyển văn bản thành video, sử dụng hình ảnh chất lượng ngày càng cao. 

Một công cụ có tên là Temporal Autoencoder (TAE) đã nén các video để quản lý hiệu quả khối lượng lớn dữ liệu. Tinh chỉnh giúp làm sắc nét hơn nữa chất lượng video và một phương pháp gọi là trung bình hóa mô hình (nó kết hợp nhiều đầu ra mô hình để có kết quả mượt mà và nhất quán hơn) đảm bảo tính nhất quán đầu ra cao hơn. Cuối cùng, video, ban đầu ở độ phân giải 768p, đã được nâng cấp lên độ phân giải 1080p sắc nét bằng kỹ thuật upsampler không gian, giúp tăng độ phân giải hình ảnh bằng cách thêm dữ liệu pixel để có hình ảnh rõ ràng hơn. Kết quả là đầu ra video chi tiết, chất lượng cao.

Khám phá các khả năng của Meta Movie Gen

Các mô hình Meta Movie Gen chủ yếu hỗ trợ bốn khả năng khác nhau. Hãy xem xét kỹ hơn từng khả năng trong số này.

Tạo video và âm thanh

Meta Movie Gen có thể tạo ra các video chất lượng cao. Các video clip này có thể dài tới 16 giây và chạy ở tốc độ 16 khung hình/giây (fps), tạo ra hình ảnh chân thực ghi lại chuyển động, tương tác và góc máy quay từ các đoạn văn bản gợi ý. Kết hợp với mô hình âm thanh 13 tỷ tham số, nó có thể tạo ra âm thanh được đồng bộ hóa, bao gồm âm thanh xung quanh, hiệu ứng Foley và âm nhạc, để phù hợp với hình ảnh. 

Thiết lập này đảm bảo trải nghiệm liền mạch, sống động như thật, trong đó cả hình ảnh và âm thanh đều được căn chỉnh và chân thực trên nhiều cảnh và đoạn văn bản gợi ý khác nhau. Ví dụ: các mô hình này đã được sử dụng để tạo video clip về loài hà mã lùn lan truyền ở Thái Lan, có tên là Moo Deng.

__wf_reserved_inherit
Hình 4. Một khung hình của video clip về Moo Deng được tạo bằng Movie Gen của Meta.

Tạo video được cá nhân hóa

Một khả năng thú vị khác của mô hình Meta Movie Gen là tạo video được cá nhân hóa. Người dùng có thể cung cấp hình ảnh của một người và một đoạn văn bản gợi ý mô tả cách tạo video clip, dẫn đến một video bao gồm người tham chiếu và kết hợp các chi tiết hình ảnh phong phú được chỉ định trong đoạn văn bản gợi ý. Mô hình sử dụng cả hai đầu vào (hình ảnh và văn bản) để giữ cho người đó có vẻ ngoài độc đáo và các chuyển động cơ thể tự nhiên, đồng thời tuân thủ chính xác cảnh được mô tả trong đoạn văn bản gợi ý.

__wf_reserved_inherit
Hình 5. Một ví dụ về khả năng tạo video được cá nhân hóa của mô hình.

Chỉnh sửa video chính xác 

Sử dụng mô hình Movie Gen Edit, người dùng có thể cung cấp cả video clip và một đoạn văn bản gợi ý làm đầu vào để chỉnh sửa video một cách sáng tạo. Mô hình kết hợp tạo video với chỉnh sửa hình ảnh nâng cao để thực hiện các chỉnh sửa rất cụ thể, chẳng hạn như thêm, xóa hoặc thay thế các thành phần. Nó cũng có thể thực hiện các thay đổi toàn cục như sửa đổi nền của video clip hoặc kiểu tổng thể. Nhưng điều khiến mô hình thực sự độc đáo là độ chính xác của nó: nó có thể nhắm mục tiêu chỉ các pixel cụ thể cần chỉnh sửa và giữ nguyên phần còn lại. Điều này giúp bảo toàn nội dung gốc càng nhiều càng tốt. 

__wf_reserved_inherit
Hình 6. Các ví dụ khác nhau về khả năng chỉnh sửa video của mô hình Movie Gen Edit.

Các công cụ đo điểm chuẩn của Meta Movie Gen

Cùng với các mô hình AI tạo sinh, Meta cũng giới thiệu Movie Gen Bench, một bộ công cụ đánh giá hiệu năng cho việc kiểm thử các mô hình AI tạo sinh. Nó đi kèm với hai công cụ chính: Movie Gen Video Bench và Movie Gen Audio Bench. Cả hai đều được thiết kế để kiểm tra các khía cạnh khác nhau của việc tạo video và âm thanh.

Dưới đây là cái nhìn sơ lược về cả hai công cụ:

  • Movie Gen Video Bench: Bao gồm 1003 câu lệnh bao phủ nhiều hạng mục kiểm thử khác nhau như hoạt động của con người, động vật, phong cảnh tự nhiên, vật lý, cũng như các chủ đề và hoạt động khác thường. Điều làm cho chuẩn đánh giá này đặc biệt giá trị là khả năng bao phủ các mức độ chuyển động, đảm bảo rằng mô hình tạo video được kiểm tra cho cả các chuỗi nhanh và chậm.
  • Movie Gen Audio Bench: Được thiết kế để kiểm tra khả năng tạo âm thanh trên 527 câu lệnh. Các câu lệnh này được ghép nối với các video đã tạo để đánh giá mức độ đồng bộ hóa hiệu ứng âm thanh và âm nhạc với nội dung hình ảnh của mô hình.
__wf_reserved_inherit
Hình 7. Sơ đồ cho thấy sự phân tích các câu lệnh đánh giá, với danh sách các khái niệm ở bên trái và một đám mây từ ngữ gồm các danh từ và động từ thường được sử dụng ở bên phải.

Ứng dụng thực tế của Meta Movie Gen

Bây giờ chúng ta đã đề cập đến các mô hình Meta Movie Gen là gì và chúng hoạt động như thế nào, hãy khám phá một trong những ứng dụng thực tế của chúng. 

Đột phá AI Movie Gen trong làm phim

Một trong những ứng dụng thú vị nhất của Meta Movie Gen là cách nó có thể thay đổi làm phim thông qua video và tạo âm thanh được hỗ trợ bởi AI. Với Movie Gen, người sáng tạo có thể tạo ra hình ảnh và âm thanh chất lượng cao từ các dòng lệnh văn bản đơn giản, mở ra những cách kể chuyện mới. 

Trên thực tế, Meta đã hợp tác với Blumhouse và một nhóm các nhà làm phim, thu thập phản hồi của họ về cách Movie Gen có thể hỗ trợ tốt nhất cho quá trình sáng tạo. Các nhà làm phim như Aneesh Chaganty, Spurlock Sisters và Casey Affleck đã thử nghiệm khả năng của công cụ trong việc nắm bắt tâm trạng, tông màu và định hướng hình ảnh. Họ phát hiện ra rằng các mô hình này đã giúp khơi dậy những ý tưởng mới.

Chương trình thử nghiệm này đã chỉ ra rằng mặc dù Movie Gen không thay thế cách làm phim truyền thống, nhưng nó mang đến cho các đạo diễn một cách mới để thử nghiệm các yếu tố hình ảnh và âm thanh một cách nhanh chóng và sáng tạo. Các nhà làm phim cũng đánh giá cao cách các tính năng chỉnh sửa của công cụ cho phép họ thỏa sức sáng tạo với âm thanh nền, hiệu ứng và phong cách hình ảnh. 

__wf_reserved_inherit
Hình 8. Một khung hình của một bộ phim ngắn được tạo bằng Meta Movie Gen.

Những điều cần nhớ

Meta Movie Gen là một bước tiến trong việc sử dụng AI tạo sinh để tạo ra các video và âm thanh chất lượng cao từ các mô tả văn bản đơn giản. Công cụ này giúp người dùng dễ dàng tạo ra các video tùy chỉnh và chân thực. Với các khả năng như chỉnh sửa video chính xác và tạo phương tiện được cá nhân hóa, Meta Movie Gen cung cấp một bộ công cụ linh hoạt, mở ra những khả năng mới cho việc kể chuyện, làm phim và hơn thế nữa. Bằng cách giúp tạo ra các hình ảnh chi tiết và hữu ích dễ dàng hơn, Meta Movie Gen đang thay đổi cách video được tạo và sử dụng trong các lĩnh vực khác nhau và thiết lập một tiêu chuẩn mới cho việc tạo nội dung dựa trên AI.

Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia với cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard