Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Meta Movie Gen: Tái định nghĩa việc sáng tạo nội dung

Khám phá cách Meta Movie Gen đang định nghĩa lại việc tạo video và âm thanh. Tìm hiểu cách mô hình này cung cấp khả năng chỉnh sửa video chính xác và hỗ trợ tạo nội dung đa phương tiện cá nhân hóa.

ABAbirami Vina
4 min read
Sáng tạo video bằng AI với Meta Movie Gen

Cho dù bạn là một nhà làm phim đầy tham vọng hay một người sáng tạo nội dung thích làm video cho khán giả của mình, việc có các công cụ AI giúp mở rộng khả năng sáng tạo luôn là điều hữu ích. Gần đây, Meta đã ra mắt mô hình video tạo sinh mới nhất của họ, được gọi là Meta Movie Gen.

Thị trường generative AI toàn cầu trong lĩnh vực truyền thông và giải trí dự kiến sẽ đạt 11,57 tỷ USD vào năm 2033, với các công ty như Runway, OpenAI, và Meta đang dẫn đầu với những đổi mới mang tính đột phá. Cụ thể, Meta Movie Gen rất tuyệt vời cho các ứng dụng như làm phim, tạo nội dung video và kể chuyện kỹ thuật số, giúp việc hiện thực hóa các tầm nhìn sáng tạo thông qua các video chất lượng cao do AI tạo ra trở nên dễ dàng hơn bao giờ hết. Trong bài viết này, chúng ta sẽ khám phá Meta Movie Gen và cách thức hoạt động của nó. Chúng ta cũng sẽ xem xét kỹ hơn một số ứng dụng của công cụ này. Hãy bắt đầu nào!

Một khung hình của clip video được tạo bằng Meta Movie Gen

Fig 1. Một khung hình của clip video được tạo bằng Meta Movie Gen.

Link to this sectionMeta Movie Gen là gì?#

Trước khi thảo luận về Meta Movie Gen là gì, hãy cùng xem xét quá trình hình thành của nó.

Các nỗ lực nghiên cứu của Meta liên quan đến generative AI bắt đầu với loạt mô hình Make-A-Scene. Nghiên cứu này tập trung vào một phương pháp generative AI đa phương thức (multimodal) giúp các nghệ sĩ và những người có tầm nhìn hiện thực hóa trí tưởng tượng của họ. Các nghệ sĩ có thể nhập hình ảnh, âm thanh, video hoặc 3D animations để nhận được kết quả hình ảnh mà họ mong muốn. Bước tiến đổi mới tiếp theo đến từ các diffusion models như mô hình nền tảng Llama Image (Emu), cho phép tạo ra hình ảnh và video có chất lượng cao hơn nhiều và hỗ trợ chỉnh sửa hình ảnh.

Sử dụng bản phác thảo Make-A-Scene và đầu vào văn bản để tạo hình ảnh

Fig 2. Ví dụ về việc sử dụng bản phác thảo và đầu vào văn bản của Make-A-Scene để tạo hình ảnh.

Movie Gen là đóng góp mới nhất của Meta cho nghiên cứu generative AI. Nó kết hợp tất cả các phương thức đã đề cập trước đó và cho phép kiểm soát chi tiết hơn để mọi người có thể sử dụng các mô hình theo nhiều cách sáng tạo hơn. Meta Movie Gen là một bộ sưu tập các mô hình nền tảng để tạo các loại phương tiện truyền thông khác nhau, bao gồm chuyển đổi văn bản thành video, văn bản thành âm thanh và văn bản thành hình ảnh. Nó bao gồm bốn mô hình, được huấn luyện trên sự kết hợp của các datasets được cấp phép và có sẵn công khai.

Dưới đây là tổng quan nhanh về các mô hình này:

  • Mô hình Movie Gen Video: Một mô hình 30 tỷ tham số tạo ra các video chất lượng cao từ các câu lệnh văn bản.
  • Mô hình Movie Gen Audio: Một mô hình 13 tỷ tham số có thể tạo ra các bản nhạc đồng bộ với nội dung video.
  • Mô hình Personalized Movie Gen Video: Mô hình này tạo ra các video về những cá nhân cụ thể dựa trên câu lệnh văn bản và một hình ảnh duy nhất, giữ nguyên đặc điểm nhận dạng của họ.
  • Mô hình Movie Gen Edit: Mô hình này cho phép chỉnh sửa video dựa trên văn bản một cách chi tiết cho cả video thực và video giả tưởng.

Link to this sectionHuấn luyện mô hình video Meta Movie Gen#

Một số quy trình chính đã được thực hiện để tạo và training mô hình Movie Gen Video. Bước đầu tiên liên quan đến việc thu thập và preparing visual data, bao gồm hình ảnh và clip video, chủ yếu về các hoạt động của con người được lọc theo chất lượng, chuyển động và mức độ liên quan. Sau đó, data được ghép nối với các phụ đề văn bản giải thích những gì đang diễn ra trong mỗi cảnh. Các phụ đề này, được tạo bằng mô hình LLaMa3-Video của Meta, cung cấp thông tin chi tiết phong phú về nội dung của từng cảnh, tăng cường khả năng kể chuyện bằng hình ảnh của mô hình.

Tổng quan về pipeline dữ liệu tiền huấn luyện của model Movie Gen Video

Fig 3. Tổng quan về pipeline quản lý dữ liệu huấn luyện sơ bộ của mô hình Movie Gen Video.

Quy trình training bắt đầu với việc mô hình học cách chuyển đổi văn bản thành hình ảnh có độ phân giải thấp. Sau đó, nó tiến triển đến việc tạo các clip video đầy đủ thông qua sự kết hợp của huấn luyện text-to-image và text-to-video, sử dụng các hình ảnh có chất lượng ngày càng cao.

Một công cụ có tên là Temporal Autoencoder (TAE) đã nén các video để quản lý khối lượng dữ liệu lớn một cách hiệu quả. Fine-tuning giúp làm sắc nét chất lượng video hơn nữa, và một phương pháp gọi là model averaging (kết hợp nhiều đầu ra của mô hình để có kết quả mượt mà, nhất quán hơn) đảm bảo tính nhất quán cao hơn cho đầu ra. Cuối cùng, video, ban đầu ở độ phân giải 768p, được nâng cấp lên độ phân giải 1080p sắc nét bằng kỹ thuật spatial upsampler, giúp tăng độ phân giải hình ảnh bằng cách thêm dữ liệu pixel để có hình ảnh rõ nét hơn. Kết quả thu được là các đầu ra video chi tiết, chất lượng cao.

Link to this sectionKhám phá các khả năng của Meta Movie Gen#

Các mô hình Meta Movie Gen chủ yếu hỗ trợ bốn khả năng khác nhau. Hãy cùng xem xét kỹ hơn từng khả năng.

Link to this sectionTạo video và âm thanh#

Meta Movie Gen có thể tạo ra các video chất lượng cao. Các clip video này có thể dài tới 16 giây và chạy ở tốc độ 16 fps (khung hình mỗi giây), tạo ra hình ảnh thực tế nắm bắt chuyển động, tương tác và các góc camera từ các câu lệnh văn bản. Kết hợp với mô hình âm thanh 13 tỷ tham số, nó có thể tạo ra âm thanh đồng bộ, bao gồm âm thanh môi trường, hiệu ứng Foley và âm nhạc để phù hợp với hình ảnh.

Thiết lập này đảm bảo trải nghiệm sống động như thật, nơi cả hình ảnh và âm thanh luôn được căn chỉnh và thực tế trên nhiều cảnh và câu lệnh khác nhau. Ví dụ, các mô hình này đã được sử dụng để tạo các clip video về chú hà mã lùn đang lan truyền tại Thái Lan, có tên là Moo Deng.

Một khung hình của clip video Moo Deng được tạo bằng Meta Movie Gen

Fig 4. Một khung hình của clip video Moo Deng được thực hiện bằng Meta Movie Gen.

Link to this sectionTạo video cá nhân hóa#

Một khả năng thú vị khác của mô hình Meta Movie Gen là tạo video cá nhân hóa. Người dùng có thể cung cấp hình ảnh của một người và câu lệnh văn bản mô tả cách clip video nên được tạo ra, kết quả là một video bao gồm người được tham chiếu và kết hợp các chi tiết hình ảnh phong phú được chỉ định trong câu lệnh văn bản. Mô hình sử dụng cả hai đầu vào (hình ảnh và văn bản) để giữ ngoại hình độc đáo và body movements tự nhiên của người đó, đồng thời theo sát cảnh được mô tả trong câu lệnh.

Ví dụ về khả năng tạo video cá nhân hóa của model

Fig 5. Một ví dụ về khả năng tạo video cá nhân hóa của mô hình.

Link to this sectionChỉnh sửa video chính xác#

Sử dụng mô hình Movie Gen Edit, người dùng có thể cung cấp cả clip video và câu lệnh văn bản làm đầu vào để chỉnh sửa video theo những cách sáng tạo. Mô hình kết hợp tạo video với chỉnh sửa hình ảnh tiên tiến để thực hiện các chỉnh sửa rất cụ thể, chẳng hạn như thêm, xóa hoặc thay thế các phần tử. Nó cũng có thể thực hiện các thay đổi toàn cục như sửa đổi nền của clip video hoặc phong cách tổng thể. Nhưng điều làm cho mô hình thực sự độc đáo là độ chính xác của nó: nó có thể nhắm mục tiêu chỉ vào các pixel cụ thể cần chỉnh sửa và để lại phần còn lại không thay đổi. Điều này bảo toàn nội dung gốc nhiều nhất có thể.

Các ví dụ về khả năng chỉnh sửa video của model Movie Gen Edit

Fig 6. Các ví dụ khác nhau về khả năng chỉnh sửa video của mô hình Movie Gen Edit.

Link to this sectionCác công cụ đánh giá của Meta Movie Gen#

Cùng với các mô hình generative AI, Meta cũng giới thiệu Movie Gen Bench, một bộ công cụ đánh giá để kiểm tra hiệu suất của các mô hình generative AI. Nó đi kèm với hai công cụ chính: Movie Gen Video Bench và Movie Gen Audio Bench. Cả hai đều được thiết kế để kiểm tra các khía cạnh khác nhau của việc tạo video và âm thanh.

Dưới đây là sơ lược về cả hai công cụ:

  • Movie Gen Video Bench: Nó bao gồm 1003 câu lệnh bao gồm nhiều danh mục kiểm tra khác nhau như hoạt động của con người, animals, natural scenery, physics, cũng như các chủ đề và hoạt động bất thường. Điều làm cho tiêu chuẩn đánh giá này đặc biệt có giá trị là phạm vi bao phủ các mức độ chuyển động, đảm bảo rằng mô hình tạo video được kiểm tra cho cả các chuỗi nhịp độ nhanh và chậm hơn.
  • Movie Gen Audio Bench: Nó được thiết kế để kiểm tra khả năng tạo âm thanh trên 527 câu lệnh. Các câu lệnh này được ghép nối với các video đã tạo để đánh giá mức độ mô hình có thể đồng bộ hóa hiệu ứng âm thanh và âm nhạc với nội dung hình ảnh.

Phân tích các prompt đánh giá Movie Gen Bench và đám mây từ khóa

Fig 7. Biểu đồ cho thấy sự phân tích các câu lệnh đánh giá, với danh sách các khái niệm ở bên trái và word cloud các danh từ và động từ thường được sử dụng ở bên phải.

Link to this sectionMột ứng dụng thực tế của Meta Movie Gen#

Bây giờ chúng ta đã đề cập đến các mô hình Meta Movie Gen là gì và cách chúng hoạt động, hãy khám phá một trong những ứng dụng thực tế của chúng.

Link to this sectionNhững đổi mới của Movie Gen AI trong làm phim#

Một trong những công dụng thú vị nhất của Movie Gen của Meta là cách nó có thể biến đổi filmmaking thông qua việc tạo video và audio creation hỗ trợ bởi AI. Với Movie Gen, những người sáng tạo có thể tạo ra hình ảnh và âm thanh chất lượng cao từ các text prompts đơn giản, mở ra những cách mới để kể chuyện.

Trên thực tế, Meta đã hợp tác với Blumhouse và một nhóm các nhà làm phim, thu thập phản hồi của họ về cách Movie Gen có thể hỗ trợ tốt nhất cho creative process. Các nhà làm phim như Aneesh Chaganty, chị em nhà Spurlock và Casey Affleck đã kiểm tra khả năng nắm bắt tâm trạng, tông màu và chỉ đạo hình ảnh của công cụ này. Họ phát hiện ra rằng các mô hình giúp khơi dậy những ý tưởng mới mẻ.

Chương trình thí điểm này đã cho thấy rằng mặc dù Movie Gen không thay thế việc làm phim truyền thống, nhưng nó mang đến cho các đạo diễn một cách mới để thử nghiệm các yếu tố hình ảnh và âm thanh một cách nhanh chóng và sáng tạo. Các nhà làm phim cũng đánh giá cao cách các tính năng chỉnh sửa của công cụ cho phép họ chơi đùa với âm thanh nền, hiệu ứng và phong cách hình ảnh một cách tự do hơn.

Một khung hình của bộ phim ngắn được tạo bằng Meta Movie Gen

Fig 8. Một khung hình của một bộ phim ngắn được tạo bằng Meta Movie Gen.

Link to this sectionCác điểm chính cần lưu ý#

Meta Movie Gen là một bước tiến trong việc sử dụng AI tạo sinh để tạo ra các video và âm thanh chất lượng cao từ các mô tả văn bản đơn giản. Công cụ này giúp người dùng dễ dàng tạo các video chân thực và tùy chỉnh. Với các khả năng như chỉnh sửa video chính xác và tạo phương tiện truyền thông được cá nhân hóa, Meta Movie Gen cung cấp một bộ công cụ linh hoạt mở ra những khả năng mới cho việc kể chuyện, làm phim và hơn thế nữa. Bằng cách giúp việc tạo hình ảnh chi tiết và hữu ích trở nên dễ dàng hơn, Meta Movie Gen đang thay đổi cách video được tạo và sử dụng trong các lĩnh vực khác nhau, đồng thời thiết lập một tiêu chuẩn mới cho việc sáng tạo nội dung dựa trên AI.

Để tìm hiểu thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia với cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning