Tạo video bằng Veo của Google DeepMind

Abirami Vina

6 phút đọc

Ngày 15 tháng 5 năm 2024

Tìm hiểu thêm về Veo, mô hình video sáng tạo mới nhất của Google DeepMind có thể dễ dàng tạo video 1080P chất lượng cao từ lời nhắc văn bản, hình ảnh và video.

Trong bài thuyết trình I/O 2024 của Google vào ngày 14 tháng 5, họ đã chia sẻ những cập nhật mới nhất từ DeepMind, bộ phận AI của họ. Một trong những tiến bộ thú vị nhất được chia sẻ là mô hình video tạo mới nhất của họ, Veo. Veo có thể tạo video 1080P chất lượng cao dựa trên lời nhắc văn bản, hình ảnh và video. Nó thậm chí còn cho phép bạn chỉnh sửa video được tạo bằng các lời nhắc tiếp theo. Veo đưa AI tạo lên một tầm cao mới. Hãy cùng xem xét kỹ hơn các tính năng mà Veo cung cấp. 

Hiểu về khả năng của Veo

Veo là một mô hình video tạo ra sử dụng hiểu biết sâu sắc về ngôn ngữ và hình ảnh để tạo ra các video phù hợp chặt chẽ với tầm nhìn sáng tạo của người dùng. Nó có thể nắm bắt chính xác tông điệu và chi tiết của các lời nhắc dài hơn, khiến nó trở thành một công cụ mạnh mẽ cho những người sáng tạo muốn biến ý tưởng của mình thành nội dung video chính xác.

Người dùng có thể có khả năng kiểm soát sáng tạo đột phá đối với video được tạo ra vì Veo có thể hiểu các kỹ thuật quay phim như "chụp tua nhanh thời gian" và "cảnh quay trên không của một phong cảnh". Khả năng kiểm soát sáng tạo này giúp người dùng có thể tạo ra các video mà con người, động vật và vật thể chuyển động tự nhiên. Các video do Veo tạo ra hấp dẫn và hấp dẫn về mặt hình ảnh vì khó có thể nhận ra rằng chúng được tạo ra bởi một mô hình AI.

Veo không chỉ đơn thuần là tạo video từ lời nhắc. Nếu bạn cung cấp video đã tạo trước đó và yêu cầu chỉnh sửa cụ thể, chẳng hạn như chèn thuyền kayak vào chế độ xem trên không của bờ biển, Veo có thể tích hợp liền mạch thay đổi này vào video gốc, tạo ra phiên bản cập nhật.

Hình 1. Một ví dụ về chỉnh sửa video bằng Veo.

Sau đây là một số tính năng khác mà Veo cung cấp:

  • Chỉnh sửa mặt nạ: Veo có thể giúp bạn chỉnh sửa các vùng được xác định trong video.
  • Tạo video lấy cảm hứng từ hình ảnh: Sử dụng hình ảnh và lời nhắc văn bản, Veo có thể tạo video phản ánh phong cách của hình ảnh và tuân theo hướng dẫn của lời nhắc.
  • Đoạn video mở rộng: Veo có thể tạo và kéo dài đoạn video lên đến 60 giây hoặc hơn, từ một lời nhắc duy nhất hoặc một chuỗi các lời nhắc cùng nhau kể một câu chuyện.

Những video ngoạn mục mà Veo đã tạo ra

Hãy cùng xem qua một số video mà Veo đã tạo ra và lý do tại sao chúng lại hấp dẫn đến vậy. 

Việc tạo video timelapse từ một lời nhắc văn bản ngắn là một thách thức. Thông thường, lời nhắc văn bản ngắn không thể truyền tải chính xác những thay đổi và chuyển động trong cảnh timelapse. Vì vậy, thật đáng kinh ngạc khi Veo có thể hiểu được những gì mong đợi từ một timelapse mà không đi sâu vào chi tiết. 

Hình 2. Một khung hình từ video tua nhanh thời gian do Veo tạo ra.

Tương tự như vậy, việc tạo video với vật lý chính xác không phải là điều dễ dàng. Mô hình AI cần hiểu và mô phỏng các định luật vật lý như trọng lực, động lượng và va chạm để làm cho các chuyển động và tương tác có vẻ thực tế. Thật ấn tượng khi Veo có thể mô hình hóa chính xác các động lực này mà không cần hướng dẫn chi tiết từ lời nhắc văn bản.

Hình 3. Một khung hình từ video được tạo bằng Veo ghi lại chính xác chuyển động vật lý của sứa.

Cho đến nay, chúng ta chỉ thấy những video ngắn hơn được tạo ra bởi AI do hạn chế về mặt tính toán và sự phức tạp của việc duy trì tính mạch lạc trên các chuỗi dài hơn. Tại buổi thuyết trình I/O 2024 của Google, khả năng tạo ra những video dài hơn và phức tạp hơn của Veo đã được trình diễn.

Hình 4. Các khung hình từ video Veo dài hơn được trình chiếu tại buổi thuyết trình Google I/O 2024.

Veo hoạt động như thế nào?

Giống như nhiều mô hình AI khác, Veo đứng trên vai những người khổng lồ. Nó dựa trên những tiến bộ trước đây như Mạng truy vấn tạo sinh (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như kiến trúc Transformer độc quyền của Google và Gemini. Thêm vào đó, để cải thiện khả năng diễn giải lời nhắc chính xác của Veo, phụ đề của từng video trong tập dữ liệu đào tạo của nó đã được chi tiết hơn. 

Dựa trên mô hình quy trình làm việc thô sơ được Google chia sẻ, cách thức hoạt động của Veo như sau:

  • Yêu cầu nhập liệu: Bạn cung cấp yêu cầu nhập văn bản và tùy chọn yêu cầu nhập hình ảnh.
  • Mã hóa: Lời nhắc văn bản được xử lý bởi Bộ mã hóa UL2 và lời nhắc hình ảnh được xử lý bởi bộ mã hóa hình ảnh.
  • Lời nhắc nhúng: Đầu ra từ bộ mã hóa văn bản và hình ảnh được kết hợp để tạo thành một lời nhắc nhúng duy nhất.
  • Mô hình khuếch tán tiềm ẩn: Lời nhắc nhúng và video nén nhiễu được truyền đến mô hình này để tạo video nén bằng cách sử dụng chúng. Veo sử dụng các biểu diễn video nén chất lượng cao, được gọi là tiềm ẩn, để cải thiện hiệu quả trong khi vẫn duy trì chất lượng.
  • Giải mã: Bước cuối cùng giải mã đầu ra video 1080p từ video đã nén.
Hình 5. Veo hoạt động như thế nào.

Một nghiên cứu điển hình hấp dẫn trong làm phim

Để thử nghiệm khả năng của Veo, Google đã hợp tác với nhà làm phim Donald Glover và studio sáng tạo của ông, Gilga. Họ đã sử dụng Veo để khám phá nhiều kỹ thuật sáng tạo khác nhau, bao gồm các cảnh quay theo dõi động, đòi hỏi chuyển động chính xác và đóng khung nhất quán. 

Hình 6. Sử dụng Veo trong quá trình làm phim.

Theo truyền thống, các nhà làm phim phải đối mặt với những hạn chế do thời gian và nguồn lực. Với Veo, Glover và nhóm của ông có thể nhanh chóng thử nghiệm và tạo ra những cảnh quay phức tạp, từ đó mang lại sự linh hoạt và đổi mới hơn trong quá trình làm phim.

Với Veo, Glover và nhóm của anh có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp trước khi quay thực tế. Ví dụ, họ có thể thử nghiệm nhiều cảnh quay theo dõi động khác nhau để xem chúng trông như thế nào và thực hiện các điều chỉnh khi cần. Quá trình hình dung trước này giúp họ tinh chỉnh các ý tưởng của mình và đảm bảo rằng các cảnh quay sẽ hoạt động như mong muốn, cuối cùng là giảm số lần quay cần thiết trong quá trình quay thực tế. Họ đã có thể tạo ra một nghiên cứu điển hình hấp dẫn để chứng minh tiềm năng của Veo trong việc thay đổi ngành công nghiệp phim ảnh. Nó cung cấp một cách nhanh hơn và hiệu quả hơn để hiện thực hóa tầm nhìn sáng tạo.

Ứng dụng thực tế của Veo trong nhiều ngành công nghiệp khác nhau 

Khả năng tạo video tiên tiến của Veo có ứng dụng thực tế trong nhiều ngành. Trong quảng cáo, nó có thể nhanh chóng tạo ra các quảng cáo tùy chỉnh, chất lượng cao cho đối tượng mục tiêu, tiết kiệm thời gian và chi phí sản xuất. Trong giáo dục, Veo có thể tạo ra các video hướng dẫn hấp dẫn, giúp các khái niệm phức tạp dễ hiểu hơn. 

Các doanh nghiệp có thể sử dụng Veo để đào tạo và truyền thông doanh nghiệp. Các chuyên gia chăm sóc sức khỏe có thể sử dụng Veo để mô phỏng các quy trình y tế cho mục đích đào tạo. Đối với các sự kiện và hội nghị ảo, Veo có thể tạo ra các mô phỏng giống như thật về địa điểm và sân khấu, mang đến cho người tham dự trải nghiệm hấp dẫn và tương tác từ mọi nơi. Các nhà tổ chức được hưởng lợi từ phạm vi tiếp cận mở rộng và những hiểu biết có giá trị cho các sự kiện trong tương lai. Nhờ Veo, vô số cơ hội đã mở ra.

Khi một mô hình AI có tiềm năng tác động đến nhiều ngành công nghiệp khác nhau, điều quan trọng là phải ghi nhớ tính an toàn và đạo đức của AI. Để cho phép áp dụng rộng rãi hơn và đảm bảo sử dụng có trách nhiệm, Google đã triển khai một số biện pháp an toàn. Các video do Veo tạo ra được đóng dấu bản quyền bằng SynthID, một công cụ đóng dấu bản quyền và nhận dạng nội dung do AI tạo ra. SynthId đảm bảo tính minh bạch và giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và thiên vị. Ngoài ra, tất cả các video được tạo ra đều phải trải qua các bộ lọc an toàn và quy trình kiểm tra ghi nhớ. Các biện pháp bảo vệ này biến Veo thành một công cụ có giá trị và đạo đức hỗ trợ sản xuất video có trách nhiệm và sáng tạo.

Nơi để truy cập Veo

Trong những tuần tới, Google sẽ bắt đầu cung cấp một số tính năng đột phá của Veo cho những người sáng tạo được chọn thông qua VideoFX, một công cụ mới có tại labs.google. Sáng kiến này cho phép truy cập sớm vào các khả năng tạo video tiên tiến của Veo, mang đến cho người sáng tạo cơ hội thử nghiệm các tính năng sáng tạo của nó. Danh sách chờ của Veo hiện đang mở, mời những người sáng tạo quan tâm đăng ký và sử dụng các công cụ mạnh mẽ của Veo trong các dự án của họ.

Thêm thông tin về các bản cập nhật AI tạo sinh năm 2024 của DeepMind

Bên cạnh Veo, DeepMind đã giới thiệu một số bản cập nhật tiên tiến trong AI tạo sinh cho năm 2024. Một trong những bản cập nhật này là Imagen 3 , mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của họ cho đến nay. Imagen 3 xuất sắc trong việc tạo ra hình ảnh chân thực, sống động như thật. Nó hiểu sâu sắc các lời nhắc ngôn ngữ tự nhiên và nắm bắt các chi tiết phức tạp trong khi giảm thiểu các hiện vật trực quan.

Hình 7. Hình ảnh được tạo bằng Imagen 3.

DeepMind cũng đã phát triển Lyria , mô hình tiên tiến nhất của họ để tạo ra âm nhạc AI. Là một phần của nỗ lực này, DeepMind đã tạo ra một bộ công cụ AI âm nhạc có tên là Music AI Sandbox. Các công cụ này cho phép các nhạc sĩ và nhà sản xuất khám phá những khả năng sáng tạo mới trong sáng tác nhạc và chuyển đổi âm thanh.

Hình 8. Một ví dụ về giao diện người dùng của công cụ âm nhạc AI của DeepMind.

Tương tự như Veo, DeepMind cũng đã triển khai một số biện pháp an toàn liên quan đến các bản cập nhật khác của mình. SynthID sẽ được sử dụng trong các bản cập nhật này như một công cụ để đóng dấu bản quyền và xác định nội dung do AI tạo ra. Các bản cập nhật này từ DeepMind hứa hẹn sẽ biến đổi nhiều ngành công nghiệp khác nhau bằng cách cung cấp các công cụ tiên tiến, hiệu quả và có trách nhiệm để tạo nội dung hình ảnh và âm thanh chất lượng cao.

Điều hướng giai đoạn tiếp theo của AI tạo sinh

Những tiến bộ AI tạo sinh năm 2024 của DeepMind, bao gồm Veo, Imagen 3 và Lyria, đánh dấu bước nhảy vọt đáng kể về khả năng AI. Veo biến đổi việc tạo video với khả năng tạo video 1080p chất lượng cao từ các lời nhắc đơn giản, biến nó thành một công cụ đa năng cho các nhà làm phim và người sáng tạo nội dung. Imagen 3 tỏa sáng trong việc tạo ra hình ảnh chân thực, trong khi Lyria giới thiệu những khả năng mới trong việc tạo nhạc với các công cụ AI tiên tiến.

Những công nghệ này hứa hẹn sẽ biến đổi nhiều ngành công nghiệp khác nhau bằng cách cung cấp các công cụ hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao. Với các biện pháp an toàn như SynthID đảm bảo sử dụng có đạo đức, DeepMind tiếp tục mở rộng ranh giới của AI, mở đường cho các ứng dụng sáng tạo trong tương lai.

Khám phá AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu cách AI được áp dụng trong sản xuấtnông nghiệp .

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard