Tạo video với Veo của Google DeepMind
Tìm hiểu thêm về Veo, mô hình video tạo sinh mới nhất của Google DeepMind có thể dễ dàng tạo ra các video 1080P chất lượng cao từ văn bản, hình ảnh và gợi ý video.

Trong buổi thuyết trình tại Google I/O 2024 vào ngày 14 tháng 5, Google đã chia sẻ những cập nhật mới nhất từ DeepMind, bộ phận AI của họ. Một trong những tiến bộ thú vị nhất được chia sẻ là mô hình tạo video mới nhất của họ, Veo. Veo có thể tạo các video 1080p chất lượng cao dựa trên văn bản, hình ảnh và gợi ý video. Nó thậm chí còn cho phép bạn chỉnh sửa các video đã tạo bằng các gợi ý tiếp theo. Veo đưa AI tạo nội dung lên một tầm cao mới. Hãy cùng tìm hiểu kỹ hơn về các tính năng mà Veo cung cấp.
Link to this sectionTìm hiểu các khả năng của Veo#
Veo là một mô hình tạo video sử dụng hiểu biết sâu sắc về ngôn ngữ và hình ảnh để tạo ra các video khớp sát với tầm nhìn sáng tạo của người dùng. Nó có thể nắm bắt chính xác tông màu và các chi tiết của những câu lệnh dài hơn, biến nó thành một công cụ mạnh mẽ cho những người sáng tạo muốn chuyển đổi ý tưởng của mình thành nội dung video chính xác.
Người dùng có thể có quyền kiểm soát sáng tạo đột phá đối với video được tạo vì Veo có thể hiểu các kỹ thuật làm phim như "timelapse" (tua nhanh thời gian) và "cảnh quay phong cảnh từ trên cao". Quyền kiểm soát sáng tạo này cho phép người dùng tạo ra các video trong đó con người, động vật và đồ vật di chuyển một cách tự nhiên. Các video do Veo tạo ra rất hấp dẫn và thu hút về mặt hình ảnh vì rất khó để nhận ra rằng chúng được tạo ra bởi một mô hình AI.
Veo không chỉ dừng lại ở việc tạo video từ các câu lệnh. Nếu bạn cung cấp một video đã được tạo trước đó và một yêu cầu chỉnh sửa cụ thể, chẳng hạn như chèn thuyền kayak vào cảnh quay từ trên cao của đường bờ biển, Veo có thể tích hợp thay đổi này một cách mượt mà vào video gốc, tạo ra một phiên bản cập nhật.

Hình 1. Một ví dụ về chỉnh sửa video bằng Veo.
Dưới đây là một số tính năng khác mà Veo cung cấp:
- Masked Editing (Chỉnh sửa có mặt nạ): Veo có thể giúp bạn chỉnh sửa các vùng xác định của video.
- Image-Inspired Video Creation (Tạo video lấy cảm hứng từ hình ảnh): Sử dụng một hình ảnh và một câu lệnh văn bản, Veo có thể tạo ra các video phản ánh phong cách của hình ảnh đó và tuân theo hướng dẫn của câu lệnh.
- Extended Video Clips (Mở rộng clip video): Veo có thể tạo và mở rộng các clip video lên đến 60 giây hoặc hơn, từ một câu lệnh đơn lẻ hoặc một chuỗi các câu lệnh cùng nhau kể một câu chuyện.
Link to this sectionNhững video ngoạn mục do Veo tạo ra#
Hãy cùng điểm qua một số video mà Veo đã tạo ra và lý do tại sao nó lại ngoạn mục đến vậy.
Việc tạo video timelapse từ một câu lệnh văn bản ngắn là một thử thách. Thông thường, câu lệnh văn bản ngắn không thể truyền tải chính xác các thay đổi và chuyển động trong cảnh quay của timelapse. Vì vậy, thật đáng kinh ngạc khi Veo có thể hiểu những gì mong đợi từ một timelapse mà không cần đi sâu vào chi tiết.

Hình 2. Một khung hình từ video time-lapse do Veo tạo.
Tương tự, việc tạo video với vật lý chính xác không hề dễ dàng. Mô hình AI cần hiểu và mô phỏng các định luật vật lý như trọng lực, động lượng và va chạm để làm cho các chuyển động và tương tác trông thực tế. Thật ấn tượng khi Veo có thể mô hình hóa chính xác các động lực này mà không cần hướng dẫn chi tiết từ các câu lệnh văn bản.

Hình 3. Một khung hình từ video được tạo bằng Veo ghi lại chính xác vật lý của chuyển động sứa.
Cho đến nay, chúng ta chỉ thấy các video ngắn hơn do AI tạo ra do hạn chế về tính toán và sự phức tạp trong việc duy trì tính nhất quán trong các chuỗi dài hơn. Tại buổi thuyết trình Google I/O 2024, khả năng đáng kinh ngạc của Veo trong việc tạo ra các video dài và phức tạp hơn đã được trình diễn.

Hình 4. Các khung hình từ video dài hơn của Veo được trình chiếu tại buổi thuyết trình Google I/O 2024.
Link to this sectionVeo hoạt động như thế nào?#
Giống như nhiều mô hình AI khác, Veo đứng trên vai những người khổng lồ. Nó kế thừa từ các tiến bộ trước đây như Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như kiến trúc Transformer độc quyền của Google và Gemini. Thêm vào đó, để cải thiện khả năng diễn giải câu lệnh của Veo một cách chính xác, các chú thích của mỗi video trong tập dữ liệu huấn luyện của nó đã được chi tiết hóa hơn.
Dựa trên quy trình mô hình sơ bộ mà Google chia sẻ, đây là cách Veo hoạt động:
- Input Prompts (Câu lệnh đầu vào): Bạn cung cấp một câu lệnh văn bản và tùy chọn, một câu lệnh hình ảnh.
- Encoding (Mã hóa): Câu lệnh văn bản được xử lý bởi một bộ mã hóa UL2 và câu lệnh hình ảnh được xử lý bởi một bộ mã hóa hình ảnh.
- Embedded Prompt (Câu lệnh nhúng): Kết quả đầu ra từ các bộ mã hóa văn bản và hình ảnh được kết hợp để tạo thành một câu lệnh nhúng duy nhất.
- Latent Diffusion Model (Mô hình khuếch tán tiềm ẩn): Câu lệnh nhúng và một video nén chứa nhiễu được truyền tới mô hình này để tạo ra một video nén. Veo sử dụng các biểu diễn video nén chất lượng cao, được gọi là các không gian tiềm ẩn (latents), để cải thiện hiệu quả trong khi vẫn duy trì chất lượng.
- Decoding (Giải mã): Bước cuối cùng giải mã đầu ra video 1080p từ video nén.

Hình 5. Cách Veo hoạt động.
Link to this sectionMột nghiên cứu điển hình hấp dẫn trong sản xuất phim#
Để thử nghiệm khả năng của Veo, Google đã hợp tác với nhà làm phim Donald Glover và studio sáng tạo của anh ấy, Gilga. Họ đã sử dụng Veo để khám phá nhiều kỹ thuật sáng tạo khác nhau, bao gồm các cú máy theo dõi động (dynamic tracking shots), đòi hỏi sự di chuyển chính xác và khung hình nhất quán.

Hình 6. Sử dụng Veo trong quá trình làm phim.
Theo truyền thống, các nhà làm phim phải đối mặt với những hạn chế do thời gian và tài nguyên. Với Veo, Glover và nhóm của mình có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp, từ đó mang lại sự linh hoạt và đổi mới hơn trong quy trình làm phim.
Với Veo, Glover và nhóm của mình có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp trước khi thực sự quay phim. Ví dụ, họ có thể thử các cú máy theo dõi động khác nhau để xem chúng trông như thế nào và thực hiện các điều chỉnh cần thiết. Quá trình tiền hình ảnh (pre-visualization) này đã giúp họ tinh chỉnh ý tưởng và đảm bảo rằng các cảnh quay sẽ hoạt động như dự định, cuối cùng giảm số lượng lần quay cần thiết trong quá trình quay phim thực tế. Họ đã có thể tạo ra một nghiên cứu điển hình hấp dẫn để chứng minh tiềm năng của Veo trong việc thay đổi ngành công nghiệp điện ảnh. Nó cung cấp một cách nhanh chóng và hiệu quả hơn để hiện thực hóa các tầm nhìn sáng tạo.
Link to this sectionCác ứng dụng thực tế của Veo trong nhiều ngành công nghiệp#
Khả năng tạo video tiên tiến của Veo có các ứng dụng thực tế trong nhiều ngành công nghiệp. Trong quảng cáo, nó có thể nhanh chóng tạo ra các quảng cáo chất lượng cao, tùy chỉnh cho các đối tượng mục tiêu, giúp tiết kiệm thời gian và chi phí sản xuất. Trong giáo dục, Veo có thể tạo ra các video hướng dẫn hấp dẫn, giúp các khái niệm phức tạp trở nên dễ hiểu hơn.
Các doanh nghiệp có thể sử dụng Veo để đào tạo và truyền thông doanh nghiệp. Các chuyên gia Y tế có thể sử dụng Veo để mô phỏng các quy trình y tế cho mục đích đào tạo. Đối với các sự kiện và hội nghị ảo, Veo có thể tạo ra các mô phỏng sống động về địa điểm và sân khấu, mang đến cho người tham dự trải nghiệm hấp dẫn và tương tác từ bất kỳ đâu. Các nhà tổ chức được hưởng lợi từ phạm vi tiếp cận mở rộng và những hiểu biết có giá trị cho các sự kiện tương lai. Nhờ Veo, vô số cơ hội đã mở ra.
Khi một mô hình AI có khả năng tác động đến nhiều ngành công nghiệp khác nhau, điều quan trọng là phải lưu ý đến an toàn và AI đạo đức. Để cho phép áp dụng rộng rãi hơn và đảm bảo sử dụng có trách nhiệm, Google đã triển khai một số biện pháp an toàn. Các video do Veo tạo ra được đánh dấu chìm bằng SynthID, một công cụ để đánh dấu chìm và nhận dạng nội dung do AI tạo ra. SynthID đảm bảo tính minh bạch và giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và định kiến. Ngoài ra, tất cả các video được tạo đều thông qua các bộ lọc an toàn và quy trình kiểm tra ghi nhớ. Những biện pháp bảo vệ này làm cho Veo trở thành một công cụ có giá trị và có đạo đức, hỗ trợ sản xuất video sáng tạo và có trách nhiệm.
Link to this sectionCách truy cập Veo#
Trong những tuần tới, Google sẽ bắt đầu cung cấp một số tính năng đột phá của Veo cho một nhóm nhỏ người sáng tạo thông qua VideoFX, một công cụ mới có sẵn tại labs.google. Sáng kiến này cho phép truy cập sớm vào các khả năng tạo video tiên tiến của Veo, mang đến cho những người sáng tạo cơ hội thử nghiệm các tính năng sáng tạo của nó. Danh sách chờ cho Veo hiện đã mở, mời các nhà sáng tạo quan tâm đăng ký và sử dụng các công cụ mạnh mẽ của Veo trong các dự án của họ.
Link to this sectionThông tin thêm về các cập nhật AI tạo nội dung năm 2024 của DeepMind#
Ngoài Veo, DeepMind đã giới thiệu một số cập nhật tiên tiến trong AI tạo nội dung cho năm 2024. Một trong những cập nhật này là Imagen 3, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của họ cho đến nay. Imagen 3 xuất sắc trong việc tạo ra các hình ảnh chân thực, sống động như thật. Nó hiểu sâu sắc các câu lệnh ngôn ngữ tự nhiên và nắm bắt được các chi tiết phức tạp trong khi giảm thiểu các lỗi hình ảnh.

Hình 7. Một hình ảnh được tạo bằng Imagen 3.
DeepMind cũng đã phát triển Lyria, mô hình tiên tiến nhất của họ cho việc tạo nhạc bằng AI. Là một phần của nỗ lực này, DeepMind đã tạo ra một bộ công cụ AI âm nhạc có tên là Music AI Sandbox. Những công cụ này cho phép các nhạc sĩ và nhà sản xuất khám phá những khả năng sáng tạo mới trong sáng tác âm nhạc và chuyển đổi âm thanh.

Hình 8. Ví dụ về giao diện người dùng của các công cụ âm nhạc AI của DeepMind.
Tương tự như Veo, DeepMind cũng đã triển khai một số biện pháp an toàn liên quan đến các cập nhật khác của mình. SynthID sẽ được sử dụng trong các cập nhật này như một công cụ để đánh dấu chìm và nhận dạng nội dung do AI tạo ra. Những cập nhật từ DeepMind hứa hẹn sẽ biến đổi nhiều ngành công nghiệp bằng cách cung cấp các công cụ tiên tiến, hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao.
Link to this sectionĐiều hướng giai đoạn tiếp theo của AI tạo nội dung#
Các tiến bộ về AI tạo nội dung năm 2024 của DeepMind, bao gồm Veo, Imagen 3 và Lyria, đánh dấu một bước nhảy vọt đáng kể về khả năng của AI. Veo chuyển đổi việc tạo video với khả năng tạo các video 1080p chất lượng cao từ các câu lệnh đơn giản, biến nó thành một công cụ linh hoạt cho các nhà làm phim và người sáng tạo nội dung. Imagen 3 tỏa sáng trong việc tạo ra các hình ảnh chân thực, trong khi Lyria giới thiệu những khả năng mới trong việc tạo nhạc bằng các công cụ AI tiên tiến.
Những công nghệ này hứa hẹn sẽ biến đổi nhiều ngành công nghiệp bằng cách cung cấp các công cụ hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao. Với các biện pháp an toàn như SynthID đảm bảo sử dụng có đạo đức, DeepMind tiếp tục mở rộng ranh giới của AI, mở đường cho các ứng dụng sáng tạo trong tương lai.
Tìm hiểu sâu hơn về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu cách AI được ứng dụng trong sản xuất và nông nghiệp.






