Tìm hiểu thêm về Veo, mô hình video tổng quát mới nhất của Google DeepMind, có thể dễ dàng tạo ra các video 1080P chất lượng cao từ văn bản, hình ảnh và video.

Tìm hiểu thêm về Veo, mô hình video tổng quát mới nhất của Google DeepMind, có thể dễ dàng tạo ra các video 1080P chất lượng cao từ văn bản, hình ảnh và video.
Trong buổi thuyết trình Google I/O 2024 vào ngày 14 tháng 5, họ đã chia sẻ những cập nhật mới nhất từ DeepMind, bộ phận AI của họ. Một trong những tiến bộ thú vị nhất được chia sẻ là mô hình video tổng quát mới nhất của họ, Veo. Veo có thể tạo ra các video 1080P chất lượng cao dựa trên văn bản, hình ảnh và video. Nó thậm chí còn cho phép bạn chỉnh sửa video đã tạo bằng các lệnh tiếp theo. Veo đưa AI tổng quát lên một tầm cao mới. Hãy xem xét kỹ hơn các tính năng mà Veo cung cấp.
Veo là một mô hình video tổng quát sử dụng sự hiểu biết sâu sắc về ngôn ngữ và hình ảnh để tạo ra các video phù hợp chặt chẽ với tầm nhìn sáng tạo của người dùng. Nó có thể nắm bắt chính xác tông màu và chi tiết của các lệnh dài hơn, khiến nó trở thành một công cụ mạnh mẽ cho những người sáng tạo muốn biến ý tưởng của họ thành nội dung video chính xác.
Người dùng có thể có quyền kiểm soát sáng tạo đột phá đối với video được tạo vì Veo có thể hiểu các kỹ thuật quay phim như "timelapse" và "cảnh quay trên không về phong cảnh." Quyền kiểm soát sáng tạo này giúp người dùng có thể tạo video nơi người, động vật và đồ vật di chuyển tự nhiên. Các video do Veo tạo ra rất hấp dẫn và trực quan vì rất khó để nhận ra rằng chúng được tạo bởi một mô hình AI.
Veo không chỉ tạo video từ các lệnh. Nếu bạn cung cấp một video đã tạo trước đó và một yêu cầu chỉnh sửa cụ thể, chẳng hạn như chèn thuyền kayak vào cảnh quay trên không của bờ biển, Veo có thể tích hợp liền mạch thay đổi này vào video gốc, tạo ra một phiên bản cập nhật.
Dưới đây là một số tính năng khác mà Veo cung cấp:
Hãy cùng xem qua một số video mà Veo đã tạo và lý do tại sao nó lại ngoạn mục đến vậy.
Tạo một video tua nhanh thời gian từ một lời nhắc văn bản ngắn là một thách thức. Thông thường, lời nhắc văn bản ngắn không thể truyền tải chính xác những thay đổi và chuyển động trong cảnh quay tua nhanh thời gian. Vì vậy, thật đáng kinh ngạc khi Veo có thể hiểu những gì mong đợi từ một cảnh tua nhanh thời gian mà không cần đi vào chi tiết.
Tương tự, tạo video với vật lý chính xác không phải là điều dễ dàng. Mô hình AI cần hiểu và mô phỏng các định luật vật lý như trọng lực, động lượng và va chạm để làm cho các chuyển động và tương tác trông chân thực. Thật ấn tượng khi Veo có thể mô hình hóa chính xác các động lực này mà không cần hướng dẫn chi tiết từ các lời nhắc văn bản.
Cho đến nay, chúng ta mới chỉ thấy các video ngắn hơn được tạo bởi AI do những hạn chế về tính toán và độ phức tạp của việc duy trì tính mạch lạc trên các chuỗi dài hơn. Tại buổi thuyết trình I/O năm 2024 của Google, khả năng tạo ra các video dài hơn và phức tạp hơn của Veo đã được trình chiếu.
Giống như nhiều mô hình AI khác, Veo được xây dựng dựa trên những thành tựu trước đó. Nó kế thừa những tiến bộ trước đây như Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cũng như kiến trúc Transformer độc quyền của Google và Gemini. Thêm vào đó, để cải thiện khả năng diễn giải các lệnh một cách chính xác của Veo, chú thích của mỗi video trong tập dữ liệu huấn luyện của nó đã được chi tiết hơn.
Dựa trên quy trình làm việc mô hình sơ bộ được Google chia sẻ, đây là cách Veo hoạt động:
Để kiểm tra khả năng của Veo, Google đã hợp tác với nhà làm phim Donald Glover và studio sáng tạo của anh ấy, Gilga. Họ đã sử dụng Veo để khám phá các kỹ thuật sáng tạo khác nhau, bao gồm các dynamic tracking shot (cảnh quay theo dõi động), đòi hỏi chuyển động chính xác và khung hình nhất quán.
Theo truyền thống, các nhà làm phim phải đối mặt với những hạn chế do thời gian và nguồn lực hạn hẹp. Với Veo, Glover và nhóm của anh ấy có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp, từ đó mang lại sự linh hoạt và đổi mới hơn trong quá trình làm phim.
Với Veo, Glover và nhóm của anh ấy có thể nhanh chóng thử nghiệm và tạo ra các cảnh quay phức tạp trước khi quay phim thực tế. Ví dụ: họ có thể thử nghiệm các dynamic tracking shot khác nhau để xem chúng sẽ trông như thế nào và thực hiện các điều chỉnh khi cần thiết. Quá trình tiền hình dung này đã giúp họ tinh chỉnh ý tưởng và đảm bảo rằng các cảnh quay sẽ hoạt động như dự định, cuối cùng giảm số lượng cảnh quay cần thiết trong quá trình quay phim thực tế. Họ đã có thể tạo ra một case study hấp dẫn để chứng minh tiềm năng của Veo trong việc thay đổi ngành công nghiệp điện ảnh. Nó cung cấp một cách nhanh hơn và hiệu quả hơn để biến những ý tưởng sáng tạo thành hiện thực.
Các khả năng tạo video tiên tiến của Veo có ứng dụng thực tế trong nhiều ngành công nghiệp. Trong quảng cáo, nó có thể nhanh chóng tạo ra các quảng cáo chất lượng cao, được tùy chỉnh cho các đối tượng mục tiêu, giúp tiết kiệm thời gian và chi phí sản xuất. Trong giáo dục, Veo có thể tạo ra các video hướng dẫn hấp dẫn, giúp các khái niệm phức tạp trở nên dễ hiểu hơn.
Các doanh nghiệp có thể sử dụng Veo cho đào tạo và truyền thông nội bộ. Các chuyên gia chăm sóc sức khỏe có thể sử dụng Veo để mô phỏng các quy trình y tế cho mục đích đào tạo. Đối với các sự kiện và hội nghị ảo, Veo có thể tạo ra các mô phỏng sống động như thật về địa điểm và sân khấu, mang đến cho người tham dự trải nghiệm hấp dẫn và tương tác từ mọi nơi. Các nhà tổ chức được hưởng lợi từ việc mở rộng phạm vi tiếp cận và những hiểu biết có giá trị cho các sự kiện trong tương lai. Nhờ Veo, vô số cơ hội đã mở ra.
Khi một mô hình AI có tiềm năng tác động đến các ngành công nghiệp khác nhau, điều quan trọng là phải ghi nhớ sự an toàn và AI có đạo đức. Để cho phép áp dụng rộng rãi hơn và đảm bảo sử dụng có trách nhiệm, Google đã triển khai một số biện pháp an toàn. Video được tạo bởi Veo được đánh dấu bản quyền bằng SynthID, một công cụ để đánh dấu bản quyền và xác định nội dung do AI tạo. SynthId đảm bảo tính minh bạch và giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và sự thiên vị. Bên cạnh đó, tất cả các video được tạo đều phải trải qua các bộ lọc an toàn và quy trình kiểm tra trí nhớ. Các biện pháp bảo vệ này làm cho Veo trở thành một công cụ có giá trị và đạo đức, hỗ trợ sản xuất video sáng tạo và có trách nhiệm.
Trong những tuần tới, Google sẽ bắt đầu cung cấp một số tính năng đột phá của Veo cho những nhà sáng tạo được chọn thông qua VideoFX, một công cụ mới có sẵn tại labs.google. Sáng kiến này cho phép truy cập sớm vào các khả năng tạo video nâng cao của Veo, mang đến cho những nhà sáng tạo cơ hội thử nghiệm các tính năng sáng tạo của nó. Danh sách chờ cho Veo hiện đang mở, mời những nhà sáng tạo quan tâm đăng ký và sử dụng các công cụ mạnh mẽ của Veo trong các dự án của họ.
Bên cạnh Veo, DeepMind đã giới thiệu một số bản cập nhật tiên tiến trong AI tạo sinh cho năm 2024. Một trong những bản cập nhật này là Imagen 3, mô hình chuyển văn bản thành hình ảnh tiên tiến nhất của họ cho đến nay. Imagen 3 vượt trội trong việc tạo ra những hình ảnh sống động như thật. Nó hiểu sâu sắc các lời nhắc bằng ngôn ngữ tự nhiên và nắm bắt các chi tiết phức tạp đồng thời giảm thiểu các hiện vật trực quan.
DeepMind cũng đã phát triển Lyria, mô hình tiên tiến nhất của họ để tạo nhạc bằng AI. Là một phần của nỗ lực này, DeepMind đã tạo ra một bộ công cụ AI âm nhạc có tên là Music AI Sandbox. Các công cụ này cho phép các nhạc sĩ và nhà sản xuất khám phá những khả năng sáng tạo mới trong sáng tác nhạc và chuyển đổi âm thanh.
Tương tự như Veo, DeepMind cũng đã triển khai một số biện pháp an toàn liên quan đến các bản cập nhật khác của mình. SynthID sẽ được sử dụng trên các bản cập nhật này như một công cụ để đánh dấu bản quyền và xác định nội dung do AI tạo. Những bản cập nhật này từ DeepMind hứa hẹn sẽ chuyển đổi nhiều ngành công nghiệp khác nhau bằng cách cung cấp các công cụ tiên tiến, hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao.
Những tiến bộ về AI tạo sinh năm 2024 của DeepMind, bao gồm Veo, Imagen 3 và Lyria, đánh dấu một bước nhảy đáng kể về khả năng của AI. Veo chuyển đổi việc tạo video với khả năng tạo video 1080p chất lượng cao từ các lời nhắc đơn giản, khiến nó trở thành một công cụ linh hoạt cho các nhà làm phim và người sáng tạo nội dung. Imagen 3 tỏa sáng trong việc tạo ra những hình ảnh sống động như thật, trong khi Lyria giới thiệu những khả năng mới trong tạo nhạc với các công cụ AI tiên tiến.
Những công nghệ này hứa hẹn sẽ thay đổi nhiều ngành công nghiệp bằng cách cung cấp các công cụ hiệu quả và có trách nhiệm để tạo ra nội dung hình ảnh và âm thanh chất lượng cao. Với các biện pháp an toàn như SynthID đảm bảo sử dụng có đạo đức, DeepMind tiếp tục mở rộng ranh giới của AI, mở đường cho các ứng dụng sáng tạo trong tương lai.
Khám phá AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Tìm hiểu cách AI được ứng dụng trong sản xuất và nông nghiệp tại trang giải pháp của chúng tôi.