Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Mô hình thế giới AI Genie 3 của DeepMind chuyển đổi lời nhắc văn bản hoặc hình ảnh thành môi trường 3D. Sự tiến bộ này đánh dấu một bước tiến nữa hướng tới trí thông minh giống con người.
Vào ngày 5 tháng 8 năm 2025, Google DeepMind đã phát hành phiên bản mới nhất của mô hình Genie, được gọi là Genie 3. Đây là mô hình AI mới có thể chuyển đổi lời nhắc văn bản của người dùng thành môi trường tương tác, năng động.
Những môi trường này, hay thế giới AI, cho phép người dùng điều hướng và tương tác với chúng theo thời gian thực, tương tự như trong trò chơi điện tử. Người dùng cũng có thể mở rộng hoặc sửa đổi môi trường bằng cách cung cấp thêm lời nhắc văn bản, cho phép thay đổi tức thời mà không cần khởi động lại mô phỏng.
Điều làm cho mô hình Genie mới nhất của Google có tác động đặc biệt là nó có thể được sử dụng để đào tạo các tác nhân AI. Điều này bao gồm việc dạy các tác nhân AI đưa ra quyết định hoặc thực hiện các nhiệm vụ bằng cách sử dụng dữ liệu và phản hồi. Bằng cách sử dụng môi trường 3D mô phỏng thay vì thế giới thực, các nhà nghiên cứu có thể tránh được nhiều thách thức, chi phí và rủi ro của việc đào tạo trong thế giới thực.
Google Genie 3 cũng có thể mô phỏng các tình huống phức tạp, chẳng hạn như thử nghiệm xe tự lái trong thời tiết khắc nghiệt hoặc bộ đồ bay lướt qua địa hình đồi núi.
Trong bài viết này, chúng ta sẽ khám phá Google Genie 3 và các tính năng của nó. Hãy cùng bắt đầu nhé!
Hình 1. Khung hình từ mô phỏng Genie 3 cho thấy bộ đồ bay lượn. ( Nguồn )
Lịch sử tóm tắt về các mô hình Genie của Google
Trước khi tìm hiểu sâu hơn về mô hình Genie của Google DeepMind, chúng ta hãy cùng hiểu rõ hơn về mô hình thế giới.
Mô hình thế giới là các hệ thống AI học các quy tắc thực tế như vật lý, chuyển động và mối quan hệ không gian từ văn bản, hình ảnh, video và tập dữ liệu chuyển động. Điều này cho phép chúng tạo ra các cảnh thực tế và dự đoán cách chúng phát triển. Mô hình Genie là ví dụ về các hệ thống như vậy.
Sau đây là cái nhìn nhanh về các mô hình Google Genie trước đó đã mở đường cho Genie 3:
Genie 1: Genie 1, thường được gọi đơn giản là Google Genie, là mô hình thế giới AI đầu tiên của Google DeepMind có khả năng tạo ra các môi trường ảo tương tác. Người dùng có thể mô tả một thế giới bằng văn bản, hình ảnh, ảnh chụp, hoặc thậm chí là phác thảo, và Genie sẽ tạo ra nó, cho phép họ điều khiển các hành động trong bối cảnh đó. Nó được thiết kế để xử lý dữ liệu video theo thời gian, dự đoán khung hình tiếp theo và chuyển đổi dữ liệu đầu vào của người dùng thành các hành động trong thế giới.
Genie 2: Dựa trên khả năng của Google Genie, Genie 2 có thể tạo ra một loạt các thế giới 3D tương tác chi tiết. Là một mô hình thế giới, nó mô phỏng các môi trường ảo và phản ứng chân thực với các hành động như nhảy, bơi hoặc di chuyển vật thể. Được đào tạo dựa trên một bộ sưu tập video đồ sộ, Genie 2 có các tương tác vật thể chân thực và chuyển động nhân vật sống động như thật.
Genie 3 là gì? Mô hình AI mới của Google
Dựa trên các mô hình Genie trước đó, Genie 3 là phiên bản mới nhất và tiên tiến nhất trong series. Nó được xây dựng dựa trên Genie 2, có khả năng tạo ra các môi trường ảo mới, và Veo 3 , mô hình tạo video mới nhất của Google DeepMind. Veo 3 thể hiện sự hiểu biết sâu sắc về vật lý và cách các vật thể tương tác trong thế giới thực.
Trong khi Veo 3 sử dụng một engine vật lý được mã hóa cứng, Google Genie 3 tự học cách vận hành vật lý bằng một phương pháp được gọi là học tự giám sát. Đây là một kỹ thuật học tập AI , trong đó mô hình AI học các mẫu hình và mối quan hệ từ dữ liệu chưa được gắn nhãn bằng cách tự tạo ra các tín hiệu học tập của riêng nó.
Khả năng tự học của Google Genie 3 rất quan trọng trong việc huấn luyện các hệ thống AI, chẳng hạn như tác nhân AI hoặc robot AI, xử lý nhiều tác vụ khác nhau. Trên thực tế, các nhà nghiên cứu tại Google DeepMind coi Genie 3 là một bước tiến quan trọng hướng tới việc tạo ra Trí tuệ Nhân tạo Tổng quát (AGI) .
Hình 2. Một ví dụ về việc sử dụng Google Genie 3 để mô phỏng việc điều khiển một xe tự hành. ( Nguồn )
AGI là một dạng AI lý thuyết có khả năng hiểu và học bất kỳ nhiệm vụ hoặc chủ đề nào, đồng thời áp dụng kiến thức đó vào nhiều tình huống khác nhau, giống như con người. Không giống như các mô hình trí tuệ nhân tạo hiện nay, vốn được xây dựng cho các nhiệm vụ cụ thể và gặp khó khăn trong việc chuyển giao kỹ năng sang các vấn đề mới, AGI sẽ có khả năng thích ứng và học hỏi trong nhiều bối cảnh khác nhau.
Các tính năng chính của Google Genie 3 liên quan đến việc xây dựng thế giới AI
Sau đây là một số tính năng chính được Genie 3 hỗ trợ:
Tạo thế giới văn bản thành 3D: Có thể biến lời nhắc văn bản đơn giản (ví dụ: "một con rô-bốt đang đi bộ trên phố") thành môi trường giống như 3D có thể chơi được với các điều khiển chuyển động cơ bản.
Sự kiện thế giới có thể nhắc nhở: Người dùng có thể thay đổi môi trường một cách linh hoạt bằng cách nhập lệnh mới (ví dụ: thêm mưa vào đường phố).
Trí nhớ thị giác: Genie 3 có thể ghi nhớ các vật thể bị bỏ lại trong môi trường và cho phép bạn xem lại chúng sau, kéo dài trong khoảng một phút.
Đầu ra video mượt mà và ổn định: Có thể duy trì đầu ra video ở tốc độ 24 fps (khung hình/giây) ở độ phân giải 720p, với thời gian tương tác lâu hơn so với Genie 2.
Hình 3. Google Genie 3 có thể tạo ra các đầu ra có thời gian tồn tại lâu hơn so với các đầu ra do Genie 2 tạo ra. ( Nguồn )
Từ giáo dục đến chơi game: Ứng dụng của Genie 3 của Google DeepMind
Google Genie 3 có thể giúp việc học tập, nghiên cứu và đào tạo trở nên sống động và hấp dẫn hơn. Ví dụ, trong lớp học, nó có thể thổi hồn vào lịch sử, khoa học hoặc địa lý bằng cách cho phép học sinh khám phá các thành phố cổ hoặc du hành xuyên không gian . Tương tự, đối với các nhà phát triển trí tuệ nhân tạo, nó cung cấp thế giới ảo chân thực để thực hành chiến lược, vượt qua thử thách và cải thiện kỹ năng ra quyết định.
Các nhà khoa học cũng có thể sử dụng nó để tạo ra các mô phỏng có kiểm soát nhằm kiểm tra ý tưởng, nghiên cứu hệ sinh thái hoặc quan sát hành vi của các vật thể. Một ứng dụng thú vị khác là trong phát triển trò chơi điện tử. Các nhà phát triển trò chơi có thể biến lời nhắc văn bản thành thế giới trò chơi chi tiết, đẩy nhanh quá trình phát triển và giảm nhu cầu về các nhóm lớn.
Hình 4. Các trò chơi vui nhộn, đầy màu sắc và tương tác có thể được thiết kế bằng Genie 3. ( Nguồn )
Những hạn chế của Google Genie 3 như một mô hình thế giới
Mặc dù Google Genie 3 mang lại nhiều tính năng và lợi ích, nhưng bạn cũng cần cân nhắc đến những nhược điểm của nó.
Sau đây là một số hạn chế cần cân nhắc:
Phạm vi hành động hạn chế: Mặc dù bạn có thể kích hoạt nhiều sự kiện trong thế giới ảo, nhưng không phải tất cả đều do chính tác nhân thực hiện. Các hành động mà tác nhân có thể thực hiện trực tiếp vẫn còn hạn chế.
Tương tác với các tác nhân khác: Việc tạo ra các tương tác thực tế giữa nhiều tác nhân độc lập trong cùng một môi trường vẫn đang được tiến hành.
Độ chính xác thực tế: Google Genie 3 vẫn chưa thể tái tạo các địa điểm thực tế với độ chính xác địa lý hoàn hảo.
Những điểm chính
Google Genie 3 là một bước tiến đáng kể trong việc tạo ra thế giới 3D tương tác, chân thực bằng AI. Nó có thể hiện thực hóa ý tưởng từ những lời nhắc văn bản đơn giản, mô phỏng vật lý và thậm chí đào tạo các hệ thống AI trong không gian ảo an toàn.
Tuy vẫn còn nhiều hạn chế, nhưng nó mở ra nhiều khả năng cho nghiên cứu, chơi game và phát triển AI. Đây cũng là một bước tiến quan trọng hướng tới các hệ thống AGI có thể suy nghĩ và học hỏi giống con người hơn.