Google Genie 3 mang thế giới 3D của bạn vào cuộc sống với AI
Genie 3 AI world model của DeepMind chuyển đổi các gợi ý văn bản hoặc hình ảnh thành môi trường 3D. Tiến bộ này đánh dấu một bước tiến khác tới trí tuệ giống con người.

Vào ngày 5 tháng 8 năm 2025, Google DeepMind đã phát hành phiên bản mới nhất của mô hình Genie, được biết đến là Genie 3. Đây là một mô hình AI mới có khả năng chuyển đổi các câu lệnh văn bản của người dùng thành các môi trường tương tác năng động.
Những môi trường này, hay các thế giới AI, cho phép người dùng điều hướng và tương tác với chúng trong thời gian thực, giống như trong một trò chơi điện tử. Người dùng cũng có thể mở rộng hoặc sửa đổi môi trường bằng cách cung cấp thêm các câu lệnh văn bản, cho phép thực hiện những thay đổi ngay lập tức mà không cần khởi động lại mô phỏng.
Điều khiến mô hình Genie mới nhất của Google trở nên đặc biệt hiệu quả là nó có thể được sử dụng để huấn luyện các tác nhân AI. Điều này bao gồm việc dạy cho các tác nhân AI cách đưa ra quyết định hoặc thực hiện các tác vụ bằng cách sử dụng dữ liệu và phản hồi. Bằng cách sử dụng môi trường 3D mô phỏng thay vì thế giới thực, các nhà nghiên cứu có thể tránh được nhiều thách thức, chi phí và rủi ro của việc huấn luyện trong thế giới thực.
Google Genie 3 cũng có thể mô phỏng các tình huống phức tạp, chẳng hạn như thử nghiệm một chiếc xe tự lái di chuyển trong thời tiết khắc nghiệt hoặc một người mặc bộ đồ bay (wingsuit) lướt qua địa hình miền núi.
Trong bài viết này, chúng ta sẽ khám phá Google Genie 3 và các khả năng của nó. Hãy cùng bắt đầu!

Hình 1. Một khung hình từ mô phỏng Genie 3 cho thấy người mặc bộ đồ bay đang lướt. (Nguồn)
Link to this sectionLược sử về các mô hình Genie của Google#
Trước khi đi sâu vào các mô hình Genie của Google DeepMind, hãy cùng tìm hiểu rõ hơn về thế giới mô hình (world models) là gì.
Các thế giới mô hình là hệ thống AI học các quy tắc thực tế như vật lý, chuyển động và các mối quan hệ không gian từ tập dữ liệu văn bản, hình ảnh, video và chuyển động. Điều này cho phép chúng tạo ra các cảnh chân thực và dự đoán cách chúng phát triển. Các mô hình Genie là những ví dụ điển hình cho các hệ thống như vậy.
Dưới đây là cái nhìn nhanh về các mô hình Google Genie trước đây đã mở đường cho Genie 3:
-
Genie 1: Genie 1, thường được gọi đơn giản là Google Genie, là mô hình thế giới AI đầu tiên của Google DeepMind có khả năng tạo ra các môi trường ảo tương tác. Người dùng có thể mô tả một thế giới bằng văn bản, hình ảnh, ảnh chụp hoặc thậm chí là bản phác thảo, và Genie sẽ tạo ra nó, cho phép họ kiểm soát các hành động trong cảnh. Nó được thiết kế để xử lý dữ liệu video theo thời gian, dự đoán khung hình tiếp theo và chuyển đổi đầu vào của người dùng thành các hành động trong thế giới đó.
-
Genie 2: Dựa trên các khả năng của Google Genie, Genie 2 có thể tạo ra nhiều thế giới 3D chi tiết và tương tác. Là một mô hình thế giới, nó mô phỏng các môi trường ảo và phản hồi một cách thực tế với các hành động như nhảy, bơi hoặc di chuyển đồ vật. Được huấn luyện trên một tập hợp video khổng lồ, nó có các tương tác vật thể chân thực và các chuyển động nhân vật sống động.
Link to this sectionGenie 3 là gì? Mô hình AI mới của Google#
Dựa trên các mô hình Genie trước đây, Genie 3 là phiên bản mới nhất và tiên tiến nhất trong loạt sản phẩm này. Nó phát triển đặc biệt từ Genie 2, vốn có khả năng tạo ra các môi trường ảo mới, và Veo 3, mô hình tạo video mới nhất của Google DeepMind. Veo 3 thể hiện sự hiểu biết sâu sắc về vật lý và cách các vật thể tương tác trong thế giới thực.
Trong khi Veo 3 sử dụng engine vật lý được lập trình sẵn, Google Genie 3 tự học cách thức hoạt động của vật lý bằng phương pháp được gọi là học tự giám sát (self-supervised learning). Đây là một kỹ thuật học AI trong đó mô hình AI học các khuôn mẫu và mối quan hệ từ dữ liệu không nhãn bằng cách tự tạo ra các tín hiệu học tập cho chính nó.
Khả năng học tự giám sát của Google Genie 3 là rất quan trọng để huấn luyện các hệ thống AI, chẳng hạn như tác nhân AI hoặc robot AI, để xử lý các tác vụ khác nhau. Trên thực tế, các nhà nghiên cứu tại Google DeepMind coi Genie 3 là một bước tiến quan trọng hướng tới việc tạo ra Trí tuệ nhân tạo tổng quát (AGI).

Hình 2. Ví dụ về việc sử dụng Google Genie 3 để mô phỏng điều khiển một xe tự hành robot. (Nguồn)
AGI là một dạng lý thuyết của AI có khả năng hiểu và học bất kỳ tác vụ hoặc chủ đề nào và áp dụng kiến thức đó vào các tình huống khác nhau, giống như con người. Khác với các mô hình trí tuệ nhân tạo ngày nay vốn được xây dựng cho các tác vụ cụ thể và gặp khó khăn trong việc chuyển giao kỹ năng của chúng sang các vấn đề mới, AGI sẽ có khả năng thích nghi và học hỏi trong nhiều ngữ cảnh rộng lớn.
Link to this sectionCác tính năng chính của Google Genie 3 liên quan đến việc xây dựng thế giới AI#
Dưới đây là một số tính năng chính được hỗ trợ bởi Genie 3:
-
Tạo thế giới từ văn bản (Text-to-3D): Nó có thể biến một câu lệnh văn bản đơn giản (ví dụ: “một robot đang đi bộ trên phố”) thành một môi trường giống như 3D có thể chơi được với các điều khiển di chuyển cơ bản.
-
Sự kiện thế giới có thể gợi ý: Người dùng có thể thay đổi môi trường một cách năng động bằng cách nhập các lệnh mới (ví dụ: thêm mưa vào đường phố).
-
Bộ nhớ thị giác: Genie 3 có thể ghi nhớ các vật thể bị bỏ lại trong môi trường và cho phép bạn xem lại chúng sau đó, kéo dài trong khoảng một phút.
-
Đầu ra video mượt mà và nhất quán: Nó có thể duy trì đầu ra video ở mức 24 fps (khung hình trên giây) ở độ phân giải 720p, với thời gian tương tác lâu hơn so với Genie 2.

Hình 3. Google Genie 3 có thể tạo ra các kết quả kéo dài lâu hơn so với những gì được tạo ra bởi Genie 2. (Nguồn)
Link to this sectionTừ giáo dục đến trò chơi: Các ứng dụng của Genie 3 từ Google DeepMind#
Google Genie 3 có thể làm cho việc học tập, nghiên cứu và huấn luyện trở nên sống động và hấp dẫn hơn. Ví dụ, trong lớp học, nó có thể mang lịch sử, khoa học hoặc địa lý vào cuộc sống bằng cách cho phép học sinh khám phá các thành phố cổ đại hoặc du hành qua không gian. Tương tự, đối với các nhà phát triển trí tuệ nhân tạo, nó cung cấp các thế giới ảo thực tế để thực hành chiến lược, điều hướng các thử thách và cải thiện kỹ năng ra quyết định.
Các nhà khoa học cũng có thể sử dụng nó để tạo ra các mô phỏng có kiểm soát nhằm thử nghiệm ý tưởng, nghiên cứu hệ sinh thái hoặc quan sát hành vi của các vật thể. Một ứng dụng thú vị khác là trong phát triển trò chơi điện tử. Các nhà phát triển trò chơi có thể biến câu lệnh văn bản thành các thế giới trò chơi chi tiết, tăng tốc độ phát triển và giảm nhu cầu về các đội ngũ lớn.

Hình 4. Các trò chơi vui nhộn, đầy màu sắc và tương tác có thể được thiết kế bằng cách sử dụng Genie 3. (Nguồn)
Link to this sectionCác hạn chế của Google Genie 3 như một mô hình thế giới#
Mặc dù Google Genie 3 cung cấp nhiều tính năng và lợi ích, nhưng cũng rất quan trọng khi xem xét các nhược điểm của nó.
Dưới đây là một số hạn chế cần xem xét:
-
Phạm vi hành động hạn chế: Mặc dù bạn có thể kích hoạt nhiều sự kiện trong thế giới ảo, không phải tất cả chúng đều được thực hiện bởi chính tác nhân đó. Các hành động mà một tác nhân có thể thực hiện trực tiếp vẫn còn bị hạn chế.
-
Tương tác với các tác nhân khác: Việc tạo ra các tương tác thực tế giữa nhiều tác nhân độc lập trong cùng một môi trường vẫn là một công việc đang được tiếp tục hoàn thiện.
-
Độ chính xác trong thế giới thực: Google Genie 3 vẫn chưa thể tái tạo các địa điểm trong thế giới thực với độ chính xác địa lý hoàn hảo.
Link to this sectionCác điểm chính cần lưu ý#
Google Genie 3 đại diện cho một bước tiến đáng kể trong việc tạo ra các thế giới 3D tương tác, chân thực với AI. Nó có thể biến các ý tưởng từ những câu lệnh văn bản đơn giản thành hiện thực, mô phỏng vật lý và thậm chí huấn luyện các hệ thống AI trong các không gian ảo an toàn.
Mặc dù vẫn còn những hạn chế, nó mở ra nhiều khả năng cho nghiên cứu, trò chơi và phát triển AI. Đây cũng là một bước quan trọng hướng tới các hệ thống AGI có thể suy nghĩ và học hỏi giống con người hơn.
Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá thêm về AI. Tham gia cộng đồng năng động của chúng tôi và khám phá các đổi mới trong các lĩnh vực như ngành AI trong bán lẻ và AI thị giác trong sản xuất. Để bắt đầu với thị giác máy tính ngay hôm nay, hãy kiểm tra các tùy chọn cấp phép của chúng tôi.






