Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Google Genie 3 mang thế giới 3D của bạn vào cuộc sống với AI

Abirami Vina

4 phút đọc

15 tháng 8, 2025

Mô hình thế giới AI Genie 3 của DeepMind chuyển đổi văn bản hoặc hình ảnh thành môi trường 3D. Bước tiến này đánh dấu một bước tiến nữa hướng tới trí thông minh giống như con người.

Vào ngày 5 tháng 8 năm 2025, Google DeepMind đã phát hành phiên bản mới nhất của mô hình Genie, được gọi là Genie 3. Đây là một mô hình AI mới có thể chuyển đổi lời nhắc văn bản của người dùng thành các môi trường động, tương tác. 

Những môi trường này, hay thế giới AI, cho phép người dùng điều hướng và tương tác với chúng trong thời gian thực, giống như trong một trò chơi điện tử. Người dùng cũng có thể mở rộng hoặc sửa đổi môi trường bằng cách cung cấp thêm các lời nhắc bằng văn bản, cho phép thay đổi nhanh chóng mà không cần khởi động lại mô phỏng. 

Điều khiến mô hình Genie Google mới nhất trở nên đặc biệt có tác động là nó có thể được sử dụng để huấn luyện các tác nhân AI. Điều này liên quan đến việc dạy các tác nhân AI đưa ra quyết định hoặc thực hiện các tác vụ bằng cách sử dụng dữ liệu và phản hồi. Bằng cách sử dụng môi trường 3D mô phỏng thay vì thế giới thực, các nhà nghiên cứu có thể tránh được nhiều thách thức, chi phí và rủi ro của quá trình huấn luyện trong thế giới thực.

Google Genie 3 cũng có thể mô phỏng các tình huống phức tạp, chẳng hạn như thử nghiệm một chiếc xe tự hành lái xe trong thời tiết xấu hoặc một người mặc wingsuit lướt qua địa hình núi non. 

Trong bài viết này, chúng ta sẽ khám phá Google Genie 3 và các khả năng của nó. Hãy bắt đầu!

Hình 1. Một khung hình từ mô phỏng Genie 3 cho thấy một người đang lướt wingsuit. (Nguồn)

Lịch sử tóm tắt về các mô hình Genie của Google

Trước khi chúng ta đi sâu vào các mô hình Genie của Google DeepMind, hãy hiểu rõ hơn về mô hình thế giới là gì. 

Mô hình thế giới là các hệ thống AI học các quy tắc của thế giới thực như vật lý, chuyển động và quan hệ không gian từ văn bản, hình ảnh, video và tập dữ liệu chuyển động. Điều này cho phép chúng tạo ra các cảnh thực tế và dự đoán cách chúng phát triển. Các mô hình Genie là những ví dụ về các hệ thống như vậy.

Đây là cái nhìn sơ lược về các mô hình Google Genie trước đây, những mô hình đã mở đường cho Genie 3:

  • Genie 1: Genie 1, thường được gọi đơn giản là Google Genie, là mô hình thế giới AI đầu tiên của Google DeepMind có khả năng tạo ra các môi trường ảo tương tác. Người dùng có thể mô tả một thế giới bằng văn bản, hình ảnh, ảnh hoặc thậm chí cả bản phác thảo và Genie sẽ tạo ra nó, cho phép họ kiểm soát các hành động trong cảnh. Nó được thiết kế để xử lý dữ liệu video theo thời gian, dự đoán khung hình tiếp theo và dịch đầu vào của người dùng thành các hành động trong thế giới.
  • Genie 2: Dựa trên khả năng của Google Genie, Genie 2 có thể tạo ra một loạt các thế giới 3D chi tiết, tương tác. Là một mô hình thế giới, nó mô phỏng các môi trường ảo và phản ứng thực tế với các hành động như nhảy, bơi hoặc di chuyển đồ vật. Được đào tạo trên một bộ sưu tập lớn các video, nó có các tương tác đối tượng thực tế và các chuyển động nhân vật sống động như thật.

Genie 3 là gì? Mô hình AI mới của Google

Dựa trên các mô hình Genie trước đó, Genie 3 là phiên bản mới nhất và tiên tiến nhất trong series. Nó đặc biệt được xây dựng dựa trên Genie 2, có thể tạo ra các môi trường ảo mới và Veo 3, mô hình tạo video mới nhất của Google DeepMind. Veo 3 thể hiện sự hiểu biết sâu sắc về vật lý và cách các đối tượng tương tác trong thế giới thực.

Trong khi Veo 3 sử dụng một physics engine được mã hóa cứng, Google Genie 3 tự dạy cho mình cách vật lý hoạt động bằng một phương pháp được gọi là học tự giám sát (self-supervised learning). Đây là một kỹ thuật học AI (AI learning technique) trong đó một mô hình AI học các mẫu và mối quan hệ từ dữ liệu không được gắn nhãn bằng cách tạo ra các tín hiệu học tập của riêng nó. 

Khả năng tự học của Google Genie 3 rất quan trọng để đào tạo các hệ thống AI, chẳng hạn như các tác nhân AI hoặc robot AI, để xử lý các tác vụ khác nhau. Trên thực tế, các nhà nghiên cứu tại Google DeepMind coi Genie 3 là một bước quan trọng hướng tới việc tạo ra Trí tuệ nhân tạo tổng quát (AGI)

Hình 2. Một ví dụ về việc sử dụng Google Genie 3 để mô phỏng điều khiển một robot tự hành. (Nguồn)

AGI là một dạng AI lý thuyết có thể hiểu và học bất kỳ nhiệm vụ hoặc chủ đề nào và áp dụng kiến thức đó trong các tình huống khác nhau, giống như con người. Không giống như các mô hình trí tuệ nhân tạo ngày nay, vốn được xây dựng cho các nhiệm vụ cụ thể và gặp khó khăn trong việc chuyển giao các kỹ năng của chúng sang các vấn đề mới, AGI có thể thích ứng và học hỏi trong một loạt các bối cảnh.

Các tính năng chính của Google Genie 3 liên quan đến việc xây dựng một thế giới AI

Dưới đây là một số tính năng chính được Genie 3 hỗ trợ:

  • Tạo thế giới 3D từ văn bản: Nó có thể biến một lời nhắc văn bản đơn giản (ví dụ: "một con robot đi bộ trên đường phố") thành một môi trường giống 3D có thể chơi được với các điều khiển chuyển động cơ bản.
  • Các sự kiện thế giới có thể điều khiển bằng Prompt: Người dùng có thể thay đổi môi trường một cách linh hoạt bằng cách nhập các lệnh mới (ví dụ: thêm mưa vào đường phố).
  • Trí nhớ hình ảnh: Genie 3 có thể ghi nhớ các đồ vật bị bỏ lại trong môi trường và cho phép bạn xem lại chúng sau đó, kéo dài khoảng một phút.
  • Đầu ra video mượt mà và nhất quán: Nó có thể duy trì đầu ra video 24 fps (khung hình trên giây) ở độ phân giải 720p, với thời gian tương tác lâu hơn so với Genie 2.
Hình 3. Google Genie 3 có thể tạo ra các kết quả đầu ra kéo dài hơn so với những kết quả do Genie 2 tạo ra. (Nguồn)

Từ giáo dục đến trò chơi: Ứng dụng Genie 3 của Google DeepMind

Google Genie 3 cũng có thể làm cho việc học tập, nghiên cứu và đào tạo trở nên hấp dẫn và mang tính tương tác cao hơn. Ví dụ: trong lớp học, nó có thể mang lịch sử, khoa học hoặc địa lý vào cuộc sống bằng cách cho phép học sinh khám phá các thành phố cổ hoặc du hành xuyên không gian. Tương tự, đối với các nhà phát triển trí tuệ nhân tạo, nó cung cấp các thế giới ảo thực tế để thực hành các chiến lược, vượt qua các thử thách và cải thiện kỹ năng ra quyết định.

Các nhà khoa học cũng có thể sử dụng nó để tạo ra các mô phỏng có kiểm soát để kiểm tra ý tưởng, nghiên cứu hệ sinh thái hoặc quan sát hành vi của các đối tượng. Một ứng dụng thú vị khác là trong phát triển trò chơi điện tử. Các nhà phát triển trò chơi có thể biến các lời nhắc văn bản thành các thế giới trò chơi chi tiết, tăng tốc độ phát triển và giảm nhu cầu về các nhóm lớn.

Hình 4. Các trò chơi thú vị, đầy màu sắc và tương tác có thể được thiết kế bằng Genie 3. (Nguồn)

Hạn chế của Google Genie 3 như một mô hình thế giới

Mặc dù Google Genie 3 cung cấp nhiều tính năng và lợi ích, nhưng điều quan trọng là phải xem xét những hạn chế của nó. 

Dưới đây là một số hạn chế cần xem xét:

  • Phạm vi hành động hạn chế: Mặc dù bạn có thể kích hoạt nhiều sự kiện trong thế giới ảo, nhưng không phải tất cả chúng đều được thực hiện bởi chính tác nhân. Các hành động mà một tác nhân có thể thực hiện trực tiếp vẫn còn hạn chế.
  • Tương tác với các tác nhân khác: Việc tạo ra các tương tác thực tế giữa nhiều tác nhân độc lập trong cùng một môi trường vẫn đang trong quá trình thực hiện.
  • Độ chính xác trong thế giới thực: Google Genie 3 vẫn chưa thể tái tạo các địa điểm trong thế giới thực với độ chính xác địa lý hoàn hảo.

Những điều cần nhớ

Google Genie 3 thể hiện một bước tiến đáng kể trong việc tạo ra các thế giới 3D tương tác, chân thực bằng AI. Nó có thể biến ý tưởng thành hiện thực từ các lệnh văn bản đơn giản, mô phỏng vật lý và thậm chí đào tạo các hệ thống AI trong không gian ảo an toàn. 

Mặc dù vẫn còn những giới hạn, nhưng nó mở ra nhiều khả năng cho nghiên cứu, trò chơi và phát triển AI. Nó cũng là một bước quan trọng hướng tới các hệ thống AGI có thể suy nghĩ và học hỏi giống con người hơn.

Xem kho lưu trữ GitHub của chúng tôi để khám phá thêm về AI. Tham gia cộng đồng năng động của chúng tôi và khám phá những đổi mới trong các lĩnh vực như AI trong ngành bán lẻVision AI trong sản xuất. Để bắt đầu với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard