Các mô hình Google Gemini Robotics đang hỗ trợ các robot thông minh hơn
Khám phá cách Google Gemini Robotics tăng cường các robot hỗ trợ bởi AI với trí tuệ đa phương thức, thúc đẩy khả năng thích ứng, sự khéo léo và tương tác liền mạch với con người.

Trong nhiều thập kỷ, robot đã tượng trưng cho tương lai, xuất hiện trong các phòng thí nghiệm nghiên cứu, phim khoa học viễn tưởng và các buổi trình diễn nguyên mẫu công nghiệp tiên tiến. Hiện nay, nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI), các nguyên mẫu này đang vượt ra khỏi môi trường được kiểm soát để ứng dụng vào thực tế.
Cụ thể, với Gemini Robotics, Google đang tiến gần hơn một bước tới công nghệ cần thiết để xây dựng robot thông minh hơn. Ra mắt vào ngày 12 tháng 3 năm 2025, mô hình Gemini Robotics và mô hình đồng hành của nó, Gemini Robotics-ER (Embodied Reasoning), là những đổi mới mới nhất của Google DeepMind.
Chúng được xây dựng trên Gemini 2.0, một mô hình ngôn ngữ lớn (LLM) đa phương thức có khả năng xử lý và tạo ra nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh, âm thanh và video, giúp tạo điều kiện cho các tương tác tự nhiên và linh hoạt hơn. Các mô hình này mang khả năng đa phương thức của Gemini 2.0 vào thế giới vật lý, cho phép robot trở nên khéo léo, tương tác tốt hơn và thông minh hơn.
Ví dụ, không giống như các robot truyền thống tuân theo các chỉ dẫn cố định, các robot được tích hợp mô hình Gemini Robotics có thể xử lý cả hình ảnh và ngôn ngữ. Điều này cho phép chúng đưa ra quyết định theo thời gian thực và thích ứng với môi trường thay đổi.
Trong bài viết này, chúng ta sẽ khám phá Gemini Robotics và Gemini Robotics-ER, cách thức các mô hình này hoạt động cũng như các tính năng và ứng dụng chính của chúng. Hãy bắt đầu nào!

Hình 1. Gemini Robotics giúp robot thực hiện nhiều tác vụ hiệu quả.
Link to this sectionGiới thiệu về Google Gemini Robotics#
Gemini Robotics của Google là một mô hình AI tiên tiến được thiết kế để mang lại cho robot khả năng nhận thức, suy luận và tương tác trong thế giới vật lý. Là một mô hình thị giác-ngôn ngữ-hành động (VLA), nó cho phép robot xử lý chỉ dẫn, diễn giải môi trường và thực hiện các tác vụ phức tạp với độ chính xác cao.
Trong khi đó, mô hình Gemini Robotics-ER cải thiện khả năng của robot trong việc thấu hiểu các mối quan hệ không gian về cách các đối tượng được định vị, cách chúng di chuyển và cách chúng tương tác. Điều này giúp robot dự đoán hành động và điều chỉnh chuyển động của mình cho phù hợp.
Ví dụ, hãy xem xét một tác vụ mà robot cần quấn dây quanh tai nghe. Gemini Robotics-ER giúp nó hiểu cảnh quan, nhận dạng hình dạng và độ linh hoạt của sợi dây, xác định cấu trúc của tai nghe và dự đoán cách sợi dây sẽ uốn cong khi di chuyển. Sau đó, Gemini Robotics chuyển đổi sự thấu hiểu này thành hành động, phối hợp cả hai tay để thao tác với sợi dây một cách trơn tru, điều chỉnh lực nắm để tránh bị rối và đảm bảo mối quấn chắc chắn.
Bằng cách kết hợp nhận thức với hành động, Gemini Robotics và Gemini Robotics-ER tạo ra một hệ thống thông minh cho phép robot thực hiện các tác vụ khéo léo một cách hiệu quả trong môi trường năng động.

Hình 2. Tổng quan về dòng mô hình Gemini Robotics.
Link to this sectionAI trong robot học: Khám phá cách Gemini Robotics hoạt động#
Tiếp theo, hãy xem xét kỹ hơn từng mô hình để hiểu rõ hơn cách Gemini Robotics và Gemini Robotics-ER phối hợp với nhau để cân bằng giữa sự linh hoạt và các hành động nhanh chóng.
Một mặt, Gemini Robotics-ER tận dụng hai cơ chế chính: tạo mã zero-shot và học in-context few-shot (ICL). Với việc tạo mã zero-shot, mô hình có thể tạo mã để điều khiển robot dựa trên các chỉ dẫn tác vụ, hình ảnh và dữ liệu thời gian thực mà không cần đào tạo bổ sung.
Tương tự, với few-shot learning, mô hình thích ứng với các tác vụ mới bằng cách học từ chỉ một vài ví dụ, giảm nhu cầu đào tạo chuyên sâu. Kết hợp lại, các phương pháp này cho phép robot thực hiện các tác vụ phức tạp một cách nhanh chóng và thích ứng với những thách thức mới với nỗ lực tối thiểu.
Mặt khác, Gemini Robotics được xây dựng vì tốc độ và hiệu quả. Nó sử dụng một hệ thống lai bao gồm một nền tảng dựa trên đám mây và bộ giải mã hành động trên bo mạch. Nền tảng dựa trên đám mây xử lý thông tin nhanh chóng, với độ trễ từ truy vấn đến phản hồi dưới 160 mili giây.
Sau đó, bộ giải mã trên bo mạch giúp chuyển đổi dữ liệu này thành các hành động thời gian thực. Hệ thống kết hợp này đạt được thời gian phản hồi tổng thể khoảng 250 mili giây, với tốc độ điều khiển là 50 hành động mỗi giây.

Hình 3. Tìm hiểu cách Gemini Robotics hỗ trợ điều khiển robot thời gian thực.
Link to this sectionCác khả năng chính của Gemini Robotics#
Dưới đây là cái nhìn nhanh về các tính năng chính của Gemini Robotics:
-
Tính tổng quát: Nó có thể thích ứng với những thay đổi về ánh sáng, nền và đối tượng trong khi vẫn duy trì độ chính xác. Nó cũng hiểu các lệnh diễn đạt lại hoặc đa ngôn ngữ và có thể điều chỉnh chuyển động cho các điều kiện khác nhau.
-
Tính tương tác: Mô hình này có thể xử lý nhiều loại lệnh ngôn ngữ tự nhiên và phản hồi một cách trực quan. Nó cũng điều chỉnh các hành động dựa trên những thay đổi theo thời gian thực trong môi trường, khiến nó trở nên lý tưởng cho hợp tác người-robot.
-
Sự khéo léo: Một robot được vận hành bởi mô hình này có thể thực hiện các tác vụ phức tạp, chính xác như gấp giấy origami hoặc xử lý các đối tượng tinh xảo. Cho dù đó là quy trình từng bước hay các hành động nhanh, mô hình đều có thể giúp thực hiện chúng một cách hiệu quả.
-
Đa dạng nền tảng: Nó hoạt động trên nhiều nền tảng robot khác nhau, chẳng hạn như hệ thống hai cánh tay và robot hình người, với rất ít tinh chỉnh. Nó nhanh chóng thích ứng với các tác vụ mới trong khi vẫn duy trì hiệu suất cao.

Hình 4. Google Gemini Robotics hoạt động trên nhiều nền tảng robot khác nhau.
Link to this sectionCác khả năng chính của Gemini Robotics-ER#
Dưới đây là một số tính năng chính của Gemini Robotics-ER giúp robot hiểu và tương tác với thế giới:
-
Phát hiện và theo dõi đối tượng: Nó có thể được sử dụng để nhận diện và theo dõi các đối tượng trong cả không gian 2D và 3D. Bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên, nó giúp robot tìm thấy đối tượng và dự đoán vị trí của chúng, bất kể dựa trên loại hình, vị trí hay chức năng.
-
Chỉ trỏ: Tính năng này cho phép mô hình xác định chính xác các đối tượng hoặc bộ phận cụ thể trong hình ảnh bằng cách sử dụng các tọa độ chính xác. Nó có thể được sử dụng để giúp robot định vị toàn bộ đối tượng, các bộ phận của đối tượng hoặc thậm chí các khoảng trống.
-
Dự đoán lực nắm: Gemini Robotics-ER có thể được sử dụng để xác định cách nắm bắt các đối tượng tốt nhất dựa trên hình dạng và chức năng của chúng. Nó dự đoán nơi cần nắm, cho dù đó là quả chuối hay tay cầm cốc, cho phép robot xử lý các vật phẩm một cách cẩn thận.
-
Suy luận quỹ đạo: Mô hình có thể được sử dụng để lập kế hoạch đường di chuyển bằng cách dự đoán các chuỗi hành động. Ví dụ, nó có thể hướng dẫn một cánh tay robot về phía công cụ hoặc xác định các điểm trung gian cho một tác vụ cụ thể, giúp robot hoàn thành công việc một cách hiệu quả.
-
Tương quan đa góc nhìn: Tính năng này giúp mô hình hiểu các cấu trúc 3D bằng cách so sánh cách các đối tượng xuất hiện từ các góc độ khác nhau. Nó có thể được sử dụng để tăng cường khả năng suy luận không gian, cho phép robot tương tác tốt hơn với các đối tượng trong môi trường động.

Hình 5. Gemini Robotics-ER có thể xử lý nhiều tác vụ khác nhau.
Link to this sectionCác ứng dụng của mô hình Google Gemini Robotics#
Bây giờ chúng ta đã thảo luận về các khả năng chính của Gemini Robotics và Gemini Robotics-ER, hãy đi sâu vào các ứng dụng thực tế của chúng trong nhiều ngành công nghiệp khác nhau.
Link to this sectionGoogle Gemini Robotics có thể được sử dụng trong sản xuất#
Khi nói đến sản xuất, độ chính xác và tốc độ là rất quan trọng, nhưng khả năng thích ứng mới là thứ thực sự giúp mọi thứ vận hành trơn tru. Ví dụ, một robot công nghiệp chạy bằng Gemini có thể lắp ráp một hệ thống ròng rọc bằng cách xác định các thành phần phù hợp, định vị chúng chính xác và xử lý một sợi dây cao su linh hoạt với lực chính xác.
Nó có thể kéo căng sợi dây, vòng qua các ròng rọc và cố định nó mà không bị đứt hoặc lệch. Nếu thiết lập thay đổi hoặc tác vụ biến đổi, robot có thể thích ứng mà không cần lập trình lại phức tạp. Tự động hóa thông minh này giảm thiểu lỗi, cải thiện hiệu quả và giữ cho các quy trình sản xuất vận hành trơn tru.

Hình 6. Một robot công nghiệp hai cánh tay lắp chính xác dây cao su vào hệ thống ròng rọc.
Link to this sectionNhà thông minh được hỗ trợ bởi Gemini Robotics#
Lịch trình bận rộn có thể khiến việc duy trì các công việc gia đình trở nên khó khăn. Robot thông minh có thể can thiệp để xử lý các tác vụ như dọn dẹp, phân loại hàng tạp hóa và thậm chí hỗ trợ chuẩn bị bữa ăn, giúp cuộc sống hàng ngày trở nên dễ dàng hơn.
Điều này có thể giống như một robot đóng gói túi cơm trưa, chọn lọc và đặt các loại thực phẩm vào bên trong một cách cẩn thận trong khi điều chỉnh lực nắm để bảo vệ các vật phẩm dễ vỡ như trái cây hoặc lon. Ngay cả khi sự sắp xếp thay đổi, robot có thể tự thích ứng, giảm bớt công việc hàng ngày với sự giám sát tối thiểu.

Hình 7. Một robot hình người cẩn thận đóng gói túi cơm trưa.
Link to this sectionƯu và nhược điểm của việc tận dụng Gemini Robotics#
Gemini Robotics đang mở rộng những gì robot có thể làm, từ sản xuất chính xác đến hỗ trợ nhà thông minh. Dưới đây là một số lợi thế chính của việc sử dụng Gemini Robotics trong nhiều ứng dụng khác nhau:
- Yêu cầu đào tạo tối thiểu: Không giống như các robot truyền thống, robot được vận hành bởi Gemini Robotics có thể học từ một vài ví dụ trình diễn, giảm chi phí đào tạo và giúp chúng dễ triển khai hơn.
- Tăng cường an toàn: Trong các môi trường nguy hiểm, robot được tích hợp Gemini Robotics có thể thực hiện các tác vụ nguy hiểm, giảm nguy cơ chấn thương cho người lao động.
- Tính năng tùy biến: Sự linh hoạt của Gemini Robotics có nghĩa là nó có thể được điều chỉnh để đáp ứng nhu cầu cụ thể của các ngành công nghiệp hoặc doanh nghiệp khác nhau, cho phép các ứng dụng chuyên biệt và các giải pháp độc đáo.
Mặc dù Gemini Robotics mang lại một số lợi ích, nhưng việc giải quyết các hạn chế sau cũng quan trọng không kém:
- Thách thức về mối quan hệ không gian: Các mô hình này có thể gặp khó khăn trong việc theo dõi các mối quan hệ không gian qua các chuỗi video dài, điều này ảnh hưởng đến khả năng theo dõi và hiểu các đối tượng theo thời gian.
- Thiếu độ chính xác số học: Các dự đoán của mô hình, chẳng hạn như điểm và hộp bao (bounding box), có thể không đủ chính xác cho các tác vụ đòi hỏi sự kiểm soát tinh vi, chẳng hạn như các tác vụ robot nhạy cảm.
- Các tác vụ phức tạp: Gemini Robotics có thể gặp khó khăn khi xử lý các tác vụ phức tạp cần suy luận nhiều bước và các chuyển động chính xác, đặc biệt là trong các tình huống mới hoặc không quen thuộc.
Link to this sectionTương lai của AI trong robot học#
Khi AI tiếp tục tiến bộ, các mô hình như Gemini Robotics và Gemini Robotics-ER đang thúc đẩy tương lai của robot học. Những cải tiến trong tương lai có khả năng tập trung vào việc tăng cường suy luận nhiều bước, cho phép robot chia nhỏ các tác vụ thành các bước logic để đạt độ chính xác cao hơn.
Một lĩnh vực phát triển chính khác mà Google DeepMind dự định thực hiện là đào tạo dựa trên mô phỏng. Bằng cách học trong môi trường ảo trước khi triển khai thực tế, robot có thể tinh chỉnh quá trình ra quyết định và chuyển động của mình, giảm thiểu sai sót trong các ứng dụng thực tế.
Khi các công nghệ này phát triển, chúng có thể mở đường cho một tương lai nơi robot tự chủ hơn, dễ thích nghi hơn và có khả năng làm việc liền mạch cùng con người trong cuộc sống hàng ngày.
Link to this sectionCác điểm chính cần lưu ý#
Gemini Robotics là một bước tiến lớn trong tự động hóa dựa trên AI, kết nối trí tuệ kỹ thuật số với các tác vụ vật lý trong thế giới thực. Bằng cách kết hợp thị giác, ngôn ngữ và học tập dựa trên hành động, những robot này có thể xử lý các tác vụ phức tạp với độ chính xác và khả năng thích ứng cao.
Khi robot ngày càng trở nên thông minh hơn, chúng có khả năng sẽ đóng vai trò lớn hơn trong cuộc sống hàng ngày, thay đổi cách con người và máy móc làm việc cùng nhau. Tiến bộ này đang đưa chúng ta đến gần hơn với một thế giới thông minh, kết nối tốt hơn, nơi tự động hóa dựa trên AI nâng cao cả các ngành công nghiệp và các tác vụ hàng ngày.
Hãy trở thành một phần của cộng đồng đang phát triển của chúng tôi! Truy cập kho lưu trữ GitHub của chúng tôi để đi sâu hơn vào AI. Bạn đang muốn bắt đầu các dự án thị giác máy tính của riêng mình? Hãy xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu thêm về AI trong sản xuất và Vision AI trong ngành ô tô trên các trang giải pháp của chúng tôi!






