Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Các mô hình Google Gemini Robotics đang hỗ trợ các robot thông minh hơn

Khám phá cách Google Gemini Robotics tăng cường các robot hỗ trợ bởi AI với trí tuệ đa phương thức, thúc đẩy khả năng thích ứng, sự khéo léo và tương tác liền mạch với con người.

ABAbirami Vina
4 min read
Các mô hình Google Gemini Robotics hỗ trợ các robot thông minh hơn

Trong nhiều thập kỷ, robot đã tượng trưng cho tương lai, xuất hiện trong các phòng thí nghiệm nghiên cứu, phim khoa học viễn tưởng và các buổi trình diễn nguyên mẫu công nghiệp tiên tiến. Hiện nay, nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI), các nguyên mẫu này đang vượt ra khỏi môi trường được kiểm soát để ứng dụng vào thực tế.

Cụ thể, với Gemini Robotics, Google đang tiến gần hơn một bước tới công nghệ cần thiết để xây dựng robot thông minh hơn. Ra mắt vào ngày 12 tháng 3 năm 2025, mô hình Gemini Robotics và mô hình đồng hành của nó, Gemini Robotics-ER (Embodied Reasoning), là những đổi mới mới nhất của Google DeepMind.

Chúng được xây dựng trên Gemini 2.0, một mô hình ngôn ngữ lớn (LLM) đa phương thức có khả năng xử lý và tạo ra nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh, âm thanh và video, giúp tạo điều kiện cho các tương tác tự nhiên và linh hoạt hơn. Các mô hình này mang khả năng đa phương thức của Gemini 2.0 vào thế giới vật lý, cho phép robot trở nên khéo léo, tương tác tốt hơn và thông minh hơn.

Ví dụ, không giống như các robot truyền thống tuân theo các chỉ dẫn cố định, các robot được tích hợp mô hình Gemini Robotics có thể xử lý cả hình ảnh và ngôn ngữ. Điều này cho phép chúng đưa ra quyết định theo thời gian thực và thích ứng với môi trường thay đổi.

Trong bài viết này, chúng ta sẽ khám phá Gemini Robotics và Gemini Robotics-ER, cách thức các mô hình này hoạt động cũng như các tính năng và ứng dụng chính của chúng. Hãy bắt đầu nào!

Gemini Robotics hỗ trợ robot thực hiện nhiều tác vụ hiệu quả

Hình 1. Gemini Robotics giúp robot thực hiện nhiều tác vụ hiệu quả.

Link to this sectionGiới thiệu về Google Gemini Robotics#

Gemini Robotics của Google là một mô hình AI tiên tiến được thiết kế để mang lại cho robot khả năng nhận thức, suy luận và tương tác trong thế giới vật lý. Là một mô hình thị giác-ngôn ngữ-hành động (VLA), nó cho phép robot xử lý chỉ dẫn, diễn giải môi trường và thực hiện các tác vụ phức tạp với độ chính xác cao.

Trong khi đó, mô hình Gemini Robotics-ER cải thiện khả năng của robot trong việc thấu hiểu các mối quan hệ không gian về cách các đối tượng được định vị, cách chúng di chuyển và cách chúng tương tác. Điều này giúp robot dự đoán hành động và điều chỉnh chuyển động của mình cho phù hợp.

Ví dụ, hãy xem xét một tác vụ mà robot cần quấn dây quanh tai nghe. Gemini Robotics-ER giúp nó hiểu cảnh quan, nhận dạng hình dạng và độ linh hoạt của sợi dây, xác định cấu trúc của tai nghe và dự đoán cách sợi dây sẽ uốn cong khi di chuyển. Sau đó, Gemini Robotics chuyển đổi sự thấu hiểu này thành hành động, phối hợp cả hai tay để thao tác với sợi dây một cách trơn tru, điều chỉnh lực nắm để tránh bị rối và đảm bảo mối quấn chắc chắn.

Bằng cách kết hợp nhận thức với hành động, Gemini Robotics và Gemini Robotics-ER tạo ra một hệ thống thông minh cho phép robot thực hiện các tác vụ khéo léo một cách hiệu quả trong môi trường năng động.

Tổng quan về dòng model Gemini Robotics

Hình 2. Tổng quan về dòng mô hình Gemini Robotics.

Link to this sectionAI trong robot học: Khám phá cách Gemini Robotics hoạt động#

Tiếp theo, hãy xem xét kỹ hơn từng mô hình để hiểu rõ hơn cách Gemini Robotics và Gemini Robotics-ER phối hợp với nhau để cân bằng giữa sự linh hoạt và các hành động nhanh chóng.

Một mặt, Gemini Robotics-ER tận dụng hai cơ chế chính: tạo mã zero-shot và học in-context few-shot (ICL). Với việc tạo mã zero-shot, mô hình có thể tạo mã để điều khiển robot dựa trên các chỉ dẫn tác vụ, hình ảnh và dữ liệu thời gian thực mà không cần đào tạo bổ sung.

Tương tự, với few-shot learning, mô hình thích ứng với các tác vụ mới bằng cách học từ chỉ một vài ví dụ, giảm nhu cầu đào tạo chuyên sâu. Kết hợp lại, các phương pháp này cho phép robot thực hiện các tác vụ phức tạp một cách nhanh chóng và thích ứng với những thách thức mới với nỗ lực tối thiểu.

Mặt khác, Gemini Robotics được xây dựng vì tốc độ và hiệu quả. Nó sử dụng một hệ thống lai bao gồm một nền tảng dựa trên đám mây và bộ giải mã hành động trên bo mạch. Nền tảng dựa trên đám mây xử lý thông tin nhanh chóng, với độ trễ từ truy vấn đến phản hồi dưới 160 mili giây.

Sau đó, bộ giải mã trên bo mạch giúp chuyển đổi dữ liệu này thành các hành động thời gian thực. Hệ thống kết hợp này đạt được thời gian phản hồi tổng thể khoảng 250 mili giây, với tốc độ điều khiển là 50 hành động mỗi giây.

Cách Gemini Robotics hỗ trợ điều khiển robot theo thời gian thực

Hình 3. Tìm hiểu cách Gemini Robotics hỗ trợ điều khiển robot thời gian thực.

Link to this sectionCác khả năng chính của Gemini Robotics#

Dưới đây là cái nhìn nhanh về các tính năng chính của Gemini Robotics:

  • Tính tổng quát: Nó có thể thích ứng với những thay đổi về ánh sáng, nền và đối tượng trong khi vẫn duy trì độ chính xác. Nó cũng hiểu các lệnh diễn đạt lại hoặc đa ngôn ngữ và có thể điều chỉnh chuyển động cho các điều kiện khác nhau.

  • Tính tương tác: Mô hình này có thể xử lý nhiều loại lệnh ngôn ngữ tự nhiên và phản hồi một cách trực quan. Nó cũng điều chỉnh các hành động dựa trên những thay đổi theo thời gian thực trong môi trường, khiến nó trở nên lý tưởng cho hợp tác người-robot.

  • Sự khéo léo: Một robot được vận hành bởi mô hình này có thể thực hiện các tác vụ phức tạp, chính xác như gấp giấy origami hoặc xử lý các đối tượng tinh xảo. Cho dù đó là quy trình từng bước hay các hành động nhanh, mô hình đều có thể giúp thực hiện chúng một cách hiệu quả.

  • Đa dạng nền tảng: Nó hoạt động trên nhiều nền tảng robot khác nhau, chẳng hạn như hệ thống hai cánh tay và robot hình người, với rất ít tinh chỉnh. Nó nhanh chóng thích ứng với các tác vụ mới trong khi vẫn duy trì hiệu suất cao.

Google Gemini Robotics vận hành trên nhiều nền tảng robot khác nhau

Hình 4. Google Gemini Robotics hoạt động trên nhiều nền tảng robot khác nhau.

Link to this sectionCác khả năng chính của Gemini Robotics-ER#

Dưới đây là một số tính năng chính của Gemini Robotics-ER giúp robot hiểu và tương tác với thế giới:

  • Phát hiện và theo dõi đối tượng: Nó có thể được sử dụng để nhận diện và theo dõi các đối tượng trong cả không gian 2D và 3D. Bằng cách sử dụng các truy vấn ngôn ngữ tự nhiên, nó giúp robot tìm thấy đối tượng và dự đoán vị trí của chúng, bất kể dựa trên loại hình, vị trí hay chức năng.

  • Chỉ trỏ: Tính năng này cho phép mô hình xác định chính xác các đối tượng hoặc bộ phận cụ thể trong hình ảnh bằng cách sử dụng các tọa độ chính xác. Nó có thể được sử dụng để giúp robot định vị toàn bộ đối tượng, các bộ phận của đối tượng hoặc thậm chí các khoảng trống.

  • Dự đoán lực nắm: Gemini Robotics-ER có thể được sử dụng để xác định cách nắm bắt các đối tượng tốt nhất dựa trên hình dạng và chức năng của chúng. Nó dự đoán nơi cần nắm, cho dù đó là quả chuối hay tay cầm cốc, cho phép robot xử lý các vật phẩm một cách cẩn thận.

  • Suy luận quỹ đạo: Mô hình có thể được sử dụng để lập kế hoạch đường di chuyển bằng cách dự đoán các chuỗi hành động. Ví dụ, nó có thể hướng dẫn một cánh tay robot về phía công cụ hoặc xác định các điểm trung gian cho một tác vụ cụ thể, giúp robot hoàn thành công việc một cách hiệu quả.

  • Tương quan đa góc nhìn: Tính năng này giúp mô hình hiểu các cấu trúc 3D bằng cách so sánh cách các đối tượng xuất hiện từ các góc độ khác nhau. Nó có thể được sử dụng để tăng cường khả năng suy luận không gian, cho phép robot tương tác tốt hơn với các đối tượng trong môi trường động.

Gemini Robotics-ER xử lý đa dạng các tác vụ

Hình 5. Gemini Robotics-ER có thể xử lý nhiều tác vụ khác nhau.

Link to this sectionCác ứng dụng của mô hình Google Gemini Robotics#

Bây giờ chúng ta đã thảo luận về các khả năng chính của Gemini Robotics và Gemini Robotics-ER, hãy đi sâu vào các ứng dụng thực tế của chúng trong nhiều ngành công nghiệp khác nhau.

Link to this sectionGoogle Gemini Robotics có thể được sử dụng trong sản xuất#

Khi nói đến sản xuất, độ chính xác và tốc độ là rất quan trọng, nhưng khả năng thích ứng mới là thứ thực sự giúp mọi thứ vận hành trơn tru. Ví dụ, một robot công nghiệp chạy bằng Gemini có thể lắp ráp một hệ thống ròng rọc bằng cách xác định các thành phần phù hợp, định vị chúng chính xác và xử lý một sợi dây cao su linh hoạt với lực chính xác.

Nó có thể kéo căng sợi dây, vòng qua các ròng rọc và cố định nó mà không bị đứt hoặc lệch. Nếu thiết lập thay đổi hoặc tác vụ biến đổi, robot có thể thích ứng mà không cần lập trình lại phức tạp. Tự động hóa thông minh này giảm thiểu lỗi, cải thiện hiệu quả và giữ cho các quy trình sản xuất vận hành trơn tru.

Robot công nghiệp hai cánh tay đang lắp dây cao su vào hệ thống puly

Hình 6. Một robot công nghiệp hai cánh tay lắp chính xác dây cao su vào hệ thống ròng rọc.

Link to this sectionNhà thông minh được hỗ trợ bởi Gemini Robotics#

Lịch trình bận rộn có thể khiến việc duy trì các công việc gia đình trở nên khó khăn. Robot thông minh có thể can thiệp để xử lý các tác vụ như dọn dẹp, phân loại hàng tạp hóa và thậm chí hỗ trợ chuẩn bị bữa ăn, giúp cuộc sống hàng ngày trở nên dễ dàng hơn.

Điều này có thể giống như một robot đóng gói túi cơm trưa, chọn lọc và đặt các loại thực phẩm vào bên trong một cách cẩn thận trong khi điều chỉnh lực nắm để bảo vệ các vật phẩm dễ vỡ như trái cây hoặc lon. Ngay cả khi sự sắp xếp thay đổi, robot có thể tự thích ứng, giảm bớt công việc hàng ngày với sự giám sát tối thiểu.

Robot hình người đang cẩn thận đóng gói túi ăn trưa

Hình 7. Một robot hình người cẩn thận đóng gói túi cơm trưa.

Link to this sectionƯu và nhược điểm của việc tận dụng Gemini Robotics#

Gemini Robotics đang mở rộng những gì robot có thể làm, từ sản xuất chính xác đến hỗ trợ nhà thông minh. Dưới đây là một số lợi thế chính của việc sử dụng Gemini Robotics trong nhiều ứng dụng khác nhau:

  • Yêu cầu đào tạo tối thiểu: Không giống như các robot truyền thống, robot được vận hành bởi Gemini Robotics có thể học từ một vài ví dụ trình diễn, giảm chi phí đào tạo và giúp chúng dễ triển khai hơn.
  • Tăng cường an toàn: Trong các môi trường nguy hiểm, robot được tích hợp Gemini Robotics có thể thực hiện các tác vụ nguy hiểm, giảm nguy cơ chấn thương cho người lao động.
  • Tính năng tùy biến: Sự linh hoạt của Gemini Robotics có nghĩa là nó có thể được điều chỉnh để đáp ứng nhu cầu cụ thể của các ngành công nghiệp hoặc doanh nghiệp khác nhau, cho phép các ứng dụng chuyên biệt và các giải pháp độc đáo.

Mặc dù Gemini Robotics mang lại một số lợi ích, nhưng việc giải quyết các hạn chế sau cũng quan trọng không kém:

  • Thách thức về mối quan hệ không gian: Các mô hình này có thể gặp khó khăn trong việc theo dõi các mối quan hệ không gian qua các chuỗi video dài, điều này ảnh hưởng đến khả năng theo dõi và hiểu các đối tượng theo thời gian.
  • Thiếu độ chính xác số học: Các dự đoán của mô hình, chẳng hạn như điểm và hộp bao (bounding box), có thể không đủ chính xác cho các tác vụ đòi hỏi sự kiểm soát tinh vi, chẳng hạn như các tác vụ robot nhạy cảm.
  • Các tác vụ phức tạp: Gemini Robotics có thể gặp khó khăn khi xử lý các tác vụ phức tạp cần suy luận nhiều bước và các chuyển động chính xác, đặc biệt là trong các tình huống mới hoặc không quen thuộc.

Link to this sectionTương lai của AI trong robot học#

Khi AI tiếp tục tiến bộ, các mô hình như Gemini Robotics và Gemini Robotics-ER đang thúc đẩy tương lai của robot học. Những cải tiến trong tương lai có khả năng tập trung vào việc tăng cường suy luận nhiều bước, cho phép robot chia nhỏ các tác vụ thành các bước logic để đạt độ chính xác cao hơn.

Một lĩnh vực phát triển chính khác mà Google DeepMind dự định thực hiện là đào tạo dựa trên mô phỏng. Bằng cách học trong môi trường ảo trước khi triển khai thực tế, robot có thể tinh chỉnh quá trình ra quyết định và chuyển động của mình, giảm thiểu sai sót trong các ứng dụng thực tế.

Khi các công nghệ này phát triển, chúng có thể mở đường cho một tương lai nơi robot tự chủ hơn, dễ thích nghi hơn và có khả năng làm việc liền mạch cùng con người trong cuộc sống hàng ngày.

Link to this sectionCác điểm chính cần lưu ý#

Gemini Robotics là một bước tiến lớn trong tự động hóa dựa trên AI, kết nối trí tuệ kỹ thuật số với các tác vụ vật lý trong thế giới thực. Bằng cách kết hợp thị giác, ngôn ngữ và học tập dựa trên hành động, những robot này có thể xử lý các tác vụ phức tạp với độ chính xác và khả năng thích ứng cao.

Khi robot ngày càng trở nên thông minh hơn, chúng có khả năng sẽ đóng vai trò lớn hơn trong cuộc sống hàng ngày, thay đổi cách con người và máy móc làm việc cùng nhau. Tiến bộ này đang đưa chúng ta đến gần hơn với một thế giới thông minh, kết nối tốt hơn, nơi tự động hóa dựa trên AI nâng cao cả các ngành công nghiệp và các tác vụ hàng ngày.

Hãy trở thành một phần của cộng đồng đang phát triển của chúng tôi! Truy cập kho lưu trữ GitHub của chúng tôi để đi sâu hơn vào AI. Bạn đang muốn bắt đầu các dự án thị giác máy tính của riêng mình? Hãy xem các tùy chọn cấp phép của chúng tôi. Tìm hiểu thêm về AI trong sản xuấtVision AI trong ngành ô tô trên các trang giải pháp của chúng tôi!

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning