Khám phá Trí tuệ Nhân tạo Thể hiện (Embodied AI) và tìm hiểu cách các hệ thống thông minh tương tác với thế giới vật lý. Khám phá cách thức tăng cường khả năng nhận thức của robot bằng... Ultralytics YOLO26.
Trí tuệ nhân tạo thể hiện (Embodied AI) đại diện cho một sự chuyển đổi lớn từ các thuật toán thụ động sang các hệ thống thông minh có khả năng cảm nhận, suy luận và tương tác trong môi trường 3D vật lý hoặc mô phỏng. Không giống như các mô hình học máy truyền thống chỉ hoạt động trên các tập dữ liệu tĩnh, các hệ thống này sở hữu một "thân thể"—cho dù đó là khung robot vật lý hay hình đại diện ảo—cho phép chúng thực hiện các hành động và học hỏi từ phản hồi liên tục của môi trường. Bằng cách kết hợp đầu vào cảm biến với việc ra quyết định thông minh, các tác nhân thể hiện (embodied agents) thu hẹp khoảng cách giữa tính toán kỹ thuật số và thực thi trong thế giới thực.
Cốt lõi của các hệ thống năng động này là thị giác máy tính tiên tiến, cho phép tác nhân hiểu được môi trường xung quanh trong không gian. Để di chuyển an toàn và hiệu quả, các tác nhân có hình thể phụ thuộc rất nhiều vào việc phát hiện đối tượng theo thời gian thực và ước lượng tư thế liên tục. Khi các nhà phát triển xây dựng các đường dẫn thần kinh cho các tác nhân này, họ thường tích hợp các khung học sâu từ hệ sinh thái PyTorch hoặc các công cụ triển khai TensorFlow để xử lý dữ liệu không gian phức tạp.
Để đạt được khả năng tự chủ thực sự, các hệ thống này ngày càng sử dụng các mô hình ngôn ngữ thị giác kết hợp với các công cụ suy luận thời gian thực mạnh mẽ. Điều này cho phép AI không chỉ nhận diện được một chiếc cốc mà còn hiểu được các chỉ dẫn phức tạp như "nhặt chiếc cốc màu đỏ gần mép bàn". Nghiên cứu từ các tổ chức như Viện Trí tuệ Nhân tạo hướng đến Con người (HAI) của Đại học Stanford tiếp tục thúc đẩy giới hạn về cách các tác nhân này tích hợp dữ liệu đa giác quan.
Để hiểu được lĩnh vực này, cần phải phân biệt nó với các khái niệm có liên quan mật thiết:
Việc tích hợp tư duy nhận thức với hành động vật lý đã dẫn đến những ứng dụng mang tính đột phá trong nhiều ngành công nghiệp, được ghi chép đầy đủ trong thư viện số ACM về nghiên cứu trí tuệ nhân tạo .
Các nhà phát triển xây dựng các hệ thống vật lý này thường tận dụng Nền tảng Ultralytics để chú thích dữ liệu huấn luyện động và triển khai liền mạch các mô hình AI biên nhẹ trực tiếp lên phần cứng tiêu thụ điện năng thấp.
Dưới đây là một Python Ví dụ minh họa cách một tác nhân robot có thể sử dụng mô hình thị giác để detect Các đối tượng tương tác trong môi trường của nó diễn ra liên tục.
from ultralytics import YOLO
# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")
# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)
# Process the spatial bounding boxes to guide robotic interaction
for r in results:
print(f"Detected {len(r.boxes)} objects ready for physical interaction.")
Khi các lĩnh vực thiết kế phần cứng và mô hình nhận thức ngày càng hoàn thiện — được dẫn dắt bởi những nỗ lực phối hợp như nghiên cứu về an toàn AI của Anthropic và các mô hình suy luận mới nhất của OpenAI — các hệ thống có hình thể sẽ tiếp tục chuyển từ phòng thí nghiệm nghiên cứu sang môi trường đời thường, như thường được nhấn mạnh trong các bài viết về robot của IEEE Spectrum .