Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trí tuệ nhân tạo hiện thân

Khám phá Trí tuệ Nhân tạo Thể hiện (Embodied AI) và tìm hiểu cách các hệ thống thông minh tương tác với thế giới vật lý. Khám phá cách thức tăng cường khả năng nhận thức của robot bằng... Ultralytics YOLO26.

Trí tuệ nhân tạo thể hiện (Embodied AI) đại diện cho một sự chuyển đổi lớn từ các thuật toán thụ động sang các hệ thống thông minh có khả năng cảm nhận, suy luận và tương tác trong môi trường 3D vật lý hoặc mô phỏng. Không giống như các mô hình học máy truyền thống chỉ hoạt động trên các tập dữ liệu tĩnh, các hệ thống này sở hữu một "thân thể"—cho dù đó là khung robot vật lý hay hình đại diện ảo—cho phép chúng thực hiện các hành động và học hỏi từ phản hồi liên tục của môi trường. Bằng cách kết hợp đầu vào cảm biến với việc ra quyết định thông minh, các tác nhân thể hiện (embodied agents) thu hẹp khoảng cách giữa tính toán kỹ thuật số và thực thi trong thế giới thực.

Hệ thống thể hiện nhận thức thế giới như thế nào?

Cốt lõi của các hệ thống năng động này là thị giác máy tính tiên tiến, cho phép tác nhân hiểu được môi trường xung quanh trong không gian. Để di chuyển an toàn và hiệu quả, các tác nhân có hình thể phụ thuộc rất nhiều vào việc phát hiện đối tượng theo thời gian thực và ước lượng tư thế liên tục. Khi các nhà phát triển xây dựng các đường dẫn thần kinh cho các tác nhân này, họ thường tích hợp các khung học sâu từ hệ sinh thái PyTorch hoặc các công cụ triển khai TensorFlow để xử lý dữ liệu không gian phức tạp.

Để đạt được khả năng tự chủ thực sự, các hệ thống này ngày càng sử dụng các mô hình ngôn ngữ thị giác kết hợp với các công cụ suy luận thời gian thực mạnh mẽ. Điều này cho phép AI không chỉ nhận diện được một chiếc cốc mà còn hiểu được các chỉ dẫn phức tạp như "nhặt chiếc cốc màu đỏ gần mép bàn". Nghiên cứu từ các tổ chức như Viện Trí tuệ Nhân tạo hướng đến Con người (HAI) của Đại học Stanford tiếp tục thúc đẩy giới hạn về cách các tác nhân này tích hợp dữ liệu đa giác quan.

Phân biệt các thuật ngữ liên quan đến trí tuệ nhân tạo

Để hiểu được lĩnh vực này, cần phải phân biệt nó với các khái niệm có liên quan mật thiết:

  • Robot học : Lĩnh vực robot học tập trung chủ yếu vào phần cứng cơ khí, bộ truyền động và điều khiển động cơ. Trí tuệ nhân tạo thể hiện (Embodied AI) cung cấp lớp phần mềm nhận thức giúp phần cứng hoạt động tự chủ, như trong các dự án như robot Atlas của Boston Dynamics .
  • Trí tuệ nhân tạo vật lý (Physical AI ): Mặc dù thường được sử dụng thay thế cho nhau, trí tuệ nhân tạo vật lý yêu cầu phần cứng hữu hình, có thật trong thế giới thực. Trí tuệ nhân tạo thể hiện (Embodied AI) rộng hơn, bao gồm các tác nhân ảo được đào tạo trong môi trường vật lý 3D mô phỏng như nền tảng robot Isaac của NVIDIA .
  • Tác nhân AI : Các tác nhân AI truyền thống hoạt động trong không gian kỹ thuật số (ví dụ: duyệt web hoặc viết mã). Các tác nhân có hình thể được chuyên biệt hóa để xử lý chiều không gian, các ràng buộc vật lý và các luồng dữ liệu cảm giác liên tục.

Các Ứng dụng Thực tế

Việc tích hợp tư duy nhận thức với hành động vật lý đã dẫn đến những ứng dụng mang tính đột phá trong nhiều ngành công nghiệp, được ghi chép đầy đủ trong thư viện số ACM về nghiên cứu trí tuệ nhân tạo .

  • Xe tự hành : Xe tự lái dựa vào trí thông minh tích hợp để di chuyển trên đường phố đô thị. Chúng xử lý dữ liệu lidar và camera liên tục để giải thích các biển báo giao thông và chuyển động của người đi bộ, tương tự như công nghệ lái xe tự hành của Waymo tương tác an toàn với môi trường đô thị năng động.
  • Sản xuất thông minh : Các cánh tay robot được trang bị mô hình Ultralytics YOLO26 thực hiện các nhiệm vụ phức tạp trên dây chuyền lắp ráp. Chúng tự động nhận diện, chọn và phân loại các bộ phận bị lỗi, thể hiện các nguyên tắc được khám phá trong nghiên cứu robot gần đây của DeepMind .
  • Máy bay không người lái nông nghiệp : Các phương tiện bay không người lái sử dụng khả năng nhận biết không gian để theo dõi sức khỏe cây trồng và phun thuốc một cách thông minh chỉ ở những nơi cần thiết, giảm thiểu lãng phí và tăng năng suất.

Xây dựng nhận thức cho các tác nhân hữu hình

Các nhà phát triển xây dựng các hệ thống vật lý này thường tận dụng Nền tảng Ultralytics để chú thích dữ liệu huấn luyện động và triển khai liền mạch các mô hình AI biên nhẹ trực tiếp lên phần cứng tiêu thụ điện năng thấp.

Dưới đây là một Python Ví dụ minh họa cách một tác nhân robot có thể sử dụng mô hình thị giác để detect Các đối tượng tương tác trong môi trường của nó diễn ra liên tục.

from ultralytics import YOLO

# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")

# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)

# Process the spatial bounding boxes to guide robotic interaction
for r in results:
    print(f"Detected {len(r.boxes)} objects ready for physical interaction.")

Khi các lĩnh vực thiết kế phần cứng và mô hình nhận thức ngày càng hoàn thiện — được dẫn dắt bởi những nỗ lực phối hợp như nghiên cứu về an toàn AI của Anthropiccác mô hình suy luận mới nhất của OpenAI — các hệ thống có hình thể sẽ tiếp tục chuyển từ phòng thí nghiệm nghiên cứu sang môi trường đời thường, như thường được nhấn mạnh trong các bài viết về robot của IEEE Spectrum .

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép