Khám phá cách trí tuệ không gian giúp AI nhận thức và điều hướng thế giới 3D. Tìm hiểu cách xây dựng các hệ thống nhận biết không gian với... Ultralytics YOLO26 và Ultralytics Nền tảng.
Trí tuệ không gian đề cập đến khả năng của một hệ thống trí tuệ nhân tạo trong việc nhận thức, hiểu và điều hướng thế giới vật lý trong không gian ba chiều. Không giống như thị giác máy tính truyền thống, thường phân tích hình ảnh 2D dưới dạng ảnh tĩnh, trí tuệ không gian liên quan đến việc suy luận về độ sâu, hình học, chuyển động và mối quan hệ giữa các đối tượng trong một môi trường năng động. Nó cho phép máy móc không chỉ "nhìn" các điểm ảnh mà còn hiểu được bối cảnh vật lý của một cảnh, giúp chúng tương tác với thế giới thực hiệu quả hơn. Khả năng này là cầu nối giữa dữ liệu hình ảnh kỹ thuật số và hành động vật lý, đóng vai trò là nền tảng cho các tác nhân AI tiên tiến và hệ thống robot.
Để đạt được sự hiểu biết về không gian giống như con người, hệ thống trí tuệ nhân tạo dựa trên nhiều công nghệ và khái niệm liên kết với nhau.
Trí tuệ không gian đang làm thay đổi các ngành công nghiệp bằng cách cho phép máy móc hoạt động tự chủ trong môi trường phức tạp.
Mặc dù có mối liên hệ mật thiết, nhưng việc phân biệt trí tuệ không gian với thị giác máy tính là rất hữu ích. Thị giác máy tính là lĩnh vực rộng hơn, tập trung vào việc trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào hình ảnh khác. Nó bao gồm các nhiệm vụ như phân loại hoặc phát hiện 2D cơ bản. Trí tuệ không gian là một tập hợp con chuyên biệt hoặc sự phát triển của thị giác máy tính, bổ sung thêm chiều không gian và vật lý . Nó chuyển từ câu hỏi "Đối tượng này là gì?" (Thị giác) sang "Đối tượng này ở đâu, nó được định hướng như thế nào và tôi có thể tương tác với nó ra sao?" (Trí tuệ không gian).
Các nhà phát triển có thể xây dựng nền tảng của các hệ thống trí tuệ không gian bằng cách sử dụng Nền tảng Ultralytics . Bằng cách huấn luyện các mô hình như Ultralytics YOLO26 trên các tác vụ như phát hiện Hộp giới hạn định hướng (OBB) hoặc ước tính tư thế, các kỹ sư có thể cung cấp dữ liệu hình học cần thiết cho các ứng dụng robot hoặc AR tiếp theo.
Dưới đây là một ví dụ đơn giản về việc trích xuất các điểm mấu chốt không gian bằng cách sử dụng mô hình ước lượng tư thế, đây là một bước quan trọng trong việc hiểu chuyển động của con người trong không gian 3D:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")
Những tiến bộ gần đây trong Vision Transformers (ViT) và các mô hình nền tảng đang thúc đẩy hơn nữa lĩnh vực này, cho phép các hệ thống khái quát hóa khả năng hiểu biết không gian trên các môi trường khác nhau mà không cần đào tạo lại nhiều. Khi các nghiên cứu từ các nhóm như HAI của Stanford và DeepMind Google tiếp tục, chúng ta có thể kỳ vọng trí tuệ không gian sẽ trở thành một tính năng tiêu chuẩn trong thế hệ thiết bị thông minh tiếp theo.