Spatial Intelligence
Khám phá cách trí tuệ không gian (spatial intelligence) cho phép AI nhận thức và điều hướng thế giới 3D. Tìm hiểu cách xây dựng các hệ thống nhận thức không gian với Ultralytics YOLO26 và Ultralytics Platform.
Trí tuệ không gian đề cập đến khả năng của một hệ thống trí tuệ nhân tạo trong việc nhận thức, thấu hiểu và điều hướng thế giới vật lý trong không gian ba chiều. Không giống như thị giác máy tính truyền thống, vốn thường phân tích hình ảnh 2D dưới dạng các ảnh chụp tĩnh, trí tuệ không gian bao gồm việc suy luận về chiều sâu, hình học, chuyển động và các mối quan hệ giữa các đối tượng trong một môi trường năng động. Nó trao quyền cho máy móc không chỉ "nhìn thấy" các điểm ảnh mà còn nắm bắt được ngữ cảnh vật lý của một khung cảnh, cho phép chúng tương tác với thế giới thực một cách hiệu quả hơn. Khả năng này là cầu nối giữa dữ liệu hình ảnh kỹ thuật số và hành động vật lý, đóng vai trò là nền tảng cho các AI agents tiên tiến và các hệ thống robot.
Link to this sectionCác thành phần cốt lõi của Trí tuệ không gian#
Để đạt được sự hiểu biết về không gian giống như con người, một hệ thống AI dựa vào một số công nghệ và khái niệm liên kết với nhau.
- Nhận thức chiều sâu và Tái tạo 3D: Các hệ thống phải chuyển đổi đầu vào 2D từ camera thành các biểu diễn 3D. Các kỹ thuật như monocular depth estimation cho phép các mô hình dự đoán khoảng cách từ một hình ảnh đơn lẻ, trong khi 3D object detection giúp xác định thể tích và hướng của các vật phẩm trong không gian đó.
- SLAM (Simultaneous Localization and Mapping): Kỹ thuật này cho phép một thiết bị, chẳng hạn như robot hoặc drone, lập bản đồ một môi trường chưa biết trong khi vẫn theo dõi vị trí của chính nó trong đó. Các phương pháp tiếp cận hiện đại thường tích hợp visual SLAM với học sâu (deep learning) để cải thiện độ bền bỉ trong các điều kiện ánh sáng thay đổi.
- Suy luận hình học: Ngoài việc phát hiện, hệ thống phải hiểu các ràng buộc vật lý—biết rằng một chiếc cốc nằm trên bàn hoặc rằng một cánh cửa phải được mở ra để đi qua. Việc này thường liên quan đến pose estimation để theo dõi hướng của các đối tượng hoặc các khớp cơ thể người trong thời gian thực.
- Embodied AI: Khái niệm này liên kết nhận thức với hành động. Một tác nhân thể hiện (embodied agent) không chỉ quan sát; nó sử dụng dữ liệu không gian để lập kế hoạch di chuyển, tránh vật cản và thao tác với các đối tượng, tương tự như cách AI in robotics vận hành trên sàn sản xuất.
Link to this sectionCác ứng dụng trong thực tế#
Trí tuệ không gian đang thay đổi các ngành công nghiệp bằng cách cho phép máy móc vận hành tự chủ trong các môi trường phức tạp.
- Autonomous Robotics and Logistics: In warehousing, robots use spatial intelligence to navigate crowded aisles, identify specific packages using object detection, and place them precisely onto conveyors. They must calculate the spatial relationship between their gripper and the box to ensure a secure hold without crushing the item.
- Thực tế tăng cường (AR) và Thực tế hỗn hợp (Mixed Reality): Các thiết bị như kính thông minh sử dụng điện toán không gian để neo nội dung kỹ thuật số vào thế giới vật lý. Ví dụ, một ứng dụng bảo trì AR có thể phủ các hướng dẫn sửa chữa trực tiếp lên một bộ phận động cơ cụ thể. Điều này đòi hỏi object tracking chính xác để đảm bảo đồ họa giữ nguyên vị trí khi người dùng di chuyển đầu.
Link to this sectionTrí tuệ không gian so với Thị giác máy tính#
Mặc dù có liên quan chặt chẽ, việc phân biệt giữa spatial intelligence vs. computer vision là rất hữu ích. Computer Vision là lĩnh vực rộng hơn tập trung vào việc trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào thị giác khác. Nó bao gồm các tác vụ như phân loại hoặc phát hiện 2D cơ bản. Spatial Intelligence là một tập hợp con chuyên biệt hoặc sự tiến hóa của thị giác máy tính, cụ thể là bổ sung thêm chiều không gian và vật lý. Nó chuyển từ câu hỏi "Đây là vật gì?" (Thị giác) sang "Vật này ở đâu, hướng như thế nào và làm sao để tôi có thể tương tác với nó?" (Trí tuệ không gian).
Link to this sectionTriển khai Nhận thức không gian với Ultralytics#
Các nhà phát triển có thể xây dựng nền tảng của các hệ thống trí tuệ không gian bằng cách sử dụng Ultralytics Platform. Bằng cách huấn luyện các mô hình như Ultralytics YOLO26 cho các tác vụ như phát hiện Oriented Bounding Box (OBB) hoặc ước tính tư thế (pose estimation), các kỹ sư có thể cung cấp dữ liệu hình học cần thiết cho các ứng dụng robot hoặc AR ở hạ nguồn.
Dưới đây là một ví dụ đơn giản về việc trích xuất các điểm chính (keypoints) không gian bằng cách sử dụng mô hình ước tính tư thế, một bước quan trọng để hiểu chuyển động của con người trong không gian 3D:
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")
# Access the keypoints (x, y coordinates and confidence)
for result in results:
# keypoints.xy returns a tensor of shape (N, 17, 2)
keypoints = result.keypoints.xy
print(f"Detected keypoints for {len(keypoints)} persons.")Những tiến bộ gần đây trong Vision Transformers (ViT) và foundation models đang thúc đẩy lĩnh vực này hơn nữa, cho phép các hệ thống khái quát hóa sự hiểu biết về không gian trên các môi trường khác nhau mà không cần huấn luyện lại quá mức. Khi các nghiên cứu từ các nhóm như Stanford's HAI và Google DeepMind tiếp tục phát triển, chúng ta có thể kỳ vọng trí tuệ không gian sẽ trở thành một tính năng tiêu chuẩn trong thế hệ thiết bị thông minh tiếp theo.






