Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trí tuệ không gian

Khám phá cách trí tuệ không gian giúp AI nhận thức và điều hướng thế giới 3D. Tìm hiểu cách xây dựng các hệ thống nhận biết không gian với... Ultralytics YOLO26 và Ultralytics Nền tảng.

Trí tuệ không gian đề cập đến khả năng của một hệ thống trí tuệ nhân tạo trong việc nhận thức, hiểu và điều hướng thế giới vật lý trong không gian ba chiều. Không giống như thị giác máy tính truyền thống, thường phân tích hình ảnh 2D dưới dạng ảnh tĩnh, trí tuệ không gian liên quan đến việc suy luận về độ sâu, hình học, chuyển động và mối quan hệ giữa các đối tượng trong một môi trường năng động. Nó cho phép máy móc không chỉ "nhìn" các điểm ảnh mà còn hiểu được bối cảnh vật lý của một cảnh, giúp chúng tương tác với thế giới thực hiệu quả hơn. Khả năng này là cầu nối giữa dữ liệu hình ảnh kỹ thuật số và hành động vật lý, đóng vai trò là nền tảng cho các tác nhân AI tiên tiến và hệ thống robot.

Các thành phần cốt lõi của trí thông minh không gian

Để đạt được sự hiểu biết về không gian giống như con người, hệ thống trí tuệ nhân tạo dựa trên nhiều công nghệ và khái niệm liên kết với nhau.

  • Nhận thức chiều sâu và tái tạo 3D: Các hệ thống phải chuyển đổi đầu vào 2D từ camera thành biểu diễn 3D. Các kỹ thuật như ước lượng chiều sâu đơn ảnh cho phép các mô hình dự đoán khoảng cách từ một hình ảnh duy nhất, trong khi phát hiện vật thể 3D giúp xác định thể tích và hướng của các vật thể trong không gian đó.
  • SLAM (Định vị và Lập bản đồ đồng thời): Công nghệ này cho phép thiết bị, chẳng hạn như robot hoặc máy bay không người lái, lập bản đồ môi trường chưa biết trong khi vẫn giữ được khả năng định vị và lập bản đồ đồng thời. track về vị trí của chính nó bên trong đó. Các phương pháp hiện đại thường tích hợp SLAM thị giác với học sâu để cải thiện khả năng chống chịu trong điều kiện ánh sáng thay đổi.
  • Suy luận hình học: Ngoài việc phát hiện, hệ thống phải hiểu các ràng buộc vật lý—biết rằng một chiếc cốc đang đặt trên bàn hoặc một cánh cửa phải được mở để đi qua. Điều này thường liên quan đến việc ước lượng tư thế . track Định hướng của các vật thể hoặc khớp xương người trong thời gian thực.
  • Trí tuệ nhân tạo thể hiện (Embodied AI): Khái niệm này liên kết nhận thức với hành động. Một tác nhân thể hiện không chỉ quan sát; nó sử dụng dữ liệu không gian để lập kế hoạch di chuyển, tránh chướng ngại vật và thao tác các đối tượng, tương tự như cách trí tuệ nhân tạo trong robot hoạt động trên dây chuyền sản xuất.

Các Ứng dụng Thực tế

Trí tuệ không gian đang làm thay đổi các ngành công nghiệp bằng cách cho phép máy móc hoạt động tự chủ trong môi trường phức tạp.

  • Robot tự hành và hậu cần: Trong kho bãi, robot sử dụng trí thông minh không gian để di chuyển trong các lối đi chật hẹp, nhận diện các kiện hàng cụ thể bằng cách phát hiện vật thể và đặt chúng chính xác lên băng chuyền. Chúng phải tính toán mối quan hệ không gian giữa bộ phận kẹp và thùng hàng để đảm bảo giữ chắc chắn mà không làm hư hỏng sản phẩm.
  • Thực tế tăng cường (AR) và Thực tế hỗn hợp: Các thiết bị như kính thông minh sử dụng điện toán không gian để liên kết nội dung kỹ thuật số với thế giới vật lý. Ví dụ, một ứng dụng bảo trì AR có thể hiển thị hướng dẫn sửa chữa trực tiếp lên một bộ phận cụ thể của động cơ. Điều này đòi hỏi khả năng theo dõi đối tượng chính xác để đảm bảo đồ họa luôn được căn chỉnh khi người dùng di chuyển đầu.

Trí tuệ không gian so với thị giác máy tính

Mặc dù có mối liên hệ mật thiết, nhưng việc phân biệt trí tuệ không gian với thị giác máy tính là rất hữu ích. Thị giác máy tính là lĩnh vực rộng hơn, tập trung vào việc trích xuất thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào hình ảnh khác. Nó bao gồm các nhiệm vụ như phân loại hoặc phát hiện 2D cơ bản. Trí tuệ không gian là một tập hợp con chuyên biệt hoặc sự phát triển của thị giác máy tính, bổ sung thêm chiều không gianvật lý . Nó chuyển từ câu hỏi "Đối tượng này là gì?" (Thị giác) sang "Đối tượng này ở đâu, nó được định hướng như thế nào và tôi có thể tương tác với nó ra sao?" (Trí tuệ không gian).

Ứng dụng nhận thức không gian với Ultralytics

Các nhà phát triển có thể xây dựng nền tảng của các hệ thống trí tuệ không gian bằng cách sử dụng Nền tảng Ultralytics . Bằng cách huấn luyện các mô hình như Ultralytics YOLO26 trên các tác vụ như phát hiện Hộp giới hạn định hướng (OBB) hoặc ước tính tư thế, các kỹ sư có thể cung cấp dữ liệu hình học cần thiết cho các ứng dụng robot hoặc AR tiếp theo.

Dưới đây là một ví dụ đơn giản về việc trích xuất các điểm mấu chốt không gian bằng cách sử dụng mô hình ước lượng tư thế, đây là một bước quan trọng trong việc hiểu chuyển động của con người trong không gian 3D:

from ultralytics import YOLO

# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect human keypoints
results = model("path/to/image.jpg")

# Access the keypoints (x, y coordinates and confidence)
for result in results:
    # keypoints.xy returns a tensor of shape (N, 17, 2)
    keypoints = result.keypoints.xy
    print(f"Detected keypoints for {len(keypoints)} persons.")

Những tiến bộ gần đây trong Vision Transformers (ViT)các mô hình nền tảng đang thúc đẩy hơn nữa lĩnh vực này, cho phép các hệ thống khái quát hóa khả năng hiểu biết không gian trên các môi trường khác nhau mà không cần đào tạo lại nhiều. Khi các nghiên cứu từ các nhóm như HAI của StanfordDeepMind Google tiếp tục, chúng ta có thể kỳ vọng trí tuệ không gian sẽ trở thành một tính năng tiêu chuẩn trong thế hệ thiết bị thông minh tiếp theo.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay