YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Visual SLAM (Định vị và lập bản đồ đồng thời)

Khám phá cách Visual SLAM hỗ trợ việc lập bản đồ tự động. Tìm hiểu cách nâng cao độ chính xác với Ultralytics và triển khai các giải pháp thông qua Nền Ultralytics .

Visual SLAM (Định vị và Lập bản đồ Đồng thời) là một kỹ thuật cốt lõi trong lĩnh vực thị giác máy tính, cho phép một tác nhân (như robot hoặc thiết bị di động) vừa lập bản đồ môi trường chưa biết vừa xác định vị trí của chính mình trong không gian đó chỉ bằng cách sử dụng dữ liệu từ camera. Khác với các hệ thống SLAM truyền thống phụ thuộc vào các cảm biến laser đắt tiền, Visual SLAM tận dụng các camera đơn ống kính, camera stereo hoặc camera RGB-D tiêu chuẩn. Bằng cách trích xuất và theo dõi các đặc trưng hình ảnh trên các khung hình liên tiếp, hệ thống tính toán quỹ đạo của camera đồng thời dần dần xây dựng một đám mây điểm 3D hoặc bản đồ dày đặc của môi trường xung quanh. Công nghệ này là nền tảng để cho phép điều hướng tự động và nhận thức không gian trong các máy móc.

Cách thức hoạt động của Visual SLAM

Một quy trình Visual SLAM điển hình bao gồm hai thành phần chính: phần đầu vào và phần đầu ra. Phần đầu vào xử lý dữ liệu cảm biến, thực hiện việc trích xuất đặc trưng hình ảnh (xác định các góc hoặc cạnh đặc trưng) và so khớp các đặc trưng này giữa các khung hình để ước lượng chuyển động của camera theo thời gian. Phần sau nhận dữ liệu odometry này và thực hiện các thuật toán tối ưu hóa như điều chỉnh bó (bundle adjustment) để khắc phục sai lệch và tinh chỉnh cả bản đồ môi trường lẫn tư thế ước tính của camera.

Những đột phá gần đây vào năm 2024 và 2025 đã chuyển đổi mô hình từ các đặc trưng được xây dựng thủ công truyền thống—như những đặc trưng được sử dụng trong các khung công nghệ cũ như ORB-SLAM3—sang các phương pháp học sâu. Các hệ thống hiện đại hiện nay sử dụng mạng nơ-ron cho dòng quang dày đặc và khớp đặc trưng, giúp chúng có khả năng chống chịu cao trước hiệu ứng mờ chuyển động và môi trường có độ chi tiết thấp. Ngoài ra, các kỹ thuật hiển thị mới kết hợp 3D Gaussian Splatting Neural Radiance Fields (NeRFs) đang cho phép lập bản đồ dày đặc thời gian thực với độ chân thực cao, ghi lại các chi tiết hình học phức tạp tốt hơn nhiều so với đám mây điểm tiêu chuẩn.

SLAM dựa trên hình ảnh so với SLAM dựa trên LiDAR so với theo dõi đối tượng

Việc hiểu rõ sự khác biệt giữa các công nghệ lập bản đồ và theo dõi là điều cần thiết để triển khai giải pháp phù hợp :

  • Visual SLAM so với LiDAR SLAM: Trong khi Visual SLAM dựa vào các cảm biến camera giá rẻ để nhận diện các chi tiết hình ảnh phong phú, thì LiDAR SLAM sử dụng tia laser để đo lường chính xác khoảng cách vật lý. LiDAR có độ chính xác cao nhưng đắt đỏ và tiêu tốn nhiều năng lượng, trong khi Visual SLAM có chi phí hợp lý và cung cấp thông tin về màu sắc, nhưng có thể gặp khó khăn trong điều kiện ánh sáng yếu.
  • Visual SLAM so với Theo dõi đối tượng: Theo dõi đối tượng tách biệt và theo dõi chuyển động của các đối tượng cụ thể qua các khung hình video. Ngược lại, Visual SLAM theo dõi chuyển động của camera so với môi trường tĩnh để xây dựng bản đồ. Tuy nhiên, hai khái niệm này được kết hợp trong Semantic SLAM, nơi các mô hình phát hiện đối tượng xác định các đối tượng động để chủ động loại trừ chúng khỏi bản đồ tĩnh.

Các Ứng dụng Thực tế

Visual SLAM được tích hợp sâu rộng vào các tác nhân AI hiện đại và các hệ thống tính toán không gian.

  • Robot và máy bay không người lái tự động: Robot giao hàng và máy bay không người lái sử dụng công nghệ Visual SLAM để định hướng trong các môi trường không có tín hiệu GPS như kho hàng hoặc các khu vực đô thị chật hẹp. Bằng cách xây dựng bản đồ theo thời gian thực, chúng có thể lập kế hoạch đường đi và tự động tránh chướng ngại vật.
  • Thực tế tăng cường (AR) và Thực tế ảo (VR): Kính thông minh thương mại phụ thuộc rất nhiều vào công nghệ Visual SLAM để hiểu cấu trúc không gian của một căn phòng. Điều này cho phép các hệ thống AR định vị chính xác các đối tượng kỹ thuật số, chẳng hạn như một màn hình ảo, lên các bề mặt vật lý để chúng vẫn ổn định khi người dùng di chuyển.
  • Hệ thống hỗ trợ định vị: Những tiến bộ gần đây trong công nghệ Semantic SLAM dựa trên học sâu đang được ứng dụng để phát triển các thiết bị định vị đeo được dành cho người khiếm thị, giúp đảm bảo việc định tuyến an toàn và theo thời gian thực để tránh các chướng ngại vật vật lý thay đổi liên tục.

Tích hợp SLAM ngữ nghĩa và YOLO26

Một trong những thách thức lớn nhất trong Visual SLAM là xử lý các môi trường động, nơi các vật thể di chuyển làm sai lệch bản đồ. Semantic SLAM giải quyết vấn đề này bằng cách kết hợp quy trình xử lý SLAM truyền thống với các mô hình thị giác tốc độ cao. Bằng cách sử dụng Ultralytics để phân đoạn hoặc phát hiện đối tượng, hệ thống có thể gắn nhãn ngữ nghĩa cho khung cảnh và lọc bỏ các vật thể di chuyển, từ đó cải thiện đáng kể độ chính xác của việc định vị.

Đoạn mã dưới đây minh họa cách sử dụng YOLO26 để xác định tọa độ của các đối tượng động (như người và xe hơi) để chúng có thể được bộ máy so khớp đặc trưng SLAM loại trừ một cách rõ ràng:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Bằng cách tận dụng các thiết bị phần cứng AI tiên tiến như NVIDIA và tích hợp các mô hình thông qua Ultralytics , các nhà phát triển có thể huấn luyện và triển khai các thuật toán thị giác nhẹ ngay trong các quy trình SLAM. Để tìm hiểu sâu hơn về các kiến trúc lập bản đồ tự động, hãy tham khảo các tài liệu mới nhất trên IEEE Xplore hoặc arXiv, đồng thời khám phá cách tối ưu hóa các quy trình thị giác liên tục trong Ultralytics .

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy