Khám phá cách Visual SLAM hỗ trợ việc lập bản đồ tự động. Tìm hiểu cách nâng cao độ chính xác với Ultralytics và triển khai các giải pháp thông qua Nền Ultralytics .
Visual SLAM (Định vị và Lập bản đồ Đồng thời) là một kỹ thuật cốt lõi trong lĩnh vực thị giác máy tính, cho phép một tác nhân (như robot hoặc thiết bị di động) vừa lập bản đồ môi trường chưa biết vừa xác định vị trí của chính mình trong không gian đó chỉ bằng cách sử dụng dữ liệu từ camera. Khác với các hệ thống SLAM truyền thống phụ thuộc vào các cảm biến laser đắt tiền, Visual SLAM tận dụng các camera đơn ống kính, camera stereo hoặc camera RGB-D tiêu chuẩn. Bằng cách trích xuất và theo dõi các đặc trưng hình ảnh trên các khung hình liên tiếp, hệ thống tính toán quỹ đạo của camera đồng thời dần dần xây dựng một đám mây điểm 3D hoặc bản đồ dày đặc của môi trường xung quanh. Công nghệ này là nền tảng để cho phép điều hướng tự động và nhận thức không gian trong các máy móc.
Một quy trình Visual SLAM điển hình bao gồm hai thành phần chính: phần đầu vào và phần đầu ra. Phần đầu vào xử lý dữ liệu cảm biến, thực hiện việc trích xuất đặc trưng hình ảnh (xác định các góc hoặc cạnh đặc trưng) và so khớp các đặc trưng này giữa các khung hình để ước lượng chuyển động của camera theo thời gian. Phần sau nhận dữ liệu odometry này và thực hiện các thuật toán tối ưu hóa như điều chỉnh bó (bundle adjustment) để khắc phục sai lệch và tinh chỉnh cả bản đồ môi trường lẫn tư thế ước tính của camera.
Những đột phá gần đây vào năm 2024 và 2025 đã chuyển đổi mô hình từ các đặc trưng được xây dựng thủ công truyền thống—như những đặc trưng được sử dụng trong các khung công nghệ cũ như ORB-SLAM3—sang các phương pháp học sâu. Các hệ thống hiện đại hiện nay sử dụng mạng nơ-ron cho dòng quang dày đặc và khớp đặc trưng, giúp chúng có khả năng chống chịu cao trước hiệu ứng mờ chuyển động và môi trường có độ chi tiết thấp. Ngoài ra, các kỹ thuật hiển thị mới kết hợp 3D Gaussian Splatting và Neural Radiance Fields (NeRFs) đang cho phép lập bản đồ dày đặc thời gian thực với độ chân thực cao, ghi lại các chi tiết hình học phức tạp tốt hơn nhiều so với đám mây điểm tiêu chuẩn.
Việc hiểu rõ sự khác biệt giữa các công nghệ lập bản đồ và theo dõi là điều cần thiết để triển khai giải pháp phù hợp :
Visual SLAM được tích hợp sâu rộng vào các tác nhân AI hiện đại và các hệ thống tính toán không gian.
Một trong những thách thức lớn nhất trong Visual SLAM là xử lý các môi trường động, nơi các vật thể di chuyển làm sai lệch bản đồ. Semantic SLAM giải quyết vấn đề này bằng cách kết hợp quy trình xử lý SLAM truyền thống với các mô hình thị giác tốc độ cao. Bằng cách sử dụng Ultralytics để phân đoạn hoặc phát hiện đối tượng, hệ thống có thể gắn nhãn ngữ nghĩa cho khung cảnh và lọc bỏ các vật thể di chuyển, từ đó cải thiện đáng kể độ chính xác của việc định vị.
Đoạn mã dưới đây minh họa cách sử dụng YOLO26 để xác định tọa độ của các đối tượng động (như người và xe hơi) để chúng có thể được bộ máy so khớp đặc trưng SLAM loại trừ một cách rõ ràng:
from ultralytics import YOLO
# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")
# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
if int(box.cls) in [0, 2]: # Example: Class 0 is person, Class 2 is car
print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")
Bằng cách tận dụng các thiết bị phần cứng AI tiên tiến như NVIDIA và tích hợp các mô hình thông qua Ultralytics , các nhà phát triển có thể huấn luyện và triển khai các thuật toán thị giác nhẹ ngay trong các quy trình SLAM. Để tìm hiểu sâu hơn về các kiến trúc lập bản đồ tự động, hãy tham khảo các tài liệu mới nhất trên IEEE Xplore hoặc arXiv, đồng thời khám phá cách tối ưu hóa các quy trình thị giác liên tục trong Ultralytics .
Bắt đầu hành trình của bạn với tương lai của học máy