Visual SLAM (Simultaneous Localization and Mapping)
Khám phá cách Visual SLAM cho phép lập bản đồ tự hành. Tìm hiểu cách nâng cao độ chính xác với Ultralytics YOLO26 và triển khai các giải pháp thông qua Ultralytics Platform.
Visual SLAM (Simultaneous Localization and Mapping - Định vị và Lập bản đồ đồng thời) là một kỹ thuật thị giác máy tính cốt lõi cho phép một tác nhân, chẳng hạn như robot hoặc thiết bị di động, vừa lập bản đồ một môi trường không xác định vừa xác định vị trí của chính nó trong không gian đó chỉ bằng dữ liệu đầu vào từ camera. Khác với các hệ thống SLAM truyền thống phụ thuộc vào các cảm biến laser đắt tiền, Visual SLAM tận dụng các loại camera monocular (đơn mắt), stereo (đa mắt) hoặc RGB-D tiêu chuẩn. Bằng cách trích xuất và theo dõi các đặc trưng thị giác qua các khung hình liên tiếp, hệ thống sẽ tính toán quỹ đạo của camera trong khi dần dần xây dựng một đám mây điểm 3D hoặc bản đồ dày đặc của môi trường xung quanh. Công nghệ này là nền tảng để kích hoạt khả năng điều hướng tự động và nhận thức không gian trong máy móc.
Link to this sectionCách thức hoạt động của Visual SLAM#
Một pipeline Visual SLAM điển hình bao gồm hai thành phần chính: front-end (đầu trước) và back-end (đầu sau). Front-end xử lý dữ liệu cảm biến, thực hiện trích xuất đặc trưng thị giác (nhận diện các góc hoặc cạnh khác biệt) và khớp các đặc trưng này giữa các khung hình để ước tính chuyển động của camera theo thời gian. Back-end lấy dữ liệu odometry này và thực hiện các thuật toán tối ưu hóa như bundle adjustment để hiệu chỉnh độ lệch (drift) và tinh chỉnh cả bản đồ môi trường lẫn tư thế ước tính của camera.
Những bước đột phá gần đây trong năm 2024 và 2025 đã chuyển đổi mô hình từ các đặc trưng thủ công truyền thống—như những đặc trưng được sử dụng trong các framework cũ như ORB-SLAM3—sang các phương pháp deep learning. Các hệ thống hiện đại ngày nay sử dụng neural networks để thực hiện luồng quang học (optical flow) dày đặc và khớp đặc trưng, giúp chúng có khả năng chống chịu cao với motion blur và các môi trường có kết cấu thấp. Ngoài ra, các kỹ thuật kết xuất mới kết hợp 3D Gaussian Splatting và Neural Radiance Fields (NeRFs) đang cho phép lập bản đồ dày đặc, chân thực ở thời gian thực, ghi lại các chi tiết hình học phức tạp tốt hơn nhiều so với các đám mây điểm tiêu chuẩn.
Link to this sectionVisual SLAM so với LiDAR SLAM và Theo dõi đối tượng#
Việc hiểu rõ sự khác biệt giữa các công nghệ lập bản đồ và theo dõi là điều cần thiết để triển khai giải pháp phù hợp:
- Visual SLAM so với LiDAR SLAM: Trong khi Visual SLAM dựa vào các cảm biến camera không đắt tiền để nhận diện kết cấu thị giác phong phú, thì LiDAR SLAM sử dụng các tia laser để đo khoảng cách vật lý một cách chính xác. LiDAR có độ chính xác rất cao nhưng đắt đỏ và tiêu tốn năng lượng, trong khi Visual SLAM mang lại hiệu quả về chi phí và cung cấp thông tin màu sắc nhưng có thể gặp khó khăn trong điều kiện ánh sáng yếu.
- Visual SLAM so với Theo dõi đối tượng: Theo dõi đối tượng cô lập và theo sát chuyển động của các thực thể cụ thể qua các khung hình video. Ngược lại, Visual SLAM theo dõi chuyển động của camera so với môi trường tĩnh để xây dựng bản đồ. Tuy nhiên, hai khái niệm này kết hợp trong Semantic SLAM, nơi các mô hình object detection nhận diện các đối tượng động để cố tình loại bỏ chúng khỏi bản đồ tĩnh.
Link to this sectionCác ứng dụng trong thực tế#
Visual SLAM được tích hợp sâu vào các AI agents hiện đại và các hệ thống tính toán không gian.
- Robotics và Drone tự động: Robot giao hàng và drone sử dụng Visual SLAM để điều hướng trong các môi trường không có GPS như kho bãi hoặc hẻm núi đô thị dày đặc. Bằng cách xây dựng bản đồ thời gian thực, chúng có thể lập kế hoạch đường đi và tránh chướng ngại vật một cách tự động.
- Thực tế tăng cường (AR) và Thực tế ảo (VR): Kính thông minh thương mại phụ thuộc rất nhiều vào Visual SLAM để hiểu hình học của căn phòng. Điều này cho phép các hệ thống AR neo giữ chính xác các đối tượng kỹ thuật số, chẳng hạn như một màn hình ảo, lên các bề mặt vật lý để chúng giữ nguyên vị trí khi người dùng di chuyển.
- Hệ thống điều hướng hỗ trợ: Những phát triển gần đây trong Semantic SLAM dựa trên deep learning đang được sử dụng để tạo ra các thiết bị hỗ trợ điều hướng đeo được cho người khiếm thị, đảm bảo lộ trình an toàn, thời gian thực xung quanh các chướng ngại vật vật lý động.
Link to this sectionTích hợp Semantic SLAM và YOLO26#
Một trong những thách thức lớn nhất trong Visual SLAM là xử lý các môi trường động nơi các đối tượng di chuyển làm hỏng bản đồ. Semantic SLAM giải quyết vấn đề này bằng cách kết hợp pipeline SLAM truyền thống với các mô hình thị giác tốc độ cao. Bằng cách sử dụng Ultralytics YOLO26 cho instance segmentation hoặc detection, hệ thống có thể dán nhãn ngữ nghĩa cho cảnh quan và loại bỏ các đối tượng di chuyển, cải thiện đáng kể độ chính xác của việc định vị.
Đoạn mã dưới đây minh họa cách sử dụng YOLO26 để xác định tọa độ của các đối tượng động (như người và xe cộ) để chúng có thể bị bỏ qua một cách rõ ràng bởi engine khớp đặc trưng SLAM:
from ultralytics import YOLO
# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")
# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
if int(box.cls) in [0, 2]: # Example: Class 0 is person, Class 2 is car
print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")Bằng cách tận dụng phần cứng edge AI hiện đại như NVIDIA Jetson và tích hợp các mô hình thông qua Ultralytics Platform, các nhà phát triển có thể huấn luyện và triển khai các thuật toán thị giác nhẹ ngay cùng với các pipeline SLAM. Để tìm hiểu thêm về các kiến trúc lập bản đồ tự động, hãy tham khảo các tài liệu gần đây trên IEEE Xplore hoặc arXiv, và khám phá cách tối ưu hóa các pipeline thị giác liên tục trong tài liệu của Ultralytics.






