Scopri come il Visual SLAM consente la mappatura autonoma. Impara a migliorare la precisione con Ultralytics e a implementare soluzioni tramite la Ultralytics .
Il Visual SLAM (Simultaneous Localization and Mapping) è una tecnica fondamentale della visione artificiale che consente a un agente, come un robot o un dispositivo mobile, di mappare simultaneamente un ambiente sconosciuto e determinare la propria posizione all'interno di quello spazio utilizzando esclusivamente i dati provenienti dalla telecamera. A differenza dei sistemi SLAM tradizionali che si basano su costosi sensori laser , il Visual SLAM utilizza telecamere standard monoculari, stereo o RGB-D. Estrapolando e tracciando le caratteristiche visive attraverso fotogrammi consecutivi, il sistema calcola la traiettoria della telecamera mentre costruisce progressivamente una nuvola di punti 3D o una mappa densa dell'ambiente circostante. Questa tecnologia è fondamentale per consentire la navigazione autonoma e la consapevolezza spaziale nelle macchine.
Una tipica pipeline Visual SLAM è costituita da due componenti principali: il front-end e il back-end. Il front-end gestisce i dati dei sensori, eseguendo l'estrazione delle caratteristiche visive (identificando angoli o spigoli distinti) e confrontando tali caratteristiche tra i fotogrammi per stimare il movimento della telecamera nel tempo. Il back-end prende questi dati di odometria ed esegue algoritmi di ottimizzazione come il bundle adjustment per correggere la deriva e perfezionare sia la mappa dell'ambiente che la posizione stimata della telecamera.
I recenti progressi compiuti nel 2024 e nel 2025 hanno determinato un cambiamento di paradigma, passando dalle tradizionali caratteristiche definite manualmente — come quelle utilizzate in framework legacy quali ORB-SLAM3— agli approcci basati sul deep learning. I sistemi moderni ora utilizzano reti neurali per il flusso ottico denso e la corrispondenza delle caratteristiche, rendendoli altamente resistenti alla sfocatura da movimento e agli ambienti con texture scarse. Inoltre, nuove tecniche di rendering che incorporano il 3D Gaussian Splatting e i Neural Radiance Fields (NeRF) stanno consentendo una mappatura densa fotorealistica in tempo reale che cattura dettagli geometrici intricati molto meglio delle nubi di punti standard.
Comprendere le differenze tra le tecnologie di mappatura e quelle di tracciamento è fondamentale per implementare la soluzione giusta :
Il Visual SLAM è profondamente integrato nei moderni agenti di intelligenza artificiale e nei sistemi di elaborazione spaziale.
Una delle sfide principali del Visual SLAM consiste nel gestire ambienti dinamici in cui gli oggetti in movimento compromettono la mappa. Il Semantic SLAM risolve questo problema combinando la pipeline SLAM tradizionale con modelli di visione ad alta velocità. Utilizzando Ultralytics per la segmentazione o il rilevamento degli oggetti, il sistema è in grado di etichettare semanticamente la scena ed escludere gli oggetti in movimento, migliorando notevolmente la precisione della localizzazione.
Il blocco di codice riportato di seguito mostra come utilizzare YOLO26 per identificare le coordinate di oggetti in movimento (come persone e auto), in modo che possano essere esplicitamente ignorati dal motore di corrispondenza delle caratteristiche SLAM:
from ultralytics import YOLO
# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")
# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
if int(box.cls) in [0, 2]: # Example: Class 0 is person, Class 2 is car
print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")
Sfruttando i moderni dispositivi hardware di intelligenza artificiale per l'edge computing, come NVIDIA , e integrando i modelli tramite la Ultralytics , gli sviluppatori possono addestrare e implementare algoritmi di visione leggeri direttamente all'interno delle pipeline SLAM. Per approfondire le architetture di mappatura autonoma, si rimanda alla letteratura recente su IEEE Xplore o arXiv e si consiglia di consultare Ultralytics per scoprire come ottimizzare le pipeline di visione continue.
Inizia il tuo viaggio con il futuro del machine learning