Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

SLAM visivo (localizzazione e mappatura simultanee)

Scopri come il Visual SLAM consente la mappatura autonoma. Impara a migliorare la precisione con Ultralytics e a implementare soluzioni tramite la Ultralytics .

Il Visual SLAM (Simultaneous Localization and Mapping) è una tecnica fondamentale della visione artificiale che consente a un agente, come un robot o un dispositivo mobile, di mappare simultaneamente un ambiente sconosciuto e determinare la propria posizione all'interno di quello spazio utilizzando esclusivamente i dati provenienti dalla telecamera. A differenza dei sistemi SLAM tradizionali che si basano su costosi sensori laser , il Visual SLAM utilizza telecamere standard monoculari, stereo o RGB-D. Estrapolando e tracciando le caratteristiche visive attraverso fotogrammi consecutivi, il sistema calcola la traiettoria della telecamera mentre costruisce progressivamente una nuvola di punti 3D o una mappa densa dell'ambiente circostante. Questa tecnologia è fondamentale per consentire la navigazione autonoma e la consapevolezza spaziale nelle macchine.

Come funziona il Visual SLAM

Una tipica pipeline Visual SLAM è costituita da due componenti principali: il front-end e il back-end. Il front-end gestisce i dati dei sensori, eseguendo l'estrazione delle caratteristiche visive (identificando angoli o spigoli distinti) e confrontando tali caratteristiche tra i fotogrammi per stimare il movimento della telecamera nel tempo. Il back-end prende questi dati di odometria ed esegue algoritmi di ottimizzazione come il bundle adjustment per correggere la deriva e perfezionare sia la mappa dell'ambiente che la posizione stimata della telecamera.

I recenti progressi compiuti nel 2024 e nel 2025 hanno determinato un cambiamento di paradigma, passando dalle tradizionali caratteristiche definite manualmente — come quelle utilizzate in framework legacy quali ORB-SLAM3— agli approcci basati sul deep learning. I sistemi moderni ora utilizzano reti neurali per il flusso ottico denso e la corrispondenza delle caratteristiche, rendendoli altamente resistenti alla sfocatura da movimento e agli ambienti con texture scarse. Inoltre, nuove tecniche di rendering che incorporano il 3D Gaussian Splatting e i Neural Radiance Fields (NeRF) stanno consentendo una mappatura densa fotorealistica in tempo reale che cattura dettagli geometrici intricati molto meglio delle nubi di punti standard.

SLAM visivo vs. SLAM LiDAR vs. tracciamento degli oggetti

Comprendere le differenze tra le tecnologie di mappatura e quelle di tracciamento è fondamentale per implementare la soluzione giusta :

  • SLAM visivo vs. SLAM LiDAR: mentre lo SLAM visivo si avvale di sensori fotografici economici per rilevare texture visive dettagliate, lo SLAM LiDAR utilizza raggi laser per misurare con precisione le distanze fisiche. Il LiDAR è estremamente preciso ma costoso e consuma molta energia, mentre lo SLAM visivo è economico e fornisce informazioni sul colore, ma può incontrare difficoltà in condizioni di scarsa illuminazione.
  • Visual SLAM e tracciamento degli oggetti: Il tracciamento degli oggetti individua e segue il movimento di entità specifiche nei fotogrammi video. Il Visual SLAM, invece, traccia il movimento della telecamera rispetto all'ambiente statico per costruire una mappa. Tuttavia, i due concetti si fondono nel Semantic SLAM, dove i modelli di rilevamento degli oggetti identificano gli oggetti dinamici per escluderli intenzionalmente dalla mappa statica.

Applicazioni nel mondo reale

Il Visual SLAM è profondamente integrato nei moderni agenti di intelligenza artificiale e nei sistemi di elaborazione spaziale.

  • Robotica e droni autonomi: I robot e i droni per le consegne utilizzano la tecnologia Visual SLAM per orientarsi in ambienti privi di segnale GPS, come i magazzini o i quartieri urbani densamente edificati. Grazie alla creazione di mappe in tempo reale, sono in grado di pianificare il percorso ed evitare gli ostacoli in modo autonomo.
  • Realtà aumentata (AR) e realtà virtuale (VR): Gli occhiali intelligenti disponibili in commercio si avvalgono in larga misura della tecnologia Visual SLAM per comprendere la geometria di una stanza. Ciò consente ai sistemi AR di posizionare con precisione oggetti digitali, come ad esempio un monitor virtuale, su superfici fisiche, in modo che rimangano stabili mentre l'utente si sposta.
  • Sistemi di navigazione assistita: i recenti sviluppi nel campo del SLAM semantico basato sul deep learning vengono utilizzati per creare dispositivi di navigazione indossabili destinati alle persone ipovedenti, garantendo percorsi sicuri e in tempo reale che aggirano gli ostacoli fisici dinamici.

SLAM semantico e integrazione con YOLO26

Una delle sfide principali del Visual SLAM consiste nel gestire ambienti dinamici in cui gli oggetti in movimento compromettono la mappa. Il Semantic SLAM risolve questo problema combinando la pipeline SLAM tradizionale con modelli di visione ad alta velocità. Utilizzando Ultralytics per la segmentazione o il rilevamento degli oggetti, il sistema è in grado di etichettare semanticamente la scena ed escludere gli oggetti in movimento, migliorando notevolmente la precisione della localizzazione.

Il blocco di codice riportato di seguito mostra come utilizzare YOLO26 per identificare le coordinate di oggetti in movimento (come persone e auto), in modo che possano essere esplicitamente ignorati dal motore di corrispondenza delle caratteristiche SLAM:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Sfruttando i moderni dispositivi hardware di intelligenza artificiale per l'edge computing, come NVIDIA , e integrando i modelli tramite la Ultralytics , gli sviluppatori possono addestrare e implementare algoritmi di visione leggeri direttamente all'interno delle pipeline SLAM. Per approfondire le architetture di mappatura autonoma, si rimanda alla letteratura recente su IEEE Xplore o arXiv e si consiglia di consultare Ultralytics per scoprire come ottimizzare le pipeline di visione continue.

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning