Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

SLAM visual (Localização e Mapeamento Simultâneos)

Descubra como o Visual SLAM permite o mapeamento autónomo. Aprenda a melhorar a precisão com Ultralytics e a implementar soluções através da Ultralytics .

O Visual SLAM (Localização e Mapeamento Simultâneos) é uma técnica fundamental de visão computacional que permite que um agente, como um robô ou um dispositivo móvel, mapeie simultaneamente um ambiente desconhecido e determine a sua própria posição nesse espaço utilizando apenas dados de câmaras. Ao contrário dos sistemas SLAM tradicionais, que dependem de sensores laser dispendiosos, o Visual SLAM utiliza câmaras monoculares, estéreo ou RGB-D padrão. Ao extrair e rastrear características visuais em fotogramas consecutivos, o sistema calcula a trajetória da câmara enquanto constrói progressivamente uma nuvem de pontos 3D ou um mapa denso do ambiente circundante. Esta tecnologia é fundamental para permitir a navegação autónoma e a perceção espacial nas máquinas.

Como funciona o Visual SLAM

Um fluxo de trabalho típico de Visual SLAM é composto por dois componentes principais: o front-end e o back-end. O front-end processa os dados dos sensores, realizando a extração de características visuais (identificando cantos ou arestas distintas) e comparando essas características entre fotogramas para estimar o movimento da câmara ao longo do tempo. O back-end utiliza esses dados de odometria e executa algoritmos de otimização, como o ajuste de feixes, para corrigir desvios e refinar tanto o mapa do ambiente como a pose estimada da câmara.

Os avanços recentes em 2024 e 2025 mudaram o paradigma, passando das características tradicionais criadas manualmente — como as utilizadas em estruturas antigas, tais como o ORB-SLAM3— para abordagens de aprendizagem profunda. Os sistemas modernos agora utilizam redes neurais para fluxo ótico denso e correspondência de características, tornando-os altamente resistentes ao desfoque de movimento e a ambientes com pouca textura. Além disso, novas técnicas de renderização que incorporam 3D Gaussian Splatting e Neural Radiance Fields (NeRFs) estão a permitir um mapeamento denso fotorrealista em tempo real que capta detalhes geométricos complexos muito melhor do que as nuvens de pontos padrão.

SLAM visual vs. SLAM LiDAR vs. Rastreamento de objetos

Compreender as diferenças entre as tecnologias de mapeamento e de localização é essencial para implementar a solução certa :

  • SLAM visual vs. SLAM LiDAR: Enquanto o SLAM visual se baseia em sensores de câmara económicos para captar texturas visuais ricas, o SLAM LiDAR utiliza feixes de laser para medir com precisão as distâncias físicas. O LiDAR é altamente preciso, mas caro e consome muita energia, ao passo que o SLAM visual é económico e fornece informações de cor, mas pode ter dificuldades em condições de fraca iluminação.
  • SLAM visual vs. rastreamento de objetos: O rastreamento de objetos isola e acompanha o movimento de entidades específicas ao longo dos fotogramas de vídeo. O SLAM visual, por outro lado, rastreia o movimento da câmara em relação ao ambiente estático para construir um mapa. No entanto, os dois conceitos fundem-se no SLAM semântico, onde os modelos de deteção de objetos identificam objetos dinâmicos para os excluir deliberadamente do mapa estático.

Aplicações no Mundo Real

O Visual SLAM está profundamente integrado nos agentes modernos de IA e nos sistemas de computação espacial.

  • Robótica e drones autónomos: Os robôs de entregas e os drones utilizam o Visual SLAM para se orientarem em ambientes sem sinal de GPS, como armazéns ou zonas urbanas densamente urbanizadas. Ao criarem mapas em tempo real, conseguem planear percursos e evitar obstáculos de forma autónoma.
  • Realidade Aumentada (RA) e Realidade Virtual (RV): Os óculos inteligentes disponíveis no mercado dependem fortemente da tecnologia Visual SLAM para compreender a geometria de uma divisão. Isto permite que os sistemas de RA fixem com precisão objetos digitais, como um monitor virtual, em superfícies físicas, de modo a que permaneçam estáveis enquanto o utilizador se move.
  • Sistemas de navegação assistida: Os recentes avanços no SLAM semântico baseado em aprendizagem profunda estão a ser utilizados para criar dispositivos de navegação vestíveis para pessoas com deficiência visual, garantindo um encaminhamento seguro e em tempo real em torno de obstáculos físicos dinâmicos.

SLAM semântico e integração com o YOLO26

Um dos maiores desafios do Visual SLAM é lidar com ambientes dinâmicos, onde os objetos em movimento corrompem o mapa. O Semantic SLAM resolve este problema combinando o fluxo de trabalho tradicional do SLAM com modelos de visão de alta velocidade. Ao utilizar Ultralytics para a segmentação ou deteção de instâncias, o sistema consegue rotular semanticamente a cena e filtrar os objetos em movimento, melhorando drasticamente a precisão da localização.

O bloco de código abaixo demonstra como utilizar o YOLO26 para identificar as coordenadas de objetos dinâmicos (como pessoas e carros), para que possam ser explicitamente ignorados pelo mecanismo de correspondência de características do SLAM:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Ao tirar partido de hardware moderno de IA de ponta, como o NVIDIA , e integrar modelos através da Ultralytics , os programadores podem treinar e implementar algoritmos de visão leves diretamente em conjunto com pipelines SLAM. Para uma exploração mais aprofundada das arquiteturas de mapeamento autónomo, consulte a literatura recente no IEEE Xplore ou no arXiv e descubra como otimizar pipelines de visão contínua na Ultralytics .

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina