Explorar a visão por computador em aplicações de navegação

Abirami Vina

5 min. de leitura

26 de maio de 2025

Veja como a visão computacional em soluções de navegação melhora o mapeamento em tempo real, o reconhecimento de objectos e a realidade aumentada para experiências de viagem mais inteligentes e seguras.

Hoje em dia, pegar no telemóvel, digitar um destino e seguir instruções passo a passo para lá chegar parece fácil. É algo que demora apenas alguns segundos. Mas esta comodidade quotidiana é o resultado de anos de progresso tecnológico. A navegação percorreu um longo caminho, desde os mapas em papel e as bússolas até aos sistemas inteligentes que conseguem compreender e responder ao mundo em tempo real.

Uma das tecnologias por detrás desta mudança é a visão por computador, um ramo da inteligência artificial (IA) que permite que as máquinas interpretem a informação visual como os humanos. As ferramentas de navegação de ponta utilizam agora imagens em tempo real de satélites, dashcams e sensores ao nível da rua para melhorar a precisão dos mapas, monitorizar as condições da estrada e orientar os utilizadores em ambientes complexos.

Neste artigo, vamos explorar a forma como a visão computacional está a melhorar a navegação, melhorando os mapas GPS, oferecendo actualizações de tráfego em tempo real e apoiando tecnologias como a navegação em realidade aumentada e os veículos autónomos.

Sistemas de navegação por IA com cartografia 3D imersiva

A utilização de ferramentas como o Google Maps para navegar na vida quotidiana tornou-se muito comum, quer estejamos a atravessar a cidade ou à procura de um café próximo. À medida que as tecnologias de IA se tornam mais amplamente adoptadas, assistimos a funcionalidades cada vez mais avançadas, como a Vista Imersiva, introduzida em 2023 pelo Google Maps, que permite aos utilizadores visualizar partes da sua viagem num ambiente 3D. Isto é possível graças a uma combinação de IA, fotogrametria e visão por computador.

__wf_reserved_inherit
Fig. 1. Vista imersiva do Google Maps.

Tudo começa com milhares de milhões de imagens de alta resolução captadas por uma série de equipamentos especializados. Isto inclui carros Street View, veículos equipados com câmaras de 360 graus que circulam pelas cidades, e dispositivos Trekker, mochilas portáteis com câmaras montadas utilizadas para captar imagens em locais onde os veículos não conseguem chegar, como trilhos para caminhadas ou becos estreitos.

Estas imagens são alinhadas com os dados do mapa utilizando a fotogrametria, uma técnica que junta fotografias 2D tiradas de diferentes ângulos para criar modelos 3D precisos de ruas, edifícios e terrenos.

A visão por computador é depois utilizada para analisar estes modelos, utilizando a deteção de objectos e a segmentação de imagens para identificar e rotular caraterísticas importantes, como sinais de trânsito, passeios, passadeiras e entradas de edifícios.

__wf_reserved_inherit
Fig. 2. O Immersive View utiliza a segmentação para segmentar objectos numa rua.

Os dados etiquetados são utilizados para treinar sistemas de IA que reconhecem as diferenças entre os sinais visuais das várias regiões. Por exemplo, o sistema consegue distinguir facilmente entre um sinal "SLOW" nos Estados Unidos, que é normalmente um diamante amarelo ou laranja, e um sinal semelhante no Japão, que é normalmente um triângulo vermelho e branco. Este nível de compreensão torna a experiência de navegação mais exacta e culturalmente consciente.

Por fim, a Vista Imersiva sobrepõe percursos de navegação em direto no ambiente 3D, oferecendo uma experiência suave e intuitiva que mostra exatamente para onde se dirige.

Realidade aumentada em soluções de navegação

Provavelmente, todos nós já passámos pela experiência de andar em círculos e tentar perceber para que direção o Google Maps nos está a apontar. Essa confusão é exatamente o que a navegação por realidade aumentada (RA), uma tecnologia que sobrepõe informação digital à vista da câmara do mundo real, pretende resolver. Está a mudar a forma como as pessoas se orientam em locais movimentados, como as ruas da cidade ou grandes áreas interiores. 

Os mapas normais podem ser difíceis de seguir, especialmente quando os sinais de GPS são fracos ou não funcionam bem. A navegação AR resolve este problema mostrando direcções digitais, setas e etiquetas diretamente na vista da câmara ao vivo do mundo real. Isto significa que os utilizadores vêem orientações que correspondem às ruas e edifícios à sua volta, tornando muito mais fácil saber para onde ir.

Como é que a realidade aumentada é utilizada na navegação

A navegação em RA baseia-se em modelos de visão por computador para compreender o ambiente através da câmara de um dispositivo. Isto envolve várias tarefas, como a localização de imagens, que detecta caraterísticas como bordos de edifícios ou sinais de trânsito e as faz corresponder a um mapa armazenado. A localização e o mapeamento simultâneos (SLAM) criam um mapa do ambiente enquanto seguem a posição do dispositivo em tempo real.

Por exemplo, o Aeroporto de Zurique foi o primeiro a implementar o Live View do Google Maps para navegação interior. Os passageiros podem utilizar as câmaras dos seus telemóveis para ver setas e direcções sobrepostas no ambiente real, guiando-os através dos terminais até às portas de embarque, lojas e serviços. Isto melhora a experiência dos passageiros, facilitando a navegação em espaços interiores complicados.

__wf_reserved_inherit
Fig. 3. O aeroporto de Zurique está a utilizar a visão por computador e a realidade aumentada para guiar os passageiros dentro de casa.

Aumentar a segurança rodoviária com sistemas de navegação com IA

As ruas da cidade estão a ficar mais movimentadas todos os dias. Com mais carros na estrada, passeios cheios e atividade constante, manter o tráfego a fluir sem problemas e em segurança é um desafio crescente. Para ajudar a gerir o caos, muitas cidades estão a recorrer à IA e à visão por computador.

As câmaras e sensores inteligentes instalados nos cruzamentos e ao longo das estradas captam um fluxo constante de dados visuais. Essas imagens são processadas em tempo real para detetar acidentes, monitorizar o fluxo de tráfego, detetar buracos e detetar situações como estacionamento ilegal ou comportamento arriscado dos peões.

Um exemplo interessante é a Smart Airport Expressway em Hangzhou, na China. Esta autoestrada de 20 quilómetros, que liga o centro de Hangzhou ao Aeroporto Internacional de Xiaoshan, foi melhorada com câmaras de alta resolução e radares de ondas milimétricas. Estes dispositivos recolhem continuamente dados de vídeo e de sensores, que são depois analisados utilizando a visão por computador.

Em vez de apenas gravar imagens, o sistema interpreta o que está a acontecer na estrada. Os algoritmos de visão por computador detectam colisões de veículos, reconhecem infracções de trânsito e até identificam peões ou movimentos invulgares perto de saídas de auto-estradas. Isto permite que os agentes de trânsito respondam a incidentes em segundos, sem necessidade de estarem fisicamente no local.

Os dados também alimentam um gémeo digital: um modelo virtual 3D em direto da via rápida que mostra as condições de tráfego em tempo real, os detalhes dos veículos e o congestionamento emergente. Os agentes de trânsito monitorizam esta interface visual para gerir o fluxo, emitir alertas inteligentes e responder a incidentes de forma rápida e precisa.

Mobilidade autónoma possibilitada pela visão computacional na navegação 

Atualmente, a navegação vai muito além da simples deslocação do ponto A ao ponto B. É agora uma parte essencial dos sistemas inteligentes que movimentam pessoas, gerem bens e tomam decisões em tempo real - seja na estrada ou dentro de armazéns

No centro de muitos destes sistemas está a visão por computador, que permite às máquinas interpretar dados visuais e responder instantaneamente ao que as rodeia. Vamos analisar alguns exemplos para ver como esta tecnologia está a transformar a navegação em diferentes ambientes.

Robôs de armazém que navegam com visão computacional

Os robôs estão a tornar-se essenciais para o futuro da logística, especialmente nas operações de armazém em grande escala. À medida que a procura de comércio eletrónico cresce, as empresas dependem cada vez mais de máquinas com visão por computador para navegar em ambientes complexos, separar artigos e gerir o inventário com rapidez e precisão.

Veja-se, por exemplo, os centros de distribuição da Amazon, onde mais de 750 000 robots trabalham lado a lado com os humanos para manter as operações a funcionar de forma eficiente. Estes robôs baseiam-se fortemente na visão por computador para navegar nos movimentados pisos dos armazéns, identificar artigos e tomar decisões rápidas e exactas.

Um desses sistemas é o Sequoia, uma plataforma robótica concebida para acelerar o manuseamento do inventário. Utiliza visão computacional avançada para digitalizar, contar e organizar os produtos recebidos, ajudando a otimizar os processos de armazenamento e recuperação. 

Da mesma forma, o Vulcan, um braço robótico, utiliza câmaras e análise de imagem para recolher artigos das prateleiras em segurança, ajustando a sua aderência com base na forma e posição de cada objeto e reconhecendo mesmo quando é necessária assistência humana. Entretanto, o Cardinal, outro robô com visão, é especializado na triagem: analisa pilhas mistas de embalagens e coloca-as com precisão nos carrinhos de saída corretos.

__wf_reserved_inherit
Fig. 4. Cardeal a levantar embalagens com precisão de uma pilha.

Visão computacional na navegação autónoma de veículos

Até agora, vimos como a visão computacional ajuda tanto as pessoas como os robots a navegar nos seus ambientes. Mas é igualmente crucial para os sistemas autónomos, como os carros autónomos, em que a navegação depende inteiramente do que o veículo consegue ver e compreender em tempo real.

Um bom exemplo é o sistema Tesla Vision. A Tesla adoptou uma abordagem à condução autónoma baseada apenas em câmaras, removendo o radar e outros sensores em favor de uma rede de câmaras que proporcionam uma visão completa de 360 graus do ambiente do automóvel. Estas câmaras alimentam com dados visuais o computador Full Self-Driving (FSD), que utiliza redes neurais profundas para interpretar o ambiente e tomar decisões de condução em fracções de segundo.

Com base no que vê, o sistema decide quando dirigir, acelerar, travar ou mudar de faixa - tal como faria um condutor humano, mas inteiramente através de informações visuais. A Tesla melhora continuamente este sistema, recolhendo e aprendendo com enormes quantidades de dados de condução do mundo real em toda a sua frota.

__wf_reserved_inherit
Fig. 5. A Tesla utiliza a visão por computador para uma navegação segura e autónoma.

Prós e contras da visão computacional na navegação

Eis algumas das principais vantagens da utilização da visão computacional na navegação, especialmente em sistemas em que a precisão, a segurança e a tomada de decisões em tempo real são essenciais:

  • Reduz o consumo de combustível: Ao ajudar os condutores a evitarem o trânsito e as rotas de paragem e fuga, a visão por computador pode reduzir o consumo geral de combustível e o tempo de viagem, tornando as deslocações diárias mais eficientes.
  • Detecta o desgaste das estradas e problemas de infra-estruturas: As soluções baseadas na visão podem detetar buracos, marcas de faixa desbotadas, sinais partidos e infra-estruturas danificadas, fornecendo às equipas de manutenção dados fiáveis e em tempo real.
  • Integra-se na perfeição com outras ferramentas de IA: A visão computacional pode ser combinada com assistentes de voz, modelos de previsão comportamental ou algoritmos de otimização de rotas para criar uma experiência de navegação altamente inteligente e personalizada.

Embora a visão por computador traga muitos benefícios para a navegação, ela também traz algumas limitações importantes a serem consideradas ao implementar tais soluções. Aqui estão alguns dos principais desafios a ter em conta:

  • Falta de generalização: Os modelos treinados em ambientes ou cenários específicos têm muitas vezes dificuldades quando são implementados em contextos novos ou em mudança, sem reciclagem.
  • Limitações de iluminação: Os sistemas de visão dependem de uma boa iluminação e de tempo limpo para funcionarem bem. No nevoeiro, chuva intensa ou escuridão, o seu desempenho diminui, a menos que sejam combinados com sensores como o LiDAR ou o radar.
  • Riscos de privacidade: Os sistemas de navegação que utilizam câmaras podem captar pessoas e bens privados sem consentimento. Este facto levanta questões de privacidade que devem ser cuidadosamente abordadas durante o desenvolvimento e a implantação.

Principais conclusões

A visão por computador está a reinventar a navegação, tornando os mapas mais dinâmicos, os sistemas de tráfego mais inteligentes e a mobilidade mais acessível. O que antes eram percursos estáticos são agora experiências interactivas em tempo real - alimentadas por pré-visualizações imersivas em 3D, direcções guiadas por AR e tecnologias de transporte autónomo.

À medida que a tecnologia avança, é provável que o foco mude para tornar estes sistemas mais inclusivos, adaptáveis e responsáveis. O progresso contínuo dependerá da melhoria da precisão em diversos ambientes, da manutenção de um desempenho fiável e da proteção da privacidade do utilizador. O futuro da visão computacional na navegação reside na construção de soluções que não sejam apenas inteligentes, mas também consideradas na sua conceção e impacto.

Junte-se à nossa comunidade em crescimento! Explore o nosso repositório GitHub para aprender sobre IA e consulte as nossas opções de licenciamento para iniciar os seus projectos de Visão de IA. Interessado em inovações como a IA no retalho e a visão computacional na agricultura? Visite nossas páginas de soluções para descobrir mais!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência