Ao clicares em "Aceitar todos os cookies", concordas com o armazenamento de cookies no teu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicares em "Aceitar todos os cookies", concordas com o armazenamento de cookies no teu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Explora a visão por computador em aplicações de navegação
Vê como a visão por computador em soluções de navegação melhora o mapeamento em tempo real, o reconhecimento de objectos e a realidade aumentada para experiências de viagem mais inteligentes e seguras.
Hoje em dia, pegar no telemóvel, digitar um destino e seguir as indicações passo a passo para lá chegar parece fácil. É algo que demora apenas alguns segundos. Mas esta comodidade quotidiana é o resultado de anos de progresso tecnológico. A navegação percorreu um longo caminho, desde os mapas e bússolas de papel até aos sistemas inteligentes que conseguem compreender e responder ao mundo em tempo real.
Uma das tecnologias por detrás desta mudança é a visão por computador, um ramo da inteligência artificial (IA) que permite que as máquinas interpretem a informação visual como os humanos. As ferramentas de navegação de ponta utilizam agora imagens em tempo real de satélites, dashcams e sensores ao nível da rua para melhorar a precisão dos mapas, monitorizar as condições da estrada e orientar os utilizadores em ambientes complexos.
Neste artigo, vamos explorar a forma como a visão computacional está a melhorar a navegação, melhorando os mapas GPS, oferecendo actualizações de tráfego em tempo real e apoiando tecnologias como a navegação em realidade aumentada e os veículos autónomos.
Sistemas de navegação por IA com mapeamento 3D imersivo
A utilização de ferramentas como o Google Maps para navegar na vida quotidiana tornou-se muito comum, quer estejas a atravessar a cidade ou à procura de um café próximo. À medida que as tecnologias de IA se tornam mais amplamente adoptadas, assistimos a funcionalidades cada vez mais avançadas, como a Vista Imersiva, introduzida em 2023 pelo Google Maps, que permite aos utilizadores visualizar partes da sua viagem num ambiente 3D. Isto é possível graças a uma combinação de IA, fotogrametria e visão por computador.
Tudo começa com milhares de milhões de imagens de alta resolução captadas por uma série de equipamentos especializados. Isto inclui carros Street View, veículos equipados com câmaras de 360 graus que circulam pelas cidades, e dispositivos Trekker, mochilas portáteis com câmaras montadas utilizadas para captar imagens em locais onde os veículos não conseguem chegar, como trilhos para caminhadas ou becos estreitos.
Estas imagens são alinhadas com os dados do mapa utilizando a fotogrametria, uma técnica que junta fotografias 2D tiradas de diferentes ângulos para criar modelos 3D precisos de ruas, edifícios e terrenos.
A visão computacional é depois utilizada para analisar estes modelos, utilizando a deteção de objectos e a segmentação de imagens para identificar e rotular caraterísticas importantes, como sinais de trânsito, passeios, passadeiras e entradas de edifícios.
Figura 2. O Immersive View utiliza a segmentação para segmentar objectos numa rua.
Os dados etiquetados são utilizados para treinar sistemas de IA que reconhecem as diferenças entre os sinais visuais das várias regiões. Por exemplo, o sistema consegue distinguir facilmente entre um sinal "SLOW" nos Estados Unidos, que é normalmente um diamante amarelo ou laranja, e um sinal semelhante no Japão, que é normalmente um triângulo vermelho e branco. Este nível de compreensão torna a experiência de navegação mais precisa e culturalmente consciente.
Por fim, a Vista Imersiva sobrepõe percursos de navegação em tempo real no ambiente 3D, oferecendo uma experiência suave e intuitiva que mostra exatamente para onde estás a ir.
Realidade aumentada em soluções de navegação
Provavelmente, todos nós já experimentámos andar em círculos e tentar perceber para que direção Google Maps nos está a apontar. Essa confusão é exatamente o que a navegação por realidade aumentada (RA), uma tecnologia que sobrepõe informação digital à vista da câmara do mundo real, pretende resolver. Está a mudar a forma como as pessoas se orientam em locais movimentados, como as ruas da cidade ou grandes áreas interiores.
Os mapas normais podem ser difíceis de seguir, especialmente quando os sinais de GPS são fracos ou não funcionam bem. A navegação AR resolve este problema mostrando direcções digitais, setas e etiquetas diretamente na vista da câmara ao vivo do mundo real. Isto significa que os utilizadores vêem orientações que correspondem às ruas e edifícios à sua volta, tornando muito mais fácil saber para onde ir.
Como é que a realidade aumentada é utilizada na navegação
A navegação em RA baseia-se em modelos de visão por computador para compreender o ambiente através da câmara de um dispositivo. Isto envolve várias tarefas, como a localização de imagens, que detecta caraterísticas como cantos de edifícios ou sinais de trânsito e as associa a um mapa armazenado. A localização e o mapeamento simultâneos (SLAM) criam um mapa do ambiente enquanto seguem a posição do dispositivo em tempo real.
Por exemplo, o Aeroporto de Zurique foi o primeiro a implementar o Live View do Google Maps para navegação interior. Os passageiros podem utilizar as câmaras dos seus telemóveis para ver setas e direcções sobrepostas no ambiente real, guiando-os através dos terminais até às portas de embarque, lojas e serviços. Isto melhora a experiência dos passageiros, facilitando a navegação em espaços interiores complicados.
Fig. 3. O aeroporto de Zurique está a utilizar a visão por computador e a RA para guiar os passageiros no interior.
Aumentar a segurança rodoviária com sistemas de navegação com IA
As ruas da cidade estão a ficar mais movimentadas todos os dias. Com mais carros na estrada, passeios cheios e atividade constante, manter o tráfego a fluir sem problemas e em segurança é um desafio crescente. Para ajudar a gerir o caos, muitas cidades estão a recorrer à IA e à visão por computador.
As câmaras e sensores inteligentes instalados nos cruzamentos e ao longo das estradas captam um fluxo constante de dados visuais. Essas imagens são processadas em tempo real para detetar acidentes, monitorizar o fluxo de tráfego, detetar buracos e detetar coisas como estacionamento ilegal ou comportamento arriscado dos peões.
Um exemplo interessante é a Smart Airport Expressway em Hangzhou, na China. Esta autoestrada de 20 quilómetros, que liga o centro de Hangzhou ao Aeroporto Internacional de Xiaoshan, foi melhorada com câmaras de alta resolução e radares de ondas milimétricas. Estes dispositivos recolhem continuamente dados de vídeo e de sensores, que são depois analisados utilizando a visão por computador.
Em vez de apenas gravar imagens, o sistema interpreta o que está a acontecer na estrada. Os algoritmos de visão por computador detectam colisões de veículos, reconhecem infracções de trânsito e até identificam peões ou movimentos invulgares perto de saídas de auto-estradas. Isto permite que os agentes de trânsito respondam a incidentes em segundos, sem necessidade de estarem fisicamente no local.
Os dados também alimentam um gémeo digital: um modelo virtual 3D em tempo real da via rápida que mostra as condições de tráfego em tempo real, os detalhes dos veículos e o congestionamento emergente. Os agentes de trânsito monitorizam esta interface visual para gerir o fluxo, emitir alertas inteligentes e responder a incidentes de forma rápida e precisa.
Mobilidade autónoma possibilitada pela visão computacional na navegação
Atualmente, a navegação vai muito além da simples deslocação do ponto A para o ponto B. É agora uma parte essencial dos sistemas inteligentes que movimentam pessoas, gerem bens e tomam decisões em tempo real - seja na estrada ou dentro de armazéns.
No centro de muitos destes sistemas está a visão por computador, que permite às máquinas interpretar dados visuais e responder instantaneamente ao que as rodeia. Vamos analisar alguns exemplos para ver como esta tecnologia está a transformar a navegação em diferentes ambientes.
Robôs de armazém que navegam com visão computacional
Os robôs estão a tornar-se essenciais para o futuro da logística, especialmente nas operações de armazém em grande escala. À medida que a procura de comércio eletrónico cresce, as empresas dependem cada vez mais de máquinas com visão por computador para navegar em ambientes complexos, separar itens e gerir o inventário com rapidez e precisão.
Vê, por exemplo, os centros de distribuição da Amazon, onde mais de 750.000 robôs trabalham ao lado de humanos para manter as operações a funcionar de forma eficiente. Estes robôs dependem fortemente da visão por computador para navegarem em armazéns movimentados, identificarem artigos e tomarem decisões rápidas e precisas.
Um desses sistemas é o Sequoia, uma plataforma robótica concebida para acelerar o manuseamento do inventário. Utiliza visão computacional avançada para digitalizar, contar e organizar os produtos recebidos, ajudando a simplificar os processos de armazenamento e recuperação.
Da mesma forma, o Vulcan, um braço robótico, utiliza câmaras e análise de imagem para recolher artigos das prateleiras em segurança, ajustando a sua aderência com base na forma e posição de cada objeto e reconhecendo mesmo quando é necessária assistência humana. Entretanto, o Cardinal, outro robô com visão, é especializado na triagem: analisa pilhas mistas de embalagens e coloca-as com precisão nos carrinhos de saída corretos.
Fig. 4. Cardeal a levantar pacotes com precisão de uma pilha.
Visão computacional na navegação autónoma de veículos
Até agora, vimos como a visão computacional ajuda tanto as pessoas como os robots a navegar nos seus ambientes. Mas é igualmente crucial para os sistemas autónomos, como os carros autónomos, em que a navegação depende inteiramente do que o veículo consegue ver e compreender em tempo real.
Um bom exemplo é o sistema Tesla Vision. A Tesla adoptou uma abordagem à condução autónoma baseada apenas em câmaras, removendo o radar e outros sensores em favor de uma rede de câmaras que proporcionam uma visão completa de 360 graus do ambiente do automóvel. Estas câmaras alimentam com dados visuais o computador Full Self-Driving (FSD), que utiliza redes neurais profundas para interpretar o ambiente e tomar decisões de condução em fracções de segundo.
Com base no que vê, o sistema decide quando dirigir, acelerar, travar ou mudar de faixa - tal como faria um condutor humano, mas inteiramente através de informações visuais. A Tesla melhora continuamente este sistema, recolhendo e aprendendo com enormes quantidades de dados de condução do mundo real em toda a sua frota.
Fig. 5. A Tesla utiliza a visão por computador para uma navegação segura e autónoma.
Prós e contras da visão por computador na navegação
Eis algumas das principais vantagens da utilização da visão computacional na navegação, especialmente em sistemas em que a precisão, a segurança e a tomada de decisões em tempo real são essenciais:
Reduz o consumo de combustível: Ao ajudar os condutores a evitar o trânsito e as rotas de paragem e fuga, a visão por computador pode reduzir o consumo geral de combustível e o tempo de viagem, tornando as deslocações diárias mais eficientes.
Detecta o desgaste da estrada e problemas de infraestrutura: As soluções baseadas na visão podem detetar buracos, marcas de faixa desbotadas, sinais partidos e infra-estruturas danificadas, fornecendo às equipas de manutenção dados fiáveis e em tempo real.
Integra-se perfeitamente com outras ferramentas de IA: A visão computacional pode ser combinada com assistentes de voz, modelos de previsão comportamental ou algoritmos de otimização de rotas para criar uma experiência de navegação altamente inteligente e personalizada.
Embora a visão computacional traga muitos benefícios para a navegação, ela também vem com algumas limitações importantes a serem consideradas ao implementar tais soluções. Aqui estão alguns dos principais desafios a ter em conta:
Falta de generalização: Os modelos treinados em ambientes ou cenários específicos têm muitas vezes dificuldades quando são implementados em contextos novos ou em mudança, sem reciclagem.
Limitações de iluminação: Os sistemas de visão dependem de uma boa iluminação e de tempo limpo para funcionarem bem. Com nevoeiro, chuva intensa ou escuridão, o seu desempenho diminui, a menos que sejam combinados com sensores como o LiDAR ou o radar.
Riscos de privacidade: Os sistemas de navegação que utilizam câmaras podem captar pessoas e bens privados sem consentimento. Isto levanta questões de privacidade que devem ser cuidadosamente abordadas durante o desenvolvimento e a implantação.
Principais conclusões
A visão por computador está a reinventar a navegação, tornando os mapas mais dinâmicos, os sistemas de tráfego mais inteligentes e a mobilidade mais acessível. O que antes eram rotas estáticas são agora experiências interactivas em tempo real - alimentadas por pré-visualizações imersivas em 3D, direcções guiadas por AR e tecnologias de transporte autónomo.
À medida que a tecnologia avança, é provável que o foco mude para tornar estes sistemas mais inclusivos, adaptáveis e responsáveis. O progresso contínuo dependerá da melhoria da precisão em diversos ambientes, da manutenção de um desempenho fiável e da proteção da privacidade do utilizador. O futuro da visão computacional na navegação está na construção de soluções que não sejam apenas inteligentes, mas também consideradas no seu design e impacto.