Verificação verde
Link copiado para a área de transferência

Explorar vários tipos de dados para aplicações de IA de visão

Descobre como os tipos de dados visuais, como imagens térmicas, LiDAR e imagens de infravermelhos, permitem diversas aplicações de visão por computador em todas as indústrias.

Tecnologias como os drones costumavam ser limitadas e acessíveis apenas a investigadores e especialistas, mas hoje em dia, o hardware de ponta está a tornar-se mais acessível a um público mais vasto. Esta mudança está a alterar a forma como recolhemos dados visuais. Com uma tecnologia mais acessível, podemos agora captar imagens e vídeos de uma variedade de fontes, para além das câmaras tradicionais.

Paralelamente, a análise de imagens, possibilitada pela visão por computador, um ramo da inteligência artificial (IA), está a evoluir rapidamente, permitindo às máquinas interpretar e processar dados visuais de forma mais eficaz. Este avanço abriu novas possibilidades de automatização, deteção de objectos e análise em tempo real. As máquinas podem agora reconhecer padrões, seguir movimentos e dar sentido a entradas visuais complexas.

Alguns dos principais tipos de dados visuais incluem imagens RGB (vermelho, verde, azul), que são normalmente utilizadas para reconhecimento de objectos, imagens térmicas, que ajudam a detetar assinaturas de calor em condições de pouca luz, e dados de profundidade, que permitem às máquinas compreender ambientes 3D. Cada um destes tipos de dados desempenha um papel vital na alimentação de várias aplicações da IA de visão, desde a vigilância à imagiologia médica.

Neste artigo, vamos explorar os principais tipos de dados visuais utilizados na IA de visão e explorar a forma como cada um deles contribui para melhorar a precisão, a eficiência e o desempenho em vários sectores. Toca a começar!

O tipo mais comum de conjuntos de dados de imagem e vídeo da IA

Normalmente, quando utilizas um smartphone para tirar uma fotografia ou ver imagens de CCTV, estás a trabalhar com imagens RGB. RGB significa vermelho, verde e azul, e são os três canais de cor que representam a informação visual em imagens digitais. 

As imagens e os vídeos RGB são tipos de dados visuais intimamente relacionados utilizados na visão por computador, ambos capturados com câmaras normais. A principal diferença é que as imagens captam um único momento, enquanto os vídeos são uma sequência de fotogramas que mostram como as coisas mudam ao longo do tempo.

As imagens RGB são geralmente utilizadas para tarefas de visão por computador, como a deteção de objectos, a segmentação de instâncias e a estimativa de pose, apoiadas por modelos como Ultralytics YOLO11. Estas aplicações dependem da identificação de padrões, formas ou caraterísticas específicas numa única imagem. 

Os vídeos, por outro lado, são essenciais quando o movimento ou o tempo são um fator, como no reconhecimento de gestos, na vigilância ou no seguimento de acções. Como os vídeos podem ser considerados uma série de imagens, modelos de visão computacional como o YOLO11 processam-nos quadro a quadro para compreender o movimento e o comportamento ao longo do tempo.

Por exemplo, YOLO11 pode ser utilizado para analisar imagens ou vídeos RGB para detetar ervas daninhas e contar plantas em campos agrícolas. Isto melhora a monitorização das culturas e ajuda a seguir as alterações ao longo dos ciclos de crescimento para uma gestão agrícola mais eficiente.

Fig. 1. YOLO11 pode detetar e contar plantas para uma monitorização mais inteligente das culturas.

Dados de profundidade na IA de visão: LiDAR e perceção 3D

Os dados de profundidade acrescentam uma terceira dimensão à informação visual, indicando a distância a que os objectos se encontram da câmara ou do sensor. Ao contrário das imagens RGB que apenas captam a cor e a textura, os dados de profundidade fornecem contexto espacial. Mostra a distância entre os objectos e a câmara, tornando possível interpretar a disposição 3D de uma cena.

Este tipo de dados é captado utilizando tecnologias como LiDAR, visão estéreo (utilizando duas câmaras para imitar a perceção de profundidade humana) e câmaras Time-of-Flight (medindo o tempo que a luz demora a viajar até um objeto e a voltar). 

Entre estes, o LiDAR (Light Detection and Ranging) é frequentemente o mais fiável para a medição da profundidade. Funciona enviando impulsos rápidos de laser e medindo o tempo que estes demoram a ser reflectidos. O resultado é um mapa 3D altamente preciso, conhecido como nuvem de pontos, que destaca a forma, a posição e a distância dos objectos em tempo real.

O papel crescente do LiDAR nos sistemas de IA de visão

A tecnologia LiDAR pode ser dividida em dois tipos principais, cada um concebido para aplicações e ambientes específicos. Vê aqui uma análise mais detalhada de ambos os tipos:

  • LiDAR aerotransportado: Normalmente utilizado para mapear grandes áreas, os scanners LiDAR aerotransportados são montados em drones ou aeronaves para capturar dados de alta resolução para mapeamento topográfico em grande escala. É ideal para o levantamento de terrenos, florestas e paisagens.

  • LiDAR terrestre: Este tipo de dados LiDAR é recolhido a partir de sensores montados em veículos ou plataformas fixas para aplicações como a monitorização de infra-estruturas, construção e cartografia de interiores. Fornece dados altamente detalhados para áreas mais pequenas e localizadas, o que o torna útil para tarefas como o planeamento urbano e o levantamento de estruturas específicas.

Uma aplicação importante dos dados LiDAR é a dos veículos autónomos, onde desempenham um papel fundamental em tarefas como a deteção de faixas de rodagem, a prevenção de colisões e a identificação de objectos próximos. O LiDAR gera mapas 3D detalhados e em tempo real do ambiente, permitindo ao veículo ver objectos, calcular a sua distância e navegar em segurança.

Figura 2. A tecnologia LiDAR permite aos veículos autónomos mapear a profundidade e detetar objectos.

Utilizar dados térmicos e de infravermelhos em aplicações de IA

As imagens RGB captam o que vemos no espetro de luz visível; no entanto, outras tecnologias de imagem, como as imagens térmicas e de infravermelhos, vão mais além. As imagens de infravermelhos captam a luz infravermelha que é emitida ou reflectida pelos objectos, o que as torna úteis em condições de pouca luz.

A imagem térmica, por outro lado, detecta o calor emitido pelos objectos e mostra as diferenças de temperatura, permitindo-lhe trabalhar na escuridão total ou através de fumo, nevoeiro e outras obstruções. Este tipo de dados é particularmente útil para monitorizar e detetar problemas, especialmente em indústrias onde as alterações de temperatura podem sinalizar potenciais problemas.

Um exemplo interessante é a utilização de imagens térmicas para monitorizar componentes eléctricos para detetar sinais de sobreaquecimento. Ao detetar diferenças de temperatura, as câmaras térmicas podem identificar problemas antes que estes resultem em falhas no equipamento, incêndios ou danos dispendiosos. 

Fig. 3. Um exemplo da utilização de imagens térmicas para monitorizar componentes eléctricos.

Da mesma forma, as imagens de infravermelhos podem ajudar a detetar fugas em condutas ou isolamentos, identificando diferenças de temperatura que indicam a fuga de gases ou fluidos, o que é crucial para evitar situações perigosas e melhorar a eficiência energética.

Imagem multiespectral e hiperespectral em IA

Enquanto as imagens infravermelhas e térmicas captam aspectos específicos do espetro eletromagnético, as imagens multiespectrais recolhem a luz de algumas gamas de comprimentos de onda selecionadas, cada uma delas escolhida para um fim específico, como a deteção de vegetação saudável ou a identificação de materiais de superfície. 

A imagem hiperespectral vai mais longe, captando a luz em centenas de gamas de comprimentos de onda muito estreitas e contínuas. Isto fornece uma assinatura de luz detalhada para cada pixel na imagem, oferecendo uma compreensão muito mais profunda de qualquer material que esteja a ser observado.

Fig. 4. Comparação de imagens multiespectrais e hiperespectrais.

Tanto a imagem multiespectral como a hiperespectral utilizam sensores e filtros especiais para captar a luz em diferentes comprimentos de onda. Os dados são depois organizados numa estrutura 3D chamada cubo espetral, em que cada camada representa um comprimento de onda diferente. 

Os modelos de IA podem analisar estes dados para detetar caraterísticas que as câmaras normais ou o olho humano não conseguem ver. Por exemplo, na fenotipagem de plantas, a imagem hiperespectral pode ser utilizada para monitorizar a saúde e o crescimento das plantas, detectando alterações subtis nas suas folhas ou caules, como deficiências de nutrientes ou stress. Isto ajuda os investigadores a avaliar a saúde das plantas e a otimizar as práticas agrícolas sem a necessidade de recorrer a métodos invasivos.

Analisar imagens de radar e sonar utilizando IA

As imagens de radar e sonar são tecnologias que detectam e cartografam objectos através do envio de sinais e da análise dos seus reflexos, à semelhança do LiDAR. Ao contrário das imagens RGB, que se baseiam em ondas de luz para captar informações visuais, o radar utiliza ondas electromagnéticas, normalmente ondas de rádio, enquanto o sonar utiliza ondas sonoras. Tanto os sistemas de radar como os de sonar emitem impulsos e medem o tempo que o sinal demora a ser refletido por um objeto, fornecendo informações sobre a sua distância, tamanho e velocidade.

As imagens de radar são especialmente úteis quando a visibilidade é reduzida, como durante o nevoeiro, a chuva ou a noite. Como não depende da luz, pode detetar aeronaves, veículos ou terreno na escuridão total. Isto faz do radar uma escolha fiável na aviação, monitorização meteorológica e navegação autónoma.

Em comparação, as imagens de sonar são normalmente utilizadas em ambientes subaquáticos onde a luz não consegue chegar. Utiliza ondas sonoras que viajam através da água e fazem ricochete em objectos submersos, permitindo a deteção de submarinos, o mapeamento de fundos oceânicos e a execução de missões de salvamento subaquático. Os avanços na visão computacional estão agora a permitir um maior aperfeiçoamento da deteção subaquática, combinando dados de sonar com análises inteligentes para uma melhor deteção e tomada de decisões.

Fig. 5. Como um sistema SONAR utiliza impulsos de ultra-sons para medir a profundidade do mar.

Dados visuais sintéticos e simulados para treino de modelos de IA

Até agora, os diferentes tipos de dados que discutimos foram os que podem ser recolhidos no mundo real. No entanto, os dados visuais sintéticos e simulados são ambos tipos de conteúdo artificial. Os dados sintéticos são gerados de raiz utilizando modelação 3D ou IA generativa para produzir imagens ou vídeos de aspeto realista. 

Fig. 6. Olha para as imagens geradas sinteticamente.

Os dados simulados são semelhantes, mas envolvem a criação de ambientes virtuais que reproduzem o comportamento do mundo físico, incluindo a reflexão da luz, a formação de sombras e o movimento de objectos. Embora todos os dados visuais simulados sejam sintéticos, nem todos os dados sintéticos são simulados. A principal diferença é que os dados simulados reproduzem o comportamento realista, não apenas a aparência.

Estes tipos de dados são úteis para treinar modelos de visão por computador, particularmente quando é difícil recolher dados do mundo real ou quando é necessário simular situações específicas e raras. Os programadores podem criar cenas inteiras, escolher tipos de objectos, posições e iluminação, e adicionar automaticamente etiquetas como caixas delimitadoras para treino. Isto ajuda a criar rapidamente conjuntos de dados grandes e diversificados, sem a necessidade de fotografias reais ou de etiquetagem manual, que podem ser dispendiosas e demoradas.

Por exemplo, nos cuidados de saúde, os dados sintéticos podem ser utilizados para treinar modelos para segmentar células de cancro da mama, onde é difícil recolher e rotular grandes conjuntos de dados de imagens reais. Os dados sintéticos e simulados proporcionam flexibilidade e controlo, preenchendo lacunas onde as imagens do mundo real são limitadas.

Escolher o tipo certo de dados visuais para a tua aplicação de IA

Agora que já vimos como funcionam os diferentes tipos de dados visuais e o que podem fazer, vamos analisar mais detalhadamente quais os tipos de dados mais adequados para tarefas específicas:

  • imagens RGB: É perfeito para tarefas gerais de visão por computador, como a classificação de imagens e a deteção de objectos. Capta a cor e a textura, mas é limitada em condições difíceis, como pouca luz ou fraca visibilidade.

  • Imagens LiDAR: Este tipo de imagem oferece um mapeamento 3D de alta precisão utilizando impulsos de laser. É excelente para aplicações que requerem medições de distância precisas, tais como robótica, veículos autónomos e inspeção de infra-estruturas.
  • Imagem térmica: Uma vez que consegue detetar diferenças de temperatura, é útil em condições de baixa visibilidade, como a monitorização nocturna, o combate a incêndios ou a deteção de fugas de calor em máquinas e edifícios.
  • Imagens multiespectrais e hiperespectrais: É útil para tarefas que requerem uma análise detalhada do material, como a monitorização agrícola, o controlo de qualidade farmacêutico ou a deteção remota. Estes métodos fornecem conhecimentos mais profundos através da captação de dados numa vasta gama de comprimentos de onda para além da luz visível.

  • Radar e imagem por sonar: São preferidos em ambientes de baixa visibilidade. O radar utiliza ondas de rádio e é útil na aviação e na navegação, enquanto o sonar utiliza ondas sonoras para operar na deteção subaquática.

  • Dados visuais sintéticos e simulados: São ideais para treinar modelos de IA quando os dados do mundo real são limitados, não estão disponíveis ou são difíceis de rotular. Estes visuais artificiais ajudam a criar conjuntos de dados diversificados para cenários complexos, como eventos raros ou condições críticas de segurança.

Por vezes, um único tipo de dados pode não fornecer precisão ou contexto suficientes em situações do mundo real. É aqui que a fusão de sensores multimodais se torna fundamental. Ao combinar o RGB com outros tipos de dados, como térmicos, de profundidade ou LiDAR, os sistemas podem ultrapassar as limitações individuais, melhorando a fiabilidade e a adaptabilidade. 

Por exemplo, na automatização de armazéns, a utilização de RGB para reconhecimento de objectos, profundidade para medição de distâncias e térmico para deteção de equipamento em sobreaquecimento torna as operações mais eficientes e seguras. Em última análise, os melhores resultados resultam da seleção ou combinação de tipos de dados com base nas necessidades específicas da tua aplicação.

Principais conclusões

Ao criar modelos de IA de visão, a escolha do tipo correto de dados visuais é crucial. Tarefas como a deteção de objectos, a segmentação e o seguimento de movimentos dependem não só dos algoritmos, mas também da qualidade dos dados de entrada. Conjuntos de dados limpos, diversificados e precisos ajudam a reduzir o ruído e a melhorar o desempenho.

Ao combinar tipos de dados como RGB, profundidade, térmicos e LiDAR, os sistemas de IA obtêm uma visão mais completa do ambiente, tornando-os mais fiáveis em várias condições. À medida que a tecnologia continua a melhorar, é provável que abra caminho para que a IA de visão se torne mais rápida, mais adaptável e mais impactante em todos os sectores.

Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre visão computacional. Descobre várias aplicações relacionadas com a IA nos cuidados de saúde e a visão computacional no retalho nas nossas páginas de soluções. Consulta as nossas opções de licenciamento para começares a utilizar a IA de visão.

Logótipo do LinkedInLogótipo do TwitterLogótipo do FacebookSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática