O que é correspondência de imagens em IA de visão? Uma introdução rápida
Saiba como funciona a correspondência de imagens em IA de visão e explore as tecnologias principais que ajudam as máquinas a detectar, comparar e compreender dados visuais.

Quando olhas para duas fotografias do mesmo objeto, como uma pintura e uma fotografia de um carro, é fácil notar o que elas têm em comum. Para as máquinas, no entanto, isso não é tão simples.
Para fazer tais comparações, as máquinas baseiam-se em computer vision, um ramo da artificial intelligence (AI) que as ajuda a interpretar e compreender informações visuais. A computer vision permite que os sistemas detetem objetos, entendam cenas e extraiam padrões de imagens ou vídeos.
Em particular, algumas tarefas visuais vão além da análise de uma única imagem. Envolvem a comparação de imagens para encontrar semelhanças, detetar diferenças ou rastrear alterações ao longo do tempo.
A Vision AI abrange um vasto conjunto de técnicas, e uma capacidade essencial, conhecida como correspondência de imagens, foca-se em identificar semelhanças entre imagens, mesmo quando a iluminação, os ângulos ou os fundos variam. Esta técnica pode ser usada em várias aplicações, incluindo robótica, realidade aumentada e geo-mapeamento.
Neste artigo, vamos explorar o que é a correspondência de imagens, as suas principais técnicas e algumas das suas aplicações no mundo real. Vamos começar!
Link to this sectionO que é a correspondência de imagens?#
A correspondência de imagens torna possível que um sistema computacional entenda se duas imagens contêm conteúdo semelhante. Os seres humanos conseguem fazer isto intuitivamente ao notar formas, cores e padrões.
Os computadores, por outro lado, dependem de dados numéricos. Analisam as imagens investigando cada pixel, que é a menor unidade de uma imagem digital.
Cada imagem é armazenada como uma grelha de pixels, e cada pixel geralmente contém valores para vermelho, verde e azul (RGB). Estes valores podem mudar quando uma imagem é rodada, redimensionada, vista de um ângulo diferente ou capturada sob condições de iluminação diferentes. Devido a estas variações, comparar imagens pixel a pixel é muitas vezes pouco fiável.
Para tornar as comparações mais consistentes, a correspondência de imagens foca-se em características locais ou cantos, bordas e regiões texturizadas que tendem a permanecer estáveis mesmo quando uma imagem muda ligeiramente. Ao detetar estas características, ou keypoints, em várias imagens, um sistema pode compará-las com uma precisão muito maior.
Este processo é amplamente utilizado em casos de uso como navegação, localização, realidade aumentada, mapeamento, reconstrução 3D e pesquisa visual. Quando os sistemas identificam os mesmos pontos em diferentes imagens ou múltiplos quadros, conseguem rastrear movimentos, entender a estrutura da cena e tomar decisões fiáveis em ambientes dinâmicos.

Fig 1. Um exemplo de correspondência de imagem de um carro onde keypoints semelhantes são identificados. (Source)
Link to this sectionCompreender como funciona a correspondência de imagens#
A correspondência de imagens envolve vários passos-chave que ajudam os sistemas a identificar e comparar regiões semelhantes dentro das imagens. Cada passo melhora a precisão, a consistência e a robustez sob diferentes condições.
Aqui tens uma análise passo a passo de como funciona a correspondência de imagens:
- Feature detection: O sistema primeiro identifica keypoints distintos numa imagem que permanecem estacionários mesmo quando a iluminação, a escala ou o ângulo de visão mudam. Eles destacam áreas como cantos, bordas ou regiões texturizadas que se destacam visualmente.
- Feature description: Cada keypoint é então convertido num descritor, que é um vetor numérico compacto que captura o padrão visual em torno desse ponto. Estes descritores fornecem uma forma fiável de comparar características entre imagens diferentes.
- Feature matching: Os descritores de duas imagens são comparados usando algoritmos de correspondência que calculam o quão semelhantes são. Este passo emparelha keypoints que parecem corresponder e filtra correspondências mais fracas ou pouco fiáveis.
- Geometric verification: Finalmente, o sistema verifica se os keypoints correspondentes formam uma relação geométrica realista. Remove correspondências incorretas (chamadas outliers) usando um método conhecido como RANSAC (Random Sample Consensus), que garante que apenas pares de pontos fiáveis sejam mantidos. Uma vez identificadas as boas correspondências, o sistema estima a transformação que melhor relaciona as duas imagens. Esta é frequentemente uma transformação afim, que ajusta mudanças como escala, rotação e deslocamento, ou uma homografia, que também pode lidar com mudanças de perspetiva. Usar estas transformações permite que o sistema alinhe as imagens com precisão, mesmo quando foram capturadas de pontos de vista ligeiramente diferentes.

Fig 2. (a) Extração de pontos de característica e (b) correspondência de características. (Source)
Link to this sectionPrincipais técnicas envolvidas na correspondência de imagens#
Antes de explorarmos as aplicações no mundo real da correspondência de imagens, vamos primeiro dar uma vista de olhos mais atenta às técnicas de correspondência de imagens usadas em sistemas de computer vision.
Link to this sectionCorrespondência de imagens baseada em Template matching#
O Template matching é um dos métodos de correspondência de imagens mais diretos. É geralmente considerado uma técnica de image-processing em vez de um método moderno de computer vision, porque depende de comparações diretas de pixels e não extrai características visuais mais profundas.
É usado para localizar uma imagem de referência menor, ou template, dentro de uma cena maior. Funciona usando um algoritmo que desliza um template pela imagem principal e calcula uma pontuação de semelhança em cada posição para medir quão estreitamente as duas regiões coincidem. A área com a pontuação mais alta é considerada a melhor correspondência, indicando onde é mais provável que o objeto apareça na cena.

Fig 3. Um olhar sobre o uso de Template matching. (Source)
Esta técnica funciona bem quando a escala, a rotação e a iluminação do objeto permanecem consistentes, tornando-a uma boa escolha para ambientes controlados ou comparações de base. No entanto, o seu desempenho diminui quando o objeto parece diferente do template, como quando o seu tamanho muda, é rodado, parcialmente ocluído ou aparece contra um fundo ruidoso ou complexo.
Link to this sectionTécnicas clássicas baseadas em características para correspondência de imagens#
Antes de o deep learning ser amplamente adotado, a correspondência de imagens baseava-se principalmente em algoritmos clássicos de computer vision que detetavam keypoints distintos numa imagem. Em vez de comparar cada pixel, estes métodos analisam gradientes de imagem, ou mudanças de intensidade, para destacar cantos, bordas e regiões texturizadas que se destacam.
Cada keypoint detetado é então representado usando um resumo numérico compacto chamado descritor. Ao comparar duas imagens, um matcher avalia estes descritores para encontrar os pares mais semelhantes.
Uma pontuação de semelhança forte geralmente indica que o mesmo ponto físico aparece em ambas as imagens. Os matchers também usam métricas de distância específicas ou regras de pontuação para julgar o quão próximas as características se alinham, melhorando a fiabilidade geral.
Aqui estão alguns dos principais algoritmos clássicos de computer vision usados para correspondência de imagens:
-
SIFT (Scale-Invariant Feature Transform): Identifica keypoints analisando gradientes de intensidade da imagem, permitindo que permaneçam reconhecíveis quando uma imagem é aumentada, reduzida ou rodada.
-
SURF (Speeded-Up Robust Features): Este algoritmo é semelhante ao SIFT, mas é otimizado para velocidade. Usa aproximações rápidas de operações baseadas em gradiente, tornando-o adequado para aplicações que requerem tempos de resposta rápidos.
-
ORB (Oriented FAST and Rotated BRIEF): Reúne dois algoritmos chamados FAST e BRIEF. O FAST encontra rapidamente pontos semelhantes a cantos numa imagem, enquanto o BRIEF cria uma descrição compacta de cada ponto para que possam ser correspondidos entre imagens. O ORB também melhora ambos os passos ao adicionar tratamento de rotação, tornando-o rápido e fiável.

Fig 4. Pontos de características SURF extraídos e correspondidos entre duas imagens. (Source)
Link to this sectionTécnicas baseadas em deep learning para correspondência de imagens#
Ao contrário dos métodos clássicos que dependem de regras específicas, o deep learning aprende automaticamente características de grandes datasets, que são coleções de dados visuais dos quais os modelos de AI aprendem padrões. Estes modelos normalmente correm em GPUs (Graphics Processing Units), que fornecem o alto poder computacional necessário para processar grandes lotes de imagens e treinar redes neurais complexas de forma eficiente.
Isto dá aos modelos de AI a capacidade de lidar com mudanças do mundo real, como iluminação, ângulos de câmara e oclusões. Alguns modelos também combinam todos os passos num único fluxo de trabalho, apoiando um desempenho robusto em condições desafiadoras.
Aqui estão algumas abordagens baseadas em deep learning para extração e correspondência de características de imagem:
-
Extração de características baseada em CNN: Estes modelos aprendem automaticamente padrões visuais-chave de grandes datasets. Reconhecem características que dificilmente mudam, tornando-os fiáveis para corresponder objetos entre cenas diferentes.
-
Correspondência baseada em embeddings: Em vez de comparar diretamente os pixels, este método transforma imagens em representações numéricas compactas conhecidas como embeddings. O matcher então compara estes embeddings para encontrar visuais semelhantes. Modelos como o FaceNet, que gera embeddings para reconhecer e comparar rostos, e o CLIP, que mapeia imagens e texto para um espaço partilhado para tarefas como pesquisa de imagens e correspondência semântica, seguem esta abordagem.
-
Pipelines de correspondência de ponta a ponta: Sistemas de deep learning de última geração combinam frequentemente a deteção, descrição e correspondência de keypoints num fluxo de trabalho unificado. Modelos como SuperPoint e D2-Net aprendem tanto keypoints como descritores diretamente de mapas de características de CNN, enquanto o SuperGlue atua como um matcher aprendido que emparelha estes descritores de forma mais fiável do que os métodos tradicionais. Juntos, estes componentes criam um pipeline de ponta a ponta que entrega maior precisão e maior robustez em condições desafiadoras do que as abordagens clássicas baseadas em características.
-
Correspondência baseada em Transformer: Este método usa mecanismos de atenção para ligar regiões correspondentes entre duas imagens, permitindo alinhar patches mesmo sob fortes mudanças de ponto de vista, iluminação ou textura. Modelos como o LoFTR (Local Feature Transformer) alcançam uma precisão muito maior porque o campo recetivo global do Transformer permite uma correspondência fiável em áreas de baixa textura, desfocadas ou repetitivas onde os detetores tradicionais falham. O LoFTR produz correspondências semi-densas de alta confiança e supera os métodos de última geração anteriores por uma margem significativa tanto em benchmarks internos como externos.
-
Modelos focados em eficiência: Modelos de correspondência de imagens mais recentes visam entregar alta precisão enquanto correm mais rapidamente. Modelos como o LightGlue são concebidos para correr eficientemente em dispositivos com poder computacional limitado enquanto ainda mantêm uma boa qualidade de correspondência.
Link to this sectionAplicações de correspondência de imagens no mundo real#
Agora que temos uma melhor compreensão de como funciona a correspondência de imagens, vejamos algumas aplicações no mundo real onde desempenha um papel importante.
Link to this sectionRobótica mais inteligente impulsionada pela correspondência de imagens#
Os robots operam frequentemente em ambientes movimentados e em mudança, onde precisam de entender quais os objetos presentes e como estão posicionados. A correspondência de imagens pode ajudar os robots a entender os objetos que veem comparando-os com imagens armazenadas ou de referência. Isto torna mais fácil para estes robots reconhecer objetos, rastrear o seu movimento e adaptar-se mesmo quando a iluminação ou os ângulos da câmara mudam.
Por exemplo, num armazém, um sistema robótico de pick-and-place system pode usar a correspondência de imagens para identificar e manusear diferentes itens. O robot primeiro agarra um objeto, depois compara a sua imagem com amostras de referência para o identificar.

Fig 5. Um robot reconhece e apanha objetos ao correspondê-los com imagens de referência. (Source)
Assim que a correspondência é encontrada, o robot sabe como classificar ou colocar o item corretamente. Esta abordagem permite que os robots reconheçam objetos familiares e novos sem re-treinar todo o sistema. Também os ajuda a tomar melhores decisões em tempo real, como organizar prateleiras, montar peças ou reorganizar itens.
Link to this sectionMelhorar a reconstrução 3D com uma melhor correspondência de imagens#
Em áreas como mapeamento por drone, realidade virtual e inspeção de edifícios, os sistemas precisam frequentemente de reconstruir um modelo 3D a partir de múltiplas imagens 2D. Para o fazer, dependem da correspondência de imagens para identificar keypoints comuns, como cantos ou regiões texturizadas, que aparecem em várias imagens.
Estes pontos partilhados ajudam o sistema a entender como as imagens se relacionam umas com as outras no espaço 3D. Esta ideia está estreitamente relacionada com Structure from Motion (SfM), uma técnica que constrói estruturas 3D ao identificar e corresponder keypoints entre imagens capturadas de diferentes pontos de vista.
Se a correspondência não for precisa, o modelo 3D resultante pode parecer distorcido ou incompleto. Por esta razão, os investigadores têm trabalhado para melhorar a fiabilidade da correspondência de imagens para reconstrução 3D, e os avanços recentes mostraram resultados promissores.
Um exemplo interessante é o HashMatch, um algoritmo de correspondência de imagens mais rápido e robusto. O HashMatch converte detalhes de imagem em padrões compactos chamados hash codes, o que torna mais fácil identificar correspondências corretas e remover outliers, mesmo quando a iluminação ou os pontos de vista variam.
Quando testado em datasets de grande escala, o HashMatch produziu modelos de reconstrução 3D mais limpos e realistas com menos erros de alinhamento. Isto torna-o especialmente útil para aplicações como mapeamento por drone, sistemas de AR e preservação do património cultural, onde a precisão é crítica.
Link to this sectionO papel da correspondência de imagens na realidade aumentada#
Quando se trata de augmented reality (AR), manter objetos virtuais alinhados com o mundo real é frequentemente um desafio. Ambientes externos podem mudar constantemente dependendo das condições ambientais, como luz solar e clima. Diferenças subtis no mundo real podem fazer com que elementos virtuais pareçam instáveis ou ligeiramente fora do lugar.
Para resolver este problema, os sistemas de AR usam a correspondência de imagens para interpretar o que os rodeia. Ao comparar quadros de câmara ao vivo com imagens de referência armazenadas, conseguem entender onde o utilizador está e como a cena mudou.

Fig 6. Pontos de características correspondidos entre duas imagens. (Source: theijes.com)
Por exemplo, num estudo envolvendo outdoor AR training de estilo militar com óculos XR (Extended Reality), os investigadores usaram SIFT e outros métodos baseados em características para corresponder detalhes visuais entre imagens reais e de referência. Correspondências precisas mantiveram os elementos virtuais corretamente alinhados com o mundo real, mesmo quando o utilizador se movia rapidamente ou a iluminação mudava.
Link to this sectionPrincipais pontos#
A correspondência de imagens é um componente central da computer vision, permitindo que os sistemas entendam como diferentes imagens se relacionam umas com as outras ou como uma cena muda ao longo do tempo. Desempenha um papel crítico na robótica, realidade aumentada, reconstrução 3D, navegação autónoma e muitas outras aplicações do mundo real onde a precisão e a estabilidade são essenciais.
Com modelos de AI avançados como o SuperPoint e o LoFTR, os sistemas de hoje estão a tornar-se muito mais robustos do que os métodos anteriores. À medida que as técnicas de machine learning, módulos de visão especializados, redes neurais e datasets continuam a avançar, a correspondência de imagens tornar-se-á provavelmente mais rápida, mais precisa e mais adaptável.
Junta-te à nossa comunidade crescente e explora o nosso GitHub repository para recursos práticos de AI. Para construir com Vision AI hoje, explora as nossas opções de licenciamento. Aprende como a AI in agriculture está a transformar a agricultura e como a Vision AI in healthcare está a moldar o futuro visitando as nossas páginas de soluções.






