Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Aprenda cómo funciona la correspondencia de imágenes en Vision AI y explore las tecnologías básicas que ayudan a las máquinas a detect, comparar y comprender datos visuales.
Cuando se observan dos imágenes del mismo objeto, como un cuadro y una fotografía de un coche, es fácil darse cuenta de lo que tienen en común. Sin embargo, en el caso de las máquinas no es tan sencillo.
Para realizar estas comparaciones, las máquinas recurren a la visión por ordenador, una rama de la inteligencia artificial (IA) que les ayuda a interpretar y comprender la información visual. La visión por ordenador permite a los sistemas detect objetos, comprender escenas y extraer patrones de imágenes o vídeos.
En concreto, algunas tareas visuales van más allá del análisis de una sola imagen. Consisten en comparar imágenes para encontrar similitudes, detectar diferencias o track cambios a lo largo del tiempo.
La IA de visión abarca un amplio conjunto de técnicas, y una capacidad esencial, conocida como correspondencia de imágenes, se centra en identificar similitudes entre imágenes, incluso cuando la iluminación, los ángulos o los fondos varían. Esta técnica puede utilizarse en diversas aplicaciones, como la robótica, la realidad aumentada y la cartografía geográfica.
En este artículo exploraremos qué es la correspondencia de imágenes, sus técnicas básicas y algunas de sus aplicaciones en el mundo real. Empecemos.
¿Qué es la correspondencia de imágenes?
La comparación de imágenes permite que un sistema informático comprenda si dos imágenes tienen un contenido similar. Los humanos pueden hacerlo de forma intuitiva fijándose en formas, colores y patrones.
Los ordenadores, en cambio, se basan en datos numéricos. Analizan las imágenes investigando cada píxel, que es la unidad más pequeña de una imagen digital.
Cada imagen se almacena como una cuadrícula de píxeles, y cada píxel suele contener valores de rojo, verde y azul (RGB). Estos valores pueden cambiar al girar una imagen, cambiar su tamaño, verla desde un ángulo distinto o capturarla en condiciones de iluminación diferentes. Debido a estas variaciones, comparar imágenes píxel a píxel suele ser poco fiable.
Para que las comparaciones sean más coherentes, la comparación de imágenes se centra en características locales o esquinas, bordes y regiones con textura que tienden a permanecer estables incluso cuando una imagen cambia ligeramente. Al detectar estas características, o puntos clave, en varias imágenes, un sistema puede compararlas con mucha más precisión.
Este proceso se utiliza ampliamente en casos de uso como la navegación, la localización, la realidad aumentada, la cartografía, la reconstrucción 3D y la búsqueda visual. Cuando los sistemas identifican los mismos puntos en diferentes imágenes o múltiples fotogramas, pueden track movimiento, comprender la estructura de la escena y tomar decisiones fiables en entornos dinámicos.
Fig. 1. Ejemplo de comparación de imágenes de coches en el que se identifican puntos clave similares.(Fuente)
Entender cómo funciona la correspondencia de imágenes
La correspondencia de imágenes implica varios pasos clave que ayudan a los sistemas a identificar y comparar regiones similares dentro de las imágenes. Cada paso mejora la precisión, la coherencia y la solidez en distintas condiciones.
A continuación se explica paso a paso cómo funciona la correspondencia de imágenes:
Detección de características: En primer lugar, el sistema identifica puntos clave distintivos en una imagen que permanecen inmóviles aunque cambien la iluminación, la escala o el ángulo de visión. Destacan áreas como esquinas, bordes o regiones con textura que sobresalen visualmente.
Descripción de características: Cada punto clave se convierte en un descriptor, que es un vector numérico compacto que captura el patrón visual alrededor de ese punto. Estos descriptores proporcionan una forma fiable de comparar características entre distintas imágenes.
Coincidencia de características: los descriptores de dos imágenes se comparan mediante algoritmos de coincidencia que calculan su similitud. Este paso empareja los puntos clave que parecen corresponderse y filtra las coincidencias más débiles o poco fiables.
Verificación geométrica: Por último, el sistema comprueba si los puntos clave coincidentes forman una relación geométrica realista. Elimina las coincidencias incorrectas (llamadas "outliers") mediante un método conocido como RANSAC (Random Sample Consensus), que garantiza que sólo se conserven los pares de puntos fiables. Una vez identificadas las coincidencias correctas, el sistema estima la transformación que mejor relaciona las dos imágenes. A menudo se trata de una transformación afín, que se ajusta a cambios como la escala, la rotación y el desplazamiento, o una homografía, que también puede manejar cambios de perspectiva. El uso de estas transformaciones permite al sistema alinear las imágenes con precisión, incluso cuando se han capturado desde puntos de vista ligeramente diferentes.
Fig 2. (a) Extracción de puntos característicos y (b) correspondencia de características.(Fuente.)
Técnicas básicas de comparación de imágenes
Antes de explorar las aplicaciones reales de la correspondencia de imágenes, veamos con más detalle las técnicas de correspondencia de imágenes utilizadas en los sistemas de visión por ordenador.
Comparación de imágenes basada en la concordancia de plantillas
La comparación de plantillas es uno de los métodos más sencillos de comparación de imágenes. Suele considerarse una técnica de tratamiento de imágenes más que un método moderno de visión por ordenador, porque se basa en comparaciones directas de píxeles y no extrae características visuales más profundas.
Se utiliza para localizar una imagen de referencia más pequeña, o plantilla, dentro de una escena mayor. Funciona mediante un algoritmo que desliza una plantilla por la imagen principal y calcula una puntuación de similitud en cada posición para medir el grado de coincidencia entre las dos regiones. El área con la puntuación más alta se considera la mejor coincidencia, indicando dónde es más probable que aparezca el objeto en la escena.
Fig. 3. Un vistazo al uso de la concordancia de plantillas.(Fuente)
Esta técnica funciona bien cuando la escala, la rotación y la iluminación del objeto se mantienen constantes, lo que la convierte en una buena opción para entornos controlados o comparaciones de referencia. Sin embargo, su rendimiento disminuye cuando el objeto tiene un aspecto diferente al de la plantilla, como cuando cambia de tamaño, está girado, parcialmente ocluido o aparece sobre un fondo ruidoso o complejo.
Técnicas clásicas de comparación de imágenes basadas en características
Antes de que se generalizara el aprendizaje profundo, la comparación de imágenes se basaba principalmente en algoritmos clásicos de visión por ordenador que detectaban puntos clave distintivos en una imagen. En lugar de comparar cada píxel, estos métodos analizan los gradientes de la imagen, o cambios en la intensidad, para resaltar esquinas, bordes y regiones con textura que destacan.
Cada punto clave detectado se representa mediante un resumen numérico compacto denominado descriptor. Al comparar dos imágenes, un emparejador evalúa estos descriptores para encontrar los pares más similares.
Una puntuación de similitud elevada suele indicar que en ambas imágenes aparece el mismo punto físico. Los comparadores también utilizan métricas de distancia específicas o reglas de puntuación para juzgar el grado de alineación de las características, lo que mejora la fiabilidad general.
Estos son algunos de los principales algoritmos clásicos de visión por ordenador utilizados para la comparación de imágenes:
SURF (características robustas aceleradas): Este algoritmo es similar a SIFT pero está optimizado para la velocidad. Utiliza aproximaciones rápidas de operaciones basadas en gradientes, lo que lo hace adecuado para aplicaciones que requieren tiempos de respuesta rápidos.
ORB (FAST orientado y BRIEF girado): Reúne dos algoritmos llamados FAST y BRIEF. FAST encuentra rápidamente puntos angulosos en una imagen, mientras que BRIEF crea una descripción compacta de cada punto para que puedan compararse entre imágenes. ORB también mejora ambos pasos añadiendo el manejo de la rotación, lo que lo hace rápido y fiable.
Fig. 4. Puntos característicos SURF extraídos y emparejados entre dos imágenes.(Fuente)
Técnicas basadas en el aprendizaje profundo para la comparación de imágenes
A diferencia de los métodos clásicos que se basan en reglas específicas, el aprendizaje profundo aprende automáticamente características a partir de grandes conjuntos de datos, que son colecciones de datos visuales de las que los modelos de IA aprenden patrones. Estos modelos suelen ejecutarse en GPU (unidades de procesamiento gráfico), que proporcionan la gran potencia de cálculo necesaria para procesar grandes lotes de imágenes y entrenar redes neuronales complejas de forma eficiente.
De este modo, los modelos de IA pueden gestionar cambios del mundo real como la iluminación, los ángulos de cámara y las oclusiones. Algunos modelos también combinan todos los pasos en un único flujo de trabajo, lo que permite un rendimiento sólido en condiciones difíciles.
A continuación se presentan algunos enfoques basados en el aprendizaje profundo para la extracción y correspondencia de características de imágenes:
Extracción de características basada en CNN: Estos modelos aprenden automáticamente patrones visuales clave a partir de grandes conjuntos de datos. Reconocen características que es poco probable que cambien, lo que los hace fiables para emparejar objetos en distintas escenas.
Embedding-based matching: en lugar de comparar píxeles directamente, este método convierte las imágenes en representaciones numéricas compactas conocidas como embeddings. A continuación, el emparejador compara estas incrustaciones para encontrar imágenes similares. Modelos como FaceNet, que genera incrustaciones para reconocer y comparar caras, y CLIP, que mapea imágenes y texto en un espacio compartido para tareas como la búsqueda de imágenes y la correspondencia semántica, siguen este planteamiento.
Procesos de comparación de extremo a extremo: Los sistemas de aprendizaje profundo más avanzados suelen combinar la detección de puntos clave, la descripción y el emparejamiento en un flujo de trabajo unificado. Modelos como SuperPoint y D2-Net aprenden tanto los puntos clave como los descriptores directamente de los mapas de características de la CNN, mientras que SuperGlue actúa como un emparejador aprendido que empareja estos descriptores de forma más fiable que los métodos tradicionales. Juntos, estos componentes crean un proceso integral que ofrece mayor precisión y solidez en condiciones difíciles que los métodos clásicos basados en características.
Correspondencia basada en transformadores: este método utiliza mecanismos de atención para vincular regiones correspondientes de dos imágenes, lo que le permite alinear parches incluso con fuertes cambios de punto de vista, iluminación o textura. Los modelos como LoFTR (Local Feature Transformer) consiguen una precisión mucho mayor porque el campo receptivo global del transformador permite una correspondencia fiable en zonas con poca textura, borrosas o repetitivas, donde los detectores tradicionales fallan. LoFTR produce coincidencias semidensas de alta confianza y supera con creces a los métodos más avanzados en pruebas de referencia tanto en interiores como en exteriores.
Modelos centrados en la eficiencia: Los nuevos modelos de comparación de imágenes pretenden ofrecer una gran precisión a la vez que un funcionamiento más rápido. Modelos como LightGlue están diseñados para funcionar de forma eficiente en dispositivos con una potencia informática limitada, manteniendo al mismo tiempo una buena calidad de coincidencia.
Aplicaciones reales de la comparación de imágenes
Ahora que entendemos mejor cómo funciona la correspondencia de imágenes, veamos algunas aplicaciones del mundo real en las que desempeña un papel importante.
Robótica más inteligente basada en la comparación de imágenes
Los robots operan a menudo en entornos ajetreados y cambiantes, en los que necesitan comprender qué objetos están presentes y cómo están colocados. La correspondencia de imágenes puede ayudar a los robots a comprender los objetos que ven comparándolos con imágenes almacenadas o de referencia. Esto facilita a estos robots el reconocimiento de objetos, el track sus movimientos y la adaptación incluso cuando cambian la iluminación o los ángulos de la cámara.
Por ejemplo, en un almacén, un sistema robotizado de recogida y colocación puede utilizar la comparación de imágenes para identificar y manipular distintos artículos. El robot coge primero un objeto y luego compara su imagen con muestras de referencia para identificarlo.
Fig. 5. Un robot reconoce y recoge objetos comparándolos con imágenes de referencia.(Fuente.)
Una vez encontrada la coincidencia, el robot sabe cómo ordenarlo o colocarlo correctamente. Este enfoque permite a los robots reconocer tanto objetos conocidos como nuevos sin necesidad de volver a entrenar todo el sistema. También les ayuda a tomar mejores decisiones en tiempo real, como organizar estanterías, ensamblar piezas o reordenar objetos.
Mejora de la reconstrucción 3D con una mejor correspondencia de imágenes
En ámbitos como la cartografía con drones, la realidad virtual y la inspección de edificios, los sistemas a menudo necesitan reconstruir un modelo 3D a partir de varias imágenes 2D. Para ello, se basan en la comparación de imágenes para identificar puntos clave comunes, como esquinas o regiones con textura, que aparecen en varias imágenes.
Estos puntos compartidos ayudan al sistema a comprender cómo se relacionan las imágenes entre sí en el espacio tridimensional. Esta idea está estrechamente relacionada con la Estructura a partir del Movimiento (SfM), una técnica que construye estructuras 3D identificando y emparejando puntos clave entre imágenes capturadas desde distintos puntos de vista.
Si la correspondencia no es exacta, el modelo 3D resultante puede aparecer distorsionado o incompleto. Por este motivo, los investigadores se han esforzado por mejorar la fiabilidad de la comparación de imágenes para la reconstrucción 3D, y los últimos avances han arrojado resultados prometedores.
Un ejemplo interesante es HashMatch, un algoritmo de comparación de imágenes más rápido y robusto. HashMatch convierte los detalles de la imagen en patrones compactos llamados códigos hash, lo que facilita la identificación de coincidencias correctas y la eliminación de valores atípicos, incluso cuando la iluminación o los puntos de vista varían.
Cuando se probó en conjuntos de datos a gran escala, HashMatch produjo modelos de reconstrucción 3D más limpios y realistas, con menos errores de alineación. Esto lo hace especialmente útil para aplicaciones como la cartografía con drones, los sistemas de realidad aumentada y la conservación del patrimonio cultural, donde la precisión es fundamental.
El papel de la correspondencia de imágenes en la realidad aumentada
Cuando se trata de realidad aumentada (RA), mantener los objetos virtuales alineados con el mundo real suele ser un reto. Los entornos exteriores pueden cambiar constantemente en función de las condiciones ambientales, como la luz solar y el clima. Sutiles diferencias en el mundo real pueden hacer que los elementos virtuales parezcan inestables o ligeramente fuera de lugar.
Para resolver este problema, los sistemas de realidad aumentada utilizan la comparación de imágenes para interpretar su entorno. Comparando los fotogramas de la cámara en directo con las imágenes de referencia almacenadas, pueden comprender dónde se encuentra el usuario y cómo ha cambiado la escena.
Fig. 6. Coincidencia de puntos característicos entre dos imágenes.(Fuente)
Por ejemplo, en un estudio sobre entrenamiento militar de realidad aumentada al aire libre con gafas XR (Extended Reality), los investigadores utilizaron SIFT y otros métodos basados en características para emparejar detalles visuales entre imágenes reales y de referencia. Las coincidencias precisas mantenían los elementos virtuales correctamente alineados con el mundo real, incluso cuando el usuario se movía rápidamente o cambiaba la iluminación.
Conclusiones clave
La correspondencia de imágenes es un componente esencial de la visión por ordenador, que permite a los sistemas comprender cómo se relacionan distintas imágenes entre sí o cómo cambia una escena a lo largo del tiempo. Desempeña un papel fundamental en robótica, realidad aumentada, reconstrucción 3D, navegación autónoma y muchas otras aplicaciones del mundo real en las que la precisión y la estabilidad son esenciales.
Con modelos de IA avanzados como SuperPoint y LoFTR, los sistemas actuales son mucho más robustos que los métodos anteriores. A medida que avancen las técnicas de aprendizaje automático, los módulos de visión especializados, las redes neuronales y los conjuntos de datos, es probable que la comparación de imágenes sea más rápida, precisa y adaptable.
Únase a nuestra creciente comunidad y explore nuestro repositorio GitHub para obtener recursos prácticos de IA. Para construir con Vision AI hoy mismo, explore nuestras opciones de licencia. Descubra cómo la IA en agricultura está transformando la agricultura y cómo Vision AI en sanidad está dando forma al futuro visitando nuestras páginas de soluciones.