Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Guías

¿Qué es la coincidencia de imágenes en visión artificial? Una introducción rápida

Aprende cómo funciona la coincidencia de imágenes en visión artificial y explora las tecnologías principales que ayudan a las máquinas a detectar, comparar y comprender datos visuales.

ABAbirami Vina
7 min read
Coincidencia de imágenes en visión artificial

Cuando miras dos fotos del mismo objeto, como una pintura y una fotografía de un coche, es fácil notar lo que tienen en común. Para las máquinas, sin embargo, esto no es tan sencillo.

Para realizar tales comparaciones, las máquinas dependen de la visión artificial, una rama de la inteligencia artificial (IA) que les ayuda a interpretar y comprender la información visual. La visión artificial permite a los sistemas detectar objetos, entender escenas y extraer patrones de imágenes o vídeos.

En particular, algunas tareas visuales van más allá de analizar una sola imagen. Consisten en comparar imágenes para encontrar similitudes, detectar diferencias o rastrear cambios a lo largo del tiempo.

La visión artificial abarca un amplio conjunto de técnicas, y una capacidad esencial, conocida como coincidencia de imágenes, se centra en identificar similitudes entre imágenes, incluso cuando la iluminación, los ángulos o los fondos varían. Esta técnica puede utilizarse en diversas aplicaciones, como la robótica, la realidad aumentada y la cartografía geográfica.

En este artículo, exploraremos qué es la coincidencia de imágenes, sus técnicas principales y algunas de sus aplicaciones en el mundo real. ¡Empecemos!

Link to this section¿Qué es la coincidencia de imágenes?#

La coincidencia de imágenes permite a un sistema informático entender si dos imágenes contienen contenido similar. Los humanos podemos hacerlo de forma intuitiva observando formas, colores y patrones.

Las computadoras, por otro lado, dependen de datos numéricos. Analizan las imágenes investigando cada píxel, que es la unidad más pequeña de una imagen digital.

Cada imagen se almacena como una cuadrícula de píxeles, y cada píxel suele contener valores de rojo, verde y azul (RGB). Estos valores pueden cambiar cuando una imagen se rota, se cambia de tamaño, se ve desde un ángulo diferente o se captura bajo diferentes condiciones de iluminación. Debido a estas variaciones, comparar imágenes píxel a píxel suele ser poco fiable.

Para hacer que las comparaciones sean más consistentes, la coincidencia de imágenes se centra en características locales o esquinas, bordes y regiones texturizadas que tienden a permanecer estables incluso cuando una imagen cambia ligeramente. Al detectar estas características, o puntos clave, en múltiples imágenes, un sistema puede compararlas con mucha mayor precisión.

Este proceso se utiliza ampliamente en casos de uso como la navegación, la localización, la realidad aumentada, la cartografía, la reconstrucción 3D y la búsqueda visual. Cuando los sistemas identifican los mismos puntos en diferentes imágenes o múltiples fotogramas, pueden rastrear el movimiento, comprender la estructura de la escena y tomar decisiones fiables en entornos dinámicos.

Coincidencia de imágenes de coches donde se identifican puntos clave similares

Fig 1. Un ejemplo de coincidencia de imágenes de coches donde se identifican puntos clave similares. (Fuente)

Link to this sectionCómo entender el funcionamiento de la coincidencia de imágenes#

La coincidencia de imágenes implica varios pasos clave que ayudan a los sistemas a identificar y comparar regiones similares dentro de las imágenes. Cada paso mejora la precisión, la consistencia y la robustez bajo diferentes condiciones.

Aquí tienes un vistazo paso a paso de cómo funciona la coincidencia de imágenes:

  • Detección de características: El sistema identifica primero puntos clave distintivos en una imagen que permanecen estacionarios incluso cuando cambian la iluminación, la escala o el ángulo de visión. Destacan áreas como esquinas, bordes o regiones texturizadas que resaltan visualmente.
  • Descripción de características: Cada punto clave se convierte entonces en un descriptor, que es un vector numérico compacto que captura el patrón visual alrededor de ese punto. Estos descriptores proporcionan una forma fiable de comparar características entre diferentes imágenes.
  • Coincidencia de características: Los descriptores de dos imágenes se comparan utilizando algoritmos de coincidencia que calculan cuán similares son. Este paso empareja los puntos clave que parecen corresponder y filtra las coincidencias más débiles o poco fiables.
  • Verificación geométrica: Finalmente, el sistema comprueba si los puntos clave coincidentes forman una relación geométrica realista. Elimina las coincidencias incorrectas (llamadas valores atípicos) utilizando un método conocido como RANSAC (Random Sample Consensus), que garantiza que solo se mantengan pares de puntos fiables. Una vez identificadas las buenas coincidencias, el sistema estima la transformación que mejor relaciona las dos imágenes. A menudo se trata de una transformación afín, que se ajusta a cambios como el escalado, la rotación y el desplazamiento, o una homografía, que también puede manejar cambios de perspectiva. El uso de estas transformaciones permite al sistema alinear las imágenes con precisión, incluso cuando se capturaron desde puntos de vista ligeramente diferentes.

Extracción de puntos de características y coincidencia de características

Fig 2. (a) Extracción de puntos de características y (b) coincidencia de características. (Fuente)

Link to this sectionTécnicas principales involucradas en la coincidencia de imágenes#

Antes de explorar las aplicaciones en el mundo real de la coincidencia de imágenes, echemos un vistazo más de cerca a las técnicas de coincidencia de imágenes utilizadas en los sistemas de visión artificial.

Link to this sectionCoincidencia de imágenes basada en plantillas#

La coincidencia de plantillas es uno de los métodos de coincidencia de imágenes más directos. Por lo general, se considera una técnica de procesamiento de imágenes en lugar de un método moderno de visión artificial porque se basa en comparaciones directas de píxeles y no extrae características visuales más profundas.

Se utiliza para localizar una imagen de referencia más pequeña, o plantilla, dentro de una escena más grande. Funciona mediante un algoritmo que desliza una plantilla a través de la imagen principal y calcula una puntuación de similitud en cada posición para medir qué tan cerca coinciden las dos regiones. El área con la puntuación más alta se considera la mejor coincidencia, lo que indica dónde es más probable que aparezca el objeto en la escena.

Un vistazo al uso de coincidencia de plantillas

Fig 3. Un vistazo al uso de la coincidencia de plantillas. (Fuente)

Esta técnica funciona bien cuando la escala, la rotación y la iluminación del objeto permanecen constantes, lo que la convierte en una buena opción para entornos controlados o comparaciones de referencia. Sin embargo, su rendimiento disminuye cuando el objeto se ve diferente a la plantilla, como cuando su tamaño cambia, se rota, está parcialmente ocluido o aparece contra un fondo ruidoso o complejo.

Link to this sectionTécnicas clásicas basadas en características para la coincidencia de imágenes#

Antes de que el aprendizaje profundo se adoptara ampliamente, la coincidencia de imágenes dependía principalmente de algoritmos clásicos de visión artificial que detectaban puntos clave distintivos en una imagen. En lugar de comparar cada píxel, estos métodos analizan gradientes de imagen, o cambios en la intensidad, para resaltar esquinas, bordes y regiones texturizadas que destacan.

Cada punto clave detectado se representa entonces utilizando un resumen numérico compacto llamado descriptor. Al comparar dos imágenes, un comparador evalúa estos descriptores para encontrar los pares más similares.

Una puntuación de similitud alta suele indicar que el mismo punto físico aparece en ambas imágenes. Los comparadores también utilizan métricas de distancia específicas o reglas de puntuación para juzgar cuán estrechamente se alinean las características, mejorando la fiabilidad general.

Aquí tienes algunos de los algoritmos clásicos de visión artificial clave utilizados para la coincidencia de imágenes:

  • SIFT (Scale-Invariant Feature Transform): Identifica puntos clave analizando gradientes de intensidad de imagen, permitiendo que sigan siendo reconocibles cuando una imagen se escala hacia arriba, hacia abajo o se rota.

  • SURF (Speeded-Up Robust Features): Este algoritmo es similar a SIFT pero está optimizado para la velocidad. Utiliza aproximaciones rápidas de operaciones basadas en gradientes, lo que lo hace adecuado para aplicaciones que requieren tiempos de respuesta rápidos.

  • ORB (Oriented FAST and Rotated BRIEF): Reúne dos algoritmos llamados FAST y BRIEF. FAST encuentra rápidamente puntos similares a esquinas en una imagen, mientras que BRIEF crea una descripción compacta de cada punto para que puedan ser comparados a través de imágenes. ORB también mejora ambos pasos añadiendo manejo de rotación, lo que lo hace rápido y fiable.

Puntos de características SURF extraídos y emparejados entre dos imágenes

Fig 4. Puntos de características SURF extraídos y emparejados entre dos imágenes. (Fuente)

Link to this sectionTécnicas basadas en el aprendizaje profundo para la coincidencia de imágenes#

A diferencia de los métodos clásicos que dependen de reglas específicas, el aprendizaje profundo aprende automáticamente características de grandes conjuntos de datos, que son colecciones de datos visuales de los cuales los modelos de IA aprenden patrones. Estos modelos suelen ejecutarse en GPUs (Graphics Processing Units), que proporcionan la alta potencia computacional necesaria para procesar grandes lotes de imágenes y entrenar redes neuronales complejas de manera eficiente.

Esto da a los modelos de IA la capacidad de manejar cambios en el mundo real como la iluminación, los ángulos de cámara y las oclusiones. Algunos modelos también combinan todos los pasos en un solo flujo de trabajo, lo que permite un rendimiento robusto en condiciones desafiantes.

Aquí tienes algunos enfoques basados en el aprendizaje profundo para la extracción y coincidencia de características de imágenes:

  • Extracción de características basada en CNN: Estos modelos aprenden automáticamente patrones visuales clave de grandes conjuntos de datos. Reconocen características que tienen pocas probabilidades de cambiar, lo que los hace fiables para emparejar objetos en diferentes escenas.

  • Coincidencia basada en incrustaciones (embeddings): En lugar de comparar píxeles directamente, este método convierte las imágenes en representaciones numéricas compactas conocidas como incrustaciones. El comparador luego analiza estas incrustaciones para encontrar efectos visuales similares. Modelos como FaceNet, que genera incrustaciones para reconocer y comparar rostros, y CLIP, que mapea imágenes y texto en un espacio compartido para tareas como la búsqueda de imágenes y la coincidencia semántica, siguen este enfoque.

  • Tuberías (pipelines) de coincidencia de extremo a extremo: Los sistemas de aprendizaje profundo de vanguardia a menudo combinan la detección de puntos clave, la descripción y la coincidencia en un flujo de trabajo unificado. Modelos como SuperPoint y D2-Net aprenden tanto los puntos clave como los descriptores directamente de los mapas de características de CNN, mientras que SuperGlue actúa como un comparador aprendido que empareja estos descriptores de forma más fiable que los métodos tradicionales. Juntos, estos componentes crean una tubería de extremo a extremo que ofrece mayor precisión y mayor robustez en condiciones desafiantes que los enfoques clásicos basados en características.

  • Coincidencia basada en Transformer: Este método utiliza mecanismos de atención para vincular regiones correspondientes a través de dos imágenes, lo que le permite alinear parches incluso bajo cambios fuertes de punto de vista, iluminación o textura. Modelos como LoFTR (Local Feature Transformer) logran una precisión mucho mayor porque el campo receptivo global del Transformer permite una coincidencia fiable en áreas de baja textura, borrosas o repetitivas donde los detectores tradicionales fallan. LoFTR produce coincidencias semidensas de alta confianza y supera a los métodos anteriores de última generación por un margen amplio tanto en pruebas de interiores como de exteriores.

  • Modelos centrados en la eficiencia: Los nuevos modelos de coincidencia de imágenes tienen como objetivo ofrecer una alta precisión mientras funcionan más rápido. Modelos como LightGlue están diseñados para ejecutarse eficientemente en dispositivos con potencia de computación limitada mientras mantienen una buena calidad de coincidencia.

Link to this sectionAplicaciones de la coincidencia de imágenes en el mundo real#

Ahora que tenemos una mejor comprensión de cómo funciona la coincidencia de imágenes, veamos algunas aplicaciones en el mundo real donde desempeña un papel importante.

Link to this sectionRobótica más inteligente impulsada por la coincidencia de imágenes#

Los robots a menudo operan en entornos concurridos y cambiantes, donde necesitan entender qué objetos están presentes y cómo están colocados. La coincidencia de imágenes puede ayudar a los robots a entender los objetos que ven comparándolos con imágenes almacenadas o de referencia. Esto facilita que estos robots reconozcan objetos, rastreen su movimiento y se adapten incluso cuando cambian la iluminación o los ángulos de la cámara.

Por ejemplo, en un almacén, un sistema de selección y colocación robótico puede usar la coincidencia de imágenes para identificar y manejar diferentes artículos. El robot primero agarra un objeto, luego compara su imagen con muestras de referencia para identificarlo.

Un robot reconociendo y recogiendo objetos mediante la coincidencia de imágenes de referencia

Fig 5. Un robot reconoce y recoge objetos emparejándolos con imágenes de referencia. (Fuente)

Una vez encontrada la coincidencia, el robot sabe cómo clasificarlo o colocarlo correctamente. Este enfoque permite a los robots reconocer tanto objetos conocidos como nuevos sin tener que volver a entrenar todo el sistema. También les ayuda a tomar mejores decisiones en tiempo real, como organizar estanterías, ensamblar piezas o reorganizar artículos.

Link to this sectionMejora de la reconstrucción 3D con una mejor coincidencia de imágenes#

En áreas como la cartografía con drones, la realidad virtual y la inspección de edificios, los sistemas a menudo necesitan reconstruir un modelo 3D a partir de múltiples imágenes 2D. Para hacer esto, dependen de la coincidencia de imágenes para identificar puntos clave comunes, como esquinas o regiones texturizadas, que aparecen a través de varias imágenes.

Estos puntos compartidos ayudan al sistema a entender cómo se relacionan las imágenes entre sí en el espacio 3D. Esta idea está estrechamente relacionada con la Estructura a partir del Movimiento (SfM), una técnica que construye estructuras 3D identificando y haciendo coincidir puntos clave a través de imágenes capturadas desde diferentes puntos de vista.

Si la coincidencia no es precisa, el modelo 3D resultante puede parecer distorsionado o incompleto. Por esta razón, los investigadores han estado trabajando para mejorar la fiabilidad de la coincidencia de imágenes para la reconstrucción 3D, y los avances recientes han mostrado resultados prometedores.

Un ejemplo interesante es HashMatch, un algoritmo de coincidencia de imágenes más rápido y robusto. HashMatch convierte los detalles de la imagen en patrones compactos llamados códigos hash, lo que facilita la identificación de coincidencias correctas y la eliminación de valores atípicos, incluso cuando la iluminación o los puntos de vista varían.

Cuando se probó en conjuntos de datos a gran escala, HashMatch produjo modelos de reconstrucción 3D más limpios y realistas con menos errores de alineación. Esto lo hace especialmente útil para aplicaciones como la cartografía con drones, los sistemas de realidad aumentada y la preservación del patrimonio cultural, donde la precisión es crítica.

Link to this sectionEl papel de la coincidencia de imágenes en la realidad aumentada#

Cuando se trata de realidad aumentada (AR), mantener los objetos virtuales alineados con el mundo real es a menudo un desafío. Los entornos exteriores pueden cambiar constantemente dependiendo de las condiciones ambientales, como la luz solar y el clima. Las diferencias sutiles en el mundo real pueden hacer que los elementos virtuales parezcan inestables o ligeramente fuera de lugar.

Para resolver este problema, los sistemas de realidad aumentada utilizan la coincidencia de imágenes para interpretar su entorno. Al comparar fotogramas de cámara en vivo con imágenes de referencia almacenadas, pueden entender dónde está el usuario y cómo ha cambiado la escena.

Puntos de características emparejados entre dos imágenes

Fig 6. Puntos de características emparejados entre dos imágenes. (Fuente: theijes.com)

Por ejemplo, en un estudio que involucra entrenamiento de AR al aire libre de estilo militar con gafas XR (Realidad Extendida), los investigadores utilizaron SIFT y otros métodos basados en características para hacer coincidir detalles visuales entre imágenes reales y de referencia. Las coincidencias precisas mantuvieron los elementos virtuales correctamente alineados con el mundo real, incluso cuando el usuario se movía rápidamente o la iluminación cambiaba.

Link to this sectionConclusiones clave#

La coincidencia de imágenes es un componente central de la visión artificial, lo que permite a los sistemas entender cómo se relacionan diferentes imágenes entre sí o cómo cambia una escena a lo largo del tiempo. Desempeña un papel crítico en la robótica, la realidad aumentada, la reconstrucción 3D, la navegación autónoma y muchas otras aplicaciones del mundo real donde la precisión y la estabilidad son esenciales.

Con modelos avanzados de IA como SuperPoint y LoFTR, los sistemas de hoy en día se están volviendo mucho más robustos que los métodos anteriores. A medida que las técnicas de aprendizaje automático, los módulos de visión especializados, las redes neuronales y los conjuntos de datos continúan avanzando, la coincidencia de imágenes probablemente se volverá más rápida, más precisa y más adaptable.

Únete a nuestra creciente comunidad y explora nuestro repositorio de GitHub para obtener recursos prácticos de IA. Para construir con visión artificial hoy mismo, explora nuestras opciones de licencia. Aprende cómo la IA en la agricultura está transformando la agricultura y cómo la visión artificial en el sector sanitario está dando forma al futuro visitando nuestras páginas de soluciones.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático