Guías

¿Qué es SIFT (Scale-Invariant Feature Transform)?

Explora el algoritmo SIFT. Aprende qué es SIFT y sus potentes funciones para la visión artificial invariante a escala. Mejora tu procesamiento de imágenes.

ABAbirami Vina

6 min readSeptember 9, 2025

El algoritmo SIFT (Scale-Invariant Feature Transform) en visión artificial

Para un recorrido visual de los conceptos cubiertos en este artículo, mira el vídeo a continuación.

Hoy en día, muchos de los dispositivos inteligentes que utilizamos, desde teléfonos y cámaras hasta sistemas de domótica, vienen con soluciones de IA capaces de reconocer rostros, objetos e incluso escenas visuales completas. Esta capacidad proviene de la visión artificial, un campo de la inteligencia artificial que permite a las máquinas comprender e interpretar imágenes y vídeos.

Por ejemplo, si tomas una foto de la Torre Eiffel desde cualquier ángulo o distancia, tu dispositivo normalmente puede seguir reconociéndola usando visión artificial y organizarla en la carpeta correcta de tu galería. Aunque esto parezca sencillo, reconocer objetos no siempre es fácil. Las imágenes pueden verse muy diferentes según su tamaño, ángulo, escala o iluminación, lo que dificulta que las máquinas las identifiquen de manera consistente.

Para ayudar a resolver este problema, los investigadores desarrollaron un algoritmo de visión artificial llamado Transformación de Características Invariante a Escala, o SIFT. Este algoritmo hace posible detectar objetos bajo diferentes condiciones de visualización. Creado por David Lowe en 1999, SIFT fue diseñado para encontrar y describir puntos clave únicos en una imagen, como esquinas, bordes o patrones que siguen siendo reconocibles incluso cuando la imagen cambia de tamaño, se rota o se ilumina de forma diferente.

Antes de que modelos de visión artificial impulsados por aprendizaje profundo como Ultralytics YOLO11 se volvieran populares, SIFT era una técnica muy utilizada en visión artificial. Era un enfoque estándar para tareas como el reconocimiento de objetos, donde el objetivo es identificar un elemento específico en una foto, y la coincidencia de imágenes, donde las fotos se alinean buscando características de imagen superpuestas.

En este artículo, exploraremos SIFT con un breve resumen de qué es, cómo funciona a grandes rasgos y por qué es importante en la evolución de la visión artificial. ¡Empecemos!

Link to this sectionPor qué el algoritmo SIFT es esencial para la visión artificial#

En una imagen, un objeto puede aparecer de muchas formas diferentes. Por ejemplo, una taza de café podría ser fotografiada desde arriba, de lado, bajo una luz solar brillante o bajo una lámpara cálida. La misma taza también puede parecer más grande cuando está cerca de la cámara y más pequeña cuando está más lejos.

Todas estas diferencias hacen que enseñar a un ordenador a reconocer un objeto sea una tarea complicada. Esta tarea de visión artificial, conocida como detección de objetos, requiere que los modelos de Vision AI identifiquen y localicen objetos con precisión, incluso cuando cambian su tamaño, ángulo o condiciones de iluminación.

Para hacerlo posible, la visión artificial depende de un proceso llamado extracción de características o detección. En lugar de intentar comprender toda la imagen a la vez, un modelo busca características distintivas de la imagen, como esquinas afiladas, patrones únicos o texturas que permanezcan reconocibles a través de ángulos, escalas y condiciones de iluminación.

En concreto, esto es lo que la Transformación de Características Invariante a Escala, o SIFT, fue diseñada para hacer. SIFT es un algoritmo de detección y descripción de características que puede identificar objetos de forma fiable en imágenes, sin importar cómo hayan sido capturadas.

Link to this sectionLograr la invariancia de escala#

El algoritmo SIFT tiene algunas propiedades importantes que lo hacen útil para el reconocimiento de objetos. Una de las propiedades clave se llama invariancia de escala. Esto significa que SIFT puede reconocer varias partes de un objeto, ya sea que parezca grande y esté cerca de la cámara o pequeño y lejos. Incluso si el objeto no está completamente visible, el algoritmo todavía puede extraer los mismos puntos clave.

Lo hace utilizando un concepto llamado teoría del espacio de escalas. En pocas palabras, la imagen se desenfoca en diferentes niveles para crear múltiples versiones. SIFT luego analiza estas versiones para encontrar patrones y detalles que permanecen iguales, independientemente de cómo cambie la imagen en tamaño o nitidez.

Por ejemplo, una señal de tráfico fotografiada desde unos pocos metros de distancia se verá mucho más grande que la misma señal capturada a distancia, pero SIFT aún puede detectar las mismas características distintivas. Esto hace posible hacer coincidir las dos imágenes correctamente, a pesar de que la señal aparece en escalas muy diferentes.

Link to this sectionGarantizar la invariancia de rotación#

Los objetos en las imágenes también pueden aparecer rotados, a veces incluso boca abajo. SIFT maneja esto a través de una propiedad llamada invariancia de rotación. Para cada punto clave que detecta, el algoritmo asigna una orientación coherente basada en los gradientes locales de la imagen. De esta manera, el mismo objeto puede ser reconocido sin importar cómo esté rotado.

Puedes pensarlo como marcar cada punto clave con una pequeña flecha que muestra hacia qué dirección apunta. Al alinear las características con estas orientaciones, SIFT asegura que los puntos clave coincidan correctamente incluso cuando el objeto está rotado. Por ejemplo, un monumento capturado en una foto de paisaje aún puede ser identificado correctamente incluso si otra foto del mismo se toma con la cámara inclinada en ángulo.

Link to this sectionResiliencia a otras variaciones de imagen#

Más allá del tamaño y la rotación, las imágenes también pueden cambiar de otras formas, como los cambios de iluminación. La luz sobre un objeto puede pasar de brillante a tenue, el ángulo de la cámara podría cambiar ligeramente, o la imagen podría estar desenfocada o tener ruido.

SIFT está diseñado para manejar este tipo de variaciones. Lo hace centrándose en puntos clave que son distintivos y de alto contraste, ya que estas características se ven menos afectadas por cambios en la iluminación o pequeños cambios de perspectiva. Como resultado, SIFT tiende a ser más fiable que los métodos simples de detección de bordes o esquinas, que a menudo fallan cuando cambian las condiciones.

Puntos clave SIFT extraídos de una imagen lluviosa y su imagen de entrada limpia

Fig 1. Puntos clave SIFT extraídos de (a) una imagen con lluvia y (b) su correspondiente imagen de entrada limpia. (Fuente)

Considera una pintura en una galería. Aún puede ser reconocida tanto si se fotografía con luz suave del día, bajo focos artificiales brillantes, o incluso con un ligero desenfoque de movimiento de una cámara de mano. Los puntos clave permanecen lo suficientemente estables para una coincidencia precisa a pesar de estas diferencias.

Link to this sectionCómo funciona el algoritmo de Transformación de Características Invariante a Escala (SIFT)#

A continuación, echemos un vistazo a cómo funciona el algoritmo SIFT. Este proceso se puede dividir en cuatro pasos principales: detección de puntos clave, localización de puntos clave, asignación de orientación y descripción de puntos clave.

Link to this sectionPaso 1: Detección de extremos en el espacio de escalas#

El primer paso es encontrar y detectar puntos clave, que son puntos distintivos en la imagen, como esquinas o cambios bruscos en la textura, que ayudan a rastrear o reconocer un objeto.

Para asegurarse de que estos puntos clave potenciales puedan ser reconocidos a cualquier tamaño, SIFT construye lo que se llama un espacio de escalas. Se trata de una colección de imágenes creadas desenfocando gradualmente la imagen original con un filtro gaussiano, que es una técnica de suavizado, y agrupando los resultados en capas llamadas octavas. Cada octava contiene la misma imagen en niveles crecientes de desenfoque, mientras que la siguiente octava es una versión más pequeña de la imagen.

Al restar una imagen desenfocada de otra, SIFT calcula la Diferencia de Gaussianas (DoG), que resalta las áreas donde el brillo cambia bruscamente. Estas áreas se eligen como puntos clave candidatos porque permanecen consistentes cuando la imagen se amplía o reduce.

DoG resalta estructuras clave restando imágenes desenfocadas a diferentes niveles

Fig 2. DoG resalta estructuras clave restando imágenes desenfocadas en diferentes niveles. (Fuente)

Link to this sectionPaso 2: Localización de puntos clave#

No todos los puntos clave candidatos son útiles porque algunos pueden ser débiles o inestables. Para refinarlos, SIFT utiliza un método matemático llamado Expansión en Serie de Taylor, que ayuda a estimar la posición exacta de un punto clave con mayor precisión.

Durante este paso, se eliminan los puntos poco fiables. Se descartan los puntos clave con bajo contraste, que se mezclan con su entorno, así como aquellos que se encuentran directamente sobre los bordes, ya que pueden desplazarse con demasiada facilidad. Este paso de filtrado deja solo los puntos clave más estables y distintivos.

Link to this sectionPaso 3: Asignación de orientación#

Una vez identificados los puntos clave estables, SIFT los hace invariantes a la rotación, lo que significa que pueden coincidir incluso si la imagen se gira de lado o al revés. Para ello, SIFT analiza cómo cambia el brillo alrededor de cada punto clave, lo que se conoce como gradiente. Los gradientes muestran tanto la dirección como la fuerza del cambio en la intensidad del píxel, y juntos capturan la estructura local alrededor del punto.

Para cada punto clave, SIFT considera los gradientes dentro de una región circundante y los agrupa en un histograma de orientaciones. El pico más alto en este histograma indica la dirección dominante del cambio de intensidad, que luego se asigna como la orientación del punto clave. Tanto las direcciones del gradiente, que muestran dónde cambia la intensidad, como las magnitudes del gradiente, que indican la fuerza de ese cambio, se utilizan para construir este histograma.

Si hay otros picos que son casi tan fuertes, SIFT asigna múltiples orientaciones al mismo punto clave. Esto evita que características importantes se pierdan cuando los objetos aparecen en ángulos inusuales. Al alinear cada punto clave con su orientación, SIFT garantiza que los descriptores generados en el siguiente paso permanezcan consistentes.

En otras palabras, incluso si dos imágenes del mismo objeto están rotadas de manera diferente, los puntos clave alineados con su orientación seguirán coincidiendo correctamente. Este paso es lo que le da a SIFT su gran capacidad para manejar la rotación y lo hace mucho más robusto que los métodos de detección de características anteriores.

Un vistazo más de cerca al paso 3 del algoritmo SIFT

Fig 3. Una mirada más cercana al paso 3 del algoritmo SIFT (Fuente)

Link to this sectionPaso 4: Descriptor de punto clave#

El último paso en SIFT es crear una descripción de cada punto clave para que pueda ser reconocido en otras imágenes.

SIFT logra esto observando un pequeño parche cuadrado alrededor de cada punto clave, de unos 16 por 16 píxeles de tamaño. Este parche se alinea primero con la orientación del punto clave para que la rotación no lo afecte. Luego, el parche se divide en una cuadrícula de 4 por 4 cuadrados más pequeños.

En cada cuadrado pequeño, SIFT mide cómo cambia el brillo en diferentes direcciones. Estos cambios se almacenan en algo llamado histograma, que es como un gráfico que muestra qué direcciones son más comunes. Cada cuadrado obtiene su propio histograma, y juntos los 16 cuadrados producen 16 histogramas.

Finalmente, estos histogramas se combinan en una única lista de números, 128 en total. Esta lista se llama vector de características, y actúa como una huella dactilar para el punto clave. Debido a que captura la textura y la estructura únicas alrededor del punto, esta huella dactilar hace posible hacer coincidir el mismo punto clave en diferentes imágenes, incluso si cambian de tamaño, se rotan o se iluminan de forma diferente.

Una descripción general de cómo funciona SIFT

Fig 4. Una visión general de cómo funciona SIFT (Fuente)

Link to this sectionAplicaciones clave de SIFT en visión artificial#

Ahora que entendemos mejor qué es SIFT y cómo funciona, exploremos algunas de sus aplicaciones en el mundo real en la visión artificial.

Link to this sectionReconocimiento y detección de objetos#

Uno de los usos principales de SIFT es el reconocimiento y la detección de objetos. Esto implica enseñar a un ordenador a reconocer y localizar objetos en imágenes, incluso cuando los objetos no siempre se ven iguales. Por ejemplo, SIFT puede detectar un libro independientemente de si está cerca de la cámara, más lejos o rotado en ángulo.

La razón por la que esto funciona es que SIFT extrae puntos clave que son altamente distintivos y estables. Cuando estos puntos clave se combinan con descriptores SIFT, forman características SIFT, que proporcionan una forma fiable de hacer coincidir el mismo objeto en diferentes imágenes. Estas características capturan detalles únicos del objeto que permanecen consistentes, permitiendo una coincidencia de características fiable entre imágenes incluso cuando el tamaño, la posición o la orientación del objeto cambian.

Uso de SIFT para reconocer la portada de un libro en una nueva imagen tomada con una orientación diferente

Fig 5. Uso de SIFT para reconocer una portada de libro en una nueva imagen tomada con una orientación diferente a la original. Imagen del autor.

Antes de que el aprendizaje profundo se hiciera popular, SIFT era uno de los métodos más fiables para construir sistemas de reconocimiento de objetos. Se utilizaba ampliamente en investigación y aplicaciones que requerían hacer coincidir objetos en grandes conjuntos de datos de imágenes, aunque a menudo exigía importantes recursos computacionales.

Link to this sectionUnión de imágenes y creación de panorámicas#

SIFT también se puede utilizar para crear imágenes panorámicas, que son fotos amplias hechas uniendo varias imágenes. Usando SIFT, se encuentran puntos clave distintivos en las partes superpuestas de diferentes imágenes y luego se hacen coincidir entre sí. Estas coincidencias actúan como anclas, guiando el proceso de unión sobre cómo deben alinearse las fotos.

Una vez completada la coincidencia, se pueden utilizar algoritmos de unión para calcular la alineación correcta, a menudo utilizando transformaciones geométricas que mapean una imagen sobre otra. Las imágenes se mezclan para que las costuras desaparezcan. El resultado final es una panorámica perfecta que parece una sola foto amplia, a pesar de haber sido creada a partir de varias tomas.

Link to this sectionReconstrucción 3D y robótica#

Otra aplicación interesante de SIFT es la reconstrucción 3D, donde varias fotos 2D tomadas desde diferentes ángulos se combinan para construir un modelo tridimensional. SIFT funciona encontrando y haciendo coincidir los mismos puntos en estas imágenes.

Una vez realizadas las coincidencias, las posiciones 3D de esos puntos se pueden estimar mediante triangulación, un método que calcula la profundidad desde diferentes puntos de vista. Este proceso es parte de la estructura a partir del movimiento (SfM), una técnica que utiliza varias imágenes superpuestas para estimar la forma 3D de una escena junto con las posiciones de las cámaras que tomaron las fotos.

El resultado suele ser una nube de puntos 3D, una colección de puntos en el espacio que delinea el objeto o entorno. SIFT fue una de las primeras herramientas que hizo práctica la estructura a partir del movimiento. Aunque hoy en día existen técnicas más rápidas y comunes, SIFT sigue aplicándose cuando la precisión es más importante que la velocidad.

SIFT también se ha utilizado en robótica, particularmente en SLAM visual (Localización y Mapeo Simultáneos). SLAM permite a un robot averiguar dónde se encuentra mientras construye un mapa de su entorno al mismo tiempo.

Los puntos clave SIFT actúan como puntos de referencia fiables que un robot puede reconocer entre fotogramas, incluso cuando la iluminación o los ángulos cambian. Al rastrear estos puntos de referencia, el robot puede estimar su posición y actualizar su mapa sobre la marcha. Aunque hoy en día se utilizan detectores de características más rápidos en robótica, SIFT jugó un papel importante en los primeros sistemas SLAM y sigue siendo clave en casos donde la robustez es más crítica que la velocidad.

Link to this sectionVentajas y consideraciones de SIFT#

Aunque el algoritmo SIFT se ha utilizado ampliamente en visión artificial y es conocido por ser un método fiable, también conlleva algunas compensaciones. Por eso es importante sopesar sus pros y contras antes de decidir si es el adecuado para un proyecto. A continuación, repasaremos sus puntos fuertes y limitaciones clave.

Link to this sectionPrincipales ventajas de SIFT#

Aquí tienes algunos de los pros de usar el algoritmo SIFT:

Invariancia de escala y rotación: SIFT proporciona puntos clave invariantes a la escala que permanecen relativamente estables cuando los objetos aparecen en diferentes tamaños u orientaciones, lo que representa un paso significativo hacia adelante en comparación con los detectores de características anteriores.
Robustez moderada a los cambios de iluminación y punto de vista: SIFT puede manejar cambios en el brillo, el contraste o pequeños cambios de perspectiva, aunque es menos fiable en condiciones más extremas.
Capacidad para trabajar en escenas desordenadas o parcialmente ocultas: Dado que SIFT detecta muchos puntos clave locales, a menudo puede identificar un objeto incluso si parte de él está cubierto o el fondo es complejo.

Link to this sectionConsideraciones de rendimiento y alternativas#

Aquí tienes algunos de los contras de usar el algoritmo SIFT:

Computacionalmente costoso: El proceso de varios pasos de SIFT y sus descriptores detallados lo hacen más lento y requiere más recursos que los detectores de características modernos. Para mejorar esto, los investigadores desarrollaron el algoritmo SURF (Speeded-Up Robust Features), que utiliza cálculos más rápidos para encontrar y describir características. SURF es menos preciso que SIFT en algunos casos, pero se ejecuta mucho más rápido, lo que lo hace más práctico para tareas sensibles al tiempo.
No es ideal para uso en tiempo real: Debido a su coste computacional, SIFT tiene dificultades cuando se trata de aplicaciones donde la velocidad es crítica, como el seguimiento en tiempo real o la robótica móvil.
Versatilidad limitada: Aunque robusto en muchos casos, SIFT es menos eficaz en cambios extremos de iluminación, grandes cambios de perspectiva o escenas altamente dinámicas donde los algoritmos más nuevos o los métodos de aprendizaje automático funcionan mejor.

Mientras exploras los pros y contras de SIFT, es posible que notes que muchas de sus limitaciones allanaron el camino para técnicas más avanzadas. Específicamente, las redes neuronales convolucionales (CNN) surgieron como una poderosa alternativa.

Una CNN es un tipo de modelo de aprendizaje profundo inspirado en cómo funciona el sistema visual humano. Procesa una imagen en capas, comenzando desde patrones simples como bordes y texturas, y construyendo gradualmente formas y objetos más complejos. A diferencia de las reglas de características artesanales de SIFT, las CNN aprenden representaciones de características directamente de los datos.

Este aprendizaje basado en datos significa que las CNN pueden superar a SIFT en tareas de coincidencia de descriptores y clasificación. Las CNN también son más expresivas y robustas, adaptándose mejor a la variabilidad y complejidad de los datos visuales.

Por ejemplo, los modelos basados en CNN han logrado resultados innovadores en ImageNet, un conjunto de datos de referencia masivo que contiene millones de imágenes etiquetadas en miles de categorías. Diseñado para probar qué tan bien pueden los algoritmos reconocer y clasificar objetos, ImageNet es capaz de resaltar la brecha entre los métodos basados en características más antiguos y el aprendizaje profundo.

Las CNN superaron rápidamente a SIFT aprendiendo representaciones mucho más ricas y flexibles, permitiéndoles reconocer objetos bajo iluminación cambiante, desde diferentes puntos de vista e incluso cuando están parcialmente ocultos, escenarios donde SIFT a menudo lucha.

Link to this sectionConclusiones clave#

El algoritmo de Transformación de Características Invariante a Escala ocupa un lugar importante en la historia de la visión artificial. Proporcionó una forma fiable de detectar características incluso en entornos cambiantes e influyó en muchos de los métodos utilizados hoy en día.

Aunque las técnicas más nuevas son más rápidas y eficientes, SIFT sentó las bases para ellas. SIFT muestra dónde comenzó el progreso actual en visión artificial y destaca lo lejos que han llegado los sistemas de IA de vanguardia.

Únete a nuestra comunidad global y consulta nuestro repositorio de GitHub para aprender más sobre visión artificial. Explora nuestras páginas de soluciones para descubrir innovaciones como IA en agricultura y visión artificial en el sector minorista. Echa un vistazo a nuestras opciones de licencia y empieza a construir tu propio modelo de visión artificial.

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información

Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información

IA en la fabricación

Más información

IA en automoción

Más información

IA en agricultura

Más información

IA en robótica

Más información

IA en logística

Más información

IA en el sector minorista

Más información

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información

IA en la fabricación

Más información

IA en automoción

Más información

IA en agricultura

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático

Solicitar licencia Empezar