Historia de los modelos de visión

Mostafa Ibrahim

5 minutos de lectura

16 de julio de 2024

Explore la historia, los logros, los retos y las orientaciones futuras de los modelos de visión.

Qué es la visión por ordenador

Imagine entrar en una tienda donde una cámara identifica su cara, analiza su estado de ánimo y le sugiere productos adaptados a sus preferencias, todo en tiempo real. Esto no es ciencia ficción, sino una realidad posibilitada por los modernos modelos de visión. Según un informe de Fortune Business Insight, el tamaño del mercado mundial de la visión por ordenador se valoró en 20 310 millones de USD en 2023 y se prevé que crezca de 25 410 millones de USD en 2024 a 175 720 millones de USD en 2032, lo que refleja los rápidos avances y la creciente adopción de esta tecnología en diversos sectores.

La visión por ordenador permite a los ordenadores detectar, identificar y analizar objetos en imágenes. Al igual que otros campos relacionados con la IA, la visión por computador ha experimentado una rápida evolución en las últimas décadas, logrando avances notables. 

La historia de la visión por ordenador es extensa. En sus primeros años, los modelos de visión por ordenador eran capaces de detectar formas y bordes sencillos, a menudo limitados a tareas básicas como el reconocimiento de patrones geométricos o la diferenciación entre zonas claras y oscuras. Sin embargo, los modelos actuales pueden realizar tareas complejas como la detección de objetos en tiempo real, el reconocimiento facial e incluso la interpretación de emociones a partir de expresiones faciales con una precisión y eficacia excepcionales. Esta espectacular progresión pone de manifiesto los increíbles avances logrados en potencia computacional, sofisticación algorítmica y disponibilidad de grandes cantidades de datos para el entrenamiento.

En este artículo exploraremos los hitos clave en la evolución de la visión por ordenador. Recorreremos sus inicios, nos adentraremos en el impacto transformador de las redes neuronales convolucionales (CNN) y examinaremos los importantes avances posteriores.

Primeros pasos de la visión por ordenador

Al igual que en otros campos de la IA, el desarrollo inicial de la visión por ordenador comenzó con la investigación fundacional y el trabajo teórico. Un hito importante fue el trabajo pionero de Lawrence G. Roberts sobre el reconocimiento de objetos tridimensionales, documentado en su tesis"Machine Perception of Three-Dimensional Solids" a principios de la década de 1960. Sus aportaciones sentaron las bases de los futuros avances en este campo.

Los primeros algoritmos: detección de bordes

Las primeras investigaciones sobre visión por ordenador se centraron en técnicas de procesamiento de imágenes, como la detección de bordes y la extracción de características. Algoritmos como el operador Sobel, desarrollado a finales de los años 60, fueron de los primeros en detectar bordes calculando el gradiente de intensidad de la imagen.

__wf_reserved_inherit
Fig. 1. Una imagen que muestra la detección de bordes, en la que la parte izquierda muestra el objeto original y la derecha la versión con bordes detectados.

Técnicas como los detectores de bordes Sobel y Canny desempeñaron un papel crucial en la identificación de límites dentro de las imágenes, esenciales para reconocer objetos y comprender escenas.

Aprendizaje automático y visión por ordenador

Reconocimiento de patrones

En la década de 1970, el reconocimiento de patrones surgió como un área clave de la visión por ordenador. Los investigadores desarrollaron métodos para reconocer formas, texturas y objetos en imágenes, lo que allanó el camino para tareas de visión más complejas.

__wf_reserved_inherit
Fig. 2. Reconocimiento de patrones.

Uno de los primeros métodos de reconocimiento de patrones consistía en comparar una imagen con un conjunto de plantillas para encontrar la que mejor coincidía. Este método estaba limitado por su sensibilidad a las variaciones de escala, rotación y ruido.

__wf_reserved_inherit
Fig. 3. Una plantilla a la izquierda encontrada dentro de la imagen de la derecha.

Los primeros sistemas de visión por ordenador se veían limitados por la escasa potencia de cálculo de la época. Los ordenadores de las décadas de 1960 y 1970 eran voluminosos, caros y tenían una capacidad de procesamiento limitada.

Cambiando las reglas del juego con el aprendizaje profundo

Aprendizaje profundo y redes neuronales de convolución

El aprendizaje profundo y las redes neuronales convolucionales (CNN) marcaron un momento crucial en el campo de la visión por ordenador. Estos avances han transformado radicalmente la forma en que los ordenadores interpretan y analizan los datos visuales, haciendo posible una amplia gama de aplicaciones que antes se consideraban imposibles.

¿Cómo funcionan las CNN?

__wf_reserved_inherit
Fig. 4. Arquitectura de una red neuronal convolucional (CNN).

  1. Capas convolucionales: Las CNN utilizan capas convolucionales, que son un tipo de modelo de aprendizaje profundo diseñado para procesar datos estructurados en forma de cuadrícula, como imágenes o secuencias, mediante el aprendizaje automático de patrones jerárquicos. para escanear una imagen utilizando filtros o núcleos. Estos filtros detectan diversas características, como bordes, texturas y colores, deslizándose por la imagen y calculando productos de puntos. Cada filtro activa patrones específicos en la imagen, lo que permite al modelo aprender características jerárquicas.
  2. Funciones de activación: Después de la convolución, funciones de activación como ReLU (Rectified Linear Unit) que es una función de activación popular en el aprendizaje profundo que emite la entrada directamente si es positiva, y cero en caso contrario, ayudando a las redes neuronales a aprender relaciones no lineales en los datos de manera eficiente. Esto ayuda a la red a aprender patrones y representaciones complejas.
  3. Capas de agrupamiento: Las capas de agrupamiento proporcionan una operación de reducción de la muestra que reduce la dimensionalidad del mapa de características, lo que ayuda a extraer las características más relevantes al tiempo que reduce el coste computacional y el sobreajuste.
  4. Capas totalmente conectadas: Las capas finales de una CNN son capas totalmente conectadas que interpretan las características extraídas por las capas convolucionales y de agrupación para hacer predicciones. Estas capas son similares a las de las redes neuronales tradicionales.

‍Evoluciónde los modelos de visión CNN

‍Elrecorrido de los modelos de visión ha sido extenso, destacando algunos de los más notables:

  • LeNet (1989): LeNet fue una de las primeras arquitecturas CNN, utilizada principalmente para el reconocimiento de dígitos en cheques manuscritos. Su éxito sentó las bases para CNN más complejas, demostrando el potencial del aprendizaje profundo en el procesamiento de imágenes.
  • AlexNet (2012): AlexNet superó con creces a los modelos existentes en la competición ImageNet, demostrando la potencia del aprendizaje profundo. Este modelo utilizó activaciones ReLU, abandono y aumento de datos, estableciendo nuevas referencias en la clasificación de imágenes y despertando un gran interés por las CNN.
  • VGGNet (2014): Al utilizar filtros convolucionales más pequeños (3x3), VGGNet logró resultados impresionantes en tareas de clasificación de imágenes, lo que refuerza la importancia de la profundidad de la red para lograr una mayor precisión.
  • ResNet (2015): ResNet abordó el problema de la degradación en las redes profundas introduciendo el aprendizaje residual. Esta innovación permitió entrenar redes mucho más profundas, lo que dio lugar a un rendimiento puntero en diversas tareas de visión por ordenador.
  • YOLO (Sólo se mira una vez): YOLO revolucionó la detección de objetos al plantearla como un único problema de regresión, prediciendo directamente los recuadros delimitadores y las probabilidades de clase a partir de imágenes completas en una sola evaluación. Este enfoque permitió la detección de objetos en tiempo real con una velocidad y precisión sin precedentes, lo que lo hace adecuado para aplicaciones que requieren un procesamiento instantáneo, como la conducción autónoma y la vigilancia.

‍Aplicaciones de visión artificial

Sanidad

‍Losusos de la visión por ordenador son numerosos. Por ejemplo, los modelos de visión como Ultralytics YOLOv8 se utilizan en imágenes médicas para detectar enfermedades como el cáncer y la retinopatía diabética. Analizan radiografías, resonancias magnéticas y tomografías computarizadas con gran precisión, identificando anomalías de forma precoz. Esta capacidad de detección precoz permite intervenir a tiempo y mejorar los resultados de los pacientes.

__wf_reserved_inherit
Fig. 5. Detección de tumores cerebrales con Ultralytics YOLOv8.

Preservación del medio ambiente

Los modelos de visión por ordenador ayudan a vigilar y proteger especies amenazadas analizando imágenes y vídeos de hábitats de fauna salvaje. Identifican y rastrean el comportamiento de los animales, proporcionando datos sobre su población y movimientos. Esta tecnología sirve de base a estrategias de conservación y decisiones políticas para proteger especies como tigres y elefantes.

Con la ayuda de la IA de visión, se pueden vigilar otras amenazas medioambientales como los incendios forestales y la deforestación, garantizando tiempos de respuesta rápidos por parte de las autoridades locales.

__wf_reserved_inherit
Fig. 6. Imagen de satélite de un incendio forestal.

Retos y perspectivas

Aunque ya han conseguido importantes logros, debido a su extrema complejidad y a lo exigente de su desarrollo, los modelos de visión se enfrentan a numerosos retos que requieren una investigación continua y futuros avances.

Interpretabilidad y explicabilidad

Los modelos de visión, especialmente los de aprendizaje profundo, suelen verse como "cajas negras" con una transparencia limitada. Esto se debe a que dichos modelos son increíblemente complejos. La falta de interpretabilidad dificulta la confianza y la rendición de cuentas, especialmente en aplicaciones críticas como la asistencia sanitaria, por ejemplo.

Requisitos informáticos

El entrenamiento y despliegue de los modelos de IA más avanzados exige importantes recursos informáticos. Esto es especialmente cierto en el caso de los modelos de visión, que a menudo requieren el procesamiento de grandes cantidades de datos de imágenes y vídeos. Las imágenes y los vídeos de alta definición, que se encuentran entre las entradas de entrenamiento que requieren más datos, aumentan la carga computacional. Por ejemplo, una sola imagen de alta definición puede ocupar varios megabytes de almacenamiento, lo que hace que el proceso de entrenamiento consuma muchos recursos y tiempo.

Esto requiere un hardware potente y algoritmos de visión por ordenador optimizados para manejar la gran cantidad de datos y los complejos cálculos que implica el desarrollo de modelos de visión eficaces. La investigación sobre arquitecturas más eficientes, compresión de modelos y aceleradores de hardware como GPU y TPU son áreas clave que harán avanzar el futuro de los modelos de visión.

El objetivo de estas mejoras es reducir la carga computacional y aumentar la eficiencia del procesamiento. Además, el aprovechamiento de modelos avanzados preentrenados como YOLOv8 puede reducir significativamente la necesidad de un entrenamiento exhaustivo, agilizando el proceso de desarrollo y mejorando la eficiencia.

Un paisaje en constante evolución

Hoy en día, las aplicaciones de los modelos de visión están muy extendidas, y van desde la asistencia sanitaria, como la detección de tumores, hasta usos cotidianos como la vigilancia del tráfico. Estos modelos avanzados han aportado innovación a innumerables industrias al proporcionar una mayor precisión, eficiencia y capacidades que antes eran inimaginables.

A medida que avanza la tecnología, el potencial de los modelos de visión para innovar y mejorar diversos aspectos de la vida y la industria sigue siendo ilimitado. Esta evolución continua subraya la importancia de seguir investigando y desarrollando en el campo de la visión por ordenador.

¿Siente curiosidad por el futuro de la IA de visión? Para obtener más información sobre los últimos avances, explore los documentos de Ultralytics y consulte sus proyectos en Ultralytics GitHub y YOLOv8 GitHub. Además, para conocer las aplicaciones de la IA en diversos sectores, las páginas de soluciones sobre coches autónomos y fabricación ofrecen información especialmente útil.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles