¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Una historia de los modelos de visión

Mostafa Ibrahim

5 minutos de lectura

16 de julio de 2024

Explore la historia, los logros, los desafíos y las futuras direcciones de los modelos de visión.

¿Qué es la visión artificial?

Imagine entrar en una tienda donde una cámara identifica su rostro, analiza su estado de ánimo y sugiere productos adaptados a sus preferencias, todo en tiempo real. Esto no es ciencia ficción, sino una realidad habilitada por los modelos de visión modernos. Según un informe de Fortune Business Insight, el tamaño del mercado mundial de visión artificial se valoró en USD 20.31 mil millones en 2023 y se proyecta que crezca de USD 25.41 mil millones en 2024 a USD 175.72 mil millones para 2032, lo que refleja los rápidos avances y la creciente adopción de esta tecnología en diversas industrias.

El campo de la visión artificial permite a las computadoras detectar, identificar y analizar objetos dentro de las imágenes. Al igual que otros campos relacionados con la IA, la visión artificial ha experimentado una rápida evolución en las últimas décadas, logrando avances notables. 

La historia de la visión artificial es extensa. En sus primeros años, los modelos de visión artificial eran capaces de detectar formas y bordes simples, a menudo limitados a tareas básicas como reconocer patrones geométricos o diferenciar entre áreas claras y oscuras. Sin embargo, los modelos actuales pueden realizar tareas complejas como la detección de objetos en tiempo real, el reconocimiento facial e incluso la interpretación de emociones a partir de expresiones faciales con una precisión y eficiencia excepcionales. Esta dramática progresión destaca los increíbles avances realizados en la potencia computacional, la sofisticación algorítmica y la disponibilidad de vastas cantidades de datos para el entrenamiento.

En este artículo, exploraremos los hitos clave en la evolución de la visión artificial. Viajaremos a través de sus inicios, profundizaremos en el impacto transformador de las Redes Neuronales Convolucionales (CNN) y examinaremos los importantes avances que siguieron.

Inicios de la visión artificial

Al igual que con otros campos de la IA, el desarrollo temprano de la visión artificial comenzó con la investigación fundamental y el trabajo teórico. Un hito importante fue el trabajo pionero de Lawrence G. Roberts sobre el reconocimiento de objetos 3D, documentado en su tesis "Percepción de máquinas de sólidos tridimensionales" a principios de la década de 1960. Sus contribuciones sentaron las bases para futuros avances en el campo.

Los primeros algoritmos: detección de bordes

Las primeras investigaciones en visión artificial se centraron en técnicas de procesamiento de imágenes, como la detección de bordes y la extracción de características. Algoritmos como el operador de Sobel, desarrollado a finales de la década de 1960, fueron de los primeros en detectar bordes calculando el gradiente de intensidad de la imagen.

Fig. 1. Una imagen que demuestra la detección de bordes, donde el lado izquierdo muestra el objeto original y el lado derecho muestra la versión con los bordes detectados.

Técnicas como los detectores de bordes de Sobel y Canny desempeñaron un papel crucial en la identificación de límites dentro de las imágenes, que son esenciales para reconocer objetos y comprender escenas.

Aprendizaje automático y visión artificial

Reconocimiento de patrones

En la década de 1970, el reconocimiento de patrones surgió como un área clave de la visión artificial. Los investigadores desarrollaron métodos para reconocer formas, texturas y objetos en imágenes, lo que allanó el camino para tareas de visión más complejas.

Fig. 2. Reconocimiento de patrones.

Uno de los primeros métodos para el reconocimiento de patrones consistía en la comparación de plantillas, donde una imagen se compara con un conjunto de plantillas para encontrar la mejor coincidencia. Este enfoque estaba limitado por su sensibilidad a las variaciones de escala, rotación y ruido.

Fig. 3. Una plantilla en el lado izquierdo encontrada dentro de la imagen derecha.

Los primeros sistemas de visión artificial estaban limitados por la escasa potencia computacional de la época. Los ordenadores de las décadas de 1960 y 1970 eran voluminosos, caros y tenían capacidades de procesamiento limitadas.

Cambiando las reglas del juego con Deep Learning

Aprendizaje Profundo y Redes Neuronales Convolucionales

El aprendizaje profundo y las redes neuronales convolucionales (CNN) marcaron un momento crucial en el campo de la visión artificial. Estos avances han transformado drásticamente la forma en que las computadoras interpretan y analizan los datos visuales, permitiendo una amplia gama de aplicaciones que antes se consideraban imposibles.

¿Cómo funcionan las CNN?

Fig. 4. Arquitectura de una red neuronal convolucional (CNN).

  1. Capas Convolucionales: Las CNNs utilizan capas convolucionales, que son un tipo de modelo de aprendizaje profundo diseñado para procesar datos estructurados en forma de rejilla, como imágenes o secuencias, aprendiendo automáticamente patrones jerárquicos, para escanear una imagen utilizando filtros o kernels. Estos filtros detectan varias características, como bordes, texturas y colores, deslizándose a través de la imagen y calculando productos punto. Cada filtro activa patrones específicos en la imagen, lo que permite al modelo aprender características jerárquicas.
  2. Funciones de activación: Después de la convolución, las funciones de activación como ReLU (Unidad Lineal Rectificada), que es una función de activación popular en el aprendizaje profundo que emite la entrada directamente si es positiva, y cero en caso contrario, ayudan a las redes neuronales a aprender relaciones no lineales en los datos de forma eficiente. Esto ayuda a la red a aprender patrones y representaciones complejos.
  3. Capas de Agrupación (Pooling Layers): Las capas de agrupación (pooling layers) proporcionan una operación de submuestreo que reduce la dimensionalidad del mapa de características, lo que ayuda a extraer las características más relevantes al tiempo que reduce el coste computacional y el sobreajuste (overfitting).
  4. Capas totalmente conectadas: Las capas finales de una CNN son capas totalmente conectadas que interpretan las características extraídas por las capas convolucionales y de pooling para hacer predicciones. Estas capas son similares a las de las redes neuronales tradicionales.

Evolución de los modelos de visión CNN

La trayectoria de los modelos de visión ha sido extensa, presentando algunos de los más notables:

  • LeNet (1989): LeNet fue una de las primeras arquitecturas CNN, utilizada principalmente para el reconocimiento de dígitos en cheques manuscritos. Su éxito sentó las bases para CNNs más complejas, demostrando el potencial del aprendizaje profundo en el procesamiento de imágenes.
  • AlexNet (2012): AlexNet superó significativamente a los modelos existentes en la competición ImageNet, mostrando el poder del aprendizaje profundo. Este modelo utilizó activaciones ReLU, dropout y aumento de datos, estableciendo nuevos puntos de referencia en la clasificación de imágenes y despertando un interés generalizado en las CNN.
  • VGGNet (2014): Al utilizar filtros convolucionales más pequeños (3x3), VGGNet logró resultados impresionantes en tareas de clasificación de imágenes, lo que refuerza la importancia de la profundidad de la red para lograr una mayor precisión.
  • ResNet (2015): ResNet abordó el problema de la degradación en las redes profundas introduciendo el aprendizaje residual. Esta innovación permitió el entrenamiento de redes mucho más profundas, lo que condujo a un rendimiento de última generación en diversas tareas de visión artificial.
  • YOLO (You Only Look Once): YOLO revolucionó la detección de objetos al plantearla como un único problema de regresión, prediciendo directamente los cuadros delimitadores y las probabilidades de clase a partir de imágenes completas en una sola evaluación. Este enfoque permitió la detección de objetos en tiempo real con una velocidad y precisión sin precedentes, lo que lo hace adecuado para aplicaciones que requieren un procesamiento instantáneo, como la conducción autónoma y la vigilancia.

Aplicaciones de visión artificial

Asistencia sanitaria

Los usos de la visión artificial son numerosos. Por ejemplo, los modelos de visión como Ultralytics YOLOv8 se utilizan en imágenes médicas para detectar enfermedades como el cáncer y la retinopatía diabética. Analizan radiografías, resonancias magnéticas y tomografías computarizadas con alta precisión, identificando anomalías de forma temprana. Esta capacidad de detección temprana permite intervenciones oportunas y mejores resultados para los pacientes.

Fig. 5. Detección de tumores cerebrales utilizando Ultralytics YOLOv8.

Preservación del medio ambiente

Los modelos de visión artificial ayudan a supervisar y proteger las especies en peligro de extinción mediante el análisis de imágenes y vídeos de los hábitats de la fauna silvestre. Identifican y rastrean el comportamiento de los animales, proporcionando datos sobre su población y sus movimientos. Esta tecnología sirve de base para las estrategias de conservación y las decisiones políticas destinadas a proteger especies como los tigres y los elefantes.

Con la ayuda de la visión artificial, se pueden monitorizar otras amenazas ambientales como los incendios forestales y la deforestación, lo que garantiza tiempos de respuesta rápidos por parte de las autoridades locales.

Fig. 6. Una imagen de satélite de un incendio forestal.

Desafíos y futuras direcciones

Aunque ya han logrado avances significativos, debido a su extrema complejidad y a la exigente naturaleza de su desarrollo, los modelos de visión se enfrentan a numerosos retos que requieren investigación continua y avances futuros.

Interpretabilidad y explicabilidad

Los modelos de visión, especialmente los de aprendizaje profundo, a menudo se consideran "cajas negras" con transparencia limitada. Esto se debe a que dichos modelos son increíblemente complejos. La falta de interpretabilidad dificulta la confianza y la responsabilidad, especialmente en aplicaciones críticas como la atención médica, por ejemplo.

Requisitos computacionales

Entrenar e implementar modelos de IA de última generación exige importantes recursos computacionales. Esto es particularmente cierto para los modelos de visión, que a menudo requieren el procesamiento de grandes cantidades de datos de imagen y video. Las imágenes y los videos de alta definición, al ser de las entradas de entrenamiento que más datos consumen, se suman a la carga computacional. Por ejemplo, una sola imagen HD puede ocupar varios megabytes de almacenamiento, lo que hace que el proceso de entrenamiento requiera muchos recursos y tiempo.

Esto requiere un hardware potente y algoritmos de visión artificial optimizados para manejar los extensos datos y los complejos cálculos involucrados en el desarrollo de modelos de visión eficaces. La investigación sobre arquitecturas más eficientes, la compresión de modelos y los aceleradores de hardware como las GPU y las TPU son áreas clave que harán avanzar el futuro de los modelos de visión.

Estas mejoras tienen como objetivo reducir las exigencias computacionales y aumentar la eficiencia del procesamiento. Además, el aprovechamiento de modelos pre-entrenados avanzados como YOLOv8 puede reducir significativamente la necesidad de un entrenamiento extenso, agilizando el proceso de desarrollo y mejorando la eficiencia.

Un panorama en constante evolución

Hoy en día, las aplicaciones de los modelos de visión están muy extendidas, desde la atención médica, como la detección de tumores, hasta usos cotidianos como la monitorización del tráfico. Estos modelos avanzados han aportado innovación a innumerables industrias al proporcionar una precisión, eficiencia y capacidades mejoradas que antes eran inimaginables.

A medida que la tecnología continúa avanzando, el potencial de los modelos de visión para innovar y mejorar varios aspectos de la vida y la industria sigue siendo ilimitado. Esta evolución continua subraya la importancia de la investigación y el desarrollo continuos en el campo de la visión artificial.

¿Tienes curiosidad por el futuro de la visión artificial? Para obtener más información sobre los últimos avances, explora la documentación de Ultralytics y consulta sus proyectos en Ultralytics GitHub y YOLOv8 GitHub. Además, para obtener información sobre las aplicaciones de la IA en diversos sectores, las páginas de soluciones sobre coches autónomos y fabricación ofrecen información especialmente útil.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles