Una historia de los modelos de visión
Explora la historia, los logros, los retos y las orientaciones futuras de los modelos de visión.

Link to this section¿Qué es la visión artificial?#
Imagina que entras en una tienda donde una cámara identifica tu cara, analiza tu estado de ánimo y sugiere productos adaptados a tus preferencias, todo en tiempo real. Esto no es ciencia ficción, sino una realidad posible gracias a los modernos modelos de visión. Según un informe de Fortune Business Insight, el tamaño del mercado global de visión artificial se valoró en 20 310 millones de USD en 2023 y se proyecta que crezca de 25 410 millones de USD en 2024 a 175 720 millones de USD para 2032, lo que refleja los rápidos avances y la creciente adopción de esta tecnología en diversas industrias.
El campo de la visión artificial permite a las computadoras detectar, identificar y analizar objetos dentro de imágenes. Al igual que otros campos relacionados con la IA, la visión artificial ha experimentado una evolución rápida durante las últimas décadas, logrando avances notables.
La historia de la visión artificial es extensa. En sus primeros años, los modelos de visión artificial eran capaces de detectar formas y bordes simples, a menudo limitados a tareas básicas como reconocer patrones geométricos o diferenciar entre áreas claras y oscuras. Sin embargo, los modelos actuales pueden realizar tareas complejas como la detección de objetos en tiempo real, el reconocimiento facial e incluso interpretar emociones a partir de expresiones faciales con una precisión y eficiencia excepcionales. Este progreso espectacular destaca los increíbles pasos dados en cuanto a potencia computacional, sofisticación algorítmica y la disponibilidad de vastas cantidades de datos para el entrenamiento.
En este artículo, exploraremos los hitos clave en la evolución de la visión artificial. Viajaremos a través de sus inicios, profundizaremos en el impacto transformador de las redes neuronales convolucionales (CNN) y examinaremos los avances significativos que siguieron.
Link to this sectionPrimeros inicios de la visión artificial#
Al igual que con otros campos de la IA, el desarrollo temprano de la visión artificial comenzó con investigación fundamental y trabajo teórico. Un hito importante fue el trabajo pionero de Lawrence G. Roberts sobre el reconocimiento de objetos en 3D, documentado en su tesis "Machine Perception of Three-Dimensional Solids" a principios de la década de 1960. Sus contribuciones sentaron las bases para futuros avances en el campo.
Link to this sectionLos primeros algoritmos: detección de bordes#
La investigación inicial en visión artificial se centró en técnicas de procesamiento de imágenes, como la detección de bordes y la extracción de características. Algoritmos como el operador de Sobel, desarrollado a finales de la década de 1960, fueron de los primeros en detectar bordes calculando el gradiente de intensidad de la imagen.

Fig 1. Una imagen que demuestra la detección de bordes, donde el lado izquierdo muestra el objeto original y el lado derecho muestra la versión con los bordes detectados.
Técnicas como los detectores de bordes de Sobel y Canny desempeñaron un papel crucial en la identificación de límites dentro de las imágenes, los cuales son esenciales para reconocer objetos y comprender escenas.
Link to this sectionAprendizaje automático y visión artificial#
Link to this sectionReconocimiento de patrones#
En la década de 1970, el reconocimiento de patrones surgió como un área clave de la visión artificial. Los investigadores desarrollaron métodos para reconocer formas, texturas y objetos en imágenes, lo que allanó el camino para tareas de visión más complejas.

Fig 2. Reconocimiento de patrones.
Uno de los primeros métodos para el reconocimiento de patrones involucraba la coincidencia de plantillas, donde una imagen se compara con un conjunto de plantillas para encontrar la mejor coincidencia. Este enfoque estaba limitado por su sensibilidad a las variaciones en escala, rotación y ruido.

Fig 3. Una plantilla a la izquierda encontrada dentro de la imagen de la derecha.
Los primeros sistemas de visión artificial estaban limitados por la escasa potencia computacional de la época. Las computadoras en las décadas de 1960 y 1970 eran voluminosas, caras y tenían capacidades de procesamiento limitadas.
Link to this sectionCambiando las reglas del juego con el aprendizaje profundo#
Link to this sectionAprendizaje profundo y redes neuronales convolucionales#
El aprendizaje profundo y las redes neuronales convolucionales (CNN) marcaron un momento decisivo en el campo de la visión artificial. Estos avances han transformado drásticamente la forma en que las computadoras interpretan y analizan los datos visuales, permitiendo una amplia gama de aplicaciones que antes se consideraban imposibles.
Link to this section¿Cómo funcionan las CNN?#

Fig 4. Arquitectura de una red neuronal convolucional (CNN).
- Capas convolucionales: Las CNN utilizan capas convolucionales, que son un tipo de modelo de aprendizaje profundo diseñado para procesar datos estructurados tipo cuadrícula, como imágenes o secuencias, mediante el aprendizaje automático de patrones jerárquicos, para escanear una imagen usando filtros o kernels. Estos filtros detectan varias características como bordes, texturas y colores al deslizarse por la imagen y calcular productos punto. Cada filtro activa patrones específicos en la imagen, lo que permite al modelo aprender características jerárquicas.
- Funciones de activación: Después de la convolución, las funciones de activación como ReLU (Rectified Linear Unit), que es una popular función de activación en aprendizaje profundo que devuelve la entrada directamente si es positiva y cero en caso contrario, ayudan a las redes neuronales a aprender relaciones no lineales en los datos de manera eficiente. Esto ayuda a la red a aprender patrones y representaciones complejos.
- Capas de agrupación (Pooling): Las capas de agrupación proporcionan una operación de submuestreo que reduce la dimensionalidad del mapa de características, ayudando a extraer las características más relevantes mientras se reduce el costo computacional y el sobreajuste.
- Capas totalmente conectadas: Las capas finales de una CNN son capas totalmente conectadas que interpretan las características extraídas por las capas convolucionales y de agrupación para hacer predicciones. Estas capas son similares a las de las redes neuronales tradicionales.
Link to this sectionEvolución de los modelos de visión CNN#
El viaje de los modelos de visión ha sido extenso, contando con algunos de los más notables:
-
LeNet (1989): LeNet fue una de las primeras arquitecturas CNN, utilizada principalmente para el reconocimiento de dígitos en cheques escritos a mano. Su éxito sentó las bases para CNN más complejas, demostrando el potencial del aprendizaje profundo en el procesamiento de imágenes.
-
AlexNet (2012): AlexNet superó significativamente a los modelos existentes en la competencia ImageNet, mostrando el poder del aprendizaje profundo. Este modelo utilizó activaciones ReLU, dropout y aumento de datos, estableciendo nuevos puntos de referencia en la clasificación de imágenes y despertando un interés generalizado en las CNN.
-
VGGNet (2014): Al usar filtros convolucionales más pequeños (3x3), VGGNet logró resultados impresionantes en tareas de clasificación de imágenes, reforzando la importancia de la profundidad de la red para lograr una mayor precisión.
-
ResNet (2015): ResNet abordó el problema de degradación en redes profundas mediante la introducción del aprendizaje residual. Esta innovación permitió el entrenamiento de redes mucho más profundas, lo que llevó a un rendimiento de vanguardia en varias tareas de visión artificial.
-
YOLO (You Only Look Once): YOLO revolucionó la detección de objetos al plantearla como un problema de regresión único, prediciendo directamente bounding boxes y probabilidades de clase a partir de imágenes completas en una sola evaluación. Este enfoque permitió la detección de objetos en tiempo real con una velocidad y precisión sin precedentes, haciéndolo adecuado para aplicaciones que requieren un procesamiento instantáneo, como la conducción autónoma y la vigilancia.
Link to this sectionAplicaciones de visión artificial#
Link to this sectionAtención médica#
Los usos de la visión artificial son numerosos. Por ejemplo, modelos de visión como Ultralytics YOLOv8 se utilizan en imágenes médicas para detectar enfermedades como el cáncer y la retinopatía diabética. Analizan radiografías, resonancias magnéticas y tomografías computarizadas con alta precisión, identificando anomalías de forma temprana. Esta capacidad de detección temprana permite intervenciones oportunas y mejores resultados para los pacientes.

Fig 5. Detección de tumores cerebrales usando Ultralytics YOLOv8.
Link to this sectionPreservación del medio ambiente#
Los modelos de visión artificial ayudan a monitorear y proteger a las especies en peligro de extinción analizando imágenes y videos de hábitats silvestres. Identifican y rastrean el comportamiento animal, proporcionando datos sobre su población y movimientos. Esta tecnología informa las estrategias de conservación y las decisiones políticas para proteger especies como tigres y elefantes.
Con la ayuda de la IA visual, otras amenazas ambientales como los incendios forestales y la deforestación pueden ser monitoreadas, asegurando tiempos de respuesta rápidos por parte de las autoridades locales.

Fig 6. Una imagen satelital de un incendio forestal.
Link to this sectionDesafíos y direcciones futuras#
A pesar de que ya han logrado logros significativos, debido a su extrema complejidad y a la naturaleza exigente de su desarrollo, los modelos de visión enfrentan numerosos desafíos que requieren investigación continua y avances futuros.
Link to this sectionInterpretabilidad y explicabilidad#
Los modelos de visión, especialmente los de aprendizaje profundo, a menudo se consideran "cajas negras" con transparencia limitada. Esto se debe a que dichos modelos son increíblemente complejos. La falta de interpretabilidad dificulta la confianza y la responsabilidad, especialmente en aplicaciones críticas como la atención médica, por ejemplo.
Link to this sectionRequisitos computacionales#
El entrenamiento y despliegue de modelos de IA de última generación exige recursos computacionales significativos. Esto es particularmente cierto para los modelos de visión, que a menudo requieren procesar grandes cantidades de datos de imagen y video. Las imágenes y videos de alta definición, al estar entre las entradas de entrenamiento que más datos consumen, aumentan la carga computacional. Por ejemplo, una sola imagen HD puede ocupar varios megabytes de almacenamiento, lo que hace que el proceso de entrenamiento sea intensivo en recursos y lento.
Esto requiere un hardware potente y algoritmos de visión artificial optimizados para manejar los extensos datos y las complejas computaciones involucradas en el desarrollo de modelos de visión efectivos. La investigación sobre arquitecturas más eficientes, compresión de modelos y aceleradores de hardware como GPU y TPU son áreas clave que harán avanzar el futuro de los modelos de visión.
Estas mejoras tienen como objetivo reducir las demandas computacionales y aumentar la eficiencia del procesamiento. Además, aprovechar modelos preentrenados avanzados como YOLOv8 puede reducir significativamente la necesidad de un entrenamiento extenso, agilizando el proceso de desarrollo y mejorando la eficiencia.
Link to this sectionUn panorama en constante evolución#
Hoy en día, las aplicaciones de los modelos de visión están generalizadas, desde la atención médica, como la detección de tumores, hasta usos cotidianos como el monitoreo del tráfico. Estos modelos avanzados han aportado innovación a innumerables industrias al proporcionar mayor precisión, eficiencia y capacidades que antes eran inimaginables.
A medida que la tecnología continúa avanzando, el potencial de los modelos de visión para innovar y mejorar diversos aspectos de la vida y la industria sigue siendo ilimitado. Esta evolución continua subraya la importancia de la investigación y el desarrollo constantes en el campo de la visión artificial.
¿Tienes curiosidad sobre el futuro de la visión mediante IA? Para obtener más información sobre los últimos avances, explora la documentación de Ultralytics y echa un vistazo a sus proyectos en el GitHub de Ultralytics y el GitHub de YOLOv8. Además, para obtener ideas sobre las aplicaciones de la IA en diversas industrias, las páginas de soluciones sobre vehículos autónomos y fabricación ofrecen información especialmente útil.






