La IA generativa está cambiando el camino de la visión por ordenador

Abirami Vina

5 minutos de lectura

24 de marzo de 2025

Descubra los interesantes puntos de vista de una mesa redonda en YOLO Vision 2024. Descubra cómo la IA generativa está marcando el camino a seguir para los modelos de IA de Vision en tiempo real.

La IA generativa es una rama de la inteligencia artificial (IA) que crea nuevos contenidos, como imágenes, texto o audio, aprendiendo patrones a partir de datos existentes. Gracias a los últimos avances, ahora puede utilizarse para producir contenidos muy realistas que a menudo imitan la creatividad humana.

Sin embargo, el impacto de la IA generativa va más allá de la mera creación de contenidos. A medida que los modelos de visión por ordenador en tiempo real, como los modelos YOLO de Ultralytics, siguen evolucionando, la IA generativa también está redefiniendo cómo se procesan y aumentan los datos visuales, allanando el camino para aplicaciones innovadoras en escenarios del mundo real. 

Este nuevo cambio tecnológico fue un interesante tema de conversación en YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics. YV24 reunió a entusiastas de la IA y líderes del sector para debatir sobre los últimos avances en visión por ordenador. El evento se centró en la innovación, la eficiencia y el futuro de las soluciones de IA en tiempo real.

Uno de los aspectos más destacados del evento fue una mesa redonda sobre YOLO en la era de la IA generativa. En ella participaron Glenn Jocher, fundador y consejero delegado de Ultralytics, Jing Qiu, ingeniero jefe de aprendizaje automático de Ultralytics, y Ao Wang, de la Universidad de Tsinghua. Analizaron la influencia de la IA generativa en la visión por ordenador y los retos que plantea la creación de modelos prácticos de IA.

En este artículo, repasaremos las ideas clave de su debate y analizaremos más de cerca cómo la IA generativa está transformando la IA de visión.

Desarrollo de los modelos YOLO de Ultralytics

Junto a Glenn Jocher, muchos ingenieros cualificados han desempeñado un papel vital en el desarrollo de los modelos YOLO de Ultralytics. Uno de ellos, Jing Qiu, relató su inesperado comienzo con YOLO. Explicó que su pasión por la IA comenzó durante sus años universitarios. Pasó mucho tiempo explorando y aprendiendo sobre este campo. Jing Qiu recordó cómo conectó con Glenn Jocher en GitHub y se involucró en varios proyectos de IA.

Además de lo dicho por Jing Qiu, Glenn Jocher describió GitHub como "una forma increíble de compartir, donde personas que no conoces se reúnen para ayudarse mutuamente, contribuyendo al trabajo de los demás. Es una gran comunidad y una forma estupenda de iniciarse en la IA".

__wf_reserved_inherit
Fig. 1. Glenn Jocher y Jing Qiu hablan en el escenario de YV24.

El interés de Jing Qiu por la IA y su trabajo en Ultralytics YOLOv5 ayudaron a perfeccionar el modelo. Más tarde, desempeñó un papel clave en el desarrollo de Ultralytics YOLOv8, que introdujo nuevas mejoras. Lo describe como un viaje increíble. En la actualidad, Jing Qiu sigue mejorando y trabajando en modelos como Ultralytics YOLO11

YOLOv10: optimizado para el rendimiento en el mundo real

Ao Wang, que participó en la mesa redonda a distancia desde China, se presentó como estudiante de doctorado. Inicialmente estudió ingeniería de software, pero su pasión por la IA le llevó a decantarse por la visión por ordenador y el aprendizaje profundo.

Su primer encuentro con el famoso modelo YOLO fue mientras experimentaba con diversas técnicas y modelos de IA. Quedó impresionado por su velocidad y precisión, lo que le inspiró para profundizar en tareas de visión por ordenador como la detección de objetos. Recientemente, Ao Wang contribuyó a YOLOv10, una versión reciente del modelo YOLO. Su investigación se centró en optimizar el modelo para que fuera más rápido y preciso.

La diferencia clave entre la IA generativa y la IA de visión

Jing Qiu señaló que la IA generativa y la IA visual tienen objetivos muy distintos. La IA generativa crea o genera cosas como texto, imágenes y vídeos, mientras que la IA de visión analiza lo que ya existe, principalmente imágenes.

Glenn Jocher destacó que el tamaño también es una gran diferencia. Los modelos generativos de IA son enormes y a menudo contienen miles de millones de parámetros, es decir, ajustes internos que ayudan al modelo a aprender de los datos. Los modelos de visión por ordenador son mucho más pequeños. El modelo YOLO más pequeño que tenemos es unas mil veces más pequeño que el LLM [Large Language Model] más pequeño. O sea, tres millones de parámetros frente a tres mil millones".

__wf_reserved_inherit
Fig. 3. Mesa redonda sobre inteligencia artificial generativa e inteligencia artificial visual en YV24.

Jing Qiu añadió que los procesos de formación e implantación de la IA generativa y la visión por ordenador son también muy diferentes. La IA generativa necesita servidores enormes y potentes para funcionar. Los modelos como YOLO, por el contrario, se construyen para ser eficientes y pueden entrenarse y desplegarse en hardware estándar. Esto hace que los modelos YOLO de Ultralytics sean más prácticos para su uso en el mundo real.

Aunque son diferentes, estos dos campos están empezando a entrelazarse. Glenn Jocher explicó que la IA generativa está aportando nuevos avances a la IA de visión, haciendo que los modelos sean más inteligentes y eficientes. 

El impacto de la IA generativa en la visión por ordenador

La IA generativa ha avanzado rápidamente, y estos avances están influyendo en muchas otras áreas de la inteligencia artificial, incluida la visión por ordenador. A continuación, vamos a repasar algunas de las fascinantes reflexiones del panel al respecto.

Los avances en hardware están permitiendo innovaciones en IA

Al principio del panel, Glenn Jocher explicó que las ideas de aprendizaje automático existen desde hace mucho tiempo, pero los ordenadores no eran lo bastante potentes para hacerlas funcionar. Las ideas de IA necesitaban un hardware más potente para hacerse realidad.

El auge de las GPU (unidades de procesamiento gráfico) en los últimos 20 años con capacidades de procesamiento paralelo lo cambió todo. Hicieron que el entrenamiento de modelos de IA fuera mucho más rápido y eficiente, lo que permitió que el aprendizaje profundo se desarrollara a un ritmo rápido.

Hoy en día, los chips de IA como las TPU (unidades de procesamiento tensorial) y las GPU optimizadas consumen menos energía a la vez que manejan modelos más grandes y complejos. Esto ha hecho que la IA sea más accesible y útil en aplicaciones del mundo real.

Con cada nueva mejora del hardware, tanto la IA generativa como las aplicaciones de visión por ordenador se vuelven más potentes. Estos avances hacen que la IA en tiempo real sea más rápida, eficiente y esté lista para su uso en más sectores.

Cómo la IA generativa está dando forma a los modelos de detección de objetos

A la pregunta de cómo está influyendo la IA generativa en la visión por ordenador, Jing Qiu afirma que los transformadores -modelos que ayudan a la IA a centrarse en las partes más importantes de una imagen- han cambiado la forma en que la IA entiende y procesa las imágenes. El primer gran paso fue DETR (Detection Transformer), que utilizaba este nuevo enfoque para la detección de objetos. Mejoraba la precisión, pero tenía problemas de rendimiento que lo hacían más lento en algunos casos.

Para solucionarlo, los investigadores crearon modelos híbridos como RT-DETR. Estos modelos combinan redes neuronales convolucionales (CNN, que son modelos de aprendizaje profundo que aprenden y extraen automáticamente características de las imágenes) y transformadores, equilibrando velocidad y precisión. Este enfoque aprovecha las ventajas de los transformadores y agiliza la detección de objetos.

Curiosamente, YOLOv10 utiliza capas de atención basadas en transformadores (partes del modelo que actúan como un foco para resaltar las zonas más importantes de una imagen e ignorar los detalles menos relevantes) para mejorar su rendimiento. 

Ao Wang también mencionó cómo la IA generativa está cambiando la forma de entrenar los modelos. Técnicas como el modelado de imágenes enmascaradas ayudan a la IA a aprender de las imágenes de forma más eficiente, reduciendo la necesidad de grandes conjuntos de datos etiquetados manualmente. De este modo, la formación en visión por ordenador es más rápida y consume menos recursos.

El futuro de la IA generativa y la IA de visión 

Otra idea clave del panel fue cómo la IA generativa y la IA de visión podrían unirse para construir modelos más capaces. Glenn Jocher explicó que, aunque estos dos enfoques tienen puntos fuertes diferentes, combinarlos podría abrir nuevas posibilidades. 

Por ejemplo, los modelos de IA de visión como YOLO suelen dividir una imagen en una cuadrícula para identificar objetos. Este método basado en cuadrículas podría ayudar a los modelos lingüísticos a mejorar su capacidad tanto para identificar detalles como para describirlos, un reto al que muchos modelos lingüísticos se enfrentan hoy en día. En esencia, la fusión de estas técnicas podría dar lugar a sistemas capaces de detectar con precisión y explicar con claridad lo que ven.

__wf_reserved_inherit
Fig. 4. El futuro de la IA generativa y Vision. Imagen del autor.

Principales conclusiones

La IA Generativa y la visión por ordenador avanzan juntas. Aunque la IA generativa crea imágenes y vídeos, también mejora el análisis de imágenes y vídeos aportando nuevas ideas innovadoras que podrían hacer que los modelos de IA de visión fueran más precisos y eficientes. 

En esta interesante charla del YV24, Glenn Jocher, Jing Qiu y Ao Wang compartieron sus ideas sobre cómo estas tecnologías están dando forma al futuro. Con un mejor hardware de IA, la IA generativa y la IA de visión seguirán evolucionando, dando lugar a innovaciones aún mayores. Estos dos campos trabajan juntos para crear una IA más inteligente, rápida y útil para la vida cotidiana.

Únete a nuestra comunidad y explora nuestro repositorio GitHub para aprender más sobre Vision AI. Consulte nuestras opciones de licencia para poner en marcha sus proyectos de visión por ordenador. ¿Le interesan innovaciones como la IA en la fabricación o la visión por ordenador en la conducción autónoma? Visite nuestras páginas de soluciones para obtener más información. 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles