La IA generativa está cambiando el futuro de la visión artificial
Descubre perspectivas interesantes de una mesa redonda en YOLO Vision 2024. Explora cómo la IA generativa está marcando el camino a seguir para los modelos de IA de visión en tiempo real.

La IA generativa es una rama de la inteligencia artificial (IA) que crea nuevo contenido, como imágenes, texto o audio, al aprender patrones de datos existentes. Gracias a los avances recientes, ahora se puede utilizar para producir contenido altamente realista que a menudo imita la creatividad humana.
Sin embargo, el impacto de la IA generativa va más allá de solo crear contenido. A medida que los modelos de visión artificial en tiempo real, como los modelos Ultralytics YOLO, siguen evolucionando, la IA generativa también está redefiniendo la forma en que se procesan y aumentan los datos visuales, allanando el camino para aplicaciones innovadoras en escenarios del mundo real.
Este nuevo cambio tecnológico fue un tema de conversación interesante en YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics. YV24 reunió a entusiastas de la IA y líderes de la industria para discutir los últimos avances en visión artificial. El evento se centró en la innovación, la eficiencia y el futuro de las soluciones de IA en tiempo real.
Uno de los puntos destacados del evento fue una mesa redonda sobre YOLO en la era de la IA generativa. El panel contó con Glenn Jocher, fundador y director ejecutivo de Ultralytics, Jing Qiu, ingeniero sénior de aprendizaje automático en Ultralytics, y Ao Wang de la Universidad de Tsinghua. Exploraron cómo la IA generativa está influyendo en la visión artificial y los desafíos de construir modelos de IA prácticos.
En este artículo, repasaremos las ideas clave de su debate y analizaremos más de cerca cómo la IA generativa está transformando la IA de visión.
Link to this sectionDesarrollo de los modelos Ultralytics YOLO#
Junto a Glenn Jocher, muchos ingenieros cualificados han desempeñado un papel vital en el desarrollo de los modelos Ultralytics YOLO. Uno de ellos, Jing Qiu, relató su inesperado comienzo con YOLO. Explicó que su pasión por la IA comenzó durante sus años universitarios. Dedicó una cantidad significativa de tiempo a explorar y aprender sobre el campo. Jing Qiu recordó cómo se puso en contacto con Glenn Jocher en GitHub y se involucró en varios proyectos de IA.
Añadiendo a lo que dijo Jing Qiu, Glenn Jocher describió GitHub como "una forma increíble de compartir, donde personas que nunca has conocido se unen para ayudarse mutuamente, contribuyendo al trabajo de los demás. Es una gran comunidad y una manera realmente genial de empezar en la IA".

Fig 1. Glenn Jocher y Jing Qiu hablando en el escenario en YV24.
El interés de Jing Qiu por la IA y su trabajo en Ultralytics YOLOv5 ayudaron a perfeccionar el modelo. Más tarde, desempeñó un papel clave en el desarrollo de Ultralytics YOLOv8, que introdujo mejoras adicionales. Lo describió como un viaje increíble. Hoy en día, Jing Qiu sigue mejorando y trabajando en modelos como Ultralytics YOLO11.
Link to this sectionYOLOv10: Optimizado para el rendimiento en el mundo real#
Uniéndose a la mesa redonda de forma remota desde China, Ao Wang se presentó como estudiante de doctorado. Inicialmente, estudió ingeniería de software, pero su pasión por la IA lo llevó a inclinarse hacia la visión artificial y el aprendizaje profundo.
Su primer encuentro con el famoso modelo YOLO fue mientras experimentaba con diversas técnicas y modelos de IA. Quedó impresionado por su velocidad y precisión, lo que le inspiró a profundizar en tareas de visión artificial como la detección de objetos. Recientemente, Ao Wang contribuyó a YOLOv10, una versión reciente del modelo YOLO. Su investigación se centró en optimizar el modelo para que fuera más rápido y preciso.
Link to this sectionLa diferencia clave entre la IA generativa y la IA de visión#
Entonces, el panel comenzó a debatir sobre la IA generativa, y Jing Qiu señaló que la IA generativa y la IA de visión tienen propósitos muy diferentes. La IA generativa crea o genera cosas como texto, imágenes y vídeos, mientras que la IA de visión analiza lo que ya existe, principalmente imágenes.
Glenn Jocher destacó que el tamaño también es una gran diferencia. Los modelos de IA generativa son masivos y a menudo contienen miles de millones de parámetros: configuraciones internas que ayudan al modelo a aprender de los datos. Los modelos de visión artificial son mucho más pequeños. Dijo: "El modelo YOLO más pequeño que tenemos es unas mil veces más pequeño que el LLM [Modelo de lenguaje grande] más pequeño. Es decir, 3 millones de parámetros en comparación con tres mil millones".

Fig 2. El debate del panel sobre IA generativa e IA de visión en YV24.
Jing Qiu añadió que los procesos de entrenamiento y despliegue de la IA generativa y la visión artificial también son muy diferentes. La IA generativa necesita servidores enormes y potentes para funcionar. Los modelos como YOLO, por otro lado, están creados para la eficiencia y pueden entrenarse y desplegarse en hardware estándar. Eso hace que los modelos Ultralytics YOLO sean más prácticos para su uso en el mundo real.
Aunque son diferentes, estos dos campos están empezando a entrelazarse. Glenn Jocher explicó que la IA generativa está aportando nuevos avances a la IA de visión, haciendo que los modelos sean más inteligentes y eficientes.
Link to this sectionEl impacto de la IA generativa en la visión artificial#
La IA generativa ha avanzado rápidamente y estos avances están influyendo en muchas otras áreas de la inteligencia artificial, incluida la visión artificial. A continuación, repasemos algunas ideas fascinantes del panel al respecto.
Link to this sectionLos avances en hardware están impulsando las innovaciones de IA#
Al principio del panel, Glenn Jocher explicó que las ideas de aprendizaje automático existen desde hace mucho tiempo, pero las computadoras no eran lo suficientemente potentes para hacerlas funcionar. Las ideas de IA necesitaban un hardware más fuerte para hacerse realidad.
El auge de las GPUs (unidades de procesamiento gráfico) en los últimos 20 años con capacidades de procesamiento paralelo lo cambió todo. Hicieron que el entrenamiento de modelos de IA fuera mucho más rápido y eficiente, lo que permitió que el aprendizaje profundo se desarrollara a un ritmo acelerado.
Hoy en día, los chips de IA como las TPUs (unidades de procesamiento tensorial) y las GPUs optimizadas consumen menos energía mientras manejan modelos más grandes y complejos. Esto ha hecho que la IA sea más accesible y útil en aplicaciones del mundo real.
Con cada mejora del hardware, tanto la IA generativa como las aplicaciones de visión artificial se vuelven más potentes. Estos avances están haciendo que la IA en tiempo real sea más rápida, más eficiente y esté lista para su uso en más sectores.
Link to this sectionCómo la IA generativa está dando forma a los modelos de detección de objetos#
Cuando se le preguntó cómo está influyendo la IA generativa en la visión artificial, Jing Qiu dijo que los transformers, modelos que ayudan a la IA a centrarse en las partes más importantes de una imagen, han cambiado la forma en que la IA entiende y procesa las imágenes. El primer gran paso fue DETR (Detection Transformer), que utilizó este nuevo enfoque para la detección de objetos. Mejoró la precisión pero tuvo problemas de rendimiento que lo hicieron más lento en algunos casos.
Para resolver esto, los investigadores crearon modelos híbridos como RT-DETR. Estos modelos combinan redes neuronales convolucionales (CNN, que son modelos de aprendizaje profundo que aprenden y extraen automáticamente características de las imágenes) y transformers, equilibrando la velocidad y la precisión. Este enfoque aprovecha los beneficios de los transformers al tiempo que hace que la detección de objetos sea más rápida.
Curiosamente, YOLOv10 utiliza capas de atención basadas en transformers (partes del modelo que actúan como un foco para resaltar las áreas más importantes de una imagen mientras ignoran detalles menos relevantes) para aumentar su rendimiento.
Ao Wang también mencionó cómo la IA generativa está cambiando la forma en que se entrenan los modelos. Técnicas como el modelado de imágenes enmascaradas ayudan a la IA a aprender de las imágenes de manera más eficiente, reduciendo la necesidad de grandes conjuntos de datos etiquetados manualmente. Esto hace que el entrenamiento de la visión artificial sea más rápido y consuma menos recursos.
Link to this sectionEl futuro de la IA generativa y la IA de visión#
Otra idea clave que discutió el panel fue cómo la IA generativa y la IA de visión podrían unirse para construir modelos más capaces. Glenn Jocher explicó que, si bien estos dos enfoques tienen fortalezas diferentes, combinarlos podría abrir nuevas posibilidades.
Por ejemplo, los modelos de IA de visión como YOLO a menudo dividen una imagen en una cuadrícula para identificar objetos. Este método basado en cuadrículas podría ayudar a los modelos de lenguaje a mejorar su capacidad tanto para identificar detalles como para describirlos, un desafío al que se enfrentan muchos modelos de lenguaje hoy en día. En esencia, fusionar estas técnicas podría conducir a sistemas que puedan detectar con precisión y explicar claramente lo que ven.

Fig 3. El futuro de la IA generativa y la IA de visión. Imagen del autor.
Link to this sectionConclusiones clave#
La IA generativa y la visión artificial están avanzando juntas. Si bien la IA generativa crea imágenes y vídeos, también mejora el análisis de imágenes y vídeos al aportar nuevas ideas innovadoras que podrían hacer que los modelos de IA de visión sean más precisos y eficientes.
En esta reveladora mesa redonda de YV24, Glenn Jocher, Jing Qiu y Ao Wang compartieron sus opiniones sobre cómo estas tecnologías están dando forma al futuro. Con un mejor hardware de IA, la IA generativa y la IA de visión seguirán evolucionando, lo que dará lugar a innovaciones aún mayores. Estos dos campos están trabajando juntos para crear una IA más inteligente, rápida y útil para la vida cotidiana.
Únete a nuestra comunidad y explora nuestro repositorio de GitHub para aprender más sobre la IA de visión. Consulta nuestras opciones de licencia para poner en marcha tus proyectos de visión artificial. ¿Te interesan innovaciones como la IA en la fabricación o la visión artificial en la conducción autónoma? Visita nuestras páginas de soluciones para descubrir más.






