Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra ideas interesantes de una mesa redonda en YOLO Vision 2024. Explore cómo la IA generativa está dando forma al camino a seguir para los modelos de IA visual en tiempo real.
La IA generativa es una rama de la inteligencia artificial (IA) que crea contenido nuevo, como imágenes, texto o audio, aprendiendo patrones de datos existentes. Gracias a los recientes avances, ahora se puede utilizar para producir contenido muy realista que a menudo imita la creatividad humana.
Sin embargo, el impacto de la IA generativa va más allá de la simple creación de contenido. A medida que los modelos de visión artificial en tiempo real como los modelos YOLO de Ultralytics continúan evolucionando, la IA generativa también está redefiniendo cómo se procesan y aumentan los datos visuales, allanando el camino para aplicaciones innovadoras en escenarios del mundo real.
Este nuevo cambio tecnológico fue un tema de conversación interesante en YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics. YV24 reunió a entusiastas de la IA y líderes de la industria para discutir los últimos avances en visión artificial. El evento se centró en la innovación, la eficiencia y el futuro de las soluciones de IA en tiempo real.
Uno de los aspectos más destacados del evento fue una mesa redonda sobre YOLO en la era de la IA generativa. El panel contó con Glenn Jocher, fundador y CEO de Ultralytics, Jing Qiu, ingeniero senior de aprendizaje automático en Ultralytics, y Ao Wang de la Universidad de Tsinghua. Exploraron cómo la IA generativa está influyendo en la visión artificial y los retos de construir modelos de IA prácticos.
En este artículo, retomaremos las ideas clave de su debate y analizaremos más de cerca cómo la IA generativa está transformando la IA de visión.
Desarrollo de los modelos Ultralytics YOLO
Junto a Glenn Jocher, muchos ingenieros cualificados han desempeñado un papel vital en el desarrollo de los modelos YOLO de Ultralytics. Uno de ellos, Jing Qiu, relató su inesperado comienzo con YOLO. Explicó que su pasión por la IA comenzó durante sus años universitarios. Pasó una cantidad significativa de tiempo explorando y aprendiendo sobre el campo. Jing Qiu recordó cómo conectó con Glenn Jocher en GitHub y se involucró en varios proyectos de IA.
Añadiendo a lo que dijo Jing Qiu, Glenn Jocher describió GitHub como "una forma increíble de compartir, donde personas que nunca has conocido se unen para ayudarse mutuamente, contribuyendo al trabajo de los demás. Es una gran comunidad y una forma realmente genial de empezar en la IA".
Fig. 1. Glenn Jocher y Jing Qiu hablando en el escenario en YV24.
El interés de Jing Qiu en la IA y su trabajo en Ultralytics YOLOv5 ayudaron a perfeccionar el modelo. Más tarde, desempeñó un papel clave en el desarrollo de Ultralytics YOLOv8, que introdujo nuevas mejoras. Lo describió como un viaje increíble. Hoy en día, Jing Qiu continúa mejorando y trabajando en modelos como Ultralytics YOLO11.
YOLOv10: Optimizado para el rendimiento en el mundo real
Unido al panel de debate de forma remota desde China, Ao Wang se presentó como estudiante de doctorado. Inicialmente, estudió ingeniería de software, pero su pasión por la IA le llevó a cambiar hacia la visión artificial y el aprendizaje profundo.
Su primer encuentro con el famoso modelo YOLO fue mientras experimentaba con varias técnicas y modelos de IA. Le impresionó su velocidad y precisión, lo que le inspiró a profundizar en tareas de visión artificial como la detección de objetos. Recientemente, Ao Wang contribuyó a YOLOv10, una versión reciente del modelo YOLO. Su investigación se centró en optimizar el modelo para que fuera más rápido y preciso.
La diferencia clave entre la IA generativa y la Visión Artificial
A continuación, el panel comenzó a debatir sobre la IA generativa, y Jing Qiu señaló que la IA generativa y la IA de visión tienen propósitos muy diferentes. La IA generativa crea o genera cosas como texto, imágenes y vídeos, mientras que la IA de visión analiza lo que ya existe, principalmente imágenes.
Glenn Jocher destacó que el tamaño también es una gran diferencia. Los modelos de IA generativa son enormes y, a menudo, contienen miles de millones de parámetros: configuraciones internas que ayudan al modelo a aprender de los datos. Los modelos de visión artificial son mucho más pequeños. Dijo: “El modelo YOLO más pequeño que tenemos es aproximadamente mil veces más pequeño que el LLM [Modelo de Lenguaje Grande] más pequeño. Por lo tanto, 3 millones de parámetros en comparación con tres mil millones”.
Fig. 3. El panel de discusión sobre IA generativa e IA de visión en YV24.
Jing Qiu añadió que los procesos de entrenamiento y despliegue de la IA generativa y la visión artificial también son muy diferentes. La IA generativa necesita servidores enormes y potentes para funcionar. Los modelos como YOLO, por otro lado, están diseñados para la eficiencia y pueden ser entrenados y desplegados en hardware estándar. Esto hace que los modelos Ultralytics YOLO sean más prácticos para el uso en el mundo real.
Aunque son diferentes, estos dos campos están empezando a entrelazarse. Glenn Jocher explicó que la IA generativa está aportando nuevos avances a la IA visual, haciendo que los modelos sean más inteligentes y eficientes.
El impacto de la IA generativa en la visión artificial
La IA generativa ha avanzado rápidamente, y estos avances están influyendo en muchas otras áreas de la inteligencia artificial, incluida la visión artificial. A continuación, repasemos algunas ideas fascinantes del panel sobre este tema.
Los avances en hardware están permitiendo innovaciones en IA
Al principio del panel, Glenn Jocher explicó que las ideas de aprendizaje automático existen desde hace mucho tiempo, pero los ordenadores no eran lo suficientemente potentes como para hacerlas funcionar. Las ideas de la IA necesitaban un hardware más potente para hacerse realidad.
El auge de las GPU (unidades de procesamiento gráfico) en los últimos 20 años con capacidades de procesamiento paralelo lo cambió todo. Hicieron que el entrenamiento de modelos de IA fuera mucho más rápido y eficiente, lo que permitió que el aprendizaje profundo se desarrollara a un ritmo rápido.
Hoy en día, los chips de IA como las TPU (unidades de procesamiento tensorial) y las GPU optimizadas utilizan menos energía al tiempo que gestionan modelos más grandes y complejos. Esto ha hecho que la IA sea más accesible y útil en aplicaciones del mundo real.
Con cada nueva mejora de hardware, tanto la IA generativa como las aplicaciones de visión artificial son cada vez más potentes. Estos avances están haciendo que la IA en tiempo real sea más rápida, eficiente y esté lista para su uso en más industrias.
Cómo la IA generativa está moldeando los modelos de detección de objetos
Cuando se le preguntó cómo la IA generativa está influyendo en la visión artificial, Jing Qiu dijo que los transformers - modelos que ayudan a la IA a centrarse en las partes más importantes de una imagen - han cambiado la forma en que la IA entiende y procesa las imágenes. El primer gran paso fue DETR (Detection Transformer), que utilizó este nuevo enfoque para la detección de objetos. Mejoró la precisión, pero tuvo problemas de rendimiento que lo hicieron más lento en algunos casos.
Para solucionar esto, los investigadores crearon modelos híbridos como RT-DETR. Estos modelos combinan Redes Neuronales Convolucionales (CNN, que son modelos de aprendizaje profundo que aprenden y extraen automáticamente características de las imágenes) y transformadores, equilibrando velocidad y precisión. Este enfoque aprovecha los beneficios de los transformadores al tiempo que hace que la detección de objetos sea más rápida.
Curiosamente, YOLOv10 utiliza capas de atención basadas en transformadores (partes del modelo que actúan como un foco para resaltar las áreas más importantes de una imagen, ignorando los detalles menos relevantes) para mejorar su rendimiento.
Ao Wang también mencionó cómo la IA generativa está cambiando la forma en que se entrenan los modelos. Técnicas como el modelado de imágenes enmascaradas ayudan a la IA a aprender de las imágenes de manera más eficiente, reduciendo la necesidad de grandes conjuntos de datos etiquetados manualmente. Esto hace que el entrenamiento de la visión artificial sea más rápido y requiera menos recursos.
El futuro de la IA generativa y la Vision AI
Otra idea clave que el panel discutió fue cómo la IA generativa y la visión artificial podrían unirse para construir modelos más capaces. Glenn Jocher explicó que si bien estos dos enfoques tienen diferentes fortalezas, combinarlos podría abrir nuevas posibilidades.
Por ejemplo, los modelos de IA de visión como YOLO a menudo dividen una imagen en una cuadrícula para identificar objetos. Este método basado en cuadrículas podría ayudar a los modelos de lenguaje a mejorar su capacidad tanto para identificar detalles como para describirlos, un reto al que se enfrentan muchos modelos de lenguaje en la actualidad. En esencia, la fusión de estas técnicas podría dar lugar a sistemas que puedan detectar con precisión y explicar claramente lo que ven.
Fig. 4. El futuro de la IA generativa y la IA de visión. Imagen del autor.
Conclusiones clave
La IA generativa y la visión artificial están avanzando juntas. Si bien la IA generativa crea imágenes y vídeos, también mejora el análisis de imágenes y vídeos aportando nuevas ideas innovadoras que podrían hacer que los modelos de Vision AI sean más precisos y eficientes.
En esta perspicaz charla del panel de YV24, Glenn Jocher, Jing Qiu y Ao Wang compartieron sus ideas sobre cómo estas tecnologías están dando forma al futuro. Con un mejor hardware de IA, la IA generativa y la IA de visión seguirán evolucionando, lo que conducirá a innovaciones aún mayores. Estos dos campos están trabajando juntos para crear una IA más inteligente, rápida y útil para la vida cotidiana.