Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra los interesantes puntos de vista de una mesa redonda en YOLO Vision 2024. Descubra cómo la IA generativa está marcando el camino a seguir para los modelos de IA de Vision en tiempo real.
La IA generativa es una rama de la inteligencia artificial (IA) que crea contenido nuevo, como imágenes, texto o audio, aprendiendo patrones de datos existentes. Gracias a los recientes avances, ahora se puede utilizar para producir contenido muy realista que a menudo imita la creatividad humana.
Sin embargo, el impacto de la IA generativa va más allá de la mera creación de contenidos. A medida que los modelos de visión por ordenador en tiempo real, como los modelosYOLO Ultralytics , siguen evolucionando, la IA generativa también está redefiniendo cómo se procesan y aumentan los datos visuales, allanando el camino para aplicaciones innovadoras en escenarios del mundo real.
Este nuevo cambio tecnológico fue un interesante tema de conversación en YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics. YV24 reunió a entusiastas de la IA y líderes del sector para debatir sobre los últimos avances en visión por ordenador. El evento se centró en la innovación, la eficiencia y el futuro de las soluciones de IA en tiempo real.
Uno de los aspectos más destacados del evento fue una mesa redonda sobre YOLO en la era de la IA generativa. En ella participaron Glenn Jocher, fundador y consejero delegado de Ultralytics, Jing Qiu, ingeniero jefe de aprendizaje automático de Ultralytics, y Ao Wang, de la Universidad de Tsinghua. Analizaron la influencia de la IA generativa en la visión por ordenador y los retos que plantea la creación de modelos prácticos de IA.
En este artículo, retomaremos las ideas clave de su debate y analizaremos más de cerca cómo la IA generativa está transformando la IA de visión.
Desarrollo de los modelosYOLO Ultralytics
Junto a Glenn Jocher, muchos ingenieros cualificados han desempeñado un papel vital en el desarrollo de los modelosYOLO Ultralytics . Uno de ellos, Jing Qiu, relató su inesperado comienzo con YOLO. Explicó que su pasión por la IA comenzó durante sus años universitarios. Pasó mucho tiempo explorando y aprendiendo sobre este campo. Jing Qiu recordó cómo conectó con Glenn Jocher en GitHub y se involucró en varios proyectos de IA.
Añadiendo a lo que dijo Jing Qiu, Glenn Jocher describió GitHub como "una forma increíble de compartir, donde personas que nunca has conocido se unen para ayudarse mutuamente, contribuyendo al trabajo de los demás. Es una gran comunidad y una forma realmente genial de empezar en la IA".
Fig. 1. Glenn Jocher y Jing Qiu hablando en el escenario en YV24.
El interés de Jing Qiu por la IA y su trabajo en Ultralytics YOLOv5 ayudaron a perfeccionar el modelo. Más tarde, desempeñó un papel clave en el desarrollo de Ultralytics YOLOv8que introdujo nuevas mejoras. Lo describió como un viaje increíble. En la actualidad, Jing Qiu sigue mejorando y trabajando en modelos como Ultralytics YOLO11.
YOLOv10: optimizado para el rendimiento en el mundo real
Unido al panel de debate de forma remota desde China, Ao Wang se presentó como estudiante de doctorado. Inicialmente, estudió ingeniería de software, pero su pasión por la IA le llevó a cambiar hacia la visión artificial y el aprendizaje profundo.
Su primer encuentro con el famoso modelo YOLO fue mientras experimentaba con diversas técnicas y modelos de IA. Quedó impresionado por su velocidad y precisión, lo que le inspiró para profundizar en tareas de visión por ordenador como la detección de objetos. Recientemente, Ao Wang contribuyó a YOLOv10, una versión reciente del modelo YOLO . Su investigación se centró en optimizar el modelo para que fuera más rápido y preciso.
La diferencia clave entre la IA generativa y la Visión Artificial
A continuación, el panel comenzó a debatir sobre la IA generativa, y Jing Qiu señaló que la IA generativa y la IA de visión tienen propósitos muy diferentes. La IA generativa crea o genera cosas como texto, imágenes y vídeos, mientras que la IA de visión analiza lo que ya existe, principalmente imágenes.
Glenn Jocher destacó que el tamaño también es una gran diferencia. Los modelos generativos de IA son enormes y a menudo contienen miles de millones de parámetros, es decir, ajustes internos que ayudan al modelo a aprender de los datos. Los modelos de visión por ordenador son mucho más pequeños. El modelo YOLO más pequeño que tenemos es unas mil veces más pequeño que el LLM [Large Language Model] más pequeño. O sea, tres millones de parámetros frente a tres mil millones".
Fig. 3. El panel de discusión sobre IA generativa e IA de visión en YV24.
Jing Qiu añadió que los procesos de formación e implantación de la IA generativa y la visión por ordenador son también muy diferentes. La IA generativa necesita servidores enormes y potentes para funcionar. Los modelos como YOLO, por el contrario, se construyen para ser eficientes y pueden entrenarse y desplegarse en hardware estándar. Esto hace que los modelosYOLO Ultralytics sean más prácticos para su uso en el mundo real.
Aunque son diferentes, estos dos campos están empezando a entrelazarse. Glenn Jocher explicó que la IA generativa está aportando nuevos avances a la IA visual, haciendo que los modelos sean más inteligentes y eficientes.
El impacto de la IA generativa en la visión artificial
La IA generativa ha avanzado rápidamente, y estos avances están influyendo en muchas otras áreas de la inteligencia artificial, incluida la visión artificial. A continuación, repasemos algunas ideas fascinantes del panel sobre este tema.
Los avances en hardware están permitiendo innovaciones en IA
Al principio del panel, Glenn Jocher explicó que las ideas de aprendizaje automático existen desde hace mucho tiempo, pero los ordenadores no eran lo suficientemente potentes como para hacerlas funcionar. Las ideas de la IA necesitaban un hardware más potente para hacerse realidad.
El auge de las GPU (unidades de procesamiento gráfico) en los últimos 20 años con capacidades de procesamiento paralelo lo cambió todo. Hicieron que el entrenamiento de modelos de IA fuera mucho más rápido y eficiente, lo que permitió que el aprendizaje profundo se desarrollara a un ritmo rápido.
Hoy en día, los chips de IA como las TPU (unidades de procesamientoTensor ) y las GPU optimizadas consumen menos energía a la vez que manejan modelos más grandes y complejos. Esto ha hecho que la IA sea más accesible y útil en aplicaciones del mundo real.
Con cada nueva mejora de hardware, tanto la IA generativa como las aplicaciones de visión artificial son cada vez más potentes. Estos avances están haciendo que la IA en tiempo real sea más rápida, eficiente y esté lista para su uso en más industrias.
Cómo la IA generativa está moldeando los modelos de detección de objetos
Cuando se le preguntó cómo la IA generativa está influyendo en la visión artificial, Jing Qiu dijo que los transformers - modelos que ayudan a la IA a centrarse en las partes más importantes de una imagen - han cambiado la forma en que la IA entiende y procesa las imágenes. El primer gran paso fue DETR (Detection Transformer), que utilizó este nuevo enfoque para la detección de objetos. Mejoró la precisión, pero tuvo problemas de rendimiento que lo hicieron más lento en algunos casos.
Para solucionarlo, los investigadores crearon modelos híbridos como RT-DETR. Estos modelos combinan redes neuronales convolucionales (CNN, que son modelos de aprendizaje profundo que aprenden y extraen automáticamente características de las imágenes) y transformadores, equilibrando velocidad y precisión. Este enfoque aprovecha las ventajas de los transformadores y agiliza la detección de objetos.
Interesante, YOLOv10 utiliza capas de atención basadas en transformadores (partes del modelo que actúan como un foco para resaltar las zonas más importantes de una imagen e ignorar los detalles menos relevantes) para mejorar su rendimiento.
Ao Wang también mencionó cómo la IA generativa está cambiando la forma en que se entrenan los modelos. Técnicas como el modelado de imágenes enmascaradas ayudan a la IA a aprender de las imágenes de manera más eficiente, reduciendo la necesidad de grandes conjuntos de datos etiquetados manualmente. Esto hace que el entrenamiento de la visión artificial sea más rápido y requiera menos recursos.
El futuro de la IA generativa y la Vision AI
Otra idea clave que el panel discutió fue cómo la IA generativa y la visión artificial podrían unirse para construir modelos más capaces. Glenn Jocher explicó que si bien estos dos enfoques tienen diferentes fortalezas, combinarlos podría abrir nuevas posibilidades.
Por ejemplo, los modelos de IA de visión como YOLO suelen dividir una imagen en una cuadrícula para identificar objetos. Este método basado en cuadrículas podría ayudar a los modelos lingüísticos a mejorar su capacidad tanto para identificar detalles como para describirlos, un reto al que muchos modelos lingüísticos se enfrentan hoy en día. En esencia, la fusión de estas técnicas podría dar lugar a sistemas capaces de detect con precisión y explicar con claridad lo que ven.
Fig. 4. El futuro de la IA generativa y la IA de visión. Imagen del autor.
Conclusiones clave
La IA generativa y la visión artificial están avanzando juntas. Si bien la IA generativa crea imágenes y vídeos, también mejora el análisis de imágenes y vídeos aportando nuevas ideas innovadoras que podrían hacer que los modelos de Vision AI sean más precisos y eficientes.
En esta perspicaz charla del panel de YV24, Glenn Jocher, Jing Qiu y Ao Wang compartieron sus ideas sobre cómo estas tecnologías están dando forma al futuro. Con un mejor hardware de IA, la IA generativa y la IA de visión seguirán evolucionando, lo que conducirá a innovaciones aún mayores. Estos dos campos están trabajando juntos para crear una IA más inteligente, rápida y útil para la vida cotidiana.