IA de visión

Generando vídeos con Veo de Google DeepMind

Aprende más sobre Veo, el último modelo de vídeo generativo de Google DeepMind que puede crear sin esfuerzo vídeos de alta calidad 1080P a partir de texto, imágenes y avisos de vídeo.

ABAbirami Vina

6 min readMay 15, 2024

El modelo de vídeo generativo Veo de Google DeepMind

Durante la presentación de Google I/O 2024 del 14 de mayo, compartieron las últimas actualizaciones de DeepMind, su división de IA. Uno de los avances más interesantes fue su nuevo modelo de vídeo generativo, Veo. Veo puede crear vídeos de alta calidad en 1080P basados en instrucciones de texto, imagen y vídeo. Incluso te permite editar vídeos generados con instrucciones posteriores. Veo lleva la IA generativa al siguiente nivel. Echemos un vistazo más de cerca a las funciones que ofrece Veo.

Link to this sectionComprender las capacidades de Veo#

Veo es un modelo de vídeo generativo que utiliza una comprensión profunda del lenguaje y los aspectos visuales para crear vídeos que coinciden estrechamente con la visión creativa del usuario. Puede capturar el tono y los detalles de las instrucciones más largas con precisión, lo que lo convierte en una herramienta potente para los creadores que quieren transformar sus ideas en contenido de vídeo preciso.

El usuario puede tener un control creativo innovador sobre el vídeo generado, porque Veo puede entender técnicas cinematográficas como "timelapse" y "tomas aéreas de un paisaje". Este control creativo permite a los usuarios crear vídeos donde personas, animales y objetos se mueven de forma natural. Los vídeos generados por Veo son atractivos y llamativos visualmente, porque es difícil notar que han sido generados por un modelo de IA.

Veo va más allá de simplemente crear vídeos a partir de instrucciones. Si proporcionas un vídeo generado anteriormente y una solicitud de edición específica, como insertar kayaks en una vista aérea de una costa, Veo puede integrar este cambio perfectamente en el vídeo original, produciendo una versión actualizada.

Un ejemplo de edición de vídeo usando Veo

Fig 1. Un ejemplo de edición de vídeo usando Veo.

Aquí tienes algunas funciones más que ofrece Veo:

Edición con máscara: Veo puede ayudarte a editar áreas definidas de un vídeo.
Creación de vídeo inspirada en imágenes: Usando una imagen y una instrucción de texto, Veo puede generar vídeos que reflejan el estilo de la imagen y siguen las directrices de la instrucción.
Clips de vídeo extendidos: Veo puede crear y extender clips de vídeo hasta 60 segundos o más, ya sea desde una única instrucción o una secuencia de instrucciones que juntas cuentan una historia.

Link to this sectionVídeos impresionantes que ha generado Veo#

Repasemos algunos de los vídeos que ha generado Veo y por qué son tan impresionantes.

Generar un vídeo de un timelapse a partir de una breve instrucción de texto es un desafío. Por lo general, la breve instrucción de texto no puede transmitir con precisión los cambios y movimientos dentro de la escena del timelapse. Por eso, es sorprendente que Veo pueda entender qué esperar de un timelapse sin entrar en los detalles.

Un fotograma del vídeo time-lapse generado por Veo

Fig 2. Un fotograma del vídeo timelapse generado por Veo.

De igual manera, generar vídeos con una física precisa no es fácil. El modelo de IA necesita entender y simular las leyes de la física como la gravedad, el momento y las colisiones para hacer que los movimientos y las interacciones parezcan realistas. Es impresionante que Veo sea capaz de modelar estas dinámicas con precisión sin una guía detallada de las instrucciones de texto.

Un fotograma de un vídeo generado usando Veo que captura la física del movimiento de las medusas

Fig 3. Un fotograma de un vídeo generado usando Veo que captura con precisión la física del movimiento de las medusas.

Hasta ahora, solo hemos visto vídeos más cortos generados por IA debido a las limitaciones computacionales y la complejidad de mantener la coherencia en secuencias más largas. En la presentación de Google I/O 2024 se mostró la asombrosa capacidad de Veo para crear vídeos más largos e intrincados.

Fotogramas del vídeo más largo de Veo mostrado en la presentación del Google I/O 2024

Fig 4. Fotogramas del vídeo más largo de Veo mostrado en la presentación de Google I/O 2024.

Link to this section¿Cómo funciona Veo?#

Como muchos otros modelos de IA, Veo se apoya en gigantes. Se basa en avances previos como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, así como en la arquitectura Transformer patentada de Google y Gemini. Además, para mejorar la capacidad de Veo para interpretar las instrucciones con precisión, los subtítulos de cada vídeo en su conjunto de datos de entrenamiento eran más detallados.

Basado en el flujo de trabajo aproximado del modelo compartido por Google, así es como funciona Veo:

Instrucciones de entrada: Proporcionas una instrucción de texto y, opcionalmente, una instrucción de imagen.
Codificación: La instrucción de texto es procesada por un codificador UL2 y la instrucción de imagen es procesada por un codificador de imagen.
Instrucción integrada: Las salidas de los codificadores de texto e imagen se combinan para formar una única instrucción integrada.
Modelo de difusión latente: La instrucción integrada y un vídeo comprimido con ruido se pasan a este modelo que genera un vídeo comprimido usándolos. Veo utiliza representaciones de vídeo comprimidas de alta calidad, conocidas como latentes, para mejorar la eficiencia mientras mantiene la calidad.
Decodificación: El paso final decodifica la salida de vídeo 1080p a partir del vídeo comprimido.

Diagrama que muestra cómo funciona Veo

Fig 5. Cómo funciona Veo.

Link to this sectionUn estudio de caso convincente en la cinematografía#

Para poner a prueba las capacidades de Veo, Google se asoció con el cineasta Donald Glover y su estudio creativo, Gilga. Usaron Veo para explorar varias técnicas creativas, incluyendo tomas de seguimiento dinámico, que requieren un movimiento preciso y un encuadre constante.

Uso de Veo en el proceso de creación cinematográfica

Fig 6. Usando Veo en el proceso de cinematografía.

Tradicionalmente, los cineastas se enfrentan a limitaciones debido a restricciones de tiempo y recursos. Con Veo, Glover y su equipo pudieron experimentar rápidamente y generar tomas complejas, lo que, a su vez, proporcionó más flexibilidad e innovación en el proceso de cinematografía.

Con Veo, Glover y su equipo pudieron experimentar rápidamente y generar tomas complejas antes del rodaje real. Por ejemplo, podían probar varias tomas de seguimiento dinámico para ver cómo quedarían y hacer ajustes según fuera necesario. Este proceso de previsualización les ayudó a refinar sus ideas y asegurar que las tomas funcionaran como se pretendía, reduciendo finalmente el número de tomas requeridas durante el rodaje real. Pudieron crear un estudio de caso convincente para demostrar el potencial de Veo para cambiar la industria cinematográfica. Ofrece una forma más rápida y eficiente de hacer realidad las visiones creativas.

Link to this sectionUsos prácticos de Veo en varias industrias#

Las capacidades avanzadas de generación de vídeo de Veo tienen aplicaciones prácticas en muchas industrias. En publicidad, puede producir rápidamente anuncios personalizados y de alta calidad para audiencias objetivo, ahorrando tiempo y costes de producción. En educación, Veo puede crear vídeos instructivos atractivos, haciendo que conceptos complejos sean más fáciles de entender.

Las empresas pueden usar Veo para formación y comunicaciones corporativas. Los profesionales de la salud podrían usar Veo para simular procedimientos médicos con fines formativos. En cuanto a eventos virtuales y conferencias, Veo puede crear simulaciones realistas de lugares y escenarios, ofreciendo a los asistentes una experiencia atractiva e interactiva desde cualquier lugar. Los organizadores se benefician de un mayor alcance y conocimientos valiosos para eventos futuros. Gracias a Veo, se han abierto innumerables oportunidades.

Cuando un modelo de IA tiene el potencial de tocar diferentes industrias, es importante tener en cuenta la seguridad y la IA ética. Para permitir una adopción más amplia y garantizar un uso responsable, Google ha implementado varias medidas de seguridad. Los vídeos creados por Veo llevan una marca de agua usando SynthID, una herramienta para marcar y identificar contenido generado por IA. SynthID garantiza la transparencia y ayuda a mitigar riesgos de privacidad, derechos de autor y sesgos. Aparte de esto, todos los vídeos generados pasan por filtros de seguridad y procesos de verificación de memorización. Estas salvaguardas hacen de Veo una herramienta valiosa y ética que apoya la producción de vídeo responsable e innovadora.

Link to this sectionDónde acceder a Veo#

En las próximas semanas, Google comenzará a ofrecer algunas de las funciones innovadoras de Veo a creadores seleccionados a través de VideoFX, una nueva herramienta disponible en labs.google. Esta iniciativa permite un acceso temprano a las capacidades avanzadas de generación de vídeo de Veo, dando a los creadores la oportunidad de experimentar con sus funciones innovadoras. La lista de espera para Veo está actualmente abierta, invitando a los creadores interesados a registrarse y usar las potentes herramientas de Veo en sus proyectos.

Link to this sectionMás sobre las actualizaciones de IA generativa de 2024 de DeepMind#

Además de Veo, DeepMind ha presentado varias actualizaciones de vanguardia en IA generativa para 2024. Una de estas actualizaciones es Imagen 3, su modelo de texto a imagen más avanzado hasta la fecha. Imagen 3 destaca en la creación de imágenes fotorrealistas y realistas. Entiende profundamente las instrucciones en lenguaje natural y captura detalles intrincados mientras minimiza los artefactos visuales.

Una imagen generada usando Imagen 3

Fig 7. Una imagen generada usando Imagen 3.

DeepMind también ha desarrollado Lyria, su modelo más avanzado para la generación de música con IA. Como parte de este esfuerzo, DeepMind ha creado un conjunto de herramientas de IA musical llamado Music AI Sandbox. Estas herramientas permiten a músicos y productores explorar nuevas posibilidades creativas en la composición musical y la transformación del sonido.

Un ejemplo de la interfaz de usuario de las herramientas de música de IA de DeepMind

Fig 8. Un ejemplo de interfaz de usuario de las herramientas de IA musical de DeepMind.

Similar a Veo, DeepMind ha implementado varias medidas de seguridad con respecto a sus otras actualizaciones también. El SynthID se utilizará en estas actualizaciones como una herramienta para marcar e identificar contenido generado por IA. Estas actualizaciones de DeepMind prometen transformar varias industrias ofreciendo herramientas avanzadas, eficientes y responsables para crear contenido visual y de audio de alta calidad.

Link to this sectionNavegando por la siguiente fase de la IA generativa#

Los avances de IA generativa de 2024 de DeepMind, incluyendo Veo, Imagen 3 y Lyria, marcan un salto considerable en las capacidades de la IA. Veo transforma la creación de vídeo con su capacidad para generar vídeos 1080p de alta calidad a partir de simples instrucciones, convirtiéndolo en una herramienta versátil para cineastas y creadores de contenido. Imagen 3 brilla en la producción de imágenes fotorrealistas, mientras que Lyria introduce nuevas posibilidades en la generación de música con herramientas de IA avanzadas.

Estas tecnologías prometen transformar varias industrias proporcionando herramientas eficientes y responsables para crear contenido visual y de audio de alta calidad. Con medidas de seguridad como SynthID garantizando un uso ético, DeepMind continúa expandiendo los límites de la IA, allanando el camino para aplicaciones innovadoras en el futuro.

Sumérgete en la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Explora nuestras páginas de soluciones para aprender cómo se aplica la IA en fabricación y agricultura.

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Generando vídeos con Veo de Google DeepMind

Link to this sectionComprender las capacidades de Veo#

Link to this sectionVídeos impresionantes que ha generado Veo#

Link to this section¿Cómo funciona Veo?#

Link to this sectionUn estudio de caso convincente en la cinematografía#

Link to this sectionUsos prácticos de Veo en varias industrias#

Link to this sectionDónde acceder a Veo#

Link to this sectionMás sobre las actualizaciones de IA generativa de 2024 de DeepMind#

Link to this sectionNavegando por la siguiente fase de la IA generativa#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!