Generación de vídeos con Veo de Google DeepMind

Abirami Vina

6 min leer

15 de mayo de 2024

Más información sobre Veo, el último modelo de vídeo generativo de Google DeepMind que puede crear sin esfuerzo vídeos 1080P de alta calidad a partir de texto, imágenes y vídeos.

Durante la presentación de Google 2024 I/O el 14 de mayo, compartieron las últimas actualizaciones de DeepMind, su división de IA. Uno de los avances más interesantes fue su nuevo modelo de vídeo generativo, Veo. Veo puede crear vídeos de alta calidad a 1080P a partir de texto, imágenes y vídeos. Incluso permite editar los vídeos generados con indicaciones posteriores. Veo lleva la IA generativa al siguiente nivel. Echemos un vistazo a las funciones que ofrece Veo. 

Comprender las capacidades de Veo

Veo es un modelo de vídeo generativo que utiliza un profundo conocimiento del lenguaje y los elementos visuales para crear vídeos que se ajusten al máximo a la visión creativa del usuario. Puede captar con precisión el tono y los detalles de indicaciones más largas, lo que lo convierte en una potente herramienta para creadores que quieren transformar sus ideas en contenidos de vídeo precisos.

El usuario puede tener un control creativo sin precedentes sobre el vídeo generado porque Veo puede entender técnicas cinematográficas como "timelapse" y "tomas aéreas de un paisaje". Este control creativo permite a los usuarios crear vídeos en los que personas, animales y objetos se mueven con naturalidad. Los vídeos generados por Veo son atractivos y visualmente atrayentes porque es difícil darse cuenta de que han sido generados por un modelo de IA.

Veo va más allá de la mera creación de vídeos a partir de indicaciones. Si proporcionas un vídeo generado previamente y una solicitud de edición específica, como insertar kayaks en una vista aérea de una costa, Veo puede integrar perfectamente este cambio en el vídeo original, produciendo una versión actualizada.

__wf_reserved_inherit
Fig. 1. Ejemplo de edición de vídeo con Veo.

Estas son algunas de las funciones que ofrece Veo:

  • Edición enmascarada: Veo puede ayudarte a editar áreas definidas de un vídeo.
  • Creación de vídeos inspirados en imágenes: Utilizando una imagen y un texto, Veo puede generar vídeos que reflejen el estilo de la imagen y sigan las instrucciones del texto.
  • Clips de vídeo ampliados: Veo puede crear y ampliar videoclips de 60 segundos o más, ya sea a partir de una sola indicación o de una secuencia de indicaciones que juntas cuenten una historia.

Vídeos impresionantes generados por Veo

Veamos algunos de los vídeos que ha generado Veo y por qué es tan impresionante. 

Generar un vídeo de un timelapse a partir de un texto breve es todo un reto. Normalmente, el texto corto no puede transmitir con precisión los cambios y movimientos dentro de la escena del timelapse. Por lo tanto, es sorprendente que Veo pueda entender qué esperar de un timelapse sin entrar en detalles. 

__wf_reserved_inherit
Fig. 2. Un fotograma del vídeo time-lapse generado por Veo.

Del mismo modo, generar vídeos con una física precisa no es fácil. El modelo de IA debe comprender y simular leyes físicas como la gravedad, el impulso y las colisiones para que los movimientos y las interacciones parezcan realistas. Es impresionante que Veo sea capaz de modelar con precisión estas dinámicas sin una guía detallada de indicaciones de texto.

__wf_reserved_inherit
Fig. 3. Un fotograma de un vídeo generado con Veo capta con precisión la física del movimiento de las medusas.

Hasta ahora, sólo habíamos visto vídeos más cortos generados por IA debido a las limitaciones computacionales y a la complejidad de mantener la coherencia en secuencias más largas. En la presentación de Google 2024 I/O se mostró la alucinante capacidad de Veo para crear vídeos más largos e intrincados.

__wf_reserved_inherit
Fig. 4. Fotogramas del vídeo más largo de Veo mostrado en la presentación de Google 2024 I/O.

¿Cómo funciona Veo?

Como muchos otros modelos de IA, Veo se apoya en gigantes. Se basa en avances anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, así como en la arquitectura Transformer y Gemini, propiedad de Google. Además, para mejorar la capacidad de Veo de interpretar las indicaciones con precisión, los subtítulos de cada vídeo de su conjunto de datos de entrenamiento eran más detallados. 

Basándonos en el modelo aproximado de flujo de trabajo compartido por Google, así es como funciona Veo:

  • Mensajes de entrada: Proporciona un mensaje de texto y, opcionalmente, un mensaje de imagen.
  • Codificación: El mensaje de texto es procesado por un codificador UL2, y el mensaje de imagen es procesado por un codificador de imagen.
  • Aviso integrado: Las salidas de los codificadores de texto e imagen se combinan para formar un único aviso incrustado.
  • Modelo de difusión latente: El aviso incrustado y un vídeo comprimido con ruido se pasan a este modelo que genera un vídeo comprimido utilizándolos. Veo utiliza representaciones de vídeo comprimido de alta calidad, conocidas como latentes, para mejorar la eficiencia manteniendo la calidad.
  • Descodificación: El paso final decodifica la salida de vídeo 1080p a partir del vídeo comprimido.
__wf_reserved_inherit
Fig. 5. Funcionamiento de Veo.

Un caso convincente de cine

Para probar las capacidades de Veo, Google se asoció con el cineasta Donald Glover y su estudio creativo, Gilga. Utilizaron Veo para explorar diversas técnicas creativas, como las tomas de seguimiento dinámico, que requieren un movimiento preciso y un encuadre coherente. 

__wf_reserved_inherit
Fig. 6. Utilización de Veo en el proceso de rodaje.

Tradicionalmente, los cineastas se enfrentan a limitaciones de tiempo y recursos. Con Veo, Glover y su equipo pudieron experimentar y generar rápidamente planos complejos, lo que, a su vez, aportó más flexibilidad e innovación al proceso de rodaje.

Con Veo, Glover y su equipo podían experimentar rápidamente y generar planos complejos antes del rodaje. Por ejemplo, podían probar varias tomas de seguimiento dinámico para ver cómo quedarían y hacer los ajustes necesarios. Este proceso de previsualización les ayudó a perfeccionar sus ideas y a asegurarse de que las tomas funcionarían según lo previsto, reduciendo en última instancia el número de tomas necesarias durante el rodaje real. Pudieron crear un estudio de caso convincente para demostrar el potencial de Veo para cambiar la industria cinematográfica. Ofrece una forma más rápida y eficaz de dar vida a visiones creativas.

Usos prácticos de Veo en diversas industrias 

Las avanzadas capacidades de generación de vídeo de Veo tienen aplicaciones prácticas en muchos sectores. En publicidad, puede producir rápidamente anuncios personalizados de alta calidad para audiencias específicas, ahorrando tiempo y costes de producción. En educación, Veo puede crear atractivos vídeos didácticos que facilitan la comprensión de conceptos complejos. 

Las empresas pueden utilizar Veo para formación y comunicaciones corporativas. Los profesionales de la salud pueden utilizar Veo para simular procedimientos médicos con fines de formación. En cuanto a los eventos y conferencias virtuales, Veo puede crear simulaciones realistas de lugares y escenarios, ofreciendo a los asistentes una experiencia atractiva e interactiva desde cualquier lugar. Los organizadores se benefician de un mayor alcance y de información valiosa para futuros eventos. Gracias a Veo, se han abierto innumerables oportunidades.

Cuando un modelo de IA tiene el potencial de afectar a diferentes sectores, es importante tener en cuenta la seguridad y la ética de la IA. Para permitir una adopción más amplia y garantizar un uso responsable, Google ha puesto en marcha varias medidas de seguridad. Los vídeos creados por Veo llevan una marca de agua que utiliza SynthID, una herramienta de marca de agua e identificación de contenidos generados por IA. SynthId garantiza la transparencia y ayuda a mitigar los riesgos relacionados con la privacidad, los derechos de autor y los prejuicios. Además, todos los vídeos generados pasan por filtros de seguridad y procesos de comprobación de memorización. Estas salvaguardas hacen de Veo una herramienta valiosa y ética que apoya una producción de vídeo responsable e innovadora.

Cómo acceder a Veo

En las próximas semanas, Google empezará a ofrecer algunas de las innovadoras funciones de Veo a creadores seleccionados a través de VideoFX, una nueva herramienta disponible en labs.google. Esta iniciativa permite un acceso temprano a las capacidades avanzadas de generación de vídeo de Veo, dando a los creadores la oportunidad de experimentar con sus innovadoras funciones. La lista de espera para Veo está actualmente abierta, invitando a los creadores interesados a inscribirse y utilizar las potentes herramientas de Veo en sus proyectos.

Más información sobre las actualizaciones de la IA generativa de DeepMind para 2024

Además de Veo, DeepMind ha introducido varias actualizaciones de vanguardia en IA generativa para 2024. Una de estas actualizaciones es Imagen 3, su modelo de conversión de texto a imagen más avanzado hasta la fecha. Imagen 3 destaca en la creación de imágenes fotorrealistas y realistas. Comprende a la perfección las indicaciones del lenguaje natural y captura detalles intrincados minimizando los artefactos visuales.

__wf_reserved_inherit
Fig. 7. Imagen generada con Imagen 3.

DeepMind también ha desarrollado Lyria, su modelo más avanzado para la generación de música por IA. Como parte de este esfuerzo, DeepMind ha creado un conjunto de herramientas de IA musical llamado Music AI Sandbox. Estas herramientas permiten a músicos y productores explorar nuevas posibilidades creativas en la composición musical y la transformación del sonido.

__wf_reserved_inherit
Fig. 8. Ejemplo de interfaz de usuario de las herramientas musicales de DeepMind.

De forma similar a Veo, DeepMind también ha implementado varias medidas de seguridad en sus otras actualizaciones. El SynthID se utilizará en todas estas actualizaciones como herramienta de marca de agua e identificación de contenidos generados por IA. Estas actualizaciones de DeepMind prometen transformar varios sectores ofreciendo herramientas avanzadas, eficientes y responsables para crear contenidos visuales y sonoros de alta calidad.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles