Générer des vidéos avec Veo de Google DeepMind
Apprends-en plus sur Veo, le dernier modèle de vidéo générative de Google DeepMind qui peut créer sans effort des vidéos 1080P de haute qualité à partir d'invites de texte, d'image et de vidéo.

Lors de la présentation de Google I/O 2024 le 14 mai, ils ont partagé les dernières mises à jour de DeepMind, leur division spécialisée dans l'IA. L'une des avancées les plus passionnantes présentées était leur tout nouveau modèle de génération vidéo, Veo. Veo peut créer des vidéos 1080P de haute qualité à partir de textes, d'images et d'invites vidéo. Il te permet même d'éditer les vidéos générées grâce à des invites ultérieures. Veo propulse l'IA générative au niveau supérieur. Examinons de plus près les fonctionnalités offertes par Veo.
Link to this sectionComprendre les capacités de Veo#
Veo est un modèle de génération vidéo qui utilise une compréhension approfondie du langage et du visuel pour créer des vidéos qui correspondent précisément à ta vision créative. Il peut capturer fidèlement le ton et les détails d'invites plus longues, ce qui en fait un outil puissant pour les créateurs souhaitant transformer leurs idées en contenu vidéo précis.
Tu peux exercer un contrôle créatif révolutionnaire sur la vidéo générée car Veo comprend les techniques cinématographiques telles que le « timelapse » et les « prises de vue aériennes d'un paysage ». Ce contrôle créatif permet aux utilisateurs de créer des vidéos où les personnes, les animaux et les objets se déplacent naturellement. Les vidéos générées par Veo sont captivantes et visuellement attrayantes car il est difficile de distinguer qu'elles sont créées par un modèle d'IA.
Veo va au-delà de la simple création de vidéos à partir d'invites. Si tu fournis une vidéo précédemment générée et une demande d'édition spécifique, comme l'insertion de kayaks dans une vue aérienne d'un littoral, Veo peut intégrer de manière transparente ce changement dans la vidéo originale, produisant ainsi une version mise à jour.

Fig 1. Un exemple d'édition vidéo utilisant Veo.
Voici quelques fonctionnalités supplémentaires offertes par Veo :
- Édition par masque : Veo peut t'aider à éditer des zones définies d'une vidéo.
- Création vidéo inspirée par l'image : En utilisant une image et une invite textuelle, Veo peut générer des vidéos qui reflètent le style de l'image tout en suivant les instructions de ton invite.
- Clips vidéo étendus : Veo peut créer et prolonger des clips vidéo jusqu'à 60 secondes ou plus, soit à partir d'une seule invite, soit à partir d'une séquence d'invites qui racontent ensemble une histoire.
Link to this sectionVidéos époustouflantes générées par Veo#
Passons en revue certaines des vidéos générées par Veo et voyons pourquoi elles sont si époustouflantes.
Générer une vidéo en timelapse à partir d'une courte invite textuelle est un défi. Généralement, une courte invite ne peut pas transmettre précisément les changements et les mouvements au sein de la scène du timelapse. Il est donc stupéfiant que Veo puisse comprendre à quoi s'attendre d'un timelapse sans entrer dans les détails.

Fig 2. Une image de la vidéo timelapse générée par Veo.
De même, générer des vidéos avec une physique précise n'est pas simple. Le modèle d'IA doit comprendre et simuler les lois de la physique telles que la gravité, l'élan et les collisions pour rendre les mouvements et les interactions réalistes. Il est impressionnant que Veo soit capable de modéliser avec précision ces dynamiques sans conseils détaillés dans les invites textuelles.

Fig 3. Une image d'une vidéo générée par Veo capturant avec précision la physique du mouvement des méduses.
Jusqu'à présent, nous n'avions vu que des vidéos courtes générées par IA en raison des limitations informatiques et de la complexité du maintien de la cohérence sur des séquences plus longues. Lors de la présentation Google I/O 2024, la capacité époustouflante de Veo à créer des vidéos plus longues et plus complexes a été démontrée.

Fig 4. Images de la vidéo Veo plus longue montrée lors de la présentation Google I/O 2024.
Link to this sectionComment fonctionne Veo ?#
Comme beaucoup d'autres modèles d'IA, Veo s'appuie sur les travaux de ses prédécesseurs. Il tire parti d'avancées telles que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, ainsi que de l'architecture Transformer propriétaire de Google et de Gemini. De plus, pour améliorer la capacité de Veo à interpréter les invites avec précision, les légendes de chaque vidéo dans son jeu de données d'entraînement étaient plus détaillées.
Basé sur le flux de travail brut du modèle partagé par Google, voici comment fonctionne Veo :
- Invites d'entrée : Tu fournis une invite textuelle et, éventuellement, une invite d'image.
- Encodage : L'invite textuelle est traitée par un encodeur UL2, et l'invite d'image est traitée par un encodeur d'image.
- Invite intégrée : Les sorties des encodeurs de texte et d'image sont combinées pour former une invite intégrée unique.
- Modèle de diffusion latente : L'invite intégrée et une vidéo compressée bruitée sont transmises à ce modèle qui génère une vidéo compressée. Veo utilise des représentations vidéo compressées de haute qualité, appelées latentes, pour améliorer l'efficacité tout en maintenant la qualité.
- Décodage : L'étape finale décode la sortie vidéo 1080p à partir de la vidéo compressée.

Fig 5. Comment fonctionne Veo.
Link to this sectionUne étude de cas convaincante dans la réalisation cinématographique#
Pour tester les capacités de Veo, Google a fait équipe avec le cinéaste Donald Glover et son studio créatif, Gilga. Ils ont utilisé Veo pour explorer diverses techniques créatives, notamment les travellings dynamiques, qui nécessitent un mouvement précis et un cadrage cohérent.

Fig 6. Utilisation de Veo dans le processus de réalisation.
Traditionnellement, les cinéastes font face à des limitations dues aux contraintes de temps et de ressources. Avec Veo, Glover et son équipe ont pu expérimenter rapidement et générer des prises de vue complexes, ce qui, à son tour, a apporté plus de flexibilité et d'innovation dans le processus de réalisation.
Avec Veo, Glover et son équipe ont pu expérimenter rapidement et générer des prises de vue complexes avant le tournage proprement dit. Par exemple, ils pouvaient tester divers travellings dynamiques pour voir leur rendu et effectuer des ajustements si nécessaire. Ce processus de pré-visualisation les a aidés à affiner leurs idées et à s'assurer que les prises de vue fonctionnaient comme prévu, réduisant ainsi le nombre de prises nécessaires lors du tournage réel. Ils ont pu créer une étude de cas convaincante pour démontrer le potentiel de Veo à transformer l'industrie cinématographique. Il offre un moyen plus rapide et plus efficace de donner vie à des visions créatives.
Link to this sectionUtilisations pratiques de Veo dans diverses industries#
Les capacités avancées de génération vidéo de Veo ont des applications pratiques dans de nombreuses industries. Dans la publicité, il peut rapidement produire des publicités personnalisées de haute qualité pour des audiences ciblées, économisant du temps et des coûts de production. Dans l'éducation, Veo peut créer des vidéos pédagogiques captivantes, rendant les concepts complexes plus faciles à comprendre.
Les entreprises peuvent utiliser Veo pour la formation et les communications internes. Les professionnels de la santé pourraient utiliser Veo pour simuler des procédures médicales à des fins de formation. Concernant les événements virtuels et les conférences, Veo peut créer des simulations réalistes de lieux et de scènes, offrant aux participants une expérience captivante et interactive où qu'ils soient. Les organisateurs bénéficient d'une portée élargie et d'informations précieuses pour les futurs événements. Grâce à Veo, d'innombrables opportunités se sont ouvertes.
Lorsqu'un modèle d'IA a le potentiel de toucher différentes industries, il est important de garder à l'esprit la sécurité et l'IA éthique. Pour permettre une adoption plus large et garantir une utilisation responsable, Google a mis en œuvre plusieurs mesures de sécurité. Les vidéos créées par Veo sont tatouées numériquement avec SynthID, un outil permettant de marquer et d'identifier le contenu généré par IA. SynthID assure la transparence et aide à atténuer les risques liés à la confidentialité, au droit d'auteur et aux biais. En dehors de cela, toutes les vidéos générées passent par des filtres de sécurité et des processus de vérification de mémorisation. Ces garde-fous font de Veo un outil précieux et éthique qui soutient une production vidéo responsable et innovante.
Link to this sectionOù accéder à Veo#
Dans les semaines à venir, Google commencera à proposer certaines des fonctionnalités révolutionnaires de Veo à une sélection de créateurs via VideoFX, un nouvel outil disponible sur labs.google. Cette initiative permet un accès anticipé aux capacités avancées de génération vidéo de Veo, offrant aux créateurs l'opportunité d'expérimenter ses fonctionnalités innovantes. La liste d'attente pour Veo est actuellement ouverte, invitant les créateurs intéressés à s'inscrire et à utiliser les puissants outils de Veo dans leurs projets.
Link to this sectionEn savoir plus sur les mises à jour de l'IA générative 2024 de DeepMind#
Outre Veo, DeepMind a introduit plusieurs mises à jour de pointe en IA générative pour 2024. L'une de ces mises à jour est Imagen 3, leur modèle texte-vers-image le plus avancé à ce jour. Imagen 3 excelle dans la création d'images photoréalistes et vivantes. Il comprend profondément les invites en langage naturel et capture les détails complexes tout en minimisant les artefacts visuels.

Fig 7. Une image générée utilisant Imagen 3.
DeepMind a également développé Lyria, son modèle le plus avancé pour la génération de musique par IA. Dans le cadre de cet effort, DeepMind a créé une suite d'outils d'IA musicale appelée Music AI Sandbox. Ces outils permettent aux musiciens et aux producteurs d'explorer de nouvelles possibilités créatives dans la composition musicale et la transformation sonore.

Fig 8. Un exemple d'interface utilisateur des outils de musique IA de DeepMind.
Tout comme pour Veo, DeepMind a mis en œuvre plusieurs mesures de sécurité concernant ses autres mises à jour également. SynthID sera utilisé dans ces mises à jour comme un outil pour marquer et identifier le contenu généré par IA. Ces mises à jour de DeepMind promettent de transformer diverses industries en offrant des outils avancés, efficaces et responsables pour la création de contenu visuel et audio de haute qualité.
Link to this sectionNaviguer dans la prochaine phase de l'IA générative#
Les avancées de l'IA générative 2024 de DeepMind, y compris Veo, Imagen 3 et Lyria, marquent un saut considérable dans les capacités de l'IA. Veo transforme la création vidéo avec sa capacité à générer des vidéos 1080p de haute qualité à partir d'invites simples, en faisant un outil polyvalent pour les cinéastes et les créateurs de contenu. Imagen 3 brille dans la production d'images photoréalistes, tandis que Lyria introduit de nouvelles possibilités dans la génération de musique avec des outils d'IA avancés.
Ces technologies promettent de transformer diverses industries en fournissant des outils efficaces et responsables pour créer du contenu visuel et audio de haute qualité. Avec des mesures de sécurité comme SynthID garantissant une utilisation éthique, DeepMind continue de repousser les limites de l'IA, ouvrant la voie à des applications innovantes dans le futur.
Plonge dans l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Explore nos pages de solutions pour apprendre comment l'IA est appliquée dans la fabrication et l'agriculture.






