Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Generierung von Videos mit Google DeepMind’s Veo

Abirami Vina

6 Minuten Lesezeit

15. Mai 2024

Erfahren Sie mehr über Veo, das neueste generative Videomodell von Google DeepMind, mit dem mühelos hochwertige 1080P-Videos aus Text-, Bild- und Videoeingabeaufforderungen erstellt werden können.

Während der Google I/O 2024-Präsentation am 14. Mai wurden die neuesten Updates von DeepMind, ihrer KI-Abteilung, vorgestellt. Eine der aufregendsten Neuerungen war ihr neuestes generatives Videomodell Veo. Veo kann hochwertige 1080P-Videos basierend auf Text-, Bild- und Videoeingaben erstellen. Es ermöglicht sogar, generierte Videos mit nachfolgenden Eingaben zu bearbeiten. Veo hebt generative KI auf die nächste Stufe. Werfen wir einen genaueren Blick auf die Funktionen, die Veo bietet. 

Die Fähigkeiten von Veo verstehen

Veo ist ein generatives Videomodell, das ein tiefes Verständnis von Sprache und Bildern nutzt, um Videos zu erstellen, die der kreativen Vision eines Benutzers sehr nahe kommen. Es kann den Ton und die Details längerer Prompts genau erfassen und ist somit ein leistungsstarkes Werkzeug für Kreative, die ihre Ideen in präzise Videoinhalte umsetzen möchten.

Der Benutzer hat eine bahnbrechende kreative Kontrolle über das generierte Video, da Veo Filmtechniken wie "Zeitraffer" und "Luftaufnahmen einer Landschaft" verstehen kann. Diese kreative Kontrolle ermöglicht es den Benutzern, Videos zu erstellen, in denen sich Menschen, Tiere und Objekte natürlich bewegen. Von Veo generierte Videos sind fesselnd und optisch ansprechend, da es schwer zu erkennen ist, dass sie von einem KI-Modell generiert wurden.

Veo geht über die bloße Erstellung von Videos aus Prompts hinaus. Wenn Sie ein zuvor generiertes Video und eine spezifische Bearbeitungsanfrage bereitstellen, z. B. das Einfügen von Kajaks in eine Luftaufnahme einer Küstenlinie, kann Veo diese Änderung nahtlos in das Originalvideo integrieren und eine aktualisierte Version erstellen.

Abb. 1. Ein Beispiel für Videobearbeitung mit Veo.

Hier sind einige weitere Funktionen, die Veo bietet:

  • Maskiertes Bearbeiten: Veo kann Ihnen helfen, definierte Bereiche eines Videos zu bearbeiten.
  • Von Bildern inspirierte Videoerstellung: Mithilfe eines Bildes und einer Texteingabeaufforderung kann Veo Videos generieren, die den Stil des Bildes widerspiegeln und den Anweisungen der Eingabeaufforderung folgen.
  • Erweiterte Videoclips: Veo kann Videoclips erstellen und auf 60 Sekunden oder mehr verlängern, entweder aus einer einzelnen Eingabeaufforderung oder einer Abfolge von Eingabeaufforderungen, die zusammen eine Geschichte erzählen.

Atemberaubende Videos, die Veo generiert hat

Sehen wir uns einige der Videos an, die Veo generiert hat, und warum sie so atemberaubend sind. 

Ein Video eines Zeitraffers aus einer kurzen Textvorgabe zu generieren, ist eine Herausforderung. Typischerweise kann die kurze Textvorgabe Veränderungen und Bewegungen innerhalb der Szene des Zeitraffers nicht präzise vermitteln. Es ist also erstaunlich, dass Veo verstehen kann, was von einem Zeitraffer zu erwarten ist, ohne auf die Details einzugehen. 

Abb. 2. Ein Frame aus dem von Veo generierten Zeitraffervideo.

Ebenso ist das Generieren von Videos mit akkurater Physik nicht einfach. Das KI-Modell muss physikalische Gesetze wie Schwerkraft, Impuls und Kollisionen verstehen und simulieren, damit Bewegungen und Interaktionen realistisch wirken. Es ist beeindruckend, dass Veo diese Dynamiken ohne detaillierte Anleitung durch Textprompts akkurat modellieren kann.

Abb. 3. Ein Frame aus einem mit Veo generierten Video erfasst präzise die Physik der Quallenbewegung.

Bisher haben wir aufgrund von Rechenbeschränkungen und der Komplexität, die Kohärenz über längere Sequenzen aufrechtzuerhalten, nur kürzere von KI generierte Videos gesehen. Auf der Google I/O-Präsentation 2024 wurde Veos umwerfende Fähigkeit gezeigt, längere und komplexere Videos zu erstellen.

Abb. 4. Frames aus dem längeren Veo-Video, das auf der Google 2024 I/O-Präsentation gezeigt wurde.

Wie funktioniert Veo?

Wie viele andere KI-Modelle steht Veo auf den Schultern von Riesen. Es stützt sich auf frühere Fortschritte wie Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere sowie auf die proprietäre Transformer-Architektur und Gemini von Google. Um die Fähigkeit von Veo, Prompts akkurat zu interpretieren, zu verbessern, wurden die Bildunterschriften jedes Videos im Trainingsdatensatz detaillierter gestaltet. 

Basierend auf dem von Google geteilten groben Modell-Workflow funktioniert Veo wie folgt:

  • Eingabeaufforderungen: Sie geben eine Textaufforderung und optional eine Bildaufforderung an.
  • Kodierung: Der Text-Prompt wird von einem UL2-Encoder verarbeitet, und der Bild-Prompt wird von einem Bild-Encoder verarbeitet.
  • Eingebetteter Prompt: Die Ausgaben der Text- und Bild-Encoder werden kombiniert, um einen einzigen eingebetteten Prompt zu bilden.
  • Latent Diffusion Model: Der eingebettete Prompt und ein verrauschtes, komprimiertes Video werden an dieses Modell übergeben, das mithilfe dieser ein komprimiertes Video generiert. Veo verwendet hochwertige, komprimierte Videodarstellungen, sogenannte Latents, um die Effizienz zu verbessern und gleichzeitig die Qualität zu erhalten.
  • Dekodierung: Der letzte Schritt dekodiert die 1080p-Videoausgabe aus dem komprimierten Video.
Abb. 5. So funktioniert Veo.

Eine überzeugende Fallstudie im Filmemachen

Um die Fähigkeiten von Veo zu testen, tat sich Google mit dem Filmemacher Donald Glover und seinem Kreativstudio Gilga zusammen. Sie nutzten Veo, um verschiedene kreative Techniken zu erforschen, darunter dynamische Verfolgungsaufnahmen, die präzise Bewegungen und eine konsistente Bildgestaltung erfordern. 

Abb. 6. Verwendung von Veo im Filmemachungsprozess.

Traditionell stoßen Filmemacher aufgrund von Zeit- und Ressourcenbeschränkungen an ihre Grenzen. Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und diese generieren, was wiederum mehr Flexibilität und Innovation in den Filmemachprozess brachte.

Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und diese generieren, bevor die eigentlichen Dreharbeiten begannen. Sie konnten beispielsweise verschiedene dynamische Kamerafahrten testen, um zu sehen, wie sie aussehen würden, und bei Bedarf Anpassungen vornehmen. Dieser Prävisualisierungsprozess half ihnen, ihre Ideen zu verfeinern und sicherzustellen, dass die Aufnahmen wie beabsichtigt funktionieren würden, wodurch letztendlich die Anzahl der erforderlichen Takes während der eigentlichen Dreharbeiten reduziert wurde. Sie konnten eine überzeugende Fallstudie erstellen, um das Potenzial von Veo zur Veränderung der Filmindustrie aufzuzeigen. Es bietet eine schnellere und effizientere Möglichkeit, kreative Visionen zum Leben zu erwecken.

Praktische Anwendungen von Veo in verschiedenen Branchen 

Die fortschrittlichen Videogenerierungsfunktionen von Veo haben praktische Anwendungen in vielen Branchen. In der Werbung kann es schnell maßgeschneiderte, hochwertige Werbespots für Zielgruppen erstellen und so Zeit und Produktionskosten sparen. Im Bildungsbereich kann Veo ansprechende Lehrvideos erstellen, die komplexe Konzepte leichter verständlich machen. 

Unternehmen können Veo für Schulungen und Unternehmenskommunikation nutzen. Fachkräfte im Gesundheitswesen können Veo verwenden, um medizinische Verfahren zu Schulungszwecken zu simulieren. In Bezug auf virtuelle Veranstaltungen und Konferenzen kann Veo lebensechte Simulationen von Veranstaltungsorten und Bühnen erstellen und den Teilnehmern von überall aus ein ansprechendes und interaktives Erlebnis bieten. Organisatoren profitieren von einer größeren Reichweite und wertvollen Erkenntnissen für zukünftige Veranstaltungen. Dank Veo haben sich unzählige Möglichkeiten eröffnet.

Wenn ein KI-Modell das Potenzial hat, verschiedene Branchen zu berühren, ist es wichtig, Sicherheit und ethische KI im Auge zu behalten. Um eine breitere Akzeptanz zu ermöglichen und eine verantwortungsvolle Nutzung zu gewährleisten, hat Google mehrere Sicherheitsmaßnahmen implementiert. Von Veo erstellte Videos werden mit SynthID mit einem Wasserzeichen versehen, einem Tool zum Markieren und Identifizieren von KI-generierten Inhalten. SynthId gewährleistet Transparenz und hilft, Risiken in Bezug auf Datenschutz, Urheberrecht und Voreingenommenheit zu mindern. Abgesehen davon durchlaufen alle generierten Videos Sicherheitsfilter und Prozesse zur Überprüfung der Speicherung. Diese Schutzmaßnahmen machen Veo zu einem wertvollen und ethischen Werkzeug, das eine verantwortungsvolle und innovative Videoproduktion unterstützt.

Wo kann man auf Veo zugreifen?

In den kommenden Wochen wird Google ausgewählten Kreativen einige der bahnbrechenden Funktionen von Veo über VideoFX anbieten, ein neues Tool, das unter labs.google verfügbar ist. Diese Initiative ermöglicht einen frühen Zugriff auf die fortschrittlichen Videogenerierungsfunktionen von Veo und gibt Kreativen die Möglichkeit, mit den innovativen Funktionen zu experimentieren. Die Warteliste für Veo ist derzeit geöffnet und lädt interessierte Kreative ein, sich anzumelden und die leistungsstarken Tools von Veo in ihren Projekten zu nutzen.

Mehr zu DeepMinds Generative AI Updates von 2024

Neben Veo hat DeepMind für 2024 mehrere hochmoderne Updates im Bereich der generativen KI vorgestellt. Eines dieser Updates ist Imagen 3, ihr bisher fortschrittlichstes Text-zu-Bild-Modell. Imagen 3 zeichnet sich durch die Erstellung von fotorealistischen, lebensechten Bildern aus. Es versteht natürliche Sprachaufforderungen sehr gut und erfasst komplizierte Details, während visuelle Artefakte minimiert werden.

Abb. 7. Ein mit Imagen 3 generiertes Bild.

DeepMind hat auch Lyria entwickelt, sein fortschrittlichstes Modell für die KI-Musikgenerierung. Im Rahmen dieser Bemühungen hat DeepMind eine Reihe von KI-Musiktools namens Music AI Sandbox entwickelt. Diese Tools ermöglichen es Musikern und Produzenten, neue kreative Möglichkeiten in der Musikkomposition und Klangtransformation zu erkunden.

Abb. 8. Eine beispielhafte Benutzeroberfläche der KI-Musiktools von DeepMind.

Ähnlich wie Veo hat auch DeepMind mehrere Sicherheitsmaßnahmen in Bezug auf seine anderen Updates implementiert. SynthID wird in diesen Updates als Werkzeug zur Kennzeichnung mit Wasserzeichen und zur Identifizierung von KI-generierten Inhalten verwendet. Diese Updates von DeepMind versprechen, verschiedene Branchen zu transformieren, indem sie fortschrittliche, effiziente und verantwortungsvolle Werkzeuge zur Erstellung hochwertiger visueller und auditiver Inhalte anbieten.

Die nächste Phase der generativen KI meistern

Die generativen KI-Fortschritte von DeepMind im Jahr 2024, darunter Veo, Imagen 3 und Lyria, stellen einen beträchtlichen Sprung in den KI-Fähigkeiten dar. Veo transformiert die Videoerstellung mit seiner Fähigkeit, qualitativ hochwertige 1080p-Videos aus einfachen Prompts zu generieren, was es zu einem vielseitigen Werkzeug für Filmemacher und Content-Ersteller macht. Imagen 3 glänzt bei der Erstellung fotorealistischer Bilder, während Lyria mit fortschrittlichen KI-Tools neue Möglichkeiten in der Musikgenerierung eröffnet.

Diese Technologien versprechen, verschiedene Branchen zu verändern, indem sie effiziente und verantwortungsvolle Werkzeuge für die Erstellung hochwertiger visueller und Audioinhalte bereitstellen. Mit Sicherheitsmaßnahmen wie SynthID, die eine ethische Nutzung gewährleisten, erweitert DeepMind weiterhin die Grenzen der KI und ebnet den Weg für innovative Anwendungen in der Zukunft.

Tauchen Sie in die Welt der KI ein, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Erkunden Sie unsere Lösungsseiten, um zu erfahren, wie KI in der Fertigung und der Landwirtschaft eingesetzt wird.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert