Videos generieren mit Google DeepMinds Veo
Erfahre mehr über Veo, das neueste generative Videomodell von Google DeepMind, das mühelos hochwertige 1080P-Videos aus Text-, Bild- und Video-Prompts erstellen kann.

Während der Präsentation zur Google I/O 2024 am 14. Mai teilte Google die neuesten Updates von DeepMind, ihrer KI-Abteilung. Eine der aufregendsten Neuerungen war ihr neuestes generatives Videomodell, Veo. Veo kann hochwertige 1080p-Videos basierend auf Text-, Bild- und Video-Prompts erstellen. Es ermöglicht dir sogar, generierte Videos mit nachfolgenden Prompts zu bearbeiten. Veo hebt generative KI auf eine neue Stufe. Schauen wir uns die Funktionen, die Veo bietet, genauer an.
Link to this sectionVeos Fähigkeiten verstehen#
Veo ist ein generatives Videomodell, das ein tiefes Verständnis für Sprache und Bilder nutzt, um Videos zu erstellen, die genau der kreativen Vision eines Nutzers entsprechen. Es kann die Stimmung und die Details längerer Prompts präzise erfassen und ist damit ein mächtiges Werkzeug für Kreative, die ihre Ideen in präzise Videoinhalte verwandeln möchten.
Du hast bahnbrechende kreative Kontrolle über das generierte Video, da Veo Filmtechniken wie „Zeitraffer“ und „Luftaufnahmen einer Landschaft“ versteht. Diese kreative Kontrolle ermöglicht es dir, Videos zu erstellen, in denen sich Menschen, Tiere und Objekte natürlich bewegen. Die von Veo generierten Videos sind fesselnd und visuell attraktiv, da es schwer ist zu erkennen, dass sie von einem KI-Modell erstellt wurden.
Veo geht über das bloße Erstellen von Videos aus Prompts hinaus. Wenn du ein zuvor generiertes Video und eine spezifische Bearbeitungsanfrage bereitstellst, wie zum Beispiel das Einfügen von Kajaks in eine Luftaufnahme einer Küste, kann Veo diese Änderung nahtlos in das Originalvideo integrieren und eine aktualisierte Version erstellen.

Abb. 1. Ein Beispiel für Videobearbeitung mit Veo.
Hier sind einige weitere Funktionen, die Veo bietet:
- Maskierte Bearbeitung: Veo kann dir helfen, definierte Bereiche eines Videos zu bearbeiten.
- Bild-inspirierte Videokreation: Unter Verwendung eines Bildes und eines Text-Prompts kann Veo Videos generieren, die den Stil des Bildes widerspiegeln und den Anweisungen des Prompts folgen.
- Erweiterte Videoclips: Veo kann Videoclips auf 60 Sekunden oder länger erstellen und erweitern, entweder aus einem einzelnen Prompt oder einer Abfolge von Prompts, die zusammen eine Geschichte erzählen.
Link to this sectionAtemberaubende Videos, die Veo generiert hat#
Gehen wir einige der Videos durch, die Veo generiert hat, und sehen wir uns an, warum sie so atemberaubend sind.
Das Generieren eines Zeitraffervideos aus einem kurzen Text-Prompt ist eine Herausforderung. Normalerweise kann ein kurzer Text-Prompt die Veränderungen und Bewegungen innerhalb der Zeitrafferszene nicht genau vermitteln. Daher ist es erstaunlich, dass Veo versteht, was von einem Zeitraffer zu erwarten ist, ohne ins Detail gehen zu müssen.

Abb. 2. Ein Frame aus dem Zeitraffervideo, das Veo generiert hat.
Ebenso ist das Generieren von Videos mit akkurater Physik nicht einfach. Das KI-Modell muss physikalische Gesetze wie Schwerkraft, Impuls und Kollisionen verstehen und simulieren, um Bewegungen und Interaktionen realistisch wirken zu lassen. Es ist beeindruckend, dass Veo in der Lage ist, diese Dynamiken ohne detaillierte Anleitungen durch Text-Prompts präzise zu modellieren.

Abb. 3. Ein Frame aus einem mit Veo generierten Video, das die Physik der Quallenbewegung präzise einfängt.
Bisher haben wir aufgrund von Rechenbeschränkungen und der Komplexität, die Kohärenz über längere Sequenzen aufrechtzuerhalten, nur kürzere, von KI generierte Videos gesehen. Auf der Google I/O 2024-Präsentation wurde Veos beeindruckende Fähigkeit demonstriert, längere und komplexere Videos zu erstellen.

Abb. 4. Frames aus dem längeren Veo-Video, das bei der Google I/O 2024-Präsentation gezeigt wurde.
Link to this sectionWie funktioniert Veo?#
Wie viele andere KI-Modelle steht Veo auf den Schultern von Giganten. Es greift auf frühere Fortschritte wie Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere sowie Googles proprietäre Transformer-Architektur und Gemini zurück. Um Veos Fähigkeit zur präzisen Interpretation von Prompts zu verbessern, waren zudem die Bildunterschriften jedes Videos im Trainingsdatensatz detaillierter.
Basierend auf dem groben Modell-Workflow von Google, funktioniert Veo so:
- Eingabe-Prompts: Du gibst einen Text-Prompt und optional einen Bild-Prompt an.
- Kodierung: Der Text-Prompt wird von einem UL2 Encoder verarbeitet und der Bild-Prompt von einem Bild-Encoder.
- Eingebetteter Prompt: Die Ausgaben der Text- und Bild-Encoder werden kombiniert, um einen einzigen eingebetteten Prompt zu bilden.
- Latent Diffusion Model: Der eingebettete Prompt und ein verrauschtes, komprimiertes Video werden an dieses Modell übergeben, das daraus ein komprimiertes Video generiert. Veo verwendet hochwertige, komprimierte Videorepräsentationen, sogenannte Latents, um die Effizienz zu verbessern und gleichzeitig die Qualität beizubehalten.
- Dekodierung: Der letzte Schritt dekodiert die 1080p-Videoausgabe aus dem komprimierten Video.

Abb. 5. Wie Veo funktioniert.
Link to this sectionEine überzeugende Fallstudie in der Filmproduktion#
Um Veos Fähigkeiten zu testen, arbeitete Google mit dem Filmemacher Donald Glover und seinem Kreativstudio Gilga zusammen. Sie nutzten Veo, um verschiedene kreative Techniken zu erforschen, darunter dynamische Tracking-Shots, die präzise Bewegungen und konsistente Bildkomposition erfordern.

Abb. 6. Veo im Filmprozess verwenden.
Traditionell sehen sich Filmemacher aufgrund von Zeit- und Ressourcenbeschränkungen Einschränkungen gegenüber. Mit Veo konnten Glover und sein Team schnell experimentieren und komplexe Aufnahmen generieren, was wiederum mehr Flexibilität und Innovation im Filmprozess ermöglichte.
Mit Veo konnten Glover und sein Team schnell experimentieren und komplexe Aufnahmen vor dem eigentlichen Dreh generieren. Sie konnten zum Beispiel verschiedene dynamische Tracking-Shots testen, um zu sehen, wie sie aussehen würden, und bei Bedarf Anpassungen vornehmen. Dieser Pre-Visualization-Prozess half ihnen, ihre Ideen zu verfeinern und sicherzustellen, dass die Aufnahmen wie beabsichtigt funktionieren würden, was letztendlich die Anzahl der erforderlichen Takes während des eigentlichen Drehs reduzierte. Sie konnten eine überzeugende Fallstudie erstellen, um Veos Potenzial zu demonstrieren, die Filmindustrie zu verändern. Es bietet eine schnellere und effizientere Möglichkeit, kreative Visionen zum Leben zu erwecken.
Link to this sectionPraktische Einsatzmöglichkeiten von Veo in verschiedenen Branchen#
Veos fortschrittliche Videogenerierungsfähigkeiten haben praktische Anwendungen in vielen Branchen. In der Werbung können schnell maßgeschneiderte, hochwertige Werbespots für gezielte Zielgruppen produziert werden, was Zeit und Produktionskosten spart. Im Bildungsbereich kann Veo ansprechende Lehrvideos erstellen, die komplexe Konzepte leichter verständlich machen.
Unternehmen können Veo für Schulungen und Unternehmenskommunikation nutzen. Gesundheitswesen-Experten könnten Veo nutzen, um medizinische Eingriffe zu Schulungszwecken zu simulieren. Was virtuelle Veranstaltungen und Konferenzen betrifft, so kann Veo lebensechte Simulationen von Veranstaltungsorten und Bühnen erstellen und den Teilnehmern von überall aus ein fesselndes und interaktives Erlebnis bieten. Organisatoren profitieren von einer größeren Reichweite und wertvollen Erkenntnissen für zukünftige Veranstaltungen. Dank Veo haben sich unzählige Möglichkeiten eröffnet.
Wenn ein KI-Modell das Potenzial hat, verschiedene Branchen zu beeinflussen, ist es wichtig, Sicherheit und ethische KI im Auge zu behalten. Um eine breitere Akzeptanz zu ermöglichen und eine verantwortungsvolle Nutzung sicherzustellen, hat Google mehrere Sicherheitsmaßnahmen implementiert. Von Veo erstellte Videos werden mit SynthID mit einem Wasserzeichen versehen, einem Werkzeug zur Kennzeichnung und Identifizierung von KI-generierten Inhalten. SynthID sorgt für Transparenz und hilft dabei, Risiken in Bezug auf Datenschutz, Urheberrecht und Voreingenommenheit zu mindern. Abgesehen davon durchlaufen alle generierten Videos Sicherheitsfilter und Prozesse zur Überprüfung auf Auswendiglernen. Diese Schutzmaßnahmen machen Veo zu einem wertvollen und ethischen Werkzeug, das eine verantwortungsvolle und innovative Videoproduktion unterstützt.
Link to this sectionZugang zu Veo#
In den kommenden Wochen wird Google damit beginnen, einige von Veos bahnbrechenden Funktionen ausgewählten Kreativen über VideoFX zur Verfügung zu stellen, einem neuen Werkzeug unter labs.google. Diese Initiative ermöglicht einen frühen Zugang zu Veos fortschrittlichen Videogenerierungsfähigkeiten und gibt Kreativen die Möglichkeit, mit seinen innovativen Funktionen zu experimentieren. Die Warteliste für Veo ist derzeit geöffnet und lädt interessierte Kreative dazu ein, sich anzumelden und Veos leistungsstarke Werkzeuge für ihre Projekte zu nutzen.
Link to this sectionMehr zu DeepMinds generativen KI-Updates für 2024#
Neben Veo hat DeepMind für 2024 mehrere hochmoderne Updates im Bereich der generativen KI eingeführt. Eines dieser Updates ist Imagen 3, ihr bisher fortschrittlichstes Text-zu-Bild-Modell. Imagen 3 zeichnet sich durch die Erstellung fotorealistischer, lebensechter Bilder aus. Es versteht natürliche Sprach-Prompts tiefgreifend und erfasst komplizierte Details bei gleichzeitiger Minimierung visueller Artefakte.

Abb. 7. Ein mit Imagen 3 generiertes Bild.
DeepMind hat auch Lyria entwickelt, ihr bisher fortschrittlichstes Modell zur KI-Musikgenerierung. Als Teil dieser Bemühungen hat DeepMind eine Suite von KI-Musikwerkzeugen namens Music AI Sandbox geschaffen. Diese Werkzeuge ermöglichen es Musikern und Produzenten, neue kreative Möglichkeiten bei der Musikkomposition und Klangtransformation zu erkunden.

Abb. 8. Ein Beispiel-UI der KI-Musikwerkzeuge von DeepMind.
Ähnlich wie bei Veo hat DeepMind auch bei seinen anderen Updates mehrere Sicherheitsmaßnahmen implementiert. Die SynthID wird bei diesen Updates als Werkzeug zur Kennzeichnung und Identifizierung von KI-generierten Inhalten verwendet. Diese Updates von DeepMind versprechen, verschiedene Branchen durch das Angebot fortschrittlicher, effizienter und verantwortungsvoller Werkzeuge zur Erstellung hochwertiger visueller und akustischer Inhalte zu transformieren.
Link to this sectionDie nächste Phase der generativen KI navigieren#
DeepMinds Fortschritte in der generativen KI im Jahr 2024, darunter Veo, Imagen 3 und Lyria, markieren einen beachtlichen Sprung bei den KI-Fähigkeiten. Veo transformiert die Videokreation mit seiner Fähigkeit, hochwertige 1080p-Videos aus einfachen Prompts zu generieren, was es zu einem vielseitigen Werkzeug für Filmemacher und Content-Ersteller macht. Imagen 3 glänzt bei der Erstellung fotorealistischer Bilder, während Lyria neue Möglichkeiten bei der Musikgenerierung durch fortschrittliche KI-Werkzeuge eröffnet.
Diese Technologien versprechen, verschiedene Branchen zu transformieren, indem sie effiziente und verantwortungsvolle Werkzeuge zur Erstellung hochwertiger visueller und akustischer Inhalte bereitstellen. Mit Sicherheitsmaßnahmen wie SynthID, die eine ethische Nutzung gewährleisten, erweitert DeepMind weiterhin die Grenzen der KI und ebnet den Weg für innovative Anwendungen in der Zukunft.
Tauche tiefer in die Welt der KI ein, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Erkunde unsere Lösungsseiten, um zu erfahren, wie KI in der Fertigung und Landwirtschaft eingesetzt wird.






