X
Ultralytics YOLOv8.2 FreigabeUltralytics YOLOv8.2 FreigabeUltralytics YOLOv8.2 Pfeil loslassen
Grüner Scheck
Link in die Zwischenablage kopiert

Erstellen von Videos mit Google DeepMinds Veo

Learn more about Veo, Google DeepMind's latest generative video model that can effortlessly create high-quality 1080P videos from text, image, and video prompts.

During Google's 2024 I/O presentation on May 14th, they shared the latest updates from DeepMind, their AI division. One of the most exciting advancements shared was their newest generative video model, Veo. Veo can create high-quality 1080P videos based on text, image, and video prompts. It even lets you edit generated videos with subsequent prompts. Veo takes generative AI to the next level. Let’s take a closer look at the features Veo offers. 

Die Fähigkeiten von Veo verstehen

Veo ist ein generatives Videomodell, das ein tiefes Verständnis von Sprache und Bildern nutzt, um Videos zu erstellen, die genau der kreativen Vision eines Nutzers entsprechen. Es kann den Ton und die Details längerer Aufforderungen genau erfassen und ist damit ein leistungsstarkes Werkzeug für Kreative, die ihre Ideen in präzise Videoinhalte umsetzen wollen.

Der Nutzer hat eine bahnbrechende kreative Kontrolle über das erzeugte Video, weil Veo Filmtechniken wie "Zeitraffer" und "Luftaufnahmen einer Landschaft" versteht. Diese kreative Kontrolle ermöglicht es den Nutzern, Videos zu erstellen, in denen sich Menschen, Tiere und Objekte natürlich bewegen. Die von Veo erstellten Videos sind fesselnd und visuell ansprechend, denn es ist schwer zu erkennen, dass sie von einem KI-Modell erstellt wurden.

Veo geht über die bloße Erstellung von Videos nach Eingabeaufforderungen hinaus. Wenn du ein bereits erstelltes Video mit einer bestimmten Bearbeitungsanforderung zur Verfügung stellst, wie z. B. das Einfügen von Kajaks in eine Luftaufnahme einer Küste, kann Veo diese Änderung nahtlos in das Originalvideo integrieren und eine aktualisierte Version erstellen.

Abb. 1. Ein Beispiel für die Videobearbeitung mit Veo.

Hier sind einige weitere Funktionen, die Veo bietet:

  • Maskierte Bearbeitung: Mit Veo kannst du bestimmte Bereiche eines Videos bearbeiten.
  • Bildinspirierte Videoerstellung: Anhand eines Bildes und einer Textaufforderung kann Veo Videos erstellen, die den Stil des Bildes widerspiegeln und den Anweisungen der Aufforderung folgen.
  • Erweiterte Videoclips: Veo kann Videoclips erstellen und auf 60 Sekunden oder mehr verlängern, entweder aus einem einzelnen Prompt oder einer Folge von Prompts, die zusammen eine Geschichte erzählen.

Atemberaubende Videos, die Veo erstellt hat

Schauen wir uns einige der Videos an, die Veo erstellt hat und warum sie so atemberaubend sind. 

Die Erstellung eines Zeitraffervideos aus einer kurzen Textvorgabe ist eine Herausforderung. Normalerweise kann der kurze Text die Veränderungen und Bewegungen in der Szene des Zeitraffers nicht genau wiedergeben. Daher ist es erstaunlich, dass Veo verstehen kann, was man von einem Zeitraffer erwartet, ohne ins Detail zu gehen. 

Abb. 2. Ein Bild aus dem Zeitraffer-Video, das Veo erstellt hat.

Auch die Erstellung von Videos mit genauer Physik ist nicht einfach. Das KI-Modell muss physikalische Gesetze wie Schwerkraft, Impuls und Kollisionen verstehen und simulieren, damit die Bewegungen und Interaktionen realistisch wirken. Es ist beeindruckend, dass Veo in der Lage ist, diese Dynamik auch ohne detaillierte Textanweisungen genau zu modellieren.

Abb. 3. Ein Bild aus einem Video, das mit Veo erstellt wurde, fängt die Physik der Quallenbewegung genau ein.

Until now, we’ve only seen shorter videos generated by AI due to computational limitations and the complexity of maintaining coherence over longer sequences. At Google’s 2024 I/O presentation Veo’s mindblowing ability to create longer and more intricate videos was shown.

Fig 4. Frames from the longer Veo video shown at the Google 2024 I/O presentation.

Wie funktioniert Veo?

Like many other AI models, Veo stands on the shoulders of giants. It draws from previous advancements such as Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, and Lumiere, as well as Google’s proprietary Transformer architecture and Gemini. Plus, to improve Veo's ability to interpret prompts accurately, the captions of each video in its training dataset were more detailed. 

Based on the rough model workflow shared by Google, here’s how Veo works:

  • Eingabeaufforderungen: Du gibst eine Texteingabeaufforderung und optional eine Bildeingabeaufforderung ein.
  • Kodierung: Der Textprompt wird von einem UL2-Encoder verarbeitet und der Bildprompt wird von einem Bild-Encoder verarbeitet.
  • Eingebettete Eingabeaufforderung: Die Ausgaben der Text- und Bildcodierer werden zu einem einzigen eingebetteten Prompt kombiniert.
  • Latentes Diffusionsmodell: Der eingebettete Prompt und ein verrauschtes, komprimiertes Video werden an dieses Modell weitergeleitet, das daraus ein komprimiertes Video erzeugt. Veo verwendet hochwertige, komprimierte Videodarstellungen, so genannte Latents, um die Effizienz zu verbessern und gleichzeitig die Qualität zu erhalten.
  • Dekodierung: Der letzte Schritt dekodiert die 1080p-Videoausgabe aus dem komprimierten Video.
Abb. 5. Wie Veo funktioniert.

Eine überzeugende Fallstudie des Filmemachens

To test out Veo’s abilities, Google teamed up with filmmaker Donald Glover and his creative studio, Gilga. They used Veo to explore various creative techniques, including dynamic tracking shots, which require precise movement and consistent framing. 

Abb. 6. Die Verwendung von Veo im Filmprozess.

Traditionell sind Filmemacher/innen aufgrund von Zeit- und Ressourcenbeschränkungen eingeschränkt. Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und diese erstellen, was wiederum mehr Flexibilität und Innovation im Filmprozess ermöglichte.

Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und sie vor den eigentlichen Dreharbeiten erstellen. So konnten sie zum Beispiel verschiedene dynamische Kamerafahrten ausprobieren, um zu sehen, wie sie aussehen würden, und bei Bedarf Anpassungen vornehmen. Dieser Prozess der Vorvisualisierung half ihnen, ihre Ideen zu verfeinern und sicherzustellen, dass die Aufnahmen wie geplant funktionieren würden, was letztendlich die Anzahl der Aufnahmen während der eigentlichen Dreharbeiten reduzierte. Sie waren in der Lage, eine überzeugende Fallstudie zu erstellen, um das Potenzial von Veo für die Veränderung der Filmindustrie zu demonstrieren. Es bietet eine schnellere und effizientere Möglichkeit, kreative Visionen zum Leben zu erwecken.

Praktische Anwendungen von Veo in verschiedenen Branchen 

Die fortschrittlichen Funktionen von Veo zur Videoerstellung finden in vielen Branchen praktische Anwendung. In der Werbung kann Veo schnell maßgeschneiderte, hochwertige Werbespots für ein bestimmtes Zielpublikum produzieren und so Zeit und Produktionskosten sparen. Im Bildungsbereich kann Veo ansprechende Lehrvideos erstellen, die komplexe Konzepte leichter verständlich machen. 

Unternehmen können Veo für Schulungen und die Unternehmenskommunikation nutzen. Fachkräfte im Gesundheitswesen können Veo nutzen, um medizinische Verfahren für Schulungszwecke zu simulieren. Für virtuelle Veranstaltungen und Konferenzen kann Veo realitätsnahe Simulationen von Veranstaltungsorten und Bühnen erstellen, die den Teilnehmer/innen von überall aus ein fesselndes und interaktives Erlebnis bieten. Die Organisatoren profitieren von einer größeren Reichweite und wertvollen Erkenntnissen für zukünftige Veranstaltungen. Dank Veo haben sich unzählige Möglichkeiten eröffnet.

When an AI model has the potential to touch different industries, it’s important to keep in mind safety and ethical AI. To enable broader adoption and ensure responsible use, Google has implemented several safety measures. Videos created by Veo are watermarked using SynthID, a tool for watermarking and identifying AI-generated content. The SynthId ensures transparency and helps mitigate privacy, copyright, and bias risks. Other than this, all generated videos pass through safety filters and memorization-checking processes. These safeguards make Veo a valuable and ethical tool that supports responsible and innovative video production.

Wo du auf Veo zugreifen kannst

In the upcoming weeks, Google will start offering some of Veo’s groundbreaking features to select creators through VideoFX, a new tool available at labs.google. This initiative allows early access to Veo’s advanced video generation capabilities, giving creators the opportunity to experiment with its innovative features. The waitlist for Veo is currently open, inviting interested creators to sign up and use Veo's powerful tools in their projects.

Mehr zu DeepMinds 2024 Generative AI Updates

Neben Veo hat DeepMind für 2024 mehrere bahnbrechende Updates für generative KI vorgestellt. Eines dieser Updates ist Imagen 3, das bisher fortschrittlichste Text-Bild-Modell. Imagen 3 zeichnet sich dadurch aus, dass es fotorealistische, naturgetreue Bilder erzeugt. Es versteht natürlichsprachliche Eingabeaufforderungen sehr gut und erfasst komplizierte Details, während visuelle Artefakte minimiert werden.

Abb. 7. Ein mit Imagen 3 erstelltes Bild.

DeepMind hat auch Lyria entwickelt, sein fortschrittlichstes Modell zur KI-Musikgenerierung. Als Teil dieser Bemühungen hat DeepMind eine Reihe von Musik-KI-Tools namens Music AI Sandbox entwickelt. Mit diesen Werkzeugen können Musiker/innen und Produzent/innen neue kreative Möglichkeiten der Musikkomposition und Klangumwandlung erkunden.

Abb. 8. Ein Beispiel für die Benutzeroberfläche von DeepMinds KI-Musik-Tools.

Ähnlich wie bei Veo hat DeepMind auch bei seinen anderen Updates verschiedene Sicherheitsmaßnahmen eingeführt. Die SynthID wird bei diesen Updates als Wasserzeichen und zur Identifizierung von KI-generierten Inhalten verwendet. Diese Updates von DeepMind versprechen, verschiedene Branchen zu verändern, indem sie fortschrittliche, effiziente und verantwortungsbewusste Werkzeuge für die Erstellung hochwertiger visueller und akustischer Inhalte bieten.

Die nächste Phase der generativen KI steuern

Die generativen KI-Fortschritte von DeepMind aus dem Jahr 2024, darunter Veo, Imagen 3 und Lyria, stellen einen erheblichen Sprung in den KI-Fähigkeiten dar. Veo verändert die Videoerstellung mit seiner Fähigkeit, qualitativ hochwertige 1080p-Videos aus einfachen Eingabeaufforderungen zu generieren, und ist damit ein vielseitiges Werkzeug für Filmemacher/innen und Content-Ersteller/innen. Imagen 3 glänzt bei der Erstellung fotorealistischer Bilder, während Lyria mit fortschrittlichen KI-Tools neue Möglichkeiten bei der Musikproduktion eröffnet.

Diese Technologien versprechen, verschiedene Branchen zu verändern, indem sie effiziente und verantwortungsvolle Werkzeuge für die Erstellung hochwertiger visueller und akustischer Inhalte bereitstellen. Mit Sicherheitsmaßnahmen wie SynthID, die eine ethische Nutzung sicherstellen, erweitert DeepMind die Grenzen der KI und ebnet den Weg für innovative Anwendungen in der Zukunft.

Tauche in die KI ein, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Erkunde unsere Lösungsseiten, um zu erfahren, wie KI in der Produktion und in der Landwirtschaft eingesetzt wird.

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens