Meta Movie Gen: KI-Videoerstellung

Egal, ob Sie ein aufstrebender Filmemacher oder ein Content-Creator sind, der gerne Videos für sein Publikum erstellt - KI-Tools, die Ihre Kreativität erweitern, sind immer hilfreich. Kürzlich hat Meta sein neuestes generatives Videomodell, Meta Movie Gen, vorgestellt.

Der globale Markt für generative KI in der Medien- und Unterhaltungsbranche wird bis 2033 voraussichtlich 11,57 Milliarden US-Dollar erreichen, wobei Unternehmen wie Runway, OpenAI und Meta mit bahnbrechenden Innovationen führend sind. Insbesondere Meta Movie Gen eignet sich hervorragend für Anwendungen wie Filmemachen, die Erstellung von Videoinhalten und digitales Storytelling und macht es einfacher denn je, kreative Visionen durch hochwertige, KI-generierte Videos zum Leben zu erwecken. In diesem Artikel erfahren Sie mehr über Meta Movie Gen und wie es funktioniert. Außerdem werfen wir einen genaueren Blick auf einige seiner Anwendungen. Fangen wir an!

__wf_reserved_inherit — Abb. 1. Ein Frame eines mit Meta Movie Gen erstellten Videoclips.

‍

Was ist Meta Movie Gen?

Bevor wir erörtern, was Meta Movie Gen ist, wollen wir einen Blick darauf werfen, wie es entstanden ist.

Metas Forschungsbemühungen im Bereich der generativen KI begannen mit der Modellreihe Make-A-Scene. Diese Forschung konzentriert sich auf eine multimodale generative KI-Methode, die Künstlern und Visionären hilft, ihre Fantasie zum Leben zu erwecken. Künstler können Bilder, Audio, Videos oder 3D-Animationen eingeben, um die gewünschte Bildausgabe zu erhalten. Der nächste Innovationsschub kam mit Diffusionsmodellen wie den Llama Image Foundation-Modellen(Emu), die es ermöglichten, Bilder und Videos in viel höherer Qualität zu erzeugen und die Bildbearbeitung zu ermöglichen.

‍

Movie Gen ist der neueste Beitrag von Meta zur generativen KI-Forschung. Es kombiniert alle zuvor erwähnten Modalitäten und ermöglicht eine noch feinere Steuerung, so dass Menschen die Modelle auf kreativere Weise nutzen können. Meta Movie Gen ist eine Sammlung grundlegender Modelle für die Erzeugung verschiedener Medientypen, einschließlich Text-zu-Video, Text-zu-Audio und Text-zu-Bild. Sie besteht aus vier Modellen, die auf einer Kombination aus lizenzierten und öffentlich zugänglichen Datensätzen trainiert werden.

Hier ist ein kurzer Überblick über diese Modelle:

Movie Gen Video-Modell: Ein 30-Milliarden-Parameter-Modell, das aus Textaufforderungen hochwertige Videos erzeugt.
‍
Movie Gen Audio-Modell: Ein 13-Milliarden-Parameter-Modell, das Tonspuren erstellen kann, die mit Videoinhalten synchronisiert sind.
‍
Personalisiertes Film-Gen-Video-Modell: Es erzeugt Videos von bestimmten Personen auf der Grundlage einer Textaufforderung und eines einzelnen Bildes, wobei die Ähnlichkeit der Personen erhalten bleibt.
‍
Movie Gen Edit Modell: Das Modell ermöglicht detaillierte, textbasierte Videobearbeitungen für reale und fiktive Videos.

Training des Meta Movie Gen Videomodells

Bei der Erstellung und dem Training des Movie Gen Video-Modells waren mehrere Schlüsselprozesse beteiligt. Der erste Schritt bestand in der Sammlung und Aufbereitung visueller Daten, einschließlich Bildern und Videoclips, hauptsächlich von menschlichen Aktivitäten, die nach Qualität, Bewegung und Relevanz gefiltert wurden. Die Daten wurden dann mit Textbeschriftungen gepaart, die erklärten, was in den einzelnen Szenen geschah. Die Beschriftungen, die mit dem LLaMa3-Videomodell von Meta generiert wurden, lieferten reichhaltige Details über den Inhalt der einzelnen Szenen und verbesserten die visuellen Erzählfähigkeiten des Modells.

‍

Der Trainingsprozess begann damit, dass das Modell lernte, Text in niedrig aufgelöste Bilder umzuwandeln. Anschließend wurden durch eine Kombination aus Text-zu-Bild- und Text-zu-Video-Training vollständige Videoclips erstellt, wobei zunehmend hochwertiges Bildmaterial verwendet wurde.

Ein Tool namens Temporal Autoencoder (TAE) komprimierte die Videos, um große Datenmengen effizient zu verwalten. Durch Feinabstimmung wurde die Videoqualität weiter verbessert, und eine Methode namens Modell-Mittelwertbildung (sie kombiniert mehrere Modellausgaben für glattere, konsistentere Ergebnisse) sorgte für eine größere Konsistenz der Ausgabe. Schließlich wurde das Video mit einer Auflösung von 768p auf eine scharfe 1080p-Auflösung hochskaliert, wobei ein räumliches Upsampler-Verfahren zum Einsatz kam, das die Bildauflösung durch Hinzufügen von Pixeldaten für eine klarere Darstellung erhöht. Das Ergebnis waren hochwertige, detaillierte Videoausgaben.

Erkundung der Fähigkeiten von Meta Movie Gen

Die Meta Movie Gen-Modelle unterstützen hauptsächlich vier verschiedene Fähigkeiten. Schauen wir uns jede von ihnen genauer an.

Video- und Audiogenerierung

Meta Movie Gen kann qualitativ hochwertige Videos erzeugen. Diese Videoclips können bis zu 16 Sekunden lang sein und mit 16 fps (Frames pro Sekunde) laufen, wodurch realistische Bilder entstehen, die Bewegungen, Interaktionen und Kamerawinkel von Texteingaben erfassen. In Verbindung mit dem 13-Milliarden-Parameter-Audiomodell können synchronisierte Audiodaten, einschließlich Umgebungsgeräuschen, Foley-Effekten und Musik, passend zum Bildmaterial erzeugt werden.

Diese Einrichtung sorgt für ein nahtloses, lebensechtes Erlebnis, bei dem Bild und Ton über verschiedene Szenen und Aufforderungen hinweg aufeinander abgestimmt und realistisch bleiben. Diese Modelle wurden zum Beispiel verwendet, um Videoclips des viralen Flusspferds Moo Deng aus Thailand zu erstellen.

‍

Personalisierte Videoerstellung

Eine weitere interessante Funktion des Meta Movie Gen Modells ist die personalisierte Videogenerierung. Der Benutzer kann das Bild einer Person und einen Text eingeben, der beschreibt, wie der Videoclip generiert werden soll. Das Ergebnis ist ein Video, das die Referenzperson enthält und die in der Textaufforderung angegebenen visuellen Details einbezieht. Das Modell verwendet beide Eingaben (Bild und Text), um das einzigartige Aussehen und die natürlichen Körperbewegungen der Person beizubehalten und gleichzeitig die in der Eingabeaufforderung beschriebene Szene genau zu verfolgen.

‍

Präzise Videobearbeitung

Mit dem Modell Movie Gen Edit können Benutzer sowohl einen Videoclip als auch eine Texteingabe bereitstellen, um das Video auf kreative Weise zu bearbeiten. Das Modell kombiniert die Videoerstellung mit fortschrittlicher Bildbearbeitung, um sehr spezifische Bearbeitungen vorzunehmen, wie das Hinzufügen, Entfernen oder Ersetzen von Elementen. Es kann auch globale Änderungen vornehmen, z. B. den Hintergrund des Videoclips oder den Gesamtstil ändern. Was das Modell jedoch wirklich einzigartig macht, ist seine Präzision: Es kann nur die spezifischen Pixel anvisieren, die bearbeitet werden müssen, und den Rest unangetastet lassen. Auf diese Weise bleibt der ursprüngliche Inhalt so weit wie möglich erhalten.

‍

Meta Movie Gen's Benchmarking-Werkzeuge

Zusammen mit den generativen KI-Modellen stellte Meta auch Movie Gen Bench vor, eine Suite von Benchmarking-Tools zum Testen der Leistung von generativen KI-Modellen. Sie besteht aus zwei Haupttools: Movie Gen Video Bench und Movie Gen Audio Bench. Beide sind darauf ausgelegt, verschiedene Aspekte der Video- und Audiogenerierung zu testen.

Hier ein kleiner Einblick in beide Tools:

Movie Gen Video Bench: Er besteht aus 1003 Aufforderungen, die eine Vielzahl von Testkategorien wie menschliche Aktivitäten, Tiere, natürliche Landschaften, Physik sowie ungewöhnliche Themen und Aktivitäten abdecken. Was diesen Benchmark besonders wertvoll macht, ist seine Abdeckung von Bewegungsebenen, die sicherstellt, dass das Videogenerierungsmodell sowohl für schnelle als auch für langsamere Sequenzen getestet wird.
‍
Movie Gen Audio Bench: Er dient dazu, die Fähigkeiten der Audiogenerierung anhand von 527 Prompts zu testen. Diese Prompts werden mit generierten Videos gepaart, um zu beurteilen, wie gut das Modell Soundeffekte und Musik mit visuellen Inhalten synchronisieren kann.

‍

Eine praktische Anwendung von Meta Movie Gen

Nachdem wir nun erfahren haben, was die Meta Movie Gen-Modelle sind und wie sie funktionieren, wollen wir nun eine ihrer praktischen Anwendungen untersuchen.

Movie Gen AI-Innovationen beim Filmemachen

Eine der aufregendsten Anwendungen von Metas Movie Gen ist die Veränderung der Filmproduktion durch KI-gestützte Video- und Audioerstellung. Mit Movie Gen können Kreative aus einfachen Textanweisungen hochwertige Bilder und Töne erzeugen und so neue Wege für die Erzählung von Geschichten eröffnen.

Meta hat sich mit Blumhouse und einer Gruppe von Filmemachern zusammengetan, um deren Feedback einzuholen, wie Movie Gen den kreativen Prozess am besten unterstützen kann. Filmemacher wie Aneesh Chaganty, die Spurlock Sisters und Casey Affleck testeten die Fähigkeit des Tools, Stimmung, Ton und visuelle Ausrichtung zu erfassen. Sie entdeckten, dass die Modelle dabei halfen, neue Ideen zu entwickeln.

Dieses Pilotprogramm hat gezeigt, dass Movie Gen zwar nicht das traditionelle Filmemachen ersetzt, aber den Regisseuren eine neue Möglichkeit bietet, schnell und kreativ mit visuellen und Audioelementen zu experimentieren. Die Filmemacher schätzten auch, dass sie mit den Bearbeitungsfunktionen des Tools freier mit Hintergrundgeräuschen, Effekten und visuellen Stilen spielen können.

‍

Die wichtigsten Erkenntnisse

Meta Movie Gen ist ein Schritt nach vorn bei der Nutzung generativer KI, um aus einfachen Textbeschreibungen hochwertige Videos und Sounds zu erstellen. Das Tool hilft Nutzern bei der einfachen Erstellung realistischer und benutzerdefinierter Videos. Mit Funktionen wie präziser Videobearbeitung und personalisierter Mediengenerierung bietet Meta Movie Gen ein flexibles Toolset, das neue Möglichkeiten für Storytelling, Filmemachen und mehr eröffnet. Meta Movie Gen vereinfacht die Erstellung detaillierter und nützlicher Bilder und verändert damit die Art und Weise, wie Videos in verschiedenen Bereichen erstellt und verwendet werden, und setzt einen neuen Standard für die KI-gesteuerte Erstellung von Inhalten.

Um mehr zu erfahren, besuchen Sie unser GitHub-Repository und beteiligen Sie sich an unserer Community. Entdecken Sie KI-Anwendungen für selbstfahrende Autos und die Landwirtschaft auf unseren Lösungsseiten. 🚀

Meta Movie Gen: Die Erstellung von Inhalten neu denken

Was ist Meta Movie Gen?

Training des Meta Movie Gen Videomodells