Yapay Zeka Görüşü

Google DeepMind'ın Veo'su ile videolar oluşturmak

Metin, görsel ve video komutlarından zahmetsizce yüksek kaliteli 1080P videolar oluşturabilen Google DeepMind'ın en yeni üretken video modeli Veo hakkında daha fazla bilgi edin.

ABAbirami Vina

6 min readMay 15, 2024

Google DeepMind'ın Veo üretken video modeli

Google'ın 14 Mayıs'taki Google 2024 I/O sunumu sırasında, AI bölümleri DeepMind'dan en son güncellemeleri paylaştılar. Paylaşılan en heyecan verici gelişmelerden biri, yeni üretken video modelleri Veo'ydu. Veo; metin, görsel ve video istemlerine dayalı olarak yüksek kaliteli 1080p videolar oluşturabiliyor. Hatta oluşturulan videoları sonraki istemlerle düzenlemene bile olanak tanıyor. Veo, üretken AI'yı bir üst seviyeye taşıyor. Gel, Veo'nun sunduğu özelliklere daha yakından bakalım.

Link to this sectionVeo'nun yeteneklerini anlamak#

Veo, kullanıcının yaratıcı vizyonuna tam olarak uyan videolar oluşturmak için dil ve görselleri derinlemesine anlayan üretken bir video modelidir. Daha uzun istemlerin tonunu ve ayrıntılarını doğru bir şekilde yakalayabildiği için, fikirlerini hassas video içeriğine dönüştürmek isteyen içerik oluşturucular için güçlü bir araçtır.

Veo, "zaman atlamalı çekim (timelapse)" ve "manzaranın havadan çekimleri" gibi film tekniklerini anlayabildiği için kullanıcıya oluşturulan video üzerinde çığır açan bir yaratıcı kontrol sağlar. Bu yaratıcı kontrol, kullanıcıların insanların, hayvanların ve nesnelerin doğal bir şekilde hareket ettiği videolar oluşturmasını mümkün kılar. Veo tarafından oluşturulan videolar etkileyici ve görsel açıdan çekicidir çünkü bir AI modeli tarafından oluşturulduklarını fark etmek zordur.

Veo, yalnızca istemlerden video oluşturmanın ötesine geçiyor. Eğer daha önce oluşturulmuş bir videoyu ve belirli bir düzenleme isteğini, örneğin bir kıyı şeridinin havadan görünümüne kanolar eklemek gibi, sağlarsan Veo bu değişikliği orijinal videoya sorunsuz bir şekilde entegre ederek güncellenmiş bir sürüm üretebilir.

Veo kullanan bir video düzenleme örneği

Şekil 1. Veo kullanılarak yapılan video düzenleme örneği.

İşte Veo'nun sunduğu bazı özellikler daha:

Maskeli Düzenleme: Veo, videonun tanımlanmış alanlarını düzenlemene yardımcı olabilir.
Görselden İlham Alan Video Oluşturma: Bir görsel ve bir metin istemi kullanarak Veo, görselin stilini yansıtan ve istemin yönergelerini takip eden videolar oluşturabilir.
Genişletilmiş Video Klipler: Veo, tek bir istemden veya birlikte bir hikaye anlatan bir dizi istemden 60 saniyeye veya daha uzun süreye sahip video klipleri oluşturabilir ve uzatabilir.

Link to this sectionVeo tarafından oluşturulan büyüleyici videolar#

Hadi Veo'nun oluşturduğu bazı videolara ve neden bu kadar büyüleyici olduklarına bir göz atalım.

Kısa bir metin isteminden zaman atlamalı (timelapse) bir video oluşturmak zordur. Genellikle kısa metin istemleri, zaman atlamalı çekimin sahnesindeki değişimleri ve hareketleri doğru bir şekilde aktaramaz. Bu nedenle, Veo'nun detaylara girmeden zaman atlamalı bir çekimden ne bekleneceğini anlaması şaşırtıcıdır.

Veo tarafından oluşturulan hızlandırılmış videodan bir kare

Şekil 2. Veo tarafından oluşturulan zaman atlamalı videodan bir kare.

Benzer şekilde, doğru fizik kurallarına sahip videolar oluşturmak da kolay değildir. AI modelinin hareketlerin ve etkileşimlerin gerçekçi görünmesi için yerçekimi, momentum ve çarpışma gibi fizik yasalarını anlaması ve simüle etmesi gerekir. Veo'nun metin istemlerinden gelen ayrıntılı rehberlik olmaksızın bu dinamikleri doğru bir şekilde modelleyebilmesi etkileyicidir.

Denizanası hareketinin fiziğini yakalayan Veo kullanılarak oluşturulmuş bir videodan kare

Şekil 3. Veo kullanılarak oluşturulan ve denizanası hareketinin fiziğini doğru bir şekilde yakalayan bir videodan kare.

Şimdiye kadar, hesaplama sınırlamaları ve daha uzun dizilerde tutarlılığı korumanın karmaşıklığı nedeniyle AI tarafından oluşturulan sadece kısa videolar gördük. Google'ın 2024 I/O sunumunda, Veo'nun daha uzun ve daha karmaşık videolar oluşturma konusundaki akıl almaz yeteneği gösterildi.

Google 2024 I/O sunumunda gösterilen daha uzun Veo videosundan kareler

Şekil 4. Google 2024 I/O sunumunda gösterilen daha uzun Veo videosundan kareler.

Link to this sectionVeo nasıl çalışır?#

Diğer birçok AI modeli gibi Veo da devlerin omuzlarında yükselir. Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet ve Lumiere gibi önceki gelişmelerin yanı sıra Google'ın tescilli Transformer mimarisi ve Gemini'den beslenir. Ayrıca, Veo'nun istemleri doğru yorumlama yeteneğini geliştirmek için eğitim veri setindeki her videonun açıklamaları daha ayrıntılı tutulmuştur.

Google tarafından paylaşılan kaba model iş akışına dayanarak, Veo işte şöyle çalışır:

Giriş İstemleri: Bir metin istemi ve isteğe bağlı olarak bir görsel istemi sağlarsın.
Kodlama: Metin istemi bir UL2 Encoder tarafından, görsel istemi ise bir görsel kodlayıcı tarafından işlenir.
Gömülü İstem: Metin ve görsel kodlayıcılardan gelen çıktılar birleştirilerek tek bir gömülü istem oluşturulur.
Latent Diffusion Model: Gömülü istem ve gürültülü sıkıştırılmış bir video, bunları kullanarak sıkıştırılmış bir video oluşturan bu modele gönderilir. Veo, kaliteyi korurken verimliliği artırmak için latents olarak bilinen yüksek kaliteli, sıkıştırılmış video temsillerini kullanır.
Kod Çözme: Son adım, sıkıştırılmış videodan 1080p video çıktısının kodunu çözer.

Veo'nun nasıl çalıştığını gösteren şema

Şekil 5. Veo nasıl çalışır?

Link to this sectionFilm yapımı üzerine ilgi çekici bir vaka çalışması#

Veo'nun yeteneklerini test etmek için Google, film yapımcısı Donald Glover ve onun yaratıcı stüdyosu Gilga ile iş birliği yaptı. Hassas hareket ve tutarlı çerçeveleme gerektiren dinamik takip çekimleri dahil olmak üzere çeşitli yaratıcı teknikleri keşfetmek için Veo'yu kullandılar.

Film yapım sürecinde Veo kullanımı

Şekil 6. Film yapım sürecinde Veo kullanmak.

Geleneksel olarak film yapımcıları zaman ve kaynak kısıtlamaları nedeniyle sınırlamalarla karşılaşırlar. Veo ile Glover ve ekibi, karmaşık çekimleri hızla deneyebilir ve oluşturabilir, bu da film yapım sürecinde daha fazla esneklik ve yenilik sağladı.

Veo ile Glover ve ekibi, gerçek çekimden önce karmaşık çekimleri hızla deneyebilir ve oluşturabilirdi. Örneğin, nasıl görüneceklerini görmek için çeşitli dinamik takip çekimlerini test edebilir ve gerektiğinde ayarlamalar yapabilirlerdi. Bu ön görselleştirme süreci, fikirlerini geliştirmelerine ve çekimlerin amaçlandığı gibi çalışacağından emin olmalarına yardımcı oldu, böylece gerçek çekim sırasında gereken çekim sayısını azalttı. Veo'nun film endüstrisini değiştirme potansiyelini göstermek için ilgi çekici bir vaka çalışması oluşturmayı başardılar. Yaratıcı vizyonları hayata geçirmek için daha hızlı ve daha verimli bir yol sunuyor.

Link to this sectionVeo'nun çeşitli endüstrilerdeki pratik kullanımları#

Veo'nun gelişmiş video oluşturma yetenekleri birçok endüstride pratik uygulamalara sahiptir. Reklamcılıkta, hedeflenen kitleler için hızlıca kişiselleştirilmiş, yüksek kaliteli reklamlar üreterek zamandan ve üretim maliyetlerinden tasarruf sağlar. Eğitimde ise Veo, ilgi çekici öğretim videoları oluşturarak karmaşık kavramların anlaşılmasını kolaylaştırabilir.

İşletmeler, Veo'yu eğitim ve kurumsal iletişim için kullanabilir. Sağlık uzmanları, eğitim amacıyla tıbbi prosedürleri simüle etmek için Veo'dan yararlanabilirler. Sanal etkinlikler ve konferanslarla ilgili olarak Veo, mekanların ve sahnelerin gerçeğe yakın simülasyonlarını oluşturarak katılımcılara her yerden ilgi çekici ve etkileşimli bir deneyim sunabilir. Organizatörler, genişletilmiş erişimden ve gelecekteki etkinlikler için değerli içgörülerden faydalanır. Veo sayesinde sayısız fırsat kapısı açıldı.

Bir AI modelinin farklı sektörlere dokunma potansiyeli olduğunda, güvenlik ve etik AI'yı akılda tutmak önemlidir. Daha geniş bir benimsenmeyi sağlamak ve sorumlu kullanımı güvence altına almak için Google, çeşitli güvenlik önlemleri uygulamıştır. Veo tarafından oluşturulan videolar, AI tarafından üretilen içerikleri filigranlamak ve tanımlamak için bir araç olan SynthID kullanılarak filigranlanır. SynthID şeffaflığı sağlar ve gizlilik, telif hakkı ve önyargı risklerini azaltmaya yardımcı olur. Bunun dışında, oluşturulan tüm videolar güvenlik filtrelerinden ve ezber kontrol süreçlerinden geçer. Bu korumalar, Veo'yu sorumlu ve yenilikçi video üretimini destekleyen değerli ve etik bir araç haline getirir.

Link to this sectionVeo'ya nasıl erişilir#

Önümüzdeki haftalarda Google, Veo'nun çığır açan özelliklerinden bazılarını labs.google adresinde bulunan yeni bir araç olan VideoFX aracılığıyla seçkin içerik oluşturuculara sunmaya başlayacak. Bu girişim, Veo'nun gelişmiş video oluşturma yeteneklerine erken erişim sağlayarak içerik oluşturuculara yenilikçi özelliklerini deneme fırsatı tanıyor. Veo bekleme listesi şu anda açık; ilgilenen içerik oluşturucuları kaydolmaya ve Veo'nun güçlü araçlarını projelerinde kullanmaya davet ediyor.

Link to this sectionDeepMind'ın 2024 üretken AI güncellemeleri hakkında daha fazlası#

Veo'nun yanı sıra DeepMind, 2024 için üretken AI alanında birçok son teknoloji güncelleme tanıttı. Bu güncellemelerden biri, bugüne kadarki en gelişmiş metinden görsele model olan Imagen 3'tür. Imagen 3, fotogerçekçi ve gerçeğe yakın görseller oluşturmada mükemmeldir. Doğal dil istemlerini derinlemesine anlar ve görsel kusurları en aza indirirken karmaşık ayrıntıları yakalar.

Imagen 3 kullanılarak oluşturulmuş bir görsel

Şekil 7. Imagen 3 kullanılarak oluşturulan bir görsel.

DeepMind ayrıca AI müzik oluşturma için en gelişmiş modeli olan Lyria'yı geliştirdi. Bu çabanın bir parçası olarak DeepMind, Music AI Sandbox adında bir müzik AI araçları paketi oluşturdu. Bu araçlar, müzisyenlerin ve yapımcıların müzik kompozisyonu ve ses dönüştürme konusunda yeni yaratıcı olasılıkları keşfetmelerini sağlıyor.

DeepMind'ın yapay zeka müzik araçlarının bir arayüz örneği

Şekil 8. DeepMind'ın AI müzik araçlarının örnek arayüzü.

Veo'ya benzer şekilde DeepMind, diğer güncellemeleriyle ilgili olarak da çeşitli güvenlik önlemleri uyguladı. SynthID, AI tarafından üretilen içerikleri filigranlamak ve tanımlamak için bir araç olarak bu güncellemelerde kullanılacak. DeepMind'dan gelen bu güncellemeler, yüksek kaliteli görsel ve işitsel içerik oluşturmak için gelişmiş, verimli ve sorumlu araçlar sunarak çeşitli endüstrileri dönüştürmeyi vaat ediyor.

Link to this sectionÜretken AI'nın bir sonraki aşamasında gezinmek#

DeepMind'ın Veo, Imagen 3 ve Lyria dahil olmak üzere 2024 üretken AI gelişmeleri, AI yeteneklerinde kayda değer bir sıçramayı işaret ediyor. Veo, basit istemlerden yüksek kaliteli 1080p videolar oluşturma yeteneğiyle video üretimini dönüştürerek, film yapımcıları ve içerik oluşturucular için çok yönlü bir araç haline geliyor. Imagen 3 fotogerçekçi görseller üretmede öne çıkarken, Lyria gelişmiş AI araçlarıyla müzik oluşturmada yeni olasılıklar sunuyor.

Bu teknolojiler, yüksek kaliteli görsel ve işitsel içerik oluşturmak için verimli ve sorumlu araçlar sağlayarak çeşitli endüstrileri dönüştürmeyi vaat ediyor. SynthID gibi etik kullanımı garanti eden güvenlik önlemleriyle DeepMind, AI'nın sınırlarını genişletmeye devam ederek gelecekteki yenilikçi uygulamaların önünü açıyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak AI dünyasına dal. AI'nın üretim ve tarım alanlarında nasıl uygulandığını öğrenmek için çözümler sayfalarımızı keşfet.

Google DeepMind'ın Veo'su ile videolar oluşturmak

Link to this sectionVeo'nun yeteneklerini anlamak#

Link to this sectionVeo tarafından oluşturulan büyüleyici videolar#

Link to this sectionVeo nasıl çalışır?#

Link to this sectionFilm yapımı üzerine ilgi çekici bir vaka çalışması#

Link to this sectionVeo'nun çeşitli endüstrilerdeki pratik kullanımları#

Link to this sectionVeo'ya nasıl erişilir#

Link to this sectionDeepMind'ın 2024 üretken AI güncellemeleri hakkında daha fazlası#

Link to this sectionÜretken AI'nın bir sonraki aşamasında gezinmek#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!