YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Google DeepMind'ın Veo'su ile video oluşturma

Abirami Vina

6 dakika okuma süresi

15 Mayıs 2024

Google DeepMind'ın metin, resim ve video istemlerinden zahmetsizce yüksek kaliteli 1080P videolar oluşturabilen en son üretken video modeli Veo hakkında daha fazla bilgi edinin.

Google'ın 14 Mayıs'taki 2024 I/O sunumu sırasında, yapay zeka bölümleri olan DeepMind'dan en son güncellemeleri paylaştılar. Paylaşılan en heyecan verici gelişmelerden biri, en yeni üretken video modelleri Veo oldu. Veo, metin, resim ve video istemlerine dayalı olarak yüksek kaliteli 1080P videolar oluşturabilir. Hatta oluşturulan videoları sonraki istemlerle düzenlemenize olanak tanır. Veo, üretken yapay zekayı bir sonraki seviyeye taşıyor. Veo'nun sunduğu özelliklere daha yakından bakalım. 

Veo'nun yeteneklerini anlamak

Veo, kullanıcının yaratıcı vizyonuyla yakından eşleşen videolar oluşturmak için dil ve görselleri derinlemesine anlayan üretken bir video modelidir. Daha uzun istemlerin tonunu ve ayrıntılarını doğru bir şekilde yakalayabilir, bu da onu fikirlerini hassas video içeriğine dönüştürmek isteyen içerik oluşturucular için güçlü bir araç haline getirir.

Kullanıcı, Veo'nun "hızlandırılmış çekim" ve "bir manzaranın havadan çekimleri" gibi film tekniklerini anlayabilmesi sayesinde oluşturulan video üzerinde çığır açan bir yaratıcı kontrole sahip olabilir. Bu yaratıcı kontrol, kullanıcıların insanların, hayvanların ve nesnelerin doğal olarak hareket ettiği videolar oluşturmasını mümkün kılar. Veo tarafından oluşturulan videolar ilgi çekici ve görsel olarak çekicidir, çünkü bir AI modeli tarafından oluşturulduklarını fark etmek zordur.

Veo, yalnızca istemlerden videolar oluşturmanın ötesine geçer. Önceden oluşturulmuş bir video ve belirli bir düzenleme isteği (örneğin, bir sahil şeridinin havadan görünümüne kanolar eklemek) sağlarsanız, Veo bu değişikliği orijinal videoya sorunsuz bir şekilde entegre edebilir ve güncellenmiş bir sürüm üretebilir.

Şekil 1. Veo kullanarak video düzenlemeye bir örnek.

İşte Veo'nun sunduğu bazı ek özellikler:

  • Maskelenmiş Düzenleme: Veo, bir videonun tanımlanmış alanlarını düzenlemenize yardımcı olabilir.
  • Görüntüden İlham Alan Video Oluşturma: Bir görüntü ve bir metin istemi kullanarak Veo, görüntünün stilini yansıtan ve istemin talimatlarını izleyen videolar oluşturabilir.
  • Genişletilmiş Video Klipleri: Veo, tek bir istemden veya birlikte bir hikaye anlatan bir dizi istemden video klipleri oluşturabilir ve 60 saniye veya daha fazlasına uzatabilir.

Veo'nun oluşturduğu nefes kesen videolar

Veo'nun oluşturduğu videolardan bazılarını ve neden bu kadar nefes kesici olduklarını inceleyelim. 

Kısa bir metin isteminden bir zaman atlamalı video oluşturmak zordur. Genellikle, kısa metin istemi, zaman atlamalı sahne içindeki değişiklikleri ve hareketleri doğru bir şekilde iletemez. Bu nedenle, Veo'nun bir zaman atlamasından ne bekleneceğini ayrıntılara girmeden anlayabilmesi şaşırtıcıdır. 

Şekil 2. Veo'nun oluşturduğu zaman atlamalı videodan bir kare.

Benzer şekilde, doğru fizik ile videolar oluşturmak kolay değildir. Yapay zeka modelinin, hareketlerin ve etkileşimlerin gerçekçi görünmesini sağlamak için yerçekimi, momentum ve çarpışmalar gibi fizik yasalarını anlaması ve simüle etmesi gerekir. Veo'nun bu dinamikleri metin istemlerinden ayrıntılı bir rehberlik olmadan doğru bir şekilde modelleyebilmesi etkileyicidir.

Şekil 3. Veo kullanılarak oluşturulan bir videodan alınan bir kare, denizanası hareketinin fiziğini doğru bir şekilde yakalar.

Şimdiye kadar, hesaplama sınırlamaları ve daha uzun sekanslarda tutarlılığı sürdürmenin karmaşıklığı nedeniyle yalnızca AI tarafından oluşturulan daha kısa videolar gördük. Google'ın 2024 I/O sunumunda Veo'nun daha uzun ve daha karmaşık videolar oluşturma konusundaki akıllara durgunluk veren yeteneği gösterildi.

Şekil 4. Google 2024 I/O sunumunda gösterilen daha uzun Veo videosundan kareler.

Veo nasıl çalışır?

Diğer birçok yapay zeka modeli gibi, Veo da devlerin omuzlarında yükseliyor. Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet ve Lumiere gibi önceki gelişmelerin yanı sıra Google'ın tescilli Transformer mimarisi ve Gemini'den yararlanıyor. Ayrıca, Veo'nun istemleri doğru bir şekilde yorumlama yeteneğini geliştirmek için, eğitim veri setindeki her videonun başlıkları daha ayrıntılıydı. 

Google tarafından paylaşılan kaba model iş akışına göre, Veo şu şekilde çalışır:

  • Giriş İstemleri: Bir metin istemi ve isteğe bağlı olarak bir görüntü istemi sağlarsınız.
  • Kodlama: Metin istemi bir UL2 Kodlayıcı tarafından, görüntü istemi ise bir görüntü kodlayıcı tarafından işlenir.
  • Gömülü İstek (Embedded Prompt): Metin ve görüntü kodlayıcılarından elde edilen çıktılar, tek bir gömülü istek oluşturmak için birleştirilir.
  • Latent Diffusion Modeli: Gömülü istem ve gürültülü sıkıştırılmış bir video, bunları kullanarak sıkıştırılmış bir video üreten bu modele iletilir. Veo, kaliteyi korurken verimliliği artırmak için latents olarak bilinen yüksek kaliteli, sıkıştırılmış video temsillerini kullanır.
  • Kod Çözme: Son adım, sıkıştırılmış videodan 1080p video çıktısının kodunu çözer.
Şekil 5. Veo nasıl çalışır.

Film yapımında ilgi çekici bir örnek olay incelemesi

Veo'nun yeteneklerini test etmek için Google, film yapımcısı Donald Glover ve yaratıcı stüdyosu Gilga ile işbirliği yaptı. Hassas hareket ve tutarlı çerçeveleme gerektiren dinamik takip çekimleri de dahil olmak üzere çeşitli yaratıcı teknikleri keşfetmek için Veo'yu kullandılar. 

Şekil 6. Veo'nun film yapım sürecinde kullanılması.

Geleneksel olarak, film yapımcıları zaman ve kaynak kısıtlamaları nedeniyle sınırlamalarla karşı karşıyadır. Veo ile Glover ve ekibi, karmaşık çekimleri hızla deneyebilir ve oluşturabilir, bu da film yapım sürecinde daha fazla esneklik ve yenilik sağladı.

Veo ile Glover ve ekibi, gerçek çekimlerden önce karmaşık çekimleri hızlı bir şekilde deneyebilir ve oluşturabilirdi. Örneğin, nasıl görüneceklerini görmek ve gerektiğinde ayarlamalar yapmak için çeşitli dinamik takip çekimlerini test edebilirlerdi. Bu ön görselleştirme süreci, fikirlerini geliştirmelerine ve çekimlerin amaçlandığı gibi çalışmasını sağlamalarına yardımcı oldu ve sonuçta gerçek çekimler sırasında gereken çekim sayısını azalttı. Veo'nun film endüstrisini değiştirme potansiyelini göstermek için ilgi çekici bir örnek olay incelemesi oluşturabildiler. Yaratıcı vizyonları hayata geçirmenin daha hızlı ve daha verimli bir yolunu sunuyor.

Veo'nun çeşitli sektörlerdeki pratik kullanımları 

Veo'nun gelişmiş video oluşturma yetenekleri, birçok sektörde pratik uygulamalara sahiptir. Reklamcılıkta, hedeflenen kitleler için özelleştirilmiş, yüksek kaliteli reklamları hızla üretebilir, böylece zamandan ve üretim maliyetlerinden tasarruf sağlar. Eğitimde ise Veo, ilgi çekici öğretici videolar oluşturarak karmaşık kavramların anlaşılmasını kolaylaştırabilir. 

İşletmeler, Veo'yu eğitim ve kurumsal iletişim için kullanabilir. Sağlık profesyonelleri, eğitim amaçlı tıbbi prosedürleri simüle etmek için Veo'yu kullanabilir. Sanal etkinlikler ve konferanslarla ilgili olarak Veo, mekanların ve sahnelerin gerçeğe yakın simülasyonlarını oluşturarak katılımcılara her yerden ilgi çekici ve etkileşimli bir deneyim sunabilir. Organizatörler, genişletilmiş erişim ve gelecekteki etkinlikler için değerli bilgilerden yararlanır. Veo sayesinde sayısız fırsat ortaya çıktı.

Bir yapay zeka modelinin farklı sektörlere dokunma potansiyeli olduğunda, güvenlik ve etik yapay zekayı akılda tutmak önemlidir. Daha geniş bir benimsenmeyi sağlamak ve sorumlu kullanımı güvence altına almak için Google, çeşitli güvenlik önlemleri uygulamıştır. Veo tarafından oluşturulan videolar, yapay zeka tarafından oluşturulan içeriği filigranlamak ve tanımlamak için bir araç olan SynthID kullanılarak filigranlanır. SynthId, şeffaflık sağlar ve gizlilik, telif hakkı ve önyargı risklerini azaltmaya yardımcı olur. Bunun dışında, oluşturulan tüm videolar güvenlik filtrelerinden ve ezber kontrol süreçlerinden geçer. Bu önlemler, Veo'yu sorumlu ve yenilikçi video prodüksiyonunu destekleyen değerli ve etik bir araç haline getirir.

Veo'ya nereden erişilir

Önümüzdeki haftalarda Google, Veo'nun çığır açan özelliklerinden bazılarını, labs.google'da bulunan yeni bir araç olan VideoFX aracılığıyla belirli içerik oluşturuculara sunmaya başlayacak. Bu girişim, Veo'nun gelişmiş video oluşturma yeteneklerine erken erişim sağlayarak, içerik oluşturuculara yenilikçi özelliklerini deneme fırsatı veriyor. Veo için bekleme listesi şu anda açık ve ilgili içerik oluşturucuları kaydolmaya ve Veo'nun güçlü araçlarını projelerinde kullanmaya davet ediyor.

DeepMind'in 2024 üretken yapay zeka güncellemeleri hakkında daha fazla bilgi

Veo'nun yanı sıra DeepMind, 2024 için üretken yapay zeka alanında çeşitli son teknoloji güncellemeleri tanıttı. Bu güncellemelerden biri, şimdiye kadarki en gelişmiş metinden görüntüye modeli olan Imagen 3'tür. Imagen 3, fotogerçekçi, gerçekçi görüntüler oluşturmada mükemmeldir. Doğal dil istemlerini derinlemesine anlar ve görsel artefaktları en aza indirirken karmaşık ayrıntıları yakalar.

Şekil 7. Imagen 3 kullanılarak oluşturulmuş bir görüntü.

DeepMind ayrıca, yapay zeka müzik üretimi için en gelişmiş modeli olan Lyria'yı geliştirdi. Bu çalışmanın bir parçası olarak DeepMind, Music AI Sandbox adlı bir müzik yapay zeka araçları paketi oluşturdu. Bu araçlar, müzisyenlerin ve yapımcıların müzik kompozisyonu ve ses dönüşümünde yeni yaratıcı olasılıkları keşfetmelerini sağlar.

Şekil 8. DeepMind'ın yapay zeka müzik araçlarının bir örnek kullanıcı arayüzü.

Veo'ya benzer şekilde, DeepMind da diğer güncellemeleriyle ilgili olarak çeşitli güvenlik önlemleri uygulamıştır. SynthID, yapay zeka tarafından oluşturulan içeriği filigranlamak ve tanımlamak için bir araç olarak bu güncellemelerde kullanılacaktır. DeepMind'ın bu güncellemeleri, yüksek kaliteli görsel ve işitsel içerik oluşturmak için gelişmiş, verimli ve sorumlu araçlar sunarak çeşitli sektörleri dönüştürmeyi vaat ediyor.

Üretken YZ'nin bir sonraki aşamasında yol almak

DeepMind'ın Veo, Imagen 3 ve Lyria dahil olmak üzere 2024 üretken yapay zeka alanındaki ilerlemeleri, yapay zeka yeteneklerinde önemli bir sıçramayı işaret ediyor. Veo, basit istemlerden yüksek kaliteli 1080p videolar oluşturma yeteneğiyle video oluşturmayı dönüştürerek, film yapımcıları ve içerik oluşturucular için çok yönlü bir araç haline geliyor. Imagen 3, fotogerçekçi görüntüler üretmede öne çıkarken, Lyria gelişmiş yapay zeka araçlarıyla müzik üretiminde yeni olanaklar sunuyor.

Bu teknolojiler, yüksek kaliteli görsel ve işitsel içerik oluşturmak için verimli ve sorumlu araçlar sağlayarak çeşitli sektörleri dönüştürmeyi vaat ediyor. SynthID gibi güvenlik önlemleri etik kullanımı sağlarken, DeepMind yapay zekanın sınırlarını genişletmeye devam ediyor ve gelecekteki yenilikçi uygulamaların önünü açıyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zekaya dalın. Yapay zekanın üretimde ve tarımda nasıl uygulandığını öğrenmek için çözümler sayfalarımızı keşfedin.

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı