YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

2024, üretken yapay zeka dalgasıyla başlıyor

Abirami Vina

6 dakika okuma süresi

12 Nisan 2024

2024'ün ilk çeyreğindeki heyecan verici AI yeniliklerine bir bakış. OpenAI'nin Sora AI'sı, Neuralink'in beyin çipi ve en son LLM'ler gibi atılımları ele alacağız.

Yapay zeka topluluğu neredeyse her gün manşetlerde yer alıyor gibi görünüyor. 2024'ün ilk birkaç ayı heyecan vericiydi ve yeni yapay zeka yenilikleriyle doluydu. Güçlü yeni büyük dil modellerinden insan beyni implantlarına kadar, 2024 harika olmaya hazırlanıyor.

Yapay zekanın endüstrileri dönüştürdüğünü, bilgilere erişimi kolaylaştırdığını ve hatta zihinlerimizi makinelerle birleştirmeye yönelik ilk adımları attığını görüyoruz. 2024'ün ilk çeyreğine geri saralım ve sadece birkaç ay içinde yapay zekada kaydedilen ilerlemeye daha yakından bakalım.

LLM'ler trend oluyor

Büyük miktarda metin verisine dayanarak insan dilini anlama, üretme ve manipüle etme amacıyla tasarlanan büyük dil modelleri (LLM'ler), 2024'ün ilk çeyreğinde ön plana çıktı. Birçok büyük teknoloji şirketi, her biri benzersiz yeteneklere sahip kendi LLM modellerini yayınladı. GPT-3 gibi önceki LLM'lerin inanılmaz başarısı bu eğilime ilham verdi. İşte 2024'ün başlarından en dikkat çekici LLM sürümlerinden bazıları.

Anthropic'in Claude 3'ü

Anthropic, 14 Mart 2024'te Claude 3'ü piyasaya sürdü. Claude 3 modeli, her biri farklı pazarlara ve amaçlara hizmet eden üç sürümde gelir: Opus, Sonnet ve Haiku. En hızlı model olan Haiku, hızlı, temel yanıtlar için optimize edilmiştir. Sonnet, hızı zeka ile dengeler ve kurumsal uygulamaları hedefler. En gelişmiş sürüm olan Opus, benzersiz zeka ve muhakeme sunar ve karmaşık görevler ve en iyi kıyaslamalara ulaşmak için idealdir.

Claude 3, birçok gelişmiş özellik ve iyileştirme sunar:

  • Gelişmiş Çok Dilli Konuşmalar: İspanyolca, Japonca ve Fransızca dahil olmak üzere dillerde iyileştirilmiş yetenekler.​
  • Gelişmiş Görü Özellikleri: Çeşitli görsel formatları işleyebilir.
  • En Aza İndirilmiş Reddetmeler: Gereksiz reddetmeler olmadan daha fazla anlayış gösterir, bu da gelişmiş bağlamsal kavrayışı gösterir.​
  • Genişletilmiş Bağlam Penceresi: 200K'lık bir bağlam penceresi sunar, ancak müşteri ihtiyaçlarına göre 1 milyonun üzerinde token girdisini işleyebilir.
__wf_reserved_inherit
Şekil 1. Claude 3, önceki sürümlere göre bağlamsal olarak daha bilinçli.

Databricks'in DBRX'i

Databricks DBRX, Databricks tarafından 27 Mart 2024'te yayınlanan açık, genel amaçlı bir LLM'dir. DBRX, dil anlama, programlama ve matematik dahil olmak üzere çeşitli kıyaslamalarda gerçekten iyi performans gösteriyor. Benzer modellerden yaklaşık %40 daha küçük olmasına rağmen, diğer yerleşik modelleri geride bırakıyor.

__wf_reserved_inherit
Şekil 2. DBRX'in diğer modellerle karşılaştırılması.

DBRX, ince taneli uzman karışımı (MoE) mimarisi ile sonraki belirteç tahmini kullanılarak eğitildi ve bu nedenle eğitim ve çıkarım performansında önemli iyileşmeler görebiliyoruz. Mimarisi, modelin çeşitli uzmanlaşmış alt modeller ("uzmanlar") kümesine danışarak bir dizideki sonraki kelimeyi daha doğru bir şekilde tahmin etmesini sağlar. Bu alt modeller, farklı bilgi türlerini veya görevleri ele alma konusunda iyidir.

Google'ın Gemini 1.5

Google, 15 Şubat 2024'te kapsamlı metin, video ve ses verilerini analiz edebilen, işlem açısından verimli, çok modlu bir yapay zeka modeli olan Gemini 1.5'i tanıttı. En son model, performans, verimlilik ve yetenekler açısından daha gelişmiştir. Gemini 1.5'in temel bir özelliği, uzun bağlam anlama konusundaki atılımıdır. Model, sürekli olarak 1 milyona kadar belirteci işleyebilir. Gemini'nin 1.5 yetenekleri aynı zamanda yeni bir MoE tabanlı mimariye de borçludur.

__wf_reserved_inherit
Şekil 3. Popüler LLM'lerin Bağlam Uzunluklarının Karşılaştırılması

İşte Gemini 1.5'in en ilginç özelliklerinden bazıları:

  • Gelişmiş Veri İşleme: Büyük PDF'lerin, kod depolarının veya uzun videoların doğrudan istem olarak yüklenmesine olanak tanır. Model, farklı yöntemler arasında akıl yürütebilir ve metin çıktısı verebilir.
  • Çoklu Dosya Yüklemeleri ve Sorgular: Geliştiriciler artık birden fazla dosya yükleyip soru sorabilirler.
  • Farklı Görevler İçin Kullanılabilir: Çeşitli görevlerde ölçeklenmek üzere optimize edilmiştir ve matematik, bilim, muhakeme, çok dillilik, video anlama ve kod gibi alanlarda iyileştirmeler gösterir.

AI'dan çarpıcı görseller

2024'ün ilk çeyreği, o kadar gerçek görseller oluşturabilen üretken yapay zeka modellerini ortaya çıkardı ki, sosyal medyanın geleceği ve yapay zekanın ilerlemesi hakkında tartışmalara yol açtılar. Konuşmayı canlandıran modellere dalalım.

OpenAI'ın Sora'sı 

ChatGPT'nin yaratıcısı OpenAI, 15 Şubat 2024'te Sora adında son teknoloji ürünü bir metinden videoya derin öğrenme modeli duyurdu. Sora, metinsel kullanıcı istemlerine dayalı olarak yüksek görsel kalitede bir dakikalık videolar oluşturabilen bir metinden videoya üreteci. 

Örneğin, aşağıdaki isteme bir göz atın. 

“Mercan resifinin muhteşem bir şekilde işlenmiş kağıt işi dünyası, renkli balıklar ve deniz canlılarıyla dolu.” 

İşte çıktı videosundan bir kare. 

__wf_reserved_inherit
Şekil 4. Sora tarafından oluşturulan bir videodan bir kare.

Sora'nın mimarisi, doku üretimi için difüzyon modellerini ve yapısal tutarlılık için transformatör modellerini harmanlayarak bunu mümkün kılar. Şu ana kadar Sora'ya erişim, riskleri anlamak ve geri bildirim almak için kırmızı takım oyuncularına ve seçkin bir görsel sanatçı, tasarımcı ve film yapımcısı grubuna verildi. 

Stability AI'ın Stable Diffusion 3'ü 

Stability AI, 22 Şubat 2024'te bir metinden görüntüye oluşturma modeli olan Stable Diffusion 3'ün gelişini duyurdu. Model, difüzyon transformatör mimarisi ve akış eşleştirmeyi karıştırıyor. Henüz teknik bir makale yayınlamadılar, ancak dikkat edilmesi gereken birkaç önemli özellik var.

__wf_reserved_inherit
Şekil 5. İsteme dayalı çıktı görüntüsü: "Geceleri bir dağın tepesinde duran, karanlık gökyüzüne renkli enerjiden yapılmış "Stable Diffusion 3" yazan kozmik bir büyü yapan bir sihirbazın destansı anime çizimi"

Stable Diffusion'ın en son modeli, birden fazla özneye sahip görüntüler oluşturmada gelişmiş performans, görüntü kalitesi ve doğruluk sunar. Stable Diffusion 3 ayrıca 800 milyondan 8 milyar parametreye kadar değişen çeşitli modeller sunacaktır. Kullanıcıların ölçeklenebilirlik ve ayrıntı için özel ihtiyaçlarına göre seçim yapmalarına olanak tanır.

Google'ın Lumiere 

23 Ocak 2024'te Google, metinden videoya yayın modeli olan Lumiere'i piyasaya sürdü. Lumiere, Space-Time-U-Net veya kısaca STUNet adı verilen bir mimari kullanır. Bu, Lumiere'in bir videodaki nesnelerin nerede olduğunu ve nasıl hareket ettiğini anlamasına yardımcı olur. Bunu yaparak, pürüzsüz ve gerçekçi videolar oluşturabilir.

__wf_reserved_inherit
Şekil 6. Şu isteme dayalı olarak oluşturulan bir videodan bir kare: "Evde ukulele çalan Panda."

Video başına 80 kare oluşturma yeteneğiyle Lumiere, sınırları zorluyor ve yapay zeka alanında video kalitesi için yeni standartlar belirliyor. İşte Lumiere'in bazı özellikleri:

  • Görüntüden Videoya: Bir görüntü ve bir istemden başlayarak Lumiere, görüntüleri videolara dönüştürebilir.
  • Stilize Üretim: Lumiere, tek bir referans görüntüsü kullanarak belirli stillerde videolar oluşturabilir.
  • Sinemagraflar: Lumiere, bir görüntü içindeki belirli bölgeleri canlandırarak, sahnenin geri kalanı statik kalırken belirli bir nesnenin hareket etmesi gibi dinamik sahneler oluşturabilir.
  • Video İçi Boyama (Inpainting): Bir videonun bölümlerini değiştirebilir; örneğin, içindeki kişilerin kıyafetlerini veya arka plan ayrıntılarını değiştirebilir.

Gelecek gelmiş gibi görünüyor

2024'ün başı da bilim kurgu filminden çıkmış gibi hissettiren birçok AI yeniliğini beraberinde getirdi. Daha önce imkansız olduğunu söyleyeceğimiz şeyler üzerinde artık çalışılıyor. Aşağıdaki keşiflerle gelecek o kadar da uzak değilmiş gibi geliyor.

Elon Musk'ın Neuralink'i

Elon Musk'ın Neuralink şirketi, 29 Ocak 2024'te kablosuz beyin çipini bir insana başarıyla yerleştirdi. Bu, insan beynini bilgisayarlara bağlama yolunda atılmış büyük bir adım. Elon Musk, Neuralink'in 'Telepati' adlı ilk ürününün hazırlık aşamasında olduğunu belirtti. 

__wf_reserved_inherit
Şekil 7. Neuralink İmplantı

Amaç, özellikle uzuv işlevselliğini kaybetmiş olan kullanıcıların, cihazları düşünceleri aracılığıyla zahmetsizce kontrol etmelerini sağlamaktır. Potansiyel uygulamalar kolaylığın ötesine uzanır. Elon Musk, felçli bireylerin kolayca iletişim kurabileceği bir gelecek hayal ediyor.

Disney'in HoloTile Zemini 

18 Ocak 2024'te Walt Disney Imagineering, HoloTile Floor'u tanıttı. Dünyanın ilk çok kişilik, çok yönlü koşu bandı zemini olarak adlandırıldı. 

__wf_reserved_inherit
Şekil 8. Disney Imagineer Lanny Smoot, en son yeniliği olan HoloTile zeminde poz veriyor.

Sanal ve artırılmış gerçeklik deneyimi için telekinezi gibi herhangi bir kişi veya nesnenin altında hareket edebilir. Üzerindeyken herhangi bir yönde yürüyebilir ve çarpışmalardan kaçınabilirsiniz. Disney'in HoloTile Zemini, yaratıcı şekillerde dans etmek ve hareket etmek için tiyatro sahnelerine de yerleştirilebilir.

Apple'ın Vision Pro'su

2 Şubat 2024'te Apple'ın merakla beklenen Vision Pro başlığı piyasaya sürüldü. Sanal ve artırılmış gerçeklik deneyimini yeniden tanımlamak için tasarlanmış bir dizi özellik ve uygulamaya sahiptir. Vision Pro başlığı, eğlence, üretkenlik ve uzamsal bilgi işlemeyi harmanlayarak çeşitli bir kitleye hitap ediyor. Apple, lansmanında üretkenlik araçlarından oyun ve eğlence hizmetlerine kadar 600'den fazla uygulamanın Vision Pro için optimize edildiğini gururla duyurdu.

Cognition'ın Devin'i

12 Mart 2024'te Cognition, Devin adında bir yazılım mühendisliği asistanı yayınladı. Devin, otonom bir yapay zeka yazılım mühendisi olma yolunda dünyadaki ilk girişimdir. Öneriler sunan veya belirli görevleri tamamlayan geleneksel kodlama asistanlarından farklı olarak Devin, ilk konseptten tamamlanmaya kadar tüm yazılım geliştirme projelerini yönetmek üzere tasarlanmıştır. 

Yeni teknolojiler öğrenebilir, eksiksiz uygulamalar oluşturup dağıtabilir, hataları bulup düzeltebilir, kendi modellerini eğitebilir, açık kaynak ve üretim kod tabanlarına katkıda bulunabilir ve hatta Upwork gibi sitelerden gerçek geliştirme işleri alabilir. 

__wf_reserved_inherit
Şekil 9. Devin'in diğer modellerle karşılaştırılması.

Devin, aracıların Django ve scikit-learn gibi açık kaynak projelerinde bulunan gerçek dünya GitHub sorunlarını çözmelerini isteyen zorlu bir kıyaslama olan SWE-bench'te değerlendirildi. Sorunların %13,86'sını uçtan uca doğru bir şekilde çözdü, bu da önceki en iyi %1,96'lık duruma kıyasla.

Mansiyonlar

O kadar çok şey oldu ki, bu makalede her şeyi ele almak mümkün değil. Ancak, işte daha fazla övgüye değer örnek. 

  • NVIDIA'nın 21 Mart 2024'te duyurduğu LATTE3D, metin istemlerinden anında 3D temsiller oluşturan bir metinden 3D'ye yapay zeka modelidir.
  • Midjourney'in CEO'su David Holz tarafından duyurulan yeni metinden videoya üreteci, Ocak ayında eğitime başladı ve yakında piyasaya sürülmesi bekleniyor.
  • Yapay Zeka Bilgisayar devrimini ilerleten Lenovo, 8 Ocak 2024'te E Ink Prism teknolojisine sahip ThinkBook 13x'i ve yüksek performanslı yapay zeka dizüstü bilgisayarlarını piyasaya sürdü.

Yapay zeka trendleri hakkında bizimle güncel kalın!

2024'ün başı, yapay zeka alanında çığır açan gelişmelere ve birçok önemli teknolojik kilometre taşına sahne oldu. Ancak bu, yapay zekanın yapabileceklerinin sadece başlangıcı. En son yapay zeka gelişmeleri hakkında daha fazla bilgi edinmek istiyorsanız, Ultralytics size yardımcı olabilir.

Bilgisayarlı görü ve yapay zeka alanındaki en son katkılarımızı görmek için GitHub depomuza göz atın. Ayrıca yapay zekanın üretim ve sağlık hizmetleri gibi sektörlerde nasıl kullanıldığını görmek için çözümler sayfalarımıza da bakabilirsiniz. 

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı