2024 üretken bir yapay zeka dalgası ile başlıyor

Abirami Vina

6 dakika okuma

12 Nisan 2024

2024'ün ilk çeyreğindeki heyecan verici yapay zeka yeniliklerine bir bakış. OpenAI'nin Sora AI'sı, Neuralink'in beyin çipi ve en yeni LLM'ler gibi atılımları ele alacağız.

YZ topluluğu neredeyse her gün manşetlere çıkıyor gibi görünüyor. 2024'ün ilk birkaç ayı heyecan vericiydi ve yeni YZ yenilikleriyle doluydu. Güçlü yeni büyük dil modellerinden insan beyni implantlarına kadar, 2024 şaşırtıcı olacak şekilde şekilleniyor.

Yapay zekanın endüstrileri dönüştürdüğünü, bilgiyi daha erişilebilir hale getirdiğini ve hatta zihinlerimizi makinelerle birleştirmeye yönelik ilk adımları attığını görüyoruz. 2024'ün ilk çeyreğini geri saralım ve sadece birkaç ay içinde yapay zeka alanında kaydedilen ilerlemeye daha yakından bakalım.

LLM'ler trend oluyor

Büyük miktarda metin verisine dayalı olarak insan dilini anlamak, üretmek ve manipüle etmek için tasarlanan büyük dil modelleri (LLM'ler), 2024'ün ilk çeyreğinde merkez sahneye çıktı. Birçok büyük teknoloji şirketi, her biri benzersiz yeteneklere sahip kendi LLM modellerini piyasaya sürdü. GPT-3 gibi önceki LLM'lerin inanılmaz başarısı bu eğilime ilham verdi. İşte 2024'ün başlarında piyasaya sürülen en önemli LLM'lerden bazıları.

Anthropic'in Claude 3'ü

Anthropic, Claude 3 'ü 14 Mart 2024 tarihinde piyasaya sürdü. Claude 3 modelinin üç versiyonu bulunmaktadır: Her biri farklı pazarlara ve amaçlara hizmet eden Opus, Sonnet ve Haiku. En hızlı model olan Haiku, hızlı ve temel yanıtlar için optimize edilmiştir. Sonnet, hızı zeka ile dengeler ve kurumsal uygulamaları hedefler. En gelişmiş versiyon olan Opus, benzersiz bir zeka ve muhakeme sunar ve karmaşık görevler ve en iyi kıyaslamalara ulaşmak için idealdir.

Claude 3 birçok gelişmiş özelliğe ve iyileştirmeye sahiptir:

  • Geliştirilmiş Çok Dilli Konuşmalar: İspanyolca, Japonca ve Fransızca gibi dillerde geliştirilmiş yetenekler.
  • Gelişmiş Görüntü Özellikleri: Çeşitli görsel formatları işleme kapasitesine sahiptir.
  • Minimize Edilmiş Reddetmeler: Daha az gereksiz ret ile daha fazla anlayış gösterir, bu da bağlamsal kavrayışın geliştiğini gösterir.
  • Genişletilmiş Bağlam Penceresi: 200K bağlam penceresi sunar, ancak müşteri ihtiyaçlarına göre 1 milyon jetonun üzerindeki girdileri işleme kapasitesine sahiptir.
__wf_reserved_inherit
Şekil 1. Claude 3 önceki versiyonlara göre bağlamsal olarak daha bilinçlidir.

Databricks'in DBRX'i

Databricks DBRX, Databricks tarafından 27 Mart 2024 tarihinde piyasaya sürülen açık, genel amaçlı bir LLM'dir. DBRX, dil anlama, programlama ve matematik dahil olmak üzere çeşitli kıyaslamalarda gerçekten başarılıdır. Diğer yerleşik modelleri geride bırakırken benzer modellerden yaklaşık %40 daha küçüktür.

__wf_reserved_inherit
Şekil 2. DBRX'in diğer modellerle karşılaştırılması.

DBRX, ince taneli bir uzmanlar karışımı (MoE) mimarisi ile sonraki sözcük tahmini kullanılarak eğitilmiştir ve bu nedenle eğitim ve çıkarım performansında önemli gelişmeler görebiliyoruz. Mimarisi, modelin çeşitli özel alt modellere ("uzmanlar") danışarak bir dizideki bir sonraki kelimeyi daha doğru bir şekilde tahmin etmesini sağlar. Bu alt modeller farklı bilgi veya görev türlerini ele almada iyidir.

Google'ın Gemini 1.5

Google, kapsamlı metin, video ve ses verilerini analiz edebilen, hesaplama açısından verimli, çok modlu bir yapay zeka modeli olan Gemini 1.5'i 15 Şubat 2024 tarihinde tanıttı. En son model performans, verimlilik ve yetenekler açısından daha gelişmiş. Gemini 1.5'in en önemli özelliklerinden biri, uzun bağlamları anlama konusunda yaptığı atılımdır. Model sürekli olarak 1 milyon jetona kadar işlem yapabilmektedir. Gemini'nin 1.5 yetenekleri aynı zamanda yeni MoE tabanlı mimarisi sayesindedir.

__wf_reserved_inherit
Şekil 3. Popüler LLM'lerin Bağlam Uzunluklarının Karşılaştırılması

İşte Gemini'nin 1.5 en ilginç özelliklerinden bazıları:

  • Geliştirilmiş Veri İşleme: Büyük PDF'lerin, kod depolarının veya uzun videoların istem olarak doğrudan yüklenmesine izin verir. Model, modaliteler arasında muhakeme yapabilir ve metin çıktısı verebilir.
  • Çoklu Dosya Yükleme ve Sorgulama: Geliştiriciler artık birden fazla dosya yükleyebilir ve soru sorabilir.
  • Farklı Görevler İçin Kullanılabilir: Farklı görevler arasında ölçeklendirmek için optimize edilmiştir ve matematik, fen, akıl yürütme, çok dillilik, video anlama ve kod gibi alanlarda iyileştirmeler gösterir

Yapay zekadan çarpıcı görseller

2024'ün ilk çeyreği, sosyal medyanın geleceği ve yapay zekanın ilerleyişi üzerine tartışmalara yol açacak kadar gerçek görseller yaratabilen jeneratif yapay zeka modellerini ortaya çıkardı. Gelin bu tartışmaları alevlendiren modelleri inceleyelim.

OpenAI'nin Sora'sı 

ChatGPT'nin yaratıcısı OpenAI, 15 Şubat 2024 tarihinde Sora adlı son teknoloji ürünü bir metinden videoya derin öğrenme modelini duyurdu. Sora, metinsel kullanıcı istemlerine dayalı olarak yüksek görsel kaliteye sahip dakikalar süren videolar üretebilen bir metinden videoya oluşturucudur. 

Örneğin, aşağıdaki komut istemine bir göz atın. 

"Renkli balıklar ve deniz canlılarıyla dolu bir mercan resifinin muhteşem bir şekilde işlenmiş kâğıttan dünyası." 

Ve işte çıktı videosundan bir kare. 

__wf_reserved_inherit
Şekil 4. Sora tarafından oluşturulan bir videodan bir kare.

Sora'nın mimarisi, doku üretimi için difüzyon modellerini ve yapısal tutarlılık için transformatör modellerini harmanlayarak bunu mümkün kılıyor. Şimdiye kadar Sora'ya erişim, riskleri anlamak ve geri bildirim almak için kırmızı ekip üyelerine ve seçkin bir grup görsel sanatçı, tasarımcı ve film yapımcısına verildi. 

Kararlılık AI'nın Kararlı Difüzyonu 3 

Stability AI, 22 Şubat 2024 tarihinde bir metinden görüntüye üretim modeli olan Stable Diffusion 3'ün geleceğini duyurdu. Model, difüzyon transformatör mimarisi ve akış eşleştirmeyi bir araya getiriyor. Henüz teknik bir belge yayınlamadılar, ancak dikkat edilmesi gereken birkaç temel özellik var.

__wf_reserved_inherit
Şekil 5. Komut istemine dayalı çıktı görüntüsü: "Geceleyin bir dağın tepesinde karanlık gökyüzüne kozmik bir büyü yapan bir büyücünün renkli enerjiden yapılmış "Kararlı Difüzyon 3" yazan epik anime sanat eseri"

Stable Diffusion'ın en son modeli, birden fazla özneli görüntülerin oluşturulmasında gelişmiş performans, görüntü kalitesi ve doğruluk sunuyor. Stable Diffusion 3 ayrıca 800 milyon ila 8 milyar parametre arasında değişen çeşitli modeller sunacak. Kullanıcıların ölçeklenebilirlik ve ayrıntı için özel ihtiyaçlarına göre seçim yapmalarına olanak tanıyacak.

Google'ın Lumiere'i 

23 Ocak 2024'te Google, metinden videoya yayılma modeli olan Lumiere'i başlattı. Lumiere, Space-Time-U-Net ya da kısaca STUNet adı verilen bir mimari kullanıyor. Bu mimari, Lumiere'in bir videoda nesnelerin nerede olduğunu ve nasıl hareket ettiklerini anlamasına yardımcı oluyor. Bu sayede akıcı ve gerçekçi videolar üretebiliyor.

__wf_reserved_inherit
Şekil 6. Komut istemine göre oluşturulan bir videodan bir kare: "Panda evde ukulele çalıyor."

Video başına 80 kare üretme kapasitesiyle Lumiere, sınırları zorluyor ve yapay zeka alanında video kalitesi için yeni standartlar belirliyor. İşte Lumiere'in bazı özellikleri:

  • Görüntüden Videoya: Lumiere, bir görüntüden ve bir komut isteminden başlayarak görüntüleri videolara dönüştürebilir.
  • Stilize Üretim: Lumiere, tek bir referans görüntü kullanarak belirli stillerde videolar oluşturabilir.
  • Sinemagraflar: Lumiere, sahnenin geri kalanı sabit kalırken belirli bir nesnenin hareket etmesi gibi dinamik sahneler oluşturmak için bir görüntü içindeki belirli bölgeleri canlandırabilir.
  • Video Inpainting: Bir videonun içindeki kişilerin kıyafetlerini değiştirmek veya arka plan ayrıntılarını değiştirmek gibi bölümlerini değiştirebilir.

Gelecek burada gibi görünüyor

2024'ün başlangıcı, bilimkurgu filmlerinden fırlamış gibi hissettiren birçok yapay zeka inovasyonunu da beraberinde getirdi. Daha önce imkansız olduğunu söyleyebileceğimiz şeyler şimdi üzerinde çalışılıyor. Aşağıdaki keşiflerle gelecek o kadar da uzak gelmiyor.

Elon Musk'ın Neuralink'i

Elon Musk'ın Neuralink 'i kablosuz beyin çipini 29 Ocak 2024'te bir insana başarıyla yerleştirdi. Bu, insan beynini bilgisayarlara bağlama yolunda büyük bir adım. Elon Musk, Neuralink'in 'Telepati' adlı ilk ürününün yolda olduğunu paylaştı. 

__wf_reserved_inherit
Şekil 7. Neuralink İmplantı

Amaç, kullanıcıların, özellikle de uzuv işlevselliğini kaybetmiş olanların, düşünceleri aracılığıyla cihazları zahmetsizce kontrol etmelerini sağlamaktır. Potansiyel uygulamalar kolaylığın ötesine uzanıyor. Elon Musk, felçli bireylerin kolayca iletişim kurabileceği bir gelecek hayal ediyor.

Disney'in HoloTile Zemini 

18 Ocak 2024 tarihinde Walt Disney Imagineering HoloTile Floor'u tanıttı. Dünyanın ilk çok kişili, çok yönlü koşu bandı zemini olarak adlandırıldı. 

__wf_reserved_inherit
Şekil 8. Disney Imagineer Lanny Smoot son yeniliği olan HoloTile zemin üzerinde poz veriyor.

Sürükleyici bir sanal ve artırılmış gerçeklik deneyimi için telekinezi gibi herhangi bir kişi veya nesnenin altında hareket edebilir. Üzerindeyken herhangi bir yönde yürüyebilir ve çarpışmalardan kaçınabilirsiniz. Disney'in HoloTile Floor'u, yaratıcı şekillerde dans etmek ve hareket etmek için tiyatro sahnelerine de yerleştirilebilir.

Apple'ın Vision Pro'su

2 Şubat 2024 tarihinde Apple'ın merakla beklenen Vision Pro kulaklığı piyasaya çıktı. Sanal ve artırılmış gerçeklik deneyimini yeniden tanımlamak için tasarlanmış bir dizi özellik ve uygulamaya sahiptir. Vision Pro kulaklık eğlence, üretkenlik ve uzamsal bilişimi harmanlayarak çok çeşitli bir kitleye hitap ediyor. Apple, üretkenlik araçlarından oyun ve eğlence hizmetlerine kadar 600'den fazla uygulamanın lansman sırasında Vision Pro için optimize edildiğini gururla duyurdu.

Cognition'dan Devin

Cognition, 12 Mart 2024 tarihinde Devin adlı bir yazılım mühendisliği asistanını piyasaya sürdü. Devin, dünyanın ilk otonom yapay zekâ yazılım mühendisi girişimidir. Öneriler sunan veya belirli görevleri tamamlayan geleneksel kodlama asistanlarının aksine Devin, ilk konseptten tamamlanmasına kadar tüm yazılım geliştirme projelerini ele almak üzere tasarlanmıştır. 

Yeni teknolojiler öğrenebilir, tam uygulamalar oluşturup dağıtabilir, hataları bulup düzeltebilir, kendi modellerini eğitebilir, açık kaynaklı ve üretim kod tabanlarına katkıda bulunabilir ve hatta Upwork gibi sitelerden gerçek geliştirme işleri alabilir. 

__wf_reserved_inherit
Şekil 9. Devin'in diğer modellerle karşılaştırılması.

Devin, aracılardan Django ve scikit-learn gibi açık kaynaklı projelerde bulunan gerçek dünya GitHub sorunlarını çözmelerini isteyen zorlu bir ölçüt olan SWE-bench üzerinde değerlendirildi. Sorunların %13,86'sını uçtan uca doğru bir şekilde çözdü, bu oran bir önceki son teknoloji olan %1,96'ya kıyasla daha yüksekti.

Mansiyon ödülleri

O kadar çok şey oldu ki her şeyi bu makaleye sığdırmak mümkün değil. Ancak, burada birkaç onurlu söz daha var. 

  • NVIDIA'nın 21 Mart 2024'te duyurduğu LATTE3D, metin komutlarından anında 3B gösterimler oluşturan bir metinden 3B'ye yapay zeka modelidir.
  • Midjourney'in CEO David Holz tarafından tanıtılan yeni metinden video oluşturucusu Ocak ayında eğitime başladı ve yakında piyasaya sürülmesi bekleniyor.
  • Yapay zekalı bilgisayar devrimini ilerleten Lenovo, E Ink Prism teknolojisine sahip ThinkBook 13x'i ve yüksek performanslı yapay zekalı dizüstü bilgisayarları 8 Ocak 2024'te piyasaya sürdü.

Bizimle yapay zeka trendlerinden haberdar olun!

2024 yılının başlangıcı, yapay zeka alanında çığır açan gelişmelere ve birçok önemli teknolojik kilometre taşına tanıklık etti. Ancak bu, yapay zekanın yapabileceklerinin sadece başlangıcı. En son yapay zeka gelişmeleri hakkında daha fazla bilgi edinmek istiyorsanız, Ultralytics size yardımcı olacaktır.

Bilgisayarla görme ve yapay zeka alanındaki en son katkılarımızı görmek için GitHub depomuza göz atın. Yapay zekanın üretim ve sağlık gibi sektörlerde nasıl kullanıldığını görmek için çözüm sayfalarımıza da bakabilirsiniz. 

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Panoya kopyalanan bağlantı