X
Ultralytics YOLOv8.2 Serbest BırakmaUltralytics YOLOv8.2 Serbest BırakmaUltralytics YOLOv8.2 Serbest Bırakma Oku
Yeşil çek
Panoya kopyalanan bağlantı

2024 Üretken Yapay Zeka Dalgasıyla Başlıyor

2024'ün ilk çeyreğinden itibaren heyecan verici yapay zeka yeniliklerine bir bakış. OpenAI'nin Sora AI'sı, Neuralink'in beyin çipi ve en yeni LLM'ler gibi atılımları ele alacağız.

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

AI topluluğu neredeyse her gün manşetlere çıkıyor gibi görünüyor. 2024'ün ilk birkaç ayı heyecan verici ve yeni yapay zeka yenilikleriyle doluydu. Güçlü yeni büyük dil modellerinden insan beyni implantlarına kadar, 2024 harika olacak şekilde şekilleniyor.

Yapay zekanın endüstrileri dönüştürdüğünü, bilgiyi daha erişilebilir hale getirdiğini ve hatta zihnimizi makinelerle birleştirmeye yönelik ilk adımları attığını görüyoruz. 2024'ün ilk çeyreğini geri saralım ve sadece birkaç ay içinde yapay zekada kaydedilen ilerlemeye daha yakından bakalım.

LLM'ler Trend Oluyor

Büyük miktarda metin verisine dayalı olarak insan dilini anlamak, oluşturmak ve manipüle etmek için tasarlanan büyük dil modelleri (LLM'ler), 2024'ün ilk çeyreğinde ön plana çıktı. Birçok büyük teknoloji şirketi, her biri benzersiz yeteneklere sahip kendi LLM modellerini piyasaya sürdü. GPT-3 gibi önceki LLM'lerin inanılmaz başarısı bu eğilime ilham verdi. İşte 2024'ün başlarından itibaren en dikkate değer LLM sürümlerinden bazıları.

Anthropic'nin Claude 3

Anthropic Claude 3'ü 14 Mart 2024'te yayınladı. Claude 3 modelinin üç versiyonu vardır: Her biri farklı pazarlara ve amaçlara hizmet eden Opus, Sonnet ve Haiku. En hızlı model olan Haiku, hızlı ve temel yanıtlar için optimize edilmiştir. Sonnet, hızı zeka ile dengeler ve kurumsal uygulamaları hedef alır. En gelişmiş sürüm olan Opus, benzersiz zeka ve akıl yürütme sunar ve karmaşık görevler ve en iyi kriterlere ulaşmak için idealdir.

Claude 3 birçok gelişmiş özellik ve iyileştirmeye sahiptir:

  • Gelişmiş Çok Dilli Konuşmalar: İspanyolca, Japonca ve Fransızca gibi dillerde geliştirilmiş beceriler.
  • Gelişmiş Görme Özellikleri: Çeşitli görsel formatları işleyebilme
  • En Aza İndirilmiş Reddetmeler: Daha az gereksiz reddetme ile daha fazla anlayış gösterir, bu da bağlamsal kavrayışın geliştiğini gösterir
  • Genişletilmiş Bağlam Penceresi: 200K bağlam penceresi sunar, ancak müşteri ihtiyaçlarına göre 1 milyondan fazla jeton girdisini işleyebilir.
Şekil 1. Claude 3, önceki sürümlere göre bağlamsal olarak daha farkındadır.

Databricks'in DBRX'i

Databricks DBRX, Databricks tarafından 27 Mart 2024'te yayımlanan açık, genel amaçlı bir LLM'dir. DBRX, dil anlama, programlama ve matematik dahil olmak üzere çeşitli kıyaslamalarda gerçekten başarılıdır. Benzer modellerden yaklaşık %40 daha küçük olmakla birlikte diğer yerleşik modelleri geride bırakıyor.

Şekil 2. DBRX'in diğer modellerle karşılaştırılması.

DBRX, ayrıntılı bir uzmanlar karışımı (MoE) mimarisi ile sonraki belirteç tahmini kullanılarak eğitildi ve bu nedenle eğitim ve çıkarım performansında önemli gelişmeler görebiliyoruz. Mimarisi, modelin çeşitli özel alt modellere ("uzmanlar") danışarak bir dizideki bir sonraki kelimeyi daha doğru bir şekilde tahmin etmesine olanak tanır. Bu alt modeller, farklı bilgi veya görev türlerini işlemede iyidir.

Google'ın İkizler 1.5'i

Google, 15 Şubat 2024'te kapsamlı metin, video ve ses verilerini analiz edebilen, bilgi işlem açısından verimli, çok modlu bir yapay zeka modeli olan Gemini 1.5'i tanıttı. En son model performans, verimlilik ve yetenekler açısından daha gelişmiştir. Gemini 1.5'in önemli bir özelliği, uzun bağlam anlayışındaki atılımıdır. Model, tutarlı bir şekilde 1 milyona kadar jetonu işleme kapasitesine sahiptir. Gemini'nin 1.5 yetenekleri de yeni bir MoE tabanlı mimari sayesindedir.

Şekil 3. Popüler LLM'lerin Bağlam Uzunluklarını Karşılaştırma

İşte Gemini'nin en ilginç 1.5 özelliğinden bazıları:

  • Geliştirilmiş Veri İşleme: Büyük PDF'lerin, kod depolarının veya uzun videoların istem olarak doğrudan yüklenmesine izin verir. Model, modaliteler arasında akıl yürütebilir ve metin çıktısı alabilir.
  • Çoklu Dosya Yüklemeleri ve Sorguları: Geliştiriciler artık birden fazla dosya yükleyebilir ve soru sorabilir.
  • Farklı Görevler İçin Kullanılabilir: Çeşitli görevler arasında ölçeklenecek şekilde optimize edilmiştir ve matematik, fen, akıl yürütme, çok dillilik, video anlama ve kod gibi alanlarda iyileştirmeler gösterir

Yapay Zekadan Çarpıcı Görseller

2024'ün ilk çeyreği, sosyal medyanın geleceği ve yapay zekanın ilerlemesi hakkında tartışmalara yol açacak kadar gerçek görseller oluşturabilen üretken yapay zeka modellerini tanıttı. Gelelim sohbeti kızıştıran modellere.

OpenAI'nin Sora'sı 

OpenAI, yaratıcısı ChatGPT, 15 Şubat 2024'te Sora adlı son teknoloji bir metinden videoya derin öğrenme modelini duyurdu. Sora, metinsel kullanıcı istemlerine dayalı olarak yüksek görsel kaliteye sahip dakikalarca videolar oluşturabilen bir metinden videoya oluşturucudur. 

Örneğin, aşağıdaki komut istemine bir göz atın. 

"Rengarenk balıklar ve deniz canlılarıyla dolu bir mercan resifinin muhteşem bir şekilde işlenmiş kağıt el işi dünyası." 

Ve işte çıkış videosundan bir kare. 

Şekil 4. Sora tarafından oluşturulan bir videodan bir kare.

Sora'nın mimarisi, doku üretimi için difüzyon modellerini ve yapısal tutarlılık için transformatör modellerini harmanlayarak bunu mümkün kılar. Şimdiye kadar, riskleri anlamak ve geri bildirim almak için kırmızı ekip üyelerine ve seçkin bir grup görsel sanatçı, tasarımcı ve film yapımcısına Sora'ya erişim sağlandı. 

Stability AI'nin Kararlı Difüzyonu 3 

Stability AI 22 Şubat 2024'te metinden görüntüye oluşturma modeli olan Stable Diffusion 3'ün geldiğini duyurdu. Model, difüzyon transformatörü mimarisini ve akış eşleştirmeyi karıştırır. Henüz teknik bir makale yayınlamadılar, ancak dikkat edilmesi gereken birkaç temel özellik var.

Şekil 5. Çıktı görüntüsü: "Geceleri bir dağın tepesindeki bir büyücünün karanlık gökyüzüne renkli enerjiden yapılmış "Stable Diffusion 3" yazan kozmik bir büyü yaptığı destansı anime sanat eseri"

Stable Diffusion'ın en son modeli, birden fazla konu içeren görüntüler oluşturmada gelişmiş performans, görüntü kalitesi ve doğruluk sunar. Stable Diffusion 3 ayrıca 800 milyon ila 8 milyar parametre arasında değişen çeşitli modeller sunacak. Kullanıcıların ölçeklenebilirlik ve ayrıntı için özel ihtiyaçlarına göre seçim yapmalarına olanak tanır.

Google'ın Lumiere'i 

23 Ocak 2024'te Google, bir metinden videoya difüzyon modeli olan Lumiere'i piyasaya sürdü. Lumiere, Space-Time-U-Net veya kısaca STUNet adlı bir mimari kullanır. Lumiere'in nesnelerin nerede olduğunu ve bir videoda nasıl hareket ettiğini anlamasına yardımcı oluyor. Bunu yaparak pürüzsüz ve gerçeğe yakın videolar oluşturabilir.

Şekil 6. "Panda evde ukulele çal" istemine dayalı olarak oluşturulan bir videodan bir kare.

Video başına 80 kare oluşturma özelliğiyle Lumiere, yapay zeka alanında sınırları zorluyor ve video kalitesi için yeni standartlar belirliyor. İşte Lumiere'in bazı özellikleri:

  • Görüntüden Videoya: Lumiere, bir görüntüden ve bir istemden başlayarak görüntüleri videolara dönüştürebilir.
  • Stilize Nesil: Lumiere, tek bir referans görüntü kullanarak belirli stillerde videolar oluşturabilir.
  • Sinemagraflar: Lumiere, sahnenin geri kalanı sabit kalırken belirli bir nesnenin hareket etmesi gibi dinamik sahneler oluşturmak için bir görüntüdeki belirli bölgeleri canlandırabilir.
  • Video Boyama: Bir videonun, içindeki kişilerin kıyafetlerini değiştirmek veya arka plan ayrıntılarını değiştirmek gibi bölümlerini değiştirebilir.

Gelecek Burada Gibi Görünüyor

2024'ün başlangıcı, bir bilim kurgu filminden fırlamış gibi hissettiren birçok yapay zeka yeniliğini de beraberinde getirdi. Daha önce imkansız olduğunu söyleyeceğimiz şeyler şimdi üzerinde çalışılıyor. Gelecek, aşağıdaki keşiflerle o kadar da uzak hissetmiyor.

Elon Musk'ın Neuralink'i

Elon Musk'ın Neuralink'i , kablosuz beyin çipini 29 Ocak 2024'te bir insana başarıyla yerleştirdi. Bu, insan beynini bilgisayarlara bağlamaya yönelik büyük bir adımdır. Elon Musk, Neuralink'in 'Telepathy' adlı ilk ürününün yolda olduğunu paylaştı. 

Şekil 7. Neuralink İmplant

Amaç, kullanıcıların, özellikle uzuv işlevselliğini kaybetmiş olanların, cihazları düşünceleriyle zahmetsizce kontrol etmelerini sağlamaktır. Potansiyel uygulamalar rahatlığın ötesine uzanır. Elon Musk, felçli bireylerin kolayca iletişim kurabildiği bir gelecek hayal ediyor.

Disney'in HoloTile Zemini 

18 Ocak 2024'te Walt Disney Imagineering, HoloTile Floor'u tanıttı. Dünyanın ilk çok kişili, çok yönlü koşu bandı zemini olarak adlandırıldı. 

Şekil 8. Disney Imagineer Lanny Smoot, en son yeniliği olan HoloTile zeminde poz veriyor.

Sürükleyici bir sanal ve artırılmış gerçeklik deneyimi için telekinezi gibi herhangi bir kişinin veya nesnenin altında hareket edebilir. Herhangi bir yönde yürüyebilir ve üzerindeyken çarpışmalardan kaçınabilirsiniz. Disney'in HoloTile Floor'u, yaratıcı şekillerde dans etmek ve hareket etmek için tiyatro sahnelerine de yerleştirilebilir.

Apple'ın Vision Pro'su

2 Şubat 2024'te Apple'ın merakla beklenen Vision Pro kulaklığı piyasaya çıktı. Sanal ve artırılmış gerçeklik deneyimini yeniden tanımlamak için tasarlanmış bir dizi özellik ve uygulamaya sahiptir. Vision Pro kulaklık, eğlence, üretkenlik ve uzamsal bilgi işlemi harmanlayarak farklı bir kitleye hitap eder. Apple, lansmanında üretkenlik araçlarından oyun ve eğlence hizmetlerine kadar 600'den fazla uygulamanın Vision Pro için optimize edildiğini gururla duyurdu.

Biliş'in Devin'i

12 Mart 2024'te Cognition, Devin adında bir yazılım mühendisliği asistanı yayınladı. Devin, dünyanın ilk özerk yapay zeka yazılım mühendisi girişimidir. Öneriler sunan veya belirli görevleri tamamlayan geleneksel kodlama asistanlarının aksine Devin, ilk konseptten tamamlamaya kadar tüm yazılım geliştirme projelerini ele almak için tasarlanmıştır. 

Yeni teknolojiler öğrenebilir, tam uygulamalar oluşturup dağıtabilir, hataları bulup düzeltebilir, kendi modellerini eğitebilir, açık kaynak ve üretim kod tabanlarına katkıda bulunabilir ve hatta Upwork gibi sitelerden gerçek geliştirme işleri üstlenebilir. 

Şekil 9. Devin'i diğer modellerle karşılaştırmak.

Devin, temsilcilerden Django ve scikit-learn gibi açık kaynaklı projelerde bulunan gerçek dünyadaki GitHub sorunlarını çözmelerini isteyen zorlu bir kıyaslama olan SWE-bench'te değerlendirildi. Sorunların %13,86'sını uçtan uca doğru bir şekilde çözerken, önceki son teknoloji %1,96'dır.

Mansiyon Ödülleri

O kadar çok şey oluyor ki, bu makaledeki her şeyi ele almak mümkün değil. Ancak, burada daha fazla mansiyon ödülü var. 

  • NVIDIA'nın 21 Mart 2024'te duyurduğu LATTE3D, metin istemlerinden anında 3B temsiller oluşturan bir metinden 3B'ye yapay zeka modelidir.
  • Midjourney'nin CEO'su David Holz tarafından tanıtılan yeni metinden videoya oluşturucusu, Ocak ayında eğitime başladı ve yakında piyasaya sürülmesi bekleniyor.
  • AI PC devrimini ilerleten Lenovo, 8 Ocak 2024'te E Ink Prism teknolojisine sahip ThinkBook 13x'i ve yüksek performanslı AI dizüstü bilgisayarları piyasaya sürdü.

Bizimle Yapay Zeka Trendlerinden Haberdar Olun!

2024'ün başlangıcı, yapay zekada çığır açan gelişmelere ve birçok önemli teknolojik dönüm noktasına tanık oldu. Ancak bu, yapay zekanın yapabileceklerinin sadece başlangıcı. En son AI gelişmeleri hakkında daha fazla bilgi edinmek istiyorsanız, Ultralytics seni korudu.

Görüntü işleme ve yapay zeka alanındaki en son katkılarımızı görmek için GitHub depomuza göz atın. Yapay zekanın üretim ve sağlık gibi sektörlerde nasıl kullanıldığını görmek için çözüm sayfalarımıza da bakabilirsiniz. 

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Bu kategoride daha fazlasını okuyun