Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Meta FAIR'den yapay zeka araştırma güncellemeleri: SAM 2.1 ve CoTracker3

Abirami Vina

5 dakikalık okuma

4 Kasım 2024

Meta FAIR'in çeşitli, gerçek dünya uygulamaları için gelişmiş segmentasyon ve izleme yetenekleri sunan en son yapay zeka modelleri SAM 2.1 ve CoTracker3'ü keşfedin.

Yapay zeka (AI), son zamanlarda heyecan ve enerjiyle dolup taşan bir araştırma alanı olup, yeni yenilikler ve atılımlar hiç olmadığı kadar hızlı bir şekilde ortaya çıkmaktadır. Geçtiğimiz birkaç hafta içinde, Meta'nın Temel Yapay Zeka Araştırması (FAIR) ekibi, yapay zekanın farklı alanlarındaki zorlukların üstesinden gelmeyi amaçlayan bir dizi araç ve model tanıttı. Bu sürümler, sağlık hizmetleri, robotik ve artırılmış gerçeklik kadar çeşitli alanları etkileyebilecek güncellemeler içermektedir.

Örneğin, güncellenmiş SAM 2.1 modeli, nesne segmentasyonunu geliştirerek görüntülerdeki ve videolardaki nesneleri doğru bir şekilde tanımlamayı ve ayırmayı kolaylaştırır. Bu arada, CoTracker3 nokta izlemeye odaklanarak, nesneler hareket ettiğinde veya kısmen engellendiğinde bile video karelerindeki noktaları takip etmeye yardımcı olur. 

Meta ayrıca, verimli cihaz üzerinde kullanım için Llama dil modelinin daha hafif, daha hızlı sürümlerini ve robotik için yeni dokunsal algılama teknolojisini tanıttı. Bu makalede, Meta FAIR'in bu en son sürümlerini inceleyerek her bir aracın neler sunduğuna bakacağız. Hadi başlayalım!

Meta'nın geliştirilmiş Her Şeyi Segmentle Modeli: SAM 2.1

Önemli bir bilgisayarlı görü görevi olan Nesne segmentasyonu, bir görüntü veya video içindeki farklı nesneleri tanımlamayı ve ayırmayı mümkün kılarak belirli ilgi alanlarını analiz etmeyi kolaylaştırır. Piyasaya sürülmesinden bu yana, Meta'nın Her Şeyi Segmentle Modeli 2 (SAM 2), tıbbi görüntüleme ve meteoroloji gibi farklı alanlarda nesne segmentasyonu için kullanılmıştır. Topluluktan gelen geri bildirimlerden yola çıkan Meta, şimdi orijinal modelle karşılaşılan bazı zorlukların üstesinden gelmek ve genel olarak daha güçlü performans sunmak için tasarlanmış geliştirilmiş bir sürüm olan SAM 2.1'i tanıttı.

__wf_reserved_inherit
Şekil 1. SAM 2.1 Model Performans Kıyaslaması.

SAM 2.1, yeni veri artırma teknikleri sayesinde görsel olarak benzer ve daha küçük nesneleri daha iyi işlemek için güncellemeler içerir. Ayrıca, modeli daha uzun video sekanslarında eğiterek, bir nesnenin parçalarının görünümden gizlendiği durumlarda (oklüzyon) nasıl davrandığını da geliştirir ve nesneleri zaman içinde "hatırlamasını" ve tanımasını sağlar, geçici olarak engellenseler bile. Örneğin, birisi bir ağacın arkasında yürüyen bir kişinin videosunu çekiyorsa, SAM 2.1, nesnenin konumu ve hareketi hakkındaki hafızasını kullanarak ve görüşün kısa süreliğine kesintiye uğradığı durumlarda boşlukları doldurarak kişinin diğer tarafta yeniden belirmesiyle takip edebilir.

Meta, bu güncellemelerin yanı sıra, geliştiricilerin kendi verileriyle SAM 2.1'i ince ayar yapabilmeleri ve çeşitli uygulamalara entegre edebilmeleri için açık kaynaklı eğitim kodu ve tam demo altyapısı sağlayan SAM 2 Geliştirici Paketini yayınladı.

CoTracker3: Meta'nın izleme modeli ve özellikleri ve güncellemeleri

Bir diğer ilginç bilgisayarlı görü görevi de nokta izlemedir. Bir videodaki birden fazla karede belirli noktaları veya özellikleri takip etmeyi içerir. Bir pistte giden bir bisikletlinin videosunu düşünün - nokta izleme, modelin bisikletlinin üzerindeki kask veya tekerlekler gibi noktaları takip etmesini, bir an için engeller tarafından gizlenseler bile sağlar.

Nokta izleme, 3D rekonstrüksiyon, robotik ve video düzenleme gibi uygulamalar için çok önemlidir. Geleneksel modeller genellikle karmaşık kurulumlara ve büyük sentetik veri kümelerine güvenir, bu da gerçek dünya senaryolarına uygulandığında etkinliklerini sınırlar. 

Meta'nın CoTracker3 izleme modeli, modelin mimarisini basitleştirerek bu sınırlamaların üstesinden gelir. Ayrıca, modelin gerçek, açıklama eklenmemiş videolardan öğrenmesini sağlayan bir sözde-etiketleme tekniği sunarak CoTracker3'ü pratik kullanım için daha verimli ve ölçeklenebilir hale getirir.

__wf_reserved_inherit
Şekil 2. CoTracker3'ün Diğer İzleme Modelleriyle Karşılaştırılması.

CoTracker3'ü öne çıkaran özelliklerden biri, oklüzyonları iyi işleyebilmesidir. Modelin birden fazla izlenen nokta arasında bilgi paylaşmasına olanak tanıyan bir teknik olan çapraz izleme dikkati kullanarak CoTracker3, görünür olanlara başvurarak gizli noktaların konumlarını çıkarabilir. Bunu yaparak CoTracker3, kalabalık bir sahnede bir kişiyi takip etmek gibi dinamik ortamlarda oldukça etkili olacak şekilde tasarlanmıştır. 

CoTracker3 ayrıca hem çevrimiçi hem de çevrimdışı modlar sunar. Çevrimiçi mod, gerçek zamanlı izleme sağlar. Çevrimdışı mod ise video düzenleme veya animasyon gibi görevler için ideal olan tüm video sekanslarında daha kapsamlı izleme için kullanılabilir. 

Meta FAIR'den diğer güncellemeler ve araştırmalar

SAM 2.1 ve CoTracker3, Meta'nın bilgisayarlı görme alanındaki en son gelişmelerini sergilerken, doğal dil işleme (NLP) ve robotik gibi yapay zeka'nın diğer alanlarında da heyecan verici güncellemeler var. Meta FAIR'in bu diğer son gelişmelerinden bazılarına bir göz atalım.

Meta’nın Spirit LM'si: Dil ve Çok Modlu Modellerde Yapay Zeka Yenilikleri

Meta'nın Spirit LM'si, metin ve konuşma yeteneklerini birleştiren yeni bir çok modlu dil modelidir ve yapay zeka ile etkileşimleri daha doğal hissettirir. Sadece metin veya sadece konuşmayı işleyen geleneksel modellerin aksine, Spirit LM ikisi arasında sorunsuz bir şekilde geçiş yapabilir. 

Spirit LM, dili anlama ve üretme konusunda daha insana benzer yollar izleyebilir. Örneğin, hem dinleyebilen hem de sözlü veya yazılı dilde yanıt verebilen sanal asistanları geliştirebilir veya konuşma ile metin arasında dönüşüm yapan erişilebilirlik araçlarını destekleyebilir. 

__wf_reserved_inherit
şekil 3. Meta Spirit LM Kullanılarak Metinden Konuşmaya Bir Örnek.

Ayrıca Meta, büyük dil modellerini daha verimli hale getirmek için teknikler geliştirdi. Bunlardan biri olan Katman Atlama (Layer Skip), belirli bir görev için gerekli olan katmanları etkinleştirerek hesaplama ihtiyaçlarını ve enerji maliyetlerini azaltmaya yardımcı olur. Bu, özellikle sınırlı bellek ve güce sahip cihazlardaki uygulamalar için kullanışlıdır. 

Yapay zeka uygulamalarını bu tür cihazlarda dağıtma ihtiyacını bir adım öteye taşıyarak Meta, Llama modellerinin nicemlenmiş sürümlerini de kullanıma sundu. Bu modeller, doğruluğundan ödün vermeden mobil cihazlarda daha hızlı çalışacak şekilde sıkıştırılmıştır. 

Meta Lingua ile optimizasyonun geleceğine bir bakış

Yapay zeka modelleri boyut ve karmaşıklık açısından büyüdükçe, eğitim süreçlerini optimize etmek çok önemli hale geldi. Optimizasyon ile ilgili olarak Meta, büyük dil modellerinin eğitimini kolaylaştıran esnek ve verimli bir kod tabanı olan Meta Lingua'yı tanıttı. Meta Lingua'nın modüler tasarımı, araştırmacıların deneylerini hızla özelleştirmesine ve ölçeklendirmesine olanak tanır. 

Araştırmacılar teknik kurulumla daha az, gerçek araştırmayla daha çok zaman geçirebilirler. Kod tabanı aynı zamanda hafiftir ve entegre etmek kolaydır, bu da onu hem küçük deneyler hem de büyük ölçekli projeler için uygun hale getirir. Meta Lingua, bu teknik engelleri ortadan kaldırarak araştırmacıların daha hızlı ilerleme kaydetmesine ve yeni fikirleri daha kolay test etmesine yardımcı olur.

__wf_reserved_inherit
şekil 4. Meta Lingua'ya Genel Bir Bakış.

Meta'nın yapay zeka güvenliğindeki geliştirmeleri

Kuantum bilişim teknolojisi ilerledikçe, veri güvenliğine yeni zorluklar getiriyor. Günümüzün bilgisayarlarından farklı olarak, kuantum bilgisayarlarının karmaşık hesaplamaları çok daha hızlı çözebileceği düşünülüyor. Bu, hassas bilgileri korumak için halihazırda kullanılan şifreleme yöntemlerini potansiyel olarak kırabilecekleri anlamına geliyor. Bu nedenle, bu alandaki araştırmalar giderek daha önemli hale geliyor - kuantum bilişimin geleceğine hazırlanırken verileri korumanın yeni yollarını geliştirmek çok önemlidir.

Meta, bu sorunu çözmek için, kuantum sonrası kriptografik güvenliği güçlendirmeyi amaçlayan bir araç olan Salsa'yı geliştirdi. Salsa, araştırmacıların yapay zeka güdümlü saldırıları test etmelerine ve potansiyel zayıflıkları belirlemelerine yardımcı olarak, kriptografik sistemlerdeki güvenlik açıklarını daha iyi anlamalarını ve ele almalarını sağlar. Salsa, gelişmiş saldırı senaryolarını simüle ederek, kuantum çağı için daha güçlü, daha dirençli güvenlik önlemlerinin geliştirilmesine rehberlik edebilecek değerli bilgiler sağlar.

Meta'da Yapay Zeka: Robotikteki en son yenilikler

Meta'nın robotik alanındaki en son çalışmaları, dokunma algısını, el becerisini ve insanlarla iş birliğini geliştirerek yapay zekanın fiziksel dünyayla daha doğal etkileşim kurmasına yardımcı olmaya odaklanıyor. Özellikle Meta Digit 360, robotlara gelişmiş bir dokunma hissi veren gelişmiş bir dokunsal sensördür. Sensörler, robotların doku, basınç ve hatta nesne şekilleri gibi ayrıntıları algılamasına yardımcı olur. Bu bilgilerden yola çıkarak robotlar, sağlık hizmetleri ve üretim gibi alanlarda çok önemli olan nesneleri daha hassas bir şekilde kullanabilirler.

Meta Digit 360'in içerdiği temel özelliklerden bazıları şunlardır:

  • Çok çeşitli dokunsal ayrıntıları yakalayabilmek için 18 ayrı algılama özelliği ile donatılmıştır.
  • Sensör, 1 milinewton kadar küçük basınç değişikliklerini algılayabilir ve robotların ince dokulara ve hafif hareketlere tepki vermesini sağlar.
  • Parmak ucu yüzeyinde 8 milyondan fazla taxel (küçük algılama noktaları) içerir ve yüksek çözünürlüklü bir dokunma bilgisi haritası sağlar.

Meta Digit 360'in bir uzantısı olan Meta Digit Plexus, çeşitli dokunma sensörlerini tek bir robotik ele entegre eden bir platformdur. Bu kurulum, robotların insan ellerinin duyusal veri toplamasına benzer şekilde, dokunma bilgilerini aynı anda birden fazla noktadan işlemesine olanak tanır.

__wf_reserved_inherit
şekil 5. Meta Digit Plexus.

Yapay zekanın bir sonraki evresi için zemin hazırlama

Meta'nın SAM 2.1 ve CoTracker3 ile bilgisayar görüşündeki gelişmelerden, dil modelleri ve robotikteki yeni gelişmelere kadar uzanan en son YZ güncellemeleri, YZ'nin teoriden pratik, etkili çözümlere doğru nasıl istikrarlı bir şekilde ilerlediğini gösteriyor. 

Bu araçlar, YZ'yi farklı alanlarda daha uyarlanabilir ve kullanışlı hale getirmek için tasarlanmıştır ve karmaşık görüntüleri bölümlere ayırmaktan insan dilini anlamaya ve hatta fiziksel alanlarda bizimle birlikte çalışmaya kadar her konuda yardımcı olur. 

Erişilebilirliğe ve gerçek dünya uygulamalarına öncelik veren Meta FAIR, YZ'nin gerçek dünya zorluklarının üstesinden gelebileceği ve günlük yaşamlarımızı anlamlı şekillerde iyileştirebileceği bir geleceğe bizi yaklaştırıyor. 

Yapay zeka hakkında meraklı mısınız? En son güncellemeler ve bilgiler için topluluğumuza katılın ve GitHub depomuza göz atın. Ayrıca bilgisayar görüşünün otonom sürüşlü arabalar ve tarım gibi sektörlerde nasıl kullanılabileceğini de keşfedebilirsiniz!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı