Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Florence-2: Microsoft'un en son görüntü-dil modeli

Abirami Vina

6 dakika okuma süresi

26 Temmuz 2024

Microsoft'un gelişmiş nesne algılama, segmentasyon ve sıfır atış performansı sunan görsel dil modeli Florence-2 ile tanışın.

Haziran 2024'te Microsoft, nesne algılama, segmentasyon, görüntü başlığı ve topraklama dahil olmak üzere çok çeşitli görevleri yerine getirmek için tasarlanmış çok modlu bir görsel dil modeli (VLM) olan Florence-2'yi tanıttı. Florence-2, önceden belirli bir eğitim olmadan görevleri gerçekleştirebileceği anlamına gelen sıfır atış performansı için yeni bir ölçüt belirler ve diğer son teknoloji görsel dil modellerinden daha küçük bir model boyutunu artırır.

Florence-2, sadece başka bir modelden daha fazlası; çok yönlülüğü ve gelişmiş performansıyla, doğruluğu artırarak ve kapsamlı eğitim ihtiyacını azaltarak çeşitli sektörleri önemli ölçüde etkileme potansiyeline sahip. Bu makalede, Florence-2'nin yenilikçi özelliklerini keşfedecek, performansını diğer VLM'lerle karşılaştıracak ve potansiyel uygulamalarını tartışacağız.

Florence-2 nedir?

Florence-2, tek bir birleşik çerçeve içinde çeşitli görevleri yerine getirebilir. Modelin etkileyici yetenekleri, kısmen FLD-5B adlı devasa eğitim veri kümesine borçludur. FLD-5B, 126 milyon görüntüde 5,4 milyar açıklama içerir. Bu kapsamlı veri kümesi, özellikle Florence-2'yi çok çeşitli görme görevlerini yüksek doğruluk ve verimlilikle yerine getirmek için gereken yeteneklerle donatmak amacıyla oluşturulmuştur. 

İşte Florence-2'nin desteklediği görevlere daha yakından bir bakış:

  • Nesne Algılama: Görüntülerdeki nesneleri yüksek hassasiyetle tanımlayabilir ve konumlandırabilir.
  • Segmentasyon: Bu görev, daha kolay analiz ve yorumlama için bir görüntüyü anlamlı segmentlere ayırmayı içerir.
  • Görüntü Alt Yazılandırması: Florence-2, bağlam ve ayrıntı sağlayan görüntüler için açıklayıcı alt yazılar oluşturabilir.
  • Görsel Temellendirme (Visual Grounding): Model, bir başlık içindeki belirli ifadeleri veya kelimeleri, görüntüdeki karşılık gelen bölgelerle ilişkilendirebilir.
  • Zero-shot Performansı: Belirli bir eğitim olmadan görevleri gerçekleştirebilir.
__wf_reserved_inherit
Şekil 1. Florence-2'nin Nasıl Eğitildiğini Anlamak.

Model hem metin tabanlı hem de bölge tabanlı görevleri destekler. Bir görüntünün belirli bölgelerini içeren görevler için modelin sözlüğüne özel konum belirteçleri eklenir. Bu belirteçler, modelin nesnelerin etrafındaki dikdörtgenler (kutu gösterimi), dört kenarlı şekiller (dörtgen kutu gösterimi) ve çok kenarlı şekiller (çokgen gösterimi) gibi farklı şekilleri anlamasına yardımcı olur. Model, tahminlerini doğru cevaplarla karşılaştırarak ve iç parametrelerini buna göre ayarlayarak öğrenmesine yardımcı olan çapraz entropi kaybı adı verilen bir yöntem kullanılarak eğitilir.

FLD-5B veri kümesini oluşturma

FLD-5B veri kümesi, farklı türde açıklamalar içerir: metin açıklamaları, bölge ve metin çiftleri ve metin, ifade ve bölge kombinasyonları. Veri toplama ve açıklama ekleme içeren iki adımlı bir süreçle oluşturulmuştur. Görüntüler, ImageNet-22k, Object 365, Open Images, Conceptual Captions ve LAION gibi popüler veri kümelerinden alınmıştır. FLD-5B veri kümesindeki açıklamalar çoğunlukla sentetiktir, yani manuel olarak etiketlenmek yerine otomatik olarak oluşturulmuştur. 

__wf_reserved_inherit
Şekil 2. FLD-5B Veri Kümesi'ni oluşturma.

Başlangıçta, nesne algılama veya segmentasyon gibi belirli görevlerde yetenekli uzman modeller bu ek açıklamaları oluşturdu. Ardından, ek açıklamaların ayrıntılı ve doğru olduğundan emin olmak için bir filtreleme ve iyileştirme süreci kullanıldı. Herhangi bir gürültü giderildikten sonra, veri seti yinelemeli bir iyileştirmeden geçti ve burada Florence-2'nin çıktıları, ek açıklamaları sürekli olarak güncellemek ve iyileştirmek için kullanıldı. 

Florence-2'nin model mimarisini anlama

Florence-2'nin model mimarisi, dizi-dizi öğrenme yaklaşımını izler. Bu, modelin bir girdi dizisini (metin istemi içeren bir görüntü gibi) işlemesi ve adım adım bir çıktı dizisi (bir açıklama veya etiket gibi) oluşturması anlamına gelir. Dizi-dizi çerçevesinde, her görev bir çeviri problemi olarak ele alınır: model bir girdi görüntüsü ve göreve özel bir istem alır ve karşılık gelen çıktıyı oluşturur.

__wf_reserved_inherit
Şekil 3. Florence-2'nin Görü-Dil Modeli Mimarisi.

Model mimarisinin temelinde, bir görüntü kodlayıcı ve çok modlu bir kodlayıcı-çözücüyü birleştiren çok modlu bir kodlayıcı-çözücü dönüştürücü bulunur. DaViT (Veri-Etkin Görüntü Dönüştürücü) olarak adlandırılan görüntü kodlayıcı, girdi görüntülerini görsel belirteç gömülerine dönüştürerek işler. Bu gömüler, görüntünün hem uzamsal (nesnelerin nerede olduğu) hem de semantik (nesnelerin ne olduğu) bilgilerini yakalayan kompakt temsilleridir. Bu görsel belirteçler daha sonra metin gömüleriyle (metnin temsilleri) birleştirilerek modelin metinsel ve görsel verileri sorunsuz bir şekilde birleştirmesine olanak tanır.

Florence-2'yi diğer VLM'lerle karşılaştırma

Florence-2, etkileyici sıfır atış yetenekleri nedeniyle diğer görsel dil modellerinden ayrılır. Çeşitli görevlere uyum sağlamak için kapsamlı ince ayara güvenen PaliGemma gibi modellerin aksine, Florence-2 kutudan çıkar çıkmaz iyi çalışır. Ayrıca, Florence-2, genellikle çok daha fazla parametreye sahip olan ancak her zaman Florence-2'nin performansıyla eşleşmeyen GPT-4V ve Flamingo gibi daha büyük modellerle rekabet edebilir. Örneğin, Florence-2, Kosmos-2'nin parametre sayısının iki katından fazla olmasına rağmen, Kosmos-2'den daha iyi sıfır atış sonuçları elde eder.

Kıyaslama testlerinde, Florence-2, COCO başlıklandırma ve ifade anlama gibi görevlerde olağanüstü performans göstermiştir. COCO veri kümesinde nesne algılama ve segmentasyon görevlerinde PolyFormer ve UNINEXT gibi modellerden daha iyi performans gösterdi. Hem performansın hem de kaynak verimliliğinin çok önemli olduğu gerçek dünya uygulamaları için son derece rekabetçi bir seçimdir.

Florence-2'nin Uygulamaları

Florence-2, eğlence, erişilebilirlik, eğitim vb. gibi birçok farklı sektörde kullanılabilir. Daha iyi anlamak için birkaç örneğe göz atalım.

Görüntü Alt Yazılamanın Uygulamaları

Bir yayın platformunda ne izleyeceğinize karar vermeye çalışırken, seçim yapmanıza yardımcı olması için bir filmin özetini okuyabilirsiniz. Platformun film posterinin ayrıntılı bir açıklamasını da sağlayabileceğini hayal edin? Florence-2, görüntüler için açıklayıcı metinler oluşturan görüntü başlığı oluşturma yoluyla bunu mümkün kılabilir. Florence-2, film posterlerinin ayrıntılı açıklamalarını oluşturarak yayın platformlarını görme engelli kullanıcılar için daha kapsayıcı hale getirebilir. Bir posterin karakterler, manzara ve metin gibi görsel öğelerini analiz ederek Florence-2, posterin içeriğini ve ruh halini aktaran ayrıntılı açıklamalar oluşturabilir. Aşağıdaki resim, Florence-2'nin açıklamasında sağlayabileceği ayrıntı düzeyini göstermektedir.

__wf_reserved_inherit
Şekil 4. Florence-2 tarafından oluşturulan bir resim başlığı örneği. 

İşte görüntü açıklamalandırmanın yardımcı olabileceği diğer örneklerden bazıları:

  • E-ticaret: Görüntü açıklaması, müşterilerin ürün özelliklerini ve ayrıntılarını daha net anlamalarına yardımcı olarak, ürün görüntülerinin ayrıntılı açıklamalarını sağlayabilir.
  • Seyahat ve Turizm: Seyahat rehberlerinde ve uygulamalarında turistik yerlerin ve cazibe merkezlerinin ayrıntılı açıklamalarını sağlayabilir.
  • Eğitim: Görüntü altyazıları, eğitim amaçlı görüntüleri ve diyagramları etiketleyip açıklayarak öğretme ve öğrenmeye yardımcı olabilir.
  • Gayrimenkul: Potansiyel alıcılar için özellikleri ve olanakları vurgulayan ayrıntılı mülk görüntü açıklamaları sağlayabilir.

Yemek pişirirken görsel dayanak kullanma

Florence-2, mutfak deneyimlerini zenginleştirmek için de kullanılabilir. Örneğin, çevrimiçi bir yemek kitabı, karmaşık bir tarif görüntüsünün bölümlerini görsel olarak temellendirmek ve etiketlemek için Florence-2'yi kullanabilir. Görsel temellendirme, görüntünün belirli bölümlerini karşılık gelen açıklayıcı metne bağlayarak burada yardımcı olur. Her bir bileşen ve adım doğru bir şekilde etiketlenebilir ve açıklanabilir, bu da ev aşçılarının tarifi takip etmesini ve her bir bileşenin yemekteki rolünü anlamasını kolaylaştırır.

__wf_reserved_inherit
Şekil 5. Florence-2 kullanılarak görsel dayanak oluşturmaya bir örnek. 

Finansal belgeler için bölge tabanlı OCR

Bir belgedeki belirli alanlardan metin çıkarmaya odaklanan bölge tabanlı işlemeye sahip OCR, muhasebe gibi alanlarda kullanışlı olabilir. Finansal belgelerin belirlenmiş alanları, işlem detayları, hesap numaraları ve son tarihler gibi önemli bilgileri otomatik olarak çıkarmak için analiz edilebilir. Manuel veri girişine olan ihtiyacı azaltarak hataları en aza indirir ve işlem sürelerini hızlandırır. Finans kuruluşları, fatura işleme, makbuz mutabakatı ve çek takası gibi görevleri kolaylaştırmak, daha hızlı işlemler ve daha iyi müşteri hizmeti sağlamak için kullanabilir. 

__wf_reserved_inherit
Şekil 6. Florence-2 kullanılarak bölge ile OCR çıkarma örneği. 

Endüstriyel uygulamalarda bölge tabanlı segmentasyon

Odaklı analiz ve detaylı inceleme için bir görüntüyü anlamlı parçalara ayırmayı içeren bölge tabanlı segmentasyon, çeşitli süreçlerde hassasiyeti ve verimliliği artıran endüstriyel uygulamaları destekleyebilir. Bir görüntüdeki belirli alanlara odaklanarak, bu teknoloji bileşenlerin ve ürünlerin detaylı bir şekilde incelenmesini ve analiz edilmesini sağlar. Kalite kontrolü açısından, yalnızca en kaliteli ürünlerin pazara ulaşmasını sağlayarak, malzemelerdeki çatlaklar veya yanlış hizalamalar gibi kusurları veya tutarsızlıkları belirleyebilir.

__wf_reserved_inherit
Şekil 7. Florence-2 kullanılarak bölgelere göre segmentasyona bir örnek.

Ayrıca, robotik kolları belirli parçalara yönlendirerek ve bileşenlerin yerleşimini ve montajını optimize ederek otomatik montaj hatlarını iyileştirir. Benzer şekilde, envanter yönetiminde, malların durumunu ve konumunu izlemeye ve takip etmeye yardımcı olarak daha verimli lojistik ve azaltılmış arıza süresine yol açar. Genel olarak, bölge tabanlı segmentasyon, doğruluğu ve üretkenliği artırarak endüstriyel ortamlarda maliyet tasarrufu ve daha yüksek ürün kalitesi sağlar.

Önemli çıkarımlar

Yapay zeka modellerinin yüksek performansı korurken daha hafif hale geldiği bir eğilim görmeye başlıyoruz. Florence-2, görsel dil modelleri açısından önemli bir adımı işaret ediyor. Nesne algılama, segmentasyon, görüntü başlığı oluşturma ve etkileyici sıfır atış performansı ile topraklama gibi çeşitli görevleri yerine getirebilir. Daha küçük boyutuna rağmen, Florence-2 verimli ve çok işlevlidir, bu da onu farklı endüstrilerdeki uygulamalar açısından son derece kullanışlı kılar. Florence-2 gibi modeller, yapay zeka yenilikleri için potansiyeli genişleterek masaya daha fazla olasılık getiriyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zeka hakkında daha fazla bilgi edinin. Üretim ve tarım alanlarındaki yapay zeka uygulamaları hakkında bilgi edinmek için çözümler sayfalarımıza göz atın. 🚀

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı