"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
YOLO Vision 2024'teki bir panel konuşmasından ilginç bilgileri keşfedin. Üretken yapay zekanın gerçek zamanlı Görüntü Yapay Zeka modelleri için geleceği nasıl şekillendirdiğini keşfedin.
Üretken yapay zeka, mevcut verilerden kalıplar öğrenerek görüntüler, metin veya ses gibi yeni içerikler oluşturan bir yapay zeka (AI) dalıdır. Son gelişmeler sayesinde, artık genellikle insan yaratıcılığını taklit eden son derece gerçekçi içerikler üretmek için kullanılabilir.
Ancak, üretken yapay zekanın etkisi sadece içerik oluşturmanın ötesine geçiyor. Ultralytics YOLO modelleri gibi gerçek zamanlı bilgisayarla görme modelleri gelişmeye devam ettikçe, üretken yapay zeka aynı zamanda görsel verilerin nasıl işlendiğini ve artırıldığını yeniden tanımlayarak, gerçek dünya senaryolarında yenilikçi uygulamaların önünü açıyor.
Bu yeni teknolojik değişim, Ultralytics tarafından düzenlenen yıllık bir karma etkinlik olan YOLO Vision 2024'te (YV24) ilginç bir konuşma konusuydu. YV24, yapay zeka meraklılarını ve sektör liderlerini bilgisayarlı görüdeki en son atılımları tartışmak üzere bir araya getirdi. Etkinlik, inovasyon, verimlilik ve gerçek zamanlı yapay zeka çözümlerinin geleceğine odaklandı.
Etkinliğin en önemli anlarından biri, Üretken Yapay Zeka Çağında YOLO konulu bir panel konuşmasıydı. Panelde Ultralytics'in Kurucusu ve CEO'su Glenn Jocher, Ultralytics'te Kıdemli Makine Öğrenimi Mühendisi Jing Qiu ve Tsinghua Üniversitesi'nden Ao Wang yer aldı. Üretken yapay zekanın bilgisayarlı görüyü nasıl etkilediğini ve pratik yapay zeka modelleri oluşturmanın zorluklarını araştırdılar.
Bu makalede, tartışmalarından elde edilen temel bilgileri tekrar ele alacak ve üretken yapay zekanın Görüntüleme Yapay Zekasını nasıl dönüştürdüğüne daha yakından bakacağız.
Ultralytics YOLO modellerini geliştirme
Glenn Jocher'in yanı sıra, birçok yetenekli mühendis de Ultralytics YOLO modellerinin geliştirilmesinde hayati bir rol oynamıştır. Onlardan biri olan Jing Qiu, YOLO ile beklenmedik başlangıcını anlattı. AI tutkusunun üniversite yıllarında başladığını ve bu alanda araştırma yaparak ve öğrenerek önemli zaman harcadığını açıkladı. Jing Qiu, Glenn Jocher ile GitHub'da nasıl bağlantı kurduğunu ve çeşitli AI projelerine nasıl dahil olduğunu hatırladı.
Jing Qiu'nun söylediklerine ek olarak, Glenn Jocher GitHub'ı "tanışmadığınız insanların bir araya gelerek birbirlerine yardım ettiği, birbirlerinin çalışmalarına katkıda bulunduğu inanılmaz bir paylaşım yolu" olarak tanımladı. Harika bir topluluk ve yapay zekaya başlamak için gerçekten harika bir yol.
Şekil 1. Glenn Jocher ve Jing Qiu, YV24'te sahnede konuşma yaparken.
Jing Qiu'nun yapay zekaya olan ilgisi ve Ultralytics YOLOv5 üzerindeki çalışmaları, modelin geliştirilmesine yardımcı oldu. Daha sonra, daha fazla iyileştirme getiren Ultralytics YOLOv8'in geliştirilmesinde önemli bir rol oynadı. Bunu inanılmaz bir yolculuk olarak tanımladı. Bugün Jing Qiu, Ultralytics YOLO11 gibi modelleri geliştirmeye ve üzerinde çalışmaya devam ediyor.
YOLOv10: Gerçek dünya performansı için optimize edildi
Çin'den panele uzaktan katılan Ao Wang, kendisini doktora öğrencisi olarak tanıttı. Başlangıçta yazılım mühendisliği okudu, ancak yapay zekaya olan tutkusu onu bilgisayar görüşü ve derin öğrenmeye yöneltti.
Ünlü YOLO modeliyle ilk karşılaşması, çeşitli yapay zeka teknikleri ve modelleriyle deneyler yaparken oldu. Modelin hızından ve doğruluğundan etkilenerek nesne tespiti gibi bilgisayarla görü görevlerine daha derinlemesine dalmaya karar verdi. Ao Wang yakın zamanda YOLO modelinin yeni bir versiyonu olan YOLOv10'a katkıda bulundu. Araştırmaları, modeli daha hızlı ve daha doğru olacak şekilde optimize etmeye odaklandı.
Üretken yapay zekâ ve Vision AI arasındaki temel fark
Daha sonra, panel üretken yapay zekayı tartışmaya başladı ve Jing Qiu, üretken yapay zeka ve Vision AI'nın çok farklı amaçlara hizmet ettiğine dikkat çekti. Üretken yapay zeka, metin, resim ve video gibi şeyler oluşturur veya üretirken, Vision AI esas olarak görüntüleri analiz ederek zaten var olanı analiz eder.
Glenn Jocher, boyutun da büyük bir fark yarattığını vurguladı. Üretken yapay zeka modelleri çok büyük olup, genellikle modelin verilerden öğrenmesine yardımcı olan dahili ayarlar olan milyarlarca parametre içerir. Bilgisayar görüşü modelleri ise çok daha küçüktür. Şöyle dedi: "Sahip olduğumuz en küçük YOLO modeli, en küçük LLM'den [Büyük Dil Modeli] yaklaşık bin kat daha küçüktür. Yani, üç milyar parametreye kıyasla 3 milyon parametre."
Şekil 3. YV24'te üretken yapay zeka ve Görüntü İşleme Yapay Zekası üzerine panel tartışması.
Jing Qiu, üretken yapay zeka ve bilgisayarlı görü eğitimi ve dağıtım süreçlerinin de çok farklı olduğunu ekledi. Üretken yapay zeka, çalışmak için büyük, güçlü sunuculara ihtiyaç duyar. Öte yandan, YOLO gibi modeller verimlilik için tasarlanmıştır ve standart donanımlarda eğitilip dağıtılabilir. Bu, Ultralytics YOLO modellerini gerçek dünya kullanımı için daha pratik hale getirir.
Farklı olmalarına rağmen, bu iki alan iç içe geçmeye başlıyor. Glenn Jocher, Üretken Yapay Zeka'nın Görü Yapay Zekasına yeni gelişmeler getirdiğini, modelleri daha akıllı ve daha verimli hale getirdiğini açıkladı.
Üretken yapay zekanın bilgisayarlı görü üzerindeki etkisi
Üretken yapay zeka hızla ilerledi ve bu atılımlar, bilgisayarlı görü de dahil olmak üzere yapay zekanın diğer birçok alanını etkiliyor. Şimdi, panelden bu konudaki bazı büyüleyici içgörüleri inceleyelim.
Donanım alanındaki gelişmeler, yapay zeka inovasyonlarını mümkün kılıyor
Panelin başlarında Glenn Jocher, makine öğrenimi fikirlerinin uzun zamandır var olduğunu, ancak bilgisayarların bunları çalışır hale getirecek kadar güçlü olmadığını açıkladı. Yapay zeka fikirlerinin gerçeğe dönüşmesi için daha güçlü donanıma ihtiyacı vardı.
Paralel işleme yeteneklerine sahip GPU'ların (Grafik İşleme Birimleri) son 20 yıldaki yükselişi her şeyi değiştirdi. AI modellerinin eğitimini çok daha hızlı ve verimli hale getirdiler, bu da derin öğrenmenin hızla gelişmesini sağladı.
Günümüzde, TPU'lar (Tensor İşleme Birimleri) gibi yapay zeka çipleri ve optimize edilmiş GPU'lar, daha büyük ve daha karmaşık modelleri işlerken daha az güç kullanır. Bu, yapay zekayı gerçek dünya uygulamalarında daha erişilebilir ve kullanışlı hale getirdi.
Yeni donanım iyileştirmeleriyle birlikte, üretken yapay zeka ve bilgisayarlı görü uygulamaları daha da güçleniyor. Bu gelişmeler, gerçek zamanlı yapay zekayı daha hızlı, daha verimli ve daha fazla sektörde kullanıma hazır hale getiriyor.
Üretken yapay zeka, nesne algılama modellerini nasıl şekillendiriyor?
Jing Qiu'ya üretken yapay zekanın bilgisayar görüşünü nasıl etkilediği sorulduğunda, transformer'ların - yapay zekanın bir görüntünün en önemli kısımlarına odaklanmasına yardımcı olan modeller - yapay zekanın görüntüleri anlama ve işleme biçimini değiştirdiğini söyledi. İlk büyük adım, nesne tespiti için bu yeni yaklaşımı kullanan DETR (Detection Transformer) oldu. Doğruluğu artırdı, ancak bazı durumlarda daha yavaş hale getiren performans sorunları vardı.
Bunu çözmek için araştırmacılar RT-DETR gibi hibrit modeller oluşturdular. Bu modeller, hızı ve doğruluğu dengeleyerek Evrişimsel Sinir Ağlarını (CNN'ler, görüntü özelliklerini otomatik olarak öğrenen ve çıkaran derin öğrenme modelleridir) ve dönüştürücüleri birleştirir. Bu yaklaşım, nesne tespitini hızlandırırken dönüştürücülerin avantajlarından yararlanır.
İlginç bir şekilde, YOLOv10, performansını artırmak için transformatör tabanlı dikkat katmanları (bir görüntüdeki en önemli alanları vurgulayan ve daha az ilgili ayrıntıları göz ardı eden bir spot ışığı gibi davranan modelin parçaları) kullanır.
Ao Wang ayrıca üretken yapay zekanın modellerin eğitilme şeklini nasıl değiştirdiğinden de bahsetti. Maskelenmiş görüntü modelleme gibi teknikler, yapay zekanın görüntülerden daha verimli öğrenmesine yardımcı olarak büyük, manuel olarak etiketlenmiş veri kümelerine olan ihtiyacı azaltır. Bu, bilgisayarlı görü eğitimini daha hızlı ve daha az kaynak yoğun hale getirir.
Üretken yapay zeka ve Görüntü İşleme Yapay Zekasının geleceği
Panelin tartıştığı bir diğer önemli fikir ise üretken yapay zeka ve Görüntü İşleme Yapay Zekasının bir araya gelerek daha yetenekli modeller oluşturmasının nasıl mümkün olacağıydı. Glenn Jocher, bu iki yaklaşımın farklı güçlü yönleri olmasına rağmen, birleştirilmelerinin yeni olasılıklar yaratabileceğini açıkladı.
Örneğin, YOLO gibi Vision AI modelleri, nesneleri tanımlamak için genellikle bir görüntüyü bir ızgaraya böler. Bu ızgara tabanlı yöntem, dil modellerinin hem ayrıntıları belirleme hem de bunları açıklama yeteneğini geliştirmesine yardımcı olabilir - bu, birçok dil modelinin bugün karşılaştığı bir zorluktur. Esasen, bu teknikleri birleştirmek, doğru bir şekilde tespit edebilen ve ne gördüklerini açıkça açıklayabilen sistemlere yol açabilir.
Şekil 4. Üretken ve Görüntü İşleme (Vision) yapay zekasının geleceği. Görsel: yazar tarafından.
Önemli çıkarımlar
Üretken yapay zeka ve bilgisayarlı görü birlikte ilerliyor. Üretken yapay zeka görüntüler ve videolar oluştururken, aynı zamanda Vizyon Yapay Zeka modellerini daha doğru ve verimli hale getirebilecek yeni yenilikçi fikirleri masaya getirerek görüntü ve video analizini de geliştiriyor.
Bu bilgilendirici YV24 panel konuşmasında, Glenn Jocher, Jing Qiu ve Ao Wang, bu teknolojilerin geleceği nasıl şekillendirdiği konusundaki düşüncelerini paylaştılar. Daha iyi yapay zeka donanımıyla, üretken yapay zeka ve Vision AI gelişmeye devam edecek ve daha da büyük yeniliklere yol açacaktır. Bu iki alan, günlük yaşam için daha akıllı, daha hızlı ve daha kullanışlı yapay zeka oluşturmak için birlikte çalışıyor.