Üretken Yapay Zeka, bilgisayarlı görünün geleceğini değiştiriyor
YOLO Vision 2024'teki bir panel konuşmasından ilginç bilgileri keşfet. Üretken Yapay Zekanın gerçek zamanlı Görüntüleme Yapay Zekası modellerinin geleceğini nasıl şekillendirdiğini incele.

Üretken yapay zeka, mevcut verilerden kalıpları öğrenerek resim, metin veya ses gibi yeni içerikler oluşturan bir yapay zeka (AI) dalıdır. Yakın zamandaki gelişmeler sayesinde, artık insan yaratıcılığını genellikle taklit eden son derece gerçekçi içerikler üretmek için kullanılabiliyor.
Ancak, üretken yapay zekanın etkisi sadece içerik oluşturmanın ötesine geçiyor. Ultralytics YOLO modelleri gibi gerçek zamanlı bilgisayarlı görü modelleri gelişmeye devam ettikçe, üretken yapay zeka aynı zamanda görsel verilerin nasıl işlendiğini ve artırıldığını yeniden tanımlayarak gerçek dünya senaryolarındaki yenilikçi uygulamalara zemin hazırlıyor.
Bu yeni teknolojik değişim, Ultralytics tarafından düzenlenen yıllık hibrit bir etkinlik olan YOLO Vision 2024 (YV24) kapsamında ilginç bir sohbet konusuydu. YV24'te yapay zeka meraklıları ve sektör liderleri, bilgisayarlı görü alanındaki en son atılımları tartışmak için bir araya geldi. Etkinlik inovasyona, verimliliğe ve gerçek zamanlı yapay zeka çözümlerinin geleceğine odaklandı.
Etkinliğin öne çıkan bölümlerinden biri, YOLO in the Age of Generative AI başlıklı panel konuşmasıydı. Panelde, Ultralytics Kurucusu ve CEO'su Glenn Jocher, Ultralytics Kıdemli Makine Öğrenimi Mühendisi Jing Qiu ve Tsinghua Üniversitesi'nden Ao Wang yer aldı. Bu kişiler, üretken yapay zekanın bilgisayarlı görüyü nasıl etkilediğini ve pratik yapay zeka modelleri oluşturmanın zorluklarını incelediler.
Bu makalede, yaptıkları tartışmadan elde edilen temel içgörüleri tekrar gözden geçireceğiz ve üretken yapay zekanın Vizyon AI'yi nasıl dönüştürdüğüne daha yakından bakacağız.
Link to this sectionUltralytics YOLO modellerini geliştirmek#
Glenn Jocher'ın yanı sıra, birçok yetenekli mühendis Ultralytics YOLO modellerinin geliştirilmesinde hayati bir rol oynadı. Onlardan biri olan Jing Qiu, YOLO ile beklenmedik başlangıcını anlattı. Yapay zekaya olan tutkusunun üniversite yıllarında başladığını açıkladı. Bu alanda keşif yapmak ve bilgi edinmek için önemli miktarda zaman harcadı. Jing Qiu, GitHub üzerinden Glenn Jocher ile nasıl bağlantı kurduğunu ve çeşitli yapay zeka projelerine nasıl dahil olduğunu hatırlattı.
Jing Qiu'nun söylediklerine ek olarak Glenn Jocher, GitHub'ı şu şekilde tanımladı: "Paylaşım yapmak için inanılmaz bir yol; hiç tanışmadığınız insanlar birbirine yardım etmek için bir araya geliyor ve birbirlerinin çalışmalarına katkıda bulunuyor. Harika bir topluluk ve yapay zekaya başlamak için gerçekten çok iyi bir yol."

Şekil 1. Glenn Jocher ve Jing Qiu YV24'te sahnede konuşuyor.
Jing Qiu'nun yapay zekaya olan ilgisi ve Ultralytics YOLOv5 üzerindeki çalışmaları, modeli iyileştirmeye yardımcı oldu. Daha sonra, daha fazla iyileştirme getiren Ultralytics YOLOv8 geliştirilmesinde kilit bir rol oynadı. Bunu inanılmaz bir yolculuk olarak tanımladı. Bugün Jing Qiu, Ultralytics YOLO11 gibi modelleri geliştirmeye ve üzerinde çalışmaya devam ediyor.
Link to this sectionYOLOv10: Gerçek dünya performansı için optimize edildi#
Panel konuşmasına Çin'den uzaktan katılan Ao Wang, kendisini bir doktora öğrencisi olarak tanıttı. Başlangıçta yazılım mühendisliği okudu, ancak yapay zekaya olan tutkusu onu bilgisayarlı görü ve derin öğrenmeye yöneltti.
Ünlü YOLO modeliyle ilk karşılaşması, çeşitli yapay zeka teknikleri ve modelleriyle denemeler yaparken gerçekleşti. Hızı ve doğruluğundan etkilendi; bu durum onu nesne algılama gibi bilgisayarlı görü görevlerinin derinliklerine inmeye teşvik etti. Yakın zamanda Ao Wang, YOLO modelinin yeni bir sürümü olan YOLOv10'a katkıda bulundu. Araştırması, modeli daha hızlı ve daha doğru olacak şekilde optimize etmeye odaklandı.
Link to this sectionÜretken yapay zeka ile Vizyon AI arasındaki temel fark#
Ardından panel üretken yapay zekayı tartışmaya başladı ve Jing Qiu, üretken yapay zeka ile Vizyon AI'nin çok farklı amaçları olduğuna dikkat çekti. Üretken yapay zeka metin, resim ve video gibi şeyler yaratır veya üretirken, Vizyon AI halihazırda var olanları, yani çoğunlukla resimleri analiz eder.
Glenn Jocher boyutun da büyük bir fark yarattığını vurguladı. Üretken yapay zeka modelleri çok büyüktür ve genellikle modelin veriden öğrenmesine yardımcı olan dahili ayarlar olan milyarlarca parametre içerir. Bilgisayarlı görü modelleri çok daha küçüktür. "Elimizdeki en küçük YOLO modeli, en küçük LLM'den [Büyük Dil Modeli] yaklaşık bin kat daha küçük" dedi. "Yani üç milyar parametreye kıyasla 3 milyon parametre."

Şekil 2. YV24'teki üretken yapay zeka ve Vizyon AI panel tartışması.
Jing Qiu, üretken yapay zeka ve bilgisayarlı görü eğitim ve dağıtım süreçlerinin de çok farklı olduğunu ekledi. Üretken yapay zeka, çalışmak için devasa ve güçlü sunuculara ihtiyaç duyar. Öte yandan YOLO gibi modeller verimlilik için tasarlanmıştır ve standart donanımlar üzerinde eğitilebilir ve dağıtılabilir. Bu, Ultralytics YOLO modellerini gerçek dünya kullanımı için daha pratik hale getirir.
Farklı olsalar da, bu iki alan birbirine karışmaya başlıyor. Glenn Jocher, üretken yapay zekanın Vizyon AI'ye yeni gelişmeler getirdiğini, modelleri daha akıllı ve daha verimli hale getirdiğini açıkladı.
Link to this sectionÜretken yapay zekanın bilgisayarlı görü üzerindeki etkisi#
Üretken yapay zeka hızla ilerledi ve bu atılımlar, bilgisayarlı görü de dahil olmak üzere yapay zekanın diğer birçok alanını etkiliyor. Şimdi, panelden bazı büyüleyici içgörüler üzerinden geçelim.
Link to this sectionDonanım ilerlemeleri yapay zeka yeniliklerini mümkün kılıyor#
Panelin başlarında Glenn Jocher, makine öğrenimi fikirlerinin uzun zamandır var olduğunu ancak bilgisayarların bunları çalıştıracak kadar güçlü olmadığını açıkladı. Yapay zeka fikirlerinin gerçeğe dönüşmesi için daha güçlü donanıma ihtiyaçları vardı.
GPU'ların (Grafik İşleme Birimleri) son 20 yılda paralel işleme yetenekleriyle yükselişi her şeyi değiştirdi. Yapay zeka modellerini eğitmeyi çok daha hızlı ve daha verimli hale getirdiler, bu da derin öğrenmenin hızla gelişmesine olanak tanıdı.
Günümüzde, TPU'lar (Tensor İşleme Birimleri) ve optimize edilmiş GPU'lar gibi yapay zeka çipleri, daha büyük ve daha karmaşık modelleri işlerken daha az güç tüketiyor. Bu, yapay zekayı gerçek dünya uygulamalarında daha erişilebilir ve kullanışlı hale getirdi.
Her yeni donanım iyileştirmesiyle, hem üretken yapay zeka hem de bilgisayarlı görü uygulamaları daha güçlü hale geliyor. Bu gelişmeler, gerçek zamanlı yapay zekayı daha hızlı, daha verimli ve daha fazla sektörde kullanıma hazır hale getiriyor.
Link to this sectionÜretken yapay zeka nesne algılama modellerini nasıl şekillendiriyor#
Üretken yapay zekanın bilgisayarlı görüyü nasıl etkilediği sorulduğunda Jing Qiu, yapay zekanın bir resimdeki en önemli kısımlara odaklanmasına yardımcı olan transformer'ların yapay zekanın resimleri anlama ve işleme biçimini değiştirdiğini söyledi. İlk büyük adım, nesne algılama için bu yeni yaklaşımı kullanan DETR (Detection Transformer) oldu. Doğruluğu artırdı ancak bazı durumlarda onu daha yavaş hale getiren performans sorunları vardı.
Bunu çözmek için araştırmacılar RT-DETR gibi hibrit modeller oluşturdular. Bu modeller, Evrişimli Sinir Ağlarını (CNN'ler; görüntülerden özellikleri otomatik olarak öğrenen ve çıkaran derin öğrenme modelleri) ve transformer'ları birleştirerek hız ve doğruluk arasında bir denge kurar. Bu yaklaşım, nesne algılamayı hızlandırırken transformer'ların faydalarından yararlanır.
İlginç bir şekilde YOLOv10, performansını artırmak için transformer tabanlı dikkat katmanlarını (modelin, daha az alakalı ayrıntıları görmezden gelirken bir resimdeki en önemli alanları vurgulamak için spot ışığı gibi davranan kısımları) kullanır.
Ao Wang ayrıca üretken yapay zekanın modellerin eğitilme biçimini nasıl değiştirdiğinden bahsetti. Maskelenmiş görüntü modelleme gibi teknikler, yapay zekanın görüntülerden daha verimli bir şekilde öğrenmesine yardımcı olarak büyük, manuel olarak etiketlenmiş veri kümelerine olan ihtiyacı azaltır. Bu, bilgisayarlı görü eğitimini daha hızlı ve daha az kaynak gerektiren bir hale getirir.
Link to this sectionÜretken yapay zeka ve Vizyon AI'nin geleceği#
Panelin tartıştığı bir diğer önemli fikir, üretken yapay zeka ve Vizyon AI'nin daha yetenekli modeller oluşturmak için nasıl bir araya gelebileceğiydi. Glenn Jocher, bu iki yaklaşımın farklı güçlü yönleri olsa da, bunları birleştirmenin yeni olasılıklar açabileceğini açıkladı.
Örneğin, YOLO gibi Vizyon AI modelleri nesneleri tanımlamak için genellikle bir görüntüyü ızgaraya böler. Bu ızgara tabanlı yöntem, dil modellerinin hem ayrıntıları saptama hem de onları tanımlama yeteneklerini geliştirmelerine yardımcı olabilir; bu, birçok dil modelinin bugün karşı karşıya olduğu bir zorluktur. Özünde, bu teknikleri birleştirmek, gördüklerini doğru bir şekilde algılayabilen ve net bir şekilde açıklayabilen sistemlere yol açabilir.

Şekil 3. Üretken yapay zeka ve Vizyon AI'nin geleceği. Görsel: Yazar.
Link to this sectionÖne çıkanlar#
Üretken yapay zeka ve bilgisayarlı görü birlikte ilerliyor. Üretken yapay zeka görüntü ve video oluştururken, aynı zamanda Vizyon AI modellerini daha doğru ve verimli hale getirebilecek yeni yenilikçi fikirleri masaya getirerek görüntü ve video analizini de geliştiriyor.
Bu içgörü dolu YV24 panel konuşmasında Glenn Jocher, Jing Qiu ve Ao Wang, bu teknolojilerin geleceği nasıl şekillendirdiği hakkındaki düşüncelerini paylaştılar. Daha iyi yapay zeka donanımıyla, üretken yapay zeka ve Vizyon AI gelişmeye devam edecek ve daha büyük yeniliklere yol açacaktır. Bu iki alan, günlük yaşam için daha akıllı, daha hızlı ve daha kullanışlı yapay zeka yaratmak için birlikte çalışıyor.
Topluluğumuza katıl ve Vizyon AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfet. Bilgisayarlı görü projelerine başlamak için lisans seçeneklerimize göz at. Üretimde yapay zeka veya otonom sürüşte bilgisayarlı görü gibi yeniliklerle ilgileniyor musun? Daha fazlasını keşfetmek için çözüm sayfalarımızı ziyaret et.






