YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Yüksek kaliteli bilgisayar görüşü veri kümelerinin önemi

Abirami Vina

4 dakika okuma

16 Aralık 2024

Bilgisayarlı görü modelleri oluştururken yüksek kaliteli veriye duyulan ihtiyacı keşfederken bize katılın. Veri kalitesinin model performansını nasıl etkileyebileceğini keşfedin.

2019 itibarıyla, kurumsal yapay zeka (AI) benimsenmesi önceki dört yıla göre %270 artmıştı. Bu büyüme, makinelerin çevrelerindeki dünyadan görsel verileri yorumlamasını ve analiz etmesini sağlayan yapay zeka sistemleri olan bilgisayarlı görü (CV) uygulamalarının hızla entegre edilmesini sağladı. Bu uygulamalar, tıbbi görüntülemede hastalıkları tespit etmekten otonom araçları etkinleştirmeye, ulaşımda trafik akışını optimize etmekten güvenlik sistemlerinde gözetimi iyileştirmeye kadar çok çeşitli teknolojileri desteklemektedir. 

Ultralytics YOLO11 gibi son teknoloji bilgisayarlı görü modellerinin olağanüstü doğruluğu ve benzersiz performansı, bu hızlı büyümenin büyük ölçüde itici gücü olmuştur. Ancak, bu modellerin performansı büyük ölçüde modelleri eğitmek, doğrulamak ve test etmek için kullanılan verilerin kalitesine ve miktarına bağlıdır. 

Yeterli yüksek kaliteli veri olmadan, bilgisayarlı görü modellerini endüstri standartlarını karşılayacak şekilde etkili bir şekilde eğitmek ve ince ayar yapmak zor olabilir. Bu makalede, veri kümelerinin bilgisayarlı görü modelleri oluşturmadaki hayati rolünü ve yüksek kaliteli verilerin bilgisayarlı görüde neden bu kadar önemli olduğunu inceleyeceğiz. Ayrıca, özel bilgisayarlı görü modellerini eğitirken yüksek kaliteli veri kümeleri oluşturmanıza yardımcı olacak bazı ipuçlarını da gözden geçireceğiz. Haydi başlayalım!

Verinin bilgisayarlı görü modelleri oluşturmadaki rolü

Bilgisayarlı görü modelleri, örüntüleri tanımak ve doğru tahminler yapmak için büyük veri kümeleri üzerinde eğitilebilir. Örneğin, bir nesne algılama modeli, nesneleri doğru bir şekilde tanımlamak için yüzlerce - hatta binlerce - etiketli resim ve video üzerinde eğitilebilir. 

Bu eğitim verilerinin kalitesi ve miktarı, modelin performansını etkiler. 

Bilgisayarlı görü modelleri yalnızca maruz kaldıkları verilerden öğrenebildikleri için, yüksek kaliteli veri ve çeşitli örnekler sağlamak başarıları için çok önemlidir. Yeterli ve çeşitli veri kümeleri olmadan, bu modeller gerçek dünya senaryolarını doğru bir şekilde analiz edemeyebilir ve yanlı veya yanlış sonuçlar üretebilir. 

Bu nedenle, verinin model eğitimindeki rolünü net bir şekilde anlamak önemlidir. Yüksek kaliteli verilerin özelliklerini incelemeden önce, bilgisayarlı görü modellerini eğitirken karşılaşabileceğiniz veri kümesi türlerini anlayalım.

Bilgisayarlı Görü Veri Kümelerinin Türleri

Bilgisayarlı görüde, eğitim sürecinde kullanılan veriler, her biri belirli bir amaca hizmet eden üç türe ayrılır. İşte her bir türe hızlı bir bakış:

  • Eğitim Verileri: Bu, modeli sıfırdan eğitmek için kullanılan birincil veri kümesidir. Modelin örüntüleri öğrenmesini ve nesneleri tanımasını sağlayan, önceden tanımlanmış etiketlere sahip resim ve videolardan oluşur.
  • Doğrulama Verileri: Bu, bir model eğitilirken ne kadar iyi performans gösterdiğini kontrol etmek için kullanılan bir veri kümesidir. Modelin yeni, görülmemiş veriler üzerinde doğru şekilde çalışmasını sağlamaya yardımcı olur.
  • Test Verileri: Eğitilmiş bir modelin nihai performansını değerlendirmek için kullanılan ayrı bir veri kümesidir. Modelin tamamen yeni, görülmemiş veriler üzerinde ne kadar iyi tahminlerde bulunabileceğini kontrol eder.
__wf_reserved_inherit
Şekil 1. Bilgisayar görüşünde verilerin nasıl kategorize edildiği.

Yüksek kaliteli bilgisayar görüşü veri kümelerinin en önemli 5 özelliği

Veri kümesi türünden bağımsız olarak, başarılı bilgisayar görüşü modelleri oluşturmak için yüksek kaliteli veriler şarttır. Bir veri kümesini yüksek kaliteli yapan temel özelliklerden bazıları şunlardır:

  • Doğruluk: İdeal olarak, veriler gerçek dünya durumlarını yakından yansıtmalı ve doğru etiketler içermelidir. Örneğin, sağlık hizmetlerinde Görüntüleme Yapay Zekası (Vision AI) söz konusu olduğunda, modelin düzgün öğrenmesine yardımcı olmak için röntgen veya tarama görüntülerinin doğru bir şekilde etiketlenmesi gerekir.
  • Çeşitlilik: İyi bir veri kümesi, modelin farklı durumlarda iyi performans göstermesine yardımcı olmak için çeşitli örnekler içerir. Örneğin, bir model arabaları algılamayı öğreniyorsa, veri kümesi farklı şekil, boyut ve renklerdeki arabaları çeşitli ortamlarda (gündüz, gece, yağmur vb.) içermelidir.
  • Tutarlılık: Yüksek kaliteli veri kümeleri, tek tip bir format ve kalite standartlarını izler. Örneğin, görüntüler benzer çözünürlüklere sahip olmalı (bazıları bulanık, bazıları keskin olmamalı) ve modelin tutarlı bilgilerden öğrenmesi için yeniden boyutlandırma veya renk ayarlamaları gibi aynı ön işleme adımlarından geçmelidir.
  • Güncellik: Düzenli olarak güncellenen veri kümeleri, gerçek dünyadaki değişikliklere ayak uydurabilir. Diyelim ki her türden aracı algılamak için bir model eğitiyorsunuz. Elektrikli scooter'lar gibi yenileri piyasaya sürülürse, modelin doğru ve güncel kalmasını sağlamak için veri kümesine eklenmelidir.
  • Gizlilik: Bir veri kümesi, insanların fotoğrafları gibi hassas bilgiler içeriyorsa, gizlilik kurallarına uymalıdır. Anonimleştirme (kimliği tanımlayan ayrıntıların kaldırılması) ve veri maskeleme (hassas kısımların gizlenmesi) gibi teknikler, verileri güvenli bir şekilde kullanmayı mümkün kılarken gizliliği koruyabilir.

Düşük kaliteli verilerin neden olduğu zorluklar

Yüksek kaliteli verilerin özelliklerini anlamak önemli olsa da, düşük kaliteli verilerin bilgisayar görüşü modellerinizi nasıl etkileyebileceğini de göz önünde bulundurmak aynı derecede önemlidir.

Aşırı uyum (overfitting) ve yetersiz uyum (underfitting) gibi sorunlar, model performansını ciddi şekilde etkileyebilir. Aşırı uyum, bir modelin eğitim verilerinde iyi performans göstermesi ancak yeni veya görülmemiş verilerle mücadele etmesi durumunda meydana gelir; bunun nedeni genellikle veri kümesinin çeşitlilikten yoksun olmasıdır. Yetersiz uyum ise, veri kümesinin modelin anlamlı kalıplar öğrenmesi için yeterli örnek veya kalite sağlamaması durumunda ortaya çıkar. Bu sorunlardan kaçınmak için, hem eğitimde hem de gerçek dünya uygulamalarında güvenilir performans sağlamak amacıyla çeşitli, tarafsız ve yüksek kaliteli veri kümeleri bulundurmak önemlidir.

__wf_reserved_inherit
Şekil 2. Yetersiz Uyum - Aşırı Uyum Karşılaştırması.

Düşük kaliteli veriler, modellerin ham verilerden anlamlı kalıpları çıkarmasını ve öğrenmesini de zorlaştırabilir; bu süreç özellik çıkarımı olarak bilinir. Veri kümesi eksik, ilgisiz veya çeşitlilikten yoksunsa, model etkili bir şekilde performans göstermekte zorlanabilir. 

Bazen, düşük kaliteli veriler verileri basitleştirmenin bir sonucu olabilir. Verileri basitleştirmek, depolama alanından tasarruf etmeye ve işleme maliyetlerini düşürmeye yardımcı olabilir, ancak aşırı basitleştirme, modelin iyi çalışması için ihtiyaç duyduğu önemli ayrıntıları kaldırabilir. Bu nedenle, tüm bilgisayar görüşü süreci boyunca, toplama aşamasından dağıtıma kadar yüksek kaliteli verileri korumak çok önemlidir. Genel bir kural olarak, veri kümeleri güvenilir model tahminlerini garanti etmek için temel özellikleri içermeli, aynı zamanda çeşitli ve doğru kalmalıdır.

__wf_reserved_inherit
Şekil 3. Özellik Çıkarımını Anlamak.

Bilgisayar görüşü veri kümenizin kalitesini koruma ipuçları

Artık yüksek kaliteli verilerin önemini ve düşük kaliteli verilerin etkisini anladığımıza göre, veri kümenizin yüksek standartları karşıladığından nasıl emin olacağımızı keşfedelim.

Her şey güvenilir veri toplama ile başlar. Kitlesel kaynak kullanımı, çeşitli coğrafi bölgelerden elde edilen veriler ve sentetik veri üretimi gibi çeşitli kaynakların kullanılması önyargıyı azaltır ve modellerin gerçek dünya senaryolarını işlemesine yardımcı olur. Veriler toplandıktan sonra, ön işleme kritik öneme sahiptir. Piksel değerlerini tutarlı bir aralığa ölçekleyen normalleştirme ve döndürme, çevirme ve yakınlaştırma gibi dönüşümleri uygulayan artırma gibi teknikler veri kümesini geliştirir. Bu adımlar, modelinizin daha iyi genellemesine ve daha sağlam hale gelmesine yardımcı olarak aşırı uyum riskini azaltır.

Veri kümelerini düzgün bir şekilde bölmek de önemli bir adımdır. Yaygın bir yaklaşım, verilerin %70'ini eğitim, %15'ini doğrulama ve %15'ini test için ayırmaktır. Bu kümeler arasında herhangi bir örtüşme olmadığının iki kez kontrol edilmesi, veri sızıntısını önler ve doğru model değerlendirmesi sağlar.

__wf_reserved_inherit
Fig 4. Eğitim, doğrulama ve test arasında yaygın bir veri dağılımı.

Zamandan ve hesaplama kaynaklarından tasarruf etmek için YOLO11 gibi önceden eğitilmiş modelleri de kullanabilirsiniz. Büyük veri kümeleri üzerinde eğitilmiş ve çeşitli bilgisayar görüşü görevleri için tasarlanmış olan YOLO11, ihtiyaçlarınızı karşılamak için özel veri kümenizde ince ayar yapılabilir. Modeli verilerinize göre ayarlayarak aşırı uyumdan kaçınabilir ve güçlü performansı koruyabilirsiniz. 

Bilgisayar görüşü veri kümeleri için gelecek

Yapay zeka topluluğu geleneksel olarak daha fazla katmana sahip daha derin modeller oluşturarak performansı artırmaya odaklanmıştır. Ancak, yapay zeka gelişmeye devam ettikçe, odak noktası modelleri optimize etmekten veri kümelerinin kalitesini artırmaya kaymaktadır. Genellikle "Yapay Zekanın babası" olarak anılan Andrew Ng, "Yapay zeka dünyasının bu on yılda geçirmesi gereken en önemli değişim, veri merkezli yapay zekaya geçiş olacaktır" inanmaktadır. 

Bu yaklaşım, etiket doğruluğunu iyileştirerek, gürültülü örnekleri kaldırarak ve çeşitliliği sağlayarak veri kümelerini iyileştirmeyi vurgular. Bilgisayar görüşü için bu ilkeler, önyargı ve düşük kaliteli veriler gibi sorunları ele almak, modellerin gerçek dünya senaryolarında güvenilir bir şekilde performans göstermesini sağlamak için kritik öneme sahiptir.

Geleceğe baktığımızda, bilgisayar görüşünün ilerlemesi, büyük miktarda veri toplamak yerine daha küçük, yüksek kaliteli veri kümeleri oluşturmaya bağlı olacaktır. Andrew Ng'ye göre, "Verileri iyileştirmek tek seferlik bir ön işleme adımı değildir; makine öğrenimi modeli geliştirme sürecinin temel bir parçasıdır." Veri merkezli ilkelere odaklanarak, bilgisayar görüşü çeşitli sektörlerde daha erişilebilir, verimli ve etkili olmaya devam edecektir.

Önemli çıkarımlar

Veri, bir görüntü modelinin yaşam döngüsü boyunca kritik bir rol oynar. Veri toplama, ön işleme, eğitim, doğrulama ve test aşamalarından geçerek, verinin kalitesi doğrudan modelin performansını ve güvenilirliğini etkiler. Yüksek kaliteli verilere ve doğru etiketlemeye öncelik vererek, güvenilir ve hassas sonuçlar sunan sağlam bilgisayarlı görü modelleri oluşturabiliriz. 

Veriye dayalı bir geleceğe doğru ilerlerken, önyargı ve gizlilik düzenlemeleriyle ilgili riskleri azaltmak için etik hususları ele almak önemlidir. Sonuç olarak, bilgisayarlı görü teknolojilerinin tüm potansiyelini ortaya çıkarmak için verilerin bütünlüğünü ve adaletini sağlamak çok önemlidir.

AI hakkında daha fazla bilgi edinmek için topluluğumuza katılın ve GitHub depomuza göz atın. Tarım ve üretim gibi sektörlerdeki daha fazla AI uygulamasını keşfetmek için çözümler sayfalarımızı inceleyin.

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı