Yüksek kaliteli bilgisayarlı görü veri setlerinin önemi
Bilgisayarlı görü modelleri oluştururken yüksek kaliteli veriye duyulan ihtiyacı incelerken bize katıl. Veri kalitesinin model performansını nasıl etkileyebileceğini keşfet.

2019 itibarıyla kurumsal yapay zeka (YZ) benimsenmesi, önceki dört yıla göre %270 oranında artmıştı. Bu büyüme, bilgisayarlı görü (CV) uygulamalarının, yani makinelerin çevrelerindeki görsel verileri yorumlamasını ve analiz etmesini sağlayan YZ sistemlerinin hızla entegre edilmesini tetikledi. Bu uygulamalar, tıbbi görüntüleme alanında hastalıkların tespitinden otonom araçların desteklenmesine, ulaştırmada trafik akışının optimize edilmesinden güvenlik sistemlerinde gözetimin iyileştirilmesine kadar çok çeşitli teknolojilere güç veriyor.
The remarkable accuracy and unmatched performance of cutting-edge computer vision models like Ultralytics YOLO11 have largely driven this exponential growth. However, the performance of these models heavily relies on the quality and quantity of the data used to train, validate, and test models.
Yeterli yüksek kaliteli veri olmadan, bilgisayarlı görü modellerini eğitmek ve endüstri standartlarını karşılayacak şekilde etkili bir biçimde ince ayar yapmak zor olabilir. Bu makalede, bilgisayarlı görü modelleri oluşturmada verinin hayati rolünü ve yüksek kaliteli verinin bilgisayarlı görüde neden bu kadar önemli olduğunu inceleyeceğiz. Ayrıca özel bilgisayarlı görü modellerini eğitirken yüksek kaliteli veri setleri oluşturmana yardımcı olacak bazı ipuçlarını da ele alacağız. Hadi başlayalım!
Link to this sectionBilgisayarlı görü modelleri oluşturmada verinin rolü#
Bilgisayarlı görü modelleri, örüntüleri tanımak ve doğru tahminler yapmak için büyük veri setleri üzerinde eğitilebilir. Örneğin, bir nesne algılama modeli, nesneleri doğru bir şekilde tanımlamak için yüzlerce, hatta binlerce etiketli görüntü ve video üzerinde eğitilebilir.
Bu eğitim verilerinin kalite ve niceliği, modelin performansını etkiler.
Bilgisayarlı görü modelleri yalnızca maruz kaldıkları verilerden öğrenebildikleri için, yüksek kaliteli veri ve çeşitli örnekler sağlamak başarıları için kritiktir. Yeterli ve çeşitli veri setleri olmadan bu modeller gerçek dünya senaryolarını doğru analiz edemeyebilir ve önyargılı veya hatalı sonuçlar üretebilir.
İşte bu yüzden model eğitimi sürecinde verinin rolünü net bir şekilde anlamak önemlidir. Yüksek kaliteli verinin özelliklerini incelemeden önce, bilgisayarlı görü modellerini eğitirken karşılaşabileceğin veri seti türlerini anlayalım.
Link to this sectionBilgisayarlı görü veri seti türleri#
Bilgisayarlı görüde, eğitim sürecinde kullanılan veriler, her biri belirli bir amaca hizmet eden üç türe ayrılır. İşte her türe hızlı bir bakış:
- Eğitim Verisi: Modeli sıfırdan eğitmek için kullanılan birincil veri setidir. Modelin örüntüleri öğrenmesini ve nesneleri tanımasını sağlayan, önceden tanımlanmış etiketlere sahip görüntü ve videolardan oluşur.
- Doğrulama Verisi: Model eğitilirken ne kadar iyi performans gösterdiğini kontrol etmek için kullanılan veri setidir. Modelin yeni ve görülmemiş veriler üzerinde doğru çalıştığından emin olmaya yardımcı olur.
- Test Verisi: Eğitilmiş bir modelin nihai performansını değerlendirmek için kullanılan ayrı bir veri setidir. Modelin tamamen yeni ve görülmemiş veriler üzerinde ne kadar iyi tahmin yapabildiğini kontrol eder.

Şekil 1. Bilgisayarlı görüde verilerin kategorize edilmesi.
Link to this sectionYüksek kaliteli bilgisayarlı görü veri setlerinin en iyi 5 özelliği#
Veri seti türü ne olursa olsun, başarılı bilgisayarlı görü modelleri oluşturmak için yüksek kaliteli veri şarttır. Bir veri setini yüksek kaliteli yapan temel özelliklerden bazıları şunlardır:
- Doğruluk: İdeal olarak veriler, gerçek dünya durumlarını yakından yansıtmalı ve doğru etiketleri içermelidir. Örneğin, sağlık hizmetlerinde görü YZ söz konusu olduğunda, modelin düzgün öğrenmesini sağlamak için röntgen veya tarama görüntülerinin doğru bir şekilde etiketlenmesi gerekir.
- Çeşitlilik: İyi bir veri seti, modelin farklı durumlarda iyi performans göstermesine yardımcı olmak için çeşitli örnekler içerir. Örneğin, bir model araba tespit etmeyi öğreniyorsa, veri seti farklı şekillerde, boyutlarda ve renklerdeki araçları çeşitli ortamlarda (gündüz, gece, yağmur vb.) içermelidir.
- Tutarlılık: Yüksek kaliteli veri setleri tek tip bir format ve kalite standartlarını takip eder. Örneğin, görüntüler benzer çözünürlüğe sahip olmalı (bazıları bulanık, bazıları keskin olmamalı) ve modelin tutarlı bilgilerden öğrenmesi için yeniden boyutlandırma veya renk ayarlamaları gibi aynı ön işleme adımlarından geçmelidir.
- Güncellik: Düzenli olarak güncellenen veri setleri, gerçek dünyadaki değişikliklere ayak uydurabilir. Örneğin, tüm araç türlerini tespit etmek için bir model eğitiyorsun. Eğer elektrikli skuterler gibi yenileri piyasaya çıkarsa, modelin doğruluğunu ve güncelliğini koruması için bunların veri setine eklenmesi gerekir.
- Gizlilik: Bir veri seti, insanların fotoğrafları gibi hassas bilgiler içeriyorsa, gizlilik kurallarına uymalıdır. Anonimleştirme (tanımlayıcı detayları kaldırma) ve veri maskeleme (hassas kısımları gizleme) gibi teknikler, gizliliği korurken verilerin güvenli bir şekilde kullanılmasını mümkün kılabilir.
Link to this sectionDüşük kaliteli verilerin yol açtığı zorluklar#
Yüksek kaliteli verinin özelliklerini anlamak önemli olsa da, düşük kaliteli verilerin bilgisayarlı görü modellerini nasıl etkileyebileceğini düşünmek de bir o kadar önemlidir.
Overfitting (aşırı uyum) ve underfitting (yetersiz uyum) gibi sorunlar model performansını ciddi şekilde etkileyebilir. Overfitting, bir model eğitim verilerinde iyi performans gösterdiğinde ancak veri seti çeşitlilikten yoksun olduğu için yeni veya görülmemiş verilerle zorlandığında ortaya çıkar. Öte yandan underfitting, veri seti modelin anlamlı örüntüleri öğrenmesi için yeterli örnek veya kalite sağlamadığında meydana gelir. Bu sorunlardan kaçınmak için çeşitli, tarafsız ve yüksek kaliteli veri setlerini korumak, hem eğitim hem de gerçek dünya uygulamalarında güvenilir performans sağlamak açısından şarttır.

Şekil 2. Underfitting ve overfitting.
Düşük kaliteli veriler, modellerin ham verilerden anlamlı örüntüler çıkarmasını ve öğrenmesini, yani öznitelik çıkarımı olarak bilinen süreci zorlaştırabilir. Veri seti eksikse, ilgisizse veya çeşitlilikten yoksunsa, model etkili bir şekilde çalışmakta zorlanabilir.
Sometimes, low-quality data can be a result of simplifying data. Simplifying data can help save storage space and reduce processing costs, but oversimplification can remove important details the model needs to work well. This is why it’s so important to maintain high-quality data throughout the entire computer vision process, from collection to deployment. As a rule of thumb, datasets should include essential features while staying diverse and accurate to guarantee reliable model predictions.

Şekil 3. Öznitelik Çıkarımını Anlamak.
Link to this sectionBilgisayarlı görü veri setinin kalitesini korumak için ipuçları#
Artık yüksek kaliteli verinin önemini ve düşük kaliteli verinin etkisini anladığımıza göre, veri setinin yüksek standartları karşıladığından nasıl emin olacağımızı keşfedelim.
Her şey güvenilir veri toplama ile başlar. Kitle kaynak kullanımı, farklı coğrafi bölgelerden veriler ve sentetik veri üretimi gibi çeşitli kaynakları kullanmak önyargıyı azaltır ve modellerin gerçek dünya senaryolarını ele almasına yardımcı olur. Veriler toplandıktan sonra ön işleme kritik öneme sahiptir. Piksel değerlerini tutarlı bir aralığa ölçeklendiren normalleştirme ve döndürme, çevirme ve yakınlaştırma gibi dönüşümler uygulayan veri artırma gibi teknikler veri setini zenginleştirir. Bu adımlar, modelinin daha iyi genelleme yapmasına ve daha sağlam hale gelmesine yardımcı olarak overfitting riskini azaltır.
Veri setlerini düzgün bir şekilde bölmek de bir diğer kilit adımdır. Yaygın bir yaklaşım, verilerin %70'ini eğitim, %15'ini doğrulama ve %15'ini test için ayırmaktır. Bu kümeler arasında hiçbir çakışma olmadığından emin olmak, veri sızıntısını önler ve doğru model değerlendirmesi sağlar.

Şekil 4. Eğitim, doğrulama ve test arasında yaygın bir veri bölme işlemi.
Zaman ve hesaplama kaynaklarından tasarruf etmek için YOLO11 gibi önceden eğitilmiş modelleri de kullanabilirsin. Büyük veri setleri üzerinde eğitilmiş ve çeşitli bilgisayarlı görü görevleri için tasarlanmış YOLO11, ihtiyaçlarını karşılamak üzere kendi özel veri setin üzerinde ince ayardan geçirilebilir. Modeli verilerine uyarlayarak, overfitting'den kaçınabilir ve güçlü performansı koruyabilirsin.
Link to this sectionBilgisayarlı görü veri setleri için gelecek#
YZ topluluğu geleneksel olarak daha fazla katmana sahip daha derin modeller oluşturarak performansı artırmaya odaklanmıştır. Ancak YZ gelişmeye devam ettikçe odak noktası, modelleri optimize etmekten veri setlerinin kalitesini artırmaya kayıyor. Sıklıkla “YZ’nin babası” olarak anılan Andrew Ng, “YZ dünyasının bu on yılda geçirmesi gereken en önemli değişimin veri merkezli YZ odaklı bir dönüşüm olacağına” inanıyor.
Bu yaklaşım, etiket doğruluğunu iyileştirerek, gürültülü örnekleri kaldırarak ve çeşitliliği sağlayarak veri setlerini iyileştirmeye odaklanır. Bilgisayarlı görü için bu ilkeler, önyargı ve düşük kaliteli veri gibi sorunları ele almak ve modellerin gerçek dünya senaryolarında güvenilir bir şekilde performans göstermesini sağlamak adına kritiktir.
Geleceğe baktığımızda, bilgisayarlı görüdeki ilerleme, devasa miktarda veri toplamak yerine daha küçük, yüksek kaliteli veri setleri oluşturmaya dayanacak. Andrew Ng'ye göre, “Veriyi iyileştirmek, tek seferlik bir ön işleme adımı değildir; makine öğrenimi modeli geliştirme sürecinin yinelenen bir parçasıdır.” Veri merkezli ilkelere odaklanarak, bilgisayarlı görü çeşitli endüstrilerde daha erişilebilir, verimli ve etkili olmaya devam edecektir.
Link to this sectionÖne çıkanlar#
Veri, bir görü modelinin yaşam döngüsü boyunca kritik bir rol oynar. Veri toplamadan ön işlemeye, eğitime, doğrulamaya ve teste kadar verinin kalitesi, modelin performansını ve güvenilirliğini doğrudan etkiler. Yüksek kaliteli veriye ve doğru etiketlemeye öncelik vererek, güvenilir ve hassas sonuçlar sunan sağlam bilgisayarlı görü modelleri inşa edebiliriz.
Veri odaklı bir geleceğe doğru ilerlerken, önyargı ve gizlilik düzenlemeleriyle ilgili riskleri azaltmak için etik hususları ele almak şarttır. Sonuçta, verilerin bütünlüğünü ve adilliğini sağlamak, bilgisayarlı görü teknolojilerinin tüm potansiyelini açığa çıkarmanın anahtarıdır.
YZ hakkında daha fazla bilgi edinmek için topluluğumuza katıl ve GitHub depomuza göz at. Tarım ve üretim gibi sektörlerdeki daha fazla YZ uygulamasını keşfetmek için çözüm sayfalarımızı incele.






