Görüntü veri artırmanın, Vision AI modellerinin daha iyi öğrenmesine, doğruluğu artırmasına ve gerçek dünya durumlarında daha etkili performans göstermesine nasıl yardımcı olduğunu öğrenin.

Görüntü veri artırmanın, Vision AI modellerinin daha iyi öğrenmesine, doğruluğu artırmasına ve gerçek dünya durumlarında daha etkili performans göstermesine nasıl yardımcı olduğunu öğrenin.
Yapay zeka patlaması nedeniyle, fabrikalarda çalışan robotlar ve sokaklarda gezinen sürücüsüz arabalar gibi olaylar daha sık manşetlere çıkıyor. Yapay zeka, tıbbi görüntülemeyi iyileştirmekten üretim hatlarında kalite kontrolüne yardımcı olmaya kadar makinelerin dünyayla etkileşim biçimini değiştiriyor.
Bu ilerlemenin büyük bir kısmı, makinelerin görüntüleri anlamasını ve yorumlamasını mümkün kılan bir yapay zeka dalı olan bilgisayarlı görü'den geliyor. Tıpkı insanların zamanla nesneleri ve desenleri tanımayı öğrenmesi gibi, Ultralytics YOLO11 gibi Vision AI modellerinin de görsel anlayışlarını geliştirmek için büyük miktarda görüntü verisi üzerinde eğitilmesi gerekiyor.
Ancak, bu kadar büyük miktarda görsel veri toplamak her zaman kolay değildir. Bilgisayarlı görü topluluğu birçok büyük veri kümesi oluşturmuş olsa da, yine de düşük ışıkta nesnelerin bulunduğu, kısmen gizlenmiş öğelerin veya farklı açılardan görüntülenen şeylerin bulunduğu görüntüler gibi belirli varyasyonları kaçırabilirler. Bu farklılıklar, yalnızca belirli koşullarda eğitilmiş bilgisayarlı görü modelleri için kafa karıştırıcı olabilir.
Görüntü veri artırma, mevcut verilere yeni varyasyonlar ekleyerek bu sorunu çözen bir tekniktir. Renkleri ayarlamak, döndürmek veya perspektifi değiştirmek gibi görüntülerde değişiklikler yaparak, veri kümesi daha çeşitli hale gelir ve Vision AI modellerinin gerçek dünya durumlarında nesneleri daha iyi tanımasına yardımcı olur.
Bu makalede, görüntü veri artırmanın nasıl çalıştığını ve bilgisayarlı görü uygulamaları üzerindeki etkisini inceleyeceğiz.
Diyelim ki kalabalıkta bir arkadaşınızı tanımaya çalışıyorsunuz, ancak güneş gözlüğü takıyor veya gölgeli bir yerde duruyor. Görünüşündeki bu küçük değişikliklere rağmen, hala kim olduğunu biliyorsunuz. Öte yandan, bir Yapay Görme modeli, farklı ortamlarda nesneleri tanımak üzere eğitilmediği sürece bu tür değişikliklerle başa çıkmakta zorlanabilir.
Görüntü veri artırma, binlerce yeni görüntü toplamak yerine, mevcut görüntülerin değiştirilmiş versiyonlarını eğitim verilerine ekleyerek bilgisayar görüşü modeli performansını artırır.
Görüntüleri çevirme, döndürme, parlaklığı ayarlama veya küçük bozulmalar ekleme gibi değişiklikler, Yapay Görme modellerini daha geniş bir koşul yelpazesine maruz bırakır. Modeller, büyük veri kümelerine güvenmek yerine, artırılmış görüntülerle daha küçük eğitim veri kümelerinden verimli bir şekilde öğrenebilir.
İşte artırmanın bilgisayar görüşü için neden bu kadar önemli olduğuna dair bazı temel nedenler:
Görüntü veri artırma, özellikle bir bilgisayar görüşü modelinin farklı durumlarda nesneleri tanıması gerektiğinde, ancak yeterince çeşitli görüntüye sahip olmadığında faydalıdır.
Örneğin, araştırmacılar nadiren fotoğraflanan nadir su altı türlerini tanımlamak için bir Görüntüleme Yapay Zeka modeli eğitiyorlarsa, veri seti küçük olabilir veya çeşitlilikten yoksun olabilir. Görüntüleri artırarak (farklı su derinliklerini simüle etmek için renkleri ayarlamak, bulanık koşulları taklit etmek için gürültü eklemek veya doğal hareketi hesaba katmak için şekilleri hafifçe değiştirmek) model, su altı nesnelerini daha doğru bir şekilde algılamayı öğrenebilir.
İşte artırmanın büyük bir fark yarattığı diğer bazı durumlar:
Bilgisayarlı görünün ilk günlerinde, görüntü veri artırma öncelikle veri seti çeşitliliğini artırmak için çevirme, döndürme ve kırpma gibi temel görüntü işleme tekniklerini içeriyordu. Yapay zeka geliştikçe, öğrenmeyi geliştirmek için renkleri ayarlama (renk uzayı dönüşümleri), görüntüleri keskinleştirme veya bulanıklaştırma (çekirdek filtreleri) ve birden çok görüntüyü bir araya getirme (görüntü karıştırma) gibi daha gelişmiş yöntemler tanıtıldı.
Artırma, model eğitimi öncesinde ve sırasında gerçekleşebilir. Eğitimden önce, daha fazla çeşitlilik sağlamak için değiştirilmiş görüntüler veri setine eklenebilir. Eğitim sırasında, görüntüler gerçek zamanlı olarak rastgele değiştirilebilir ve bu da Görüntüleme Yapay Zeka modellerinin farklı koşullara uyum sağlamasına yardımcı olur.
Bu değişiklikler matematiksel dönüşümler kullanılarak yapılır. Örneğin, döndürme bir görüntüyü eğir, kırpma farklı görünümleri taklit etmek için parçaları kaldırır ve parlaklık değişiklikleri aydınlatma farklılıklarını simüle eder. Bulanıklaştırma görüntüleri yumuşatır, keskinleştirme ayrıntıları daha net hale getirir ve görüntü karıştırma farklı görüntülerin parçalarını birleştirir. OpenCV, TensorFlow ve PyTorch gibi Görüntüleme Yapay Zeka çerçeveleri ve araçları bu süreçleri otomatikleştirerek artırmayı hızlı ve etkili hale getirebilir.
Görüntü veri artırmanın ne olduğunu tartıştığımıza göre, eğitim verilerini geliştirmek için kullanılan bazı temel görüntü veri artırma tekniklerine daha yakından bakalım.
YOLO11 gibi bilgisayarla görü modelleri, nesneleri farklı açılardan ve bakış açılarından tanımalıdır. Bunu kolaylaştırmak için, yapay zeka modelinin nesneleri farklı bakış açılarından tanımasını öğrenmesi için görüntüler yatay veya dikey olarak çevrilebilir.
Benzer şekilde, görüntüleri hafifçe döndürmek, açısını değiştirerek modelin nesneleri birden çok perspektiften tanımlamasını sağlar. Ayrıca, görüntüleri farklı yönlerde kaydırmak (öteleme), modellerin küçük konumsal değişikliklere uyum sağlamasına yardımcı olur. Bu dönüşümler, modellerin bir görüntüdeki nesne yerleşiminin tahmin edilemez olduğu gerçek dünya koşullarına daha iyi genellemesini sağlar.
Gerçek dünya bilgisayarla görü çözümleri açısından, görüntülerdeki nesneler farklı mesafelerde ve boyutlarda görünebilir. Görü yapay zeka modelleri, bu farklılıklara bakılmaksızın onları tespit edecek kadar sağlam olmalıdır.
Uyarlanabilirliği artırmak için aşağıdaki artırma yöntemleri kullanılabilir:
Bu ayarlamalar, bilgisayarla görü modellerinin nesneleri boyutları veya şekilleri hafifçe değişse bile tanımasına yardımcı olur.
Görüntülerdeki nesneler, kamera açısına bağlı olarak farklı görünebilir ve bu da bilgisayarla görü modelleri için tanımayı zorlaştırır. Modellerin bu varyasyonları işlemesine yardımcı olmak için, artırma teknikleri nesnelerin görüntülerde nasıl sunulduğunu ayarlayabilir.
Örneğin, perspektif dönüşümleri görüş açısını değiştirebilir ve bir nesnenin farklı bir konumdan görülüyormuş gibi görünmesini sağlayabilir. Bu, Görü Yapay Zeka modellerinin nesneleri eğimli olduklarında veya alışılmadık bir bakış açısından yakalandıklarında bile tanımasına olanak tanır.
Başka bir örnek, nesnelerin yansımalarda veya basınç altında görüneceği şekilde doğal bozulmaları simüle etmek için görüntüleri geren, büken veya çarpıtan elastik bir dönüşümdür.
Aydınlatma koşulları ve renk farklılıkları, Görü Yapay Zeka modellerinin görüntüleri nasıl yorumladığını önemli ölçüde etkileyebilir. Nesneler çeşitli aydınlatma ayarlarında farklı görünebileceğinden, aşağıdaki artırma teknikleri bu durumların ele alınmasına yardımcı olabilir:
Şimdiye kadar, yalnızca tek bir görüntüyü değiştiren artırma tekniklerini inceledik. Ancak, bazı gelişmiş yöntemler yapay zeka öğrenimini geliştirmek için birden çok görüntüyü birleştirmeyi içerir.
Örneğin, MixUp iki görüntüyü bir araya getirerek bilgisayarla görü modellerinin nesne ilişkilerini anlamasına yardımcı olur ve farklı senaryolarda genelleme yeteneklerini geliştirir. CutMix, bir görüntünün bir bölümünü başka bir görüntünün bir parçasıyla değiştirerek bunu bir adım öteye taşır ve modellerin aynı görüntüdeki birden çok bağlamdan öğrenmesini sağlar. Bu arada, CutOut, bir görüntünün rastgele bölümlerini kaldırarak farklı şekilde çalışır ve Görü Yapay Zeka modellerini kısmen gizlenmiş veya engellenmiş olsalar bile nesneleri tanımak için eğitir.
Üretken yapay zeka birçok sektörde ve günlük uygulamalarda giderek daha fazla ilgi görmektedir. Muhtemelen yapay zeka tarafından oluşturulan görüntüler, deepfake videolar veya gerçekçi avatarlar oluşturan uygulamalarla karşılaşmışsınızdır. Ancak yaratıcılık ve eğlencenin ötesinde, Üretken Yapay Zeka, mevcut görüntülerden yenilerini oluşturarak Vision AI modellerini eğitmede çok önemli bir rol oynar.
Sadece resimleri çevirmek veya döndürmek yerine, gerçekçi varyasyonlar oluşturabilir; yüz ifadelerini, giyim tarzlarını değiştirebilir, hatta farklı hava koşullarını simüle edebilir. Bu varyasyonlar, bilgisayarlı görü modellerinin çeşitli gerçek dünya senaryolarında daha uyarlanabilir ve doğru olmasına yardımcı olur. GAN'lar (Generative Adversarial Networks - Üretken Çekişmeli Ağlar) ve difüzyon modelleri gibi gelişmiş üretken yapay zeka modelleri de eksik ayrıntıları doldurabilir veya yüksek kaliteli sentetik görüntüler oluşturabilir.
Veri artırma, eğitim veri kümelerini iyileştirse de, dikkate alınması gereken bazı sınırlamalar da vardır. Görüntü veri artırmayla ilgili bazı temel zorluklar şunlardır:
Görüntü veri artırmanın ilginç bir uygulaması, YOLO11 gibi bilgisayarlı görü modelleri tarafından verilen anlık kararların çok önemli olduğu otonom sürüşlü arabalardır. Modelin yolları, insanları ve diğer nesneleri doğru bir şekilde tespit edebilmesi gerekir.
Ancak, otonom sürüşlü bir aracın karşılaştığı gerçek dünya koşulları tahmin edilemez olabilir. Kötü hava koşulları, hareket bulanıklığı ve gizli işaretler, bu sektördeki Vision AI çözümlerini karmaşık hale getirebilir. Bilgisayarlı görü modellerini yalnızca gerçek dünya görüntüleriyle eğitmek genellikle yeterli değildir. Otonom sürüşlü arabalardaki modeller için görüntü veri kümelerinin çeşitli olması gerekir, böylece model beklenmedik durumlarla başa çıkmayı öğrenebilir.
Görüntü veri artırma, sisi simüle ederek, parlaklığı ayarlayarak ve şekilleri bozarak bu sorunu çözer. Bu değişiklikler, modellerin nesneleri farklı koşullarda tanımasına yardımcı olur. Sonuç olarak, modeller daha akıllı ve daha güvenilir hale gelir.
Artırılmış eğitimle, otonom sürüşlü arabalardaki Vision AI çözümleri daha iyi uyum sağlar ve daha güvenli kararlar verir. Daha doğru sonuçlar, daha az kaza ve gelişmiş navigasyon anlamına gelir.
Otonom sürüşlü arabalar sadece bir örnek. Aslında, görüntü veri artırma, tıbbi görüntülemeden perakende analizine kadar çok çeşitli sektörlerde çok önemlidir. Bilgisayarlı görmeye dayanan herhangi bir uygulama, görüntü veri artırmadan potansiyel olarak faydalanabilir.
Vision AI sistemlerinin nesneleri farklı koşullarda tanıyabilmesi gerekir, ancak eğitim için sonsuz sayıda gerçek dünya görüntüsü toplamak zor olabilir. Görüntü veri artırma, mevcut görüntülerin varyasyonlarını oluşturarak bu sorunu çözer ve modellerin daha hızlı öğrenmesine ve gerçek dünya durumlarında daha iyi performans göstermesine yardımcı olur. Doğruluğu artırır ve YOLO11 gibi Vision AI modellerinin farklı aydınlatma, açılar ve ortamlarla başa çıkabilmesini sağlar.
İşletmeler ve geliştiriciler için görüntü veri artırma, zamandan ve emekten tasarruf sağlarken bilgisayarlı görü modellerini daha güvenilir hale getirir. Sağlıktan otonom sürüşlü arabalara kadar birçok sektör buna bağlıdır. Vision AI gelişmeye devam ettikçe, artırma gelecekte daha akıllı ve daha uyarlanabilir modeller oluşturmanın önemli bir parçası olmaya devam edecektir.
Yapay zekayı iş başında görmek için topluluğumuza katılın ve GitHub depomuzu ziyaret edin. Lisanslama seçeneklerimizi keşfedin ve çözümler sayfalarımızda tarımda yapay zeka ve üretimde bilgisayarlı görme hakkında daha fazla bilgi edinin.