Piksel düzeyinde görüntü anlaması için semantik segmentasyonu keşfedin. Ultralytics kullanarak hassas segmentasyon modellerini nasıl eğiteceğinizi ve uygulayacağınızı bugün öğrenin.
Anlamsal segmentasyon, bir görüntüyü her bir piksele belirli bir sınıf etiketi atayarak farklı bölgelere ayırmayı içeren bir bilgisayar görme görevidir. Görüntünün tamamına tek bir etiket atayan görüntü sınıflandırma veya nesnelerin etrafına sınırlayıcı kutular çizen nesne algılama gibi daha basit görevlerin aksine, anlamsal segmentasyon sahnenin piksel düzeyinde anlaşılmasını sağlar. Bu ayrıntılı analiz, bir nesnenin kesin şekli ve sınırının, kimliği kadar önemli olduğu uygulamalar için çok önemlidir. Makinelerin dünyayı daha çok insanlar gibi "görmesini" sağlar ve bir yolu, bir yayayı veya tıbbi taramada bir tümörü oluşturan kesin pikselleri ayırt eder.
Temelde, semantik segmentasyon bir görüntüyü sınıflandırılması gereken bir piksel ızgarası olarak ele alır. Derin öğrenme modeller, özellikle Convolutional Neural Networks (CNNs), bu görev için standart mimaridir. Yaygın olarak kullanılan U-Net gibi tipik bir mimari, kodlayıcı-kod çözücü yapısını kullanır. Kodlayıcı giriş görüntüsünü sıkıştırarak yüksek düzey özellikleri (dokular ve şekiller gibi) çıkarırken, kod çözücü bu özellikleri orijinal görüntü çözünürlüğüne geri yükseltir ve hassas bir segmentasyon maskesi oluşturur.
Bunu başarmak için modeller, insan anotatörlerin her pikseli sınıfına göre dikkatlice renklendirdiği büyük anotasyonlu veri kümeleri üzerinde eğitilir. Ultralytics gibi araçlar, yüksek kaliteli temel gerçek verilerin oluşturulmasını hızlandıran otomatik anotasyon özellikleri sunarak bu süreci kolaylaştırır. Eğitim tamamlandıktan sonra model, her piksel değerinin bir sınıf kimliğine karşılık geldiği bir maske üretir ve böylece görüntüyü anlamla "boyar". Bu maske, modelin sınıflandırma yaparken kullanacağı temel referans noktasıdır.
Anlamsal segmentasyonu diğer piksel düzeyindeki görevlerle karıştırmak yaygın bir durumdur. Farklılıkları anlamak, bir proje için doğru yaklaşımı seçmenin anahtarıdır: :
Piksel hassasiyetinde görsel verileri ayrıştırma yeteneği, birçok yüksek riskli sektörde yenilikçiliği teşvik etmektedir:
Modern segmentasyon modelleri, özellikle
gerçek zamanlı çıkarım uç cihazlarda.
Ultralytics YOLO26 model ailesi, özel
segmentasyon modellerini içerir ( -seg son eki) ile doğal olarak uçtan uca olan ve
eski mimarilere göre üstün performans sunan YOLO11.
Aşağıdaki örnek, ultralytics Python
paketi. Bu, nesne sınırlarını belirleyen ikili maskeler üretir.
from ultralytics import YOLO
# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()
Önemli ilerlemelere rağmen, semantik segmentasyon hesaplama açısından yoğun olmaya devam etmektedir. Her bir piksel için bir sınıflandırma oluşturmak önemli miktarda GPU ve bellek gerektirir. Araştırmacılar bu modellerin verimliliğini optimize etmek için aktif olarak çalışmakta ve ağır ağları cep telefonlarında ve gömülü cihazlarda çalıştırmak için model niceleme gibi teknikleri araştırmaktadır.
Ayrıca, büyük ölçekli etiketli veri setlerine olan ihtiyaç da bir darboğaz oluşturmaktadır. Bu sorunu çözmek için sektör, sentetik veri üretimi ve kendi kendine denetimli öğrenme yönünde ilerlemektedir. Bu sayede modeller, milyonlarca manuel piksel etiketi gerektirmeden ham görüntülerden öğrenebilir. Bu teknolojiler olgunlaştıkça, akıllı kameralar, robotik ve artırılmış gerçeklik uygulamalarında segmentasyonun daha da yaygınlaşmasını bekleyebiliriz.