Görüntü tanıma teknolojisinin görsel verileri tanımak için yapay zeka ve derin öğrenmeyi nasıl kullandığını öğrenin. Gerçek dünya uygulamalarını keşfedin ve en son teknolojiye sahip sonuçlar için Ultralytics kullanın.
Görüntü tanıma, daha geniş bir alan olan bilgisayar görme (CV) içinde, yazılım sistemlerinin dijital görüntülerdeki nesneleri, kişileri, yerleri ve metinleri tanımlamasını sağlayan temel bir teknolojidir. Bir görüntü veya video karesinin piksel içeriğini analiz ederek, bu teknoloji insan gözü ve beyninin görsel algılama yeteneklerini taklit etmeye çalışır. Yapay zeka (AI) ile desteklenen görüntü tanıma, yapılandırılmamış görsel verileri yapılandırılmış, eyleme geçirilebilir bilgilere dönüştürerek, sağlık hizmetlerinden otonom ulaşıma kadar çeşitli sektörlerde otomasyonun temelini oluşturur.
Modern görüntü tanıma sistemleri, geleneksel, kural tabanlı programlamanın ötesine geçerek büyük ölçüde derin öğrenme (DL) algoritmalarına dayanmaktadır. Bu görevler için en yaygın olarak kullanılan mimari, Convolutional Neural Network (CNN) (Konvolüsyonel Sinir Ağı)dır. CNN, görüntüleri genellikle Kırmızı, Yeşil ve Mavi (RGB) renk kanallarını temsil eden bir değerler tablosu olarak işler ve bunları çok sayıda matematiksel işlem katmanından geçirir.
Bu süreçte ağ, özellik çıkarma işlemi gerçekleştirir. İlk katmanlar kenarlar veya köşeler gibi detect geometrik desenleri detect , daha derin katmanlar bu desenleri bir araya getirerek gözler, tekerlekler veya yapraklar gibi karmaşık yapıları tanır. Yüksek doğruluk elde etmek için bu modellerin büyük miktarda etiketli eğitim verisine ihtiyacı vardır. ImageNet gibi büyük ölçekli kamuya açık veri kümeleri ImageNetgibi büyük ölçekli kamu veri kümeleri, modellerin belirli bir görsel düzenlemenin "kedi", "bisiklet" veya "dur işareti" gibi bir kavrama karşılık gelme olasılığını öğrenmesine yardımcı olur.
"Görüntü tanıma" terimi genellikle genel bir ifade olarak kullanılır, ancak diğer belirli bilgisayar görme görevlerinden farklıdır. Bu nüansları anlamak, bir proje için doğru modeli seçmek açısından çok önemlidir:
Görüntü tanıma teknolojisinin kullanımı, görsel verilerin üretildiği hemen hemen her sektörü kapsamaktadır.
Geliştiriciler ve araştırmacılar için, görüntü tanıma uygulamasını hayata geçirmek,
son teknoloji modeller sayesinde YOLO26,
sınıflandırma, algılama ve segmentasyonu yerel olarak destekler. Aşağıdaki örnek,
(özellikle nesne algılama) gerçekleştirmeyi gösterir. ultralytics Python paketi.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Kendi veri kümelerini açıklamak ve bulutta özel modeller eğitmek isteyen ekipler için Ultralytics , veri toplama aşamasından dağıtım aşamasına kadar görüntü tanıma projesinin tüm yaşam döngüsünü yönetmek için kolaylaştırılmış bir ortam sunar.
Bilgisayar gücü arttıkça, görüntü tanıma, sistemlerin kareler arasındaki zamansal bağlamı analiz ettiği video anlamaya doğru evriliyor. Ayrıca, üretken yapay zekanın entegrasyonu, sistemlerin yalnızca görüntüleri tanımakla kalmayıp, aynı zamanda bunların ayrıntılı metin açıklamalarını da oluşturmasına olanak tanıyarak, Doğal Dil İşleme (NLP) ve görme arasındaki boşluğu dolduruyor.