Image Recognition

Görüntü tanımanın görsel verileri tanımlamak için yapay zeka ve derin öğrenmeyi nasıl kullandığını öğren. Gerçek dünya uygulamalarını keşfet ve en gelişmiş sonuçlar için Ultralytics YOLO26'yı dağıt.

Görüntü tanıma, yazılım sistemlerinin dijital görüntülerdeki nesneleri, insanları, yerleri ve metinleri tanımlamasını sağlayan, bilgisayarlı görü (CV) alanındaki temel bir teknolojidir. Bir görüntünün veya video karesinin piksel içeriğini analiz eden bu teknoloji, insan gözünün ve beyninin görsel algılama yeteneklerini taklit etmeye çalışır. Yapay zeka (AI) tarafından desteklenen görüntü tanıma, yapılandırılmamış görsel verileri yapılandırılmış, eyleme dönüştürülebilir bilgilere dönüştürür ve sağlık hizmetlerinden otonom taşımacılığa kadar pek çok sektörde otomasyonun temelini oluşturur.

Link to this sectionTemel Mekanizmalar ve Teknolojiler#

Modern görüntü tanıma sistemleri, geleneksel kural tabanlı programlamanın ötesine geçerek büyük ölçüde derin öğrenme (DL) algoritmalarına dayanmaktadır. Bu görevler için kullanılan en yaygın mimari Evrişimli Sinir Ağı'dır (CNN). Bir CNN, görüntüleri genellikle Kırmızı, Yeşil ve Mavi (RGB) renk kanallarını temsil eden bir değerler ızgarası olarak işler ve bunları çok sayıda matematiksel işlem katmanından geçirir.

Bu süreçte ağ, özellik çıkarımı gerçekleştirir. İlk katmanlar kenarlar veya köşeler gibi basit geometrik desenleri tespit edebilirken, daha derin katmanlar gözler, tekerlekler veya yapraklar gibi karmaşık yapıları tanımak için bu desenleri birleştirir. Yüksek doğruluk elde etmek için bu modeller çok miktarda etiketli eğitim verisine ihtiyaç duyar. ImageNet gibi büyük ölçekli herkese açık veri kümeleri, modellerin belirli bir görsel düzenlemenin "kedi", "bisiklet" veya "dur işareti" gibi bir kavramla eşleşme istatistiksel olasılığını öğrenmesine yardımcı olur.

Link to this sectionTanımayı İlgili Kavramlardan Ayırt Etmek#

"Görüntü tanıma" terimi genellikle kapsamlı bir ifade olarak kullanılsa da, diğer spesifik bilgisayarlı görü görevlerinden farklıdır. Bu nüansları anlamak, bir proje için doğru modeli seçmek adına kritiktir:

Tanıma vs. Görüntü Sınıflandırma: Sınıflandırma, tüm görüntüye tek bir etiket atama görevidir (örneğin, bir resmi "plaj" olarak etiketlemek). Tanıma, sistemin içeriği anlamasını sağlayan daha geniş bir yetenektir.
Tanıma vs. Nesne Tespiti: Tanıma bir görüntüde ne olduğunu belirlerken, tespit ise nerede olduğunu konumlandırır. Tespit algoritmaları, her bir nesne örneğinin etrafına bir sınırlayıcı kutu çizerek onu arka plandan ayırır.
Tanıma vs. Örnek Bölütleme: Bu, sadece bir kutu yerine nesnenin tam piksel konturlarını tanımlayarak tanımayı bir adım öteye taşır. Bu, biyomedikal görüntü analizi gibi hassas ölçümler gerektiren uygulamalar için çok önemlidir.

Link to this sectionGerçek Dünya Uygulamaları#

Görüntü tanımanın faydası, görsel verilerin üretildiği neredeyse tüm sektörleri kapsamaktadır.

Tıbbi Tanılama: Sağlık sektöründe tanıma algoritmaları, X-ışınları ve MR'lar gibi tıbbi görüntüleri analiz ederek radyologlara yardımcı olur. Radyolojide AI gibi araçlar, tümör veya kırık gibi anomalileri insan gözleminden daha hızlı ve bazen daha doğru bir şekilde tespit edebilir.
Perakende ve Stok Yönetimi: Akıllı süpermarketler, ürünler raflardan alındığında bunları takip etmek için tanıma teknolojisini kullanır ve otomatik ödeme sistemlerine olanak tanır. Benzer şekilde, depo robotları da paketleri tanımlamak ve ayırmak için bu teknolojiyi kullanır.
Güvenlik ve Erişim Kontrolü: Yüz tanıma sistemleri, kimliği depolanmış yüz gömüleri veritabanıyla doğrulayarak akıllı telefonlara ve binalara güvenli erişim sağlar.

Link to this sectionYOLO26 ile Görüntü Tanıma Uygulaması#

Geliştiriciler ve araştırmacılar için görüntü tanıma uygulaması, sınıflandırma, tespit ve bölütlemeyi yerel olarak destekleyen YOLO26 gibi en son teknoloji modellerle çok daha erişilebilir hale geldi. Aşağıdaki örnek, ultralytics Python paketi kullanılarak bir görüntü üzerinde nasıl tanıma (spesifik olarak nesne tespiti) gerçekleştirileceğini göstermektedir.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")

# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Kendi veri kümelerini etiketlemek ve bulutta özel modeller eğitmek isteyen ekipler için Ultralytics Platform, veri toplamadan dağıtıma kadar bir görüntü tanıma projesinin tüm yaşam döngüsünü yönetmek için akıcı bir ortam sunar.

Link to this sectionGelecek Trendleri#

Bilgi işlem gücü arttıkça görüntü tanıma, sistemlerin kareler arasındaki zamansal bağlamı analiz ettiği video anlama alanına evriliyor. Ayrıca, üretken yapay zekanın entegrasyonu, sistemlerin görüntüleri yalnızca tanımasına değil, aynı zamanda bunların ayrıntılı metinsel açıklamalarını oluşturmasına da olanak tanıyarak Doğal Dil İşleme (NLP) ile görü arasındaki boşluğu kapatıyor.