GPT (Generative Pre-trained Transformer) temel özelliklerini keşfedin. Bu modellerin nasıl çalıştığını ve Ultralytics ile görme için nasıl entegre edileceğini öğrenin.
GPT (Generative Pre-trained Transformer), insan benzeri metinler üretmek ve bir dizideki bir sonraki öğeyi tahmin ederek karmaşık görevleri çözmek için tasarlanmış bir sinir ağı modeli ailesini ifade eder. Bu modeller, Transformer mimarisi üzerine inşa edilmiştir ve özellikle verileri sıralı olarak değil paralel olarak işlemelerine olanak tanıyan kod çözücü blokları kullanır. "Önceden eğitilmiş" ifadesi, modelin dilin istatistiksel yapısını öğrenmek için kitaplar, makaleler ve web sitelerini kapsayan büyük veri kümeleri üzerinde denetimsiz öğrenmenin ilk aşamasından geçtiğini belirtir. "Üretken" ifadesi, modelin temel yeteneğini ifade eder: mevcut girdileri basitçe sınıflandırmak yerine yeni içerik oluşturmak .
GPT modelinin merkezinde, ağın bir cümledeki farklı kelimelerin birbirlerine göre önemini tartmasını sağlayan matematiksel bir teknik olan dikkat mekanizması yer alır. Bu mekanizma, modelin bağlamı, nüansları ve uzun vadeli bağımlılıkları anlamasını sağlar; örneğin, bir paragrafın sonundaki zamirin paragrafın başında bahsedilen bir isme atıfta bulunduğunu bilmek gibi.
İlk ön eğitimden sonra, bu modeller genellikle belirli görevler için uzmanlaşmak veya insan değerleriyle uyumlu hale getirmek için ince ayar işleminden geçer. İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) gibi teknikler, modelin güvenli, yararlı ve doğru yanıtlar üretmesini sağlamak için sıklıkla kullanılır. Bu iki aşamalı süreç — genel ön eğitim ve ardından belirli ince ayar — GPT modellerini çok yönlü temel modeller haline getirir.
GPT modelleri, teorik araştırmanın ötesine geçerek çeşitli endüstrilerde pratik, günlük araçlar haline gelmiştir.
GPT, Doğal Dil İşleme (NLP) konusunda üstünlük sağlarken, çok modlu sistemler oluşturmak için sıklıkla Bilgisayar Görme (CV) ile birleştirilir. Yaygın bir iş akışı, Ultralytics gibi yüksek hızlı bir dedektör kullanarak görüntüdeki nesneleri tanımlamak ve ardından bu yapılandırılmış çıktıyı bir GPT modeline besleyerek açıklayıcı bir anlatı oluşturmaktır.
Aşağıdaki örnek, YOLO26 kullanarak nesne adlarını nasıl çıkaracağınızı ve GPT komut istemine yönelik bir bağlam dizesi nasıl oluşturacağınızı göstermektedir:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]
# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")
GPT'nin özel rolünü anlamak için onu diğer popüler mimarilerden ayırmak faydalıdır.
Etkileyici yeteneklerine rağmen, GPT modelleri, halüsinasyon gibi, kendinden emin bir şekilde yanlış bilgiler üreten zorluklarla karşı karşıyadır. Araştırmacılar, AI etiği ve güvenlik protokollerini iyileştirmek için aktif olarak çalışmaktadır. Ayrıca, GPT'nin Ultralytics gibi araçlarla entegrasyonu, görme ve dil modellerinin karmaşık gerçek dünya problemlerini çözmek için birlikte çalıştığı daha sağlam boru hatları sağlar.