Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Temsil Mühendisliği (RepE)

AI davranışını izlemek ve kontrol etmek için Temsil Mühendisliği’ni (RepE) keşfedin. Daha güvenli ve yönlendirilebilir modeller elde etmek için Ultralytics nın iç durumlarını nasıl yönlendirebileceğinizi öğrenin.

Temsil Mühendisliği (RepE), sinir ağlarının davranışlarını izlemek ve kontrol etmek amacıyla içsel bilişsel durumlarını —ya da temsillerini— analiz etmeyi ve doğrudan değiştirmeyi içeren, makine öğreniminde gelişmiş bir metodolojidir. AI güvenliği ve uyumuna yönelik yukarıdan aşağıya bir yaklaşım olarak ortaya çıkan RepE, odak noktasını sadece bir modelin girdi veya çıktılarını değiştirmekten uzaklaştırır. Bunun yerine, gerçek zamanlı çıkarım sırasında büyük dil modellerinin ve görme sistemlerinin içsel gizli durumlarını okur ve değiştirir; böylece geliştiricilerin ağı yeniden eğitmeden modeli dürüstlük, zararsızlık veya belirli görsel özellikler gibi istenen kavramlara yönlendirmelerini sağlar.

Temsil Mühendisliği Nasıl Çalışır?

AI Safety Merkezi tarafından yayınlanan ve temel niteliğindeki "Temsil Mühendisliği" makalesinde ayrıntılı olarak ele alınan RepE'nin temel kavramı, iki ana aşamaya ayrılır: okuma ve kontrol.

"Okuma" aşamasında araştırmacılar, bir modelin gizli katmanlarının belirli kavramları nasıl kodladığını analiz eder. Mühendisler, farklı komutlara veya görüntülere ait aktivasyon fonksiyonu çıktılarını inceleyerek, gizli uzayda doğruluk ya da belirli bir nesne sınıfı gibi bir kavrama karşılık gelen spesifik "yönü" belirleyebilir. Bu, büyük ölçüde Anthropic, sinir ağlarını tersine mühendislik yoluyla incelemeyi amaçlayan mekanik yorumlanabilirlik araştırmasına dayanmaktadır.

"Kontrol" aşamasında, bu izole edilmiş temsiller, ileriye doğru geçiş sırasında yapay olarak güçlendirilir veya bastırılır. Bu müdahale, modelin davranışını anında etkili bir şekilde değiştirir; bu teknik, yönlendirilebilir ve öngörülebilir yapay zeka sistemleri oluşturmaya yönelik OpenAI'nin uyum ve güvenlik kılavuzlarıyla büyük ölçüde örtüşmektedir.

RepE'yi İlgili Kavramlardan Ayırt Etmek

RepE'yi tam olarak anlayabilmek için, onu bilgisayar görme ve doğal dil işleme alanlarında kullanılan diğer yaygın tekniklerden ayırt etmek önemlidir:

  • Komut Metni Mühendisliği: Bu, modelin çıktısını yönlendirmek için belirli metin veya görsel girdiler oluşturmayı içerir. RepE, girdiyi değiştirmez; modelin girdiyi dahili olarak işleme şeklini değiştirir.
  • İnce Ayar: İnce ayar, genellikle Ultralytics gibi araçlar aracılığıyla yönetilen özel bir veri kümesi kullanılarak model ağırlıklarını kalıcı olarak günceller. RepE ise orijinal ağırlıkları değiştirmez; bunun yerine çalışma zamanında aktivasyonlara dinamik dönüşümler uygular.
  • Özellik Mühendisliği: İnsan uzmanların veri girdilerini manuel olarak seçtiği geleneksel bir veri hazırlama adımıdır. Wikipedia’nın özellik öğrenimi maddesinde de belirtildiği gibi, RepE, modelin halihazırda kendi kendine öğrendiği özellikler üzerinde çalışır.

Gerçek Dünya Uygulamaları

RepE, aşağıdakiler gibi kurumların araştırmalarıyla desteklenerek, çeşitli alanlarda sağlam ve kontrol edilebilir yapay zeka geliştirilmesinde önemli ilerlemeler sağlıyor: örneğin, MIT CSAIL’in sinir ağlarının yorumlanabilirliği üzerine yaptığı araştırma:

  • AI Halüsinasyonlarını Azaltma: Mühendisler, "doğruluk" kavramının içsel temsilini belirleyerek, çıkarım sürecinde bu sinyali yapay olarak güçlendirebilirler. Bu yöntem, büyük dil modellerindeki (LLM) halüsinasyonları azaltmak için aktif olarak kullanılır ve sohbet robotlarının uydurma cevaplar vermek yerine gerçeklere dayalı bilgiler sunmasını sağlar.
  • Çok Modlu Görsel Sistemlerin Yönlendirilmesi: Çok modlu modellerde RepE, bir yapay zeka ajanın görsel odak noktasını kontrol etmek için kullanılabilir. Örneğin, otonom sürüşte, "yaya tehlikeleri"ne ilişkin iç temsili güçlendirmek, modeli karmaşık ortamlarda güvenlik açısından kritik algılamalara öncelik vermeye zorlayabilir; bu, IEEE'nin yapay zeka şeffaflığı konusundaki yayınlarında öne çıkarılan bir odak alanıdır.

Görsel Modellerde Kavram Çıkarımının Uygulanması

Aktivasyonları doğrudan düzenlemek ileri düzey matematiksel müdahaleler gerektirse de, RepE’nin ilk adımı olan temsillerin okunması, modern derin öğrenme çerçeveleri kullanılarak gerçekleştirilebilir. Geliştiriciler, PyTorch hooks belgelerinden yararlanarak, Ultralytics gibi modellerin iç durumlarını çıkarabilir ve görsel kavramların nasıl kodlandığını analiz edebilir.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

Modellerin giderek daha karmaşık hale gelmesiyle birlikte, TensorFlow temsil öğrenimi kılavuzunda ve Google güvenlik araştırmalarında anlatılan teknikler, bu iç durumları anlamanın ve tasarlamanın, yeni nesil güvenli ve güvenilir yapay zeka mimarisinde hayati öneme sahip olacağını vurguluyor.

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın