AI davranışını izlemek ve kontrol etmek için Temsil Mühendisliği’ni (RepE) keşfedin. Daha güvenli ve yönlendirilebilir modeller elde etmek için Ultralytics nın iç durumlarını nasıl yönlendirebileceğinizi öğrenin.
Temsil Mühendisliği (RepE), sinir ağlarının davranışlarını izlemek ve kontrol etmek amacıyla içsel bilişsel durumlarını —ya da temsillerini— analiz etmeyi ve doğrudan değiştirmeyi içeren, makine öğreniminde gelişmiş bir metodolojidir. AI güvenliği ve uyumuna yönelik yukarıdan aşağıya bir yaklaşım olarak ortaya çıkan RepE, odak noktasını sadece bir modelin girdi veya çıktılarını değiştirmekten uzaklaştırır. Bunun yerine, gerçek zamanlı çıkarım sırasında büyük dil modellerinin ve görme sistemlerinin içsel gizli durumlarını okur ve değiştirir; böylece geliştiricilerin ağı yeniden eğitmeden modeli dürüstlük, zararsızlık veya belirli görsel özellikler gibi istenen kavramlara yönlendirmelerini sağlar.
AI Safety Merkezi tarafından yayınlanan ve temel niteliğindeki "Temsil Mühendisliği" makalesinde ayrıntılı olarak ele alınan RepE'nin temel kavramı, iki ana aşamaya ayrılır: okuma ve kontrol.
"Okuma" aşamasında araştırmacılar, bir modelin gizli katmanlarının belirli kavramları nasıl kodladığını analiz eder. Mühendisler, farklı komutlara veya görüntülere ait aktivasyon fonksiyonu çıktılarını inceleyerek, gizli uzayda doğruluk ya da belirli bir nesne sınıfı gibi bir kavrama karşılık gelen spesifik "yönü" belirleyebilir. Bu, büyük ölçüde Anthropic, sinir ağlarını tersine mühendislik yoluyla incelemeyi amaçlayan mekanik yorumlanabilirlik araştırmasına dayanmaktadır.
"Kontrol" aşamasında, bu izole edilmiş temsiller, ileriye doğru geçiş sırasında yapay olarak güçlendirilir veya bastırılır. Bu müdahale, modelin davranışını anında etkili bir şekilde değiştirir; bu teknik, yönlendirilebilir ve öngörülebilir yapay zeka sistemleri oluşturmaya yönelik OpenAI'nin uyum ve güvenlik kılavuzlarıyla büyük ölçüde örtüşmektedir.
RepE'yi tam olarak anlayabilmek için, onu bilgisayar görme ve doğal dil işleme alanlarında kullanılan diğer yaygın tekniklerden ayırt etmek önemlidir:
RepE, aşağıdakiler gibi kurumların araştırmalarıyla desteklenerek, çeşitli alanlarda sağlam ve kontrol edilebilir yapay zeka geliştirilmesinde önemli ilerlemeler sağlıyor: örneğin, MIT CSAIL’in sinir ağlarının yorumlanabilirliği üzerine yaptığı araştırma:
Aktivasyonları doğrudan düzenlemek ileri düzey matematiksel müdahaleler gerektirse de, RepE’nin ilk adımı olan temsillerin okunması, modern derin öğrenme çerçeveleri kullanılarak gerçekleştirilebilir. Geliştiriciler, PyTorch hooks belgelerinden yararlanarak, Ultralytics gibi modellerin iç durumlarını çıkarabilir ve görsel kavramların nasıl kodlandığını analiz edebilir.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
Modellerin giderek daha karmaşık hale gelmesiyle birlikte, TensorFlow temsil öğrenimi kılavuzunda ve Google güvenlik araştırmalarında anlatılan teknikler, bu iç durumları anlamanın ve tasarlamanın, yeni nesil güvenli ve güvenilir yapay zeka mimarisinde hayati öneme sahip olacağını vurguluyor.
Makine öğreniminin geleceği ile yolculuğunuza başlayın