اكتشف هندسة التمثيل (RepE) لمراقبة سلوك الذكاء الاصطناعي والتحكم فيه. تعرف على كيفية التعامل مع الحالات الداخلية لنظام Ultralytics من أجل نماذج أكثر أمانًا وقابلية للتوجيه.
هندسة التمثيل (RepE) هي منهجية متقدمة في مجال التعلم الآلي تنطوي على تحليل ومعالجة الحالات الإدراكية الداخلية — أو التمثيلات — للشبكات العصبية بشكل مباشر من أجل مراقبة وسلوكها والتحكم فيه. تم تقديم RepE كنهج من أعلى إلى أسفل لسلامة الذكاء الاصطناعي ومواءمته، وهو يحوّل التركيز بعيدًا عن مجرد تعديل مدخلات أو مخرجات النموذج. بدلاً من ذلك، يقرأ ويغير الحالات الداخلية المخفية لنماذج اللغة الكبيرة وأنظمة الرؤية أثناء الاستدلال في الوقت الفعلي، مما يمكّن المطورين من توجيه النموذج نحو المفاهيم المرغوبة مثل الصدق، أو عدم الإضرار، أو ميزات بصرية محددة دون إعادة تدريب الشبكة.
ينقسم المفهوم الأساسي لـ RepE، الذي تم تفصيله بشكل مستفيض في الورقة البحثية التأسيسية حول «هندسة التمثيل» الصادرة عن مركز سلامة الذكاء الاصطناعي، إلى مرحلتين رئيسيتين: القراءة والتحكم.
خلال مرحلة "القراءة"، يحلل الباحثون الكيفية التي تقوم بها الطبقات الخفية للنموذج بترميز مفاهيم محددة. ومن خلال مراقبة مخرجات دالة التنشيط عبر مختلف المطالبات أو الصور، يمكن للمهندسين عزل "الاتجاه" المحدد في الفضاء الكامن الذي يتوافق مع مفهوم ما، مثل الصدق أو فئة معينة من الكائنات. ويعتمد هذا بشكل كبير على أبحاثAnthropic في قابلية التفسير الآلية، التي تسعى إلى إجراء هندسة عكسية للشبكات العصبية.
في مرحلة "التحكم"، يتم تعزيز هذه التمثيلات المعزولة أو كبتها بشكل مصطنع خلال مرحلة التمرير الأمامي. ويؤدي هذا التدخل إلى تغيير سلوك النموذج بشكل فعال في الوقت الفعلي، وهي تقنية تتوافق بشكل وثيق مع إرشادات OpenAI المتعلقة بالمواءمة والسلامة لإنشاء أنظمة ذكاء اصطناعي قابلة للتوجيه ويمكن التنبؤ بها.
لفهم تقنية RepE فهماً تاماً، من المهم تمييزها عن التقنيات الشائعة الأخرى المستخدمة في الرؤية الحاسوبية ومعالجة اللغة الطبيعية:
تقود RepE تطورات مهمة في مجال تطوير ذكاء اصطناعي قوي وقابل للتحكم في مجالات متعددة، مدعومة بـ أبحاث من مؤسسات مثل أبحاث معهد CSAIL التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) حول قابلية تفسير الشبكات العصبية:
في حين أن التحرير المباشر لعمليات التنشيط يتطلب تدخلات رياضية متقدمة، فإن الخطوة الأولى في RepE — قراءة التمثيلات — يمكن تنفيذها باستخدام أطر عمل التعلم العميق الحديثة. ومن خلال الاستفادة من وثائق "الخطافاتPyTorch يمكن للمطورين استخراج الحالات الداخلية لنماذج مثل Ultralytics لتحليل كيفية ترميز المفاهيم البصرية.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
مع تزايد تعقيد النماذج، تؤكد التقنيات الموضحة في دليلTensorFlow حول تعلم التمثيل و أبحاث السلامةGoogle على أن فهم هذه الحالات الداخلية وتصميمها سيكونان أمرين بالغين الأهمية للجيل القادم من بنى الذكاء الاصطناعي الآمنة والموثوقة.
ابدأ رحلتك مع مستقبل تعلم الآلة