Representation Engineering (RepE)

استكشف هندسة التمثيل (RepE) لمراقبة سلوك الذكاء الاصطناعي والتحكم فيه. تعلم كيفية معالجة الحالات الداخلية لنماذج Ultralytics YOLO26 للحصول على نماذج أكثر أماناً وقابلية للتوجيه.

هندسة التمثيل (RepE) هي منهجية متقدمة في تعلم الآلة تتضمن تحليل ومعالجة الحالات الإدراكية الداخلية - أو التمثيلات - للشبكات العصبية بشكل مباشر لمراقبة سلوكها والتحكم فيه. تم تقديم RepE كنهج من الأعلى إلى الأسفل لـ سلامة الذكاء الاصطناعي والمواءمة، حيث تنقل التركيز بعيداً عن مجرد تعديل مدخلات النموذج أو مخرجاته. بدلاً من ذلك، فهي تقرأ وتغير الحالات الخفية الداخلية لـ نماذج اللغة الكبيرة وأنظمة الرؤية أثناء الاستدلال في الوقت الفعلي، مما يمكن المطورين من توجيه النموذج نحو مفاهيم مرغوبة مثل الصدق، أو عدم الضرر، أو ميزات بصرية محددة دون الحاجة إلى إعادة تدريب الشبكة.

Link to this sectionكيف تعمل هندسة التمثيل#

ينقسم المفهوم الأساسي لـ RepE، المفصل بشكل مكثف في ورقة هندسة التمثيل الصادرة عن مركز سلامة الذكاء الاصطناعي، إلى مرحلتين رئيسيتين: القراءة والتحكم.

خلال مرحلة "القراءة"، يحلل الباحثون كيفية ترميز الطبقات الخفية للنموذج لمفاهيم محددة. من خلال مراقبة مخرجات دالة التنشيط عبر مطالبات أو صور مختلفة، يمكن للمهندسين عزل "الاتجاه" المحدد في الفضاء الكامن الذي يتوافق مع مفهوم معين، مثل الصدق أو فئة كائن محدد. يعتمد هذا بشكل كبير على أبحاث قابلية التفسير الآلي من Anthropic، والتي تسعى إلى إجراء هندسة عكسية للشبكات العصبية.

في مرحلة "التحكم"، يتم تضخيم هذه التمثيلات المعزولة أو قمعها بشكل مصطنع أثناء التمرير الأمامي. يؤدي هذا التدخل بفعالية إلى تغيير سلوك النموذج أثناء التشغيل، وهي تقنية تتوافق بشكل وثيق مع إرشادات المواءمة والسلامة الخاصة بـ OpenAI لإنشاء أنظمة ذكاء اصطناعي قابلة للتوجيه ويمكن التنبؤ بها.

Link to this sectionالتمييز بين RepE والمفاهيم ذات الصلة#

لفهم RepE بشكل كامل، من المهم التمييز بينها وبين التقنيات الشائعة الأخرى المستخدمة في الرؤية الحاسوبية ومعالجة اللغات الطبيعية:

هندسة المطالبات: يتضمن ذلك صياغة مدخلات نصية أو بصرية محددة لتوجيه مخرجات النموذج. لا تغير RepE المدخلات؛ بل تغير كيفية معالجة النموذج للمدخلات داخلياً.
الضبط الدقيق: يعمل الضبط الدقيق على تحديث أوزان النموذج بشكل دائم باستخدام مجموعة بيانات مخصصة، وغالباً ما يتم إدارته من خلال أدوات مثل منصة Ultralytics. تترك RepE الأوزان الأصلية دون مساس، وبدلاً من ذلك تطبق تحويلات ديناميكية على التنشيطات أثناء وقت التشغيل.
هندسة الميزات: خطوة تقليدية لإعداد البيانات حيث يختار الخبراء البشريون مدخلات البيانات يدوياً. كما هو مذكور في مدخل ويكيبيديا حول تعلم الميزات، تعمل RepE على الميزات التي تعلمها النموذج بالفعل بشكل مستقل.

Link to this sectionالتطبيقات الواقعية#

تقود RepE تطورات كبيرة في إنشاء ذكاء اصطناعي قوي وقابل للتحكم عبر مجالات متعددة، مدعومة بأبحاث من مؤسسات مثل أبحاث MIT CSAIL حول قابلية تفسير الشبكة العصبية:

تخفيف هلوسات الذكاء الاصطناعي: من خلال تحديد التمثيل الداخلي لـ "الصدق"، يمكن للمهندسين تعزيز هذه الإشارة بشكل مصطنع أثناء الاستدلال. يُستخدم هذا بشكل نشط لتقليل الهلوسة في نماذج اللغة الكبيرة، مما يضمن تقديم روبوتات الدردشة لمعلومات واقعية بدلاً من اختلاق الإجابات.
توجيه أنظمة الرؤية متعددة الوسائط: في النماذج متعددة الوسائط، يمكن استخدام RepE للتحكم في التركيز البصري لوكيل الذكاء الاصطناعي. على سبيل المثال، في القيادة الذاتية، يمكن أن يؤدي تضخيم التمثيل الداخلي لـ "مخاطر المشاة" إلى إجبار النموذج على تحديد أولويات الكشف الحرجة للسلامة في البيئات المعقدة، وهو مجال تركيز تم تسليط الضوء عليه في منشورات IEEE حول شفافية الذكاء الاصطناعي.

Link to this sectionتنفيذ استخراج المفاهيم في نماذج الرؤية#

في حين أن تعديل التنشيطات مباشرة يتطلب تدخلات رياضية متقدمة، يمكن تنفيذ الخطوة الأولى من RepE—قراءة التمثيلات—باستخدام أطر عمل تعلم عميق حديثة. من خلال الاستفادة من توثيق خطافات التمرير الأمامي في PyTorch، يمكن للمطورين استخراج الحالات الداخلية لنماذج مثل Ultralytics YOLO26 لتحليل كيفية ترميز المفاهيم البصرية.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

مع ازدياد تعقيد النماذج، تؤكد التقنيات الموضحة في دليل TensorFlow حول تعلم التمثيل وأبحاث السلامة الخاصة بـ Google DeepMind أن فهم وهندسة هذه الحالات الداخلية سيكون أمراً بالغ الأهمية للجيل القادم من بنيات الذكاء الاصطناعي الآمنة والموثوقة.

Explore solutions

الذكاء الاصطناعي في الزراعة

استخدم الرؤية الحاسوبية القائمة على الذكاء الاصطناعي في الزراعة الذكية مع نماذج Ultralytics YOLO. عزز مراقبة المحاصيل وتتبع الماشية والزراعة الدقيقة للحصول على غلات أعلى وأكثر ذكاءً.

Representation Engineering (RepE)

Link to this sectionكيف تعمل هندسة التمثيل#

Link to this sectionالتمييز بين RepE والمفاهيم ذات الصلة#

Link to this sectionالتطبيقات الواقعية#

Link to this sectionتنفيذ استخراج المفاهيم في نماذج الرؤية#

Explore solutions

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في قطاع السيارات

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في قطاع التجزئة

الذكاء الاصطناعي في مجال الروبوتات

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في قطاع السيارات

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في قطاع التجزئة

الذكاء الاصطناعي في مجال الروبوتات

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في قطاع السيارات

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في قطاع التجزئة

الذكاء الاصطناعي في مجال الروبوتات

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في الخدمات اللوجستية

لنبنِ مستقبل الذكاء الاصطناعي معاً!