Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

هندسة التمثيل (RepE)

اكتشف هندسة التمثيل (RepE) لمراقبة سلوك الذكاء الاصطناعي والتحكم فيه. تعرف على كيفية التعامل مع الحالات الداخلية لنظام Ultralytics من أجل نماذج أكثر أمانًا وقابلية للتوجيه.

هندسة التمثيل (RepE) هي منهجية متقدمة في مجال التعلم الآلي تنطوي على تحليل ومعالجة الحالات الإدراكية الداخلية — أو التمثيلات — للشبكات العصبية بشكل مباشر من أجل مراقبة وسلوكها والتحكم فيه. تم تقديم RepE كنهج من أعلى إلى أسفل لسلامة الذكاء الاصطناعي ومواءمته، وهو يحوّل التركيز بعيدًا عن مجرد تعديل مدخلات أو مخرجات النموذج. بدلاً من ذلك، يقرأ ويغير الحالات الداخلية المخفية لنماذج اللغة الكبيرة وأنظمة الرؤية أثناء الاستدلال في الوقت الفعلي، مما يمكّن المطورين من توجيه النموذج نحو المفاهيم المرغوبة مثل الصدق، أو عدم الإضرار، أو ميزات بصرية محددة دون إعادة تدريب الشبكة.

كيف تعمل هندسة التمثيل

ينقسم المفهوم الأساسي لـ RepE، الذي تم تفصيله بشكل مستفيض في الورقة البحثية التأسيسية حول «هندسة التمثيل» الصادرة عن مركز سلامة الذكاء الاصطناعي، إلى مرحلتين رئيسيتين: القراءة والتحكم.

خلال مرحلة "القراءة"، يحلل الباحثون الكيفية التي تقوم بها الطبقات الخفية للنموذج بترميز مفاهيم محددة. ومن خلال مراقبة مخرجات دالة التنشيط عبر مختلف المطالبات أو الصور، يمكن للمهندسين عزل "الاتجاه" المحدد في الفضاء الكامن الذي يتوافق مع مفهوم ما، مثل الصدق أو فئة معينة من الكائنات. ويعتمد هذا بشكل كبير على أبحاثAnthropic في قابلية التفسير الآلية، التي تسعى إلى إجراء هندسة عكسية للشبكات العصبية.

في مرحلة "التحكم"، يتم تعزيز هذه التمثيلات المعزولة أو كبتها بشكل مصطنع خلال مرحلة التمرير الأمامي. ويؤدي هذا التدخل إلى تغيير سلوك النموذج بشكل فعال في الوقت الفعلي، وهي تقنية تتوافق بشكل وثيق مع إرشادات OpenAI المتعلقة بالمواءمة والسلامة لإنشاء أنظمة ذكاء اصطناعي قابلة للتوجيه ويمكن التنبؤ بها.

التمييز بين RepE والمفاهيم ذات الصلة

لفهم تقنية RepE فهماً تاماً، من المهم تمييزها عن التقنيات الشائعة الأخرى المستخدمة في الرؤية الحاسوبية ومعالجة اللغة الطبيعية:

  • هندسة المطالبات: يتضمن ذلك صياغة مدخلات نصية أو مرئية محددة لتوجيه مخرجات النموذج. لا يغير RepE المدخلات؛ بل يغير الطريقة التي يعالج بها النموذج المدخلات داخليًا.
  • الضبط الدقيق: يعمل الضبط الدقيق على تحديث أوزان النموذج بشكل دائم باستخدام مجموعة بيانات مخصصة، وغالبًا ما تتم إدارتها عبر أدوات مثل Ultralytics . أما RepE فلا يغير الأوزان الأصلية، بل يطبق تحويلات ديناميكية على القيم التنشيطية أثناء وقت التشغيل.
  • هندسة الميزات: خطوة تقليدية في إعداد البيانات يقوم فيها الخبراء البشريون باختيار مدخلات البيانات يدويًّا. وكما هو مذكور في مقالة ويكيبيديا حول تعلم الميزات، يعمل RepE على الميزات التي تعلمها النموذج بالفعل بشكل مستقل.

تطبيقات واقعية

تقود RepE تطورات مهمة في مجال تطوير ذكاء اصطناعي قوي وقابل للتحكم في مجالات متعددة، مدعومة بـ أبحاث من مؤسسات مثل أبحاث معهد CSAIL التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) حول قابلية تفسير الشبكات العصبية:

  • الحد من «هلوسات» الذكاء الاصطناعي: من خلال تحديد التمثيل الداخلي لـ «الصحة»، يمكن للمهندسين تعزيز هذه الإشارة بشكل اصطناعي أثناء عملية الاستدلال. ويُستخدم هذا الأسلوب بشكل فعال للحد من «الهلوسات» في نماذج اللغة الكبيرة (LLMs)، مما يضمن أن تقدم روبوتات الدردشة معلومات واقعية بدلاً من اختلاق الإجابات.
  • توجيه أنظمة الرؤية متعددة الوسائط: في النماذج متعددة الوسائط، يمكن استخدام تقنية RepE للتحكم في التركيز البصري لعامل الذكاء الاصطناعي. على سبيل المثال، في مجال القيادة الذاتية، يمكن أن يؤدي تعزيز التمثيل الداخلي لـ "مخاطر المشاة" إلى إجبار النموذج على إعطاء الأولوية لعمليات الكشف الحاسمة للسلامة في البيئات المعقدة، وهي مجال تركيز تم تسليط الضوء عليه في منشورات IEEE حول شفافية الذكاء الاصطناعي.

تطبيق استخراج المفاهيم في نماذج الرؤية

في حين أن التحرير المباشر لعمليات التنشيط يتطلب تدخلات رياضية متقدمة، فإن الخطوة الأولى في RepE — قراءة التمثيلات — يمكن تنفيذها باستخدام أطر عمل التعلم العميق الحديثة. ومن خلال الاستفادة من وثائق "الخطافاتPyTorch يمكن للمطورين استخراج الحالات الداخلية لنماذج مثل Ultralytics لتحليل كيفية ترميز المفاهيم البصرية.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

مع تزايد تعقيد النماذج، تؤكد التقنيات الموضحة في دليلTensorFlow حول تعلم التمثيل و أبحاث السلامةGoogle على أن فهم هذه الحالات الداخلية وتصميمها سيكونان أمرين بالغين الأهمية للجيل القادم من بنى الذكاء الاصطناعي الآمنة والموثوقة.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة