Mechanistic Interpretability
استكشف القابلية للتفسير الميكانيكي في مجال الذكاء الاصطناعي مع Ultralytics. تعلم كيفية إجراء الهندسة العكسية للشبكات العصبية وتتبع المسارات الخوارزمية في Ultralytics YOLO26.
القابلية للتفسير الميكانيكي هي مجال بحثي متقدم ضمن تعلم الآلة يركز على إجراء الهندسة العكسية للآليات الداخلية للشبكات العصبية المدربة. فبدلاً من التعامل مع النموذج كصندوق أسود، يسعى هذا النهج إلى فهم الدوائر الرياضية الدقيقة، والخلايا العصبية المحددة، والمسارات المتصلة التي تتسبب في إنتاج النموذج لمخرجات معينة. ومن خلال تعيين هذه الهياكل الداخلية ضمن مفاهيم قابلة للفهم البشري، يمكن للمطورين فك شفرة كيفية معالجة أنظمة الذكاء الاصطناعي للمعلومات طبقة تلو الأخرى.
Link to this sectionالقابلية للتفسير الميكانيكي مقابل الذكاء الاصطناعي القابل للتفسير (XAI)#
من الشائع الخلط بين القابلية للتفسير الميكانيكي ومفهوم الذكاء الاصطناعي القابل للتفسير (XAI) بشكل عام. فبينما يعد XAI مصطلحاً أوسع يشمل أدوات مثل الخرائط الحرارية أو خرائط البروز التي تسلط الضوء على أين ينظر النموذج، تهدف القابلية للتفسير الميكانيكي إلى الإجابة على كيف ولماذا يحسب النموذج استجابته. على سبيل المثال، بينما قد يظهر XAI أن نموذج كشف الأشياء يركز على ملمس فروي لتحديد كلب، تهدف القابلية للتفسير الميكانيكي إلى تحديد الخلايا العصبية المسؤولة عن "اكتشاف الفرو" وتتبع اتصالاتها الخوارزمية وصولاً إلى التنبؤ النهائي.
Link to this sectionالتطبيقات الواقعية#
يعد فهم المنطق الداخلي الدقيق لـ الشبكات العصبية أمراً بالغ الأهمية لنشر أنظمة ذكاء اصطناعي عالية المخاطر. فيما يلي تطبيقان ملموسان:
- التدقيق من أجل سلامة ومواءمة الذكاء الاصطناعي: تستخدم منظمات مثل Anthropic وOpenAI القابلية للتفسير الميكانيكي لفحص نماذج اللغة الكبيرة (LLMs) بحثاً عن التحيزات الخفية، أو السلوكيات الخادعة، أو احتمالية عدم المواءمة مع القيم البشرية. من خلال استخراج ميزات قابلة للقراءة البشرية باستخدام تقنيات مثل المشفرات التلقائية المتفرقة، يمكن للباحثين تعديل أو تعطيل المسارات الضارة جراحياً قبل النشر لضمان سلامة الذكاء الاصطناعي بشكل قوي.
- تصحيح التشخيصات الطبية: في مجالات حيوية مثل الرعاية الصحية، تساعد القابلية للتفسير الميكانيكي الباحثين على التحقق من أن خوارزميات الرؤية الحاسوبية تعتمد على علامات بيولوجية حقيقية بدلاً من عوامل خارجية (مثل علامة مائية للمستشفى أو مسطرة في الصورة) عند التنبؤ بالأمراض. هذا التحقق الدقيق ضروري لـ الامتثال والثقة في الذكاء الاصطناعي الطبي.
Link to this sectionاستخراج الميزات من أجل القابلية للتفسير#
عند العمل مع بنيات الرؤية الحاسوبية، تتمثل الخطوة الأولى الشائعة في القابلية للتفسير الميكانيكي في استخراج التنشيطات الوسيطة. باستخدام أدوات مثل PyTorch forward hooks، يمكن للمطورين إلقاء نظرة داخل الشبكة أثناء عملية التمرير الأمامي.
يوضح المقتطف التالي كيفية ربط خطاف (hook) بالطبقة الالتفافية الأولى في نموذج Ultralytics YOLO26 لفحص أبعاد خرائط الميزات الداخلية التي يتم إنشاؤها أثناء الاستنتاج.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Define a hook function to capture and inspect intermediate layer activations
def hook_fn(module, input, output):
print(f"Analyzed Layer: {module.__class__.__name__} | Activation Shape: {output.shape}")
# Attach the hook to the first layer of the model architecture
handle = model.model.model[0].register_forward_hook(hook_fn)
# Run a quick inference to trigger the hook and print the mechanistic features
results = model("https://ultralytics.com/images/bus.jpg")
handle.remove()من خلال تحليل هذه التنشيطات، يمكن لمهندسي تعلم الآلة إجراء تصور للميزات والبدء في رسم خريطة لسلوك الشبكة. ولإدارة مجموعات البيانات الضخمة اللازمة لتدريب هذه الأنظمة القابلة للتفسير، توفر أدوات مثل Ultralytics Platform خطوط أنابيب شاملة وقوية تبسط تدريب النموذج، وتسجيل البيانات، والمراقبة المستمرة. ومع تسارع وتيرة الدعوات لـ الشفافية في الذكاء الاصطناعي، ستظل القابلية للتفسير الميكانيكي انضباطاً أساسياً لبناء نماذج جديرة بالثقة وموثوقة.






