الذكاء الاصطناعي الدستوري هو نهج مصمم لمواءمة نماذج الذكاء الاصطناعي، لا سيما النماذج اللغوية الكبيرة (LLMs)، مع القيم الإنسانية والمبادئ الأخلاقية. بدلاً من الاعتماد فقط على التغذية الراجعة البشرية المباشرة لتوجيه السلوك، تستخدم هذه الطريقة مجموعة محددة مسبقاً من القواعد أو المبادئ - "الدستور" - لمساعدة الذكاء الاصطناعي على تقييم ومراجعة استجاباته الخاصة أثناء عملية التدريب. والهدف من ذلك هو إنشاء أنظمة ذكاء اصطناعي مفيدة وغير ضارة وصادقة، مما يقلل من خطر توليد مخرجات متحيزة أو سامة أو غير مرغوب فيها. هذه التقنية التي ابتكرها باحثون في Anthropicإلى جعل محاذاة الذكاء الاصطناعي أكثر قابلية للتطوير وأقل اعتماداً على الإشراف البشري المكثف.
كيف يعمل الذكاء الاصطناعي الدستوري
تتضمن الفكرة الأساسية وراء الذكاء الاصطناعي الدستوري عملية تدريب على مرحلتين:
- مرحلة التعلّم تحت الإشراف: في البداية، تتم مطالبة نموذج لغوي قياسي مدرب مسبقًا بسيناريوهات مصممة لاستنباط استجابات ضارة أو غير مرغوب فيها. يولد النموذج عدة استجابات. ثم يتم نقد هذه الاستجابات من قبل نموذج ذكاء اصطناعي آخر بناءً على المبادئ الموضحة في الدستور. ينتقد الذكاء الاصطناعي استجاباته الخاصة، ويحدد لماذا قد تنتهك استجابة ما أحد المبادئ (على سبيل المثال، كونها غير توافقية أو ضارة). ثم يتم ضبط النموذج بعد ذلك على هذه الاستجابات التي تم نقدها ذاتيًا، ويتعلم لتوليد مخرجات تتماشى بشكل أفضل مع الدستور. تستخدم هذه المرحلة تقنيات التعلم تحت الإشراف.
- مرحلة التعلّم المعزز: بعد المرحلة الخاضعة للإشراف، يتم تنقيح النموذج بشكل أكبر باستخدام التعلم المعزز (RL). في هذه المرحلة، يُنشئ الذكاء الاصطناعي استجابات، ويقوم نموذج الذكاء الاصطناعي (المُدرَّب باستخدام الدستور) بتقييم هذه الاستجابات، مما يوفر إشارة مكافأة بناءً على مدى التزامها بالمبادئ الدستورية. تعمل هذه العملية، التي يُشار إليها غالبًا باسم التعلّم المعزز من ملاحظات الذكاء الاصطناعي (RLAIF)، على تحسين النموذج لإنتاج مخرجات تتماشى مع الدستور باستمرار، مما يؤدي بشكل أساسي إلى تعليم الذكاء الاصطناعي تفضيل السلوك المتوافق مع الدستور.
تميّز آلية التصحيح الذاتي هذه، التي تسترشد بمبادئ واضحة، الذكاء الاصطناعي المؤسسي عن أساليب مثل التعلم المعزز من التغذية الراجعة البشرية (RLHF)، والتي تعتمد بشكل كبير على المُصنّفين البشريين الذين يصنفون مخرجات النموذج.
المفاهيم الرئيسية
- الدستور: هذه ليست وثيقة قانونية حرفية بل مجموعة من المبادئ أو القواعد الأخلاقية الصريحة التي توجه سلوك الذكاء الاصطناعي. يمكن أن تُستمد هذه المبادئ من مصادر مختلفة، مثل الإعلانات العالمية (مثل إعلان الأمم المتحدة لحقوق الإنسان)، أو شروط الخدمة، أو المبادئ التوجيهية الأخلاقية المخصصة المصممة لتطبيقات محددة. تعتمد الفعالية بشكل كبير على جودة وشمولية هذه المبادئ.
- النقد الذاتي والمراجعة الذاتية للذكاء الاصطناعي: وهو جانب أساسي حيث يتعلم نموذج الذكاء الاصطناعي تقييم مخرجاته الخاصة مقابل الدستور وتوليد المراجعات. تقلل حلقة التغذية الراجعة الداخلية هذه من الحاجة إلى التدخل البشري المستمر.
- مواءمة الذكاء الاصطناعي: الذكاء الاصطناعي الدستوري هو أسلوب يساهم في المجال الأوسع لمواءمة الذكاء الاصطناعي الذي يسعى إلى ضمان توافق أهداف أنظمة الذكاء الاصطناعي وسلوكياتها مع النوايا والقيم البشرية. وهي تعالج المخاوف المتعلقة بسلامة الذكاء الاصطناعي وإمكانية حدوث عواقب غير مقصودة.
- قابلية التوسع: من خلال أتمتة عملية التغذية الراجعة باستخدام الذكاء الاصطناعي على أساس الدستور، تهدف هذه الطريقة إلى أن تكون أكثر قابلية للتوسع من طريقة RLHF، والتي يمكن أن تكون كثيفة العمالة ومن المحتمل أن تؤدي إلى تحيزات بشرية(تحيز الخوارزمية).
أمثلة من العالم الحقيقي
- نماذج كلودAnthropic كلود: المثال الأبرز على ذلك هو عائلة نماذج كلود كلود الخاصة Anthropic. فقد طورت Anthropic الذكاء الاصطناعي الدستوري خصيصًا لتدريب هذه النماذج لتكون "مفيدة وغير ضارة وصادقة". يتضمن الدستور المستخدم مبادئ لا تشجع على توليد محتوى سام أو تمييزي أو غير قانوني، ويستند جزئياً إلى إعلان الأمم المتحدة لحقوق الإنسان ومصادر أخلاقية أخرى. اقرأ المزيد في ورقتهم البحثية عن الذكاء الاصطناعي الدستوري الجماعي.
- أنظمة الإشراف على المحتوى بالذكاء الاصطناعي: يمكن تطبيق مبادئ الذكاء الاصطناعي الدستورية لتدريب نماذج لمنصات الإشراف على المحتوى. بدلاً من الاعتماد فقط على المشرفين البشريين أو مرشحات الكلمات المفتاحية الجامدة، يمكن للذكاء الاصطناعي استخدام دستور يحدد المحتوى الضار (مثل خطاب الكراهية والمعلومات المضللة) لتقييم النصوص أو الصور التي ينشئها المستخدم، مما يؤدي إلى اعتدال أكثر دقة واتساقاً يتماشى مع سياسات المنصة وإرشادات أخلاقيات الذكاء الاصطناعي.
الذكاء الاصطناعي الدستوري مقابل المصطلحات ذات الصلة
- التعلم المعزز من التغذية الراجعة البشرية (RLHF): في حين أن كلاهما يهدفان إلى مواءمة الذكاء الاصطناعي، إلا أن التعلم المعزز من التغذية الراجعة التي يولدها البشر لتقييم مخرجات النموذج. يستخدم الذكاء الاصطناعي الدستوري في المقام الأول التغذية الراجعة التي يولدها الذكاء الاصطناعي بناءً على دستور محدد مسبقًا، مما يجعله أكثر قابلية للتطوير والاتساق، على الرغم من أن الجودة تعتمد بشكل كبير على الدستور نفسه.
- أخلاقيات الذكاء الاصطناعي والذكاء الاصط ناعي المسؤول: أخلاقيات الذكاء الاصطناعي هو المجال الواسع الذي يدرس الآثار الأخلاقية للذكاء الاصطناعي. يشمل الذكاء الاصطناعي المسؤول المبادئ والممارسات (مثل الإنصاف والشفافيةوالمساءلة وخصوصية البيانات) لتطوير ونشر أنظمة الذكاء الاصطناعي بأمان وأخلاقية. الذكاء الاصطناعي المسؤول هو أسلوب تقني محدد يُستخدم أثناء تدريب النماذج لتنفيذ مبادئ أخلاقية معينة والمساهمة في تطوير الذكاء الاصطناعي المسؤول.
التطبيقات والإمكانات المستقبلية
في الوقت الحالي، يتم تطبيق الذكاء الاصطناعي الدستوري في المقام الأول على الآلات ذات المحركات ذات المحركات المنخفضة لمهام مثل توليد الحوار وتلخيص النصوص. ومع ذلك، يمكن أن تمتد المبادئ الأساسية إلى مجالات الذكاء الاصطناعي الأخرى، بما في ذلك الرؤية الحاسوبية. على سبيل المثال
ويظل تطوير الدساتير الفعالة وتنقيحها، إلى جانب ضمان التزام الذكاء الاصطناعي بها بأمانة في سياقات متنوعة، مجالات بحثية نشطة داخل مؤسسات مثل Google للذكاء الاصط ناعي ومعهد أمان الذكاء الاصطناعي. تعمل أدوات مثل Ultralytics HUB على تسهيل تدريب نماذج الذكاء الاصطناعي المختلفة ونشرها، ويمكن أن يصبح دمج المبادئ المشابهة للذكاء الاصطناعي الدستوري ذا أهمية متزايدة لضمان النشر المسؤول.