اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لتوليد صور واقعية من المطالبات النصية، مما يُحدث ثورة في الإبداع والكفاءة.
Stable Diffusion هو نموذج ذكاء اصطناعي توليدي قوي وشائع ومفتوح المصدر ومفتوح المصدر أصدرته شركة Stability AI في عام 2022. يُعرف في المقام الأول بقدرته على إنشاء صور مفصلة وعالية الجودة من أوصاف نصية بسيطة، وهي عملية تُعرف باسم توليف النص إلى صورة. وباعتباره نموذج انتشار كامن، فهو يمثل تقدمًا كبيرًا في جعل توليد الصور عالية الأداء متاحًا لجمهور أوسع من المطورين والفنانين والباحثين نظرًا لطبيعته مفتوحة المصدر ومتطلباته الحسابية المتواضعة نسبيًا مقارنةً بالنماذج الأخرى واسعة النطاق.
يعمل نموذج الانتشار المستقر في جوهره على مبادئ عملية الانتشار. يتم تدريب النموذج أولاً عن طريق أخذ عدد كبير من الصور وإضافة "ضوضاء" (تشويش عشوائي) تدريجيًا حتى يتم تشويش الصورة الأصلية تمامًا. ثم يتعلم النموذج بعد ذلك كيفية عكس هذه العملية، بدءاً من التشويش الخالص وإزالة التشويش تدريجياً خطوة بخطوة لتشكيل صورة متماسكة تتطابق مع نص معين.
ما يجعل نموذج الانتشار المستقر فعالاً بشكل خاص هو أنه ينفذ عملية الانتشار هذه في "فضاء كامن" منخفض الأبعاد بدلاً من الفضاء عالي الأبعاد للبيكسلات. هذا النهج، الموضح في ورقة بحث نموذج الانتشار الكامن الأصلي، يقلل بشكل كبير من الطاقة الحسابية اللازمة لكل من التدريب والاستدلال، مما يسمح بتشغيل النموذج على وحدات معالجة الرسومات من فئة المستهلك. يستخدم النموذج برنامج تشفير النص، مثل CLIP، لتفسير نص المستخدم وتوجيه عملية إزالة الضوضاء نحو الصورة المطلوبة.
يتميز الانتشار المستقر عن غيره من النماذج التوليدية البارزة الأخرى من خلال خصائصه الفريدة:
أدت مرونة وسهولة الوصول إلى الانتشار المستقر إلى اعتماده في العديد من المجالات.
يتم تسهيل العمل مع Stable Diffusion من خلال نظام بيئي غني بالأدوات والمكتبات. تعد أطر العمل مثل PyTorch أساسية لتشغيلها. أصبحت مكتبة Hugging Face Diffusers معيارًا لسهولة تنزيل وتشغيل وتجربة الانتشار المستقر ونماذج الانتشار الأخرى. بينما تتفوق Stable Diffusion في التوليد، توفر منصات مثل Ultralytics HUB بيئة شاملة لدورة حياة التعلم الآلي الأوسع، بما في ذلك إدارة مجموعات البيانات ونشر نماذج الذكاء الاصطناعي التمييزية لمهام مثل تجزئة الصور وتصنيفها. إن ظهور مثل هذه الأدوات التوليدية القوية يجلب أيضاً إلى الواجهة مناقشات مهمة حول أخلاقيات الذكاء الاصطناعي، بما في ذلك إمكانية إنشاء التزييف العميق وتعزيز التحيز الخوارزمي.