استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

Stable Diffusion

اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لإنشاء صور واقعية من مطالبات نصية، مما يحدث ثورة في الإبداع والكفاءة.

Stable Diffusion هو نموذج ذكاء اصطناعي توليدي مفتوح المصدر قوي وشائع تم إصداره بواسطة Stability AI في عام 2022. وهو معروف في المقام الأول بقدرته على إنشاء صور مفصلة وعالية الجودة من أوصاف نصية بسيطة، وهي عملية تعرف باسم توليد النص إلى صورة. باعتباره نموذج انتشار كامن، فإنه يمثل تقدمًا كبيرًا في جعل توليد الصور عالي الأداء في متناول جمهور أوسع من المطورين والفنانين والباحثين نظرًا لطبيعته مفتوحة المصدر ومتطلباته الحسابية المتواضعة نسبيًا مقارنة بالنماذج واسعة النطاق الأخرى.

كيفية عمل Stable Diffusion

في جوهرها، تعمل Stable Diffusion على مبادئ عملية الانتشار. يتم تدريب النموذج أولاً عن طريق أخذ عدد كبير من الصور وإضافة "ضوضاء" (ثابتة عشوائية) تدريجيًا حتى يتم حجب الصورة الأصلية تمامًا. ثم يتعلم كيفية عكس هذه العملية، بدءًا من الضوضاء النقية وتقليلها تدريجيًا خطوة بخطوة لتشكيل صورة متماسكة تتطابق مع مطالبة نصية معينة.

ما يجعل Stable Diffusion فعالاً بشكل خاص هو أنه ينفذ عملية الانتشار هذه في "فضاء كامن" منخفض الأبعاد بدلاً من الفضاء عالي الأبعاد للبكسل. هذا النهج، الموضح في ورقة بحثية أصلية لنموذج الانتشار الكامن، يقلل بشكل كبير من القدرة الحاسوبية اللازمة لكل من التدريب و الاستدلال، مما يسمح للنموذج بالعمل على وحدات معالجة الرسومات (GPUs) من الدرجة الاستهلاكية. يستخدم النموذج برنامج ترميز نصوص، مثل CLIP، لتفسير المطالبة النصية للمستخدم وتوجيه عملية إزالة التشويش نحو الصورة المطلوبة.

Stable Diffusion مقابل النماذج التوليدية الأخرى

يتميز Stable Diffusion عن النماذج التوليدية البارزة الأخرى من خلال خصائصه الفريدة:

  • مقارنةً بـ DALL-E و Midjourney: في حين أن النماذج مثل DALL-E 3 من OpenAI و Midjourney تحقق نتائج مذهلة، إلا أنها مملوكة وتقدم بشكل أساسي كخدمات مدفوعة. الميزة الرئيسية لـ Stable Diffusion هي كونها مفتوحة المصدر. وهذا يسمح لأي شخص بتنزيل النموذج وفحص بنيته و ضبطه بدقة على مجموعات بيانات مخصصة لأغراض محددة دون الحاجة إلى إذن.
  • مقارنة بشبكات GANs: الشبكات الخصومية التوليدية (GANs) هي فئة أخرى من النماذج التوليدية. تقدم نماذج الانتشار مثل Stable Diffusion عمومًا تدريبًا أكثر استقرارًا وغالبًا ما تتفوق في إنشاء مجموعة متنوعة من الصور عالية الدقة. ومع ذلك، يمكن أن تكون شبكات GANs أسرع في بعض الأحيان في إنشاء الصور لأنها تتطلب عادةً تمريرة أمامية واحدة فقط.

تطبيقات واقعية

أدت مرونة Stable Diffusion وإمكانية الوصول إليها إلى اعتمادها في العديد من المجالات.

  • الفنون الإبداعية والترفيه: يستخدم الفنانون والمصممون Stable Diffusion للرسم المفاهيمي، ولوحات القصة، وإنشاء أصول مرئية فريدة. على سبيل المثال، يمكن لمطور الألعاب إنشاء العشرات من مفاهيم الشخصيات أو الخلفيات البيئية في دقائق، مما يسرع بشكل كبير سير العمل الإبداعي. قامت أدوات مثل Adobe Firefly بدمج تقنيات توليدية مماثلة لتحسين مجموعات البرامج الإبداعية.
  • توليد البيانات الاصطناعية: في الرؤية الحاسوبية، تعتبر بيانات التدريب عالية الجودة أمرًا بالغ الأهمية. يمكن لـ Stable Diffusion إنشاء كميات هائلة من البيانات الاصطناعية الواقعية لزيادة مجموعات البيانات الواقعية. على سبيل المثال، لتحسين نموذج اكتشاف الأجسام مثل Ultralytics YOLO، يمكن للمطورين إنشاء صور للأجسام في ظروف إضاءة واتجاهات وإعدادات مختلفة، مما يحسن قوة النموذج ودقته، خاصة بالنسبة لفئات الأجسام النادرة.

التطوير والنظام البيئي

يتم تسهيل العمل مع Stable Diffusion من خلال نظام بيئي غني بالأدوات والمكتبات. تعتبر أطر العمل مثل PyTorch أساسية لعملها. أصبحت مكتبة Hugging Face Diffusers معيارًا لتنزيل وتشغيل وتجربة Stable Diffusion ونماذج الانتشار الأخرى بسهولة. في حين أن Stable Diffusion تتفوق في التوليد، فإن منصات مثل Ultralytics HUB توفر بيئة شاملة لدورة حياة التعلم الآلي الأوسع، بما في ذلك إدارة مجموعات البيانات ونشر نماذج الذكاء الاصطناعي التمييزية لمهام مثل تجزئة الصور والتصنيف. كما أن صعود مثل هذه الأدوات التوليدية القوية يضع في المقدمة مناقشات مهمة حول أخلاقيات الذكاء الاصطناعي، بما في ذلك احتمال إنشاء التزييف العميق وتعزيز التحيز الخوارزمي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة