مسرد المصطلحات

الانتشار المستقر

اكتشف Stable Diffusion، وهو نموذج ذكاء اصطناعي متطور لتوليد صور واقعية من المطالبات النصية، مما يُحدث ثورة في الإبداع والكفاءة.

Stable Diffusion هو نموذج ذكاء اصطناعي توليدي قوي وشائع ومفتوح المصدر ومفتوح المصدر أصدرته شركة Stability AI في عام 2022. يُعرف في المقام الأول بقدرته على إنشاء صور مفصلة وعالية الجودة من أوصاف نصية بسيطة، وهي عملية تُعرف باسم توليف النص إلى صورة. وباعتباره نموذج انتشار كامن، فهو يمثل تقدمًا كبيرًا في جعل توليد الصور عالية الأداء متاحًا لجمهور أوسع من المطورين والفنانين والباحثين نظرًا لطبيعته مفتوحة المصدر ومتطلباته الحسابية المتواضعة نسبيًا مقارنةً بالنماذج الأخرى واسعة النطاق.

كيف يعمل الانتشار المستقر

يعمل نموذج الانتشار المستقر في جوهره على مبادئ عملية الانتشار. يتم تدريب النموذج أولاً عن طريق أخذ عدد كبير من الصور وإضافة "ضوضاء" (تشويش عشوائي) تدريجيًا حتى يتم تشويش الصورة الأصلية تمامًا. ثم يتعلم النموذج بعد ذلك كيفية عكس هذه العملية، بدءاً من التشويش الخالص وإزالة التشويش تدريجياً خطوة بخطوة لتشكيل صورة متماسكة تتطابق مع نص معين.

ما يجعل نموذج الانتشار المستقر فعالاً بشكل خاص هو أنه ينفذ عملية الانتشار هذه في "فضاء كامن" منخفض الأبعاد بدلاً من الفضاء عالي الأبعاد للبيكسلات. هذا النهج، الموضح في ورقة بحث نموذج الانتشار الكامن الأصلي، يقلل بشكل كبير من الطاقة الحسابية اللازمة لكل من التدريب والاستدلال، مما يسمح بتشغيل النموذج على وحدات معالجة الرسومات من فئة المستهلك. يستخدم النموذج برنامج تشفير النص، مثل CLIP، لتفسير نص المستخدم وتوجيه عملية إزالة الضوضاء نحو الصورة المطلوبة.

الانتشار المستقر مقابل النماذج التوليدية الأخرى

يتميز الانتشار المستقر عن غيره من النماذج التوليدية البارزة الأخرى من خلال خصائصه الفريدة:

  • بالمقارنة مع DALL-E وMidjourney: على الرغم من أن نماذج مثل DALL-E 3 وMidjourney من OpenAI تنتج نتائج مذهلة، إلا أنها مملوكة ملكية خاصة وتُقدَّم في المقام الأول كخدمات مدفوعة. تتمثل الميزة الرئيسية لنموذج Stable Diffusion في كونه مفتوح المصدر. وهذا يسمح لأي شخص بتنزيل النموذج وفحص بنيته وضبطه على مجموعات بيانات مخصصة لأغراض محددة دون الحاجة إلى إذن.
  • مقارنة بشبكات GANs: شبكات الخصومة التوليدية (GANs) هي فئة أخرى من النماذج التوليدية. تقدم نماذج الانتشار مثل الانتشار المستقر بشكل عام تدريبًا أكثر استقرارًا وغالبًا ما تتفوق في توليد مجموعة أكثر تنوعًا من الصور عالية الدقة. ومع ذلك، يمكن لشبكات GANs في بعض الأحيان أن تكون أسرع في توليد الصور لأنها تتطلب عادةً تمريرة أمامية واحدة فقط.

التطبيقات الواقعية

أدت مرونة وسهولة الوصول إلى الانتشار المستقر إلى اعتماده في العديد من المجالات.

  • الفنون الإبداعية والترفيه: يستخدم الفنانون والمصممون برنامج Stable Diffusion لفن المفاهيم، وتصميم القصص المصورة، وإنشاء أصول مرئية فريدة من نوعها. على سبيل المثال، يمكن لمطور الألعاب إنشاء العشرات من مفاهيم الشخصيات أو الخلفيات البيئية في دقائق، مما يسرع بشكل كبير من سير العمل الإبداعي. وقد دمجت أدوات مثل Adobe Firefly تقنيات توليدية مماثلة لتحسين مجموعات البرامج الإبداعية.
  • توليد البيانات الاصطناعية: في الرؤية الحاسوبية، تُعد بيانات التدريب عالية الجودة أمرًا بالغ الأهمية. يمكن لـ Stable Diffusion توليد كميات هائلة من البيانات الاصط ناعية الواقعية لزيادة مجموعات البيانات الواقعية. على سبيل المثال، لتحسين نموذج الكشف عن الأجسام مثل Ultralytics YOLO، يمكن للمطورين توليد صور لأجسام في ظروف إضاءة واتجاهات وإعدادات مختلفة، مما يحسن من متانة النموذج ودقته، خاصةً بالنسبة لفئات الأجسام النادرة.

التنمية والنظام البيئي

يتم تسهيل العمل مع Stable Diffusion من خلال نظام بيئي غني بالأدوات والمكتبات. تعد أطر العمل مثل PyTorch أساسية لتشغيلها. أصبحت مكتبة Hugging Face Diffusers معيارًا لسهولة تنزيل وتشغيل وتجربة الانتشار المستقر ونماذج الانتشار الأخرى. بينما تتفوق Stable Diffusion في التوليد، توفر منصات مثل Ultralytics HUB بيئة شاملة لدورة حياة التعلم الآلي الأوسع، بما في ذلك إدارة مجموعات البيانات ونشر نماذج الذكاء الاصطناعي التمييزية لمهام مثل تجزئة الصور وتصنيفها. إن ظهور مثل هذه الأدوات التوليدية القوية يجلب أيضاً إلى الواجهة مناقشات مهمة حول أخلاقيات الذكاء الاصطناعي، بما في ذلك إمكانية إنشاء التزييف العميق وتعزيز التحيز الخوارزمي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة