Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

العرض القابل للاشتقاق

اكتشف كيف يعمل العرض التفاضلي على سد الفجوة بين الرسومات ثلاثية الأبعاد والذكاء الاصطناعي. تعلم كيفية تحسين المشاهد ثلاثية الأبعاد من أجل تدريب Ultralytics والرؤية الحاسوبية.

يُعد «العرض القابل للاشتقاق» تقنية متقدمة في مجال الرؤية الحاسوبية والرسومات ثلاثية الأبعاد، حيث تكون عملية إنشاء الصورة الناتجة قابلة للاشتقاق رياضيًا بالكامل بالنسبة لمعلمات المشهد ثلاثي الأبعاد المدخلة، مثل الهندسة والإضاءة والمواد وموضع الكاميرا. على عكس محركات العرض التقليدية التي تعمل كـ"صناديق سوداء"، يسمح برنامج العرض القابل للتفاضل لنماذج التعلم الآلي بحساب التدرجات مباشرة من مخرجات البكسل ثنائية الأبعاد إلى الأصول ثلاثية الأبعاد الأساسية. يتيح هذا التدفق المستمر للتدرجات لشبكات التعلم العميق تحسين البيئات ثلاثية الأبعاد باستخدام تقنيات الانتشار العكسي القياسية، مما يسد الفجوة بين الصور ثنائية الأبعاد المسطحة والوعي المكاني ثلاثي الأبعاد الغامر.

كيف تعمل برامج العرض القابلة للاشتقاق

في جوهر الأمر، يقوم عارض قابل للاشتقاق بتتبع العمليات أثناء عملية التحويل إلى صورة نقطية أو تتبع الأشعة، بحيث يمكن تطبيق قاعدة السلسلة في حساب التفاضل والتكامل بشكل عكسي. وعندما يحسب النظام الفرق (الخسارة) بين الصورة المعروضة والصورة المستهدفة، فإنه يمرر التدرجات بشكل عكسي من وحدات البكسل ثنائية الأبعاد لتعديل الشبكات أو القوام ثلاثية الأبعاد.

من المجالات الهامة للابتكارات الحديثة الموثقة في أرشيفات arXiv الأكاديمية العرض القابل للاشتقاق لحقول المسافة الموقعة (SDFs). بدلاً من استخدام المضلعات الصريحة، تُعرّف حقول المسافة الموقعة الأشكال ثلاثية الأبعاد رياضيّاً من خلال حساب المسافة من أي نقطة في الفضاء إلى أقرب حدود للسطح. وتستخدم إحدى الطرق البسيطة للعرض القابل للاشتقاق لحقول المسافة الموقعة خوارزميات مسار الأشعة. عندما تتقاطع أشعة الضوء مع سطح SDF ، يستخدم برنامج العرض التفاضل الضمني لحساب التدرجات عند نقطة التقاطع الدقيقة. تتعامل هذه الطريقة ببراعة مع حالات الحجب المعقدة وتدرجات الحواف الحادة دون عبء حسابي لتتبع آلاف من رءوس الشبكة الهشة، مما يجعلها عنصرًا أساسيًا في مكتبات مثل PyTorch3D و NVIDIA .

العرض القابل للاشتقاق مقابل العرض العصبي

على الرغم من أن هذه المصطلحات ترد معًا بشكل متكرر في المؤلفات المتعلقة بالتعلم العميق ، إلا أنها تصف مكونات متميزة في مسارات معالجة الرسومات الحديثة:

  • العرض القابل للاشتقاق: هو الإطار الرياضي الأساسي ومجموعة الأدوات الخوارزمية التي تضمن تدفق التدرجات عبر مسار معالجة الرسومات. وهو المحرك الذي يحسب كيفية تأثير أي تغيير في الإضاءة أو الشكل على بكسل معين.
  • التصوير العصبي: هذه هي الفئة الأوسع نطاقاً والشاملة لاستخدام الشبكات العصبية في إنشاء الصور أو تركيبها. تعتمد مسارات التصوير العصبي بشكل كبير على برامج العرض القابلة للاشتقاق لتعمل. على سبيل المثال، تستخدم التقنيات الشائعة مثل "Gaussian Splatting" و"Neural Radiance Fields" عمليات قابلة للاشتقاق في الخلفية لتحقيق تركيب مشاهد واقعية.

تطبيقات الاستدلال ثلاثي الأبعاد القائم على الصور

من خلال جعل عملية العرض قابلة للعكس، يتيح برنامج العرض القابل للاشتقاق إجراء استدلال ثلاثي الأبعاد استنادًا إلى الصور. هذا المفهوم، الذي يُشار إليه غالبًا باسم «الرسومات العكسية»، يسمح لنماذج الذكاء الاصطناعي بالنظر إلى صورة ثنائية الأبعاد واحدة واستنتاج الشكل ثلاثي الأبعاد، والنسيج، والإضاءة التي شكلتها.

تستخدم مؤسسات بارزة مثل معهد ماساتشوستس للتكنولوجيا (MIT CSAIL) وفرق الشركات العاملة في مجال أبحاثGoogle ثلاثية الأبعاد هذه التكنولوجيا لتطوير الذكاء المكاني. وتعمل التطبيقات العملية على إحداث تحول في مختلف القطاعات:

  • المركبات ذاتية القيادة: تعمل الأنظمة على إعادة بناء بيئات ثلاثية الأبعاد من لقطات كاميرات لوحة القيادة ثنائية الأبعاد من أجل تقدير المسافة وحجم العوائق بشكل أفضل.
  • تقدير الوضع: تقوم النماذج بمطابقة معلمات الهيكل العظمي ثلاثية الأبعاد مباشرةً مع الصور ثنائية الأبعاد لحركة الإنسان من أجل إجراء تحليل بيوميكانيكي.

تحسين الرؤية الحاسوبية باستخدام العرض القابل للاشتقاق

على الرغم من أن موضوع «العرض القابل للاشتقاق» يُناقش بكثرة في المؤتمرات النظرية مثل ACM SIGGRAPH، إلا أنه يتمتع بتطبيقات عملية للغاية في مجال الذكاء الاصطناعي على مستوى الإنتاج، لا سيما في توليد البيانات الاصطناعية. يمكن لمهندسي الرؤية استخدام الأطر القابلة للاشتقاق لتحسين المشاهد ثلاثية الأبعاد برمجياً بهدف توليد بيانات تدريب للحالات الاستثنائية —مثل محاكاة ظروف الإضاءة النادرة أو حالات حجب كائنات معينة.

يمكن بعد ذلك تحميل هذه البيانات الاصطناعية المُعلمة بدقة إلى Ultralytics لتدريب مسارات معالجة قوية لاكتشاف الكائنات وتقسيم الصور.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 architecture
model = YOLO("yolo26n.pt")

# Train the model natively on a dataset generated via a differentiable renderer
results = model.train(data="synthetic_rendered_data.yaml", epochs=50, imgsz=640)

من خلال سد الفجوة بين تقنيات التوليد ثلاثي الأبعاد ونماذج الرؤية ثنائية الأبعاد العملية مثل Ultralytics يمكن للمطورين إنشاء أنظمة ذكاء اصطناعي عالية المرونة قادرة على فهم العالم الواقعي حتى في حالة ندرة بيانات التدريب. وتواصل المؤسسات التي تدعم تطورات الرؤية الحاسوبية في OpenAI الاستفادة من هذه الأدوات لبناء نماذج تعالج المعلومات المرئية بوعي مكاني ثلاثي الأبعاد حقيقي.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة