اكتشف كيف يعمل العرض التفاضلي على سد الفجوة بين الرسومات ثلاثية الأبعاد والذكاء الاصطناعي. تعلم كيفية تحسين المشاهد ثلاثية الأبعاد من أجل تدريب Ultralytics والرؤية الحاسوبية.
يُعد «العرض القابل للاشتقاق» تقنية متقدمة في مجال الرؤية الحاسوبية والرسومات ثلاثية الأبعاد، حيث تكون عملية إنشاء الصورة الناتجة قابلة للاشتقاق رياضيًا بالكامل بالنسبة لمعلمات المشهد ثلاثي الأبعاد المدخلة، مثل الهندسة والإضاءة والمواد وموضع الكاميرا. على عكس محركات العرض التقليدية التي تعمل كـ"صناديق سوداء"، يسمح برنامج العرض القابل للتفاضل لنماذج التعلم الآلي بحساب التدرجات مباشرة من مخرجات البكسل ثنائية الأبعاد إلى الأصول ثلاثية الأبعاد الأساسية. يتيح هذا التدفق المستمر للتدرجات لشبكات التعلم العميق تحسين البيئات ثلاثية الأبعاد باستخدام تقنيات الانتشار العكسي القياسية، مما يسد الفجوة بين الصور ثنائية الأبعاد المسطحة والوعي المكاني ثلاثي الأبعاد الغامر.
في جوهر الأمر، يقوم عارض قابل للاشتقاق بتتبع العمليات أثناء عملية التحويل إلى صورة نقطية أو تتبع الأشعة، بحيث يمكن تطبيق قاعدة السلسلة في حساب التفاضل والتكامل بشكل عكسي. وعندما يحسب النظام الفرق (الخسارة) بين الصورة المعروضة والصورة المستهدفة، فإنه يمرر التدرجات بشكل عكسي من وحدات البكسل ثنائية الأبعاد لتعديل الشبكات أو القوام ثلاثية الأبعاد.
من المجالات الهامة للابتكارات الحديثة الموثقة في أرشيفات arXiv الأكاديمية العرض القابل للاشتقاق لحقول المسافة الموقعة (SDFs). بدلاً من استخدام المضلعات الصريحة، تُعرّف حقول المسافة الموقعة الأشكال ثلاثية الأبعاد رياضيّاً من خلال حساب المسافة من أي نقطة في الفضاء إلى أقرب حدود للسطح. وتستخدم إحدى الطرق البسيطة للعرض القابل للاشتقاق لحقول المسافة الموقعة خوارزميات مسار الأشعة. عندما تتقاطع أشعة الضوء مع سطح SDF ، يستخدم برنامج العرض التفاضل الضمني لحساب التدرجات عند نقطة التقاطع الدقيقة. تتعامل هذه الطريقة ببراعة مع حالات الحجب المعقدة وتدرجات الحواف الحادة دون عبء حسابي لتتبع آلاف من رءوس الشبكة الهشة، مما يجعلها عنصرًا أساسيًا في مكتبات مثل PyTorch3D و NVIDIA .
على الرغم من أن هذه المصطلحات ترد معًا بشكل متكرر في المؤلفات المتعلقة بالتعلم العميق ، إلا أنها تصف مكونات متميزة في مسارات معالجة الرسومات الحديثة:
من خلال جعل عملية العرض قابلة للعكس، يتيح برنامج العرض القابل للاشتقاق إجراء استدلال ثلاثي الأبعاد استنادًا إلى الصور. هذا المفهوم، الذي يُشار إليه غالبًا باسم «الرسومات العكسية»، يسمح لنماذج الذكاء الاصطناعي بالنظر إلى صورة ثنائية الأبعاد واحدة واستنتاج الشكل ثلاثي الأبعاد، والنسيج، والإضاءة التي شكلتها.
تستخدم مؤسسات بارزة مثل معهد ماساتشوستس للتكنولوجيا (MIT CSAIL) وفرق الشركات العاملة في مجال أبحاثGoogle ثلاثية الأبعاد هذه التكنولوجيا لتطوير الذكاء المكاني. وتعمل التطبيقات العملية على إحداث تحول في مختلف القطاعات:
على الرغم من أن موضوع «العرض القابل للاشتقاق» يُناقش بكثرة في المؤتمرات النظرية مثل ACM SIGGRAPH، إلا أنه يتمتع بتطبيقات عملية للغاية في مجال الذكاء الاصطناعي على مستوى الإنتاج، لا سيما في توليد البيانات الاصطناعية. يمكن لمهندسي الرؤية استخدام الأطر القابلة للاشتقاق لتحسين المشاهد ثلاثية الأبعاد برمجياً بهدف توليد بيانات تدريب للحالات الاستثنائية —مثل محاكاة ظروف الإضاءة النادرة أو حالات حجب كائنات معينة.
يمكن بعد ذلك تحميل هذه البيانات الاصطناعية المُعلمة بدقة إلى Ultralytics لتدريب مسارات معالجة قوية لاكتشاف الكائنات وتقسيم الصور.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 architecture
model = YOLO("yolo26n.pt")
# Train the model natively on a dataset generated via a differentiable renderer
results = model.train(data="synthetic_rendered_data.yaml", epochs=50, imgsz=640)
من خلال سد الفجوة بين تقنيات التوليد ثلاثي الأبعاد ونماذج الرؤية ثنائية الأبعاد العملية مثل Ultralytics يمكن للمطورين إنشاء أنظمة ذكاء اصطناعي عالية المرونة قادرة على فهم العالم الواقعي حتى في حالة ندرة بيانات التدريب. وتواصل المؤسسات التي تدعم تطورات الرؤية الحاسوبية في OpenAI الاستفادة من هذه الأدوات لبناء نماذج تعالج المعلومات المرئية بوعي مكاني ثلاثي الأبعاد حقيقي.
ابدأ رحلتك مع مستقبل تعلم الآلة