Explore how Neural Radiance Fields (NeRF) revolutionize 3D scene synthesis. Learn to use [YOLO26](https://docs.ultralytics.com/models/yolo26/) for NeRF data prep.
تمثل حقول الإشعاع العصبي (NeRF) تطوراً رائداً في الرؤية الحاسوبية (CV) و الذكاء الاصطناعي التوليدي، وهي مصممة لتركيب مشاهد ثلاثية الأبعاد واقعية من مجموعة متفرقة من الصور ثنائية الأبعاد. على عكس أساليب النمذجة ثلاثية الأبعاد التقليدية التي تعتمد على هياكل هندسية واضحة مثل المضلعات أو الشبكات أو السحب النقطية، تستخدم NeRF شبكة عصبية (NN) لتعلم تمثيل "ضمني" للمشهد. من خلال تعيين الإحداثيات المكانية واتجاهات العرض لقيم الألوان والكثافة، يمكن لـ NeRFs عرض وجهات نظر جديدة بدقة استثنائية، والتقاط التأثيرات البصرية المعقدة بدقة مثل الانعكاسات والشفافية والإضاءة المتغيرة التي يصعب غالبًا إعادة إنتاجها باستخدام التصوير الفوتوغرافي القياسي.
في جوهرها، تقوم NeRF بنمذجة مشهد كدالة حجمية مستمرة. عادةً ما يتم تحديد معلمات هذه الدالة بواسطة شبكة تعلم عميق (DL) متصلة بالكامل. تبدأ العملية بمرور الأشعة، حيث يتم إرسال الأشعة من كاميرا افتراضية عبر كل بكسل من مستوى الصورة المطلوب إلى الفضاء ثلاثي الأبعاد.
بالنسبة للنقاط التي تم أخذ عينات منها على طول كل شعاع، تأخذ الشبكة مدخلاً خماسي الأبعاد — يتألف من الموقع المكاني ثلاثي الأبعاد ($x, y, z$) و اتجاه الرؤية ثنائي الأبعاد ($\theta, \phi$) — وتخرج اللون المنبعث وكثافة الحجم (العتامة) في تلك النقطة. باستخدام تقنيات متجذرة في عرض الحجم، يتم تجميع هذه القيم المأخوذة لحساب اللون النهائي للبكسل. يتم تدريب الشبكة عن طريق تقليل الفرق بين البكسل المعروض والبكسل الفعلي من بيانات التدريب الأصلية، مما يؤدي إلى تحسين أوزان النموذج بشكل فعال لتذكر الخصائص البصرية للمشهد .
انتقلت تقنية NeRF بسرعة من البحث الأكاديمي إلى الأدوات العملية، مما أثر على مختلف الصناعات من خلال سد الفجوة بين التصوير الفوتوغرافي الثابت والبيئات ثلاثية الأبعاد التفاعلية.
من المفيد التمييز بين NeRF والتقنيات ثلاثية الأبعاد وتقنيات الرؤية الأخرى لفهم فائدتها المحددة.
غالبًا ما يتطلب تدريب NeRF عالي الجودة بيانات نظيفة. يمكن أن تتسبب الضوضاء الخلفية أو الأجسام المتحركة في ظهور تشوهات "شبحية" في العرض النهائي. للتخفيف من ذلك، غالبًا ما يستخدم المطورون نماذج تقسيم المثيلات لإخفاء موضوع الاهتمام تلقائيًا قبل تدريب NeRF.
تسمح Ultralytics وواجهة Python بدمج التجزئة بسلاسة في سير عمل المعالجة المسبقة هذا. يوضح المثال التالي كيفية استخدام YOLO26 لإنشاء أقنعة لمجموعة من الصور، وإعدادها لإعادة البناء ثلاثي الأبعاد.
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference to detect and segment objects
# Saving results creates masks useful for NeRF preprocessing
results = model("scene_image.jpg", save=True)
# Access the binary masks for the detected objects
masks = results[0].masks.data
print(f"Generated {len(masks)} masks for NeRF training.")
من خلال الجمع بين دقة التجزئة والقوة التوليدية لـ NeRFs، يمكن للمهندسين إنشاء خطوط إنتاج قوية لتوليد البيانات الاصطناعية ، مما يتيح إنشاء عينات تدريب غير محدودة لمهام أخرى لاحقة.