اكتشف كيف تتيح تقنية "4D Gaussian Splatting" عرضًا واقعيًا للمشاهد الديناميكية في الوقت الفعلي. تعلم كيفية عزل الكائنات المتحركة باستخدام Ultralytics .
يُعد «4D Gaussian Splatting» تقنية عرض متطورة في مجال الرؤية الحاسوبية و التعلم العميق ، وهي توسع نطاق مبادئ التمثيل الصريح للمشاهد ثلاثية الأبعاد بإضافة بُعد زمني. بينما تلتقط النمذجة ثلاثية الأبعاد التقليدية البيئات الثابتة، تتيح تقنية 4D Gaussian Splatting العرض الواقعي في الوقت الفعلي للمشاهد الديناميكية المتحركة. من خلال نمذجة كيفية تشوه الأجسام والبيئات وتغيرها بمرور الوقت، تسد هذه التقنية الفجوة بين الصور الثابتة وتوليف الفيديو الواقعي، مما يوفر دقة بصرية غير مسبوقة بمعدلات إطارات عالية.
لفهم هذا المفهوم، من المفيد مقارنته بأساليب توليف المشاهد الجديدة المرتبطة به ارتباطًا وثيقًا. تعتمد تقنية "التوزيع الغاوسي ثلاثي الأبعاد" القياسية على تمثيل المشهد باستخدام ملايين من التوزيعات الثابتة ذات الشكل الإهليلجي. أما النسخة رباعية الأبعاد، فتدخل سمات تعتمد على الزمن، مما يسمح لهذه الأشكال الإهليلجية بالتحرك والدوران وتغيير الحجم عبر إطارات متعددة.
علاوة على ذلك، وعلى عكس تقنية "حقول الإشعاع العصبي" (NeRF)، التي تعتمد على الشبكات العصبية العميقة لحساب الإضاءة واللون بشكل ضمني لكل بكسل، فإن تقنية "التقطيع الغاوسي رباعي الأبعاد" (4D Gaussian Splatting) تحسب بشكل صريح موقع النقاط في المكان والزمان. ويؤدي هذا التحويل الصريح إلى صورة نقطية إلى تقليل العبء الحسابي بشكل كبير الذي يرتبط عادةً بعملية عرض الرسومات الحاسوبية، مما يتيح عرض المشاهد الديناميكية بسرعة أكبر بكثير.
تعتمد هذه البنية على دوال رياضية مستمرة track كل توزيع غاوسي في أي طابع زمني معين. وأثناء عملية التحسين، تقوم خوارزميات التعلم الآلي بتحديث الإحداثيات المكانية (X، Y، Z) وقيم الألوان جنبًا إلى جنب مع حقل تشوه زمني. غالبًا ما يستخدم الباحثون المكتبات الأساسية الموثقة في PyTorch الرسمية PyTorch أو TensorFlow للتعامل مع عملية الانتشار العكسي المعقدة المطلوبة لتدريب هذه النماذج الزمنية.
يقلل النظام الفارق بين الناتج المعروض وتسلسل الفيديو المرجعي. وقد أظهرت الإنجازات الحديثة المنشورة في الأرشيفات الأكاديمية مثل arXiv و مكتبة ACM الرقمية أن فصل الخلفية الثابتة عن عناصر المقدمة الديناميكية يحسّن استقرار التدريب بشكل كبير.
تتمثل إحدى الخطوات الحاسمة في إنتاج مشاهد رباعية الأبعاد عالية الجودة في فصل الكائنات المتحركة عن الخلفية الثابتة. وغالبًا ما يستخدم المطورون تقنية تتبع الكائنات و تقسيم المثيلات لإنشاء أقنعة ديناميكية قبل بدء عملية "السبلاتينغ".
يمكنك بسهولة track زل الأجسام المتحركة في مقطع فيديو باستخدام نموذج Ultralytics . يوضح الكود التالي كيفية تنفيذ ذلك خلال عملية المعالجة المسبقة:
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")
# Run real-time tracking on a dynamic scene video to isolate moving subjects
results = model.track(source="dynamic_scene.mp4", show=True, save=True)
من خلال الاستفادة من سير عمل الذكاء الاصطناعي التوليدي الحديث، يمكن للفرق تحميل مقاطع الفيديو المسجلة والتعليقات التوضيحية الخاصة بها مباشرةً إلى Ultralytics لإدارة مجموعات البيانات بكفاءة. ومن هناك، يضمن تطبيق نصائح تدريب النماذج أن تعمل المربعات المحيطة الناتجة على إخفاء العناصر الديناميكية بشكل مثالي، مما يمهد الطريق لتوليد مشاهد رباعية الأبعاد نقية. تشير الأبحاث المتقدمة من مؤسسات مثل Google و OpenAI إلى أن دمج الإخفاء المكاني المراعي للكائنات أصبح أفضل ممارسة قياسية في توليف العرض الزمني.
ابدأ رحلتك مع مستقبل تعلم الآلة