Découvrez comment la technique du « 4D Gaussian Splatting » permet un rendu photoréaliste en temps réel de scènes dynamiques. Apprenez à isoler les objets en mouvement grâce à Ultralytics .
Le « 4D Gaussian Splatting » est une technique de rendu de pointe dans les domaines de la vision par ordinateur et de l'apprentissage profond qui étend les principes de la représentation explicite de scènes 3D en y ajoutant une dimension temporelle (le temps). Alors que la modélisation 3D traditionnelle capture des environnements statiques, le 4D Gaussian Splatting permet le rendu photoréaliste en temps réel de scènes dynamiques et en mouvement. En modélisant la façon dont les objets et les environnements se déforment et se déplacent au fil du temps, cette technologie comble le fossé entre l' imagerie statique et la synthèse vidéo réaliste, offrant une fidélité visuelle sans précédent à des fréquences d'images élevées.
Pour bien saisir ce concept, il est utile de le comparer à des méthodes de synthèse de vues novatrices étroitement apparentées. La technique standard de « Gaussian Splatting » en 3D représente une scène à l'aide de millions de distributions statiques de forme ellipsoïdale. La variante en 4D introduit des attributs dépendants du temps, permettant à ces ellipsoïdes de se déplacer, de pivoter et de changer d'échelle d'une image à l'autre.
De plus, contrairement aux Neural Radiance Fields (NeRF), qui s'appuient sur des réseaux neuronaux profonds pour calculer implicitement la lumière et la couleur de chaque pixel, le 4D Gaussian Splatting calcule explicitement la position des points dans l'espace et le temps. Cette rasterisation explicite réduit considérablement la charge de calcul généralement associée au rendu graphique, ce qui permet de rendre les scènes dynamiques beaucoup plus rapidement.
L'architecture s'appuie sur des fonctions mathématiques continues pour track de chaque gaussienne à un instant donné. Au cours du processus d'optimisation, les algorithmes d'apprentissage automatique mettent à jour les coordonnées spatiales (X, Y, Z) et les valeurs de couleur, ainsi qu'un champ de déformation temporel. Les chercheurs utilisent souvent les bibliothèques de base décrites dans la PyTorch officielle PyTorch ou TensorFlow pour gérer la rétropropagation complexe nécessaire à l'entraînement de ces modèles temporels .
Le système réduit au minimum l'écart entre le résultat rendu et la séquence vidéo de référence. Des avancées récentes publiées dans des archives universitaires telles qu'arXiv et l' ACM Digital Library ont montré que le fait de dissocier l'arrière-plan statique des éléments dynamiques du premier plan améliore considérablement la stabilité de l'apprentissage.
Une étape cruciale dans la création de scènes 4D de haute qualité consiste à isoler les objets en mouvement de l'arrière-plan statique. Les développeurs ont souvent recours au suivi d'objets et à la segmentation d'instances pour créer des masques dynamiques avant que le processus de splatting ne commence.
Vous pouvez facilement track isoler les objets en mouvement dans une vidéo à l'aide du modèle Ultralytics . Le code suivant montre comment procéder dans le cadre d'un processus de prétraitement :
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")
# Run real-time tracking on a dynamic scene video to isolate moving subjects
results = model.track(source="dynamic_scene.mp4", show=True, save=True)
En tirant parti des flux de travail modernes basés sur l'IA générative, les équipes peuvent télécharger leurs vidéos enregistrées et leurs annotations directement sur la Ultralytics afin de gérer efficacement leurs ensembles de données. À partir de là, l'application de conseils pour l'entraînement des modèles garantit que les cadres de sélection générés masquent parfaitement les éléments dynamiques, ouvrant ainsi la voie à la génération de scènes 4D d'une qualité irréprochable. Des recherches avancées menées par des organisations telles que Google et OpenAI indiquent que l'intégration du masquage spatial sensible aux objets est en train de devenir une pratique exemplaire standard dans la synthèse de vues temporelles.
Commencez votre parcours avec l'avenir de l'apprentissage automatique