Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Splatting gaussien en 4D

Découvrez comment la technique du « 4D Gaussian Splatting » permet un rendu photoréaliste en temps réel de scènes dynamiques. Apprenez à isoler les objets en mouvement grâce à Ultralytics .

Le « 4D Gaussian Splatting » est une technique de rendu de pointe dans les domaines de la vision par ordinateur et de l'apprentissage profond qui étend les principes de la représentation explicite de scènes 3D en y ajoutant une dimension temporelle (le temps). Alors que la modélisation 3D traditionnelle capture des environnements statiques, le 4D Gaussian Splatting permet le rendu photoréaliste en temps réel de scènes dynamiques et en mouvement. En modélisant la façon dont les objets et les environnements se déforment et se déplacent au fil du temps, cette technologie comble le fossé entre l' imagerie statique et la synthèse vidéo réaliste, offrant une fidélité visuelle sans précédent à des fréquences d'images élevées.

Différencier de techniques de rendu apparentées

Pour bien saisir ce concept, il est utile de le comparer à des méthodes de synthèse de vues novatrices étroitement apparentées. La technique standard de « Gaussian Splatting » en 3D représente une scène à l'aide de millions de distributions statiques de forme ellipsoïdale. La variante en 4D introduit des attributs dépendants du temps, permettant à ces ellipsoïdes de se déplacer, de pivoter et de changer d'échelle d'une image à l'autre.

De plus, contrairement aux Neural Radiance Fields (NeRF), qui s'appuient sur des réseaux neuronaux profonds pour calculer implicitement la lumière et la couleur de chaque pixel, le 4D Gaussian Splatting calcule explicitement la position des points dans l'espace et le temps. Cette rasterisation explicite réduit considérablement la charge de calcul généralement associée au rendu graphique, ce qui permet de rendre les scènes dynamiques beaucoup plus rapidement.

Comment fonctionne le « 4D Gaussian Splatting »

L'architecture s'appuie sur des fonctions mathématiques continues pour track de chaque gaussienne à un instant donné. Au cours du processus d'optimisation, les algorithmes d'apprentissage automatique mettent à jour les coordonnées spatiales (X, Y, Z) et les valeurs de couleur, ainsi qu'un champ de déformation temporel. Les chercheurs utilisent souvent les bibliothèques de base décrites dans la PyTorch officielle PyTorch ou TensorFlow pour gérer la rétropropagation complexe nécessaire à l'entraînement de ces modèles temporels .

Le système réduit au minimum l'écart entre le résultat rendu et la séquence vidéo de référence. Des avancées récentes publiées dans des archives universitaires telles qu'arXiv et l' ACM Digital Library ont montré que le fait de dissocier l'arrière-plan statique des éléments dynamiques du premier plan améliore considérablement la stabilité de l'apprentissage.

Applications concrètes de l'IA et du ML

  • Réalité virtuelle immersive (RV): 4D La technique du « gaussian splatting » est largement utilisée pour capturer des performances humaines dynamiques destinées à la réalité virtuelle et à la réalité augmentée. Au lieu de recourir à des combinaisons de capture de mouvement encombrantes, les créateurs peuvent filmer un acteur sous plusieurs angles et générer une vidéo de la performance entièrement navigable, offrant une liberté totale de point de vue.
  • Véhicules autonomes et robotique: Les voitures autonomes nécessitent une compréhension approfondie de leur environnement. En reconstituant des scènes de rue dynamiques — incluant les piétons en mouvement et la circulation —, les ingénieurs peuvent créer des simulations très réalistes afin de tester en toute sécurité les modèles de navigation autonome avant leur déploiement dans le monde réel.

Préparation des données pour la reconstruction en 4D

Une étape cruciale dans la création de scènes 4D de haute qualité consiste à isoler les objets en mouvement de l'arrière-plan statique. Les développeurs ont souvent recours au suivi d'objets et à la segmentation d'instances pour créer des masques dynamiques avant que le processus de splatting ne commence.

Vous pouvez facilement track isoler les objets en mouvement dans une vidéo à l'aide du modèle Ultralytics . Le code suivant montre comment procéder dans le cadre d'un processus de prétraitement :

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")

# Run real-time tracking on a dynamic scene video to isolate moving subjects
results = model.track(source="dynamic_scene.mp4", show=True, save=True)

En tirant parti des flux de travail modernes basés sur l'IA générative, les équipes peuvent télécharger leurs vidéos enregistrées et leurs annotations directement sur la Ultralytics afin de gérer efficacement leurs ensembles de données. À partir de là, l'application de conseils pour l'entraînement des modèles garantit que les cadres de sélection générés masquent parfaitement les éléments dynamiques, ouvrant ainsi la voie à la génération de scènes 4D d'une qualité irréprochable. Des recherches avancées menées par des organisations telles que Google et OpenAI indiquent que l'intégration du masquage spatial sensible aux objets est en train de devenir une pratique exemplaire standard dans la synthèse de vues temporelles.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique