Découvrez le splatting gaussien pour la reconstruction photoréaliste de scènes 3D. Découvrez comment il permet le rendu en temps réel et s'intègre à Ultralytics pour la vision.
Le splatting gaussien est une technique moderne de rastérisation utilisée en infographie et en vision par ordinateur pour reconstruire des scènes 3D photoréalistes à partir d'un ensemble d'images 2D. Contrairement à la modélisation 3D traditionnelle qui repose sur des maillages polygonaux, ou aux récentes avancées de l'IA telles que les Neural Radiance Fields (NeRF) qui utilisent des réseaux neuronaux pour approximer une scène, le Gaussian Splatting représente une scène comme un ensemble de millions de distributions gaussiennes 3D (ellipsoïdes). Cette méthode permet un rendu en temps réel à des fréquences d'images élevées (souvent supérieures à 100 FPS) tout en conservant une fidélité visuelle exceptionnelle, ce qui résout un goulot d'étranglement majeur en termes de performances que l'on trouvait dans les méthodes de synthèse de vue précédentes .
L'idée centrale consiste à représenter l'espace 3D de manière explicite plutôt qu'implicite. Dans un flux de travail classique, le processus commence par un nuage de points clairsemé généré à partir d'un ensemble de photos à l'aide d'une technique appelée Structure from Motion (SfM). Chaque point de ce nuage est ensuite initialisé comme une gaussienne 3D.
Au cours du processus d'apprentissage, le système optimise plusieurs paramètres pour chaque gaussienne :
Le terme « splatting » fait référence au processus de tramage par lequel ces gaussiennes 3D sont projetées — ou « éclaboussées » — sur le plan 2D de la caméra pour former une image. Cette projection est entièrement différentiable, ce qui signifie que des algorithmes standard de descente de gradient peuvent être utilisés pour minimiser la différence entre l'image rendue et la photo originale de référence.
Bien que ces deux techniques visent à générer de nouvelles vues d'une scène, elles diffèrent fondamentalement en termes d'architecture et de performances. Le NeRF (Neural Radiance Fields) encode une scène dans les poids d'un réseau neuronal. Le rendu d'un NeRF nécessite d'interroger ce réseau des millions de fois pour chaque image (ray marching), ce qui est coûteux et lent en termes de calcul.
En revanche, le Gaussian Splatting utilise une représentation explicite (la liste des gaussiennes). Cela lui permet d'utiliser une rasterisation efficace basée sur des tuiles, similaire à la façon dont les jeux vidéo rendent les graphiques. Par conséquent, le Gaussian Splatting est nettement plus rapide à entraîner et à rendre que les NeRF, ce qui le rend plus viable pour les applications grand public et l' inférence en temps réel.
La rapidité et la qualité du Gaussian Splatting ont ouvert de nouvelles perspectives dans divers secteurs :
Pour que le splatting gaussien fonctionne efficacement, les images d'entraînement doivent généralement être statiques. Les objets en mouvement (tels que les piétons ou les voitures) dans les photos sources peuvent provoquer des artefacts appelés « floaters ». Les pipelines avancés utilisent la segmentation d'instance pour masquer automatiquement ces éléments dynamiques avant d'entraîner le modèle de splatting.
Ultralytics permet aux équipes de gérer des ensembles de données et de former des modèles pouvant aider dans cette phase de prétraitement. Voici comment on pourrait utiliser un modèle de segmentation pour créer des masques pour un ensemble de données destiné à la reconstruction 3D :
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")
Le splatting gaussien représente une évolution de la vision par ordinateur vers des méthodes hybrides qui combinent la capacité d'apprentissage du deep learning avec l' efficacité de l'infographie classique. Cette technique évolue rapidement, les chercheurs explorant des moyens de compresser la taille des fichiers (qui peut être importante) et de l'intégrer à l' IA générative afin de créer des ressources 3D à partir de invites textuelles. À mesure que les accélérateurs matériels tels que les GPU continuent de s'améliorer, le Gaussian Splatting est susceptible de devenir la norme pour capturer et rendre le monde réel sous forme numérique.