Glossaire

Splatting gaussien

Découvrez le splatting gaussien pour la reconstruction photoréaliste de scènes 3D. Découvrez comment il permet le rendu en temps réel et s'intègre à Ultralytics pour la vision.

Le splatting gaussien est une technique moderne de rastérisation utilisée en infographie et en vision par ordinateur pour reconstruire des scènes 3D photoréalistes à partir d'un ensemble d'images 2D. Contrairement à la modélisation 3D traditionnelle qui repose sur des maillages polygonaux, ou aux récentes avancées de l'IA telles que les Neural Radiance Fields (NeRF) qui utilisent des réseaux neuronaux pour approximer une scène, le Gaussian Splatting représente une scène comme un ensemble de millions de distributions gaussiennes 3D (ellipsoïdes). Cette méthode permet un rendu en temps réel à des fréquences d'images élevées (souvent supérieures à 100 FPS) tout en conservant une fidélité visuelle exceptionnelle, ce qui résout un goulot d'étranglement majeur en termes de performances que l'on trouvait dans les méthodes de synthèse de vue précédentes .

Comment fonctionne le splatting gaussien

L'idée centrale consiste à représenter l'espace 3D de manière explicite plutôt qu'implicite. Dans un flux de travail classique, le processus commence par un nuage de points clairsemé généré à partir d'un ensemble de photos à l'aide d'une technique appelée Structure from Motion (SfM). Chaque point de ce nuage est ensuite initialisé comme une gaussienne 3D.

Au cours du processus d'apprentissage, le système optimise plusieurs paramètres pour chaque gaussienne :

Position : les coordonnées 3D (X, Y, Z) dans la scène.
Covariance : elle détermine la forme et la rotation de l'ellipsoïde (par exemple, le degré d'étirement ou d'inclinaison de la « tache »).
Opacité : degré de transparence ou d'opacité du gaussien (valeur alpha).
Couleur : représentée à l'aide d' harmoniques sphériques, ce qui permet à la couleur de changer en fonction de l'angle de vue, capturant ainsi des reflets et des effets d'éclairage réalistes.

Le terme « splatting » fait référence au processus de tramage par lequel ces gaussiennes 3D sont projetées — ou « éclaboussées » — sur le plan 2D de la caméra pour former une image. Cette projection est entièrement différentiable, ce qui signifie que des algorithmes standard de descente de gradient peuvent être utilisés pour minimiser la différence entre l'image rendue et la photo originale de référence.

Splatting gaussien vs NeRF

Bien que ces deux techniques visent à générer de nouvelles vues d'une scène, elles diffèrent fondamentalement en termes d'architecture et de performances. Le NeRF (Neural Radiance Fields) encode une scène dans les poids d'un réseau neuronal. Le rendu d'un NeRF nécessite d'interroger ce réseau des millions de fois pour chaque image (ray marching), ce qui est coûteux et lent en termes de calcul.

En revanche, le Gaussian Splatting utilise une représentation explicite (la liste des gaussiennes). Cela lui permet d'utiliser une rasterisation efficace basée sur des tuiles, similaire à la façon dont les jeux vidéo rendent les graphiques. Par conséquent, le Gaussian Splatting est nettement plus rapide à entraîner et à rendre que les NeRF, ce qui le rend plus viable pour les applications grand public et l' inférence en temps réel.

Applications concrètes

La rapidité et la qualité du Gaussian Splatting ont ouvert de nouvelles perspectives dans divers secteurs :

Tourisme virtuel et immobilier : les créateurs peuvent capturer un musée, un site historique ou une maison à vendre à l'aide d'un drone ou d'un smartphone. Le Gaussian Splatting permet aux utilisateurs distants d'explorer ces espaces en réalité virtuelle (RV) avec 6 degrés de liberté (6DoF), en voyant des détails fins tels que les reflets sur les parquets, que la photogrammétrie traditionnelle pourrait manquer.
Simulation automobile : les entreprises qui développent des véhicules autonomes ont besoin d'énormes quantités de données pour tester leurs algorithmes de perception. Le splatting gaussien permet de reconstruire des quartiers urbains réels à partir de données de capteurs, créant ainsi un environnement de simulation photoréaliste. Dans ces environnements, des modèles de vision tels que Ultralytics peuvent être testés afin de s'assurer qu'ils identifient correctement les dangers dans des scénarios 3D complexes.

Prétraitement pour le splatting avec la vision par ordinateur

Pour que le splatting gaussien fonctionne efficacement, les images d'entraînement doivent généralement être statiques. Les objets en mouvement (tels que les piétons ou les voitures) dans les photos sources peuvent provoquer des artefacts appelés « floaters ». Les pipelines avancés utilisent la segmentation d'instance pour masquer automatiquement ces éléments dynamiques avant d'entraîner le modèle de splatting.

Ultralytics permet aux équipes de gérer des ensembles de données et de former des modèles pouvant aider dans cette phase de prétraitement. Voici comment on pourrait utiliser un modèle de segmentation pour créer des masques pour un ensemble de données destiné à la reconstruction 3D :

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])

# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
    result.save_masks("scan_frame_001_mask.png")

Importance dans le domaine de l'IA et tendances futures

Le splatting gaussien représente une évolution de la vision par ordinateur vers des méthodes hybrides qui combinent la capacité d'apprentissage du deep learning avec l' efficacité de l'infographie classique. Cette technique évolue rapidement, les chercheurs explorant des moyens de compresser la taille des fichiers (qui peut être importante) et de l'intégrer à l' IA générative afin de créer des ressources 3D à partir de invites textuelles. À mesure que les accélérateurs matériels tels que les GPU continuent de s'améliorer, le Gaussian Splatting est susceptible de devenir la norme pour capturer et rendre le monde réel sous forme numérique.

Splatting gaussien

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Comment fonctionne le splatting gaussien

Splatting gaussien vs NeRF

Applications concrètes

Prétraitement pour le splatting avec la vision par ordinateur

Importance dans le domaine de l'IA et tendances futures

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics