Gaussian Splatting
Erforsche Gaussian Splatting für fotorealistische 3D-Szenenrekonstruktion. Lerne, wie es Echtzeit-Rendering ermöglicht und sich in Ultralytics YOLO26 für Vision integriert.
Gaussian Splatting ist ein modernes Rasterisierungsverfahren, das in der Computergrafik und im Computer Vision eingesetzt wird, um fotorealistische 3D-Szenen aus einer Reihe von 2D-Bildern zu rekonstruieren. Im Gegensatz zur traditionellen 3D-Modellierung, die auf Polygon-Meshes basiert, oder neueren KI-Entwicklungen wie Neural Radiance Fields (NeRF), die neuronale Netze zur Approximation einer Szene verwenden, stellt Gaussian Splatting eine Szene als eine Sammlung von Millionen von 3D-Gauß-Verteilungen (Ellipsoiden) dar. Diese Methode ermöglicht Echtzeit-Rendering bei hohen Bildraten (oft über 100 FPS) bei gleichbleibend hoher visueller Wiedergabetreue und löst damit einen wesentlichen Leistungsengpass bei bisherigen View-Synthesis-Methoden.
Link to this sectionSo funktioniert Gaussian Splatting#
Die Grundidee besteht darin, den 3D-Raum explizit statt implizit darzustellen. In einem typischen Arbeitsablauf beginnt der Prozess mit einer dünnen Punktwolke, die aus einer Reihe von Fotos mittels einer Technik namens Structure from Motion (SfM) generiert wurde. Jeder Punkt in dieser Wolke wird dann als 3D-Gauß-Verteilung initialisiert.
Während des Trainingsprozesses optimiert das System mehrere Parameter für jede Gauß-Verteilung:
- Position: Die 3D-Koordinaten (X, Y, Z) in der Szene.
- Kovarianz: Dies bestimmt die Form und Rotation des Ellipsoids (z. B. wie gestreckt oder geneigt der "Splat" ist).
- Opazität: Wie transparent oder solide die Gauß-Verteilung erscheint (Alpha-Wert).
- Farbe: Dargestellt durch Spherical Harmonics, was es ermöglicht, die Farbe je nach Betrachtungswinkel zu ändern und realistische Reflexionen und Lichteffekte einzufangen.
Der Begriff "Splatting" bezieht sich auf den Rasterisierungsprozess, bei dem diese 3D-Gauß-Verteilungen auf die 2D-Kameraebene projiziert – oder "gesplattet" – werden, um ein Bild zu bilden. Diese Projektion ist vollständig differenzierbar, was bedeutet, dass Standardalgorithmen für den Gradientenabstieg verwendet werden können, um den Unterschied zwischen dem gerenderten Bild und dem ursprünglichen Ground-Truth-Foto zu minimieren.
Link to this sectionGaussian Splatting vs. NeRF#
Obwohl beide Techniken darauf abzielen, neue Ansichten einer Szene zu generieren, unterscheiden sie sich grundlegend in Architektur und Leistung. NeRF (Neural Radiance Fields) kodiert eine Szene in den Gewichten eines neuronalen Netzes. Das Rendern eines NeRF erfordert Millionen von Anfragen an dieses Netzwerk für jeden einzelnen Frame (Ray Marching), was rechenintensiv und langsam ist.
Im Gegensatz dazu verwendet Gaussian Splatting eine explizite Darstellung (die Liste der Gauß-Verteilungen). Dies ermöglicht die Nutzung einer effizienten kachelbasierten Rasterisierung, ähnlich wie bei der Grafikdarstellung in Videospielen. Folglich ist Gaussian Splatting wesentlich schneller im Training und Rendering als NeRFs, was es für Verbraucheranwendungen und Echtzeit-Inferenz geeigneter macht.
Link to this sectionPraxisanwendungen#
Die Geschwindigkeit und Qualität von Gaussian Splatting haben neue Möglichkeiten in verschiedenen Branchen eröffnet:
- Virtueller Tourismus und Immobilien: Ersteller können ein Museum, eine historische Stätte oder ein Haus zum Verkauf mit einer Drohne oder einem Smartphone erfassen. Gaussian Splatting ermöglicht es Remote-Nutzern, diese Räume in Virtual Reality (VR) mit 6 Freiheitsgraden (6DoF) zu erkunden und feine Details wie Reflexionen auf Parkettböden zu sehen, die bei traditioneller Photogrammetrie verloren gehen könnten.
- Automotive-Simulation: Unternehmen, die autonome Fahrzeuge entwickeln, benötigen riesige Datenmengen, um ihre Wahrnehmungsalgorithmen zu testen. Gaussian Splatting kann reale Stadtviertel aus Sensordaten rekonstruieren und eine fotorealistische Simulationsumgebung schaffen. Innerhalb dieser Umgebungen können Vision-Modelle wie Ultralytics YOLO26 getestet werden, um sicherzustellen, dass sie Gefahren in komplexen 3D-Szenarien korrekt identifizieren.
Link to this sectionVorverarbeitung für Splatting mit Computer Vision#
Damit Gaussian Splatting effektiv funktioniert, müssen die Trainingsbilder in der Regel statisch sein. Sich bewegende Objekte (wie Fußgänger oder Autos) auf den Quellfotos können Artefakte verursachen, die als "Floater" bezeichnet werden. Fortschrittliche Pipelines nutzen Instanzsegmentierung, um diese dynamischen Elemente vor dem Training des Splat-Modells automatisch zu maskieren.
Die Ultralytics Platform ermöglicht es Teams, Datensätze zu verwalten und Modelle zu trainieren, die bei dieser Vorverarbeitungsphase helfen können. Hier erfährst du, wie man ein Segmentierungsmodell verwendet, um Masken für einen Datensatz zu erstellen, der für die 3D-Rekonstruktion vorgesehen ist:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")Link to this sectionBedeutung in der KI und zukünftige Trends#
Gaussian Splatting repräsentiert einen Wandel im Computer Vision hin zu hybriden Methoden, die die Lernfähigkeit von Deep Learning mit der Effizienz klassischer Computergrafik kombinieren. Diese Technik entwickelt sich rasant weiter, wobei Forscher Wege erforschen, die Dateigrößen zu komprimieren (die groß sein können) und sie mit generativer KI zu integrieren, um 3D-Assets aus Text-Prompts zu erstellen. Da Hardware-Beschleuniger wie GPUs immer besser werden, wird Gaussian Splatting wahrscheinlich zum Standard für das Erfassen und Rendern der realen Welt in digitaler Form.






