Gaussian Splatting
Explora el Gaussian Splatting para la reconstrucción fotorrealista de escenas 3D. Aprende cómo permite el renderizado en tiempo real y se integra con Ultralytics YOLO26 para la visión artificial.
Gaussian Splatting es una técnica moderna de rasterización utilizada en gráficos por ordenador y visión artificial para reconstruir escenas 3D fotorrealistas a partir de un conjunto de imágenes 2D. A diferencia del modelado 3D tradicional que se basa en mallas de polígonos, o de avances recientes de IA como Neural Radiance Fields (NeRF) que utilizan redes neuronales para aproximar una escena, Gaussian Splatting representa una escena como una colección de millones de distribuciones Gaussianas 3D (elipsoides). Este método permite renderizar en tiempo real a altas frecuencias de fotogramas (a menudo superando los 100 FPS) mientras mantiene una fidelidad visual excepcional, resolviendo un cuello de botella importante en el rendimiento encontrado en métodos previos de síntesis de vistas.
Link to this sectionCómo funciona Gaussian Splatting#
La idea central gira en torno a representar el espacio 3D de forma explícita en lugar de implícita. En un flujo de trabajo típico, el proceso comienza con una nube de puntos dispersa generada a partir de un conjunto de fotos usando una técnica llamada Structure from Motion (SfM). Cada punto en esta nube se inicializa entonces como una Gaussiana 3D.
Durante el proceso de entrenamiento, el sistema optimiza varios parámetros para cada Gaussiana:
- Posición: Las coordenadas 3D (X, Y, Z) en la escena.
- Covarianza: Esto determina la forma y rotación del elipsoide (por ejemplo, qué tan estirado o inclinado está el "splat").
- Opacidad: Qué tan transparente o sólido parece el Gaussiano (valor alfa).
- Color: Representado usando Armónicos Esféricos, permitiendo que el color cambie dependiendo del ángulo de visión, capturando reflejos realistas y efectos de iluminación.
El término "splatting" se refiere al proceso de rasterización donde estas Gaussianas 3D se proyectan —o "se despliegan" (splatted)— sobre el plano de la cámara 2D para formar una imagen. Esta proyección es totalmente diferenciable, lo que significa que se pueden utilizar algoritmos estándar de descenso de gradiente para minimizar la diferencia entre la imagen renderizada y la foto original de referencia.
Link to this sectionGaussian Splatting frente a NeRF#
Aunque ambas técnicas tienen como objetivo generar vistas novedosas de una escena, difieren fundamentalmente en arquitectura y rendimiento. NeRF (Neural Radiance Fields) codifica una escena dentro de los pesos de una red neuronal. Renderizar un NeRF requiere consultar esta red millones de veces por cada fotograma (ray marching), lo cual es computacionalmente costoso y lento.
Por el contrario, Gaussian Splatting utiliza una representación explícita (la lista de Gaussianas). Esto le permite utilizar una rasterización eficiente basada en teselas similar a como los videojuegos renderizan gráficos. En consecuencia, Gaussian Splatting es significativamente más rápido de entrenar y renderizar que los NeRF, lo que lo hace más viable para aplicaciones de consumo y inferencia en tiempo real.
Link to this sectionAplicaciones en el mundo real#
La velocidad y calidad de Gaussian Splatting han abierto nuevas puertas en diversas industrias:
- Turismo Virtual e Inmobiliaria: Los creadores pueden capturar un museo, un sitio histórico o una casa en venta usando un dron o un teléfono inteligente. Gaussian Splatting permite a usuarios remotos explorar estos espacios en Realidad Virtual (VR) con 6 grados de libertad (6DoF), viendo detalles finos como reflejos en suelos de madera que la fotogrametría tradicional podría pasar por alto.
- Simulación Automotriz: Las empresas que desarrollan vehículos autónomos necesitan grandes cantidades de datos para probar sus algoritmos de percepción. Gaussian Splatting puede reconstruir bloques de ciudades del mundo real a partir de datos de sensores, creando un entorno de simulación fotorrealista. Dentro de estos entornos, modelos de visión como Ultralytics YOLO26 pueden ser probados para asegurar que identifiquen correctamente los peligros en escenarios 3D complejos.
Link to this sectionPreprocesamiento para Splatting con Visión Artificial#
Para que Gaussian Splatting funcione eficazmente, las imágenes de entrenamiento normalmente deben ser estáticas. Los objetos en movimiento (como peatones o coches) en las fotos de origen pueden causar artefactos llamados "floaters". Los flujos de trabajo avanzados utilizan segmentación de instancias para enmascarar automáticamente estos elementos dinámicos antes de entrenar el modelo splat.
La Plataforma Ultralytics permite a los equipos gestionar conjuntos de datos y entrenar modelos que pueden ayudar en esta fase de preprocesamiento. Aquí tienes cómo podrías utilizar un modelo de segmentación para crear máscaras para un conjunto de datos destinado a la reconstrucción 3D:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")Link to this sectionSignificado en la IA y Tendencias Futuras#
Gaussian Splatting representa un cambio en la visión artificial hacia métodos híbridos que combinan la capacidad de aprendizaje del Deep Learning con la eficiencia de los gráficos por ordenador clásicos. Esta técnica está evolucionando rápidamente, con investigadores explorando formas de comprimir los tamaños de los archivos (que pueden ser grandes) e integrarla con la IA generativa para crear activos 3D a partir de textos. A medida que los aceleradores de hardware como las GPUs sigan mejorando, es probable que Gaussian Splatting se convierta en el estándar para capturar y renderizar el mundo real en forma digital.






