4D Gaussian Splatting

4D Gaussian Splatting이 동적 장면의 실시간, 실사 같은 렌더링을 어떻게 구현하는지 알아보십시오. Ultralytics YOLO26을 사용하여 움직이는 객체를 분리하는 방법을 배우십시오.

4D Gaussian Splatting은 컴퓨터 비전 및 딥러닝 분야에서 최첨단 렌더링 기법으로, 기존 3D 장면 표현 원리에 시간(temporal) 차원을 추가한 것입니다. 기존 3D 모델링이 정적인 환경을 포착하는 반면, 4D Gaussian Splatting은 움직이는 동적 장면을 사실적으로 실시간 렌더링할 수 있게 합니다. 이 기술은 객체와 환경이 시간에 따라 변형되고 이동하는 방식을 모델링함으로써 정적 이미지와 생생한 비디오 합성 사이의 간극을 메우며, 높은 프레임 속도에서 전례 없는 수준의 시각적 충실도를 제공합니다.

4D Gaussian Splatting의 작동 원리

이 아키텍처는 연속적인 수학 함수를 사용하여 주어진 모든 타임스탬프에서 각 가우시안(Gaussian)의 상태를 추적합니다. 최적화 과정 중에 머신러닝 알고리즘은 시간적 변형 필드와 함께 공간 좌표(X, Y, Z) 및 색상 값을 업데이트합니다. 연구자들은 종종 공식 PyTorch 문서나 TensorFlow 가이드에 기록된 기본 라이브러리를 활용하여 이러한 시간 모델을 학습시키는 데 필요한 복잡한 역전파(backpropagation)를 처리합니다.

The system minimizes the difference between the rendered output and the ground-truth video sequence. Recent breakthroughs published in academic archives like arXiv and the ACM Digital Library have shown that decoupling the static background from dynamic foreground elements vastly improves training stability.

실제 AI 및 ML 애플리케이션

몰입형 가상 현실(VR): 4D Gaussian Splatting은 VR 및 증강 현실을 위해 역동적인 인간의 동작을 포착하는 데 널리 사용됩니다. 복잡한 모션 캡처 수트에 의존하는 대신, 제작자는 여러 각도에서 배우를 촬영하고 해당 동작에 대해 완전히 탐색 가능한 자유 시점 비디오를 생성할 수 있습니다.
자율 주행 차량 및 로봇 공학: 자율 주행 차량은 주변 환경에 대한 강력한 이해가 필요합니다. 엔지니어들은 움직이는 보행자와 교통 상황을 포함한 역동적인 거리 장면을 재구성함으로써, 실제 배포 전에 안전하게 자율 주행 모델을 테스트할 수 있는 매우 사실적인 시뮬레이션을 만들 수 있습니다.

4D 재구성을 위한 데이터 준비

고품질 4D 장면을 생성하는 데 있어 중요한 단계는 정적 배경으로부터 움직이는 객체를 분리하는 것입니다. 개발자들은 스플래팅 프로세스를 시작하기 전에 객체 추적(object tracking)과 인스턴스 세분화(instance segmentation)을 사용하여 동적 마스크를 생성하는 경우가 많습니다.

Ultralytics YOLO26 모델을 사용하여 비디오 내의 움직이는 객체를 쉽게 추적하고 분리할 수 있습니다. 다음 코드는 전처리 워크플로우 중에 이를 실행하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")

# Run real-time tracking on a dynamic scene video to isolate moving subjects
results = model.track(source="dynamic_scene.mp4", show=True, save=True)

현대적인 생성형 AI 워크플로우를 활용하여 팀은 녹화된 비디오와 주석을 Ultralytics Platform에 직접 업로드하여 데이터셋을 효율적으로 관리할 수 있습니다. 그곳에서 모델 학습 팁을 적용하면 결과물인 바운딩 박스가 동적 요소를 완벽하게 마스킹하여, 깨끗한 4D 장면 생성을 위한 기반을 마련할 수 있습니다. Google DeepMind 및 OpenAI와 같은 조직의 고급 연구에 따르면 객체 인식 공간 마스킹을 통합하는 것이 시간적 뷰 합성 분야에서 표준적인 모범 사례로 자리 잡고 있습니다.

4D Gaussian Splatting

관련 렌더링 기법과의 차이점