フォトリアリスティックな3Dシーン再構築のためのガウススプラッティングを探求しましょう。リアルタイムレンダリングを可能にし、Ultralytics と統合してビジョンを実現する方法を学びます。
ガウス・スプラッティングは、コンピュータグラフィックスやコンピュータビジョンにおいて、一連の2D画像から写実的な3Dシーンを再構築するために用いられる現代的なラスタライズ技術である。ポリゴンメッシュに依存する従来の3Dモデリングや、 ニューラルラディアンスフィールド(NeRF)のような ニューラルネットワークを用いた近似手法とは異なり、ガウススプラッティングはシーンを数百万の3Dガウス分布(楕円体)の集合として表現する。この手法は、卓越した視覚的忠実度を維持しつつ高フレームレート(多くの場合100FPSを超える)でのリアルタイムレンダリングを可能にし、従来のビュー合成手法に見られた主要な性能ボトルネックを解決する。
中核となる考え方は、3D空間を暗黙的にではなく明示的に表現することに焦点を当てています。典型的なワークフローでは、 プロセスは写真群から構造から運動(Structure from Motion: SfM)と呼ばれる技術を用いて生成された疎な点群から始まります。この点群内の各点は、その後3Dガウス分布として初期化されます。
トレーニングプロセス中、システムは各ガウス関数について複数のパラメータを最適化します:
「スプラッティング」とは、これらの3Dガウス関数を2Dカメラ平面に投影(スプラッティング)して画像を形成するラスタライズ処理を指す。この投影は完全に微分可能であり、標準的な勾配降下法を用いてレンダリング画像と元の真値写真との差異を最小化できる。
両手法ともシーンの新たな視点を生成することを目的とするが、アーキテクチャと性能において根本的に異なる。 NeRF(ニューラル放射場)はシーンをニューラルネットワークの重みの中に符号化する。 NeRFのレンダリングには、1フレームごとにこのネットワークへの数百万回の問い合わせ(レイマーチング)が必要であり、計算コストが高く遅い。
対照的に、ガウススプラッティングは明示的な表現(ガウスのリスト)を用いる。これにより、ビデオゲームがグラフィックスをレンダリングするのと同様の効率的なタイルベースのラスタライズを利用できる。結果として、ガウススプラッティングはNeRFよりも学習とレンダリングが大幅に高速であり、消費者向けアプリケーションやリアルタイム推論においてより実用的な選択肢となる。
ガウススプラッティングの速度と品質は、様々な産業分野に新たな可能性をもたらしました:
ガウススプラッティングを効果的に機能させるには、通常、トレーニング画像は静止している必要があります。ソース写真内の移動物体(歩行者や自動車など)は「フローター」と呼ばれるアーティファクトを引き起こす可能性があります。高度なパイプラインでは、スプラットモデルのトレーニング前にインスタンスセグメンテーションを用いてこれらの動的要素を自動的にマスク処理します。
Ultralytics では、チームがデータセットを管理し、 この前処理段階を支援できるモデルをトレーニングできます。以下に、セグメンテーションモデルを使用して3D再構築を目的としたデータセットのマスクを作成する方法を示します:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")
ガウススプラッティングは、ディープラーニングの学習可能性と古典的コンピュータグラフィックスの効率性を融合したハイブリッド手法へのコンピュータビジョンの転換を示す。この技術は急速に進化しており、研究者らはファイルサイズ(膨大な場合がある)の圧縮方法や、生成AIとの統合によるテキストプロンプトからの3Dアセット生成手法を模索している。 GPUなどのハードウェアアクセラレータが 進化を続ける中、ガウススプラッティングは 現実世界をデジタル形式で捕捉・レンダリングする 標準手法となる可能性が高い。