フォトリアリスティックな3Dシーン再構築のためのGaussian Splattingを探求しましょう。リアルタイムレンダリングを可能にし、Ultralytics YOLO26と統合してビジョンを実現する方法を学びます。
ガウシアンスプラッティングは、コンピュータグラフィックスおよびコンピュータビジョンで使用される現代的なラスタライズ技術であり、2D画像セットからフォトリアリスティックな3Dシーンを再構築します。ポリゴンメッシュに依存する従来の3Dモデリングや、ニューラルネットワークを使用してシーンを近似するNeural Radiance Fields (NeRF)のような最近のAIの進歩とは異なり、ガウシアンスプラッティングはシーンを数百万の3Dガウス分布(楕円体)の集合として表現します。この手法により、高いフレームレート(しばしば100 FPSを超える)でのリアルタイムレンダリングが可能となり、卓越した視覚的忠実度を維持しつつ、以前のビュー合成手法に見られた主要なパフォーマンスボトルネックを解決します。
核となる考え方は、3D空間を暗黙的にではなく明示的に表現することを中心に展開されます。一般的なワークフローでは、Structure from Motion (SfM)と呼ばれる技術を用いて一連の写真から生成されたスパースな点群からプロセスが始まります。この点群内の各点は、その後3Dガウスとして初期化されます。
トレーニングプロセス中、システムは各ガウス分布に対していくつかのパラメータを最適化します。
「スプラッティング」という用語は、これらの3Dガウスが2Dカメラ平面に投影され(「スプラット」され)、画像を形成するラスタライズ処理を指します。この投影は完全に微分可能であり、標準的な勾配降下アルゴリズムを使用して、レンダリングされた画像と元のグラウンドトゥルース写真との差を最小限に抑えることができます。
両方の手法はシーンの新しい視点を生成することを目的としていますが、アーキテクチャとパフォーマンスにおいて根本的に異なります。NeRF(Neural Radiance Fields)は、ニューラルネットワークの重み内にシーンをエンコードします。NeRFのレンダリングには、単一フレームごとにこのネットワークを何百万回もクエリする(レイマーチング)必要があり、計算コストが高く、処理が遅くなります。
対照的に、ガウシアンスプラッティングは明示的な表現(ガウス分布のリスト)を使用します。これにより、ビデオゲームがグラフィックスをレンダリングする方法と同様に、効率的なタイルベースのラスタライズを利用できます。結果として、ガウシアンスプラッティングはNeRFsよりもトレーニングとレンダリングが大幅に高速であり、消費者向けアプリケーションやリアルタイム推論により適しています。
ガウススプラッティングの速度と品質は、さまざまな業界で新たな扉を開きました。
Gaussian Splattingが効果的に機能するためには、トレーニング画像は通常静止している必要があります。ソース写真内の動く物体(歩行者や車など)は、「フローター」と呼ばれるアーティファクトを引き起こす可能性があります。高度なパイプラインでは、スプラットモデルをトレーニングする前に、インスタンスsegmentationを使用してこれらの動的な要素を自動的にマスクアウトします。
Ultralytics Platformを使用すると、チームはこの前処理フェーズを支援できるデータセットを管理し、モデルをトレーニングできます。以下に、segmentationモデルを使用して3D再構築を目的としたデータセットのマスクを作成する方法を示します。
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")
ガウシアンスプラッティングは、コンピュータビジョンにおける、ディープラーニングの学習可能性と古典的なコンピュータグラフィックスの効率性を組み合わせたハイブリッド手法への転換を表しています。この技術は急速に進化しており、研究者はファイルサイズ(大きくなる可能性がある)を圧縮する方法や、生成AIと統合してテキストプロンプトから3Dアセットを作成する方法を模索しています。GPUのようなハードウェアアクセラレータが改善し続けるにつれて、ガウシアンスプラッティングは、現実世界をデジタル形式でキャプチャおよびレンダリングするための標準となる可能性が高いです。

未来の機械学習で、新たな一歩を踏み出しましょう。