Core Concepts
従来の新規視点合成手法は、入力視点分布から大きく外れた視点からのレンダリングに苦戦するが、本論文で提案するSplatFormerは、3Dガウシアンスプラットをポイントトランスフォーマーを用いて洗練することで、この問題を克服し、高品質なアウトオブディストリビューション新規視点合成を実現する。
Abstract
SplatFormer: 堅牢な3Dガウシアンスプラッティングのためのポイントトランスフォーマー
この論文は、コンピュータビジョン分野、特に3Dシーン再構成と新規視点合成における新規手法であるSplatFormerを提案する研究論文である。
本研究は、入力視点分布から大きく外れた視点(アウトオブディストリビューション、OOD)からの新規視点合成における課題に取り組むことを目的とする。従来手法では、このようなOOD視点においてレンダリング品質が大幅に低下するという問題があった。
本論文では、SplatFormerと呼ばれる新規の学習ベースフィードフォワード3Dニューラルモジュールを提案する。
初期3Dガウシアンスプラットの生成: まず、入力画像群から3Dガウシアンスプラッティング(3DGS)を用いて、シーンの初期表現を生成する。
SplatFormerによる洗練: 初期表現は入力視点に偏っているため、SplatFormerを用いてフィードフォワード的に洗練する。SplatFormerは、ポイントトランスフォーマーV3アーキテクチャに基づく階層的なエンコーダ・デコーダ構造を持つ。
エンコーダは、各スプラットに抽象的な特徴ベクトルを割り当てることで、3Dプリミティブの重要な詳細をカプセル化する。
デコーダは、この潜在表現をスプラット属性の残差に変換し、初期スプラットに追加することで、OOD新規視点合成に対してより堅牢な洗練されたスプラットセットを生成する。
データ駆動型事前知識の学習: SplatFormerは、大規模な3D形状データセットを用いて学習され、データ駆動型事前知識を獲得する。これにより、入力視点へのバイアスを修正し、OODシナリオにおいてより正確で一貫性のある再構成が可能になる。