エッジデバイスに適した軽量かつ効率的なXceptionアーキテクチャを提案し、Depthwise Separable ConvolutionとDeep Residual Convolutionを組み合わせることで、パラメータ数、メモリ使用量、計算負荷を削減しながらも、従来のXceptionアーキテクチャを超えるパフォーマンスを実現する。
従来の新規視点合成手法は、入力視点分布から大きく外れた視点からのレンダリングに苦戦するが、本論文で提案するSplatFormerは、3Dガウシアンスプラットをポイントトランスフォーマーを用いて洗練することで、この問題を克服し、高品質なアウトオブディストリビューション新規視点合成を実現する。
従来の逆レンダリングに基づく3Dリライティング手法は計算コストが高く、複雑な光輸送のモデリングが必要となるため、本論文では、単一画像リライティング拡散モデルと潜在NeRFを組み合わせた、より効率的で高品質な3Dリライティング手法「IllumiNeRF」を提案する。
ビデオ内の冗長なコンテンツを処理する際に、従来のビデオLLMが抱える制限を、プロンプトガイドプーリングを用いることで克服し、短編・長編ビデオ両方の理解度向上と効率的な処理を実現する。
自己回帰型テキスト画像生成モデルにおいて、連続トークンを用いたランダム順序モデルは、離散トークンを用いたモデルやラスタ順序モデルと比較して、スケーラビリティと生成画像の品質において優れている。
拡散モデルの事前学習済みU-Netを活用し、高解像度・細粒度のオブジェクトセグメンテーションに最適化された、高速かつ高精度な二値画像セグメンテーションモデル「DiffDIS」を提案する。
RailYolactは、エッジ情報を活用してレールセグメンテーションの精度を高めた、リアルタイムインスタンスセグメンテーションモデルであるYolactの改良版である。
本稿では、大規模再構成モデル(LRM)に基づいた、高速かつ制御可能な3D生成を実現するエンドツーエンドのフィードフォワードモデル、ControLRMを提案する。
GrabDAEは、Grab-Maskモジュールとノイズ除去オートエンコーダ(DAE)を用いることで、教師なしドメイン適応におけるドメインシフト問題に取り組み、視覚分類タスクの精度とロバスト性を向上させる。
ImageNetで事前学習されたCNNとViTは、眼周辺認証において高い性能を発揮し、特に両者を組み合わせることで相乗効果が得られる。