本研究では、ChatCam というシステムを提案しています。このシステムでは、ユーザーが自然言語で指示を出すと、会話型 AI エージェントがそれを理解し、提案した CineGPT と Anchor Determinator というツールを使ってカメラの軌道を生成します。CineGPT は言語理解とカメラ軌道生成を統合したモデルで、テキストに基づいてカメラ軌道を生成できます。Anchor Determinator は、3D シーン内の関連オブジェクトを特定し、カメラ軌道の正確な配置を保証します。会話型 AI エージェントは、ユーザーの要求を解釈し、これらのツールを活用して最終的なカメラ軌道を生成します。実験の結果、提案手法は複雑な指示を解釈し、適切に実行できることが示されました。また、ユーザー評価でも良好な結果が得られ、実際の制作現場での応用が期待できます。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinhang Liu,... at arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17331.pdfDeeper Inquiries