本論文は、大規模言語モデル(LLM)を用いて手話動画を効果的に翻訳する新しい手法「SignLLM」を提案している。
まず、VQ-Signモジュールを用いて手話動画を離散的な文字レベルの手話トークンに変換する。次に、Codebook Reconstruction and Alignment (CRA)モジュールを使って、これらの文字レベルトークンを単語レベルの手話トークンに再構成する。これにより、手話表現に言語的な階層構造を持たせ、LLMが理解しやすい形式に変換する。
最後に、変換された手話表現をLLMに入力し、所望の言語への翻訳を行う。
実験の結果、提案手法は既存の手話翻訳手法を大きく上回る性能を示した。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Jia Gong,Lin... о arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00925.pdfГлибші Запити