本論文は、リモートセンシングにおけるビジョン・言語モデルの研究動向を包括的に概説している。
まず、従来のビジョンモデルとしてのCNNや最新のビジョントランスフォーマーについて説明している。次に、大規模言語モデルであるGPTやBERTなどの発展について述べている。そして、これらのビジョンモデルと言語モデルを統合したビジョン・言語モデルについて解説している。
ビジョン・言語モデルには、融合エンコーダ型とデュアルエンコーダ型の2つのアーキテクチャがある。前者は視覚特徴と言語特徴を統合的に処理し、後者は個別に処理した後に相互作用を捉える。代表的なモデルとしてVisualBERT、ViLBERT、CLIP、BLIP-2などが紹介されている。
次に、リモートセンシングにおけるビジョン・言語モデルの具体的な応用例について述べている。画像キャプショニング、テキスト指定画像生成、テキスト指定画像検索、視覚的質問応答、シーン分類、セマンティックセグメンテーション、物体検出などの各タスクで、代表的な研究成果が紹介されている。
最後に、現状の課題と今後の研究の方向性について言及している。リモートセンシングデータの特性に合わせたモデル設計や、大規模データの収集・アノテーションの必要性などが指摘されている。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询