本論文では、モバイルデバイスへの展開を目的とした効率的な画像-テキストエンコーダ「MobileCLIP」を提案している。
主な内容は以下の通り:
MobileCLIPは、ハイブリッドCNN-Transformerアーキテクチャを採用し、構造的再パラメータリゼーションを利用することで、サイズと待ち時間を大幅に削減している。
提案手法は、画像キャプショニングモデルと強力なCLIPエンコーダアンサンブルからの知識転移を活用した新しい多様モーダル強化学習アプローチを採用している。これにより、従来のCLIP訓練に比べて10倍から1000倍の学習効率を実現している。
DataCompDR-12MおよびDataCompDR-1Bの2つの強化データセットを導入し、効率的なモデル設計と大規模な訓練に活用している。
MobileCLIPファミリーは、ゼロショットタスクにおいて最先端のレイテンシ-精度トレードオフを達成しており、ViT-B/16ベースのCLIPモデルに対して新記録を更新している。
提案手法は、38のベンチマークデータセットにおいて平均2.9%の精度向上を示している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Pavan Kumar ... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.17049.pdfSyvällisempiä Kysymyksiä