Centrala begrepp
MedCLIP-SAMは、CLIP及びSAMの基盤モデルを組み合わせることで、テキストプロンプトを使った対話型かつ汎用的な医療画像セグメンテーションを実現する。
Sammanfattning
本研究では、MedCLIP-SAMと呼ばれる新しいフレームワークを提案している。このフレームワークは、CLIP及びSAMの基盤モデルを組み合わせることで、テキストプロンプトを使った対話型かつ汎用的な医療画像セグメンテーションを実現する。
具体的には以下の3つの主要な貢献がある:
- 新しいCLIP fine-tuningの手法「Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE)」を提案した。これにより、小さなバッチサイズでも効率的な学習が可能となる。
- CLIPとSAMを組み合わせた零shot医療画像セグメンテーション手法を提案した。これにより、ラベル付きデータが少ない医療分野でも高精度なセグメンテーションが可能となる。
- 零shot セグメンテーションの結果を更に改善するための弱教師付き学習手法を提案した。
実験では、乳がん超音波画像、脳腫瘍MRI、肺X線画像の3つの医療画像データセットを用いて評価を行った。その結果、提案手法が優れた精度を示すことが確認された。特に、零shot セグメンテーションの精度は、完全教師あり学習の手法を上回る結果が得られた。
Statistik
乳がん超音波画像のセグメンテーションでは、零shot手法のIoUが57.97%、DSCが67.82%、AUCが79.31%であった。
脳腫瘍MRIのセグメンテーションでは、零shot手法のIoUが50.30%、DSCが66.72%、AUCが81.35%であった。
肺X線画像のセグメンテーションでは、零shot手法のIoUが49.06%、DSCが64.49%、AUCが78.54%であった。