Główne pojęcia
脊椎関連の画像解析研究を促進するために、1,005件のCTボリューム(50万枚以上のラベル付きスライスと11,000個以上の脊椎)を含む大規模な脊椎CTデータセット「CTSpine1K」が構築・公開された。
Streszczenie
CTSpine1Kデータセットの概要
本稿では、脊椎関連の画像解析研究、特に脊椎のセグメンテーションにおいて、大規模で包括的なデータセットであるCTSpine1Kを紹介する。CTSpine1Kは、多様な外観のバリエーションを持つ1,005件のCTボリューム(50万枚以上のラベル付きスライスと11,000個以上の脊椎)で構成されている。
データセットの構築
CTSpine1Kは、実際の外観のバリエーションを再現するために、以下の4つのオープンソースから収集された大規模な脊椎CTデータセットである。
- COLONOG:CTコロノグラフィー試験に関連するCOLONOGRAPHYデータセット
- HNSCC-3DCT-RT:頭頸部扁平上皮癌(HNSCC)患者31名の前、中、後治療中に収集された3次元(3D)高解像度ファンビームCTスキャン
- MSD T10:第10回Medical Segmentation Decathlonのtask03肝臓データセット
- COVID-19:COVID-19感染患者632名からの非造影胸部CT
データアノテーション
医学画像のアノテーションは時間と労力を要する作業であるため、アノテーションの前に統一された厳格なラベリング基準とパイプラインが設計された。
- アノテーション作業負荷を軽減するため、VerSe'19およびVerSe'20チャレンジの公開データセットを使用して、nnUnetアルゴリズムを用いてセグメンテーションネットワークを学習させた。
- アノテーション対象の画像に対して、学習済みセグメンテーションモデルを用いてセグメンテーションマスクを予測し、ジュニアアノテーターが予測結果に基づいてラベルを修正した。
- ジュニアアノテーターによる修正されたラベルはすべて、2名のシニアアノテーターによってチェックされ、さらに修正された。
- シニアアノテーターがアノテーションの決定に困難を感じた場合、そのデータは、平均12年の画像読影経験を持つ訓練を受けた脊椎外科医に送られた。
- 最終的に、これらすべてのアノテーションラベルは、コーディネーターによるランダムなダブルチェックを受け、最終的なアノテーションの品質が保証された。
- ダブルチェックで誤りがあった場合は、アノテーターによって修正された。そして、人間が修正したアノテーションとそれに対応する画像は、より強力なモデルを再トレーニングするためにトレーニングデータに追加された。
- アノテーションプロセスを高速化するため、100症例ごとにデータベースを更新し、深層学習モデルを再トレーニングした。
ベンチマーク実験
CTSpine1Kに基づき、脊椎セグメンテーション用の深層ネットワークを学習させることで、ベンチマークを確立した。近年、nnUnetモデルは、多くの医用画像セグメンテーションタスクにおいて、他の手法よりも優れた結果を達成しており、医用画像セグメンテーションの標準的なベースラインとなっている。nnUnetは本質的にはU-Netであるが、データセットの特性に自己適応する特定のネットワークアーキテクチャ、設計パラメータ、トレーニングパラメータと、強力なデータ拡張を備えている。
実験結果
実験の結果、提案されたデータセットを用いて学習したモデルは、CTSpine1Kデータセットにおいて良好な性能を達成することができた。しかし、VerSeチャレンジデータセットでは、はるかに悪い性能となった。これは、アノテーションされたデータセットと公開データセットの間には明らかなドメインギャップがあることを示している。
結論
本研究では、1,005件のCTスキャンと11,000個以上の脊椎を含む大規模な脊椎CTデータセットを収集し、アノテーションを行った。さらに、いくつかのベンチマークとなるセグメンテーション実験を用いて、データセットの有効性を検証した。この研究は、脊椎のセグメンテーション、ラベリング、バイプレーンレントゲン写真からの3次元脊椎再構成など、脊椎関連の状態に関するさらなる研究を促進するのに役立つと考えられる。
Statystyki
CTSpine1Kデータセットには、1,005件のCTボリューム(平均で各スキャンに504枚のスライスと11個のラベル付き脊椎)と、50万枚以上のラベル付き脊椎スライス(サイズ512x512)が含まれている。
CTSpine1Kデータセットは、トレーニングデータセット(610症例)、公開テストデータセット(197症例)、非公開テストデータセット(198症例)に分割されている。
各脊椎(C1からL6まで)には、1から25までの整数値でラベルが付けられている。