이 논문은 3D 의료 영상 분석을 위한 다중 모달 대형 언어 모델의 발전을 다룹니다.
주요 내용은 다음과 같습니다:
120K 개의 이미지-텍스트 쌍과 662K 개의 명령-응답 쌍으로 구성된 대규모 3D 다중 모달 의료 데이터셋 M3D-Data를 구축했습니다.
3D 의료 영상 분석을 위한 다목적 다중 모달 대형 언어 모델 M3D-LaMed를 제안했습니다. 이 모델은 이미지-텍스트 검색, 보고서 생성, 시각적 질문 답변, 위치 지정, 분할 등의 다양한 작업을 수행할 수 있습니다.
8가지 작업을 포함하는 포괄적인 3D 다중 모달 벤치마크 M3D-Bench를 소개했습니다. 이를 통해 3D 의료 영상 분석 모델의 성능을 자동으로 평가할 수 있습니다.
포괄적인 평가를 통해 M3D-LaMed 모델이 기존 솔루션을 능가하는 강력한 3D 의료 영상 분석 모델임을 입증했습니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Fan Bai,Yuxi... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00578.pdfDybere Forespørgsler