이 논문은 3D 의료 영상 분석을 위한 다중 모달 대형 언어 모델의 발전을 다룹니다.
주요 내용은 다음과 같습니다:
120K 개의 이미지-텍스트 쌍과 662K 개의 명령-응답 쌍으로 구성된 대규모 3D 다중 모달 의료 데이터셋 M3D-Data를 구축했습니다.
3D 의료 영상 분석을 위한 다목적 다중 모달 대형 언어 모델 M3D-LaMed를 제안했습니다. 이 모델은 이미지-텍스트 검색, 보고서 생성, 시각적 질문 답변, 위치 지정, 분할 등의 다양한 작업을 수행할 수 있습니다.
8가지 작업을 포함하는 포괄적인 3D 다중 모달 벤치마크 M3D-Bench를 소개했습니다. 이를 통해 3D 의료 영상 분석 모델의 성능을 자동으로 평가할 수 있습니다.
포괄적인 평가를 통해 M3D-LaMed 모델이 기존 솔루션을 능가하는 강력한 3D 의료 영상 분석 모델임을 입증했습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Fan Bai,Yuxi... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00578.pdfYêu cầu sâu hơn