이 연구에서는 MaxViT-UNet이라는 새로운 하이브리드 인코더-디코더 아키텍처를 제안한다. 이 프레임워크는 UNet 구조를 기반으로 하며, 다축 주의 집중 메커니즘을 활용하여 의료 영상 분할 성능을 크게 향상시킨다.
인코더 부분에서는 MaxViT 아키텍처를 사용하여 계층적인 특징 표현을 생성한다. 디코더 부분에서는 새로운 하이브리드 디코더 블록을 제안하였는데, 이는 합성곱과 다축 주의 집중 메커니즘을 효과적으로 결합하여 지역적 및 전역적 정보를 모두 활용할 수 있다.
제안된 MaxViT-UNet 프레임워크는 MoNuSeg18과 MoNuSAC20 데이터셋에서 기존의 CNN 기반 및 Transformer 기반 방법들을 크게 능가하는 성능을 보였다. 특히 다축 주의 집중 메커니즘이 적용된 하이브리드 디코더 블록이 핵심적인 역할을 하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문