이 논문은 비주얼 텍스트 파싱(VsTP) 작업을 위한 통합 프레임워크 OMNIPARSER을 제안한다. OMNIPARSER은 텍스트 탐지, 핵심 정보 추출, 테이블 인식 등 3가지 주요 VsTP 작업을 단일 모델로 동시에 처리할 수 있다.
OMNIPARSER의 핵심 구조는 다음과 같다:
이러한 두 단계 구조를 통해 OMNIPARSER은 다양한 텍스트 구조와 관계를 효과적으로 처리할 수 있다. 또한 공간 인식 프롬프팅과 내용 인식 프롬프팅 기법을 활용하여 구조화된 포인트 디코더의 성능을 향상시켰다.
실험 결과, OMNIPARSER은 7개의 VsTP 벤치마크 데이터셋에서 최신 기술 수준 이상의 성능을 달성했다. 이는 OMNIPARSER이 단일 모델로 다양한 VsTP 작업을 효과적으로 수행할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jianqiang Wa... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19128.pdfDeeper Inquiries