Concepts de base
본 논문은 주의력 중복 감소와 청크 수준 FFN 구조를 통해 효율적인 음성 인식 네트워크 EfficientASR을 제안한다.
Résumé
본 논문은 효율적인 음성 인식 네트워크 EfficientASR을 제안한다. EfficientASR은 두 가지 주요 모듈을 사용한다:
- 공유 잔차 다중 헤드 주의력(SRMHA) 모듈:
- 네트워크 내 중복 계산을 효과적으로 줄임
- 상위 및 하위 레이어 간 주의력 분포 융합
- 청크 수준 피드포워드 네트워크(CFFN) 모듈:
실험 결과, EfficientASR 모델은 기준 Transformer 모델 대비 36%의 파라미터 감소와 Aishell-1, HKUST 데이터셋에서 각각 0.3%, 0.2%의 CER 성능 향상을 보였다.
Stats
Transformer 모델 대비 EfficientASR 모델의 파라미터 수가 36% 감소했다.
Aishell-1 데이터셋에서 EfficientASR 모델의 CER이 0.3% 감소했다.
HKUST 데이터셋에서 EfficientASR 모델의 CER이 0.2% 감소했다.
Citations
"Transformer 네트워크는 주의력 메커니즘을 통해 장기 의존성을 효과적으로 포착할 수 있지만, 주의력 계산이 계산적으로 비싸고 많은 중복성을 포함한다."
"피드포워드 네트워크는 고차원 특징 매핑을 통해 고수준 표현을 캡처하지만, 이로 인해 네트워크 파라미터가 증가한다."