핵심 개념
FP8 포맷을 활용한 양자화 기법을 통해 다양한 딥러닝 모델의 성능을 유지하면서도 계산 비용을 크게 낮출 수 있다.
초록
이 논문은 FP8 포맷을 활용한 포스트 트레이닝 양자화 기법을 제안한다. 다양한 딥러닝 모델과 태스크에 대해 실험을 진행하여 다음과 같은 결과를 도출했다:
-
FP8 포맷은 INT8 대비 더 넓은 동적 범위와 높은 정밀도를 제공하여 다양한 모델과 태스크에서 더 나은 성능을 보였다. 특히 E4M3 포맷은 NLP 모델에, E3M4 포맷은 컴퓨터 비전 모델에 더 적합한 것으로 나타났다.
-
표준 양자화 기법과 확장 양자화 기법을 결합하여 다양한 연산자(Conv, Linear, LayerNorm 등)를 효과적으로 처리할 수 있었다. 또한 동적 양자화를 적용하여 추가적인 성능 향상을 달성했다.
-
75개의 다양한 모델 아키텍처와 200개 이상의 태스크에 대해 실험을 진행했으며, FP8 포맷이 INT8 대비 92.64%의 높은 워크로드 커버리지를 보였다.
이를 통해 FP8 포맷이 INT8 대비 더 나은 성능, 정확도, 그리고 연산자 지원 범위를 제공함을 확인할 수 있었다.
통계
FP8 포맷은 INT8 대비 92.64%의 높은 워크로드 커버리지를 보였다.
E4M3 포맷은 NLP 모델에서 96.32%의 가장 높은 커버리지를 보였다.
E3M4 포맷은 컴퓨터 비전 모델에서 78.95%의 커버리지를 보였다.
인용구
"FP8 formats overall provide higher accuracy, better workload coverage compared to INT8 (92.64% vs. 65.87%) and can handle more operations such as LayerNorm and BatchNorm."
"Our empirical results show that E4M3 is better suited for a broad range of NLP models with a coverage of 96.32% compared to E3M4 (92.11%), while E3M4 performs slightly better on computer vision models with 78.95% coverage compared to E4M3 (73.68%)."