이 논문은 FP8 포맷을 활용한 포스트 트레이닝 양자화 기법을 제안한다. 다양한 딥러닝 모델과 태스크에 대해 실험을 진행하여 다음과 같은 결과를 도출했다:
FP8 포맷은 INT8 대비 더 넓은 동적 범위와 높은 정밀도를 제공하여 다양한 모델과 태스크에서 더 나은 성능을 보였다. 특히 E4M3 포맷은 NLP 모델에, E3M4 포맷은 컴퓨터 비전 모델에 더 적합한 것으로 나타났다.
표준 양자화 기법과 확장 양자화 기법을 결합하여 다양한 연산자(Conv, Linear, LayerNorm 등)를 효과적으로 처리할 수 있었다. 또한 동적 양자화를 적용하여 추가적인 성능 향상을 달성했다.
75개의 다양한 모델 아키텍처와 200개 이상의 태스크에 대해 실험을 진행했으며, FP8 포맷이 INT8 대비 92.64%의 높은 워크로드 커버리지를 보였다.
이를 통해 FP8 포맷이 INT8 대비 더 나은 성능, 정확도, 그리고 연산자 지원 범위를 제공함을 확인할 수 있었다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Haihao Shen,... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2309.14592.pdfPerguntas Mais Profundas