Centrala begrepp
언어 모델의 다음 토큰 예측 과정에 지연 토큰을 도입하면 모델의 추론 성능을 향상시킬 수 있다.
Sammanfattning
이 논문은 언어 모델의 다음 토큰 예측 과정에 지연 토큰을 도입하는 새로운 접근법을 제안한다.
기존 언어 모델은 입력 토큰 수와 동일한 수의 중간 벡터를 계산하여 다음 토큰을 예측한다. 이 논문에서는 입력 토큰 뒤에 추가적인 지연 토큰을 붙여 모델이 더 많은 중간 벡터를 계산할 수 있게 한다. 이를 통해 모델이 다음 토큰을 예측할 때 더 풍부한 표현을 활용할 수 있게 된다.
구체적으로 논문에서는 다음과 같은 실험 결과를 보고한다:
- 지연 토큰을 사전 학습과 fine-tuning 모두에 도입하면 다양한 downstream 태스크에서 성능 향상을 보인다. 특히 SQuAD 문제에서 18%, CommonSenseQA에서 8%, GSM8k 추론 문제에서 1% 정도의 성능 향상을 달성했다.
- 사전 학습 단계에만 지연 토큰을 도입하거나, fine-tuning 단계에만 도입하는 경우에는 성능 향상이 제한적이거나 오히려 성능이 떨어지는 경우도 있다.
- 지연 토큰의 개수를 조절하는 것이 중요하며, 각 태스크마다 최적의 개수가 다르다.
- 추론 시 지연 토큰의 개수를 fine-tuning 때와 다르게 설정해도 성능이 점진적으로 떨어지는 등 어느 정도 강건성을 보인다.
이러한 결과를 통해 언어 모델의 추론 성능 향상을 위해 지연 토큰을 활용하는 새로운 접근법의 가능성을 확인할 수 있다.
Statistik
1B 모델에서 SQuAD 문제의 EM 점수가 18% 향상되었다.
1B 모델에서 CommonSenseQA 문제의 EM 점수가 8% 향상되었다.
1B 모델에서 GSM8k 추론 문제의 정확도가 1% 향상되었다.
Citat
"To generate the (K + 1)th token, the model consumes the K previous tokens, and proceeds layer by layer, computing K intermediate vectors in each hidden layer."
"What if instead we were to let the model manipulate say, K + 10 hidden vectors, before it outputs the (K + 1)th token?"