대규모 언어 모델에서 지속적인 지시 미세 조정 과정에서 일반적인 지식의 망각 현상이 관찰되며, 모델 규모가 증가할수록 망각의 심각성이 증가한다. 또한 디코더 전용 모델인 BLOOMZ가 인코더-디코더 모델인 mT0보다 지식 유지 능력이 더 우수하며, 일반적인 지시 미세 조정이 후속 미세 조정 과정에서 재앙적 망각 현상을 완화할 수 있다.
장문 문맥 LLM은 극단적인 레이블 분류 작업에서 긴 입력 문맥을 이해하고 활용하는 데 어려움을 겪는다.
다양한 일본어 사전 학습 모델을 공개하여 일본 문화와 정체성을 반영하는 AI 민주화를 추진하고자 한다.
다수의 전문가 LLM을 단일 일반화 프레임워크로 통합하는 방법을 제시한다.
대형 언어 모델의 강력한 기능을 활용하여 긴 문맥을 간단한 메모리 슬롯으로 압축하는 기술을 제안한다. 이를 통해 언어 모델의 지연 시간과 GPU 메모리 비용을 개선할 수 있다.
대규모 언어 모델에서 자동회귀적 생성은 지식 압축을 제한하므로, 문장 계속, 채우기, 제약 생성 등 계산 불가능한 분포에서 샘플링이 필요하다. 이를 위해 GFlowNet 목적함수를 사용하여 언어 모델을 미세 조정하여 이러한 계산 불가능한 분포에서 효율적으로 샘플링할 수 있다.
언어 모델의 다음 토큰 예측 과정에 지연 토큰을 도입하면 모델의 추론 성능을 향상시킬 수 있다.
다중 헤드 어텐션(MHA)의 여러 헤드가 유사한 토큰에 주목하는 것을 관찰하고, 이를 활용하여 계산 및 메모리 요구사항을 줄이는 CHAI 기법을 제안한다.
대규모 언어 모델의 사전 훈련 데이터 감지 문제를 연구하고 새로운 감지 방법인 MIN-K% PROB을 소개합니다.
대형 언어 모델의 민감도 인식형 혼합 희소성 가지치기 방법 소개