이 논문은 대규모 언어 모델(LLM)의 역사, 발전 요인, 원리를 종합적으로 소개한다.
먼저 통계적 언어 모델(SLM), 신경망 언어 모델(NLM), 사전 학습 언어 모델(PLM), 대규모 언어 모델(LLM)의 발전 과정을 살펴본다. SLM은 단순한 확률 분포를 사용하여 단어 시퀀스를 모델링하고, NLM은 신경망을 활용해 복잡한 언어 패턴과 표현을 학습한다. PLM은 대규모 말뭉치와 자기 지도 학습을 통해 일반적인 언어 지식을 습득하며, LLM은 PLM을 확장하여 더 많은 데이터, 계산 능력, 알고리즘을 활용한다.
LLM의 발전을 이끈 주요 요인으로는 데이터 다양성 증가, 컴퓨팅 능력 향상, 알고리즘 혁신이 있다. 데이터 다양성 증가로 LLM은 다양한 도메인의 언어 지식을 습득할 수 있게 되었고, 컴퓨팅 능력 향상으로 대규모 모델 학습이 가능해졌다. 또한 트랜스포머 아키텍처 등 알고리즘 혁신으로 LLM의 성능이 크게 향상되었다.
LLM의 원리를 이해하기 위해 GPT 모델을 예시로 설명한다. GPT는 입력 임베딩, 위치 인코딩, 마스크드 멀티헤드 셀프 어텐션, 피드포워드 신경망, 레이어 정규화 등의 구성 요소로 이루어져 있다. 또한 LLM을 인코더 전용, 인코더-디코더, 디코더 전용 모델로 분류하고 각 유형의 특징을 비교한다.
마지막으로 LLM의 다양한 응용 분야(소프트웨어 공학, 신약 개발, 금융, 의료, 법률, 교육 등)와 함께 프라이버시, 공정성, 안전성, 지적 재산권 등의 한계와 향후 과제를 제시한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問