Core Concepts
本文核心概念是,透過將預先訓練好的小型模型權重遷移至大型模型,並結合µTransfer等超參數縮放方法,可以有效提升大型語言模型訓練的效率和穩定性。
Abstract
論文資訊
標題:Warmstarting for Scaling Language Models
作者:Neeratyoy Mallik∗, Maciej Janowski∗, Johannes Hog, Herilalaina Rakotoarison, Aaron Klein, Josif Grabocka, Frank Hutter
發表於:Workshop on Adaptive Foundation Models. 38th Conference on Neural Information Processing Systems, 2024.
研究目標
本研究旨在探討如何利用預先訓練好的小型模型,透過暖啟動的方式加速大型語言模型的訓練過程,並探討 µTransfer 技術在其中的應用。
研究方法
作者以 GPT2 模型為基礎,在 SlimPajama 6B 資料集上進行實驗。他們採用了 shrink-and-perturb 技術,將小型模型的權重縮放後,作為大型模型的初始權重,並結合 µTransfer 方法調整學習率等超參數。
主要發現
- 暖啟動技術能夠有效提升 µTransfer 的收斂速度,在某些情況下還能提升最終模型效能。
- 暖啟動技術不會影響 µTransfer 的訓練穩定性,模型在不同規模下都能保持穩定的訓練動態。
- 縮放比例、縮減係數等因素都會影響暖啟動的效果。
主要結論
研究結果顯示,透過簡單的縮減和擾動策略,結合 µP 初始化方法,可以有效地將預先訓練好的小型模型權重遷移至大型模型,從而加速訓練過程並保持訓練穩定性。
研究意義
本研究為大型語言模型的訓練提供了一種更有效率的思路,有助於降低訓練成本,並促進更大規模語言模型的發展。
研究限制與未來方向
- 本研究僅探討了模型寬度作為唯一的縮放維度,未來可以探討更多維度的縮放。
- 實驗中使用的模型規模相對較小,未來需要在更大規模的模型上進行驗證。
- 未來可以探討更精細的暖啟動策略,例如逐層縮減、利用模型結構信息等,以進一步提升暖啟動的效果。
Stats
作者使用了 SlimPajama 6B 資料集,並以 GPT2 模型為基礎進行實驗。
模型訓練過程中,使用了 Adam 優化器,並將權重衰減設為 0。
學習率設定參考了 Hägele et al. [2024] 的研究,並採用固定學習率策略。
所有模型的訓練量為每個參數 20 個詞彙,與 Hoffmann et al. [2022] 的設定相同。
暖啟動過程中,不重複使用小型模型訓練時已經見過的詞彙。
Quotes
"One direction to ameliorate the cost of pretraining large models is to warmstart the large-scale training from smaller models that are cheaper to tune."
"We identify a simple method that warmstarts µP runs of larger models, improving convergence speed and in certain cases final performance."
"Demonstrate that warmstarting retains the µP training stability guarantees in practice, with respect to model scaling along specific dimensions, such as width."