本研究提出了一個全面的評估套件TMLU,用於評估大型語言模型在台灣國語背景下的先進知識和推理能力。實驗結果表明,與簡體中文模型相比,專門針對台灣國語的開源模型表現仍然落後,突出了TMLU的目標是促進本地化台灣國語大型語言模型的發展。