這篇綜述論文全面概述了構建語音語言模型 (SpeechLM) 的最新方法,詳細介紹了其架構中的關鍵組件以及對其發展不可或缺的各種訓練方法。
大型語言模型 (LLM) 在文本生成和執行廣泛的自然語言處理任務方面表現出卓越的能力,成為人工智能驅動的語言理解和生成的強大基礎模型。然而,僅僅依賴基於文本的模式存在顯著的局限性,這促使了基於語音的生成模型的發展,這些模型允許以更自然、更直觀的方式與人類互動。
傳統的「自動語音識別 (ASR) + LLM + 文本轉語音 (TTS)」框架存在兩個主要問題:1) 信息丢失:語音信號不僅包含語義信息,還包含副語言信息,而純文本 LLM 會導致輸入語音中副語言信息的完全丢失。2) 累積錯誤:這種分階段的方法很容易導致整個流程中的錯誤累積,特別是在 ASR-LLM 階段。
SpeechLM 直接將語音波形編碼為離散的標記,從音頻中捕獲基本特徵和信息,並自回歸地對這些標記進行建模,而不仅仅依赖于文本输入,從而可以使用額外的副語言信息生成更具表現力和細微差別的語音。通過直接處理編碼的語音標記,SpeechLM 有效地減輕了累積錯誤。
SpeechLM 中有三個主要組件:語音標記器、語言模型和標記到語音合成器(聲碼器)。
語音標記器將連續的音頻信號(波形)編碼為潛在表示,然后將潛在表示轉換為離散的標記。根據其對原始音頻不同方面的建模重點,可以將語音標記器分為以下幾類:
大多數 SpeechLM 遵循 TextLM 的架構,主要採用 Transformer 或僅解碼器架構(例如 OPT、LLaMA)以自回歸的方式生成語音。為了使語言模型適應語音生成,通常將原始的文本標記器更改為語音標記器,并将語音嵌入矩陣附加到文本嵌入矩陣的末尾,從而形成一個更大的嵌入矩陣,使模型能夠在單個序列中生成文本和語音。
在語言模型組件自回歸地生成標記后,使用標記到語音模塊(通常稱為聲碼器)将所有語音標記合成回語音波形。聲碼器可以通過其架構選擇進行分類:
訓練 SpeechLM 涉及訓練三個主要組件:語音標記器、語言模型和聲碼器。
SpeechLM 的訓練過程可以分為三個階段:預訓練、指令微調和對齊。
SpeechLM 在各種語音相關任務中具有廣泛的應用,例如:
SpeechLM 代表了語音處理和自然語言處理領域的一個有希望的研究方向。通過直接對語音進行建模,SpeechLM 克服了傳統基於文本的模型的局限性,為更自然、更直觀的人機交互開闢了新的可能性。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor