核心概念
語音語言模型 (SpeechLM) 作為一種新興的技術,克服了傳統「自動語音識別 (ASR) + 大型語言模型 (LLM) + 文本轉語音 (TTS)」框架的局限性,例如信息丢失和錯誤累積,有望實現更自然、更直觀的人機交互。
摘要
語音語言模型的最新進展:一項綜述
這篇綜述論文全面概述了構建語音語言模型 (SpeechLM) 的最新方法,詳細介紹了其架構中的關鍵組件以及對其發展不可或缺的各種訓練方法。
1. 引言
大型語言模型 (LLM) 在文本生成和執行廣泛的自然語言處理任務方面表現出卓越的能力,成為人工智能驅動的語言理解和生成的強大基礎模型。然而,僅僅依賴基於文本的模式存在顯著的局限性,這促使了基於語音的生成模型的發展,這些模型允許以更自然、更直觀的方式與人類互動。
傳統的「自動語音識別 (ASR) + LLM + 文本轉語音 (TTS)」框架存在兩個主要問題:1) 信息丢失:語音信號不僅包含語義信息,還包含副語言信息,而純文本 LLM 會導致輸入語音中副語言信息的完全丢失。2) 累積錯誤:這種分階段的方法很容易導致整個流程中的錯誤累積,特別是在 ASR-LLM 階段。
2. 語音語言模型 (SpeechLM)
SpeechLM 直接將語音波形編碼為離散的標記,從音頻中捕獲基本特徵和信息,並自回歸地對這些標記進行建模,而不仅仅依赖于文本输入,從而可以使用額外的副語言信息生成更具表現力和細微差別的語音。通過直接處理編碼的語音標記,SpeechLM 有效地減輕了累積錯誤。
3. SpeechLM 的組件
SpeechLM 中有三個主要組件:語音標記器、語言模型和標記到語音合成器(聲碼器)。
3.1 語音標記器
語音標記器將連續的音頻信號(波形)編碼為潛在表示,然后將潛在表示轉換為離散的標記。根據其對原始音頻不同方面的建模重點,可以將語音標記器分為以下幾類:
- 語義理解目標:旨在將語音波形轉換為準確捕捉語音內容和含義的標記。
- 聲學生成目標:側重於捕捉生成高質量語音波形所需的聲學特徵。
- 混合目標:旨在平衡語義理解和聲學生成。
3.2 語音模型
大多數 SpeechLM 遵循 TextLM 的架構,主要採用 Transformer 或僅解碼器架構(例如 OPT、LLaMA)以自回歸的方式生成語音。為了使語言模型適應語音生成,通常將原始的文本標記器更改為語音標記器,并将語音嵌入矩陣附加到文本嵌入矩陣的末尾,從而形成一個更大的嵌入矩陣,使模型能夠在單個序列中生成文本和語音。
3.3 標記到語音合成器(聲碼器)
在語言模型組件自回歸地生成標記后,使用標記到語音模塊(通常稱為聲碼器)将所有語音標記合成回語音波形。聲碼器可以通過其架構選擇進行分類:
- 基于 GAN 的聲碼器:以其在語音合成任務中的快速和高保真生成而聞名。
- 基于 GAN 的神經音頻編解碼器:神經音頻編解碼器主要用於音頻壓縮,其編碼的緊湊標記序列捕獲了埋藏在音頻波形中的基本信息,因此可以在 SpeechLM 中用作聲碼器。
- 其他類型的聲碼器:純粹的信號處理聲碼器、自回歸聲碼器、基於流的聲碼器、基於 VAE 的聲碼器和基於擴散的聲碼器。
4. 訓練方法
訓練 SpeechLM 涉及訓練三個主要組件:語音標記器、語言模型和聲碼器。
4.1 建模的特徵
- 離散特徵:可以表示為不同、可數單元或標記的語音信號的量化表示。
- 連續特徵:與離散特徵相反,是未量化的、實值的語音信號表示,存在於連續的尺度上。
4.2 訓練階段
SpeechLM 的訓練過程可以分為三個階段:預訓練、指令微調和對齊。
- 語言模型預訓練:SpeechLM 中語言模型的預訓練是一個關鍵階段,它顯著影響模型生成連貫且上下文相關的語音的能力。
4.3 語音生成範式
- 傳統的生成範式:模型接收輸入序列並自回歸地生成輸出序列,其中每個生成的標記都依賴於先前生成的標記。
- 實時交互:模型被設計為以更像人類對話的方式運作,允許中斷和同時發言。
5. SpeechLM 的下游應用
SpeechLM 在各種語音相關任務中具有廣泛的應用,例如:
- 自動語音識別 (ASR)
- 文本轉語音 (TTS)
- 語音翻譯 (ST)
- 語音轉語音翻譯 (S2ST)
- 語音編輯
- 語音增強
- 語音對話
6. 評估 SpeechLM 的指標
- 語音質量:評估生成的語音的自然度、清晰度和整體聆聽質量。
- 語義準確性:衡量生成的語音在多大程度上準確地傳達了預期的含義和信息。
- 副語言一致性:評估生成的語音在多大程度上與輸入語音或文本在情感、語調和其他副語言方面保持一致。
7. 挑戰和未來方向
- 高質量語音生成:生成與人類語音無法區分的、具有自然韻律和表現力的語音仍然是一個挑戰。
- 多語言和跨語言能力:開發能夠理解和生成多種語言的 SpeechLM 對於促進跨文化交流至關重要。
- 數據效率和訓練穩定性:SpeechLM 通常需要大量的訓練數據,這使得探索提高其數據效率和訓練穩定性的方法至關重要。
- 可控性和可解釋性:開發允許對生成的語音進行精細控制的方法,例如調整情感或說話風格,對於各種應用至關重要。
總結
SpeechLM 代表了語音處理和自然語言處理領域的一個有希望的研究方向。通過直接對語音進行建模,SpeechLM 克服了傳統基於文本的模型的局限性,為更自然、更直觀的人機交互開闢了新的可能性。