Kernekoncepter
本文全面概述了口語對話模型,特別是級聯和端到端模型,並深入探討了語音表徵、訓練範式、串流、雙工和互動能力等核心技術,以及相關數據集、評估指標和基準。
摘要
本文全面概述了口語對話模型的最新進展,將其分為級聯和端到端兩大類,並深入探討了語音表徵、訓練範式、串流、雙工和互動能力等核心技術。此外,本文還回顧了相關數據集、評估指標和基準,為口語對話系統的學術研究和工業應用提供參考。
一、引言
口語對話模型是人機互動最直接的方式之一,從傳統的語音助理發展到最新的智能對話系統。本文回顧了口語對話模型的發展歷程,並將其分為級聯和端到端兩大類。
二、口語對話系統概述
2.1 口語對話系統的功能
現代智能口語對話模型的應用場景可分為九大類:文本智能、語音智能、音頻和音樂生成、音頻和音樂理解、多語言能力、上下文學習、互動能力、串流延遲和多模態能力。
2.2 級聯口語對話系統
級聯口語對話系統通常由語音識別(ASR)、大型語言模型(LLM)和文本轉語音(TTS)三個模塊組成。近年來,研究人員開始整合語音情感和風格等超語言特徵,並嘗試直接輸入語音表徵,以增強級聯口語對話系統的語音智能。
2.3 端到端口語對話系統
端到端口語對話模型旨在直接理解和生成語音表徵,無需依賴文本作為中介。本文回顧了dGSLM、SpeechGPT、PSLM、Moshi、Mini-Omni、Llama-Omni、IntrinsicVoice、OmniFlatten、SyncLLM等端到端模型,並分析了它們在語音表徵、訓練範式、模型架構和生成策略方面的差異。
三、口語對話模型的表徵
語音表徵在口語對話系統中至關重要,它決定了系統如何理解、處理和生成語音信號。本文將語音表徵分為語義和聲學兩類,並分別介紹了輸入和輸出端的常用表徵模型。
3.1 輸入端的語音表徵
語義表徵:Wav2Vec、XLS-R、HuBERT、Whisper、WavLM、S3 Tokenizer、SPIRAL等。
聲學表徵:Emotion2Vec、Encodec、SpeechTokenizer、Mimi等。
3.2 輸出端的語音表徵
語義表徵:S3 Tokenizer、Hubert等。
聲學表徵:Encodec、SNAC、SpeechTokenizer、Mimi等。
四、口語對話模型的訓練範式
訓練範式決定了如何將語音模態與文本模態對齊,同時保留或增強現有基於文本的對話模型的智能。
4.1 語音-文本對齊
4.2 架構
4.3 多階段訓練策略
文本LLM預訓練
模態適配和對齊後訓練
監督微調或對話數據集微調
偏好優化和強化學習
4.4 訓練框架和生成策略
訓練框架
文本引導生成
無文本引導生成
五、串流、雙工和互動
5.1 串流
5.2 雙工
單工
半雙工
全雙工
5.3 互動
端到端系統
級聯系統
概念:中斷、後通道、正常輪流交換
六、訓練資源和評估
6.1 訓練資源
6.2 評估
常見評估
高級評估
基準
七、結論和未來方向
八、討論
語義表徵與聲學表徵
單層量化器與多層量化器
連續表徵與離散表徵