Core Concepts
本文介紹了一種新的離散流模型框架——離散流匹配(Discrete Flow Matching),用於生成離散數據,例如語言和代碼,並在生成質量方面顯著優於現有的非自回歸方法。
Abstract
書目資訊
- 文章標題:離散流匹配
- 作者:Itai Gat1, Tal Remez1, Neta Shaul2, Felix Kreuk1, Ricky T. Q. Chen1, Gabriel Synnaeve1, Yossi Adi1, Yaron Lipman1
- 機構:1Meta AI, FAIR, 2Weizmann Institute
研究目標
本研究旨在提出一個新的離散流模型框架——離散流匹配,以解決現有擴散和流模型在處理高維離散數據(如語言)方面的局限性,並提高其生成質量。
方法
- 本文基於連續流匹配方法,並將其推廣到離散數據領域。
- 提出了離散流匹配的理論框架,包括:
- 使用預定義的概率路徑在源分佈和目標分佈之間進行插值。
- 使用學習到的後驗概率(例如概率去噪器)從這些概率路徑中進行採樣。
- 使用校正器採樣和迭代來提高生成質量。
- 針對不同的任務(例如語言建模、代碼生成和圖像生成),設計了不同的概率路徑和校正器調度器。
主要發現
- 離散流匹配在生成離散數據方面表現出優於現有方法的性能。
- 概率路徑和校正器調度器的選擇對模型的性能至關重要。
- 在語言建模任務中,離散流匹配模型在生成困惑度方面優於現有的非自回歸模型,並在條件文本生成任務中縮小了與自回歸模型的差距。
- 在代碼生成任務中,離散流匹配模型在HumanEval和MBPP基準測試中取得了非自回歸模型中最佳的結果。
- 在圖像生成任務中,離散流匹配模型在CIFAR10數據集上取得了良好的FID和Inception分數。
主要結論
離散流匹配是一種通用的、有效的離散數據生成框架,在多個任務中都取得了令人鼓舞的結果,為非自回歸生成模型的研究開闢了新的方向。
意義
- 本研究為離散數據生成提供了一種新的思路和方法,有助於推動非自回歸生成模型的發展。
- 離散流匹配模型在語言建模、代碼生成和圖像生成等多個領域具有廣泛的應用前景。
局限和未來研究方向
- 離散流匹配模型的採樣效率仍有待提高。
- 未來可以探索更廣泛的概率路徑和校正器調度器設計空間。
Stats
參數量為 1.7B 的離散流匹配模型在 HumanEval 上的 Pass@1 和 Pass@10 分別為 6.7% 和 13.4%。
參數量為 1.7B 的離散流匹配模型在 1-shot MBPP 代碼生成基準測試中的 Pass@1 和 Pass@10 分別為 6.7% 和 20.6%。
在條件文本生成任務中,離散流匹配模型的生成困惑度得分為 9.7,而參數量為 1.7B 的自回歸模型的得分為 22.3。
在 CIFAR10 數據集上,離散流匹配模型在 1024 次函數求值時達到了 3.63 的 FID。
Quotes
"Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models."
"We strongly believe that Discrete Flow Matching represents a significant step in bridging the performance gap between discrete diffusion and autoregressive models, and that further enhancements are possible by exploring the vast design space that Discrete Flow Matching has to offer."