Основные понятия
本文提出了兩種新的 Frank-Wolfe 算法,在凸和非凸目標函數的情況下都有最佳的收斂保證。這些算法不需要計算大批量的隨機梯度,也不需要計算完整的確定性梯度,這使它們更加實用。
Аннотация
本文提出了兩種新的 Frank-Wolfe 算法,用於解決具有結構化約束的優化問題。這些算法在凸和非凸目標函數的情況下都有最佳的收斂保證。
第一種算法(Algorithm 1)結合了 SARAH 和 Frank-Wolfe 的思想,在理論上取得了最佳的收斂率。它不需要計算完整的確定性梯度,但仍需要偶爾計算。
第二種算法(Algorithm 2)進一步改進,完全避免了計算完整梯度的需求。它結合了 SAGA 和 SARAH 的思想,在每次迭代中只需要計算少量的隨機梯度。
這兩種算法都不需要使用大批量的隨機梯度,這使它們更加實用。實驗結果證實了這些算法的理論優勢。
Статистика
對於凸目標函數,Algorithm 1 需要的隨機梯度計算次數為 ˜O(n + √n˜LD2/ε)。
對於非凸目標函數,Algorithm 1 需要的隨機梯度計算次數為 O((h0 + LD2)/(ε2(1 + ˜L2n/(L2b2)))).
對於凸目標函數,Algorithm 2 需要的隨機梯度計算次數為 ˜O(n + √n˜LD2/ε)。
對於非凸目標函數,Algorithm 2 需要的隨機梯度計算次數為 O((h0 + LD2)/(ε2(1 + ˜L2n/(L2b2)))).
Цитаты
"本文提出了兩種新的 Frank-Wolfe 算法,在凸和非凸目標函數的情況下都有最佳的收斂保證。這些算法不需要計算大批量的隨機梯度,也不需要計算完整的確定性梯度,這使它們更加實用。"
"Algorithm 1 結合了 SARAH 和 Frank-Wolfe 的思想,在理論上取得了最佳的收斂率。它不需要計算完整的確定性梯度,但仍需要偶爾計算。"
"Algorithm 2 進一步改進,完全避免了計算完整梯度的需求。它結合了 SAGA 和 SARAH 的思想,在每次迭代中只需要計算少量的隨機梯度。"