本文研究了一種基於隨機投影和閾值的簡單分類方法。該方法首先將數據投影到隨機選擇的一維子空間,然後在一維數據上進行閾值分類。這個過程重複n次,選擇在訓練集上表現最好的分類器。
作者首先分析了這種分類方法的泛化性能。他們證明了即使分類器的參數是隨機選擇的,其泛化誤差也可以被很好地控制。具體而言,作者提供了一個上界,該上界不依賴於數據維度,也不依賴於多項式擴展的次數,而只依賴於隨機投影的次數n。這個上界通常優於具有VC維大於O(ln(n))的任何分類器的泛化誤差上界。
在第二部分,作者研究了該分類方法的逼近能力。他們證明了只要投影次數n和多項式擴展次數k足夠大,該方法就能任意逼近任何連續函數或可測分割支撐的布爾函數。這意味著該方法能夠逼近貝葉斯最優分類器。作者還量化了達到特定精度所需的投影次數。
總的來說,本文展示了一種極其簡單的分類方法,它不僅具有良好的泛化性能,而且還具有強大的逼近能力,在某些情況下可以顯著優於更複雜的分類器。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問