Svm
內核方法是否隨數據量“縮放”?
我一直在閱讀內核方法,您在其中映射原始方法數據指向特徵空間,計算內核或 gram 矩陣並將該矩陣插入標準的線性算法。當特徵空間是無限維或其他非常高維(遠大於),但核矩陣本身也相當大,這意味著如果將點數增加一倍,則所需的內存量會增加四倍。這是否意味著內核方法不能很好地擴展到更大的數據集?或者對於大多數算法來說,是否不需要計算整個內核矩陣並將整個事物保存在內存中?
不必始終將整個內核矩陣保存在內存中,但是如果不這樣做,您當然會付出重新計算條目的代價。由於內核技巧,內核方法在處理高輸入維度方面非常有效,但正如您正確指出的那樣,它們不會輕易擴展到大量訓練實例。
例如,非線性 SVM 有一個訓練複雜度 (實例數)。這對於多達幾百萬個實例的數據集來說是沒有問題的,但之後就不再可行了。此時,可以使用近似值,例如固定大小的內核或較小 SVM 基礎模型的集合。