Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js

內核方法是否隨數據量“縮放”？

June 17, 2014

我一直在閱讀內核方法，您在其中映射原始方法數據指向特徵空間，計算內核或 gram 矩陣並將該矩陣插入標準的線性算法。當特徵空間是無限維或其他非常高維（遠大於)，但核矩陣本身也相當大，這意味著如果將點數增加一倍，則所需的內存量會增加四倍。這是否意味著內核方法不能很好地擴展到更大的數據集？或者對於大多數算法來說，是否不需要計算整個內核矩陣並將整個事物保存在內存中？

不必始終將整個內核矩陣保存在內存中，但是如果不這樣做，您當然會付出重新計算條目的代價。由於內核技巧，內核方法在處理高輸入維度方面非常有效，但正如您正確指出的那樣，它們不會輕易擴展到大量訓練實例。

例如，非線性 SVM 有一個訓練複雜度 (實例數）。這對於多達幾百萬個實例的數據集來說是沒有問題的，但之後就不再可行了。此時，可以使用近似值，例如固定大小的內核或較小 SVM 基礎模型的集合。

引用自：https://stats.stackexchange.com/questions/103631

相關問答

Matérn協方差函數的基本原理是什麼？

January 11, 2018

Maximum-Likelihood

高斯過程的對數邊際似然

May 17, 2017

Machine-Learning

SVM = 模板匹配如何？

February 23, 2017

Machine-Learning

是否存在任何（深度）神經網絡顯然無法勝過任何其他方法的監督學習問題？

February 20, 2017

用於核逼近的 Nystroem 方法

February 10, 2017

內核化 SVM 是否可以使用梯度下降（如果可以，人們為什麼要使用二次規劃）？

May 31, 2016