Pca
可擴展的降維
考慮到特徵數量不變,Barnes-Hut t-SNE的複雜度為,隨機投影和 PCA 的複雜度為使它們對於非常大的數據集“負擔得起”。
另一方面,依賴於多維縮放的方法具有複雜。
是否有其他降維技術(除了瑣碎的,比如看第一個列,當然),其複雜性低於?
一個有趣的選擇是探索基於神經的降維。最常用的降維網絡類型,自動編碼器,可以以, 在哪裡表示訓練迭代(是一個獨立於訓練數據的超參數)。因此,訓練複雜度簡化為.
您可以從查看 Hinton 和 Salakhutdinov [1] 的 2006 年研討會工作開始。從那時起,事情發生了很大變化。現在大部分注意力是通過變分自動編碼器 [2] 獲得的,但基本思想(在其輸出層重建輸入並在其間存在瓶頸層的網絡)保持不變。請注意,與 PCA 和 RP 不同,自動編碼器執行非線性降維。此外,與 t-SNE 不同,自動編碼器可以轉換看不見的樣本,而無需重新訓練整個模型。
在實踐方面,我建議看一下這篇文章,其中詳細介紹瞭如何使用精彩的庫 Keras 實現不同類型的自動編碼器。
[1] Hinton, GE, & Salakhutdinov, RR (2006)。使用神經網絡降低數據的維數。科學,313(5786),504-507。
[2] Kingma, DP, & Welling, M. (2013)。自動編碼變分貝葉斯。arXiv 預印本 arXiv:1312.6114。