可擴展的降維

August 3, 2016

考慮到特徵數量不變，Barnes-Hut t-SNE的複雜度為,隨機投影和 PCA 的複雜度為使它們對於非常大的數據集“負擔得起”。

另一方面，依賴於多維縮放的方法具有複雜。

是否有其他降維技術（除了瑣碎的，比如看第一個列，當然），其複雜性低於?

一個有趣的選擇是探索基於神經的降維。最常用的降維網絡類型，自動編碼器，可以以，在哪裡表示訓練迭代（是一個獨立於訓練數據的超參數）。因此，訓練複雜度簡化為.

您可以從查看 Hinton 和 Salakhutdinov [1] 的 2006 年研討會工作開始。從那時起，事情發生了很大變化。現在大部分注意力是通過變分自動編碼器 [2] 獲得的，但基本思想（在其輸出層重建輸入並在其間存在瓶頸層的網絡）保持不變。請注意，與 PCA 和 RP 不同，自動編碼器執行非線性降維。此外，與 t-SNE 不同，自動編碼器可以轉換看不見的樣本，而無需重新訓練整個模型。

在實踐方面，我建議看一下這篇文章，其中詳細介紹瞭如何使用精彩的庫 Keras 實現不同類型的自動編碼器。

[1] Hinton, GE, & Salakhutdinov, RR (2006)。使用神經網絡降低數據的維數。科學，313（5786），504-507。

[2] Kingma, DP, & Welling, M. (2013)。自動編碼變分貝葉斯。arXiv 預印本 arXiv:1312.6114。

引用自：https://stats.stackexchange.com/questions/227173

可擴展的降維

相關問答

高維柯西分佈是什麼樣的？

在國際象棋數據上訓練神經網絡

探索性數據分析 (EDA) 是否真的需要/有用

當 PCA 不產生降維時，這意味著什麼？

具有混合連續變量和二元變量的 t-SNE

有什麼問題p>`np>`np >` n?

可擴展的降維

相關問答

高維柯西分佈是什麼樣的？

在國際象棋數據上訓練神經網絡

探索性數據分析 (EDA) 是否真的需要/有用

當 PCA 不產生降維時，這意味著什麼？

具有混合連續變量和二元變量的 t-SNE

有什麼問題p>np>np >` n?

有什麼問題p>`np>`np >` n?