Machine-Learning
主成分分析與特徵選擇
我正在使用 WEKA 做一個機器學習項目。這是一個有監督的分類,在我的基礎實驗中,我的準確率非常低。然後我打算做一個特徵選擇,但後來我聽說了 PCA。
在特徵選擇中,我們所做的是考慮對我們的目標分類影響最大的屬性子集。(如果我是正確的。)
在 PCA 中,據我所知,我們所做的是生成少量的人工屬性集來解釋我們的目標。(如果我錯了,請糾正我)
但我不明白這兩者之間的確切區別是什麼。哪一個更好?這是否取決於某人正在進行的特定研究?
另外,以上兩種方法的組合呢?(特徵選擇後的 PCA)。這有什麼意義嗎?
特徵選擇
我們考慮對我們的目標分類影響最大的屬性子集。
這種理解是完全正確的。
主成分分析
我們生成少量的人工屬性集來解釋我們的目標。
這是部分正確的。我們不是 PCA 中的會計目標。通俗地說,我們對數據及其分佈進行了一些假設,並將具有較高維度的數據表示為具有大部分信息內容作為原始數據的較小維度(例如 3)。因此,PCA 是將您的屬性轉換為保留大部分信息的人工集。
比較
哪一個更好?這是否取決於某人正在進行的特定研究?
是的,這取決於具體的研究。如果 PCA 轉換中的假設成立,那麼通過進行 PCA,您將在少量屬性中獲得相同的信息。如果假設很大程度上失敗了,那麼進行 PCA 可能會破壞您的分類。
組合
這有什麼意義嗎?
這完全有道理。
通過特徵選擇,您可以通過丟棄不相關的信息來減少維數。通過 PCA,您可以通過轉換為人工集來減少維數,但保留相同的信息。