Feature-Selection

為什麼特徵選擇對於分類任務很重要?

  • September 17, 2015

我正在學習特徵選擇。我明白為什麼它對於模型構建很重要和有用。但讓我們專注於監督學習(分類)任務。為什麼特徵選擇對於分類任務很重要?

我看到很多關於特徵選擇及其用於監督學習的文獻,但這讓我感到困惑。特徵選擇是關於確定要丟棄哪些特徵。直覺上,丟棄一些特徵似乎是弄巧成拙:它是在丟棄信息。似乎拋出信息不應該有幫助。

即使刪除一些特徵確實有幫助,如果我們丟棄一些特徵,然後將其餘的輸入到監督學習算法中,為什麼我們需要自己做,而不是讓監督學習算法處理呢?如果某些特徵沒有幫助,任何體面的監督學習算法不應該隱含地發現並學習不使用該特徵的模型嗎?

如此直觀地,我本以為特徵選擇將是一項毫無意義的練習,它永遠不會有幫助,有時可能會造成傷害。但它被如此廣泛地使用和寫的事實讓我懷疑我的直覺是錯誤的。任何人都可以提供任何直覺,為什麼在進行監督學習時特徵選擇是有用和重要的?為什麼它可以提高機器學習的性能?這是否取決於我使用的分類器?

你的直覺是完全正確的。在大多數情況下,特徵選擇代表了對簡單解釋的渴望,這源於三個誤解:

  1. 分析人員沒有意識到“選擇的”特徵集是非常不穩定的,即非魯棒性的,並且當在另一個數據集上完成選擇過程將導致完全不同的特徵集。數據通常不具備選擇“正確”特徵所需的信息內容。如果存在共線性,這個問題會變得更糟。
  2. 在不受控制的實驗中,途徑、機制和過程很複雜;人類的行為和天性是複雜的,而不是吝嗇的。
  3. 要求數據告訴您哪些是重要特徵以及它們之間的關係是什麼,這會損害預測準確性對於“重要”的人。最好“使用每個變量的一點點”而不是使用所有一些變量而不使用其他變量(即,使用收縮/懲罰)。

研究這個的一些方法:

  1. 對套索彈性網絡和標準二次懲罰(嶺回歸)之間的預測準確性進行更多比較
  2. 從隨機森林中引導變量重要性度量並檢查它們的穩定性
  3. 計算潛在特徵等級的引導置信區間,例如,在部分的等級上關聯測試(或單變量 Spearman 之類的測試)或薩默斯) 並看到這些置信區間非常寬,直接告知您任務的難度。我從http://biostat.mc.vanderbilt.edu/rms鏈接的課程筆記有一個使用 OLS 引導預測變量排序的示例。

所有這些都適用於分類和更一般和有用的預測概念。

引用自:https://stats.stackexchange.com/questions/172848

comments powered by Disqus