Correlation

如何量化特徵的冗餘?

  • February 10, 2011

我使用三個功能來解決分類問題。最初,這些特徵會產生布爾值,因此我可以通過查看正分類集和負分類集重疊的程度來評估它們的冗餘。現在我已經擴展了這些特性以產生真實的值(分數),我想再次分析它們的冗餘,但我完全不知道如何做到這一點。誰能給我一個關於如何去做的指針或想法?

我知道這個問題很模糊,那是因為我對統計學的把握不是很強。所以,如果你對我沒有答案,也許你有一些問題可以幫助我更好地理解自己。

**編輯:**我目前正在瀏覽有關該主題的維基百科,我覺得我想要的是一個相關係數,但我仍然不確定這是否是正確的方法,以及許多可用係數中的哪一個是合適的。

**編輯2:**在布爾情況下,我首先為每個特徵創建了一組樣本,它是真的。然後,兩個特徵之間的相關性是這些集合的交集大小超過這些集合的並集大小。如果該值為 1,則它們完全是多餘的,因為它們總是相同的。如果為 0,則它們永遠不會相同。

這聽起來像是一個特徵選擇的問題,如果是這樣的話,我想你想計算所有特徵子集和分類輸出之間的互信息。具有最高互信息的子集將是包含有關記錄的結果分類的最多“信息”的特徵集。

如果您只有 3 個特徵,則可以在合理的時間內計算所有可能的子集,如果您的特徵集變得更大,則必須對此進行近似(通常使用貪婪方法:在每一步中獲取具有最高 MI 的特徵)。

引用自:https://stats.stackexchange.com/questions/7058

comments powered by Disqus