Feature-Selection

用於異常檢測的自動特徵選擇

  • February 14, 2012

為異常檢測自動選擇特徵的最佳方法是什麼?

我通常將異常檢測視為由人類專家選擇特徵的算法:重要的是輸出範圍(如“異常輸入 - 異常輸出”),因此即使有許多特徵,您也可以通過組合得出一個更小的子集特點。

但是,假設在一般情況下,特徵列表可能很大,那麼有時自動學習可能更可取。據我所知,有一些嘗試:

  • “用於異常檢測的自動特徵選擇”pdf)概括了支持向量數據描述
  • “A Fast Host-Based Intrusion Detection System Using Rough Set Theory”(沒有可用的 pdf 文件?)我猜它使用了 Rough Set Theory
  • 使用統計方法的“惡意網絡流量異常檢測的學習規則”pdf視頻)

所以現在我想知道是否有人能說出來——假設異常檢測和一個非常大的(數百個?)功能集:

  1. 那些龐大的功能集是否有意義?我們不應該將功能集減少到幾十個,僅此而已?
  2. 如果巨大的特徵集確實有意義,那麼上述哪種方法會給出更好的預測,為什麼?有什麼沒有列出的更好嗎?
  3. 與通過聚類/排名/等進行降維或特徵構建相比,它們為什麼要給出更好的結果?

一種實用的方法(至少在監督學習的情況下)是包含所有可能相關的特徵,並使用具有正則化(L1 和/或 L2)的(廣義)線性模型(邏輯回歸、線性 svm 等)。有一些開源工具(例如 Vowpal Wabbit)可以為這些類型的模型處理數万億個示例/功能組合,因此可擴展性不是問題(此外,始終可以使用子採樣)。正則化有助於處理特徵選擇。

引用自:https://stats.stackexchange.com/questions/23426

comments powered by Disqus