用於異常檢測的自動特徵選擇

February 14, 2012

為異常檢測自動選擇特徵的最佳方法是什麼？

我通常將異常檢測視為由人類專家選擇特徵的算法：重要的是輸出範圍（如“異常輸入 - 異常輸出”），因此即使有許多特徵，您也可以通過組合得出一個更小的子集特點。

但是，假設在一般情況下，特徵列表可能很大，那麼有時自動學習可能更可取。據我所知，有一些嘗試：

“用於異常檢測的自動特徵選擇”（pdf）概括了支持向量數據描述

“A Fast Host-Based Intrusion Detection System Using Rough Set Theory”（沒有可用的 pdf 文件？）我猜它使用了 Rough Set Theory

使用統計方法的“惡意網絡流量異常檢測的學習規則”（pdf，視頻）

所以現在我想知道是否有人能說出來——假設異常檢測和一個非常大的（數百個？）功能集：

那些龐大的功能集是否有意義？我們不應該將功能集減少到幾十個，僅此而已？

如果巨大的特徵集確實有意義，那麼上述哪種方法會給出更好的預測，為什麼？有什麼沒有列出的更好嗎？

與通過聚類/排名/等進行降維或特徵構建相比，它們為什麼要給出更好的結果？

一種實用的方法（至少在監督學習的情況下）是包含所有可能相關的特徵，並使用具有正則化（L1 和/或 L2）的（廣義）線性模型（邏輯回歸、線性 svm 等）。有一些開源工具（例如 Vowpal Wabbit）可以為這些類型的模型處理數万億個示例/功能組合，因此可擴展性不是問題（此外，始終可以使用子採樣）。正則化有助於處理特徵選擇。

引用自：https://stats.stackexchange.com/questions/23426

用於異常檢測的自動特徵選擇

相關問答

為什麼最大似然估計量對異常值是可疑的？

為什麼 `cooks.distance()` 函數沒有檢測到明顯的異常值？

基於“2.5 倍 RMSE”刪除異常值

為什麼 PCA 對異常值敏感？

決策樹、梯度提升和預測變量的正態性

用於異常值檢測的穩健 PCA 與穩健的馬氏距離

用於異常檢測的自動特徵選擇

相關問答

為什麼最大似然估計量對異常值是可疑的？

為什麼 cooks.distance() 函數沒有檢測到明顯的異常值？

基於“2.5 倍 RMSE”刪除異常值

為什麼 PCA 對異常值敏感？

決策樹、梯度提升和預測變量的正態性

用於異常值檢測的穩健 PCA 與穩健的馬氏距離

為什麼 `cooks.distance()` 函數沒有檢測到明顯的異常值？