Predictive-Models

保留語義的與領域無關的特徵工程?

  • February 8, 2012

特徵工程通常是機器學習的重要組成部分(它在 2010 年被大量用於贏得 KDD 杯)。但是,我發現大多數特徵工程技術

  • 破壞底層特徵的任何直觀含義或
  • 非常特定於特定領域甚至特定類型的功能。

前者的一個經典例子是主成分分析。在我看來,主題專家對這些特徵的任何了解都會因將這些特徵轉換為主成分而被破壞。

與將日期轉換為“月中日”和“周中日”的特徵的簡單技術進行對比。新功能中仍然保留了基本含義,但顯然這種特殊技術僅適用於日期,而不適用於任意功能。

是否有任何標準的特徵工程技術體係不會破壞底層特徵的含義,同時也適用於任意領域(或至少是各種各樣的領域)?

我知道一種分解方法(但也許還有更多……)在您描述的場景中可能很有用。它就像 2D-PCA - 一種高階分解方法,其中分解(即因子)具有一定的意義。您可以在此處此處查看示例並閱讀相關內容並嘗試在此處

引用自:https://stats.stackexchange.com/questions/23502

comments powered by Disqus