Machine-Learning

為什麼很多人希望將偏斜數據轉換為機器學習應用程序的正態分佈數據?

  • August 1, 2019

對於圖像和表格數據,很多人在預處理過程中將傾斜的數據轉換為正態分佈的數據。

機器學習中的正態分佈是什麼意思?它是機器學習算法的基本假設嗎?

即使是圖像數據,我也見過分位數變換,它將圖像的整個像素變換為遵循正態或均勻分佈。

我能想到一個原因:避免異常值的影響。但是這些轉換扭曲了數據的原始分佈。

為什麼正態分佈對機器學習如此重要,以至於許多預處理都包括這一步?

正如@user2974951 在評論中所說,正態分佈在某種程度上更好可能是一種迷信。也許他們有一個錯誤的想法,即由於 Normal 數據是許多加法錯誤的結果,如果他們強制他們的數據為 Normal,那麼他們可以將結果數字視為具有加法錯誤。或者他們學到的第一個統計技術是 OLS 回歸,而關於 Normal 的一些東西是一個假設……

常態通常不是必需的。但它是否有用取決於模型對數據的處理方式。

例如,財務數據通常是對數正態的——即有一個乘法(百分比)誤差。變分自動編碼器在瓶頸處使用正態分佈來強制平滑和簡單。Sigmoid 函數最自然地適用於 Normal 數據。混合模型通常使用法線的混合。(如果你可以假設它是Normal,你只需要兩個參數就可以完全定義它,而且這些參數的含義相當直觀。)

也可能是我們想要一個單峰的對稱分佈來進行建模,而正態分佈就是這樣。(並且“正常”的轉換通常不是嚴格的正常,只是更對稱。)

正態性可能會為您簡化一些數學運算,並且可能與您對生成數據的過程的概念一致:您的大部分數據都在中間,具有相對罕見的低值或高值,這是令人感興趣的。

但我的印像是它本質上是Cargo Cult

引用自:https://stats.stackexchange.com/questions/420140

comments powered by Disqus