Normal-Distribution
非正態特徵的標準化
假設我們有幾個特徵(例如) 不遵循高斯分佈。如果我們對數據應用標準化,我們是否必須擔心特徵不遵循高斯分佈?
即,即使特徵最初不遵循正態分佈,在均值標準化後,它們是否也不會遵循高斯分佈和方差?
簡短的回答:是的,您確實需要擔心數據的分佈不正常,因為標準化不會改變數據的底層分佈結構。如果然後您可以通過標準化將其轉換為標準法線:. 然而,這是可能的,因為首先已經遵循正態分佈。如果具有非正態分佈,以與上述相同的方式對其進行標準化通常不會使數據呈正態分佈。
指數分佈數據及其標準化版本的簡單示例:
x <- rexp(5000, rate = 0.5) y <- (x-mean(x))/sd(x) par(mfrow = c(2,1)) hist(x, freq = FALSE, col = "blue", breaks = 100, xlim = c(min(x), quantile(x, 0.995)), main = "Histogram of exponentially distributed data X with rate = 0.5") hist(y, freq = FALSE, col = "yellow", breaks = 100, xlim = c(min(y), quantile(y, 0.995)), main = "Histogram of standardized data Y = ( X-E(X) ) / StDev(X)")
c(mean(x), sd(x)) [1] 2.044074 2.051816
而對於標準化數據, 對應的結果是
c(mean(y), sd(y)) [1] 7.136221e-17 1.000000
正如你所看到的,標準化後的數據分佈絕對不是正態分佈,即使平均值(實際上)為 0,方差為 1。換句話說,如果特徵在標準化之前不遵循正態分佈,它們將不會在標準化之後遵循它。