Normal-Distribution

非正態特徵的標準化

  • September 3, 2018

假設我們有幾個特徵(例如) 不遵循高斯分佈。如果我們對數據應用標準化,我們是否必須擔心特徵不遵循高斯分佈?

即,即使特徵最初不遵循正態分佈,在均值標準化後,它們是否也不會遵循高斯分佈和方差?

簡短的回答:是的,您確實需要擔心數據的分佈不正常,因為標準化不會改變數據的底層分佈結構。如果然後您可以通過標準化將其轉換為標準法線:. 然而,這是可能的,因為首先已經遵循正態分佈。如果具有非正態分佈,以與上述相同的方式對其進行標準化通常不會使數據呈正態分佈。

指數分佈數據及其標準化版本的簡單示例:

x <- rexp(5000, rate = 0.5)
y <- (x-mean(x))/sd(x)
par(mfrow = c(2,1))
hist(x, freq = FALSE, col = "blue", breaks = 100, xlim = c(min(x), quantile(x, 0.995)),
    main = "Histogram of exponentially distributed data X with rate = 0.5")
hist(y, freq = FALSE, col = "yellow", breaks = 100, xlim = c(min(y), quantile(y, 0.995)),
    main = "Histogram of standardized data Y = ( X-E(X) ) / StDev(X)")

現在如果我們檢查原始數據的均值和標準差,我們得到

c(mean(x), sd(x))
[1] 2.044074 2.051816

而對於標準化數據, 對應的結果是

c(mean(y), sd(y))
[1] 7.136221e-17 1.000000

正如你所看到的,標準化後的數據分佈絕對不是正態分佈,即使平均值(實際上)為 0,方差為 1。換句話說,如果特徵在標準化之前不遵循正態分佈,它們將不會在標準化之後遵循它。

引用自:https://stats.stackexchange.com/questions/365164

comments powered by Disqus