Regression

非正態的混合是正態的嗎?

  • September 10, 2020

有沒有人有一個簡單的非正態分佈混合的例子?為了讓生活變得簡單,選擇具體的 $ f_1(y) $ 和 $ f_2(y) $ , 均值為 0, 這樣$$ (1/2)f_1(y) + (1/2)f_2(y) = \frac{\exp(-y^2/2)}{\sqrt{2\pi}}. $$

這樣的分佈將為回歸殘差的正態性意味著條件分佈的正態性這一普遍陳述的“事實”提供一個巧妙的反例。讓 $ Y|X = 1 \sim f_1(y) $ 和 $ Y|X =2 \sim f_2(y) $ . 此外,讓 $ X $ 以概率 1/2 取值 1 和 2。那麼真實殘差的邊際分佈是正態的,而 $ Y $ 不是。

(註釋:殘差的邊際分佈最常用於檢查正態性假設。)

我可以向您展示所有示例,而不僅僅是簡單的示例。

解決方案

它們在這裡,示意性地:

數字

底部面板顯示了密度函數的方式 $ f $ 分佈的 $ F $ 沿著幾乎任意的曲線垂直分成兩部分。分裂的青色部分是分數 $ \lambda $ 的 $ f; $ 左上角繪製了它的圖形。因此,剩餘部分(灰色)是一小部分 $ 1-\lambda $ 的 $ f $ 其圖形繪製在右上角。 這就是所有混合物的產生方式。

(請注意,關於密度的假設很少 $ f $ 除了它存在。)


細節

混合物分佈 $ F $ 是正常的,這意味著有一個平均值 $ \mu $ 和方差 $ \sigma^2 $ 為此 $ F $ 有密度函數 $ f(z;\mu,\sigma). $ 的詳細信息 $ f $ 沒關係!

讓 $ \lambda:\mathbb{R}\to[0,1] $ 是任何(可測量的)非負函數。這意味著以下積分涉及 $ \lambda $ 被定義且非負數:

$$ \pi_\lambda = \int_\mathbb{R} \lambda(z)f(z;\mu,\sigma),\mathrm{d}z \le \sup(\lambda), \int_\mathbb{R}f(z;\mu,\sigma),\mathrm{d}z \le (1)(1)=1; $$

$$ 1-\pi_\lambda = 1 - \int_\mathbb{R} \lambda(z)f(z;\mu,\sigma),\mathrm{d}z = \int_\mathbb{R} (1-\lambda(z))_f(z;\mu,\sigma),\mathrm{d}z \le 1. $$

(第一個不等式是霍爾德不等式的一個簡單特例。)

將兩個分佈定義為

$$ F_{\lambda}(x) = \frac{1}{\pi_\lambda}\int_{-\infty}^x \lambda(z)f(z;\mu,\sigma),\mathrm{d}z; $$

$$ F_{1-\lambda}(x) = \frac{1}{1-\pi_\lambda}\int_{-\infty}^x (1-\lambda(z))f(z;\mu,\sigma),\mathrm{d}z. $$

很容易確定這些分佈函數,並且通過構造,

$$ F = \pi_\lambda F_\lambda + (1-\pi_\lambda) F_{1-\lambda}\tag{*} $$

將原始正態分佈展示為這兩者的混合。

相反,只要存在具有屬性的可微函數 $ (), $ 然後是一個版本 $ \lambda $ 可以通過恢復*

$$ \lambda(z) = \left{\begin{aligned}\frac{F^\prime_\lambda(z)}{f(z;\mu,\sigma)} &\quad&f(z;\mu,\sigma)\ne 0\ 0 & &\text{otherwise}\end{aligned}\right. $$

因為 $ 0 \le \pi_\lambda\le 1, $ 的範圍 $ \lambda $ 包含在 $ [0,1], $ QED。

最後,分量分佈可能是正態分佈:例如,當 $ \lambda $ 是一個常數函數。不過,這是唯一的可能性:請參閱https://stats.stackexchange.com/a/429877/919以獲取證明。


應用

根據評論中的要求,選擇 $ \lambda $ 滿足一組標準,例如

  1. 賦予組件相等的權重,這意味著$$ \frac{1}{2}=\pi_\lambda = \int \lambda(z) f(z),\mathrm{d}z. $$
  2. 由於這些旨在對回歸設置中的錯誤進行建模(使用 $ \mu=0, $ 我們希望每個組件也具有零均值: $ 0 = E_{F_\lambda} . $ 根據(1),這相當於$$ 0 = \int z\lambda(z) f(z),\mathrm{d}z. $$
  3. 由於回歸誤差通常被認為是同方差的——方差相等——我們希望方差 $ F_\lambda $ 和 $ F_{1-\lambda} $ 平等。由於它們的均值為零,當 $ f $ 是一個正常的密度,這是實現時$$ \sigma^2 = 2\int z^2\lambda(z) f(z),\mathrm{d}z. $$

儘管這些方程有很多解,但通過假設得到一個簡單的(引人注目的)解 $ \lambda $ 和 $ 1-\lambda $ 都是簡單的函數:即分段常數。通過製作 $ \lambda $ 左右對稱 $ 0 $ 我們可以保證(2)成立。此類簡單函數中最簡單的函數為零,除非在某個正區間上 $ [a,b] $ 及其負面 $ [-b,-a], $ 它等於 $ 1. $

不失一般性採取 $ \sigma^2=1, $ 以便 $ f = \phi $ 是具有屬性的標準正態密度 $ \phi^(z) = -z\phi(z). $ 利用這個事實,我們可以計算

$$ \int \lambda(z)\phi(z),\mathrm{d}z = 2 \int_a^b \phi(z),\mathrm{d}z = 2(\Phi(b)-\Phi(a)) $$

(在哪裡 $ \Phi $ 是標準正態分佈函數)和

$$ \begin{aligned} \int z^2 \lambda(z)\phi(z),\mathrm{d}z &= 2 \int_a^b z^2\phi(z),\mathrm{d}z \ &= 2(\Phi(b) - \Phi(a) + a\phi(b) - b\phi(b)). \end{aligned} $$

這允許 (1) 和 (3) 的數值解。通過從 (1) 中註意到,給定 $ 0 \le a\lt \Phi^{-1}(3/4), $

$$ b = b(a) = \Phi^{-1}(\Phi(a) + 1/4). $$

這讓我們需要解決 (3) $ a \ge 0 $ . 下面是一個R實現來說明:

f <- function(a) {
 b <- qnorm(1/4 + q <- pnorm(a))
 pnorm(b) - q + a * dnorm(a) - b * dnorm(b) - 1/4
}
uniroot(f, c(0, qnorm(3/4)- 1e-6))$root -> a
qnorm(pnorm(a) + 1/4) -> b

這個計算給出 $ a \approx 0.508949 $ 和 $ b \approx 1.59466. $ 這是兩個分量密度的圖 $ f_\lambda $ 和 $ f_{1-\lambda}: $

圖 2

為了說明預期的應用,這裡有 150 個響應的雙變量數據 $ X=0 $ 錯誤分佈為 $ F_\lambda $ 和 150 條回复 $ X=1 $ 錯誤分佈為 $ F_{1-\lambda}. $ 右側是收集到的殘差的分位數圖。

圖 3

儘管分別沒有兩組殘差看起來是正常的,但它們都以零為中心,具有幾乎相同的方差,並且總體看起來非常正常。


評論

  1. 基本結構很容易推廣到具有兩種以上成分的混合物。
  2. 通過使用間隔支持的簡單(指標)函數,可以擴展應用程序中的示例 $ [a_i,b_i] $ 和 $ 0\le a_1 \lt b_1 \le a_2 \lt b_2 \cdots \lt b_k, $ 創建與第一個匹配的組件分佈 $ 2k $ 它們的混合物產生的正態分佈的矩。有足夠大的 $ k, $ 即使使用較大的數據集,分量分佈也很難區分(此時人們可能會合理地懷疑它們的非正態性是否重要)。

引用自:https://stats.stackexchange.com/questions/486857

comments powered by Disqus