的分佈X4(X1−X3)+X5(X2−X1)X4(X1−X3)+X5(X2−X1)x_4(x_1-x_3)+x_5(x_2-x_1)獨立同居X一世∼N(0,1)X一世∼ñ(0,1)x_i sim N(0,1)

December 11, 2021

問題

給定的是 5 個獨立的標準正態變量 $ x_1,x_2,x_3,x_4,x_5 $ .

什麼是pdf $ x_4(x_1-x_3)+x_5(x_2-x_1) $ ?

我知道的

$$ x_1-x_3\sim \mathcal{N}\left(0,\sqrt{2}\right)\tag{1} $$ $$ x_2-x_1\sim \mathcal{N}\left(0,\sqrt{2}\right)\tag{2} $$ $$ x_4(x_1-x_3)\sim \frac{1}{\pi \sqrt{2}}K_0\left(\frac{\left|z\right|}{\sqrt{2}}\right)\tag{3} $$ $$ x_5(x_2-x_1)\sim \frac{1}{\pi \sqrt{2}}K_0\left(\frac{\left|z\right|}{\sqrt{2}}\right)\tag{4} $$

在哪裡 $ K_0 $ 是 Bessel 函數，eq.(3,4) 是正態乘積分佈。仍然要添加 2 個加法器 $ x_4(x_1-x_3) $ 和 $ x_5(x_2-x_1) $ 但它們是依賴的，不能卷積。

文獻中的相關問題

如果兩個變量被轉換為 $ x_1(a x_1+b x_2) $ 和 $ a\in \mathbb{R},b\in\mathbb{R}^+ $ 那麼pdf是已知的 $ [1] $ 但這在這裡不適用。

模擬

仿真表明，分佈 $ x_4(x_1-x_3)+x_5(x_2-x_1) $ 可以用帶參數的拉普拉斯分佈來近似 $ (0,1.34) $ . 但正確的答案不是拉普拉斯分佈。

$ [1] $ R. Gaunt：關於零均值相關正態隨機變量乘積分佈的註釋，Statistica Neerlandica，2018

線性代數展示

$$ 2(x_4(x_1-x_3)+x_5(x_2-x_1)) =(x_2-x_3+x_4+x_5)^2/4-(-x_2+x_3+x_4+x_5)^2/4+\sqrt{3}(-\sqrt{1/3}x_1+\sqrt{1/12}(x_2+x_3)+(1/2)(-x_4+x_5))^2-\sqrt{3}(-\sqrt{1/3}x_1+\sqrt{1/12}(x_2+x_3)+(1/2)(x_4-x_5))^2. $$

每個平方項是獨立標準正態變量的線性組合，按比例縮放以具有方差 $ 1, $ 這些方塊中的每一個都有一個 $ \chi^2(1) $ 分配。這四個線性組合也是正交的（正如快速檢查所證實的那樣），因此不相關；因為它們是不相關的聯合隨機變量，所以它們是獨立的。

因此，分佈是 (a) 兩個iid差異的一半 $ \chi^2(1) $ 變量加(b) $ \sqrt{3} $ 獨立iid差異的一半 $ \chi^2(1) $ 變量。

（iid的差異 $ \chi^2(1) $ 變量具有拉普拉斯分佈，因此這等效地是具有不同方差的兩個獨立拉普拉斯分佈的總和。）

因為一個特徵函數 $ \chi^2(1) $ 變量是

$$ \psi(t) = \frac{1}{\sqrt{1-2it}}, $$

這個分佈的特徵函數是

$$ \psi(t/2) \psi(-t/2) \psi(t\sqrt{3}/2) \psi(-t\sqrt{3}/2) = \left[(1+t^2)(1+3t^2)\right]^{-1/2}. $$

這不是任何拉普拉斯變量的特徵函數——也不是任何標準統計分佈的 cf。我一直無法找到它的傅里葉逆變換的封閉形式，它與 pdf 成正比。

這是疊加在估計值上的公式圖（紅色） $ \psi $ 基於 10,000 個值的樣本（實部為黑色，虛部為灰點）：

協議非常好。

編輯

仍然存在關於 PDF 是什麼的問題 $ f $ 好像。 它可以通過計算對傅里葉變換進行數值反轉來計算

$$ f(x) = \frac{1}{2\pi}\int_{\mathbb R} e^{-i x t} \psi(t),\mathrm{d}t = \frac{1}{2\pi}\int_{\mathbb R} \frac{e^{-i x t}}{\sqrt{(1+t^2)(1+3t^2)}},\mathrm{d}t. $$

順便說一句，這個表達式完全回答了原來的問題。本節其餘部分的目的是表明它是一個實用的答案。

數值積分一旦成為問題 $ |x| $ 超過 $ 10 $ 或者 $ 15, $ 但稍有耐心就可以準確計算出來。

根據https://stats.stackexchange.com/a/72486/919上對 Gamma 變量差異的分析，很容易通過混合兩個拉普拉斯分佈來近似結果。分佈中間附近的最佳近似值約為 $ 0.4 $ 次拉普拉斯 $ (1) $ 更多的 $ 0.6 $ 次拉普拉斯 $ (\sqrt{3}). $ 然而，這個近似的尾部有點太重了。

該圖中的左側圖是 100,000 個實現的直方圖 $ x_4(x_1-x_3) + x_5(x_2-x_1). $ 在它上面疊加（黑色）的數值計算 $ f $ 然後，用紅色表示它的混合近似值。近似值非常好，它與 $ f. $ 然而，它並不完美，如右側的相關情節所示。這情節 $ f $ 及其在對數尺度上的近似值。尾部近似的精度下降是顯而易見的。

這是一個R用於計算由其特徵函數指定的 PDF 值的函數。它適用於任何數值表現良好的CF（尤其是快速衰減的CF）。
cf <- Vectorize(function(x, psi, lower=-Inf, upper=Inf, ...) {
 g <- function(y) Re(psi(y) * exp(-1i * x * y)) / (2 * pi)
 integrate(g, lower, upper, ...)$value
}, "x")
作為其使用示例，以下是圖中黑色圖形的計算方式。
f <- function(t) ((1 + t^2) * (1 + 3*t^2)) ^ (-1/2)
x <- seq(0, 15), length.out=101)
y <- cf(x, f, rel.tol=1e-12, abs.tol=1e-14, stop.on.error=FALSE, subdivisions=2e3)
該圖是通過連接所有這些來構建的 $ (x,y) $ 價值觀。

這個計算為 $ 101 $ 的值 $ |x| $ 之間 $ 0 $ 和 $ 15 $ 大約需要一秒鐘。它是大規模可並行化的。

為了獲得更高的準確性，請增加subdivisions參數——但預計計算時間會成比例地增加。（使用的數字subdivisions=1e4。）

引用自：https://stats.stackexchange.com/questions/555736

comments powered by Disqus

的分佈X4(X1−X3)+X5(X2−X1)X4(X1−X3)+X5(X2−X1)x_4(x_1-x_3)+x_5(x_2-x_1)獨立同居X一世∼N(0,1)X一世∼ñ(0,1)x_i sim N(0,1)

編輯

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

指數分佈的隨機變量的指數分佈？

高維柯西分佈是什麼樣的？

估計參數函數周圍的置信區間

標準正態隨機變量的乘積符號

離散變量和連續變量。定義是什麼？