R

Beta 隨機變量的逆正態 CDF 遵循什麼分佈?

  • January 9, 2017

假設您定義:

在哪裡是標準正態分佈的 CDF 的倒數。

我的問題是:是否有一個簡單的分佈跟隨,或者可以近似? 我之所以問,是因為根據模擬結果(如下所示),我強烈懷疑收斂到正態分佈時和很高,但我不知道為什麼它會在數學上。(當然當,將是統一的將是標準的正常值,但為什麼更高的值會如此?)。

如果這確實收斂到一個法線,那麼該法線的參數將是什麼,就和? (我希望平均值是因為那是模式的轉換,但我不知道標準偏差)。

(換句話說,這可能是問“是否收斂到 beta 分佈,對於某個方向和“?我不確定這是否更容易回答)。

仿真結果

在這裡,我說明了為什麼我懷疑結果是正常的(因為我無法用數學來支持它)。模擬可以在 R 中用qnorm和完成rnorm。例如,選擇高參數和:

hist(qnorm(rbeta(5000, 3000, 7000)))

這看起來確實很正常,並且qqnormShapiro -Wilk 檢驗(其中正態性是原假設)也表明:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#> Shapiro-Wilk normality test
#> 
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

為了更深入地探索正態性,我進行了 2,000 次模擬,每次模擬 5,000 個值,然後執行測試以將其與正常值進行比較。(我選擇了 5K 值,因為這是shapiro.test可以處理的最大值,並且最大限度地提高了檢測偏離標準的能力)。

如果分佈確實是正態的,我們會期望 p 值是均勻的(因為 null 為真)。它們確實接近均勻,表明分佈非常接近正態分佈:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

一些實驗表明,越高和是,分佈接近正常(例如rbeta(5000, 3, 7),離正常很遠,但嘗試hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))它似乎介於兩者之間)。

概要

您重新發現了樣本中位數的中心極限定理中描述的部分構造,該定理說明了對樣本中位數的分析。(該分析顯然適用於任何分位數,而不僅僅是中位數)。因此,對於大 Beta 參數(對應於大樣本),在問題中描述的變換下出現正態分佈也就不足為奇了。有趣的是,即使對於的Beta 參數,分佈也接近於正態分佈。 這值得解釋。

我將在下面草繪分析。為了使這篇文章保持合理的長度,它涉及很多暗示性的揮手:我的目的只是指出關鍵思想。因此,讓我在這裡總結一下結果:

  1. 什麼時候 $ \alpha $ 接近 $ \beta $ ,一切都是對稱的。這導致轉換後的分佈已經看起來很正常。
  2. 表格的功能 $ \Phi^{\alpha-1}(x)\left(1-\Phi(x)\right)^{\beta-1} $ 首先看起來相當正常,即使對於較小的值 $ \alpha $ 和 $ \beta $ (前提是兩者都超過 $ 1 $ 他們的比例並不太接近 $ 0 $ 或者 $ 1 $ )。
  3. 變換分佈的明顯正態性是由於其密度由正態密度乘以 (2) 中的函數組成。
  4. 作為 $ \alpha $ 和 $ \beta $ 增加,可以在對數密度的泰勒級數中的餘數項中測量對正態性的偏離。訂貨期限 $ n $ 成比例地減少 $ (n-2)/2 $ 的權力 $ \alpha $ 和 $ \beta $ . 這意味著最終,對於足夠大的 $ \alpha $ 和 $ \beta $ , 所有冪項 $ n=3 $ 或更大變得相對較小,只留下二次:這正是正態分佈的對數密度。

總的來說,這些行為很好地解釋了為什麼即使對於小 $ \alpha $ 和 $ \beta $ iid Normal 樣本的非極端分位數看起來近似 Normal。


分析

因為泛化可能很有用,讓 $ F $ 是任何分佈函數,儘管我們已經想到 $ F=\Phi $ .

密度函數 $ g(y) $ 一個貝塔 $ (\alpha,\beta) $ 根據定義,變量與

$$ y^{\alpha-1}(1-y)^{\beta-1}dy. $$

讓 $ y=F(x) $ 是概率積分變換 $ x $ 和寫作 $ f $ 對於導數 $ F $ , 即刻 $ x $ 密度與

$$ G(x;\alpha,\beta)=F(x)^{\alpha-1}(1-F(x))^{\beta-1}f(x)dx. $$

因為這是強單峰分佈(Beta)的單調變換,除非 $ F $ 很奇怪,轉換後的分佈也將是單峰的。為了研究它可能有多接近正常,讓我們檢查它的密度的對數,

$$ \log G(x;\alpha,\beta) = (\alpha-1)\log F(x) + (\beta-1)\log(1-F(x)) + \log f(x) + C\tag{1} $$

在哪裡 $ C $ 是一個不相關的歸一化常數。

展開組件 $ \log G(x;\alpha,\beta) $ 在泰勒級數中,圍繞一個值訂購三個 $ x_0 $ (這將接近一種模式)。例如,我們可以寫出 $ \log F $ 作為

$$ \log F(x) = c^{F}_0 + c^{F}_1 (x-x_0) + c^{F}_2(x-x_0)^2 + c^{F}_3h^3 $$

對於一些 $ h $ 和 $ |h| \le |x-x_0| $ . 使用類似的符號 $ \log(1-F) $ 和 $ \log f $ .

線性項

中的線性項 $ (1) $ 從而成為

$$ g_1(\alpha,\beta) = (\alpha-1)c^{F}_1 + (\beta-1)c^{1-F}_1 + c^{f}_1. $$

什麼時候 $ x_0 $ 是一種模式 $ G(,;\alpha,\beta) $ ,這個表達式為零。請注意,因為係數是 $ x_0 $ , 作為 $ \alpha $ 和 $ \beta $ 多種多樣,模式 $ x_0 $ 也會不斷變化。而且,有一次 $ \alpha $ 和 $ \beta $ 足夠大,則 $ c^{f}_1 $ 術語變得相對無關緊要。如果我們的目標是研究極限 $ \alpha\to\infty $ 和 $ \beta\to\infty $ 為此 $ \alpha:\beta $ 保持不變的比例 $ \gamma $ ,因此我們可以一勞永逸地選擇一個基點 $ x_0 $ 為此

$$ \gamma c^{F}_1 + c^{1-F}_1 = 0. $$

一個很好的案例是 $ \gamma=1 $ , 在哪裡 $ \alpha=\beta $ 貫穿始終,並且 $ F $ 是關於對稱的 $ 0 $ . 在那種情況下很明顯 $ x_0=F(0)=1/2 $ .

我們已經實現了一種方法,其中 (a) 在極限中,泰勒級數中的一階項消失,並且 (b) 在剛剛描述的特殊情況下,一階項始終為零。

二次項

這些是總和

$$ g_2(\alpha,\beta) = (\alpha-1)c^{F}_2 + (\beta-1)c^{1-F}_2 + c^{f}_2. $$

與正態分佈相比,其二次項為 $ -(1/2)(x-x_0)^2/\sigma^2 $ , 我們可以估計 $ -1/(2g_2(\alpha,\beta)) $ 大約是的方差 $ G $ . 讓我們標準化 $ G $ 通過重新縮放 $ x $ 由它的平方根。我們真的不需要細節;足以理解這種重新調整將乘以係數 $ (x-x_0)^n $ 在泰勒展開式中 $ (-1/(2g_2(\alpha,\beta)))^{n/2}. $

剩餘期限

這是妙語:訂單條款 $ n $ 根據我們的記號,在泰勒展開式中,

$$ g_n(\alpha,\beta) = (\alpha-1)c^{F}_n + (\beta-1)c^{1-F}_n + c^{f}_n. $$

標準化後就變成了

$$ g_n^\prime(\alpha,\beta) = \frac{g_n(\alpha,\beta)}{(-2g_2(\alpha,\beta))^{n/2})}. $$

兩者 $ g_i $ 是仿射組合 $ \alpha $ 和 $ \beta $ . 通過將分母提高到 $ n/2 $ 力量,網絡行為是有序的 $ -(n-2)/2 $ 在每個 $ \alpha $ 和 $ \beta $ . 隨著這些參數變大,泰勒展開式中的每一項在第二個之後逐漸減小到零。 特別是,三次餘項變得任意小。

時的情況 $ F $ 是正常的

餘項的消失在以下情況下特別快 $ F $ 是標準的 Normal,因為在這種情況下 $ f(x) $ 是純二次的:它對余項沒有任何貢獻。因此,偏差 $ G $ 偏離常態僅取決於之間的偏差 $ F^{\alpha-1}(1-F)^{\beta-1} $ 和常態。

即使對於小 $ \alpha $ 和 $ \beta $ . 為了說明,考慮這種情況 $ \alpha=\beta $ . $ G $ 是對稱的,因此三階項完全消失。其餘的都是有序的 $ 4 $ 在 $ x-x_0=x $ .

這是一個圖表,顯示了標準化的四階項如何隨著較小的值而變化 $ \alpha \gt 1 $ :

數字

值開始於 $ 0 $ 為了 $ \alpha=\beta=1 $ , 因為那麼分佈顯然是正態的 ( $ \Phi^{-1} $ 應用於均勻分佈,這就是 Beta $ (1,1) $ 是,給出一個標準的正態分佈)。雖然增長迅速,但最高值低於 $ 0.008 $ - 這實際上與零無法區分。之後,漸近倒數衰減開始,使分佈越來越接近正常,因為 $ \alpha $ 增加超過 $ 2 $ .

引用自:https://stats.stackexchange.com/questions/255398

comments powered by Disqus