Distributions

柯西分佈在某種程度上是“不可預測的”分佈嗎?

  • November 3, 2018

柯西分佈在某種程度上是“不可預測的”分佈嗎?

我試著做

cs <- function(n) {
 return(rcauchy(n,0,1))
}

在 R 中獲取大量 n 值,並註意到它們偶爾會產生非常不可預測的值。

將其與例如

as <- function(n) {
 return(rnorm(n,0,1))
}

這似乎總是給出一個“緊湊”的點雲。

通過這張照片,它應該看起來像正態分佈?然而,它可能只適用於值的一個子集。或者訣竅是柯西標準差(在下圖中)收斂得更慢(向左和向右),因此允許更嚴重的異常值,儘管概率很低?

https://i.stack.imgur.com/zGTLU.png

這里和普通的 rvs 一樣,cs 是 Cauchy rvs。

在此處輸入圖像描述

但是由於異常值的極端,柯西 pdf 的尾部是否有可能永遠不會收斂?

雖然網站上的許多帖子都涉及柯西的各種特性,但我沒能找到一個真正將它們放在一起的帖子。希望這可能是收集一些的好地方。我可以擴展這個。

沉重的尾巴

雖然 Cauchy 是對稱的並且大致呈鐘形,有點像正態分佈,但它的尾巴要重得多(而且“肩膀”更少)。例如,柯西隨機變量與中位數相差 1000 多個四分位距的概率很小但明顯不同——與正常隨機變量大致相同,即距中位數至少 2.67 個四分位距。

方差

柯西的方差是無限的。

編輯:JG 在評論中說它是未定義的。如果我們將方差作為值對之間平方距離的一半的平均值 - 這與兩者都存在時的方差相同,那麼它將是無限的。然而,按照通常的定義,JG 是正確的。[儘管如此,與隨著 n 變大並不會真正收斂到任何東西的樣本均值相比,樣本方差的分佈隨著樣本量的增加而不斷增加;尺度與 n 成比例增加,或者等效地,對數方差的分佈隨樣本量線性增長。考慮到產生無窮大的方差版本告訴我們一些事情似乎很有成效。]

當然存在樣本標準偏差,但樣本越大,它們往往越大(例如,n=10 時的中值樣本標準偏差接近尺度參數的 3.67 倍(IQR 的一半),但在 n= 100 大約是 11.9)。

意思是

柯西分佈甚至沒有有限均值。均值的積分不收斂。結果,即使是大數定律也不適用——隨著 n 的增長,樣本均值不會收斂到某個固定數量(實際上它們沒有什麼可以收斂的)。

事實上,柯西分佈的樣本均值分佈與單個觀測值的分佈相同(!)。尾巴太重了,以至於在總和中添加更多的值會使一個真正的極值很可能足以彌補在取平均值時除以更大的分母。

可預測性

您當然可以為柯西分佈的觀察結果生成完全合理的預測區間;有一些簡單、相當有效的估計器可以很好地估計位置和規模,並且可以構建近似的預測區間——因此,至少從這個意義上說,柯西變量是“可預測的”。然而,尾巴延伸得很遠,所以如果你想要一個高概率區間,它可能會很寬。

如果您試圖預測分佈的中心(例如在回歸類型模型中),這在某種意義上可能相對容易預測;柯西的峰值相當高(對於典型的尺度測量,有很多分佈“接近”中心),因此如果您有適當的估計器,則可以相對較好地估計中心。

這是一個例子:

我從與標準 Cauchy 誤差(100 個觀察值,截距 = 3,斜率 = 1.5)的線性關係生成數據,並通過三種對 y 異常值相當穩健的方法估計回歸線:Tukey 3 組線(紅色)、Theil 回歸(深綠色)和 L1 回歸(藍色)。沒有一個在 Cauchy 中特別有效——儘管它們都會為更有效的方法提供極好的起點。

然而,與數據的噪聲相比,這三者幾乎一致,並且非常接近數據運行的中心;從這個意義上說,柯西顯然是“可預測的”。

對於任何一條線,絕對殘差的中位數僅略大於 1(大部分數據非常接近估計線);在這個意義上,柯西也是“可預測的”。

與柯西誤差和三個擬合回歸線的線性關係

對於左邊的情節,有一個很大的異常值。為了更好地查看數據,我縮小了右側 y 軸上的比例。

引用自:https://stats.stackexchange.com/questions/375208

comments powered by Disqus