高維柯西分佈是什麼樣的?
一個眾所周知的經驗法則是,對於高維度 $ d $ , 高斯分佈 $ N(0,I_d) $ 近似為球體上的均勻分佈 $ U_{\sqrt{d}S^{d-1}} $ . 這在之前的交叉驗證帖子中已經提到過,例如為什麼高斯分佈在高維空間上像肥皂泡一樣。這可以使用大偏差理論中的技術來精確化(例如https://www.cs.cornell.edu/jeh/book.pdf中的定理 2.9 )。
高維柯西分佈是否有類似的圖景?高維柯西是指一個隨機向量,其中每個分量都根據一維柯西單位獨立分佈。
樣本是否在某個流形附近累積,我們可以限制偏離流形的概率嗎?任何參考表示讚賞。
這個問題的主要挑戰在於解釋“圍繞某些流形積累”的含義。困難在於不可能發生這樣的事情,因為作為向量長度 $ d $ 增長,向量甚至不在同一個空間中!
解釋問題
因此,我們需要在嵌套向量空間中製定“流形序列”的概念 $ \mathbb{R}^0 \subset \mathbb{R}^1 \subset \mathbb{R}^2 \subset \cdots \subset \mathbb{R}^d \subset \cdots. $ 尋找正態分佈的指導,該序列將類似於球體序列 $ S^{d-1}(\sqrt d) $ 被定義為
$$ \mathbb{R}^d \supset S^{d-1}(\sqrt{d}) = {(x_1,x_2,\ldots, x_d)\mid x_1^2+x_2^2+\cdots + x_d^2=d} $$
為了 $ d=0,1,2,\ldots. $
因為球體附近點的累積很大程度上是高維空間中歐幾里得距離的幾何特性,我們首先應該想知道球體是否會繼續對柯西變量起作用。想像一個iid這樣的變量序列 $ \mathbf X = X_1, X_2, \ldots, X_d, \ldots. $ 在標準 Normal 情況下,分佈
$$ R_d^2(\mathbf X) = X_1^2 + X_2^2 + \cdots + X_d^2 $$
易於研究,因為它具有卡方分佈 $ d $ 自由度和初等分析表明該分佈的期望為 $ d $ 和方差 $ 2d. $ 因此 $ R_d(\mathbf X) $ 有一個Chi 分佈,對於大 $ d, $ 平均值接近 $ \sqrt{d-1/2} $ 和接近的標準差 $ \sqrt{1/2}. $ 如果我們採取 $ S^{d-1}(\sqrt{d-1/2}) $ 作為近似球體,這個標準偏差相對於球體的半徑變小。正是在這個意義上,我們可以說向量序列 $ (X_1,X_2,\ldots, X_d) $ 近似流形的序列 $ S^{d-1}(\sqrt{d-1/2}). $ 最後,由於漸近地這些流形任意接近 $ S^{d-1}(\sqrt{d}), $ 我們得到問題中的斷言。
一個重要的結論是近似流形的序列不是唯一的。
首次嘗試解決方案
模仿這種方法,我們想了解 $ R^2_d(\mathbf X) $ 當。。。的時候 $ X_i $ 與常見的柯西分佈是獨立同分佈的。柯西分佈具有正密度$$ f(x)=\frac{1}{\pi(1+x^2)} $$在任何實數 $ x. $ 不幸的是,這立即意味著沒有權力 $ |X_i| $ 的 $ 1 $ 或更大的期望是有限的。特別是, $ E[R^2_d(\mathbf X)]=\infty $ 和 $ \operatorname{Var}(R^2_d(\mathbf X))=\infty. $
儘管如此,樣本還是有可能沿著流形序列累積,前提是分量的減少比例變得非常大(以使矩無限大)。與其費力地進行複雜的積分估計,不如讓我們快速看一下這些分佈的一些分位數。使它們在大範圍內具有可比性 $ d, $ 我檢查過 $ R_d(\mathbf X)/\sqrt d $ (在正常情況下收斂到統一)。
該圖繪製了這些分佈的選定分位數,以獲得有趣的分佈集合。柯西分佈在左側,其他一些(適當縮放的)學生 t 分佈緊隨其後,然後是標準正態分佈和均勻分佈 $ (-2,2) $ 分配。我已經縮放 $ t(4), $ 正態分佈和均勻分佈產生漸近值 $ R^d $ 接近 $ 1. $
(注意對數對數比例。)
這些分佈都分為兩組。左邊的兩個有無限的差異。右邊的三個具有有限的方差,這意味著強大的平均定律(以及中心極限定理)適用。 CLT 告訴我們 (1) $ R^d $ 將收斂,並且 (2) 它的方差將逐漸縮小到零(以與 $ 1/d $ )。您可以在圖中看到這兩種情況:在面板中從左到右,分位數收斂到一個共同的水平值。
這種收斂不會發生在左邊的兩個面板中。因為學生 t(2) 分佈具有有限期望,所以分位數趨於平穩——但看起來它們可能不會全部收斂到相同的值。在左邊,因為柯西分佈有無限的期望和無限的方差,所以分位數變得越來越大(根據某些冪律,它看起來)並且它們之間的距離呈指數增長。
柯西分佈沒有近似球的集合。
第二次嘗試解決方案
那麼,應該如何進行呢?解釋這個問題的一種自然方式是更廣泛地重新提出這個問題:
大多數數據往往在大型數據集中的什麼位置?
答案當然是它們將位於聯合分佈具有最大概率密度的位置。等效地,對數密度將最大。在這一點上 $ \mathbf x = (x_1,x_2,\ldots,x_d)\in\mathbb{R}^d, $ 的獨立性 $ X_i $ 意味著對數密度是各個(邊際)密度對數的總和,
$$ \log F_{{\mathbf X}d}(\mathbf x) = -d\log(\pi) - \sum{i=1}^d \log(1 + x_i^2). $$
現在,先前的模擬表明,即使這些樣本的非常低的百分位數也會任意增長,因為 $ d $ 增加。也就是說,對於足夠大的 $ d, $ 幾乎所有的組件 $ (X_1,X_2,\ldots, X_d) $ 變得相當大。 我的意思是在估計 $ \log(1+x_i^2), $ 我們會通過忽略 $ 1+ $ 術語,因為它通常比 $ x_i^2 $ 對於大 $ d. $ 因此,對於巨 $ d, $
$$ \log F_{{\mathbf X}d}(\mathbf x) \approx -d\log(\pi) -2\sum{i=1}^d 2\log(|x_i|). $$
這告訴我們的水平集 $ F_{{\mathbf X}_d} $ 將是那些對數之和的 $ x_i $ 是一個常數。等效地,
對於大 $ d, $ 聯合分佈的水平集(“等高線”) $ (X_1,X_2,\ldots, X_d) $ 由下式定義的流形很好地近似 $ x_1x_2\cdots x_d = \text{Constant}. $
這些等高線水平是如何分佈的?讓我們檢查另一個模擬。和以前一樣,為不同的值生成結果 $ d $ 可比的,我跟踪過 $ \log F_{{\mathbf X}_d}(\mathbf x)/d, $ 這是組件密度的平均值。回想一下,這樣的平均值將漸近地逼近期望:也就是說,
$$ \log F_{{\mathbf X}d}(\mathbf x)/d \approx 2\int_0^\infty \log(f(x)) f(x),\mathrm{d}x = \int{-\infty}^\infty \log(f(x)) f(x),\mathrm{d}x $$
(因為 $ f $ 是關於對稱的 $ 0 $ )。當然,這是柯西分佈熵的負值。它等於 $ \log(4\pi) \approx 2.53. $
該圖顯示了直方圖 $ \log F_{{\mathbf X}_d}(\mathbf x)/d $ 對於每個指定樣本大小的 10,000 個獨立樣本,來自 $ d=1 $ 到 $ d=2500. $
直方圖不僅接近正態分佈形狀,而且還縮小了它們的共同預期 $ \log(4\pi) $ (顯示為垂直的藍色條)。看天平:對於 $ d=1 $ 值的範圍幾乎從 $ 0 $ 大概 $ 20. $ 為了 $ d=2500 $ 範圍穩步縮小到區間 $ [2.40, 2.70]. $
這種行為看起來像中心極限定理——它確實如此。 隨機變量序列 $ \log f(X_1), \log f(X_2), \ldots, \log f(X_d), \ldots $ 是獨立同分佈的,並且這些變量中的每一個都有有限的期望和有限的方差。(這是計算第一個和第二個時刻的兩個積分的問題。)
讓我們將其連接回 Normal 情況,其中 $ \log f (x) = -x^2/2 - \log(2\pi)/2. $ 相應的水平曲線的形式為 $ x_1^2 + \cdots + x_d^2 = \text{Constant}, $ 將球體(具有適當變化的半徑)作為近似流形的序列。
因為這些結果都是漸近的,我們可以稍微簡化一下,並提出
近似流形的序列可以選擇為形式的準雙曲面 $ x_1x_2\cdots x_d = C(d) $ 在哪裡 $ C(d) $ 取決於(以易於計算的方式)熵和 $ d. $
這是一張圖片 $ d=2. $
顏色(和標籤)表示 $ \log F_{\mathbf X_2}. $ 灰色曲線是各種水平集。箭頭將“下坡”指向關節密度的較小值:它們有助於更好地顯示這些流形的形狀。
您已經可以看到有多少水平集正在“嘗試”逼近以下形式的雙曲面 $ x_1x_2=\text{Constant}. $ 他們在靠近大部分密度的中心附近做得不太好。沒關係: $ d=2 $ 只是不夠大,無法表徵漸近行為!然而,這個情節非常具有啟發性,並勾勒出事物在更高維度上的(定性)外觀。
特別要注意這些水平曲線如何沿著坐標平面(2D 中的軸)“向外尖峰”。 **這就是一個明顯悖論的解決方案:**如果柯西樣本必須從任何球體序列中快速發散(如上所示),它們怎麼可能在任何流形序列周圍聚集?答案是這些流形必鬚髮散。 事實上,在 2D 中,我提出的近似流形, $ x_1 x_2=\text{Constant}, $ 都是無界雙曲線。這同樣適用於更高的維度。
所有這些結果(以及更多)在漸近和最大似然的課程中以不同的形式定期陳述和證明。當前設置的不同之處僅在於關注在幾何上將其視為向量時大型iid樣本“看起來像”的問題。