Mathematical-Statistics

中兩個隨機單位向量的標量積分佈𝐷DD方面

  • February 8, 2014

如果 $ \mathbf{x} $ 和 $ \mathbf{y} $ 是兩個獨立的隨機單位向量 $ \mathbb{R}^D $ (均勻分佈在單位球面上),它們的標量積(點積)的分佈是什麼 $ \mathbf x \cdot \mathbf y $ ?

我想作為 $ D $ 分佈迅速增長 (?) 變為正態,均值為零,方差在更高維度上減小$$ \lim_{D\to\infty}\sigma^2(D) \to 0, $$但是否有明確的公式 $ \sigma^2(D) $ ?

更新

我進行了一些快速模擬。首先,生成 10000 對隨機單位向量 $ D=1000 $ 很容易看出他們的點積的分佈是完美的高斯分佈(事實上它已經是相當高斯的了) $ D=100 $ ),請參見左側的子圖。二、對於每個 $ D $ 範圍從 1 到 10000(步長增加)我生成了 1000 對併計算了方差。對數圖顯示在右側,很明顯該公式非常近似於 $ 1/D $ . 請注意,對於 $ D=1 $ 和 $ D=2 $ 這個公式甚至給出了準確的結果(但我不確定以後會發生什麼)。

隨機單位向量之間的點積

因為(眾所周知)單位球面上的均勻分佈 $ S^{D-1} $ 是通過歸一化 a $ D $ - 變量正態分佈和點積 $ t $ 歸一化向量的相關係數是它們的相關係數,這三個問題的答案是:

  1. $ u= (t+1)/2 $ 有一個 Beta $ ((D-1)/2,(D-1)/2) $ 分配。
  2. 的方差 $ t $ 等於 $ 1/D $ (如問題中推測的那樣)。
  3. 標準化分佈 $ t $ 以接近正常的速度 $ O\left(\frac{1}{D}\right). $

方法

單位向量的點積的精確分佈很容易從幾何上獲得,因為這是第二個向量在第一個向量的方向上的分量。由於第二個向量獨立於第一個向量並且均勻分佈在單位球面上,它在第一方向的分量與球面的任何坐標分佈相同。(請注意,第一個向量的分佈無關緊要。)

尋找密度

讓那個坐標是最後一個,密度在 $ t \in [-1,1] $ 因此與位於之間高度的表面積成正比 $ t $ 和 $ t+dt $ 在單位球面上。這個比例發生在一個高度帶內 $ dt $ 和半徑 $ \sqrt{1-t^2}, $ 它本質上是一個圓錐台,由一個 $ S^{D-2} $ 半徑 $ \sqrt{1-t^2}, $ 高度 $ dt $ , 和斜率 $ 1/\sqrt{1-t^2} $ . 概率與

$$ \frac{\left(\sqrt{1 - t^2}\right)^{D-2}}{\sqrt{1 - t^2}},dt = (1 - t^2)^{(D-3)/2} dt. $$

讓 $ u=(t+1)/2 \in [0,1] $ 包含 $ t = 2u-1 $ . 將其代入前面給出了一個歸一化常數的概率元素:

$$ f_D(u)du ; \propto ; (1 - (2u-1)^2)^{(D-3)/2} d(2u-1) = 2^{D-2}(u-u^2)^{(D-3)/2}du. $$

這是立即的 **$ u=(t+1)/2 $ 有一個 Beta $ ((D-1)/2, (D-1)/2) $ 分佈,**因為(根據定義)它的密度也與

$$ u^{(D-1)/2-1}\left(1-u\right)^{(D-1)/2-1} = (u-u^2)^{(D-3)/2} ; \propto ; f_D(u). $$

確定限制行為

使用基本技術很容易從中得出有關限制行為的信息: $ f_D $ 可以積分得到比例常數 $ \frac{\Gamma \left(\frac{D}{2}\right)}{\sqrt{\pi } \Gamma \left(\frac{D-1}{2}\right)} $ ; $ t^k f_D(t) $ 可以積分(例如使用 Beta 函數的屬性)以獲得矩,表明方差為 $ 1/D $ 並縮小到 $ 0 $ (因此,根據切比雪夫定理,概率變得集中在 $ t=0 $ ); 然後通過考慮標準化分佈的密度值來找到極限分佈,與 $ f_D(t/\sqrt{D}), $ 對於小值 $ t $ :

$$ \eqalign{ \log(f_D(t/\sqrt{D})) &= C(D) + \frac{D-3}{2}\log\left(1 - \frac{t^2}{D}\right) \ &=C(D) -\left(1/2 + \frac{3}{2D}\right)t^2 + O\left(\frac{t^4}{D}\right) \ &\to C -\frac{1}{2}t^2 } $$

在哪裡 $ C $ ' 表示 (log) 積分常數。顯然這是接近正態性的速率(對數密度等於 $ -\frac{1}{2}t^2 $ ) 是 $ O\left(\frac{1}{D}\right). $

數字

該圖顯示了點積的密度 $ D=4, 6, 10 $ ,標準化為單位方差,以及它們的極限密度。值在 $ 0 $ 增加 $ D $ (從藍色到紅色、金色,然後是標準正常密度的綠色)。密度為 $ D=1000 $ 在此分辨率下與正常密度無法區分。

引用自:https://stats.stackexchange.com/questions/85916

comments powered by Disqus