Mathematical-Statistics

子空間相似度的零分佈,或者什麼是分佈tr(一個一種’乙乙')噸r(一種一種’乙乙')mathrm{tr}(AA’BB')?

  • March 13, 2015

什麼是分佈在哪裡和是兩個隨機矩陣正交列的大小?

也許期望值更容易計算?備用解決方案是使用模擬。什麼是最有效的方案?典型值大約是 2000 年,而範圍從〜10到幾百。


以下是我的問題及其背景的更詳細說明,我最終如何提出這個問題以及我嘗試了什麼。

語境

我想檢查從隨機過程樣本計算的主成分是否已經收斂。我目前的想法涉及比較第一個跨越的子空間給定感興趣值的主成分要么用於隨機過程的多個實現,要么用於自舉主成分。我對子空間相似性的標準是在哪裡和是矩陣,其列是要比較的兩個子空間的基礎。除了以下屬性外,該標準易於計算並且表現良好:隨著子空間的維度越來越接近總維度,指向“錯誤”方向的剩餘角空間縮小。為了建立一個更有意義的標準,我想將這個分數與比較兩個維度的隨機子空間得到的分數進行比較.

我的嘗試

我對此的第一次嘗試是考慮在不失一般性的情況下,第一個隨機子空間可以作為第一個隨機子空間的基礎規範基的向量。

另一個隨機子空間的基礎可以通過首先從規範基礎中挑選向量而不進行替換來構建。

由此產生的分佈將只是一個超幾何定律的分佈,其參數對應於吸引了一個總池其中的向量給出一個積極的結果(規範基的第一個向量),其中是總空間的維度,.

現在,兩個鹼基的向量沒有理由對齊或正交。我想可以通過應用隨機旋轉來解決這個問題看看. 我不確定如何旋轉行為但可能使用跟踪的屬性和事實有可能解決這個問題嗎?

注意:隨機正交投影儀根據Wishart 分佈進行分佈。然而,我對此並不了解。


相關參考:

我曾經問過一個本質上是你的特例的問題,當:兩個隨機單位向量的標量積的分佈. @whuber 給出了一個很好的答案,他解釋說點積等於, 在哪裡

和是空間的維度。它遵循 (也可以直接顯示這一點,請參閱鏈接線程中@Student001 的答案)。 你的問題是關於一個隨機變量

在哪裡和是具有正交列的矩陣。注意是一個方陣,其中每個元素是兩個隨機單位向量之間的點積方面。不同的向量不是獨立的(因為它們必須是正交的),而是具有我希望這可以被忽略。那麼我們可以考慮作為一個矩陣獨立抽獎, 它的平方範數是一個隨機變量 我認為很難獲得 PDF 的解析表達式beta 分佈的隨機變量,但由於中心極限定理,它將迅速接近正態分佈(參見math.SE 上的相關線程)。為了指定這個正態分佈,我們需要計算它的均值和方差。平均值很簡單:平均值是零,所以平均值等於方差,即. 這意味著.

計算方差是一個巨大的混亂,我開始但無法完成,令人尷尬的是花了我幾個小時。以下是我通過查找beta 分佈的原始矩的公式得出的一些輔助公式

並插入:

使用這個,可以得出方差從…開始

我省略了繁瑣的算術,直接跳到答案:結論是漸近地 Matlab 中的快速仿真證實了這一結果:

子空間之間的相似性

這是我用來生成此圖的代碼(,,蒙特卡洛重複次數為; 這在我的電腦上運行了 17 秒):

d = 2000;
k = 50;
n_iter = 1000;

tic
for rep = 1:n_iter
   A = randn(d,k);
   [A,~,~] = svd(A,0);  %// orthogonalizing
   B = randn(d,k);
   [B,~,~] = svd(B,0);  %// orthogonalizing

   w(rep) = sum(sum((transpose(A)*B).^2)); %// = trace(A*A'*B*B'), but faster!
end
toc

figure
[f, xi] = ksdensity(w);
h1 = plot(xi, f, 'LineWidth', 2);
hold on
x = min(w):(max(w)-min(w))/100:max(w);
mu = k^2/d;
sigma2 = k^2 * 2*(d-1)/d^2/(d+2);
h2 = plot(x, 1/(sqrt(2*pi*sigma2)) * exp(-(x-mu).^2/2/sigma2), 'r', 'LineWidth', 2);

title(['d = ' num2str(d) ', k = ', num2str(k)])
hh = legend({['Observed density (n = ' num2str(niter) ')'], 'Predicted density'});
legend('boxoff')

的解釋

列跨越的子空間之間主角的餘弦和由奇異值給出. 然後這些餘弦的平方由特徵值給出或者也屬於. 因此,從幾何上講,您的軌跡是主角的平方餘弦之和。如果, 那麼所有角度都為零並且平方餘弦之和等於. 如果, 那麼所有的角都是餘弦平方和為零。

我喜歡你的規範化方法經過,即取作為相似度的主要衡量標準。顯然不能超過, 將等於當子空間重合時,如果它們是隨機選擇的,它們將接近於零。確實,, 意思就是. 什麼時候,這接近於零。

引用自:https://stats.stackexchange.com/questions/141611

comments powered by Disqus