Covariance-Matrix

測量非線性相關性

  • April 10, 2011

兩個隨機變量之間的協方差定義了它們之間線性相關程度的度量。但是如果聯合分佈是圓形的呢?當然,分佈中有結構。這個結構是如何提取的?

通過“圓形”,我理解分佈集中在圓形區域,就像在這個 pdf 的等高線圖中一樣。

圓形分佈的等高線圖

如果這樣的結構存在,即使是部分存在,識別和測量它的自然方法是圍繞其中心循環平均分佈。(直觀地說,這意味著對於每個可能的半徑我們應該分散在遠處的概率從中心在所有方向上均等。)將變量表示為,中心必須位於第一時刻的點. 為了進行平均,定義徑向分佈函數很方便

這捕獲了位於距離之間的總概率和的中心。要將其向各個方向展開,讓是 cdf 的隨機變量和是一個均勻隨機變量獨立於. 雙變量隨機變量是循環平均值. (這可以滿足我們對“圓形平均值”的直覺要求,因為(a)它具有正確的徑向分佈,即, 通過構造, 和 (b) 從中心的所有方向 () 的可能性相同。)

此時你有很多選擇:剩下的就是比較分佈到那個. 可能性包括距離Kullback-Leibler 散度(以及無數相關的距離度量:對稱散度、Hellinger 距離、互信息)。比較表明當它“接近”時可能具有圓形結構. 在這種情況下,可以從以下屬性中“提取”結構. 例如,中心位置的度量,例如它的平均值或中位數,標識了分佈的“半徑”,以及標準差(或其他尺度)表示如何“展開”圍繞它們的中心位置在徑向上.

從分佈中採樣時,使用數據,一個合理的循環測試是像往常一樣估計中心位置(使用平均值或中位數),然後轉換每個值進入極坐標相對於那個估計的中心。將半徑的標準差(或 IQR)與其平均值(或中位數)進行比較。對於非圓形分佈,該比率會很大;對於循環分佈,它應該相對較小。(如果您對基礎分佈有一個特定的模型,您可以計算出徑向統計量的抽樣分佈並用它構建一個顯著性檢驗。)另外,測試間隔中的角坐標的均勻性. 對於圓形分佈(以及其他一些分佈),它將近似均勻;不均勻性表明偏離圓形。

引用自:https://stats.stackexchange.com/questions/9415

comments powered by Disqus

相關問答