Correlation

數據集的皮爾遜相關性可能為零標準偏差?

  • April 1, 2011

我在計算標準偏差可能為零的數據集的皮爾遜相關係數時遇到問題(即所有數據都具有相同的值)。

假設我有以下兩個數據集:

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

相關係數“r”將使用以下等式計算:

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

但是,因為數據集“y”中的所有數據都具有相同的值,所以標準差 std_dev(y) 將為零,而“r”將未定義。

這個問題有什麼解決辦法嗎?或者在這種情況下我應該使用其他方法來衡量數據關係嗎?

“抽樣理論”的人會告訴你,不存在這樣的估計。但是你可以得到一個,你只需要對你的先驗信息保持合理,並做更多更難的數學工作。

如果您指定了貝葉斯估計方法,並且後驗與先驗相同,那麼您可以說數據沒有說明參數。因為事情可能在我們身上變得“奇異”,所以我們不能使用無限的參數空間。我假設因為您使用 Pearson 相關性,所以您有一個二元正態似然:

在哪裡

現在表明一個數據集可能是相同的值,寫,然後我們得到:

在哪裡

所以你的可能性取決於四個數字,. 所以你想要一個估計,所以你需要乘以先驗,並整合出令人討厭的參數. 現在為整合做準備,我們“完成廣場”

現在我們應該謹慎行事,並確保正確歸一化的概率。這樣我們就不會惹上麻煩。一種這樣的選擇是使用信息量較弱的先驗,它只是限制了每個的範圍。所以我們有對於具有平坦先驗和對於杰弗里斯先驗的標準偏差。這些限制很容易通過考慮問題的一些“常識”來設置。我將採取未指定的事前, 所以我們得到 (uniform 應該可以正常工作,如果不截斷奇點在):

在哪裡. 這給出了後驗:

現在第一次整合結束可以通過改變變量來完成和第一個積分變成:

從這裡你可以看到,沒有分析解決方案是可能的。然而,值得一提的是,價值沒有退出方程。這意味著數據和先驗信息仍然對真正的相關性有話要說。如果數據沒有說明相關性,那麼我們將只剩下作為唯一的功能在這些方程式中。

它還顯示瞭如何傳遞到無限邊界的極限“丟棄”一些關於, 它包含在看起來很複雜的普通 CDF 函數中. 現在,如果您有很多數據,那麼傳遞到極限就可以了,您不會丟失太多,但是如果您的信息非常稀缺,例如在您的情況下 - 保留您擁有的每一個廢料是很重要的。這意味著醜陋的數學,但這個例子在數字上並不難。所以我們可以評估綜合似然在說的價值觀相當容易。只需在足夠小的間隔內用求和來替換積分 - 這樣你就有了三重求和

引用自:https://stats.stackexchange.com/questions/9068

comments powered by Disqus

相關問答