Probability

如何計算數據點屬於多元正態分佈的概率?

  • March 1, 2018

好的,所以我有一個定義了均值和協方差矩陣的維正態分佈(現在我們可以假設這些是真實的分佈參數,而不是估計值)。對於給定的數據點,我想計算該點屬於該分佈的概率。

我相信我會對生成與給定數據點“至少一樣不可能”的點的概率感興趣。在一個正態分佈情況,這將是 PDF 的“兩條尾巴”下方的區域。例如. 現在我想計算一個一般的概率維正態分佈。我相信也許這應該是-“由數據點與平均值的馬氏距離給出的半徑定義的馬氏距離空間中超球體內的體積”。

問題一:這個解釋正確嗎?

問題2:我如何計算這個?

問題 3:如果均值和協方差矩陣只是對真實參數的估計,分析是否會改變?

問題4:有沒有一種簡單的方法可以做到這一點是python?

我自己解決這個問題的最佳嘗試(但我的統計知識不是很好,所以我要求確認正確性,我得到這個正確非常重要)根據維基百科

所以我可以先計算上面的馬氏距離(MD),然後也許我只需要計算 MD 處卡方分佈的 CDF,然後取減去這個。

我不知道這是否正確,但目前我最好的猜測。

提前致謝。

是的,聽起來不錯。如果你有參數和和數據點,然後是所有數據點的集合是那些密度較小的,或者換句話說,馬氏距離較高的那些:

所以你想要一些看不見的概率比你觀察到的“更好”, 這與大於. 你是正確的指出. 所以

在 python 中,你可以這樣計算:

from scipy import stats
import numpy as np
x = np.array([1,1,1])
mu = np.array([0,0,0])
sigma = np.array([[1,0,0],[0,1,0],[0,0,1]])
m_dist_x = np.dot((x-mu).transpose(),np.linalg.inv(sigma))
m_dist_x = np.dot(m_dist_x, (x-mu))
1-stats.chi2.cdf(m_dist_x, 3)

引用自:https://stats.stackexchange.com/questions/331283

comments powered by Disqus