Correlation

使用給定的樣本協方差矩陣生成數據

  • October 15, 2014

給定一個協方差矩陣,如何生成數據,使其具有樣本協方差矩陣?


更一般地說:我們經常對從密度生成數據感興趣, 有數據給定一些參數向量. 這會產生一個樣本,然後我們可以從中再次估計一個值. 我感興趣的是相反的問題:如果給定一組參數怎麼辦,我們想生成一個樣本這樣,那個.

這是一個已知問題嗎?這樣的方法有用嗎?有可用的算法嗎?

這類問題有兩種不同的典型情況:

i)您想從給定分佈中生成一個樣本,其總體特徵與指定的分佈相匹配(但由於抽樣變化,您沒有完全匹配的樣本特徵)。

ii)您想要生成一個樣本,其樣本特徵與指定的特徵匹配(但是,由於樣本數量與預先指定的一組值完全匹配的限制,並不是真正來自您想要的分佈)。

您需要第二種情況——但是您可以通過與第一種情況相同的方法獲得它,但需要額外的標準化步驟。

因此,對於多元法線,兩者都可以以相當簡單的方式完成:

對於第一種情況,您可以使用沒有總體結構的隨機法線(例如具有期望 0 和單位協方差矩陣的 iid 標準法線),然後將其強加 - 變換以獲得協方差矩陣並表示您想要的值。如果和是您需要的總體均值和協方差是 iid 標準正常,你計算, 對於一些在哪裡(例如一個合適的可以通過 Cholesky 分解獲得)。然後具有所需的人口特徵。

對於第二個,您必須首先轉換隨機法線,以消除遠離零均值和恆等協方差的隨機變化(使樣本均值為零和样本協方差),然後像以前一樣繼續。但是從精確平均值中刪除樣本偏差的初始步驟, 方差干擾分佈。(在小樣本中,它可能非常嚴重。)

這可以通過減去樣本均值來完成() 併計算 Cholesky 分解. 如果是左 Cholesky 因子,則應該有樣本均值 0 和同一樣本協方差。然後你可以計算並有一個具有所需樣本時刻的樣本。(根據您的樣本數量是如何定義的,可能會有一個額外的小問題涉及乘以/除以諸如,但很容易確定這種需求。)

引用自:https://stats.stackexchange.com/questions/120179

comments powered by Disqus