為什麼 Dirichlet Distribution 的 PDF 似乎沒有集成到 1?
我一直在嘗試通過將其乘積與 R 中的單純形上的 Dirichlet 密度函數積分來找到具有 Dirichlet 分佈的隨機變量的函數的期望值。
為了檢查我在 R 中應用了正確的函數,我嘗試在整個單純形上集成密度函數,期望得到 1,但是我一直得到集成到 sqrt(n) 的 n 個類別的 Dirichlet 分佈的密度函數(使用R 包 SimplicialCubature)。
我認為這一定是錯誤的,但後來我查看了 2 個類別的密度函數,考慮 alphas = (1,1) 的情況。然後密度函數統一為 1(取自https://en.wikipedia.org/wiki/Dirichlet_distribution的密度函數)。所以密度函數在 1-單純形上的積分只是給出了 1-單純形的長度。但這是 sqrt(2),正如我在 R 代碼中發現的那樣。
我在這裡想念什麼?
使用兩個變量,您正在定義一個線段,正如你所指出的。然而,由於單純形約束,這兩個變量之一在指定密度方面是多餘的,因為它們之間存在一對一的關係和. 因此,密度被指定為自由變量(即,在)
這實際上在 Wikipedia 文章這一部分的第一行中指出,儘管非常巧妙。
因此,您的密度函數變為:。
所以,
對 OP 評論的回應
由於單純形約束,二變量狄利克雷密度實際上是退化的,如我上面的構造所示(它只需要一個變量)。雖然這是真的,但它的密度為, 它沒有密度在連接的線段上和. 上述結構表明,邊際密度的值為. 你的困惑來自於思考作為一個自由變量,在這種情況下,狄利克雷的支持將有一個非零區域。這種直覺在像二元高斯這樣的情況下很好,其中兩個變量不完全相關,但在這種情況下不是。
我們可以正式推導如下:
讓是一些數字指定距離到沿著連接線段。因此,每個值標識一個唯一的一對。使用這個符號,你假設密度是沿著這條線歸結為:
但是,我們可以通過對聯合密度的正式處理來證明情況並非如此:
在哪裡
現在,讓我們計算一下:
第三個相等的地方是因為為了(即,它不是密度,而是點概率質量)
如您所見,我們已經恢復了沿線段的密度歸一化常數. 實際上,這種(退化的)聯合密度只是兩個邊緣之一的線性變換(任何一個都可以)。這導致概率密度的域從到,因此密度必須降低以進行補償。