為什麼似然函數有時是 PDF的直覺

December 10, 2020

似然函數通常不是 PDF（對此有很多問題）。例如，如果我們採用二項式似然，$$ P(Evidence \mid \theta) = f(\theta) = {n \choose k} \theta^k (1-\theta)^{n-k} $$它不會整合到 1。一般來說（比如說，對於 $ n=2 $ 和 $ k=3 $ ): $$ \int_{0}^1 f(\theta) d\theta \neq 1 $$

但我相信在某些情況下，可能性確實集成到 1。例如，如果似然函數是一個正常的 PDF，就像在正常-正常共軛先驗設置的情況下一樣。然後$$ P(Evidence \mid \theta)=f(\theta)=NormalPDF_{\mu,\sigma}(\theta) $$和$$ \int_{\mathbb{R}} f(\theta)d\theta = 1 $$.

對於這個特定的似然函數是 PDF 的事實，是否有直觀的解釋？. 更好的是，有人可以為似然函數作為 PDF 提供有見地的必要和充分條件嗎？

這個答案的目的是表明情況如此豐富和復雜，以至於不太可能存在這樣的分佈家庭的任何簡單特徵。

我將首先通過構造來表明存在許多這樣的家庭，它們是靈活多樣的。然後我將證明，即使這種結構也不能涵蓋所有可能性。不過，在這個過程中，我們可能會改進我們對單個實參數成為密度函數的可能性意味著什麼的直覺。

什麼時候 $ \theta $ 可以覆蓋所有實數並且是一個位置參數——也就是說，當分佈函數都是 $ f(x-\theta) $ 對於一些密度 $ f $ – 很容易看出對參數進行積分 $ \theta $ 給出常數值 $ 1. $

讓我們玩一下。例如，如果我們要採用兩種不同的密度怎麼辦？ $ f_1 $ 和 $ f_2 $ 然後讓 $ \theta $ 為它們中的每一個發揮位置參數的作用，但是以兩種不同的方式？例如，形成函數族

$$ f(x,\theta) = a_1f_1(x-2\theta) + a_2f_2(x-\theta/2) $$

在哪裡 $ a_i $ 有待確定。通過簡單的替換 $ x=y+\theta $ 和 $ x=y+\theta/2, $ 計算

$$ \begin{aligned} \int_{\mathbb{R}}f(x,\theta),\mathrm{d}x &= \int_{\mathbb{R}}a_1f_1(x-2\theta),\mathrm{d}x + \int_{\mathbb{R}}a_2f_2(x-\theta/2),\mathrm{d}x\ &= a_1\int_{\mathbb{R}}f_1(y),\mathrm{d}y + a_2\int_{\mathbb{R}}f_2(y),\mathrm{d}y\ &= a_1+a_2. \end{aligned} $$

因此，提供 $ a_1+a_2 = 1 $ 和 $ f(x,\theta)\ge 0 $ 對所有人 $ x, $ $ x\to f(x,\theta) $ 是概率密度。當我們對參數進行積分時 $ \theta $ 我們得到，使用相同的替換方法 $ \theta=(y+x)/2 $ 和 $ \theta=2(y+x), $

$$ \begin{aligned} \int_{\mathbb{R}}f(x,\theta),\mathrm{d}\theta &= \int_{\mathbb{R}}a_1f_1(x-2\theta),\mathrm{d}\theta + \int_{\mathbb{R}}a_2f_2(x-\theta/2),\mathrm{d}\theta \ &= \frac{1}{2}a_1\int_{\mathbb{R}}f_1(y),\mathrm{d}y + 2a_2\int_{\mathbb{R}}f_2(y),\mathrm{d}y\ &= \frac{1}{2}a_1+2a_2. \end{aligned} $$

通過設置 $ a_1=2/3 $ 和 $ a_2=1/3 $ 我們可以使這個結果對所有人都統一 $ x $ 以及保證 $ f $ 沒有負值，從而滿足問題的條件。稍加註意，我們還可以使這個分佈族在每個分佈中都可以識別 $ \theta $ 確定一個唯一的分佈，正如我將通過示例展示的那樣。然而， $ \theta $ 不是位置參數。

一個例子說明了為什麼不。讓 $ f_2 $ 成為製服 $ [0,1] $ 密度和 $ f_1 $ 是具有方差的正態密度 $ 1/3 $ 和意思 $ 0. $ 這裡有一些情節 $ f $ 對於不同的值 $ \theta: $

作為 $ \theta $ 增加（從左到右），密度的矩形部分（均勻組件）向右緩慢行進，而密度的彎曲部分（正常組件）向右行進快四倍。由此產生的分佈都明顯不同。有效， $ \theta $ 確實確定了某種“位置”，但它也確定了分佈的形狀。 這就是為什麼它不是位置參數的原因。

這種構造可以被廣泛推廣以創建豐富、靈活的分佈族，這些分佈族具有問題中的所有屬性，但（通常）不是位置族。為了完整起見，我將在繼續主要問題之前提供詳細信息。

讓 $ f:\mathbb{R}\times\mathbb{R}\to[0,\infty) $ 是任何可積的分佈函數族；也就是說，對於所有數字 $ \lambda $

$$ \int_{\mathbb{R}}f(x,\lambda),\mathrm{d}x = 1. $$

考慮任何分佈函數 $ G $ 支持非負實數並用它來組成族 $ \mathcal G $ 功能 $ g:\mathbb{R}\times\mathbb{R}\to[0,\infty) $ 通過

$$ g(x,\theta) = \int_0^\infty f\left(x - \frac{\theta}{\lambda}\right),\mathrm{d}G(\lambda). $$

對於每個 $ \theta $ 這給出了一個密度函數，因為顯然 $ g(x,\theta)\ge 0 $ 和

$$ \begin{aligned} \int_\mathbb{R}g(x,\theta),\mathrm{d}x &= \int_\mathbb{R}\int_0^\infty f\left(x - \frac{\theta}{\lambda}\right),\mathrm{d}G(\lambda),\mathrm{d}x\ &= \int_0^\infty \int_\mathbb{R}f\left(x - \frac{\theta}{\lambda}\right),\mathrm{d}x,\mathrm{d}G(\lambda)\ &= \int_0^\infty (1),\mathrm{d}G(\lambda)\ &= 1. \end{aligned} $$

整合而不是 $ \theta $ 使用替換 $ \theta=y\lambda $ 產量

$$ \begin{aligned} \int_\mathbb{R}g(x,\theta),\mathrm{d}\theta&= \int_\mathbb{R}\int_0^\infty f\left(x - \frac{\theta}{\lambda}\right),\mathrm{d}G(\lambda),\mathrm{d}\theta\ &= \int_0^\infty \int_\mathbb{R}f\left(x - \frac{\theta}{\lambda}\right),\mathrm{d}\theta,\mathrm{d}G(\lambda)\ &= \int_0^\infty \int_\mathbb{R}f\left(x - \frac{y\lambda}{\lambda}\right),\mathrm{d}\left(y\lambda\right),\mathrm{d}G(\lambda)\ &= \int_0^\infty \int_\mathbb{R}f\left(x - y\right),\mathrm{d}y,\lambda,\mathrm{d}G(\lambda)\ &= \int_0^\infty\lambda,\mathrm{d}G(\lambda). \end{aligned} $$

如果我們進一步規定期望 $ G $ 是團結，這表明家庭 $ \mathcal G $ 滿足問題的條件。但是，除特殊情況外， $ \theta $ 不是位置參數。

讓我們考慮一個自然的後續問題：當可能性是問題意義上的 PDF 時，我們是否總是可以將家庭表示為上述意義上的混合體？

不幸的是，答案是否定的。作為一個反例，考慮由下式給出的分佈函數族

$$ f(x,\theta) = 2\left(\left{\theta\right} + \left(x - \lfloor \theta \rfloor\right) - 2 \left{\theta\right}\left(x - \lfloor \theta \rfloor\right)\right) $$

在哪裡 $ \lfloor \theta \rfloor $ 是小於或等於的最大整數 $ \theta $ 和 $ \left{\theta\right} = \theta - \lfloor \theta \rfloor $ 是小數部分 $ \theta $ （位於區間 $ [0,1) $ ）。

這個看起來很奇怪的函數描述了在區間上定義的分佈 $ [n,n+1) $ （在哪裡 $ n = \lfloor \theta \rfloor $ ) 隨小數部分的不同而變化 $ \theta. $ 以下是它們的一些密度：

這是一個情節 $ f: $

現在如果這個家庭有一個位置參數 $ \mu = \mu(\theta), $ 我們將能夠表達每個 $ f(x,\theta) $ 作為一個固定函數 $ x-\mu(\theta). $ 因此，它的水平集（輪廓）將是以下形式的線的並集 $ x-\mu=\text{constant}; $ 也就是說，具有 45 度坡度的線。從幾何上講，這意味著我們可以純粹在垂直方向上拉伸和壓縮這張圖片（ $ \theta $ ) 方向，直到其亮斑（密度不為零）變成具有平行線性輪廓的傾斜帶。

不管我們如何重新表達參數 $ \theta $ （以連續的方式），顯然它無法將這種方格圖案變成這樣的圖像。