Likelihood

似然函數是最小充分的

  • November 1, 2018

說“似然函數是最小充分的”是什麼意思?這是一般性陳述,還是僅適用於指數分佈族?

我想我理解充分統計和最小充分統計的概念。

另一方面,似然函數是插入數據的參數的函數。我們無法在不知道參數的情況下計算它的值。它與正態分佈的平均參數的“樣本均值”統計不同,後者產生一個具體的數字。那這個統計怎麼算?

然後是這個講義,在第 2 部分

http://www.stat.cmu.edu/~larry/=stat705/Lecture6.pdf

瓦瑟曼教授對這個讓我更加困惑的問題變得哲學化了。

考慮一個可觀察的數據向量 $ \mathbf{x} = (x_1,…,x_n) \in \mathscr{X} $ 具有由參數索引的聯合分佈 $ \theta \in \Theta $ . 在下文更具體描述的意義上,可以確定“似然函數足夠小”。

您在這裡的疑慮是因為您說似然度是一個取決於參數的函數,因此我們無法在沒有參數的情況下計算其值。(這可能意味著它甚至不是一個統計數據,更不用說一個最小的足夠統計數據了!)你指出的是真的,但它沒有抓住重點,因為你的問題中斷言的結果不是似然函數的值一個特定的點是最小的,但該函數是最小的。我們將在下面看到,當我們談論“似然函數”的最小充分性時,我們實際上指的是廣義上的後者,作為數據向量和參數的函數。


**從數據的支持到似然函數的映射是一個足夠的統計量:**對於數據向量的特定觀察實例 $ \mathbf{x} $ ,似然函數是映射 $ L_\mathbf{x}: \Theta \rightarrow [0, \infty) $ . 它是一個映射每個值的映射 $ \theta $ 到一個真實的輸出,但函數本身是由指定的值固定的 $ \mathbf{x} $ 和域 $ \Theta $ . (這只是一個例子,我們必須小心區分函數與其在特定參數值處的值。)現在,讓 $ \mathscr{T} \equiv [0, \infty)^\Theta $ 是來自參數空間的所有映射的空間 $ \Theta $ 為非負實數。對於每個數據向量 $ \mathbf{x} \in \mathscr{X} $ 有對應的似然函數 $ L_\mathbf{x} \in \mathscr{T} $ ,所以我們可以認為存在一個映射 $ T: \mathscr{X} \rightarrow \mathscr{T} $ 將每個可能的可觀察數據向量映射到其對應的似然函數(即,我們有 $ T(\mathbf{x}) = L_\mathbf{x} $ )。這種映射是最廣泛意義上的“似然函數”,我們還沒有指定觀察到的數據向量。

可以看到這個函數 $ T $ 是從可能的數據向量的域到固定協域的映射,所以它是一個統計量。這就是我們可以將“似然函數”視為統計量的意義。也就是說,“似然函數”可以被認為是一個統計量,如果我們還沒有指定觀察到的數據向量(因此它是這個數據向量的函數),並且我們正在將對象視為參數,而不是查看從特定參數值產生的結果值。有了這個闡述,我們現在明白了函數 $ T $ 是最廣泛意義上的“似然函數”。

**定理 1:**函數 $ T $ 足以 $ \theta $ .

**證明:**對所有人 $ \theta \in \Theta $ 我們定義函數 $ g_\theta : \mathscr{T} \rightarrow \mathbb{R} $ 經過 $ g_\theta(f) = f(\theta) $ . 利用似然函數與採樣密度成正比這一事實,我們可以將採樣密度寫為: $$ \begin{equation} \begin{aligned} f_\theta(\mathbf{x}) &= h(\mathbf{x}) L_\mathbf{x}(\theta) \[6pt] &= h(\mathbf{x}) g_\theta(L_\mathbf{x}) \[6pt] &= h(\mathbf{x}) g_\theta(T(\mathbf{x})). \[6pt] \end{aligned} \end{equation} $$ 這建立了Fisher-Neyman分解,從而建立了定理。 $ \blacksquare $


**演示最小充分性:*上述映射 $ T $ 是一個充分的統計量,但通常不足以滿足 $ \theta $ . 為了確保最小的充分性,我們需要進一步縮小範圍,因為似然函數是非任意定義的,直到比例*性。出於這個原因,如果我們想獲得最小的充分性,我們將需要考慮兩個比例似然函數 $ L_\mathbf{x} $ 和 $ L_{\mathbf{x}'} $ 成為“相同”的功能。在鏈接的講義中,您將看到這是通過定義等價關係來完成的。 $ \sim $ 如下:

$$ \mathbf{x} \sim \mathbf{x}' \quad \quad \quad \quad\iff \quad \quad \quad \quad L_\mathbf{x} \propto L_{\mathbf{x}'}. $$

這種等價關係表明兩個似然函數 $ L_\mathbf{x} $ 和 $ L_{\mathbf{x}'} $ 成比例時是“相同的”。它在 $ \mathscr{X} $ 它將可觀察的數據向量分成產生“相同”似然函數的集合(在比例意義上)。

**定理 2:**分區 $ \sim $ 是最小的足夠分區 $ \theta $ .

這個定理作為練習留在鏈接的講義中。證明可以通過首先建立分區的充分性(由上面的定理 1 保證),然後證明如果你粗化分區,充分性就會丟失。由於這是在當前問題的註釋中設置的練習,因此我不會在這裡證明結果。希望以上信息可以幫助您入門,並更清楚地確定您正在處理的統計數據。

似然函數(被認為是一個統計量)足夠小,這一事實真的不足為奇。實際上,它實際上是一個重言式,因為充分性可以作為似然函數的條件。充分性意味著統計數據捕獲了有關索引參數的所有必需信息。由於可能性與採樣密度成正比,因此這樣做也就不足為奇了。最小充分性意味著它在沒有額外信息的情況下這樣做,這很容易通過劃分到感興趣的統計量/分區由與似然函數的比例設置的水平來實現。

最小充分性之所以如此重要,是因為每個最小充分性統計量都會引起由似然函數上的等價關係引起的相同分區。這意味著每個最小足夠統計量都是由似然函數的比例性引起的等價關係的替代。

引用自:https://stats.stackexchange.com/questions/374833

comments powered by Disqus