Normal-Distribution

鑑於單個樣本的概率為 0,為什麼 MLE 有意義?

  • January 6, 2019

這是我在查看一些舊統計數據時產生的一種奇怪的想法,出於某種原因,我似乎想不出答案。

一個連續的 PDF 告訴我們在任何給定範圍內觀測值的密度。即,如果 XN(μ,σ2) ,例如,那麼實現落在之間的概率 ab 簡直就是 baϕ(x)dx 在哪裡 ϕ 是標準法線的密度。

當我們考慮對參數進行 MLE 估計時,比如說 μ ,我們寫出的聯合密度,比如說 N , 隨機變量 X1..XN 並將對數似然區分為 μ , 設為 0 並求解 μ . 通常給出的解釋是“給定數據,哪個參數使這個密度函數最合理”。

困擾我的部分是:我們的密度為 N rv,我們得到一個特定實現的概率,比如我們的樣本,正好是 0。為什麼在給定我們的數據的情況下最大化聯合密度甚至是有意義的(因為再次觀察到我們的實際樣本的概率正好是 0)?

我能想出的唯一合理化是我們希望 PDF在我們觀察到的樣本周圍盡可能達到峰值,以便該區域中的積分(以及因此在該區域中觀察到東西的概率)最高。

任何樣本的概率, Pθ(X=x) , 等於 0,但一個樣本是通過從概率分佈中提取來實現的。因此,概率是評估樣本及其發生可能性的錯誤工具。由 Fisher (1912) 定義的統計似然基於觀察樣本的概率的限制參數 x 在一定長度的區間內 δ 什麼時候 δ 歸零(引自Aldrich,1997)

Aldrich, J. (1997) 統計科學 12, 162-176

當重新歸一化這個概率時 δ . 似然函數術語僅在 Fisher (1921) 中引入,最大似然在 Fisher (1922) 中引入。

儘管他採用“最可能值”的名稱,並使用具有平坦先驗的逆概率原理(貝葉斯推理),但卡爾弗里德里希高斯已經在 1809 年推導出了正態分佈方差參數的最大似然估計量。Hald (1999)在 Fisher 1912 年的論文中提到了其他幾種最大似然估計量,該論文設定了一般原則。

最大似然方法的後來證明是,由於樣本的重新歸一化對數似然 (x1,,xn) 1nni=1logfθ(xi)

收斂到 [大數定律]E[logfθ(X)]=logfθ(x),f0(x),dx
(在哪裡 f0 表示獨立同分佈樣本的真實密度),最大化似然性[作為 θ ] 漸近地等價於最小化 [in θ ] Kullback-Leibler 散度 $$ \int \log \dfrac{f_0(x)}{f_\theta(x)}, f_0(x),\text{d}x=\underbrace{\int \log f_0(x),f_0(x),\text{d}x}{\text{constant}\\text{in }\theta}-\int \log f\theta(x),f_0(x),\text{d}x $$ 在獨立同分佈樣本的真實分佈和由 fθ 的。

引用自:https://stats.stackexchange.com/questions/385862