為什麼最大似然估計使用 pdf 的乘積而不是 cdfs
我正在學習邏輯回歸,當我看到教科書的方程式時感到困惑。我知道對於連續分佈,要計算概率,pdf $ f(x) $ 是沒有意義的。而是累積密度函數 $ F(x) $ 應使用。因此,既然我們要最大化概率,我們不應該在 MLE 方程的右側使用cdf s 的乘積而不是**pdf s 嗎?**謝謝!
更新和其他問題:
這個問題提出了一個有趣的觀點,即為什麼我們不經常使用 $ Y=F(X)\sim U(0,1) $ 然後嘗試最小化之間的KL散度 $ Y $ 和 $ U $ :
$$ \text{KL}(Y, U) = \int_0^1 f_y(y) \ln f_y(y) \text{d}y $$
通常,我們可以輕鬆訪問以下形式 $ f $ (原始pdf)但是 $ F $ 可能不太容易處理並且 $ f_Y $ 基本上是我們需要使用基於樣本的經驗 CDF 來估計的東西 $ F(X_i), i=… $ . 問題是,這兩種公式(通常的 MLE 和上面的 KL 版本)的結果是否有很大不同?
如何使用 CDF 對模型的兩個可能的參數化進行排名?它是一個累積概率,所以它只能告訴我們在給定概率模型的情況下,獲得這樣一個結果的概率或更低的值。如果我們採取為了預測最小的可能結果,每次觀察時 CDF 幾乎為 1,這將是最“可能”的,因為“是的,如果平均高度真的是 -99,我非常有信心重複我的樣本會產生值比我觀察到的要小”。
我們可以平衡左累積概率和右累積概率。在我們的計算中考慮相反的情況:中值無偏估計量滿足:
這裡的最佳價值是那個同樣可能大於或小於其預測值(假設是這裡的意思)。但這肯定不符合我們能夠將替代參數化排序為更可能用於特定樣本的想法。
也許,另一方面,你想確定在值的小區間內很有可能,即最大化該概率:
但是應該多大是?那麼如果被認為是任意小的:
你得到密度。瞬時概率函數最能表徵參數化下特定觀察的可能性。