理解最大似然估計需要多少微積分？

February 7, 2013

我正在嘗試制定學習 MLE 的學習計劃。為了做到這一點，我試圖弄清楚理解 MLE 所需的最低微積分水平是多少。

了解微積分的基礎知識（即找到函數的最小值和最大值）是否足以理解 MLE？

擴展我的評論 - 這取決於。如果您只是想理解基礎知識，那麼能夠找到函數的極值會為您提供一個公平的方法（儘管在 MLE 的許多實際案例中，可能性在數值上最大化，在這種情況下，您需要一些其他技能以及一些其他技能）基礎微積分）。

我將把獲得顯式代數解決方案的簡單案例放在一邊。即便如此，微積分通常還是非常有用的。

我將自始至終保持獨立。讓我們以最簡單的 1 參數優化為例。首先，我們將看一個例子，我們可以取導數並分離出參數和統計量的函數。

考慮密度

然後對於大小的樣本 , 可能性是

所以對數似然是
在哪裡 . 採取衍生品，

因此，如果我們將其設置為零並嘗試解決，我們可以得到：

在哪裡是digamma函數和是幾何平均數。我們不能忘記，一般來說，您不能只將導數設置為零並確信您會找到argmax；您仍然必須以某種方式表明解決方案是最大值（在這種情況下是最大值）。更一般地說，您可能會得到最小值或水平拐點，即使您有局部最大值，也可能沒有全局最大值（我在接近尾聲時談到）。

所以我們現在的任務是找到為此

在哪裡 .

這在初等函數方面沒有解決方案，必須用數值計算；至少我們能夠在一側獲得參數的函數，在另一側獲得數據的函數。如果您沒有明確的求解方程的方法（例如，即使您沒有導數，也有二進制部分），則可能會使用各種尋零算法。

通常，它並不那麼好。考慮單位尺度的邏輯密度：
似然的 argmax 和對數似然函數的 argmax 都不能通過代數方式輕鬆獲得 - 您必須使用數值優化方法。在這種情況下，該函數表現得相當好，並且Newton-Raphson 方法通常應該足以定位 ML 估計 . 如果導數不可用或 Newton-Raphson 不收斂，則可能需要其他數值優化方法，例如黃金分割法（這並不是對最佳可用方法的概述，只是提一些您更喜歡的方法可能會在基本級別遇到）。

更一般地說，你甚至可能做不到那麼多。考慮具有中位數的柯西和單位規模：

一般來說，這裡的可能性沒有唯一的局部最大值，而是幾個局部最大值。如果你找到一個局部最大值，那麼其他地方可能還有另一個更大的最大值。（有時人們專注於確定最接近中位數的局部最大值，或者類似的東西。）

初學者很容易假設，如果他們找到一個凹的轉折點，他們就擁有該函數的 argmax，但除了多種模式（已經討論過）之外，可能還有與轉折點無關的最大值。取導數並將其設置為零是不夠的；考慮估計一個統一的參數例如。

在其他情況下，參數空間可能是離散的。

有時找到最大值可能非常複雜。

這只是單個參數問題的一個示例。當您有多個參數時，事情會再次涉及更多。

引用自：https://stats.stackexchange.com/questions/49544

理解最大似然估計需要多少微積分？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

用最大似然法尋找類別

MLE 和非正態性

為什麼最大似然估計量對異常值是可疑的？

離散變量和連續變量。定義是什麼？

Westfall 說，“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎？