具有限制參數的正態分佈的 MLE
假設 $ X_1, . . . , X_n $ , $ n\geq 2 $ , 是來自 a 的樣本 $ N(\mu,\sigma^2) $ 分配。認為 $ \mu $ 和 $ \sigma^2 $ 都已知是非負的,但在其他方面未指定。現在,我想找到 MLE $ \mu $ 和 $ \sigma^2 $ . 我已經為非限制性參數繪製了 MLE,但我被困在這個參數上。
解決方案
讓 $ \bar{x} $ 表示樣本均值:
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $$
約束最大似然均值 $ \hat{\mu} $ 和方差 $ \hat{\sigma}^2 $ 是:
$$ \hat{\mu} = \left{ \begin{array}{cl} \bar{x} & \bar{x} \ge 0 \ 0 & \text{Otherwise} \ \end{array} \right. $$
$$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 $$
也就是說,我們簡單地取樣本均值,如果它是負數,則將其剪裁為零。然後,將其代入(未校正的)樣本方差的常用表達式。我通過設置約束優化問題得到這些表達式,然後求解滿足KKT 條件的參數,如下所述。
推導
目標函數
最大化似然等效於最小化負對數似然 $ L(\mu, \sigma^2) $ ,使用起來會更方便:
$$ L(\mu, \sigma^2) = -\sum_{i=1}^n \log \mathcal{N}(x_i \mid \mu, \sigma^2) $$
$$ = \frac{n}{2} \log(2 \pi)
- \frac{n}{2} \log(\sigma^2)
- \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i-\mu)^2 $$
我們還需要它的偏導數 $ \mu $ 和 $ \sigma^2 $ :
$$ \frac{\partial}{\partial \mu} L(\mu, \sigma^2) = \frac{n \mu}{\sigma^2}
- \frac{1}{\sigma^2} \sum_{i=1}^n x_i $$
$$ \frac{\partial}{\partial \sigma^2} L(\mu, \sigma^2) = \frac{n}{2 \sigma^2}
- \frac{1}{2 \sigma^4} \sum_{i=1}^n (x_i-\mu)^2 $$
優化問題
目標是找到參數 $ \hat{\mu} $ 和 $ \hat{\sigma}^2 $ 最小化負對數似然,受均值非負約束。根據定義,方差是非負的,下面的解決方案證明會自動遵守這個約束,所以我們不需要明確地強加它。優化問題可以寫成:
$$ \hat{\mu}, \hat{\sigma}^2 = \arg \min_{\mu, \sigma^2} \ L(\mu, \sigma^2) \quad \text{s.t. } g(\mu, \sigma^2) \le 0 $$
$$ \text{where } \ g(\mu, \sigma^2) = -\mu $$
我以這種方式編寫了約束以遵循約定,這有望使其更容易與其他有關約束優化的討論相匹配。在我們的問題中,這僅相當於約束 $ \mu \ge 0 $ .
KKT條件
如果 $ (\hat{\mu}, \hat{\sigma}^2) $ 是最優解,必然存在一個常數 $ \lambda $ 使得 KKT 條件成立:1)平穩性,2)原始可行性,3)雙重可行性,以及 4)互補鬆弛。此外,我們有一個帶有凸的、連續可微的約束的凸損失函數。這意味著KKT條件足以達到最優,因此我們可以通過求解滿足這些條件的參數來找到解決方案。
平穩性:
$$ \frac{\partial}{\partial \mu} L(\hat{\mu}, \hat{\sigma}^2) + \lambda \frac{\partial}{\partial \mu} g(\hat{\mu}, \hat{\sigma}^2) = 0 $$
$$ \frac{\partial}{\partial \sigma^2} L(\hat{\mu}, \hat{\sigma}^2) + \lambda \frac{\partial}{\partial \sigma^2} g(\hat{\mu}, \hat{\sigma}^2) = 0 $$
插入導數表達式並求解參數:
$$ \hat{\mu} = \frac{1}{n} \hat{\sigma}^2 \lambda + \frac{1}{n} \sum_{i=1}^n x_i \tag{1} $$
$$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i-\hat{\mu})^2 \tag{2} $$
初步可行性:
$$ g(\hat{\mu}, \hat{\sigma}^2) \le 0 \implies \hat{\mu} \ge 0 $$
這只是說參數必須尊重約束
雙重可行性:
$$ \lambda \ge 0 $$
互補鬆弛:
$$ \lambda g(\hat{\mu}, \hat{\sigma}^2) = 0 \implies \lambda \hat{\mu} = 0 $$
這說明要么 $ \lambda $ 或者 $ \hat{\mu} $ (或兩者)必須為零。
求解
注意方程的 RHS $ (1) $ 是的倍數 $ \lambda $ 加上樣本均值 $ \frac{1}{n} \sum_{i=1}^n x_i $ . 如果樣本均值非負,則設置 $ \lambda $ 為零(滿足雙重可行性和互補鬆弛條件)。然後它遵循等式 $ (1) $ (平穩性條件) $ \hat{\mu} $ 等於樣本均值。這也滿足原始可行性條件,因為它是非負的。
否則,如果樣本均值為負,則設置 $ \hat{\mu} $ 為零(滿足原始可行性和互補鬆弛條件)。滿足方程 $ (1) $ (平穩條件),設置 $ \lambda = -\hat{\sigma}^{-2} \sum_{i=1}^n x_i $ . 由於樣本均值為負,方差為正, $ \lambda $ 取正值,滿足對偶可行性條件n。
在這兩種情況下,我們都可以插入 $ \hat{\mu} $ 進入方程 $ (2) $ 獲得 $ \hat{\sigma}^2 $ .