Bayesian

貝葉斯視角下的 LASSO 和嶺:調整參數呢?

  • September 21, 2018

據說 LASSO 和 ridge 等懲罰回歸估計量對應於具有某些先驗的貝葉斯估計量。我猜(因為我對貝葉斯統計不太了解)對於固定的調整參數,存在一個具體的相應先驗。

現在,常客會通過交叉驗證來優化調整參數。是否有一個貝葉斯等價物這樣做,它是否被使用過?或者貝葉斯方法是否在查看數據之前有效地修復了調整參數?(我猜後者會不利於預測性能。)

據說 LASSO 和 ridge 等懲罰回歸估計量對應於具有某些先驗的貝葉斯估計量。

對,那是正確的。每當我們遇到一個涉及最大化對數似然函數加上參數上的懲罰函數的優化問題時,這在數學上等價於後驗最大化,其中懲罰函數被視為先驗核的對數。 $ ^\dagger $ 為了看到這一點,假設我們有一個懲罰函數 $ w $ 使用調整參數 $ \lambda $ . 這些情況下的目標函數可以寫成:

$$ \begin{equation} \begin{aligned} H_\mathbf{x}(\theta|\lambda) &= \ell_\mathbf{x}(\theta) - w(\theta|\lambda) \[6pt] &= \ln \Big( L_\mathbf{x}(\theta) \cdot \exp ( -w(\theta|\lambda)) \Big) \[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}(\theta) \pi (\theta|\lambda)}{\int L_\mathbf{x}(\theta) \pi (\theta|\lambda) d\theta} \Bigg) + \text{const} \[6pt] &= \ln \pi(\theta|\mathbf{x}, \lambda) + \text{const}, \[6pt] \end{aligned} \end{equation} $$

我們在哪裡使用先驗 $ \pi(\theta|\lambda) \propto \exp ( -w(\theta|\lambda)) $ . 在這裡觀察到,優化中的調整參數被視為先驗分佈中的固定超參數。如果您正在使用固定的調整參數進行經典優化,這相當於使用固定的超參數進行貝葉斯優化。對於 LASSO 和 Ridge 回歸,懲罰函數和相應的先驗等效項是:

$$ \begin{equation} \begin{aligned} \text{LASSO Regression} & & \pi(\theta|\lambda) &= \prod_{k=1}^m \text{Laplace} \Big( 0, \frac{1}{\lambda} \Big) = \prod_{k=1}^m \frac{\lambda}{2} \cdot \exp ( -\lambda |\theta_k| ), \[6pt] \text{Ridge Regression} & & \pi(\theta|\lambda) &= \prod_{k=1}^m \text{Normal} \Big( 0, \frac{1}{2\lambda} \Big) = \prod_{k=1}^m \sqrt{\lambda/\pi} \cdot \exp ( -\lambda \theta_k^2 ). \[6pt] \end{aligned} \end{equation} $$

前一種方法根據回歸係數的絕對大小來懲罰回歸係數,這相當於施加位於零的拉普拉斯先驗。後一種方法根據回歸係數的平方幅度來懲罰回歸係數,這相當於施加位於零的正態先驗。

現在,常客會通過交叉驗證來優化調整參數。是否有一個貝葉斯等價物這樣做,它是否被使用過?

只要頻率論方法可以作為優化問題提出(而不是說,包括假設檢驗或類似的東西),就會有使用等價先驗的貝葉斯類比。就像常客可能會對待調優參數一樣 $ \lambda $ 由於未知並從數據中估計,貝葉斯可以類似地處理超參數 $ \lambda $ 未知。在完整的貝葉斯分析中,這將涉及給超參數自己的先驗,並在此先驗下找到後驗最大值,這類似於最大化以下目標函數:

$$ \begin{equation} \begin{aligned} H_\mathbf{x}(\theta, \lambda) &= \ell_\mathbf{x}(\theta) - w(\theta|\lambda) - h(\lambda) \[6pt] &= \ln \Big( L_\mathbf{x}(\theta) \cdot \exp ( -w(\theta|\lambda)) \cdot \exp ( -h(\lambda)) \Big) \[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}(\theta) \pi (\theta|\lambda) \pi (\lambda)}{\int L_\mathbf{x}(\theta) \pi (\theta|\lambda) \pi (\lambda) d\theta} \Bigg) + \text{const} \[6pt] &= \ln \pi(\theta, \lambda|\mathbf{x}) + \text{const}. \[6pt] \end{aligned} \end{equation} $$

這種方法確實用於貝葉斯分析中,如果分析師不願意為其先驗選擇特定的超參數,並試圖通過將其視為未知並為其分配分佈來使先驗更加分散。(請注意,這只是在感興趣的參數之前給出更分散的隱含方式 $ \theta $ .)

(來自下面的statslearner2的評論)我正在尋找數值等效的 MAP 估計值。例如,對於一個固定的懲罰 Ridge,有一個高斯先驗,它將給我 MAP 估計與嶺估計完全相等。現在,對於 k 折 CV 嶺,什麼是超先驗,可以給我類似於 CV 嶺估計的 MAP 估計?

在繼續查看之前 $ K $ -fold 交叉驗證,首先值得注意的是,在數學上,最大後驗(MAP)方法只是參數函數的優化 $ \theta $ 和數據 $ \mathbf{x} $ . 如果您願意允許不正確的先驗,那麼範圍會封裝任何涉及這些變量函數的優化問題。因此,任何可以被構建為此類單一優化問題的頻率論方法都有一個 MAP 類比,而任何不能被構建為這種單一優化問題的頻率論方法都沒有 MAP 類比。

在上述形式的模型中,涉及帶有調整參數的懲罰函數, $ K $ -fold 交叉驗證通常用於估計調優參數 $ \lambda $ . 對於這種方法,您可以對數據向量進行分區 $ \mathbb{x} $ 進入 $ K $ 子向量 $ \mathbf{x}_1,…,\mathbf{x}K $ . 對於每個子向量 $ k=1,…,K $ 你用“訓練”數據擬合模型 $ \mathbf{x}{-k} $ 然後用“測試”數據測量模型的擬合度 $ \mathbf{x}_k $ . 在每次擬合中,您都會獲得模型參數的估計器,然後它會為您提供測試數據的預測,然後可以將其與實際測試數據進行比較,以衡量“損失”:

$$ \begin{matrix} \text{Estimator} & & \hat{\theta}(\mathbf{x}_{-k}, \lambda), \[6pt] \text{Predictions} & & \hat{\mathbf{x}}k(\mathbf{x}{-k}, \lambda), \[6pt] \text{Testing loss} & & \mathscr{L}_k(\hat{\mathbf{x}}_k, \mathbf{x}k| \mathbf{x}{-k}, \lambda). \[6pt] \end{matrix} $$

每個損失的度量 $ K $ 然後可以聚合“折疊”以獲得交叉驗證的整體損失度量:

$$ \mathscr{L}(\mathbf{x}, \lambda) = \sum_k \mathscr{L}_k(\hat{\mathbf{x}}_k, \mathbf{x}k| \mathbf{x}{-k}, \lambda) $$

然後通過最小化整體損失度量來估計調整參數:

$$ \hat{\lambda} \equiv \hat{\lambda}(\mathbf{x}) \equiv \underset{\lambda}{\text{arg min }} \mathscr{L}(\mathbf{x}, \lambda). $$

我們可以看到這是一個優化問題,因此我們現在有兩個單獨的優化問題(即,在上面的章節中描述的一個 $ \theta $ , 和這裡描述的一個 $ \lambda $ )。由於後面的優化不涉及 $ \theta $ ,我們可以將這些優化組合成一個問題,並在下面討論一些技術細節。為此,請考慮目標函數的優化問題:

$$ \begin{equation} \begin{aligned} \mathcal{H}\mathbf{x}(\theta, \lambda) &= \ell\mathbf{x}(\theta) - w(\theta|\lambda) - \delta \mathscr{L}(\mathbf{x}, \lambda), \[6pt] \end{aligned} \end{equation} $$

在哪裡 $ \delta > 0 $ 是調整損失的加權值。作為 $ \delta \rightarrow \infty $ 優化調整損失的權重變得無限,因此優化問題產生估計的調整參數 $ K $ -fold 交叉驗證(在極限內)。目標函數的其餘部分是標準目標函數,其條件是調整參數的估計值。現在,不幸的是,採取 $ \delta = \infty $ 搞砸了優化問題,但如果我們採取 $ \delta $ 要成為一個非常大(但仍然有限)的值,我們可以將兩個優化問題的組合近似到任意精度。

從上面的分析我們可以看出,可以形成一個類似於模型擬合的 MAP 和 $ K $ -折疊交叉驗證過程。這不是一個精確的類比,但它是一個非常接近的類比,可以達到任意精度。同樣重要的是要注意 MAP 類比不再與原始問題共享相同的似然函數,因為損失函數取決於數據,因此被吸收為似然的一部分而不是先驗。實際上,完整的類比如下:

$$ \begin{equation} \begin{aligned} \mathcal{H}\mathbf{x}(\theta, \lambda) &= \ell\mathbf{x}(\theta) - w(\theta|\lambda) - \delta \mathscr{L}(\mathbf{x}, \lambda) \[6pt] &= \ln \Bigg( \frac{L_\mathbf{x}^(\theta, \lambda) \pi (\theta, \lambda)}{\int L_\mathbf{x}^(\theta, \lambda) \pi (\theta, \lambda) d\theta} \Bigg) + \text{const}, \[6pt] \end{aligned} \end{equation} $$

在哪裡 $ L_\mathbf{x}^*(\theta, \lambda) \propto \exp( \ell_\mathbf{x}(\theta) - \delta \mathscr{L}(\mathbf{x}, \lambda)) $ 和 $ \pi (\theta, \lambda) \propto \exp( -w(\theta|\lambda)) $ ,具有固定(且非常大)的超參數 $ \delta $ .

(**注意:**有關以貝葉斯術語為框架的邏輯嶺回歸的相關問題,請參見此處。)


$ ^\dagger $ 這在懲罰不對應於 sigma-finite 密度的對數的情況下給出了不正確的先驗。

引用自:https://stats.stackexchange.com/questions/368002

comments powered by Disqus