Neural-Networks

在實踐中如何實現神經網絡參數的先驗分佈?

  • September 28, 2021

我讀過一些論文,其中提到使用標準正態分佈作為深度神經網絡參數的先驗分佈或使用具有一些可配置方差的正態分佈。但到目前為止,我找不到有關如何在實踐中實際實施的信息。在我的幼稚理解中,對於 DNN 中的每個參數,我會以張量的形式從正態分佈中抽取樣本,其維度與 DNN 參數的維度相匹配。這是在實踐中通常是如何完成的,如果不是應該如何實現先驗 DNN 參數?

因為到目前為止我找不到任何示例實現樣本正態分佈來設置 DNN 參數。例如,本文提到“參數的先驗設置為 $ p(\theta) = N(0, \sigma^2I) $ “, 在哪裡 $ \sigma^2 $ 默認情況下設置為 1,在其中一個實驗場景中設置為 100。但是我在該論文的官方源代碼中的任何地方都找不到任何從正態分佈樣本來設置 DNN 參數的東西。

我還隱約記得閱讀過關於在 DNN 中以正則化項或權重衰減的形式實現的先驗,但找不到任何關於正則化或權重衰減如何映射到在參數上實現正態分佈的解釋,即正則化或權重衰減公式如何如果我事先增加正態分佈的方差,應該改變。

網絡權重的零均值、各向同性多元高斯先驗 $ \theta $ 減少到對 $ L^2 $ 參數向量上的範數 $ \theta $ .

找到後驗的MAP估計減少到最大化概率 $ p(y|x) = p(y|x,\theta)p(\theta) $ ,這相當於最小化相同的負對數: $$ \begin{align} p(y|x) &= p(y|x,\theta)p(\theta) \ -\ln p(y|x) &= L(y|x,\theta) - \ln p(\theta) \ &= L(y|x,\theta) - \ln \left[ (2\pi)^{ -\frac{k}{2} } \det(\Sigma)^{ -\frac{1}{2} } \exp \left( -\frac{1}{2} (\theta - \mu)^T \Sigma^{-1} (\theta - \mu) \right) \right] \ &= L(y|x,\theta) + \frac{1}{2}\theta^T \left(\sigma^2 I \right)^{-1}\theta +C \ &= L(y|x,\theta) + \frac{\sigma^{-2}}{2}\theta^T \theta \ &= L(y|x,\theta) + \frac{\lambda}{2} | \theta |_2^2 \end{align} $$ 在哪裡 $ L(y|x,\theta)=-\ln p(y|x,\theta) $ 是您的損失函數(例如均方誤差或分類交叉熵損失),給定模型的負對數似然,參數 $ \theta $ , 和數據 $ (x,y) $ .

關於這個推導的一些注意事項:

  • 最後一行進行替換 $ \sigma^{-2}=\lambda $ 並將懲罰寫為規範,以使與嶺回歸的聯繫更加明顯。
  • 我們可以忽略常數加法項 $ C=-\frac{1}{2}\left(k\ln(2\pi)+\ln|\Sigma|\right) $ 因為他們不依賴 $ \theta $ ; 包括它們會改變極值的,但不會改變它的位置
  • 這是作為關於任何損失的一般性陳述 $ L $ 可以表示為概率的負對數,因此如果您正在研究分類問題、回歸問題或任何被表述為概率模型的問題,您只需將適當的表達式替換為 $ L $ .

當然,如果您對貝葉斯方法感興趣,您可能不希望僅僅局限於模型的 MAP 估計。Radford Neal 研究了一些利用後驗分佈的方法 $ \theta $ 在他的《*神經網絡的貝葉斯學習》*一書中,包括 MCMC 來估計神經網絡。自出版以來,可能還有更多的作品將這些概念推得更遠。

人們可以直接優化這種增強的損失函數。或者,它可以在訓練期間作為*權重衰減來實現;*例如,PyTorch 就是這樣做的。您可能希望將權重衰減作為優化器的一個組件來實現(而不是僅在正則化損失上使用 autograd)的原因是梯度更新看起來像

$$ \begin{align} \theta_{i+1} &= \theta_i - \eta \frac{\partial}{\partial \theta} \left[L + \frac{\lambda}{2}| \theta |_2^2 \right]\ &= \theta_i - \eta \frac{\partial L}{\partial \theta} - \eta \lambda \theta_i \ &= (1 - \eta \lambda) \theta_i - \eta \frac{\partial L}{\partial \theta} \end{align} $$

在哪裡 $ \theta_i $ 是參數向量 $ i $ 優化步驟和 $ \eta $ 是學習率。但是當使用自適應優化器(例如 Adam)時,權重衰減的效果略有不同;請參閱 Ilya Loshchilov 和 Frank Hutter 的“解耦權重衰減正則化”。

引用自:https://stats.stackexchange.com/questions/546235

comments powered by Disqus