線性回歸中的輟學
我一直在閱讀關於輟學的原始論文(https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf),在線性回歸部分,它指出:
$ \mathbb{E}_{R\sim Bernoulli(p)}\left[| y\ - (R*X)w|^2\right] $
減少為:
$ |y - pXw|^2 + p(1-p) |\Gamma w|^2 $
我很難理解他們是如何得出這個結果的。任何人都可以幫忙嗎?
$ \newcommand{E}{\text{E}} $ 先讓 $ R * X = M $ 為了方便。擴大我們的損失 $$ |y - Mw|^2 = y^Ty - 2w^TM^Ty + w^TM^TMw. $$ 接受期望 $ R $ 我們有 $$ \E_R\left(|y - Mw|^2\right) = y^Ty - 2w^T(\E M)^Ty + w^T\E(M^TM)w. $$ 矩陣的期望值是單元格期望值的矩陣,所以 $$ (\E_R M){ij} = \E_R((R * X){ij}) = X_{ij}\E_R(R_{ij}) = p X_{ij} $$ 所以 $$ 2w^T(\E M)^Ty = 2pw^TX^Ty. $$ 最後一個學期, $$ (M^TM){ij} = \sum{k=1}^N M_{ki}M_{kj} = \sum_{k=1}^N R_{ki}R_{kj}X_{ki}X_{kj} $$ 所以 $$ (\E_R M^TM){ij} = \sum{k=1}^N \E_R(R_{ki}R_{kj})X_{ki}X_{kj}. $$ 如果 $ i \neq j $ 然後它們是獨立的,因此非對角線元素導致 $ p^2 (X^TX){ij} $ . 對於我們有的對角線元素 $$ \sum{k=1}^N \E_R(R_{ki}^2)X_{ki}^2 = p(X^TX)_{ii}. $$
完成這個,我們可以注意到 $$ |y - pXw|^2 = y^Ty - 2pw^TX^Ty + p^2w^TX^TXw $$ 我們發現 $$ \E_R|y - Mw|^2 = y^Ty - 2pw^TX^Ty + w^T\E_R(M^TM)w \ = |y - pXw|^2 - p^2w^TX^TXw + w^T\E_R(M^TM)w \ = |y - pXw|^2 + w^T\left(\E_R(M^TM) - p^2 X^TX\right)w. $$ 在 $ \E_R(M^TM) - p^2 X^TX $ ,我證明了每個非對角元素都是零,所以結果是 $$ \E_R(M^TM) - p^2 X^TX = p(1-p)\text{diag}(X^TX). $$ 論文定義 $ \Gamma = \text{diag}(X^TX)^{1/2} $ 所以 $ |\Gamma w|^2 = w^T\text{diag}(X^TX)w $ 這意味著我們完成了。