Distributions

ReLu 激活的輸出分佈是什麼?

  • February 13, 2019

假設我的數據具有正態分佈,並且我使用 NN 作為模型,其中我正在對其應用 ReLu,非線性。我很想知道 ReLu 的輸出分佈是什麼樣的?

編輯:

假設𝑋∼𝑁(𝜇,𝜎2)。𝑌=ReLU(𝑋)=max{0,𝑋} 的分佈是什麼?

此外,如果有人可以添加可視化效果,那就太好了(手繪就可以了!)。它將幫助我更好地理解。此外,任何關於仿射變換將如何改變分佈以及 ReLU 之後如何使用手繪圖形的評論(可視化)都會有很大幫助!我的想法是:

如果我錯了,請糾正!

您的問題似乎歸結為以下幾點:

認為 $ X \sim N(\mu, \sigma^2) $ . 什麼是分佈 $ Y = \operatorname{ReLU}(X) = \max{0, X} $ ?

回答。 讓 $ F_X $ 和 $ F_Y $ 表示的累積分佈函數 $ X $ 和 $ Y $ , 分別。讓 $ \Phi $ 為標準正態累積分佈函數: $$ \Phi(z) = \int_{-\infty}^z \frac{1}{\sqrt{2 \pi}} e^{-z^2 / 2} , dz, $$ 以便 $$ F_X(x) = \Phi\left(\frac{x - \mu}{\sigma}\right) $$ 對所有人 $ x \in \mathbb{R} $ . 如果 $ y \in \mathbb{R} $ , 然後 $$ \begin{aligned} F_Y(y) &= P(Y \leq y) \ &= P(\max{0, X} \leq y) \ &= P(0 \leq y, X \leq y) &&\text{()} \ &= \begin{cases} 0, & \text{if $y < 0$}, \ P(X \leq y), & \text{if $y \geq 0$} \end{cases} \ &= \begin{cases} 0, & \text{if $y < 0$}, \ F_X(y), & \text{if $y \geq 0$} \end{cases} \ &= \begin{cases} 0, & \text{if $y < 0$}, \ \Phi\left(\frac{y - \mu}{\sigma}\right), & \text{if $y \geq 0$} \end{cases} \end{aligned} $$ () 這裡我們使用的事實是 $ \max{a, b} \leq c $ 當且僅當 $ a \leq c $ 和 $ b \leq c $ (對於任何 $ a, b, c \in \mathbb{R} $ ).

值得強調的是 $ F_Y $ 是累積分佈函數。

我不知道這個分佈是否有一個名字,但知道累積分佈函數可以讓你說出關於分佈的一切 $ Y $ .

可視化

這是累積分佈函數的圖 $ Y $ 對於各種分佈 $ X $ :

在此處輸入圖像描述

:分佈 $ Y $ 既不離散也不連續!可以看到分佈 $ Y $ 不是連續的,因為連續分佈具有連續的累積分佈函數(並且 $ Y $ 顯然沒有),和 $ Y $ 不是離散的,因為離散分佈具有分段常數累積分佈函數(同樣 $ Y $ 才不是)。特別是,這意味著 $ Y $ 沒有密度函數。

仿射變換的效果

假設你的神經網絡有 $ p $ 維 $ \mathbf{X} = (X_1, \ldots, X_p) \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) $ (帶均值的多元正態 $ \boldsymbol{\mu} \in \mathbb{R}^p $ 和協方差矩陣 $ \boldsymbol{\Sigma} \in \mathbb{R}^{p \times p} $ )。假設下一層由 $ q $ 單位 $ \mathbf{Y} = (Y_1, \ldots, Y_q) \in \mathbb{R}^q $ 由仿射變換和 ReLU 給出: $$ Y_i = \operatorname{ReLU}\left(b_i + \sum_{j=1}^p w_{i, j} X_j\right). $$ 讓 $ \mathbf{X}^\prime = (X_1^\prime, \ldots, Y_q^\prime) $ 表示預激活: $$ X_i^\prime = b_i + \sum_{j=1}^p w_{i, j} X_j. $$ 更簡潔地說, $$ \mathbf{X}^\prime = \mathbf{b} + \mathbf{W} \mathbf{X}, $$ 在哪裡 $ \mathbf{b} = (b_1, \ldots, b_q) $ 和 $ \mathbf{W} $ 是矩陣 $ w_{i, j} $ 的。自從 $ \mathbf{X} $ 是多元正態的,所以是 $ \mathbf{X}^\prime $ ,我們有 $$ \mathbf{X}^\prime \sim N_q(\mathbf{b} + \mathbf{W}\boldsymbol{\mu}, \mathbf{W} \boldsymbol{\Sigma} \mathbf{W}^\top). $$ 特別是每個組件 $ X_i^\prime $ 的 $ \mathbf{X}^\prime $ 本身是單變量正態,具有可以從聯合均值和方差中讀取的一些均值和方差然後我們可以應用此答案頂部的參數來計算每個激活的分佈 $ Y_i = \operatorname{ReLU}(X_i^\prime) $ .

引用自:https://stats.stackexchange.com/questions/392226

comments powered by Disqus