反向模式自動微分的逐步示例

July 16, 2016

不確定這個問題是否屬於這裡，但它與優化中的梯度方法密切相關，這似乎是這裡的主題。無論如何，如果您認為其他社區在該主題上有更好的專業知識，請隨時遷移。

簡而言之，我正在尋找反向模式自動微分的逐步示例。沒有太多關於該主題的文獻，現有的實現（如TensorFlow中的實現）在不了解其背後的理論的情況下很難理解。因此，如果有人能詳細說明我們傳入了什麼、我們如何處理它以及我們從計算圖中得到了什麼，我將非常感激。

我最難解決的幾個問題：

種子——我們為什麼需要它們？

反向微分規則- 我知道如何進行正向微分，但我們如何倒退？例如，在本節的示例中，我們如何知道?

我們是只使用符號還是傳遞實際值？例如，在同一個例子中，是和符號或值？

假設我們有表達並想找到衍生品和 . 反向模式 AD 將此任務分為兩部分，即正向和反向傳遞。

前傳

首先，我們將復雜表達式分解為一組原始表達式，即最多包含單個函數調用的表達式。請注意，我還重命名了輸入和輸出變量以保持一致性，儘管這不是必需的：

這種表示的優點是每個單獨的表達式的微分規則是已知的。例如，我們知道是，所以 . 我們將在下面的反向傳遞中使用這個事實。

本質上，前向傳遞包括評估每個表達式並保存結果。比如說，我們的輸入是：和 . 然後我們有：

反向傳球

這是神奇的開始，它從鍊式法則開始。鍊式法則的基本形式是，如果你有變量這取決於而這又取決於，然後：

或者如果依賴於取決於通過多個路徑/變量，例如：

然後（參見此處的證明）：

就表達式圖而言，如果我們有一個最終節點和輸入節點 , 和路徑到通過中間節點（IE 在哪裡 )，我們可以求導作為

換句話說，計算輸出變量的導數 wrt任何中間或輸入變量，我們只需要知道它的雙親的導數和計算原始表達式導數的公式 .

反向傳球從最後開始（即 ) 並向後傳播到所有依賴項。這裡我們有（“種子”的表達）：

這可以理解為“改變導致完全相同的變化 “，這是很明顯的。

然後我們知道所以：

線性依賴於和，所以和 . 使用鍊式法則我們發現：

從定義和偏導數規則，我們發現 . 因此：

正如我們從前向傳球中已經知道的那樣，它是：

最後，有助於通過和 . 再一次，從偏導數的規則我們知道和 . 因此：

同樣，給定已知的輸入，我們可以計算它：

自從和只是別名和，我們得到答案：

就是這樣！

此描述僅涉及標量輸入，即數字，但實際上它也可以應用於多維數組，例如向量和矩陣。在用此類對象區分錶達式時應牢記兩件事：

導數可能比輸入或輸出具有更高的維度，例如向量 wrt 的導數是一個矩陣，而矩陣 wrt 的導數是一個 4 維數組（有時稱為張量）。在許多情況下，此類導數非常稀疏。

輸出數組中的每個分量都是輸入數組的一個或多個分量的獨立函數。例如，如果和兩者和是向量，從不依賴，但僅在 . 特別是，這意味著找到導數歸結為跟踪如何依賴於取決於 .

自動微分的強大之處在於它可以處理來自編程語言的複雜結構，例如條件和循環。但是，如果您只需要代數表達式，並且您有足夠好的框架來處理符號表示，那麼構建完全符號表達式是可能的。事實上，在這個例子中，我們可以產生表達式並為我們想要的任何輸入計算這個導數。

引用自：https://stats.stackexchange.com/questions/224140

反向模式自動微分的逐步示例

前傳

反向傳球

相關問答

邏輯函數從何而來？

損失函數的二階近似（深度學習書籍，7.33）

為什麼在非二進制數據的自動編碼器中使用二進制交叉熵（或對數損失）

CNN 訓練中的 Epoch Vs Iteration

損失函數自動編碼器與變分自動編碼器或 MSE 損失與二進制交叉熵損失

用於回歸的 CNN 架構？