是什麼證明了這種矩陣函數導數的計算是正確的?
在 Andrew Ng 的機器學習課程中,他使用了這個公式:
他做了一個快速證明,如下所示:
沒有任何評論,證明似乎非常密集,我無法理解它。從第二次平等到第三次平等究竟發生了什麼?
符號的微妙但嚴重的濫用使許多步驟變得混亂。讓我們回到矩陣乘法、轉置、跡和導數的定義來解決這個問題。對於那些希望省略解釋的人,只需跳到最後一節“將所有內容放在一起”,看看一個嚴格的演示是多麼簡短和簡單。
符號和概念
方面
對於表達式有意義的時候是一個矩陣,必須是(正方形)矩陣和必須是一個矩陣,其中產品是矩陣。為了獲取跡線(這是對角線元素的總和,), 然後, 製作一個方陣。
衍生品
符號“" 似乎是指一個表達式的派生詞. 通常,微分是對函數執行的操作. 一點的導數是線性變換. 在為這些向量空間選擇基後,這種變換可以表示為矩陣。 這裡情況不同!
矩陣作為向量
反而,被視為一個元素:它的係數被展開(通常是逐行或逐列)成一個長度向量. 功能有真正的價值,從哪裡來. 最後,必須是矩陣:它是表示線性形式的行向量. 但是,問題中的計算使用不同的方式表示線性形式:它們的係數回滾到矩陣。
跡線為線性形式
讓成為一個常數矩陣。然後,根據跡和矩陣乘法的定義,
這表示了係數的最一般可能的線性組合:是一個形狀相同的矩陣及其在行中的係數和列是係數在線性組合中。因為, 的角色和可以切換,給出等價的表達式
通過識別一個常數矩陣具有任一功能或者,我們可以在空間上表示線性形式矩陣為矩陣。 (不要將這些與函數的導數混淆到!)
計算導數
定義
統計學中遇到的許多矩陣函數的導數最容易和可靠地從定義中計算出來:你真的不需要求助於復雜的矩陣微分規則。這個定義說可微分於當且僅當存在線性變換這樣
對於任意小位移. little-oh 表示法表示在近似差異時所產生的誤差經過任意小於的大小對於足夠小的. 特別是,我們可能總是忽略與.
計算
讓我們將定義應用於所討論的函數。乘以、擴展和忽略與兩個乘積的術語裡面,
識別導數,我們必須把它變成表格. 右邊的第一項已經是這種形式了,. 右邊的另一個術語具有以下形式為了. 讓我們把這個寫出來:
召回,可以改寫
正是在這個意義上,我們可以考慮在成為
因為這些矩陣扮演的角色在跟踪公式中.
把它們放在一起
那麼,這裡是一個完整的解決方案。
讓豆角,扁豆矩陣,一個矩陣,和一個矩陣。讓. 讓豆角,扁豆具有任意小係數的矩陣。因為(通過身份)
是可微的,它的導數是由矩陣確定的線性形式
因為這只需要大約一半的工作,並且只涉及矩陣和跡線的最基本操作(乘法和轉置),所以它必須被認為是一個更簡單的——並且可以說是更明顯的——結果演示。如果您真的想了解原始演示中的各個步驟,您可能會發現將它們與此處顯示的計算進行比較會很有成效。