為什麼對稱正定 (SPD) 矩陣如此重要？

July 15, 2016

我知道對稱正定（SPD）矩陣的定義，但想了解更多。

為什麼它們如此重要，憑直覺？

這是我所知道的。還有什麼？

對於給定的數據，協方差矩陣是 SPD。協方差矩陣是一個重要的指標，請參閱這篇出色的文章以獲得直觀的解釋。

二次形式是凸的，如果是 SPD。凸性對於可以確保局部解是全局解的函數來說是一個很好的屬性。對於凸問題，有很多好的算法可以解決，但對於非凸問題則不然。

什麼時候是 SPD，二次形式的優化解

和線性系統的解決方案是相同的。所以我們可以在兩個經典問題之間進行轉換。這很重要，因為它使我們能夠使用在另一個領域中發現的技巧。例如，我們可以使用共軛梯度法來求解線性系統。

有許多好的算法（快速、數值穩定）更適合 SPD 矩陣，例如 Cholesky 分解。

編輯：我不是在嘗試詢問 SPD 矩陣的身份，而是詢問屬性背後的直覺來顯示重要性。例如，正如@Matthew Drury 所提到的，如果矩陣是 SPD，則特徵值都是正實數，但為什麼所有正數都很重要。@Matthew Drury 對 flow 有一個很好的答案，這就是我想要的。

（實）對稱矩陣具有一組完整的正交特徵向量，其對應的特徵值都是實數。對於非對稱矩陣，這可能會失敗。例如，二維空間中的旋轉在實數中沒有特徵向量或特徵值，您必須通過複數傳遞到向量空間才能找到它們。

如果矩陣是另外正定的，那麼這些特徵值都是正實數。這個事實比第一個要容易得多，因為如果是具有單位長度的特徵向量，並且對應的特徵值，那麼

其中最後一個等式使用正定性的定義。

這裡對直覺的重要性在於線性變換的特徵向量和特徵值描述了最容易理解變換的坐標系。在像標準坐標系這樣的“自然”基礎上，線性變換可能很難理解，但每個都帶有一個“首選”特徵向量基礎，其中變換充當所有方向的縮放。這使得轉換的幾何形狀更容易理解。

例如，函數局部極值的二階導數檢驗通常作為一系列神秘條件給出，涉及二階導數矩陣中的一個條目和一些行列式。事實上，這些條件簡單地編碼了以下幾何觀察：

如果二階導數矩陣是正定的，則您處於局部最小值。

如果二階導數矩陣是負定的，則您處於局部最大值。

否則，你都不是，一個鞍點。

您可以通過上面的本徵基幾何推理來理解這一點。臨界點的一階導數消失，因此這裡函數的變化率由二階導數控制。現在我們可以進行幾何推理

在第一種情況下，有兩個特徵方向，如果你沿著其中一個方向移動，函數就會增加。

在第二個中，兩個特徵方向，如果你在其中一個方向上移動，函數就會減小。

最後，有兩個特徵方向，但其中一個函數增加，另一個函數減少。

由於特徵向量跨越整個空間，任何其他方向都是特徵方向的線性組合，因此這些方向的變化率是特徵方向變化率的線性組合。所以事實上，這在所有方向上都成立（這或多或少意味著在更高維空間上定義的函數是可微的）。現在，如果您在腦海中畫出一張小圖，那麼對於初學者微積分課本中相當神秘的東西來說，這很有意義。

這直接適用於您的要點之一

二次形式是凸的，如果是 SPD。凸是一個很好的屬性，可以確保本地解決方案是全局解決方案

二階導數的矩陣是處處，是對稱正定的。從幾何上講，這意味著如果我們在任何本徵方向上移開（因此是任何方向，因為任何其他方向都是本徵方向的線性組合），函數本身將在其切平面上方彎曲。這意味著整個表面都是凸的。

引用自：https://stats.stackexchange.com/questions/224005

為什麼對稱正定 (SPD) 矩陣如此重要？

相關問答

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

RMSE 與 MSE 損失函數 - 優化解決方案是等價的嗎？

線性回歸和最小二乘回歸一定是一回事嗎？

為什麼我們在進行 MLE 時將對數似然乘以 -2？

使用牛頓法優化 OLS

為什麼不以以下方式進行引導？