有沒有直觀的解釋𝐴𝑇𝐴一個噸一個A^TA對於數據矩陣𝐴一個A?

February 9, 2012

對於給定的數據矩陣（列中的變量和行中的數據點），看起來像在統計學中佔有重要地位。例如，它是普通最小二乘解析解的重要組成部分。或者，對於 PCA，其特徵向量是數據的主要成分。

我明白如何計算，但我想知道這個矩陣代表什麼是否有一個直觀的解釋，這導致了它的重要作用？

幾何上，矩陣稱為標量積矩陣（= 點積，= 內積）。在代數上，它被稱為平方和叉積矩陣 ( SSCP )。

它的-th 對角元素等於，在哪裡表示中的值- 第列和是跨行的總和。這- 其中的非對角元素是.

有許多重要的關聯繫數，它們的方陣稱為角度相似度或 SSCP 類型相似度：

將 SSCP 矩陣除以，樣本大小或行數，你得到MSCP（均方和叉積）矩陣。因此，該關聯度量的成對公式為（帶向量和是一對來自的列）。

如果您將列（變量）居中，然後是散佈（或共同散佈，如果要嚴格的話）矩陣和是協方差矩陣。協方差的成對公式是和和表示居中的列。

如果您對（減去列均值並除以標準差），然後是 Pearson相關矩陣：相關是標準化變量的協方差。相關的成對公式是和和表示標準化列。相關性也稱為線性係數。

如果您對（將他們的 SS 平方和設為 1），然後是餘弦相似度矩陣。因此，等效的成對公式似乎是和和表示 L2 歸一化列。餘弦相似度也稱為比例係數。

如果你居中然後單位比例的列，然後再次是 Pearson相關矩陣，因為相關性對於中心變量是餘弦：

除了這四個主要的關聯措施，我們還可以提及其他一些，同樣基於, 最重要的是。它們可以被視為替代餘弦相似度的度量，因為它們採用不同於它的歸一化，公式中的分母：

恆等係數[Zegers & ten Berge, 1985] 的分母是算術平均值而不是幾何平均值：. 它可以是 1 當且僅當被比較的列是相同的。

另一個類似的可用係數稱為相似率：.

最後，如果值是非負的並且它們在列中的總和是 1（例如它們是比例），那麼是保真度或Bhattacharyya係數的矩陣。

許多統計軟件包使用的一種計算相關性或協方差矩陣的方法，繞過數據中心並直接偏離 SSCP 矩陣這邊走。讓是數據列總和的行向量儘管是數據中的行數。然後（1）計算散佈矩陣為[因此，將是協方差矩陣]；(2) 對角線是平方偏差的總和，行向量; (3) 計算相關矩陣.

一個敏銳但統計新手的讀者可能會發現很難協調相關的兩個定義 - 作為“協方差”（包括按樣本大小平均，除以df =“n-1”）和作為“餘弦”（這意味著沒有這樣的平均）。但事實上，在第一個相關公式中並沒有發生真正的平均。問題是聖。通過除以相同的df來計算實現 z 標準化的偏差；因此，如果展開公式，則相關性作為協方差的公式中的分母“n-1”將完全取消：公式變為 cosine 的公式。要計算經驗相關值，您真的不需要知道（除了計算平均值時，要居中）。