Matrix
有沒有直觀的解釋𝐴𝑇𝐴一個噸一個A^TA對於數據矩陣𝐴一個A?
對於給定的數據矩陣(列中的變量和行中的數據點),看起來像在統計學中佔有重要地位。例如,它是普通最小二乘解析解的重要組成部分。或者,對於 PCA,其特徵向量是數據的主要成分。
我明白如何計算,但我想知道這個矩陣代表什麼是否有一個直觀的解釋,這導致了它的重要作用?
幾何上,矩陣稱為標量積矩陣(= 點積,= 內積)。在代數上,它被稱為平方和叉積矩陣 ( SSCP )。
它的-th 對角元素等於, 在哪裡表示中的值- 第列和是跨行的總和。這- 其中的非對角元素是.
有許多重要的關聯繫數,它們的方陣稱為角度相似度或 SSCP 類型相似度:
- 將 SSCP 矩陣除以,樣本大小或行數,你得到MSCP(均方和叉積)矩陣。因此,該關聯度量的成對公式為(帶向量和是一對來自的列)。
- 如果您將列(變量)居中, 然後是散佈(或共同散佈,如果要嚴格的話)矩陣和是協方差矩陣。協方差的成對公式是和和表示居中的列。
- 如果您對(減去列均值並除以標準差),然後是 Pearson相關矩陣:相關是標準化變量的協方差。相關的成對公式是和和表示標準化列。相關性也稱為線性係數。
- 如果您對(將他們的 SS 平方和設為 1),然後是餘弦相似度矩陣。因此,等效的成對公式似乎是和和表示 L2 歸一化列。餘弦相似度也稱為比例係數。
- 如果你居中然後單位比例的列, 然後再次是 Pearson相關矩陣,因為相關性對於中心變量是餘弦:
除了這四個主要的關聯措施,我們還可以提及其他一些,同樣基於, 最重要的是。它們可以被視為替代餘弦相似度的度量,因為它們採用不同於它的歸一化,公式中的分母:
- 恆等係數[Zegers & ten Berge, 1985] 的分母是算術平均值而不是幾何平均值:. 它可以是 1 當且僅當被比較的列是相同的。
- 另一個類似的可用係數稱為相似率:.
- 最後,如果值是非負的並且它們在列中的總和是 1(例如它們是比例),那麼是保真度或Bhattacharyya係數的矩陣。
許多統計軟件包使用的一種計算相關性或協方差矩陣的方法,繞過數據中心並直接偏離 SSCP 矩陣這邊走。讓是數據列總和的行向量儘管是數據中的行數。然後(1)計算散佈矩陣為[因此,將是協方差矩陣];(2) 對角線是平方偏差的總和,行向量; (3) 計算相關矩陣.
一個敏銳但統計新手的讀者可能會發現很難協調相關的兩個定義 - 作為“協方差”(包括按樣本大小平均,除以df =“n-1”)和作為“餘弦”(這意味著沒有這樣的平均)。但事實上,在第一個相關公式中並沒有發生真正的平均。問題是聖。通過除以相同的df來計算實現 z 標準化的偏差;因此,如果展開公式,則相關性作為協方差的公式中的分母“n-1”將完全取消:公式變為 cosine 的公式。要計算經驗相關值,您真的不需要知道(除了計算平均值時,要居中)。