皮爾遜相關、協方差和余弦相似度背後的直覺

June 9, 2016

在這篇文章中，最佳答案給出了皮爾遜相關、協方差和余弦相似度之間的出色數學解釋。我在這裡引用的地方（是數據矩陣）。

如果您將列（變量）居中，然後是散佈（或共同散佈，如果要嚴格的話）矩陣和是協方差矩陣。

如果您對（減去列均值並除以標準差），然後是 Pearson相關矩陣：相關是標準化變量的協方差。相關性也稱為線性係數。

如果您對（將他們的 SS 平方和設為 1），然後是餘弦相似度矩陣。餘弦也稱為比例係數。

除了數學解釋之外，有沒有直觀的圖比如維基百科中的皮爾遜相關（如下圖）來展示這三個“相似度度量”之間的關係，即每個相似度度量能夠檢測到什麼樣的形狀？

我們可以忽略矩陣公式，只考慮兩個向量和（因為矩陣公式只是在不同的向量對上重複的向量運算）。協方差/相關性/餘弦相似性之間的一個直觀/幾何區別是它們對輸入的不同變換的不變性。也就是說，如果我們變換和，在什麼類型的變換下，分數會保持相同的值？

協方差在取點積之前減去均值。因此，移位是不變的。

Pearson 相關性減去均值並在取點積之前除以標準差。因此，移位和縮放是不變的。

餘弦相似度在取點積之前除以範數。因此，它對縮放是不變的，但不是移位。在幾何上，它可以被認為是測量兩個向量之間角度的大小（顧名思義，它是角度的餘弦）。

所有這些量都取決於點積，因此它們只能檢測線性結構。為了解決評論中的問題，互信息是完全一般的，並且可以檢測任何分佈的結構。但是，從有限數據中估計比其他數量更難，必須更加小心。此外，它測量依賴性，但不指示關係的方向（例如，相關或反相關的變量可以具有相同的互信息）。當甚至不存在“關係方向”（非單調關係）時，相互信息是一種有效的依賴度量。如果目標是檢測非線性但單調的關係，那麼 Spearman 秩相關和 Kendall 的 tau 是不錯的選擇。

引用自：https://stats.stackexchange.com/questions/218127

comments powered by Disqus

皮爾遜相關、協方差和余弦相似度背後的直覺

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

無因果關係

為什麼在計算自相關時減去平均值？

標準正態隨機變量的乘積符號

為什麼多重共線性與相關性不同？

離散變量和連續變量。定義是什麼？