Self-Study
皮爾遜相關、協方差和余弦相似度背後的直覺
在這篇文章中,最佳答案給出了皮爾遜相關、協方差和余弦相似度之間的出色數學解釋。我在這裡引用的地方(是數據矩陣)。
- 如果您將列(變量)居中, 然後是散佈(或共同散佈,如果要嚴格的話)矩陣和是協方差矩陣。
- 如果您對(減去列均值並除以標準差),然後是 Pearson相關矩陣:相關是標準化變量的協方差。相關性也稱為線性係數。
- 如果您對(將他們的 SS 平方和設為 1),然後是餘弦相似度矩陣。餘弦也稱為比例係數。
除了數學解釋之外,有沒有直觀的圖比如維基百科中的皮爾遜相關(如下圖)來展示這三個“相似度度量”之間的關係,即每個相似度度量能夠檢測到什麼樣的形狀?
我們可以忽略矩陣公式,只考慮兩個向量和(因為矩陣公式只是在不同的向量對上重複的向量運算)。協方差/相關性/餘弦相似性之間的一個直觀/幾何區別是它們對輸入的不同變換的不變性。也就是說,如果我們變換和,在什麼類型的變換下,分數會保持相同的值?
協方差在取點積之前減去均值。因此,移位是不變的。
Pearson 相關性減去均值並在取點積之前除以標準差。因此,移位和縮放是不變的。
餘弦相似度在取點積之前除以範數。因此,它對縮放是不變的,但不是移位。在幾何上,它可以被認為是測量兩個向量之間角度的大小(顧名思義,它是角度的餘弦)。
所有這些量都取決於點積,因此它們只能檢測線性結構。為了解決評論中的問題,互信息是完全一般的,並且可以檢測任何分佈的結構。但是,從有限數據中估計比其他數量更難,必須更加小心。此外,它測量依賴性,但不指示關係的方向(例如,相關或反相關的變量可以具有相同的互信息)。當甚至不存在“關係方向”(非單調關係)時,相互信息是一種有效的依賴度量。如果目標是檢測非線性但單調的關係,那麼 Spearman 秩相關和 Kendall 的 tau 是不錯的選擇。