Correlation
餘弦相似度、皮爾遜相關性和 z 分數之間是否存在任何關係?
我想知道這三個措施之間是否有任何關係。通過引用定義,我似乎無法在它們之間建立聯繫(可能是因為我對這些定義不熟悉,並且在掌握它們時遇到了一些困難)。
我知道餘弦相似度的範圍可以是 0 - 1,皮爾遜相關性的範圍可以是 -1 到 1,我不確定 z 分數的範圍。
但是,我不知道餘弦相似度的某個值如何告訴您有關 pearson 相關性或 z 分數的任何信息,反之亦然?
兩個向量之間的餘弦相似度和只是它們之間的角度
在許多使用餘弦相似度的應用中,向量是非負的(例如文檔的詞頻向量),在這種情況下,餘弦相似度也將是非負的。 對於向量這 ”-score”向量通常定義為
在哪裡和是平均值和標準差. 所以均值為 0,標準差為 1,即是標準化的版本. 對於兩個向量和,它們的相關係數為
現在如果向量均值為零,則其方差為, 所以它的單位向量和 z-score 將由
所以如果向量和居中(即均值為零),則它們的餘弦相似度將與它們的相關係數相同。
TL;DR餘弦相似度是單位向量的點積。皮爾遜相關是中心向量之間的餘弦相似度。向量的“Z-score 變換”是縮放到範數的中心向量.