Correlation
日誌會修改兩個變量之間的相關性嗎?
我將日誌應用於兩個非常傾斜的變量,然後進行相關性。對數前相關性為 0.49,對數後相關性為 0.9。我認為日誌只會改變比例。這怎麼可能?下面是他們每個人的圖表。也許我沒有應用正確的轉換?
有多種不同類型的相關性。最常見的是皮爾遜相關係數,它衡量兩個向量之間的*線性相關程度。*也就是說,它本質上是通過散點圖繪製一條直線併計算其斜率。如果您記錄日誌,這當然會改變!
如果您對在對數等單調變換下不變的相關性度量感興趣,請使用Kendall 等級相關性或Spearman 等級相關性。這些僅適用於rank,在單調變換下不會改變。
這是一個示例 - 請注意 Pearson 相關性在記錄後如何變化,而 Kendall 和 Spearman 相關性則不會:
> set.seed(1) > foo <- exp(rnorm(100)) > bar <- exp(rnorm(100)) > > cor(foo,bar,method="pearson") [1] -0.08337386 > cor(log(foo),log(bar),method="pearson") [1] -0.0009943199 > > cor(foo,bar,method="kendall") [1] 0.02707071 > cor(log(foo),log(bar),method="kendall") [1] 0.02707071 > > cor(foo,bar,method="spearman") [1] 0.03871587 > cor(log(foo),log(bar),method="spearman") [1] 0.03871587
以下較早的問題討論了 Kendall 和 Spearman 的相關性:Kendall Tau 還是 Spearman 的 rho?