Regression

是否存在對異常值不太敏感的相關係數版本?

  • November 14, 2016

相關係數為:

樣本均值和样本標準差對異常值很敏感。

以及,其中的機制,

有點像一個平均值,也許對變化不太敏感的那個可能會有變化。

樣本均值是:

樣本標準差為:

我想我想要

中位數:

中值絕對偏差:

對於相關性:

我用一些隨機數嘗試了這個,但得到的結果大於 1,這似乎是錯誤的。請參閱以下 R 代碼。

x<- c(237, 241, 251, 254, 263)
y<- c(216, 218, 227, 234, 235)

median.x <- median(x)
median.y <- median(y)

mad.x <- median(abs(x - median.x))
mad.y <- median(abs(y - median.y))

r <- median((((x - median.x) * (y - median.y)) / (mad.x * mad.y)))

print(r)
## Prints 1.125

plot(x,y)

我想你想要一個排名相關性。這些通常對異常值更穩健,儘管值得認識到它們測量的是單調關聯,而不是直線關聯。最常見的秩相關是Spearman 相關。這只是數據等級的 Pearson 乘積矩相關性。

我不會走你所走的路,從中位數中獲取每個數據的差異。例如,X 分佈的中位數可以是與 Y 分佈的中位數完全不同的點。我覺得這可能會導致計算不穩定。

引用自:https://stats.stackexchange.com/questions/245931

comments powered by Disqus