Regression
是否存在對異常值不太敏感的相關係數版本?
相關係數為:
樣本均值和样本標準差對異常值很敏感。
以及,其中的機制,
有點像一個平均值,也許對變化不太敏感的那個可能會有變化。
樣本均值是:
樣本標準差為:
我想我想要
中位數:
中值絕對偏差:
對於相關性:
我用一些隨機數嘗試了這個,但得到的結果大於 1,這似乎是錯誤的。請參閱以下 R 代碼。
x<- c(237, 241, 251, 254, 263) y<- c(216, 218, 227, 234, 235) median.x <- median(x) median.y <- median(y) mad.x <- median(abs(x - median.x)) mad.y <- median(abs(y - median.y)) r <- median((((x - median.x) * (y - median.y)) / (mad.x * mad.y))) print(r) ## Prints 1.125 plot(x,y)
我想你想要一個排名相關性。這些通常對異常值更穩健,儘管值得認識到它們測量的是單調關聯,而不是直線關聯。最常見的秩相關是Spearman 相關。這只是數據等級的 Pearson 乘積矩相關性。
我不會走你所走的路,從中位數中獲取每個數據的差異。例如,X 分佈的中位數可以是與 Y 分佈的中位數完全不同的點。我覺得這可能會導致計算不穩定。