Correlation

檢測非線性相關性的MIC算法能不能直觀的解釋一下?

  • December 20, 2011

最近,我讀了兩篇文章。一個是關於相關性的歷史,第二個是關於稱為最大信息係數 (MIC) 的新方法。我需要您的幫助來了解 MIC 方法來估計變量之間的非線性相關性。

此外,可以在作者的網站上找到它在 R 中的使用說明(在Downloads下):

我希望這將是一個討論和理解這種方法的好平台。我有興趣討論這種方法背後的直覺以及作者所說的如何擴展它。

…我們需要將 MIC(X,Y) 擴展到 MIC(X,Y|Z)。我們想知道需要多少數據才能獲得 MIC 的穩定估計值,它對異常值的敏感程度,哪三個- 或者它會錯過更高維度的關係,等等。MIC是向前邁出的一大步,但還有更多的步驟要走。

這不是說這是發表在我們不確定其統計同行評審的非統計期刊上嗎?這個問題由 Hoeffding 在 1948 年解決(數學統計年鑑 19:546),他開發了一種不需要分箱也不需要多個步驟的簡單算法。《科學》文章甚至沒有提到霍夫丁的工作。這在包中的 Rhoeffd函數中已經存在Hmisc很多年了。這是一個示例(輸入example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
    x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
 x  y 
x     0   # P-value is very small
y  0   

hoeffd使用 Hoeffding 方法的相當有效的 Fortran 實現。他的測試的基本思想是考慮 X 和 Y 的聯合等級與 X 的邊際等級和 Y 的邊際等級的乘積之間的差異,並適當縮放。

更新

從那以後,我一直與作者通信(順便說一句,他們非常好,並且對其他想法持開放態度,並且正在繼續研究他們的方法)。他們最初在手稿中引用了霍夫丁,但由於篇幅不足而刪掉了(現在很遺憾)。雖然霍夫丁測試似乎在他們的示例中檢測依賴性方面表現良好,它沒有提供符合他們的人眼能夠的方式排序依賴性程度標準的指標。

在即將發布的 RHmisc包中,我添加了兩個與,即平均值和最大值這是有用的依賴度量。然而,這些措施,如, 沒有 MIC 的創建者所尋求的財產。

引用自:https://stats.stackexchange.com/questions/20011

comments powered by Disqus