檢測非線性相關性的MIC算法能不能直觀的解釋一下？

December 20, 2011

最近，我讀了兩篇文章。第一個是關於相關性的歷史，第二個是關於稱為最大信息係數 (MIC) 的新方法。我需要您的幫助來了解 MIC 方法來估計變量之間的非線性相關性。

此外，可以在作者的網站上找到它在 R 中的使用說明（在Downloads下）：

我希望這將是一個討論和理解這種方法的好平台。我有興趣討論這種方法背後的直覺以及作者所說的如何擴展它。

“ …我們需要將 MIC(X,Y) 擴展到 MIC(X,Y|Z)。我們想知道需要多少數據才能獲得 MIC 的穩定估計值，它對異常值的敏感程度，哪三個- 或者它會錯過更高維度的關係，等等。MIC是向前邁出的一大步，但還有更多的步驟要走。 ”

這不是說這是發表在我們不確定其統計同行評審的非統計期刊上嗎？這個問題由 Hoeffding 在 1948 年解決（數學統計年鑑 19:546），他開發了一種不需要分箱也不需要多個步驟的簡單算法。《科學》文章甚至沒有提到霍夫丁的工作。這在包中的 Rhoeffd函數中已經存在Hmisc很多年了。這是一個示例（輸入example(hoeffd)R）：
# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
    x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
 x  y 
x     0   # P-value is very small
y  0   
hoeffd使用 Hoeffding 方法的相當有效的 Fortran 實現。他的測試的基本思想是考慮 X 和 Y 的聯合等級與 X 的邊際等級和 Y 的邊際等級的乘積之間的差異，並適當縮放。

更新

從那以後，我一直與作者通信（順便說一句，他們非常好，並且對其他想法持開放態度，並且正在繼續研究他們的方法）。他們最初在手稿中引用了霍夫丁，但由於篇幅不足而刪掉了（現在很遺憾）。雖然霍夫丁測試似乎在他們的示例中檢測依賴性方面表現良好，它沒有提供符合他們的人眼能夠的方式排序依賴性程度標準的指標。

在即將發布的 RHmisc包中，我添加了兩個與，即平均值和最大值這是有用的依賴度量。然而，這些措施，如, 沒有 MIC 的創建者所尋求的財產。

引用自：https://stats.stackexchange.com/questions/20011

檢測非線性相關性的MIC算法能不能直觀的解釋一下？

更新

相關問答

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

為什麼參數測試比非參數測試更強大？

樣條插值是否被視為非參數模型？

缺乏證據並不是不存在的證據：貝葉斯概率對此有何看法？

互信息和 Kullback-Leibler 散度是否等價？

Wilcoxon 符號秩對稱假設