檢測非線性相關性的MIC算法能不能直觀的解釋一下?
最近,我讀了兩篇文章。第一個是關於相關性的歷史,第二個是關於稱為最大信息係數 (MIC) 的新方法。我需要您的幫助來了解 MIC 方法來估計變量之間的非線性相關性。
此外,可以在作者的網站上找到它在 R 中的使用說明(在Downloads下):
我希望這將是一個討論和理解這種方法的好平台。我有興趣討論這種方法背後的直覺以及作者所說的如何擴展它。
“ …我們需要將 MIC(X,Y) 擴展到 MIC(X,Y|Z)。我們想知道需要多少數據才能獲得 MIC 的穩定估計值,它對異常值的敏感程度,哪三個- 或者它會錯過更高維度的關係,等等。MIC是向前邁出的一大步,但還有更多的步驟要走。 ”
這不是說這是發表在我們不確定其統計同行評審的非統計期刊上嗎?這個問題由 Hoeffding 在 1948 年解決(數學統計年鑑 19:546),他開發了一種不需要分箱也不需要多個步驟的簡單算法。《科學》文章甚至沒有提到霍夫丁的工作。這在包中的 R
hoeffd
函數中已經存在Hmisc
很多年了。這是一個示例(輸入example(hoeffd)
R):# Hoeffding's test can detect even one-to-many dependency set.seed(1) x <- seq(-10,10,length=200) y <- x*sign(runif(200,-1,1)) plot(x,y) # an X hoeffd(x,y) # also accepts a numeric matrix D x y x 1.00 0.06 y 0.06 1.00 n= 200 P x y x 0 # P-value is very small y 0
hoeffd
使用 Hoeffding 方法的相當有效的 Fortran 實現。他的測試的基本思想是考慮 X 和 Y 的聯合等級與 X 的邊際等級和 Y 的邊際等級的乘積之間的差異,並適當縮放。更新
從那以後,我一直與作者通信(順便說一句,他們非常好,並且對其他想法持開放態度,並且正在繼續研究他們的方法)。他們最初在手稿中引用了霍夫丁,但由於篇幅不足而刪掉了(現在很遺憾)。雖然霍夫丁測試似乎在他們的示例中檢測依賴性方面表現良好,它沒有提供符合他們的人眼能夠的方式排序依賴性程度標準的指標。
在即將發布的 R
Hmisc
包中,我添加了兩個與,即平均值和最大值這是有用的依賴度量。然而,這些措施,如, 沒有 MIC 的創建者所尋求的財產。