Hypothesis-Testing

如何測試兩個連續變量是否獨立?

  • October 23, 2013

假設我有一個樣本從聯合分佈和. 我如何檢驗假設和是獨立的嗎?

沒有對聯合或邊際分配規律作出任何假設和(至少是聯合正態性,因為在這種情況下,獨立性與相關性相同)。

沒有假設之間可能的關係的性質和; 它可能是非線性的,因此變量是不相關的() 但高度依賴()。

我可以看到兩種方法:

  1. 對兩個變量進行分箱並使用Fisher 精確檢驗G-test
  • 優點:使用完善的統計測試
  • 缺點:取決於分箱
  1. 估計依賴_和:(這是對於獨立和和當他們完全確定對方時)。
  • 優點:產生一個具有明確理論意義的數字
  • Con:取決於近似熵計算(即再次分箱)

這些方法有意義嗎?

人們還使用哪些其他方法?

一般來說,這是一個非常困難的問題,儘管您的變量顯然只有 1d,所以這會有所幫助。當然,第一步(如果可能的話)應該是繪製數據,看看是否有什麼突然出現在你面前;你是二維的,所以這應該很容易。

以下是一些可行的方法甚至更一般的設置:

  • 正如您所提到的,通過熵估計互信息。這可能是您的最佳選擇;基於最近鄰的估計器在低維度上做得很好,甚至直方圖在 2d 中也不可怕。如果您擔心估計錯誤,這個估計器很簡單,並為您提供有限樣本界限(大多數其他人只證明漸近性質):

斯里查蘭、萊奇和英雄。對熵泛函的經驗估計充滿信心。arXiv:1012.4188 [數學.ST]

或者,有類似的互信息直接估計器,例如

Pál、Póczos 和 Svepesári。基於廣義最近鄰圖的 Rényi 熵和互信息估計,NIPS 2010。

  • Hilbert-Schmidt 獨立標準:基於內核(在 RKHS 的意義上,而不是 KDE 的意義上)的方法。

Gretton、Bousqet、Smola 和 Schölkopf,用 Hilbert-Schmidt 規範測量統計獨立性,算法學習理論 2005。

  • Schweizer-Wolff 方法:基於 copula 變換,因此對單調遞增變換是不變的。我對這個不是很熟悉,但我認為它在計算上更簡單,但也可能不那麼強大。

Schweizer 和 Wolff,關於隨機變量依賴的非參數測量,統計年鑑 1981。

引用自:https://stats.stackexchange.com/questions/73646

comments powered by Disqus