Correlation
距離協方差何時不如線性協方差合適?
我剛剛(模糊地)被介紹到brownian/distance covariance/correlation。在測試依賴性時,它似乎在許多非線性情況下特別有用。但它似乎並不經常使用,即使協方差/相關經常用於非線性/混沌數據。
這讓我認為距離協方差可能存在一些缺點。那麼它們是什麼,為什麼不是每個人都總是使用距離協方差?
根據我閱讀下面列出的參考資料的印象,我試圖收集一些關於距離協方差的評論。但是,我不認為自己是該主題的專家。歡迎評論、更正、建議等。
正如原始問題中所要求的那樣,這些評論(強烈)偏向於潛在的缺點。
在我看來,潛在的缺點如下:
- 該方法是新的。我的猜測是,這是目前缺乏人氣的最大因素。概述距離協方差的論文始於 2000 年代中期,一直發展到今天。上面引用的論文是最受關注(炒作?)的論文,它還不到三年。相比之下,相關性和類似相關性度量的理論和結果已經落後了一個多世紀。
- 基本概念更具挑戰性。Pearson 的乘積-矩相關性,在操作層面上,可以很容易地向沒有微積分背景的大學新生解釋。可以佈置一個簡單的“算法”觀點,並且易於描述幾何直覺。相比之下,在距離協方差的情況下,即使是成對歐幾里得距離的乘積之和的概念也相當困難,並且關於隨機過程的協方差概念遠遠超出了可以向這樣的觀眾合理解釋的範圍.
- 它的計算要求更高。計算檢驗統計量的基本算法是在樣本量中,而不是用於標準相關指標。對於小樣本來說,這沒什麼大不了的,但對於大樣本來說,它變得更加重要。
- 檢驗統計量不是自由分佈的,即使是漸近的。人們可能希望,對於與所有備選方案一致的檢驗統計量,分佈(至少漸近地)可能獨立於和在原假設下。這不是距離協方差的情況,因為零值下的分佈取決於和即使樣本量趨於無窮大。確實,分佈均勻地由分佈,這允許計算保守臨界值。
- 距離相關是一個一對一的變換在雙變量正常情況下。這並不是真正的缺點,甚至可能被視為一種優勢。但是,如果一個人接受數據的二元正態近似(這在實踐中可能很常見),那麼使用距離相關性代替標準程序幾乎不會獲得任何好處。
- 未知的電源屬性。與所有備選方案保持一致本質上保證了距離協方差對某些備選方案必須具有非常低的功效。在許多情況下,人們願意放棄一般性,以便獲得額外的權力來對抗特定的感興趣的替代方案。原始論文展示了一些示例,其中他們聲稱相對於標準相關指標具有高功效,但我相信,回到上面的(1.),它對替代品的行為還沒有很好地理解。
重申一下,這個答案可能非常消極。但是,這不是本意。距離協方差有一些非常漂亮和有趣的想法,它的相對新穎性也為更全面地理解它開闢了研究途徑。
參考資料:
- GJ Szekely 和 ML Rizzo (2009),布朗距離協方差,安。應用程序。統計學家。, 卷。3,沒有。4, 1236–1265。
- GJ Szekely、ML Rizzo 和 NK Bakirov (2007),通過距離相關性測量和測試獨立性,安。統計學家。, 卷。35, 2769–2794。
- R. Lyons (2012),度量空間中的距離協方差, Ann。概率。(出現)。