Correlation
看,你會發現(相關性)
我有幾百個測量值。現在,我正在考慮使用某種軟件將每個度量與每個度量相關聯。這意味著有成千上萬的相關性。其中應該(統計上)具有高度相關性,即使數據是完全隨機的(每個度量只有大約 100 個數據點)。
當我找到相關性時,我如何將有關我尋找相關性的努力程度的信息包含在其中?
我的統計水平不高,所以請多多包涵。
這是一個很好的問題,值得一個清楚的統計思想家,因為它認識到多重測試的一個微妙但重要的方面。
有一些標準方法可以調整多個相關係數的 p 值(或等效地,擴大其置信區間),例如 Bonferroni 和 Sidak 方法 ( qv )。然而,由於通常必須在相關係數之間保持固有的數學關係,這些對於大型相關矩陣來說過於保守。(有關此類關係的一些示例,請參見最近的問題和隨後的線程。)處理這種情況的最佳方法之一是進行置換(或重採樣)測試. 使用相關性很容易做到這一點:在測試的每次迭代中,只需隨機打亂每個字段的值的順序(從而破壞任何固有的相關性)並重新計算完整的相關性矩陣。重複數千次(或更多),然後總結相關矩陣條目的分佈,例如,給出它們的 97.5 和 2.5 百分位數:這些將用作在 null 下相互對稱的雙邊 95% 置信區間無相關性假設。(第一次使用大量變量進行此操作時,您會驚訝於即使沒有內在相關性,某些相關係數也會如此之高。)
報告結果時,無論您進行何種計算,都應包括以下內容:
- 相關矩陣的大小(即,您查看了多少個變量)。
- 您如何確定任何相關係數的 p 值或“顯著性”(例如,將它們保持原樣,應用 Bonferroni 校正,進行置換檢驗或其他)。
- 您是否查看了相關性的替代度量,例如Spearman 等級相關性。如果您這樣做了,還請說明您選擇實際報告和使用的方法的原因。