看，你會發現（相關性）

December 25, 2010

我有幾百個測量值。現在，我正在考慮使用某種軟件將每個度量與每個度量相關聯。這意味著有成千上萬的相關性。其中應該（統計上）具有高度相關性，即使數據是完全隨機的（每個度量只有大約 100 個數據點）。

當我找到相關性時，我如何將有關我尋找相關性的努力程度的信息包含在其中？

我的統計水平不高，所以請多多包涵。

這是一個很好的問題，值得一個清楚的統計思想家，因為它認識到多重測試的一個微妙但重要的方面。

有一些標準方法可以調整多個相關係數的 p 值（或等效地，擴大其置信區間），例如 Bonferroni 和 Sidak 方法 ( qv )。然而，由於通常必須在相關係數之間保持固有的數學關係，這些對於大型相關矩陣來說過於保守。（有關此類關係的一些示例，請參見最近的問題和隨後的線程。）處理這種情況的最佳方法之一是進行置換（或重採樣）測試. 使用相關性很容易做到這一點：在測試的每次迭代中，只需隨機打亂每個字段的值的順序（從而破壞任何固有的相關性）並重新計算完整的相關性矩陣。重複數千次（或更多），然後總結相關矩陣條目的分佈，例如，給出它們的 97.5 和 2.5 百分位數：這些將用作在 null 下相互對稱的雙邊 95% 置信區間無相關性假設。（第一次使用大量變量進行此操作時，您會驚訝於即使沒有內在相關性，某些相關係數也會如此之高。）

報告結果時，無論您進行何種計算，都應包括以下內容：

相關矩陣的大小（即，您查看了多少個變量）。

您如何確定任何相關係數的 p 值或“顯著性”（例如，將它們保持原樣，應用 Bonferroni 校正，進行置換檢驗或其他）。

您是否查看了相關性的替代度量，例如Spearman 等級相關性。如果您這樣做了，還請說明您選擇實際報告和使用的方法的原因。

引用自：https://stats.stackexchange.com/questions/5750

comments powered by Disqus

看，你會發現（相關性）

相關問答

我們什麼時候“停止”使用多種校正技術？

用 R 中的 GAM 對象 {mgcv} 校正多個成對比較

Fisher 精確檢驗（置換檢驗）的冪的驚人行為

研究員 1 運行 1000 個回歸，研究員 2 只運行 1 個，都得到相同的結果——他們應該做出不同的推論嗎？

“重新洗牌技巧”的名稱（隨機排列數據集以估計估計器的偏差）

發現的高維、相關數據和主要特徵/協變量；多重假設檢驗？