校正測試相關的多個測試的 p 值（遺傳學）

September 18, 2010

我從很多測試中獲得了 p 值，並且想知道在對多次測試進行校正後是否真的有一些重要的東西。並發症：我的測試不是獨立的。我正在考慮的方法（Fisher 乘積方法的一種變體，Zaykin 等人，Genet Epidemiol，2002）需要 p 值之間的相關性。

為了估計這種相關性，我目前正在考慮引導案例，運行分析並將結果向量的 p 值相關聯。有沒有人有更好的主意？甚至對我的原始問題有更好的想法（糾正相關測試中的多個測試）？

背景：我在邏輯上回歸我的受試者是否患有特定疾病，取決於他們的基因型（AA、Aa 或 aa）與協變量之間的相互作用。然而，基因型實際上是很多（30-250）個單核苷酸多態性（SNP），它們肯定不是獨立的，而是處於連鎖不平衡狀態。

這實際上是全基因組分析研究（GWAS）中的熱門話題！我不確定您正在考慮的方法在這種情況下是否最合適。一些作者描述了 p 值的合併，但在不同的背景下（複製研究或薈萃分析，參見例如 (1) 以獲得最近的評論）。當人們想要為給定基因導出唯一的 p 值時，通常使用通過 Fisher 方法組合 SNP p 值。這允許在基因水平上工作，並減少後續測試的維數，但正如你所說，標記之間的非獨立性（由空間共位或連鎖不平衡引起，LD）引入了偏差。更強大的替代方案依賴於重新採樣程序，

我對引導（帶替換）的主要擔憂是您正在引入一種人為的關聯形式，或者換句話說，您創建了虛擬雙胞胎，從而改變了 Hardy-Weinberg 平衡（以及最小等位基因頻率和調用率）。對於排列單個標籤並保持基因分型數據不變的排列方法，情況並非如此。通常，plink軟件可以為您提供原始和置換的 p 值，儘管它（默認情況下）使用帶有滑動窗口的自適應測試策略，如果 SNP 看起來低於考慮不是“有趣的”；它還具有計算 maxT 的選項，請參閱在線幫助。

但鑑於您正在考慮的 SNP 數量較少，我建議依賴在multtest R 包中實現的基於 FDR 或 maxT 測試（請參閱參考資料mt.maxT），但基因組應用重採樣策略的權威指南是Multiple Testing Procedures with Applications to基因組學，來自 Dudoit & van der Laan (Springer, 2008)。另請參閱 Andrea Foulkes 的R 遺傳學書，該書在 JSS 中進行了評論。她在多種測試程序方面擁有豐富的資料。

進一步說明

許多作者指出，簡單的多重測試校正方法（例如 Bonferroni 或 Sidak）對於調整單個 SNP 的結果來說過於嚴格。此外，這些方法都沒有考慮到 SNP 之間存在的相關性，因為 LD 標記了跨基因區域的遺傳變異。已經提出了其他替代方案，例如用於多重比較的 Holm 方法的導數 (3)、隱馬爾可夫模型 (4)、條件或正 FDR (5) 或其導數 (6)，僅舉幾例。所謂的差距統計或滑動窗口在某些情況下已被證明是成功的，但您會在 (7) 和 (8) 中找到一個很好的回顧。

我還聽說過有效利用單倍型結構或 LD 的方法，例如 (9)，但我從未使用過它們。然而，它們似乎更多地與估計標記之間的相關性有關，而不是您所說的 p 值。但實際上，您可能會更好地考慮連續測試統計之間的依賴結構，而不是相關 p 值之間的依賴結構。

參考

Cantor, RM, Lange, K 和 Sinsheimer, JS。優先考慮 GWAS 結果：統計方法及其應用建議的回顧。Am J Hum Genet。2010 86（1）：6-22。

Corley, RP, Zeiger, JS, Crowley, T 等人。候選基因與青少年反社會藥物依賴的關聯。藥物和酒精依賴 2008 96：90–98。

Dalmasso、C、Génin、E 和 Trégouet DA。全基因組關聯研究中等位基因頻率的加權霍爾姆程序。遺傳學 2008 180（1）：697–702。

Wei, Z, Sun, W, Wang, K 和 Hakonarson, H.通過隱馬爾可夫模型進行全基因組關聯研究中的多重檢驗。生物信息學 2009 25(21): 2802-2808。

Broberg, P.對未改變基因比例和錯誤發現率估計值的比較回顧。BMC 生物信息學 2005 6：199。

需要、AC、Ge、D、Weale、ME 等。精神分裂症中 SNP 和 CNV 的全基因組研究。公共科學圖書館基因。2009 年 5（2）：e1000373。

Han, B, Kang, HM 和 Eskin, E.數百萬相關標記的快速準確的多重測試校正和功率估計。PLoS 遺傳學 2009

Liang, Y 和 Kelemen, A.分析複雜疾病基因組研究中相關高維 snp 數據的統計進展和挑戰。2008 年統計調查 2：43–60。- 有史以來最好的近期評論

尼霍爾特博士相互連鎖不平衡中單核苷酸多態性多重檢測的簡單修正。Am J Hum Genet。2004 74（4）：765–769。

Nicodemus，KK，Liu，W，Chase，GA，Tsai，YY 和 Fallin，MD。使用主成分與單倍型阻斷算法比較大型單核苷酸多態性研究中多次測試校正的 I 型錯誤。BMC 遺傳學 2005；6（增補 1）：S78。

Peng, Q, Zhao, J 和 Xue, F.基於 PCA 的自舉置信區間檢驗涉及多個 SNP 的基因-疾病關聯。BMC 遺傳學 2010, 11:6

Li, M, Romero, R, Fu, WJ 和 Cui, Y (2010)。用自適應套索映射單倍型-單倍型相互作用。BMC Genetics 2010, 11:79 – 雖然與問題沒有直接關係，但它涵蓋了基於單倍型的分析/上位效應

引用自：https://stats.stackexchange.com/questions/2819

comments powered by Disqus

校正測試相關的多個測試的 p 值（遺傳學）

相關問答

為什麼機器學習中的參數未經測試？

具有二分變量的兩組的顯著性檢驗

拋硬幣 n 次的假設檢驗

我們如何確定小樣本何時具有統計顯著性？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？

為什麼對於小樣本量，精確檢驗優於卡方檢驗？