Biostatistics
應該使用哪種統計測試來測試基因列表的富集?
我進行了一項實驗來測試細胞對某種 DNA 損傷劑的敏感性。我們發現了270個對藥物特別敏感的基因,分析的基因總數為3668個。270個敏感基因中有38個被歸類為“DNA修復基因”。如果基因組中包含的“DNA修復基因”數量為112個,基因組中的基因總數為3668個,那麼敏感基因是否富集在DNA修復基因中?應該使用哪種統計檢驗?如果您還可以告訴我一些在線計算 p 值的工具,我將不勝感激。
測試基因列表富集的標準做法是進行超幾何測試,或者等效地,進行單邊Fisher 精確檢驗。你有以下列聯表:
R
您可以按如下方式進行測試:fisher.test(matrix(c(38,74,232,3324),nrow=2,ncol=2),alternative="greater")
這給出了一個非常重要的結果:
Fisher's Exact Test for Count Data data: matrix(c(38, 74, 232, 3324), nrow = 2, ncol = 2) p-value < 2.2e-16 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 5.062107 Inf sample estimates: odds ratio 7.34918
請注意,當我們測試過度表示(而不是表示不足)時,
alternative
參數設置為"greater"
.