如果您多次執行相同的測試,您可以將 p 值相乘嗎?
我相信 p 值的解釋是它是在原假設下看到樣本檢驗統計量的概率。
但是,如果您多次執行相同的精確測試並獲得多個 p 值會發生什麼?您能否使用概率的乘法規則將第一個 p 值乘以第二個,從而獲得查看您的檢驗統計量的新總體概率?
例如,您進行 t 檢驗並獲得 0.05 的 p 值,然後您使用完全不同的樣本執行相同的測試並獲得 0.10 的 p 值。在這種情況下,在原假設下看到這兩個檢驗統計量的概率為 0.05×0.1=0.005 ,哪個是不太可能的,因此更重要的值?
“我相信 p 值的解釋是它是在原假設下看到樣本檢驗統計量的概率。”
不。這是看到樣本檢驗統計量的概率,或者與原假設更不相符的東西( H0 ) 在下面 H0 ,我寫成 P0T≥t , 在哪裡 T 是檢驗統計量和 t 是它的觀察值,假設這裡的值很大 T 提供反對的證據 H0 (這個論點也可以為 T≤t 或雙面案例)。
如果你有,說, p=0.06 在一次測試中 T1 結果 t1 和 p=0.6 下一個 ( T2,t2 ; 讓我們假設它們是根據獨立觀察完成的),如果你將這兩個相乘,你得到的是概率 T1≥t1∩T2≥t2 ,即概率 T1 和 T2 下很大 H0 . 這當然比至少有一個大的可能性要小。但有些情況下,至少其中一個很大,至少同樣強烈反對 H0 ,比如有 T1 非常大,即使 T2 並不表示存在問題 H0 ,所以事件 T1≥t1∩T2≥t2 ,其中你通過乘以 p 值得到概率,並沒有涵蓋觀察到更不符合的事物的所有可能性 H0 比您觀察到的要小,因此小於有效的“組合” p 值。
在我上面的例子中,肯定是在觀察之後 t1 和 P0T1≥t1=0.06 , 觀察 t2 和 P0T2≥t2=0.6 不會使整體結果表明對 H0 (正如乘以 p 值所暗示的那樣),因為用 P0T2≥t2=0.6 是完全合理的 H0 ; 然而觀察 T1 甚至大於 t1 可以說會更強大 H0 即使觀察到更小的 T2 .
組合來自多個測試的 p 值的問題在於,如果您只有一個一維測試統計量,只要適當定義此統計量,您就很清楚如何找到與 H0 比您的觀察結果(取決於檢驗統計量,或者通過查看所有較大或所有較小的值,或者將兩側結合起來)。然而,對於兩個或更多的檢驗統計值,在可能結果的更高維度空間中,定義什麼“不太符合 H0 “實際上意味著。一種安全的可能性是看 P0(T1≥t1∪T2≥t2) , 至少有一個的概率 T1 和 T2 太大。這肯定涵蓋了該對的所有可能性 (T1,T2) 不太符合 H0 比觀察 (t1,t2) . 它實際上涵蓋了太多,因此非常保守。它實際上可能被視為無用,因為它的概率總是大於 P0T1≥t1 ,所以這不會讓你找到一個基於 (T1,T2) 如果你沒有找到一個基於 T1 獨自的。如果這兩個測試是獨立的,正如這裡顯然假設的那樣, P0(T1≥t1∪T2≥t2)=1−(1−P0T1≥t1)(1−P0T2≥t1)=0.624 在這個例子中,所以你有你的乘法。
注意 2min(P0T1≥t1,P0T2≥t2)=0.12 在這個例子中是所謂的 Bonferroni 校正 p 值,它給出了兩者中的任何一個至少表示反對的概率的上限 H0 比具有更強指示的那個要好一些 P0(T1≥t1∪T2≥t2) ,但仍然不允許您獲得比您在隔離測試中觀察到的所有 p 值小的整體組合 p 值。在獨立情況下,這可以改進為 1−(1−min(P0T1≥t1,P0T2≥t1))2=0.116 ,這裡沒有太大變化。(編輯:在獨立情況下,與 gunes 的答案相關聯的費舍爾方法通常會比這更好。)