Multiple-Comparisons

我們什麼時候“停止”使用多種校正技術?

  • October 27, 2019

我知道在執行簡單的 t 檢驗時,我們通常將類型 -1 錯誤率控制在 $ \alpha = .05 $ . 這意味著如果原假設成立,則數據將在 5% 的所有實例中“錯誤地”拒絕原假設。因此,如果我們執行 100 次連續測試(並且所有這些測試都為原假設),我們將拒絕其中 5 次測試中的原值。因此,需要進行多次校正調整。

目前,我的統計學教授不同意我的分析。我將提供一個示例,然後進一步推斷:

  1. 我的數據框包含兩組人(例如,A 型和 B 型)。對於每個人,我們有 100 種不同的測量值(包括:身高、體重、智商等……)。我想運行 100 個不同的 t 檢驗,比較我在 A 型和 B 型人群中的每個協變量的平均值。我還需要在這裡使用多重校正方案嗎?我說不,因為這些是 A 組和 B 組之間的不同測量值。他們說是,因為我正在執行多項測試。
  2. 我碰巧是我鎮上唯一的統計學家。我簽約執行 100 項不同的分析(針對 100 位不同的研究人員)。每個研究人員都要求我完成一次 t 檢驗。我需要在這裡執行多重測試校正嗎?儘管我看不出這個例子和上一個例子之間的區別,但我會爭辯說不。

多重比較校正旨在控製家庭錯誤率 - 或類似的東西 - 因此它們應該應用於相關假設檢驗的“家庭”。

在您的第一個示例中,總體目標可能是確定 A 組和 B 組是否不同。如果您沒有控制多重比較,您可以通過添加越來越多的測試來輕鬆找到效果:如果身高或體重沒有差異,則加入 BMI、十二生肖和每年的冰淇淋消費量。最終,這些測試之一將偶然地越過你的 $ \alpha $ 閾值,並且您會很想寫一些愚蠢的東西,例如“儘管 As 和 Bs 可能看起來相似,但我們觀察到飼養的寵物數量與母親的年齡權力相比存在統計學上的顯著差異 (p=0.04)”。

在您的第二個示例中,測試是不相關的。客戶 #1 想知道客戶是否更喜歡汽車上的紅色和橙色裝飾。客戶 #2 想知道藥物 X 是否比藥物 Y 更能縮小腫瘤,客戶 #3 想知道哪些因素會影響她的作物產量,等等。這些都是不相關的:任何與它們相關的複合假設都是非常奇怪的。

那麼……你如何定義“一個家庭”的測試?我不確定是否存在任何硬性規定。以下是一些指導方針:

  • 多個(正式)測試是否會得出相同的實質性結論[*]?例如,假設您對飲食對健康的影響感興趣。靜息心率或 40 碼衝刺時間或 BMI 或臥推表現的差異可能會導致您得出相同的結論:“飲食 D 改善健康狀況。” 如果是這樣,這些測試都屬於同一個系列,您應該應用多重比較校正。噸
  • 重複使用相同的主題或相同的假設也表明它們屬於同一個家庭。例如,也許您可以測試 20 個不同國家/地區男性與女性的工資分佈情況。這些測試中的每一個都應該得到糾正。

[*] 這需要一點專業知識。例如,假設您進行了 10 次體能測試,其中 5 次可以說是衡量“力量”,而其中 5 次可以衡量“耐力”。您是一起對所有測試進行更正,還是在“力量”和“耐力”系列中分別進行更正?兩者都可以,儘管您應該非常清楚自己實際做了什麼。更好的方法可能是生成綜合分數,並完全避免多重比較校正的需要。

引用自:https://stats.stackexchange.com/questions/433373

comments powered by Disqus