弗里德曼檢驗後如何正確應用 Nemenyi 事後檢驗
我正在比較多個算法在多個數據集上的性能。由於不能保證這些性能測量是正態分佈的,因此我選擇了 Friedman 測試和基於Demšar (2006)的 Nemenyi 事後測試。
然後我發現另一篇論文,除了建議其他方法,如 Quade 測試和隨後的 Shaffer 事後測試,他們以不同的方式應用 Nemenyi 測試。
如何正確應用 Nemenyi 事後測試?
1. 使用學生化範圍統計?
在 Demšar 的論文中,如果平均秩差大於臨界距離 CD,則拒絕原假設(兩種算法沒有性能差異) $$ CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} $$
“其中臨界值 qα 基於 Studentized range 統計量除以 $ \sqrt{2}. $ "
經過一番挖掘,我發現您可以在某些 alpha 中查找這些“臨界值”,例如在表中查找 $ \alpha = 0.05 $ ,對於無限自由度(在每個表格的底部)。
2.還是使用正態分佈?
就在我以為我知道該怎麼做的時候,我又發現了另一篇讓我感到困惑的論文,因為他們只是使用正態分佈。Demšar 在第 12 頁陳述了類似的事情:
使用這些方法比較第 i 個和第 j 個分類器的測試統計量是 $$ z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} $$ z 值用於從正態分佈表中找到對應的概率,然後將其與適當的 $ \alpha $ . 這些測試在調整值的方式上有所不同 $ \alpha $ 以補償多重比較。
在本段中,他談論的是將所有算法與控制算法進行比較,但“它們調整的方式不同……以補償多重比較”表明這也應該適用於 Nemenyi 測試。
所以在我看來合乎邏輯的是根據測試統計計算p值 $ z $ ,它是正態分佈的,並通過除以糾正那個 $ k(k-1)/2 $ .
但是,這會產生完全不同的等級差異,以拒絕零假設。現在我被卡住了,不知道該應用哪種方法。我強烈傾向於使用正態分佈的那個,因為它對我來說更簡單、更合乎邏輯。我也不需要在表格中查找值,並且我不受某些重要值的約束。
再說一次,我從來沒有使用過學生化的範圍統計數據,我也不明白。
我也剛開始看這個問題。
如前所述,當我們使用正態分佈計算每個測試的 p 值時,這些 p 值並沒有考慮多次測試。為了糾正它並控製家庭錯誤率,我們需要一些調整。Bonferonni,即除以顯著性水平或將原始 p 值乘以測試次數,只是一種可能的校正。還有大量其他多重檢驗 p 值校正在許多情況下不太保守。
這些 p 值校正沒有考慮假設檢驗的特定結構。
我更熟悉原始數據的成對比較,而不是 Kruskal-Wallis 或弗里德曼測試中的等級轉換數據。在這種情況下,即 Tukey HSD 檢驗,多重比較的檢驗統計量根據學生化範圍分佈分佈,這是在獨立樣本假設下所有成對比較的分佈。它基於多元正態分佈的概率,可以通過數值積分計算,但通常從表格中使用。
我的猜測是,由於我不知道理論,學生化的範圍分佈可以以與 Tukey HSD 成對比較類似的方式應用於等級測試的情況。
因此,使用 (2) 正態分佈加上多個檢驗 p 值校正和使用 (1) 學生化範圍分佈是獲得檢驗統計量的近似分佈的兩種不同方法。但是,如果滿足使用學生化範圍分佈的假設,那麼它應該提供更好的近似值,因為它是為所有成對比較的特定問題而設計的。