弗里德曼檢驗後如何正確應用 Nemenyi 事後檢驗

October 21, 2013

我正在比較多個算法在多個數據集上的性能。由於不能保證這些性能測量是正態分佈的，因此我選擇了 Friedman 測試和基於Demšar (2006)的 Nemenyi 事後測試。

然後我發現另一篇論文，除了建議其他方法，如 Quade 測試和隨後的 Shaffer 事後測試，他們以不同的方式應用 Nemenyi 測試。

如何正確應用 Nemenyi 事後測試？

1. 使用學生化範圍統計？

在 Demšar 的論文中，如果平均秩差大於臨界距離 CD，則拒絕原假設（兩種算法沒有性能差異） $$ CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} $$

“其中臨界值 qα 基於 Studentized range 統計量除以 $ \sqrt{2}. $ "

經過一番挖掘，我發現您可以在某些 alpha 中查找這些“臨界值”，例如在表中查找 $ \alpha = 0.05 $ ，對於無限自由度（在每個表格的底部）。

2.還是使用正態分佈？

就在我以為我知道該怎麼做的時候，我又發現了另一篇讓我感到困惑的論文，因為他們只是使用正態分佈。Demšar 在第 12 頁陳述了類似的事情：

使用這些方法比較第 i 個和第 j 個分類器的測試統計量是 $$ z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} $$ z 值用於從正態分佈表中找到對應的概率，然後將其與適當的 $ \alpha $ . 這些測試在調整值的方式上有所不同 $ \alpha $ 以補償多重比較。

在本段中，他談論的是將所有算法與控制算法進行比較，但“它們調整的方式不同……以補償多重比較”表明這也應該適用於 Nemenyi 測試。

所以在我看來合乎邏輯的是根據測試統計計算p值 $ z $ ，它是正態分佈的，並通過除以糾正那個 $ k(k-1)/2 $ .

但是，這會產生完全不同的等級差異，以拒絕零假設。現在我被卡住了，不知道該應用哪種方法。我強烈傾向於使用正態分佈的那個，因為它對我來說更簡單、更合乎邏輯。我也不需要在表格中查找值，並且我不受某些重要值的約束。

再說一次，我從來沒有使用過學生化的範圍統計數據，我也不明白。

我也剛開始看這個問題。

如前所述，當我們使用正態分佈計算每個測試的 p 值時，這些 p 值並沒有考慮多次測試。為了糾正它並控製家庭錯誤率，我們需要一些調整。Bonferonni，即除以顯著性水平或將原始 p 值乘以測試次數，只是一種可能的校正。還有大量其他多重檢驗 p 值校正在許多情況下不太保守。

這些 p 值校正沒有考慮假設檢驗的特定結構。

我更熟悉原始數據的成對比較，而不是 Kruskal-Wallis 或弗里德曼測試中的等級轉換數據。在這種情況下，即 Tukey HSD 檢驗，多重比較的檢驗統計量根據學生化範圍分佈分佈，這是在獨立樣本假設下所有成對比較的分佈。它基於多元正態分佈的概率，可以通過數值積分計算，但通常從表格中使用。

我的猜測是，由於我不知道理論，學生化的範圍分佈可以以與 Tukey HSD 成對比較類似的方式應用於等級測試的情況。

因此，使用 (2) 正態分佈加上多個檢驗 p 值校正和使用 (1) 學生化範圍分佈是獲得檢驗統計量的近似分佈的兩種不同方法。但是，如果滿足使用學生化範圍分佈的假設，那麼它應該提供更好的近似值，因為它是為所有成對比較的特定問題而設計的。

引用自：https://stats.stackexchange.com/questions/73376

comments powered by Disqus

弗里德曼檢驗後如何正確應用 Nemenyi 事後檢驗

如何正確應用 Nemenyi 事後測試？

相關問答

我們什麼時候“停止”使用多種校正技術？

用 R 中的 GAM 對象 {mgcv} 校正多個成對比較

研究員 1 運行 1000 個回歸，研究員 2 只運行 1 個，都得到相同的結果——他們應該做出不同的推論嗎？

發現的高維、相關數據和主要特徵/協變量；多重假設檢驗？

基於事後分析的出版工作有問題嗎？[複製]

如果多重比較是“計劃的”，你還需要糾正多重比較嗎？