使用基於等級的測試時，我們是否需要擔心異常值？

September 25, 2013

抱歉，如果這是一個非常基本的問題。

如果我們有非正態分佈的數據（例如偏態，Shapiro-Wilk 檢驗顯著）並且我們採用基於秩的方法（例如 Wilcoxon 符號秩檢驗），那麼我們是否需要關注異常值？

例如，想像一下，我們使用箱線圖繪製數據，並且少數數據點被標記為異常值。我們應該改變這些點嗎？或者刪除它們？在我看來，許多教科書都在談論處理異常值，但這僅僅是因為它們對均值和標準差等參數產生了重大影響。但是，當我們使用基於等級的測試時，它們已經被“轉換”為等級中的下一個值，因此不會對測試產生重大影響。到目前為止，我還沒有在統計書中看到過明確的說明，所以我想我會在這裡問這個問題。

使用基於等級的測試時，我們是否需要擔心異常值？

不會。當對數據進行排名時，異常值將被簡單地識別為排名高於（或低於）下一個不太極端的情況的情況。無論最極端值和第二極端值之間是否存在 0.01 或 5 個標準偏差，在對數據進行排序時，這種程度的差異都會被丟棄。

事實上，有人可能使用基於等級（或非參數）測試的眾多原因之一是異常值。

引用自：https://stats.stackexchange.com/questions/70994

comments powered by Disqus

相關問答

顯示序數數據 - 均值、中位數和均值秩

February 4, 2015

儘管有正態性假設，為什麼排名的 Pearson 相關性仍然有效？

July 1, 2014

R

R的rank函數的ties.method參數如何工作？

August 9, 2012

為什麼當中位數相等時 Mann-Whitney U 檢驗顯著？

May 21, 2011

在等級相關係數的背景下，什麼是綁定數據？

March 7, 2011