Outliers

使用基於等級的測試時,我們是否需要擔心異常值?

  • September 25, 2013

抱歉,如果這是一個非常基本的問題。

如果我們有非正態分佈的數據(例如偏態,Shapiro-Wilk 檢驗顯著)並且我們採用基於秩的方法(例如 Wilcoxon 符號秩檢驗),那麼我們是否需要關注異常值?

例如,想像一下,我們使用箱線圖繪製數據,並且少數數據點被標記為異常值。我們應該改變這些點嗎?或者刪除它們?在我看來,許多教科書都在談論處理異常值,但這僅僅是因為它們對均值和標準差等參數產生了重大影響。但是,當我們使用基於等級的測試時,它們已經被“轉換”為等級中的下一個值,因此不會對測試產生重大影響。到目前為止,我還沒有在統計書中看到過明確的說明,所以我想我會在這裡問這個問題。

使用基於等級的測試時,我們是否需要擔心異常值?

不會。當對數據進行排名時,異常值將被簡單地識別為排名高於(或低於)下一個不太極端的情況的情況。無論最極端值和第二極端值之間是否存在 0.01 或 5 個標準偏差,在對數據進行排序時,這種程度的差異都會被丟棄。

事實上,有人可能使用基於等級(或非參數)測試的眾多原因之一是異常值。

引用自:https://stats.stackexchange.com/questions/70994

comments powered by Disqus