R

QQ 情節看起來很正常,但 Shapiro-Wilk 測試卻不然

  • June 7, 2017

在 R 中,我有一個包含 348 個度量的樣本,並且想知道我是否可以假設它是正態分佈的,以供將來的測試使用。

基本上遵循另一個堆棧答案,我正在查看密度圖和 QQ 圖:

plot(density(Clinical$cancer_age))

在此處輸入圖像描述

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

在此處輸入圖像描述

我在統計方面沒有豐富的經驗,但它們看起來像是我見過的正態分佈的例子。

然後我運行 Shapiro-Wilk 測試:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

如果我正確解釋它,它會告訴我拒絕原假設是安全的,即分佈是正態的。

但是,我遇到了兩個 Stack 帖子(herehere),它們嚴重破壞了該測試的實用性。看起來如果樣本很大(348被認為是大嗎?),它總是會說分佈不正常。

我應該如何解釋這一切?我應該堅持使用 QQ 圖並假設我的分佈是正常的嗎?

你在這裡沒有問題。你的數據可能有點不正常,但它足夠正常,不會造成任何問題。許多研究人員在假設正態性的情況下進行統計檢驗,而正態性數據遠低於您所擁有的數據。

我會相信你的眼睛。儘管尾部有一些輕微的正偏斜,但密度和 QQ 圖看起來是合理的。在我看來,您無需擔心這些數據的非正態性。

您的 N 約為 350,p 值非常依賴於樣本量。對於大樣本,幾乎任何事情都可能很重要。此處已對此進行了討論。

這篇非常受歡迎的帖子有一些令人難以置信的答案,基本上得出的結論是,對非正態性進行零假設顯著性檢驗“基本上沒有用”。該帖子上公認的答案是一個極好的證明,即使數據是*從接近高斯的過程中生成的,*足夠高的樣本量也會使非正態檢驗顯著。


抱歉,我意識到我鏈接到您在原始問題中提到的帖子。不過,我的結論仍然成立:您的數據並非如此不正常,以至於它應該會造成問題。

引用自:https://stats.stackexchange.com/questions/284033

comments powered by Disqus