R
QQ 情節看起來很正常,但 Shapiro-Wilk 測試卻不然
在 R 中,我有一個包含 348 個度量的樣本,並且想知道我是否可以假設它是正態分佈的,以供將來的測試使用。
基本上遵循另一個堆棧答案,我正在查看密度圖和 QQ 圖:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
我在統計方面沒有豐富的經驗,但它們看起來像是我見過的正態分佈的例子。
然後我運行 Shapiro-Wilk 測試:
shapiro.test(Clinical$cancer_age) > Shapiro-Wilk normality test data: Clinical$cancer_age W = 0.98775, p-value = 0.004952
如果我正確解釋它,它會告訴我拒絕原假設是安全的,即分佈是正態的。
但是,我遇到了兩個 Stack 帖子(here和here),它們嚴重破壞了該測試的實用性。看起來如果樣本很大(348被認為是大嗎?),它總是會說分佈不正常。
我應該如何解釋這一切?我應該堅持使用 QQ 圖並假設我的分佈是正常的嗎?
你在這裡沒有問題。你的數據可能有點不正常,但它足夠正常,不會造成任何問題。許多研究人員在假設正態性的情況下進行統計檢驗,而正態性數據遠低於您所擁有的數據。
我會相信你的眼睛。儘管尾部有一些輕微的正偏斜,但密度和 QQ 圖看起來是合理的。在我看來,您無需擔心這些數據的非正態性。
您的 N 約為 350,p 值非常依賴於樣本量。對於大樣本,幾乎任何事情都可能很重要。此處已對此進行了討論。
這篇非常受歡迎的帖子有一些令人難以置信的答案,基本上得出的結論是,對非正態性進行零假設顯著性檢驗“基本上沒有用”。該帖子上公認的答案是一個極好的證明,即使數據是*從接近高斯的過程中生成的,*足夠高的樣本量也會使非正態檢驗顯著。
抱歉,我意識到我鏈接到您在原始問題中提到的帖子。不過,我的結論仍然成立:您的數據並非如此不正常,以至於它應該會造成問題。