夏皮羅-威爾克是最好的正態性檢驗嗎?為什麼它可能比 Anderson-Darling 等其他測試更好?
我在文獻中的某處讀到夏皮羅-威爾克檢驗被認為是最好的正態性檢驗,因為對於給定的顯著性水平,,如果原假設為假,則拒絕原假設的概率高於其他正態性檢驗的情況。
您能否向我解釋一下,如果可能的話,使用數學論證,與其他一些正態性檢驗(比如安德森-達林檢驗)相比,它的工作原理是什麼?
首先是一般性評論:請注意,Anderson-Darling 檢驗適用於完全指定的分佈,而 Shapiro-Wilk 適用於具有任何均值和方差的正態分佈。然而,正如 D’Agostino & Stephens 所述 $ ^{[1]} $ Anderson-Darling 以一種非常方便的方式適應估計情況,類似於(但收斂速度更快,並且以比處理更簡單的方式修改)Kolmogorov-Smirnov 情況的 Lilliefors 檢驗。具體來說,在正常情況下,由 $ n=5 $ , 的漸近值表 $ A^*=A^2\left(1+\frac{4}{n}-\frac{25}{n^2}\right) $ 可以使用(不要測試 n<5 的擬合優度)。
我在文獻中的某處讀到,Shapiro-Wilk 檢驗被認為是最好的正態性檢驗,因為對於給定的顯著性水平 α,如果原假設為假,則拒絕原假設的概率高於其他正態性的情況測試。
作為一般性陳述,這是錯誤的。
哪種正態性檢驗“更好”取決於您對哪些類別的替代品感興趣。Shapiro-Wilk 受歡迎的一個原因是它在廣泛的有用替代品下往往具有非常好的功效。它出現在許多關於權力的研究中,並且通常表現得非常好,但它並不是普遍最好的。
很容易找到它不那麼強大的替代方案。
例如,針對輕尾替代方案,它的功率通常低於學生化範圍 $ u=\frac{\max(x)−\min(x)}{sd(x)} $ (在統一數據的正態性檢驗中比較它們,例如 - 在 $ n=30 $ , 一個測試基於 $ u $ 功率約為 63%,而夏皮羅威爾克的功率則略高於 38%)。
Anderson-Darling(針對參數估計進行了調整)在雙指數方面表現更好。Moment-skewness 對一些偏斜的替代方案做得更好。
您能否向我解釋一下,如果可能的話,使用數學論證,與其他一些正態性檢驗(比如安德森-達林檢驗)相比,它的工作原理是什麼?
我將籠統地解釋(如果您想要更具體的細節,原始論文和一些後來討論它們的論文將是您最好的選擇):
考慮一個更簡單但密切相關的測試,Shapiro-Francia;它實際上是正態下訂單統計和預期訂單統計之間相關性的函數(因此,在正常 QQ 圖中,“直線有多直”的一個非常直接的衡量標準)。我記得,Shapiro-Wilk 更強大,因為它還考慮了順序統計之間的協方差,產生了最佳線性估計 $ \sigma $ 來自 QQ 圖,然後按比例縮放 $ s $ . 當分佈遠離正態分佈時,該比率不接近 1。
相比之下,Anderson-Darling 與 Kolmogorov-Smirnov 和 Cramer-von Mises 一樣,都是基於經驗 CDF。具體來說,它基於 ECDF 和理論 ECDF 之間的加權偏差(方差加權使其對尾部偏差更敏感)。
夏皮羅和陳的測試 $ ^{[2]} $ (1995 年)(基於訂單統計數據之間的間距)通常比夏皮羅-威爾克(Shapiro-Wilk)表現出稍強的力量(但並非總是如此);它們的表現通常非常相似。
–
使用夏皮羅威爾克,因為它通常功能強大、廣泛可用並且許多人都熟悉它(如果你在論文中使用它,就不需要詳細解釋它是什麼)——只是不要在它的錯覺下使用它“最佳正態性檢驗”。沒有一種最好的正態性檢驗。
[1]:D’Agostino, RB 和 Stephens, MA (1986)
合身技術優度,
Marcel Dekker,紐約。
[2]:Chen, L. 和 Shapiro, S. (1995)
“基於歸一化間距的正態性替代測試”。
統計計算與模擬雜誌 53 , 269-287。