如何在小樣本中選擇 t 檢驗或非參數檢驗，例如 Wilcoxon

October 29, 2014

某些假設可以使用學生t檢驗（可能使用韋爾奇對兩樣本情況下的不等方差的校正）或通過非參數檢驗（如 Wilcoxon 配對符號秩檢驗、Wilcoxon-Mann-Whitney U 檢驗）進行檢驗，或配對符號測試。我們如何才能就哪種測試最合適做出原則性決定，尤其是在樣本量“小”的情況下？

許多介紹性教科書和講義提供了一種“流程圖”方法，在這種方法中檢查正態性（通過正態性檢驗，或更廣泛地通過QQ 圖或類似方法）來決定是t檢驗還是非參數檢驗。對於未配對的雙樣本t檢驗，可能會進一步檢查方差的同質性，以決定是否應用 Welch 校正。這種方法的一個問題是應用哪種測試的決定取決於觀察到的數據，以及這如何影響所選測試的性能（功率、I 類錯誤率）。

另一個問題是在小型數據集中檢查正態性有多難：正式測試的功效較低，因此很可能無法檢測到違規行為，但類似的問題適用於在 QQ 圖上觀察數據。即使是嚴重的違規行為也可能未被發現，例如，如果分佈是混合的，但沒有從混合物的一個成分中得出任何觀察結果。不像大，我們不能依靠中心極限定理的安全網，以及檢驗統計量和t分佈的漸近正態性。

對此的一個原則性回應是“安全第一”：無法可靠地驗證小樣本中的正態性假設，堅持使用非參數方法。另一個是考慮假設正態性的任何理由，理論上（例如，變量是幾個隨機分量的總和，CLT 適用）或經驗上（例如，以前的研究建議變量是正常的），並且僅在存在此類理由時才使用t檢驗。但這通常只能證明近似正態性是合理的，並且在低自由度的情況下，很難判斷它需要多接近正態才能避免t檢驗無效。

大多數選擇 t 檢驗或非參數檢驗的指南都關注正態性問題。但小樣本也引發了一些附帶問題：

如果執行“不相關樣本”或“未配對”t 檢驗，是否使用 Welch 校正？有些人使用方差相等的假設檢驗，但在這裡它的功效很低；其他人檢查 SD 是否“合理”關閉（通過各種標準）。除非有充分的理由相信總體方差相等，否則始終對小樣本使用 Welch 校正是否更安全？

如果您將方法的選擇視為功率和魯棒性之間的權衡，那麼關於非參數方法的漸近效率的說法是沒有幫助的。“如果數據確實正常， Wilcoxon 檢驗的能力約為 t 檢驗的 95%，如果數據不正常，則通常更強大，所以只使用 Wilcoxon”這樣的經驗法則有時會被聽到，但是如果 95% 只適用於大，對於較小的樣本，這是有缺陷的推理。

小樣本可能使**評估轉換是否適合數據變得非常困難或不可能，**因為很難判斷轉換後的數據是否屬於（充分）正態分佈。因此，如果 QQ 圖顯示非常正偏的數據，在記錄日誌後看起來更合理，那麼對記錄的數據使用 t 檢驗是否安全？在較大的樣本上，這將是非常誘人的，但是對於較小的樣本除非有理由首先期望對數正態分佈，否則我可能會推遲。

檢查非參數的假設怎麼樣？ 一些消息來源建議在應用 Wilcoxon 檢驗之前驗證對稱分佈（將其視為位置檢驗而不是隨機優勢），這會帶來與檢查正態性類似的問題。如果我們首先應用非參數檢驗的原因是盲目服從“安全第一”的口號，那麼從小樣本評估偏度的困難顯然會導致我們使用配對符號檢驗的低功效.

考慮到這些小樣本問題，在決定t檢驗和非參數檢驗時，是否有一個好的（希望是可引用的）程序來解決？

有幾個很好的答案，但考慮到排名測試的其他替代方法（例如排列測試）的響應也將受到歡迎。

我將更改有關問題的順序。

我發現教科書和講義經常不一致，並且希望系統能夠通過可以安全地推薦為最佳實踐的選擇來工作，尤其是可以引用的教科書或論文。

不幸的是，書籍等中對這個問題的一些討論依賴於公認的智慧。有時，公認的智慧是合理的，有時則不那麼合理（至少從某種意義上說，當一個更大的問題被忽略時，它往往會關註一個較小的問題）；我們應該仔細檢查為建議提供的理由（如果有任何理由）。

大多數選擇 t 檢驗或非參數檢驗的指南都關注正態性問題。

這是真的，但由於我在這個答案中提到的幾個原因，它有點被誤導了。

如果執行“不相關樣本”或“未配對”t 檢驗，是否使用 Welch 校正？

這（除非你有理由認為方差應該相等，否則使用它）是許多參考資料的建議。我在這個答案中指出了一些。

有些人使用方差相等的假設檢驗，但在這裡它的功效很低。一般來說，我只是觀察樣本 SD 是否“合理”接近（這有點主觀，所以必須有一種更原則的方法）但是同樣，如果 n 低，很可能總體 SD 更遠除了樣品。

除非有充分的理由相信總體方差相等，否則始終對小樣本使用 Welch 校正是否更安全？這就是建議。測試的屬性受到基於假設測試的選擇的影響。

可以在此處和此處查看有關此內容的一些參考資料，儘管還有更多類似的內容。

等方差問題與正態性問題有許多相似的特徵——人們想要測試它，建議根據測試結果調整測試選擇會對兩種後續測試的結果產生不利影響——最好不要假設什麼您無法充分證明（通過對數據進行推理，使用與相同變量相關的其他研究的信息等）。

但是，也有區別。一個是——至少就零假設下的檢驗統計量的分佈而言（因此，它的水平穩健性）——非正態性在大樣本中不太重要（至少在顯著性水平方面，儘管權力可能如果您需要找到小的影響仍然是一個問題），而在等方差假設下不等方差的影響並不會隨著大樣本量而消失。

當樣本量“小”時，可以推薦什麼原則方法來選擇最合適的測試？

對於假設檢驗，重要的是（在某些條件下）主要是兩件事：

實際的 I 類錯誤率是多少？

權力行為是什麼樣的？

我們還需要記住，如果我們比較兩個程序，更改第一個程序會更改第二個程序（也就是說，如果它們不是在相同的實際顯著性水平上進行的，你會期望更高 $ \alpha $ 與更高的功率相關）。

（當然，我們通常不太自信知道我們正在處理什麼分佈，因此這些行為對環境變化的敏感性也很重要。）

考慮到這些小樣本問題，在決定 t 檢驗和非參數檢驗時，是否有一個很好的（希望可引用的）清單來工作？

我將考慮一些我將提出一些建議的情況，同時考慮非正態性和不等方差的可能性。在每種情況下，都提到 t 檢驗來暗示 Welch 檢驗：

n 中型

非正態（或未知），可能具有接近相等的方差：

如果分佈是重尾分佈，則通常使用 Mann-Whitney 會更好，但如果它只是稍微重一些，則 t 檢驗應該沒問題。對於輕尾，可能（通常）首選 t 檢驗。排列測試是一個不錯的選擇（如果您願意，甚至可以使用 t 統計量進行排列測試）。引導測試也適用。

非正態（或未知）、不等方差（或方差關係未知）：

如果分佈是重尾分佈，通常使用 Mann-Whitney 會更好

如果方差不等式僅與均值不等式有關 - 即如果 H0 為真，則差價的差異也應該不存在。GLM 通常是一個不錯的選擇，特別是如果存在偏度且散佈與均值相關時。置換測試是另一種選擇，與基於等級的測試有類似的警告。引導測試在這裡是一個很好的可能性。

齊默爾曼和尊寶 (1993) $ ^{[1]} $ 建議對他們說在方差不相等的情況下比 Wilcoxon-Mann-Whitney 表現更好的等級進行 Welch-t 檢驗。

n 適度小

如果您期望非正態性，排名測試在這裡是合理的默認值（再次帶有上述警告）。如果您有關於形狀或方差的外部信息，您可能會考慮 GLM。如果您預計事情不會與正常情況相差太遠，則 t 檢驗可能沒問題。

n 非常小

由於獲得合適的顯著性水平存在問題，置換檢驗和等級檢驗都可能不適合，並且在最小的尺寸下，t 檢驗可能是最佳選擇（有一些可能稍微加強它）。但是，對於小樣本使用較高的 I 類錯誤率有一個很好的論據（否則，您會在保持 I 類錯誤率不變的情況下讓 II 類錯誤率膨脹）。另見德溫特 (2013) $ ^{[2]} $ .

當分佈嚴重偏斜且非常離散時，必須對建議進行一些修改，例如李克特量表項目，其中大多數觀察結果都屬於最終類別之一。那麼 Wilcoxon-Mann-Whitney 不一定是比 t 檢驗更好的選擇。

當您掌握有關可能情況的一些信息時，模擬可以幫助您進一步指導選擇。

我很欣賞這是一個長期存在的話題，但大多數問題都涉及提問者的特定數據集，有時是關於權力的更一般性討論，有時如果兩個測試不同意該怎麼辦，但我想要一個程序來選擇正確的測試第一名！

主要問題是在小數據集中檢查正態性假設有多難：

在小數據集中很難檢查正態性，在某種程度上這是一個重要的問題，但我認為還有另一個重要的問題需要我們考慮。一個基本問題是，嘗試將正態性評估為在測試之間進行選擇的基礎會對您選擇的測試的屬性產生不利影響。

任何正式的正常測試都將具有低功率，因此很可能無法檢測到違規行為。（我個人不會為此進行測試，而且我顯然並不孤單，但是當客戶要求進行正態性測試時，我發現這種用處不大，因為這是他們的教科書或舊講義或他們曾經找到的某個網站聲明應該完成。這是歡迎看起來更重的引用的一點。）

這是一個明確的參考示例（還有其他參考）（Fay 和 Proschan，2010 $ ^{[3]} $ ):

t 和 WMW DR 之間的選擇不應基於正態性檢驗。

他們同樣明確表示不檢驗方差的相等性。

更糟糕的是，將中心極限定理用作安全網是不安全的：對於小的 n，我們不能依賴檢驗統計量和 t 分佈的方便的漸近正態性。

即使在大樣本中，分子的漸近正態性也不意味著 t 統計量將具有 t 分佈。但是，這可能並不重要，因為您仍然應該具有漸近正態性（例如，分子的 CLT 和斯盧茨基定理表明，如果兩者的條件都成立，最終 t 統計量應該開始看起來正常。）

對此的一個原則性回應是“安全第一”：由於無法可靠地驗證小樣本的正態性假設，因此請運行等效的非參數測試。

這實際上是我提到的參考文獻（或提到的鏈接）給出的建議。

我見過但感覺不太舒服的另一種方法是進行目視檢查，如果沒有觀察到任何不良情況，則繼續進行 t 檢驗（“沒有理由拒絕正態性”，忽略此檢查的低功效）。我個人的傾向是考慮是否有任何理由假設正態性、理論性（例如變量是幾個隨機分量的總和並且適用 CLT）或經驗性的（例如，先前具有較大 n 的研究表明變量是正常的）。

這兩個都是很好的論據，尤其是當 t 檢驗對於適度偏離正態性的情況下相當穩健的事實作為支持時。（但是，應該記住，“中度偏差”是一個棘手的短語；某些與正態性的偏差可能會相當大地影響 t 檢驗的功效性能，即使這些偏差在視覺上非常小 - t-測試對某些偏差的魯棒性不如其他。每當我們討論與正態性的小偏差時，我們都應該牢記這一點。）

但是請注意，措辭“建議變量是正常的”。合理地與常態保持一致與常態不同。我們通常可以拒絕實際的正態性，甚至不需要查看數據——例如，如果數據不能為負，則分佈不可能是正態的。幸運的是，重要的是我們可能從以前的研究或對數據如何組成的推理中實際得到的更接近，即與正態性的偏差應該很小。

如果是這樣，如果數據通過目視檢查，我將使用 t 檢驗，否則堅持使用非參數。但是任何理論或經驗依據通常只能證明假設近似正態性是合理的，並且在低自由度的情況下，很難判斷它需要多接近正態才能避免使 t 檢驗失效。

嗯，這是我們可以相當容易地評估其影響的東西（例如通過模擬，正如我之前提到的）。據我所見，偏斜似乎比重尾更重要（但另一方面，我也看到了一些相反的說法——儘管我不知道那是基於什麼）。

對於那些將方法的選擇視為功率和魯棒性之間的權衡的人來說，關於非參數方法的漸近效率的說法是沒有幫助的。例如，“如果數據確實正常，Wilcoxon 檢驗的能力約為 t 檢驗的 95%，如果數據不正常，則通常更強大，因此只需使用 Wilcoxon”這一經驗法則有時是聽說過，但如果 95% 僅適用於大 n，那麼對於較小的樣本，這是有缺陷的推理。

但是我們可以很容易地檢查小樣本的功效！很容易模擬以獲得此處的功率曲線。

（同樣，參見 de Winter (2013) $ ^{[2]} $ ）。

在各種情況下進行了這樣的模擬，對於雙樣本和單樣本/配對差分情況，兩種情況下正常的小樣本效率似乎都比漸近效率低一點，但效率即使在非常小的樣本量下，有符號秩和 Wilcoxon-Mann-Whitney 檢驗仍然非常高。

至少如果測試是在相同的實際顯著性水平上進行的；您不能對非常小的樣本進行 5% 的測試（例如，至少在沒有隨機測試的情況下），但是如果您準備（比如說）進行 5.5% 或 3.2% 的測試，那麼排名測試與該顯著性水平的 t 檢驗相比，確實保持得很好。

小樣本可能使評估轉換是否適合數據變得非常困難或不可能，因為很難判斷轉換後的數據是否屬於（充分）正態分佈。因此，如果 QQ 圖顯示非常正偏的數據，在記錄日誌後看起來更合理，那麼對記錄的數據使用 t 檢驗是否安全？在較大的樣本上，這將非常誘人，但是對於較小的 n，我可能會推遲，除非有理由首先期望對數正態分佈。

還有另一種選擇：做出不同的參數假設。例如，如果有偏斜的數據，例如，在某些情況下，可以合理地考慮伽馬分佈或其他偏斜族作為更好的近似值——在中等大的樣本中，我們可能只使用 GLM，但在非常小的樣本中可能有必要進行小樣本測試 - 在許多情況下，模擬可能很有用。

備選方案 2：穩健化 t 檢驗（但要注意穩健程序的選擇，以免嚴重離散化檢驗統計量的結果分佈） - 這與非常小樣本的非參數程序相比具有一些優勢，例如能力考慮具有低 I 類錯誤率的測試。

在這裡，我正在考慮在 t 統計量中使用位置的 M 估計量（以及相關的規模估計量）來平滑地增強對正態性偏差的魯棒性。類似於 Welch 的東西，例如：

$$ \frac{\stackrel{\sim}{x}-\stackrel{\sim}{y}}{\stackrel{\sim}{S}_p} $$

在哪裡 $ \stackrel{\sim}{S}_p^2=\frac{\stackrel{\sim}{s}_x^2}{n_x}+\frac{\stackrel{\sim}{s}_y^2}{n_y} $ 和 $ \stackrel{\sim}{x} $ , $ \stackrel{\sim}{s}_x $ 等分別是對位置和規模的穩健估計。

我的目標是減少統計數據的任何離散趨勢 - 所以我會避免修剪和 Winsorizing 之類的事情，因為如果原始數據是離散的，修剪等會加劇這種情況；通過使用平滑的 M 估計類型方法 $ \psi $ -function 你實現了類似的效果，而不會導致離散性。請記住，我們正在嘗試處理以下情況 $ n $ 確實非常小（例如，在每個樣本中大約 3-5 個），所以即使是 M 估計也可能存在問題。

例如，您可以在正常情況下使用模擬來獲得 p 值（如果樣本量非常小，我建議過度引導 - 如果樣本量不是那麼小，那麼精心實施的引導程序可能會做得很好，但我們不妨回到 Wilcoxon-Mann-Whitney）。有一個比例因子和一個 df 調整來達到我想像的合理的 t 近似值。這意味著我們應該得到我們所尋求的非常接近法線的屬性，並且應該在法線的廣泛範圍內具有合理的魯棒性。有許多問題超出了當前問題的範圍，但我認為在非常小的樣本中，收益應該超過成本和所需的額外努力。

[我已經很長時間沒有閱讀有關這方面的文獻了，所以我沒有合適的參考資料來提供這方面的資料。]

當然，如果您不期望分佈有點像正態，而是與其他分佈相似，您可以對不同的參數測試進行適當的穩健化。

如果您想檢查非參數的假設怎麼辦？一些消息來源建議在應用 Wilcoxon 檢驗之前驗證對稱分佈，這會帶來與檢查正態性類似的問題。

的確。我假設您的意思是簽名等級測試*。在對配對數據使用它的情況下，如果您準備假設這兩個分佈除了位置偏移之外是相同的形狀，那麼您是安全的，因為差異應該是對稱的。實際上，我們甚至不需要那麼多；為了使測試正常工作，您需要在 null 下對稱；在替代方案下不需要它（例如，考慮在正半線上具有相同形狀的右偏連續分佈的配對情況，其中比例在替代方案下不同但在零下沒有；簽名秩檢驗應該基本上按預期工作這種情況）。如果替代方案是位置偏移，則測試的解釋更容易。

*（Wilcoxon 的名字與一樣本秩檢驗和二樣本秩檢驗有關——有符號秩檢驗和秩和；通過他們的 U 檢驗，Mann 和 Whitney 概括了 Wilcoxon 研究的情況，並介紹了評估零分佈的重要新思想，但Wilcoxon-Mann-Whitney 的兩組作者之間的優先級顯然是 Wilcoxon 的——所以至少如果我們只考慮 Wilcoxon vs Mann&Whitney，Wilcoxon 在我的書中排在第一位。然而，似乎Stigler 定律再次擊敗了我，Wilcoxon也許應該與一些早期的貢獻者分享一些優先權，並且（除了曼恩和惠特尼）應該與等效測試的幾個發現者分享榮譽。[4][5]）

參考

[1]：Zimmerman DW 和 Zumbo BN，（1993 年），

Rank 轉換和非正常人群的學生 t 檢驗和 Welch t' 檢驗的功效，

加拿大雜誌實驗心理學，47：523-39。

[2]：JCF de Winter (2013)，

“使用極小樣本的學生 t 檢驗”，

實用評估、研究和評估， 8 月18 :10，ISSN 1531-7714

http://pareonline.net/ getvn.asp?v=18&n=10

[3]：Michael P. Fay 和 Michael A. Proschan (2010)，

“Wilcoxon-Mann-Whitney 還是 t 檢驗？關於假設檢驗的假設和決策規則的多種解釋，”

Stat Surv；4：1-39。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]：Berry, KJ, Mielke, PW 和 Johnston, JE (2012)，

“兩樣本秩和檢驗：早期發展”

，概率與統計歷史電子期刊，第 8 卷，12 月

pdf

[5]：Kruskal, WH (1957)，

“關於 Wilcoxon 非配對雙樣本檢驗的歷史記錄”

，美國統計協會雜誌，52，356-360。

引用自：https://stats.stackexchange.com/questions/121852

comments powered by Disqus

如何在小樣本中選擇 t 檢驗或非參數檢驗，例如 Wilcoxon

相關問答

這是p-hacking嗎？

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

為什麼參數測試比非參數測試更強大？

t.test 和 prop.test 的 p 值差異很大

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

樣條插值是否被視為非參數模型？