檢驗 2 個經驗離散分佈之間的差異

March 4, 2014

我有測試數據，其中有幾個來自離散分佈的大樣本，我將其用作經驗分佈。我想測試分佈是否真的不同，以及那些實際上不同的分佈的平均值差異是什麼。

由於它們是離散分佈，我的理解是，由於潛在的連續分佈假設，Kolmogorov-Smirnov 檢驗是無效的。卡方檢驗是否是檢驗分佈是否實際不同的正確檢驗？

對於均值差異，我將使用什麼測試？更好的方法是從分佈中採樣並獲取差異，然後對差異的分佈進行分析？

Kolmogorov-Smirnov 仍然可以使用，但是如果您使用列表中的臨界值，它將是保守的（這只是一個問題，因為它會推低您的功率曲線）。最好得到統計的排列分佈，這樣你的顯著性水平就是你選擇的水平。如果有很多關係，這只會產生很大的不同。這種改變真的很容易實現。（但 KS 測試並不是唯一可能的此類比較；如果要計算置換分佈，還有其他可能性。）

2）在我看來，離散數據的普通卡方擬合優度測試通常是一個非常糟糕的主意。如果上述潛在的功率損失阻止了您使用 KS 檢驗，那麼卡方的問題通常要嚴重得多 - 它會拋出最關鍵的信息，即類別之間的排序（觀察值），從而降低其功率通過將其分佈在不考慮排序的替代方案中，這樣在檢測平滑替代方案時會變得更糟——例如位置和規模的變化）。即使有上述嚴重關係的不良影響，KS 測試在許多情況下仍然具有更好的能力（同時仍然降低了 I 類錯誤率）。

卡方也可以修改以考慮排序（通過正交多項式將卡方劃分為線性、二次、三次等分量，並且僅使用低階少數項 - 4 到 6 是常見的選擇）。Rayner 和 Best（以及其他人）的論文討論了這種源自 Neyman-Barton 平滑測試的方法。這是一種很好的方法，但如果您無法訪問它的軟件，則可能需要進行一些設置。

任何一種修改方法都應該沒問題，但如果你不打算修改任何一種方法，卡方不一定會比 KS 測試更好——在某些情況下它可能會更好……或者它可能會更糟。

如果關係不重（即數據採用了許多不同的值），我會按原樣考慮 KS。如果它們是中等的，我會考慮計算排列分佈。如果它們非常重（即數據僅採用幾個不同的值），則普通卡方可能具有競爭力。

引用自：https://stats.stackexchange.com/questions/88764

comments powered by Disqus

檢驗 2 個經驗離散分佈之間的差異

相關問答

Kolmogorov Smirnov檢驗的直觀解釋

如果樣本量很大，Kolmogorov-Smirnov-Test 是否過於嚴格？

是否存在多元兩樣本 Kolmogorov-Smirnov 檢驗？

2 樣本 Kolmogorov-Smirnov vs. Anderson-Darling vs Cramer-von-Mises

你能計算出 R 中 Kolmogorov-Smirnov 檢驗的功效嗎？

如何確定哪種分佈最適合我的數據？