統計檢驗來判斷兩個樣本是否來自同一個總體？

January 23, 2014

假設我有兩個樣本。如果我想判斷它們是否來自不同的人群，我可以進行 t 檢驗。但是假設我想測試樣本是否來自同一人群。如何做到這一點？也就是說，我如何計算這兩個樣本來自同一個總體的統計概率？

比較分佈的檢驗是排除檢驗。他們從兩個總體相同的零假設開始，然後嘗試拒絕該假設。我們永遠無法證明 null 是真的，只是拒絕它，因此這些測試不能真正用於證明 2 個樣本來自同一群體（或相同的群體）。

這是因為分佈中可能存在細微差異（意味著它們不相同），但太小以至於測試無法真正找到差異。

考慮 2 個分佈，第一個是從 0 到 1 的均勻分佈，第二個是 2 個均勻分佈的混合，因此它在 0 和 0.999 之間是 1，在 9.999 和 10 之間也是 1（其他地方為 0）。很明顯，這些分佈是不同的（差異是否有意義是另一個問題），但是如果您從每個（總共 100 個）中抽取 50 個樣本大小，則有超過 90% 的機會只會看到介於 0 和 0.999 之間的值，並且看不出有什麼真正的區別。

有一些方法可以進行所謂的等價測試，您可以在其中詢問 2 個分佈/總體是否等價，但您需要定義您認為是等價的。通常，某些差異度量在給定範圍內，即 2 均值的差異小於 2 均值平均值的 5%，或者 KS 統計量低於給定的截止值，等等。如果您然後可以計算差異統計的置信區間（均值的差異可能只是 t 置信區間、自舉、模擬或其他統計可能需要其他方法）。如果整個置信區間落入“等價區域”，那麼我們認為 2 個總體/分佈是“等價的”。

困難的部分是弄清楚等價區域應該是什麼。

引用自：https://stats.stackexchange.com/questions/83163

comments powered by Disqus

統計檢驗來判斷兩個樣本是否來自同一個總 體？

相關問答

統計檢驗來判斷兩個樣本是否來自同一個總體？