Statistical-Significance
統計檢驗來判斷兩個樣本是否來自同一個總 體?
假設我有兩個樣本。如果我想判斷它們是否來自不同的人群,我可以進行 t 檢驗。但是假設我想測試樣本是否來自同一人群。如何做到這一點?也就是說,我如何計算這兩個樣本來自同一個總體的統計概率?
比較分佈的檢驗是排除檢驗。他們從兩個總體相同的零假設開始,然後嘗試拒絕該假設。我們永遠無法證明 null 是真的,只是拒絕它,因此這些測試不能真正用於證明 2 個樣本來自同一群體(或相同的群體)。
這是因為分佈中可能存在細微差異(意味著它們不相同),但太小以至於測試無法真正找到差異。
考慮 2 個分佈,第一個是從 0 到 1 的均勻分佈,第二個是 2 個均勻分佈的混合,因此它在 0 和 0.999 之間是 1,在 9.999 和 10 之間也是 1(其他地方為 0)。很明顯,這些分佈是不同的(差異是否有意義是另一個問題),但是如果您從每個(總共 100 個)中抽取 50 個樣本大小,則有超過 90% 的機會只會看到介於 0 和 0.999 之間的值,並且看不出有什麼真正的區別。
有一些方法可以進行所謂的等價測試,您可以在其中詢問 2 個分佈/總體是否等價,但您需要定義您認為是等價的。通常,某些差異度量在給定範圍內,即 2 均值的差異小於 2 均值平均值的 5%,或者 KS 統計量低於給定的截止值,等等。如果您然後可以計算差異統計的置信區間(均值的差異可能只是 t 置信區間、自舉、模擬或其他統計可能需要其他方法)。如果整個置信區間落入“等價區域”,那麼我們認為 2 個總體/分佈是“等價的”。
困難的部分是弄清楚等價區域應該是什麼。