Hypothesis-Testing

既然我已經拒絕了原假設,接下來會發生什麼?

  • May 27, 2014

我一次又一次地拒絕未能拒絕零假設。在未能拒絕的情況下,您得出結論認為沒有足夠的證據可以拒絕並且您“繼續”(即,收集更多數據,結束實驗等)

但是,當您“確實”拒絕原假設,為替代假設提供一些證據時,您無法真正“證明”您的替代假設確實成立。

那麼,一旦你拒絕原假設,接下來的常見步驟是什麼?人們採用什麼工具/技術來“進一步分析問題”以使更多的發現更具結論性?作為統計學家需要進一步分析的合乎邏輯的“下一步”是什麼?

例如:

(假設我們知道預期的方向)

一旦我們在某種程度的顯著性上拒絕原假設,我們就有“一些證據”證明替代方案是正確的,但我們無法得出這個結論。如果我真的想得出結論性的結論(請原諒雙字遊戲)我該怎麼辦?

我在本科期間從未思考過這個問題,但現在我正在做大量的假設測試,我不禁想知道未來會發生什麼:)

您通常可以繼續改進對您可能使用更多數據測試的任何參數的估計。一旦測試達到某種半任意程度的顯著性,就停止數據收集是做出錯誤推斷的好方法。分析師可能會將重要結果誤解為工作已完成的標誌,這是 Neyman-Pearson 框架的許多意外後果之一,根據該框架,人們將p值解釋為根據以下條件毫無保留地拒絕或未能拒絕 null 的原因他們落在臨界閾值的哪一邊。

在不考慮頻率論範式的貝葉斯替代方案(希望其他人會)的情況下,置信區間繼續提供更多信息,遠遠超出可以拒絕基本零假設的點。假設收集更多數據只會使您的基本顯著性檢驗達到更大的顯著性(並且不會揭示您之前的顯著性發現是誤報),您可能會發現這無用,因為您會拒絕任何一種方式。但是,在這種情況下,您圍繞相關參數的置信區間將繼續縮小,從而提高您可以準確描述感興趣人群的置信度。


這是一個非常簡單的例子r– 檢驗原假設對於模擬變量:

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
-0.377762241 -0.006780574 
sample estimates:
mean of x 
-0.1922714

在這裡我剛剛使用t.test(rnorm(99)),我碰巧得到了一個誤報(假設我已經默認為作為我可接受的誤報率的選擇)。如果我忽略置信區間,我可以聲稱我的樣本來自一個均值顯著不同於零的總體。從技術上講,置信區間也沒有對此提出異議,但它表明平均值可能非常接近於零,甚至比我根據這個樣本認為的更遠。當然,我知道這裡的 null 實際上是真的,因為總體的平均值rnorm默認為零,但很少有人知道真實數據。

再次運行此程序set.seed(8);t.test(rnorm(99,1))會產生 0.91 的樣本均值、p = 5.3E-13 和 95% 的置信區間. 這一次我可以確信 null 是錯誤的,尤其是因為我通過將模擬數據的平均值設置為 1 來構造它。

不過,說重要的是要知道它與零有多大不同;也許 0.8 的平均值太接近於零,以至於差異無關緊要。我可以看到我沒有足夠的數據來排除以下可能性從我的置信區間和t檢驗mu=.8得出p = .33。不過,根據這個 0.8 的閾值,我的樣本平均值足夠高,看起來與零有明顯的不同;收集更多數據有助於提高我對差異至少有這麼大的信心,而不僅僅是微不足道地大於零。

由於我通過模擬“收集數據”,我可能有點不切實際,並將我的樣本量增加一個數量級。運行set.seed(8);t.test(rnorm(999,1),mu=.8)表明,在拒絕原假設後,更多數據仍然有用在這種情況下,因為我現在可以拒絕 null用我更大的樣本。的置信區間甚至暗示我可以拒絕零假設如果我一開始就打算這樣做的話。

我不能在事後修改我的零假設,但是在這個結果之後沒有收集新數據來測試一個更強大的假設,我可以有 95% 的信心說,複製我的“研究”會讓我拒絕一個. 再次,僅僅因為我可以輕鬆地模擬這個,我將重新運行代碼set.seed(9);t.test(rnorm(999,1),mu=.9):這樣做表明我的信心沒有放錯地方。

逐步測試更嚴格的零假設,或者更好的是,簡單地專注於縮小置信區間只是繼續進行的一種方法。當然,大多數拒絕零假設的研究為基於替代假設的其他研究奠定了基礎。例如,如果我正在測試相關性大於零的替代假設,我可以在接下來的後續研究中測試調解人或調解人……當我這樣做時,我肯定想確保我可以復制原始結果。


另一種要考慮的方法是等價測試。如果您想得出一個參數在某個可能值範圍內的結論,而不僅僅是不同於單個值,您可以根據您的傳統備擇假設指定您希望參數位於該範圍內的值並對其進行測試反對一組不同的無效假設,這些假設共同表示參數位於該範圍之外的可能性。這最後一種可能性可能與您在編寫時的想法最相似:

我們有“一些證據”證明替代方案是正確的,但我們無法得出這個結論。如果我真的想得出結論性的結論…

這是一個使用與上述類似數據的示例(使用set.seed(8),rnorm(99)與 相同rnorm(99,1)-1,因此樣本平均值為 -.09)。假設我想檢驗兩個單邊t檢驗的原假設,它們共同假設樣本均值不在 -.2 和 .2 之間。這與前面示例的前提大致對應,根據該前提我​​想測試是否. 不同之處在於我將數據向下移動了 1,現在我將對備擇假設執行兩個單邊檢驗. 看起來是這樣的:

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tost將區間的置信水平設置為 90%,因此樣本均值 -.09 附近的置信區間為, p = .17。但是,使用(和相同的種子)再次運行它rnorm(999)會將 90% 的置信區間縮小到*,在p* = 4.55E-07的零假設中指定的等價範圍內。

我仍然認為置信區間比等價檢驗結果更有趣。它代表了數據表明總體平均值比備擇假設更具體的情況,並且表明我可以有理由相信它位於比我在備擇假設中指定的更小的區間內。為了演示,我將再次濫用我不切實際的模擬能力並使用“複製” set.seed(7);tost(rnorm(999),epsilon=.09345092):果然,p = .002。

引用自:https://stats.stackexchange.com/questions/100267

comments powered by Disqus

相關問答