Hypothesis-Testing

關於如何推導出假設統計檢驗的一般指南?

  • December 11, 2016

一般來說,假設檢驗的過程可以分為 4 個步驟:

  1. 根據假設製定實際問題。
  2. 計算統計量,純粹是數據的函數。所有好的測試統計都應該有兩個屬性:**(a)**它們應該傾向於表現不同從什麼時候開始是真的是真的; ( **b)**它們的概率分佈應該是可計算的,假設如下:是真的。
  3. 選擇一個關鍵區域。我們必須能夠決定這將最強烈地指向真實而不是是真的。
  4. 決定臨界區的大小。這包括說明我們準備冒多大的風險得出錯誤的結論。我們定義了測試的顯著性水平或大小,我們表示為,作為我們準備在拒絕時承擔的風險當它實際上是真的。

這似乎是最有創意的一步,真正將特定測試與其他測試區分開來的是統計數據的選擇. 因此,我的問題是:統計假設檢驗的作者是如何得出他們的統計數據的?

給定一個特定的問題,理想的(如果這完全可以根據客觀的理由定義)統計應該是什麼總是顯而易見的?上面步驟 2 中列出的這兩個要求似乎是兩個廣泛的要求,可以設計許多不同的統計數據來檢驗相同的假設。例如,它會不會是基於中位數或其他統計數據的 t 檢驗的不同替代檢驗……?

統計假設檢驗的作者是如何得出他們的統計數據的?

有多種方法可以識別測試統計數據,具體取決於具體情況。在一些合理的假設下,嘗試確定您認為重要的替代方案並嘗試獲得一些力量來對抗這些替代方案非常重要。

例如,如果您有一個與總體均值有關的假設(實際上,讓我們簡化並考慮單樣本檢驗),例如,基於樣本均值的統計量似乎是統計量的明顯選擇,因為它會傾向於在 null 和替代項下表現不同。但是(例如),如果您正在尋找拉普拉斯/雙指數族的移位替代方案(),基於樣本中位數的東西比基於樣本均值的東西更適合測試均值偏移。

如果您有一個特定的參數模型(基於某些特定的分佈族),通常至少考慮一個似然比檢驗,因為它們對於大樣本具有許多有吸引力的特性。

在您嘗試從頭開始設計測試的許多情況下,測試統計量將基於一個關鍵數量。單樣本 t 檢驗(以及您之前可能見過的許多其他檢驗)中的檢驗統計量是一個關鍵量。

給定一個特定的問題,理想的(如果這完全可以根據客觀的理由定義)統計應該是什麼總是顯而易見的?

一點也不。例如,考慮一個針對 ominibus 替代方案的一般正態性測試。有許多方法可以衡量偏離正態性的情況(已經提出了數十種此類測試),並且在典型的樣本量下,沒有一種方法對所有替代方法都最有效。

在嘗試為這樣的情況設計測試時,需要一定的創造力才能提出一個對您最感興趣的選擇具有強大能力的選擇。

似乎上面第 2 步中列出的這兩個要求過於寬泛,可以設計許多不同的統計數據來檢驗相同的假設。

確實。如果您做出一些參數假設(假設數據來自某個分佈族,然後使您的假設與它的一個或多個參數相關),那麼可能會對所有此類情況進行最佳測試(特別是,統一最強大的測試),但即使你的參數假設更像是一個粗略的猜測,那麼對這個假設的一些魯棒性的渴望可能會改變很多事情。

例如(再次,簡單地對位置偏移進行一個樣本測試),如果我從正常人群中抽樣,那麼 t 檢驗將是最好的。但是,假設我認為這可能並不完全正常,除此之外,可能還會有一些其他過程造成少量污染,具有中等程度的重尾,然後是更強大的東西(甚至可能是基於等級的替代方案,如已簽名rank test)可能在各種此類情況下表現更好。

引用自:https://stats.stackexchange.com/questions/250936

comments powered by Disqus

相關問答