Hypothesis-Testing

之間進行選擇𝑧和z-測試和𝑡噸t-測試

  • February 7, 2014

背景:我正在向同事進行假設檢驗的工作,並且理解其中的大部分內容,但有一個方面讓我陷入困境,試圖理解並向他人解釋。

這是我認為我知道的(如果有錯誤請更正!)

  • 如果方差已知,統計量將是正常的,遵循- 方差未知時的分佈
  • CLT(中心極限定理):樣本均值的抽樣分佈在足夠大的情況下近似正態分佈(可能, 可能高達對於高度偏斜的分佈)
  • 這-分佈可以被認為是自由度的正態分佈

您使用- 測試是否:

  1. 已知總體正態和方差(對於任何樣本量)
  2. 總體正常,方差未知和(由於 CLT)
  3. 人口二項式,,

您使用- 測試是否:

  1. 總體正常,方差未知和
  2. 不了解總體或方差和,但樣本數據看起來正常/通過測試等,因此可以假設總體正常

所以我只剩下:

  • 樣品和(?),沒有關於已知/未知的總體和方差的知識。

所以我的問題是:

  1. 當抽樣分佈看起來非正態時,您可以假設在多大的樣本量下(不了解總體分佈或方差)均值的抽樣分佈是正態的(即 CLT 已開始)?我知道有些發行版需要,但有些資源似乎說使用- 隨時測試…
  2. 對於我不確定的情況,我假設我查看數據是否正常。現在,如果樣本數據看起來正常,我是否使用-test(因為假設人口正常,並且因為)?
  3. 我不確定的案例的樣本數據在哪裡看起來不正常呢?在任何情況下您仍會使用-測試或-test 還是您總是希望轉換/使用非參數測試?我知道,由於 CLT,在某些價值平均值的採樣分佈將接近正常,但樣本數據不會告訴我該值是多少是; 樣本數據可能是非正態的,而樣本均值遵循正態 /. 是否存在您要轉換/使用非參數檢驗的情況,而實際上平均值的抽樣分佈是正常的/但你不能告訴?

@AdamO 是對的,您只需始終使用 $ t $ - 如果您不知道先驗總體標準差,請進行測試。您不必擔心何時切換到 $ z $ -測試,因為 $ t $ -為您分配“開關”。更具體地說, $ t $ -分佈收斂於正態分佈,因此它是在任何時候使用的正確分佈 $ N $ .

這裡還有一個關於傳統線的含義的混淆 $ N=30 $ . 人們談論的有兩種趨同:

  1. 首先是檢驗統計量的抽樣分佈(即, $ t $ ) 從正態分佈(組內)原始數據計算收斂到正態分佈為 $ N\rightarrow\infty $ 儘管 SD 是根據數據估計的。(這 $ t $ -distribution 會為您解決這個問題,如上所述。)
  2. 第二個是非正態分佈(組內)原始數據的均值的採樣分佈收斂到正態分佈(比上面更慢)為 $ N\rightarrow\infty $ . 人們依靠中心極限定理來為他們解決這個問題。但是,不能保證它會在任何合理的樣本量內收斂——當然沒有理由相信 $ 30 $ (或者 $ 300 $ ) 是幻數。根據非正態性的大小和性質,它可能需要很長時間(參見@Macro 在此處的回答:當 OLS 殘差不是正態分佈時的回歸)。如果您認為您的(組內)原始數據不是很正常,最好使用不同類型的測試,例如Mann-Whitney $ U $ -測試。請注意,對於非正態數據,Mann-Whitney $ U $ -test 可能比 $ t $ -test,即使 CLT 已經啟動,也可能如此。(值得指出的是,正態性測試可能會導致您誤入歧途,請參閱:正態性測試“基本上沒用”嗎?

無論如何,為了更明確地回答您的問題,如果您認為您的(組內)原始數據不是正態分佈的,請使用 Mann-Whitney $ U $ -測試; 如果您認為您的數據是正態分佈的,但您不知道 SD 先驗,請使用 $ t $ -測試; 如果您認為您的數據是正態分佈的並且您知道 SD 先驗,請使用 $ z $ -測試。

它可能會幫助您在這裡閱讀@GregSnow 最近的答案:在比較 R 中兩個小組之間關於這些問題的比例時對 p 值的解釋。

引用自:https://stats.stackexchange.com/questions/85804

comments powered by Disqus