Hypothesis-Testing
之間進行選擇𝑧和z-測試和𝑡噸t-測試
背景:我正在向同事進行假設檢驗的工作,並且理解其中的大部分內容,但有一個方面讓我陷入困境,試圖理解並向他人解釋。
這是我認為我知道的(如果有錯誤請更正!)
- 如果方差已知,統計量將是正常的,遵循- 方差未知時的分佈
- CLT(中心極限定理):樣本均值的抽樣分佈在足夠大的情況下近似正態分佈(可能, 可能高達對於高度偏斜的分佈)
- 這-分佈可以被認為是自由度的正態分佈
您使用- 測試是否:
- 已知總體正態和方差(對於任何樣本量)
- 總體正常,方差未知和(由於 CLT)
- 人口二項式,,
您使用- 測試是否:
- 總體正常,方差未知和
- 不了解總體或方差和,但樣本數據看起來正常/通過測試等,因此可以假設總體正常
所以我只剩下:
- 樣品和(?),沒有關於已知/未知的總體和方差的知識。
所以我的問題是:
- 當抽樣分佈看起來非正態時,您可以假設在多大的樣本量下(不了解總體分佈或方差)均值的抽樣分佈是正態的(即 CLT 已開始)?我知道有些發行版需要,但有些資源似乎說使用- 隨時測試…
- 對於我不確定的情況,我假設我查看數據是否正常。現在,如果樣本數據看起來正常,我是否使用-test(因為假設人口正常,並且因為)?
- 我不確定的案例的樣本數據在哪裡看起來不正常呢?在任何情況下您仍會使用-測試或-test 還是您總是希望轉換/使用非參數測試?我知道,由於 CLT,在某些價值平均值的採樣分佈將接近正常,但樣本數據不會告訴我該值是多少是; 樣本數據可能是非正態的,而樣本均值遵循正態 /. 是否存在您要轉換/使用非參數檢驗的情況,而實際上平均值的抽樣分佈是正常的/但你不能告訴?
@AdamO 是對的,您只需始終使用 $ t $ - 如果您不知道先驗總體標準差,請進行測試。您不必擔心何時切換到 $ z $ -測試,因為 $ t $ -為您分配“開關”。更具體地說, $ t $ -分佈收斂於正態分佈,因此它是在任何時候使用的正確分佈 $ N $ .
這裡還有一個關於傳統線的含義的混淆 $ N=30 $ . 人們談論的有兩種趨同:
- 首先是檢驗統計量的抽樣分佈(即, $ t $ ) 從正態分佈(組內)原始數據計算收斂到正態分佈為 $ N\rightarrow\infty $ 儘管 SD 是根據數據估計的。(這 $ t $ -distribution 會為您解決這個問題,如上所述。)
- 第二個是非正態分佈(組內)原始數據的均值的採樣分佈收斂到正態分佈(比上面更慢)為 $ N\rightarrow\infty $ . 人們依靠中心極限定理來為他們解決這個問題。但是,不能保證它會在任何合理的樣本量內收斂——當然沒有理由相信 $ 30 $ (或者 $ 300 $ ) 是幻數。根據非正態性的大小和性質,它可能需要很長時間(參見@Macro 在此處的回答:當 OLS 殘差不是正態分佈時的回歸)。如果您認為您的(組內)原始數據不是很正常,最好使用不同類型的測試,例如Mann-Whitney $ U $ -測試。請注意,對於非正態數據,Mann-Whitney $ U $ -test 可能比 $ t $ -test,即使 CLT 已經啟動,也可能如此。(值得指出的是,正態性測試可能會導致您誤入歧途,請參閱:正態性測試“基本上沒用”嗎?)
無論如何,為了更明確地回答您的問題,如果您認為您的(組內)原始數據不是正態分佈的,請使用 Mann-Whitney $ U $ -測試; 如果您認為您的數據是正態分佈的,但您不知道 SD 先驗,請使用 $ t $ -測試; 如果您認為您的數據是正態分佈的並且您知道 SD 先驗,請使用 $ z $ -測試。
它可能會幫助您在這裡閱讀@GregSnow 最近的答案:在比較 R 中兩個小組之間關於這些問題的比例時對 p 值的解釋。