T-Test

獨立樣本 t 檢驗:對於大樣本量,數據真的需要正態分佈嗎?

  • March 30, 2016

假設我想測試兩個獨立樣本是否具有不同的均值。我知道底層分佈不正常

如果我理解正確,我的檢驗統計量是平均值,並且對於足夠大的樣本量,即使樣本不是,平均值也應該成為正態分佈。所以參數顯著性檢驗在這種情況下應該是有效的,對吧?我已經閱讀了關於此的相互矛盾和令人困惑的信息,所以我希望得到一些確認(或解釋我為什麼錯了)。

另外,我讀過對於大樣本量,我應該使用 z 統計量而不是 t 統計量。但在實踐中,t 分佈只會收斂到正態分佈,兩個統計量應該相同,不是嗎?

編輯:以下是一些描述 z 測試的來源。他們都說人口必須是正態分佈的:

在這裡,它說“無論使用哪種 Z 檢驗,都假定從中抽取樣本的總體是正常的。” 在這裡,z檢驗的要求被列為“兩個正態分佈但獨立的總體,σ已知”。

我認為這是對 CLT 的常見誤解。CLT 不僅與保留 II 型錯誤(這裡沒有人提到)無關,而且當您必須估計總體方差時它通常不適用。當數據為非高斯分佈時,樣本方差可能與縮放的卡方分佈相差甚遠,因此即使樣本量超過數万,CLT 也可能不適用。對於許多分佈而言,SD 甚至不是一個很好的分散度量。

要真正使用 CLT,必須滿足以下兩點之一:(1) 樣本標準差可作為真實未知分佈的離散量度,或 (2) 真實總體標準差已知。很多時候情況並非如此。n = 20,000 太小以至於 CLT 無法“工作”的一個例子來自於從本網站其他地方討論的對數正態分佈中抽取樣本。

如果例如分佈是對稱的並且沒有比高斯分佈更重的尾部,則樣本標準偏差“起作用”作為分散度量。

我不想依賴 CLT 進行任何分析。

引用自:https://stats.stackexchange.com/questions/204585

comments powered by Disqus