Hypothesis-Testing

我應該對高度偏斜的數據使用 t 檢驗嗎?請問有科學依據嗎?

  • August 5, 2014

我有來自高度偏斜(看起來像指數分佈)數據集的關於用戶參與(例如:帖子數量)的樣本,這些樣本具有不同的大小(但不少於 200),我想比較它們的平均值。為此,我使用了兩個樣本的非配對 t 檢驗(當樣本具有不同的方差時,使用韋爾奇因子進行 t 檢驗)。正如我所聽說的,對於非常大的樣本,樣本不是正態分佈並不重要。

有人在回顧我所做的事情時說,我使用的測試不適合我的數據。他們建議在使用 t 檢驗之前對我的樣本進行對數轉換。

我是一個初學者,所以用“參與指標的日誌”來回答我的研究問題對我來說聽起來真的很困惑。

他們錯了嗎?我錯了嗎?如果他們錯了,是否有我可以引用/展示給他們的書或科學論文?如果我錯了,我應該使用哪個測試?

我不會將“指數”稱為特別高度偏斜。例如,它的對數明顯左偏,矩偏度僅為 2。

1)對指數數據使用 t 檢驗和 $ n $ 接近500就 可以了

a) 檢驗統計量的分子應該沒問題:如果數據是具有共同尺度的獨立指數(並且沒有明顯比那個更重),那麼它們的平均值是伽馬分佈的,形狀參數等於觀察次數。對於大於大約 40 左右的形狀參數,它的分佈看起來非常正常(取決於您需要精確到尾部的距離)。

這可以用數學證明,但數學不是科學。當然,您可以通過模擬憑經驗檢查它,但如果您對指數有誤,您可能需要更大的樣本。這就是當 n=40 時指數數據的樣本總和(以及因此樣本均值)的分佈:

在此處輸入圖像描述

非常輕微的歪斜。這種偏度隨著樣本大小的平方根而減小。所以在 n=160 時,它是偏斜的一半。在 n=640 時,它是偏斜的四分之一:

在此處輸入圖像描述

通過將其翻轉到平均值並將其繪製在頂部,可以看出這是有效對稱的:

在此處輸入圖像描述

藍色是原始的,紅色是翻轉的。如您所見,它們幾乎是巧合。

b)更重要的是,兩個這樣的伽馬分佈變量(例如你用指數方法得到的)的差異更接近正常,並且在空值(這是你需要它的地方)下,偏度將為零。這是為了 $ n=40 $ :

在此處輸入圖像描述

也就是說,t 統計量的分子非常接近正態分佈,而樣本量遠小於 $ n=500 $ .

c) 然而,真正重要的是整個統計量在零值下的分佈。分子的正態性不足以使 t 統計量具有 t 分佈。但是,在指數數據的情況下,這也不是什麼大問題:

在此處輸入圖像描述

紅色曲線是 df=78 的 t 統計量分佈,直方圖是使用 Welch t 檢驗對指數樣本得到的結果(在均值為零的情況下;實際的 Welch-Satterthwaite 自由度在給定的樣本往往會比 78 小一點)。特別是,您的顯著性水平區域中的尾部區域應該是相似的(除非您有一些非常不尋常的顯著性水平,它們是相似的)。請記住,這是在 $ n=40 $ , 不是 $ n=500 $ . 這要好得多 $ n=500 $ .

但是請注意,對於實際的指數數據,只有當均值不同時,標準偏差才會不同。如果指數假設是這種情況,那麼在零值下,沒有必要特別擔心不同的總體方差,因為它們只發生在備選方案下。因此,等方差 t 檢驗應該仍然可以(在這種情況下,您在直方圖中看到的上述良好近似值甚至可能會稍微好一些)。


2)記錄日誌可能仍然能讓你理解它,儘管

如果 null 為真,並且您有指數分佈,則您正在測試比例參數的相等性。測井方法的位置測試將測試比例參數的測井與測井中的位置偏移備選方案(原始值中的比例變化)的相等性。如果你得出這樣的結論 $ \log\lambda_1\neq\log\lambda_2 $ 在日誌中的位置測試中,這在邏輯上與得出的結論相同 $ \lambda_1\neq\lambda_2 $ . 因此,使用 t 檢驗測試日誌可以很好地作為對原始假設的檢驗

[如果您在日誌中進行該測試,我傾向於建議在這種情況下進行等方差測試。]

所以 - 僅僅通過一兩句話的干預來證明連接的合理性,類似於我上面所說的 - 你應該能夠寫出你的結論,而不是關於參與度量的日誌,而是關於參與度量本身。


3)還有很多其他的事情你可以做!

a) 你可以做一個適合指數數據的測試。很容易推導出基於似然比的檢驗。碰巧的是,對於指數數據,您會在單尾情況下獲得針對這種情況的小樣本 F 檢驗(基於均值比率);對於小樣本量,兩個尾 LRT 通常不會在每個尾中具有相等的比例。(這應該比 t 檢驗具有更好的功效,但 t 檢驗的功效應該是相當合理的,我希望您的樣本量不會有太大差異。)

b)您可以進行排列測試 - 如果您願意,甚至可以基於 t 測試。所以唯一改變的是 p 值的計算。或者你可以做一些其他的重採樣測試,比如基於引導的測試。這應該具有良好的功效,儘管它部分取決於您選擇的相對於您擁有的分佈的測試統計量。

c) 您可以進行基於等級的非參數檢驗(例如 Wilcoxon-Mann-Whitney)。如果您假設如果分佈不同,那麼它們僅在比例因子上有所不同(適用於包括指數在內的各種偏態分佈),那麼您甚至可以獲得比例參數比率的置信區間。

[為此,我建議使用對數刻度(日誌中的位置偏移是刻度偏移的對數)。它不會改變 p 值,但它可以讓您對點估計和 CI 限制取冪,以獲得比例偏移的間隔。]

如果您處於指數情況,這也應該具有相當好的功效,但可能不如使用 t 檢驗。


考慮了位置偏移替代方案的一組相當廣泛的案例(例如,在零值下具有方差和偏度異質性)的參考是

Fagerland, MW 和 L. Sandvik (2009),

“對方差不等的偏態分佈進行五次兩樣本位置檢驗的性能”,當代

臨床試驗30,490–496

它通常傾向於推薦 Welch U-test(Welch 考慮的幾種測試中的一種,也是他們測試的唯一一種)。如果您沒有使用完全相同的 Welch 統計數據,則建議可能會有所不同(儘管可能相差不大)。[請注意,如果您的分佈是指數分佈,那麼您對比例替代方案感興趣,除非您採用對數…在這種情況下,您不會有不等的方差。]

引用自:https://stats.stackexchange.com/questions/110801

comments powered by Disqus