Statistical-Significance

A/B 測試:z 檢驗 vs t 檢驗 vs 卡方檢驗 vs Fisher 精確檢驗

  • October 27, 2015

我試圖通過在處理簡單的 A/B 測試時選擇特定的測試方法來理解推理 - (即具有二進制響應的兩個變體/組(轉換或未轉換)。作為示例,我將使用下面的數據

Version  Visits  Conversions
A        2069     188
B        1826     220

這裡的最佳答案很棒,並討論了 z、t 和卡方檢驗的一些基本假設。但令我困惑的是,不同的在線資源會引用不同的方法,你會認為基本 A/B 測試的假設應該幾乎相同?

  1. 例如,本文使用z-score在此處輸入圖像描述
  2. 本文使用以下公式(我不確定它是否與 zscore 計算不同?):

在此處輸入圖像描述

  1. 本文引用了 t 檢驗(第 152 頁):

在此處輸入圖像描述

那麼有什麼理由可以支持這些不同的方法呢?為什麼會有偏好?

為了再加入一個候選者,上表可以重寫為 2x2 列聯表,其中可以使用Fisher 精確檢驗(p5)

             Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

但是根據這個threadfisher的精確測試應該只用於較小的樣本量(截斷是什麼?)

然後是配對的 t 和 z 測試,f 測試(和邏輯回歸,但我現在想把它排除在外)……我覺得我淹沒在不同的測試方法中,我只想能夠在這個簡單的 A/B 測試用例中為不同的方法做某種論證。

使用示例數據,我得到以下 p 值

  1. https://vwo.com/ab-split-test-significance-calculator/給出的 p 值為 0.001(z 分數)
  2. http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方檢驗)給出的 p 值為 0.00259
  3. 在 R 中fisher.test(rbind(c(1881,188),c(1606,220)))$p.value給出的 p 值為 0.002785305

我想這都非常接近……

無論如何 - 只是希望就在線測試中使用哪些方法進行一些健康的討論,其中樣本量通常為數千,響應率通常為 10% 或更少。我的直覺告訴我要使用卡方,但我希望能夠準確地回答為什麼我選擇它而不是其他多種方式來做到這一點。

我們出於不同的原因和不同的情況使用這些測試。

  1. $ z $ -測試。一個 $ z $ -test 假設我們的觀察是獨立地從具有未知均值和*已知方差的正態分佈中得出的。*一個 $ z $ -test 主要在我們有定量數據時使用。(即囓齒動物的體重、個體的年齡、收縮壓等)但是, $ z $ -tests 也可以在對比例感興趣時使用。(即獲得至少八小時睡眠的人的比例等)
  2. $ t $ -測試。一個 $ t $ -test 假設我們的觀察是獨立地從具有未知均值和*未知方差的正態分佈中得出的。*請注意,與 $ t $ -test,我們不知道總體方差。這比知道總體方差更常見,所以 $ t $ -test 通常比 a 更合適 $ z $ -test,但如果樣本量很大,實際上兩者之間幾乎沒有區別。

和 $ z $ - 和 $ t $ -tests,您的替代假設將是您的一組的總體平均值(或總體比例)不等於、小於或大於另一組的總體平均值(或比例)。這將取決於您尋求進行的分析類型,但您的無效假設和替代假設直接比較了兩組的平均值/比例。

  1. 卡方檢驗。然而 $ z $ - 和 $ t $ -測試涉及定量數據(或比例 $ z $ ),卡方檢驗適用於定性數據。同樣,假設是觀察是相互獨立的。在這種情況下,您不是在尋找特定的關係。您的零假設是變量一和變量二之間不存在任何關係。您的替代假設是確實存在關係。這不會為您提供有關這種關係如何存在的具體信息(即關係的方向),但它將提供證據證明您的自變量和您的組之間存在(或不存在)關係。
  2. 費雪精確檢驗。卡方檢驗的一個缺點是它是*漸近的。*這意味著 $ p $ -值對於非常大的樣本量是準確的。但是,如果您的樣本量很小,那麼 $ p $ -value 可能不太準確。因此,Fisher 精確檢驗允許您精確計算 $ p $ -你的數據的價值,而不是依賴於如果你的樣本量很小的話會很差的近似值。

我一直在討論樣本量——不同的參考資料會給你不同的指標來判斷你的樣本何時足夠大。我只想找到一個有信譽的來源,看看他們的規則,然後應用他們的規則來找到你想要的測試。可以這麼說,我不會“貨比三家”,直到您找到您“喜歡”的規則。

最終,您選擇的測試應該基於 a) 您的樣本量和 b) 您希望假設採用什麼形式。如果您正在尋找 A/B 測試的特定效果(例如,我的 B 組測試分數較高),那麼我會選擇 $ z $ -測試或 $ t $ -測試,待定樣本量和總體方差的知識。如果您想證明僅存在關係(例如,我的 A 組和 B 組基於自變量而有所不同,但我不在乎哪個組的分數更高),那麼卡方或 Fisher 精確檢驗是適當,取決於樣本量。

這有意義嗎?希望這可以幫助!

引用自:https://stats.stackexchange.com/questions/178854

comments powered by Disqus