G-test 和 t-test 的區別，哪些應該用於 A/B 測試？

March 24, 2012

G-Test是一種快速估計卡方分佈的方法，由這個著名的 A/B 測試教程的作者推薦。

此工具假定正態分佈並使用均值差異來計算置信度。

G測試和T測試有什麼區別？使用每種方法來衡量我們的 A/B 測試的有效性有什麼好處或壞處？

我試圖弄清楚我應該使用哪一個來衡量我的 A/B 測試框架的結果。我們的框架有兩個一般用例：平均分配訪問者組，向每個人展示不同的功能，並在其他頁面（例如註冊頁面）上衡量他們的轉化率；並將訪問者組分成對照組 (90%) 和實驗組 (10%) 進行測試，並測量其他頁面上的轉化率。

我們的網站每天有 1000 到 200,000 次訪問。這些訪問以指數分佈分佈在大約 300 個頁面上。

謝謝，凱文

一般來說，在計算檢驗統計量時越不近似的檢驗越好，儘管隨著樣本量的增加，所有檢驗都會收斂到相同的結果。

因此，由於 A/B 測試通常關註二元結果，…

簡短的回答：

使用 G 檢驗，因為它不太近似。

長答案：

t 檢驗，在 A/B 檢驗中樣本量不等和方差不等的情況下，用 t 分佈近似兩個分佈的差異，這本身就是有問題的。這兩個分佈可能是未知的，但認為它們的均值和方差足以描述它（否則任何結論都無濟於事），這對於正態分佈當然是正確的。

在二元結果的特殊情況下，二項分佈可以近似為正態分佈, 適用於（經驗法則，=試驗，=成功率）。

因此，總而言之，雖然可以應用 t 檢驗，但執行兩個近似以將二項式情況轉換為更通用的情況，這在此處不是必需的，因為像 G 檢驗這樣的近似測試較少或（甚至更好) Fisher 精確檢驗可用於這種特殊情況。應該應用 Fisher 精確檢驗，尤其是在樣本量小於 20 的情況下（另一個經驗法則），但我想這在可靠的 A/B 測試中並不重要。

引用自：https://stats.stackexchange.com/questions/25209

comments powered by Disqus

G-test 和 t-test 的區別，哪些應該用於 A/B 測試？

相關問答

NHST 何時適合開展業務？

總和的 A/B 測試比率

AB測試樣本量手工計算

為什麼在達到最佳樣本量之前停止 A/B 測試是錯誤的？

貝葉斯 A/B 測試公式沒有任何意義

A/B 測試使用什麼統計測試？