Confidence-Interval
G-test 和 t-test 的區別,哪些應該用於 A/B 測試?
G-Test是一種快速估計卡方分佈的方法,由這個著名的 A/B 測試教程的作者推薦。
此工具假定正態分佈並使用均值差異來計算置信度。
G測試和T測試有什麼區別?使用每種方法來衡量我們的 A/B 測試的有效性有什麼好處或壞處?
我試圖弄清楚我應該使用哪一個來衡量我的 A/B 測試框架的結果。我們的框架有兩個一般用例:平均分配訪問者組,向每個人展示不同的功能,並在其他頁面(例如註冊頁面)上衡量他們的轉化率;並將訪問者組分成對照組 (90%) 和實驗組 (10%) 進行測試,並測量其他頁面上的轉化率。
我們的網站每天有 1000 到 200,000 次訪問。這些訪問以指數分佈分佈在大約 300 個頁面上。
謝謝,凱文
一般來說,在計算檢驗統計量時越不近似的檢驗越好,儘管隨著樣本量的增加,所有檢驗都會收斂到相同的結果。
因此,由於 A/B 測試通常關註二元結果,…
簡短的回答:
使用 G 檢驗,因為它不太近似。
長答案:
t 檢驗,在 A/B 檢驗中樣本量不等和方差不等的情況下,用 t 分佈近似兩個分佈的差異,這本身就是有問題的。這兩個分佈可能是未知的,但認為它們的均值和方差足以描述它(否則任何結論都無濟於事),這對於正態分佈當然是正確的。
在二元結果的特殊情況下,二項分佈可以近似為正態分佈, 適用於(經驗法則,=試驗,=成功率)。
因此,總而言之,雖然可以應用 t 檢驗,但執行兩個近似以將二項式情況轉換為更通用的情況,這在此處不是必需的,因為像 G 檢驗這樣的近似測試較少或(甚至更好) Fisher 精確檢驗可用於這種特殊情況。應該應用 Fisher 精確檢驗,尤其是在樣本量小於 20 的情況下(另一個經驗法則),但我想這在可靠的 A/B 測試中並不重要。