AB測試樣本量手工計算

February 17, 2019

Evan Miller 創建了一個著名的在線 AB 測試樣本量計算器。為了能夠編程和修改這個公式，我想知道如何手動計算樣本量 Evan Miller 風格。

就我個人而言，我將通過從我們如何計算 95% 置信區間的方式逆向計算這樣一個指標，並使用 z 檢驗圍繞兩種變體之間的轉換差異進行比例檢驗（ $ \hat{d} $ ) 通過將其設置為零。

我將定義/假設：

$ \alpha $ = .05, $ \beta $ = .2

控制和實驗之間的比例為 50/50，即 $ n_exp $ = $ n_control $

對照轉化率，即實驗前的基礎轉化率= $ c $

$ p $ =合併轉換率=（exp轉換次數+控制轉換次數/（n_control + n_experiment））->在這種情況下-> $ (nc+n(c+\hat{d}))/2n $ = $ (2c+\hat{d})/2 $

現在是時候解決 $ n $ …

$$ \hat{d} + Z_{(1+\alpha)/2} * StandardError = 0 $$ $$ \hat{d} + 1.96 * StandardError = 0 $$ $$ \hat{d} + 1.96 * \sqrt{p(1-p)(\frac{1}{n_exp} + \frac{1}{n_control})} = 0 $$ $$ \hat{d} + 1.96 * \sqrt{p(1-p)(\frac{2}{n})} = 0 $$ $$ \sqrt{p(1-p)(\frac{2}{n})} =\frac{-\hat{d}}{1.96} $$

通過更多的簡化，我們得到：

$$ \frac{(1.96^2) 2p(1-p)}{\hat{d}^2} = n $$ $$ \frac{(1.96^2) (2c+2c\hat{d}-2c^2+\frac{3}{2}\hat{d}^2)}{\hat{d}^2} = n $$

但目前，我的計算沒有包含功率（1- $ \beta $ ) 但埃文·米勒的確實如此。

作為將功效納入樣本量計算的下一步，我應該考慮什麼？

（請隨時指出我的計算或假設中的其他錯誤！）

試試這個： $$ n=\frac{(Z_{\alpha/2}\sqrt{2p_1 (1-p_1)}+Z_{\beta}\sqrt{p_1(1-p_1)+p_2(1-p_2)})^2}{|p_2-p_1|^2} $$ 在哪裡：

$ p_1 $ 是“基線轉化率”

$ p_2 $ 是絕對“最小可檢測效應”提升的轉化率，這意味著 $ p_1+\text{Absolute Minimum Detectable Effect} $

$ \alpha $ 是“顯著性水平 $ \alpha $ "

$ \beta $ 是個 $ \beta $ 在“統計能力 $ 1−\beta $ "

$ Z_{\alpha/2} $ 表示 z 表中對應於的 Z 分數 $ \alpha/2 $

$ Z_{\beta} $ 表示 z 表中對應於的 Z 分數 $ \beta $

在樣本大小計算器（埃文的真棒 A/B 工具）

I found the formula in A/B測試系列文章之怎麼計算實驗所需樣本量

當我選擇：

$ p_1=20% $

$ p_2=p_1+\text{Absolute Minimum Detectable Effect}=20%+5%=25% $

$ \alpha = 5% $

$ \beta = 20% $

$ Z_{\alpha/2}=Z_{5%/2}=-1.959963985 $

$ Z_{\beta}=Z_{20%}=-0.841621234 $

我使用這個公式得到 1030.219283，在大小計算器中是 1030（Evan’s Awesome A/B Tools）

引用自：https://stats.stackexchange.com/questions/392979

comments powered by Disqus

AB測試樣本量手工計算

相關問答

為什麼參數測試比非參數測試更強大？

韋爾奇檢驗似乎比等方差 t 檢驗差得多

輝瑞的疫苗功效研究設計中使用了哪種統計模型？

統計檢驗的功效為 0.8 意味著什麼？

NHST 何時適合開展業務？

權力和意義之間的差異/關係