何時終止貝葉斯 A/B 測試?
我正在嘗試以貝葉斯方式進行 A/B 測試,如Probabilistic Programming for Hackers和Bayesian A/B tests。兩篇文章都假設決策者僅根據某些標準的概率來決定哪個變體更好,例如, 所以,更好。這個概率沒有提供任何關於是否有足夠數量的數據可以從中得出任何結論的信息。所以,我不清楚什麼時候停止測試。
假設有兩個二進制 RV,和,我想估計它的可能性有多大, 和根據觀察和. 此外,假設和後驗是β分佈的。
因為我能找到參數為和,我可以對後驗進行採樣,並估計. python中的示例:
import numpy as np samples = {'A': np.random.beta(alpha1, beta1, 1000), 'B': np.random.beta(alpha2, beta2, 1000)} p = np.mean(samples['A'] > samples['B'])
例如,我可以得到,. 現在我想要類似的東西.
我已經研究了可信區間和貝葉斯因子,但如果它們完全適用,我無法理解如何為這種情況計算它們。我如何計算這些額外的統計數據,以便我有一個好的終止標準?
我很高興你提到了這個例子,因為我正在做的一個項目是寫一整章關於貝葉斯 A/B 測試。
我們對兩個數量感興趣:和一些“增加”的措施。我將討論數量第一。
沒有錯誤界限,這是一個真實的數量。這類似於說“後驗的均值是多少?”,只有 1 個均值,我們可以通過取所有樣本的平均值來計算它(我忽略了任何蒙特卡洛錯誤,因為它們可以減少通過採樣更多來忽略不計)。我認為您混淆了未知量,我們可以說“+- 3%”和後驗計算量。
我要說的是是肯定的:鑑於你觀察到的數據和先驗,這是你的結論。
請注意,我們將知道快速:對於足夠不同的情況,它只需要適量的觀察和. 衡量 A 比 B 增加了多少更難也更有趣(通常這是 A/B 測試的目標:我們增加了多少轉化)。你提到過5%——你對此有多大把握?
請注意,雖然是一個布爾值,因此很容易測量,當然不是布爾值。它是一種可能性的分佈:
隨著獲取的數據越來越多,這種分佈趨於實際的相對增加,可以說分佈趨於穩定。這是我建議考慮終止實驗的地方。一旦這種分佈似乎“平靜下來”,並且我們可以對增加充滿信心,然後終止實驗。