Probability
通過重新運行實驗來驗證 web a/b 測試 - 這有效嗎?
前幾天,一家 a/b 測試公司的網絡研討會讓他們的常駐“數據科學家”解釋說,您應該通過重新運行實驗來驗證您的結果。前提是,如果您選擇 95% 的置信度,則有 5% (1/20) 的機會出現誤報。如果您使用相同的約束重新運行實驗,現在有 1/400(我假設他們將其確定為 0.05^2 = 1/400)
這是一個有效的陳述嗎?(即“運行兩次,兩次統計顯著性獲勝 = 1/400 誤報概率”)?這會是提高顯著性水平的更好方法嗎?
從業務的角度來看,我擔心的是,通過重新運行實驗,您會將更多用戶暴露於劣質頁面(處理),從而失去潛在銷售。
暫時忽略誤報的可能性,我會這樣看:
- 如果您運行兩次實驗並獲得相同的結果,您將不知道是否有兩個真陽性結果或連續兩個假陽性結果。
- 如果您運行兩次實驗並得到兩個不同的結果,那麼您不知道哪個是真陽性,哪個是假陽性結果。
在任何一種情況下,您都應該進行第三次實驗,只是為了確定。這對於相對便宜的實驗來說可能很好,但在成本可能很高的情況下(比如失去客戶),你真的需要考慮收益。
查看概率,第一次運行實驗時,有 1/20 的機會出現誤報。第二次運行實驗時,仍有1/20 的機會出現誤報(將其視為擲骰子,每次擲骰有 1/6 的機會獲得特定數字)。連續出現兩個誤報的可能性只有 1/400。
真正的問題是要有一個定義明確的假設和嚴格的程序,並且要有一個你可以忍受或負擔得起的樣本量、誤差水平和置信區間。實驗的重複應留待探索
- 隨著時間的推移客戶
- 組織所做的更改
- 比賽做出的改變
而不是第二次猜測結果。儘管向經理解釋這一點說起來容易做起來難。