通過重新運行實驗來驗證 web a/b 測試 - 這有效嗎？

March 19, 2014

前幾天，一家 a/b 測試公司的網絡研討會讓他們的常駐“數據科學家”解釋說，您應該通過重新運行實驗來驗證您的結果。前提是，如果您選擇 95% 的置信度，則有 5% (1/20) 的機會出現誤報。如果您使用相同的約束重新運行實驗，現在有 1/400（我假設他們將其確定為 0.05^2 = 1/400）

這是一個有效的陳述嗎？（即“運行兩次，兩次統計顯著性獲勝 = 1/400 誤報概率”）？這會是提高顯著性水平的更好方法嗎？

從業務的角度來看，我擔心的是，通過重新運行實驗，您會將更多用戶暴露於劣質頁面（處理），從而失去潛在銷售。

暫時忽略誤報的可能性，我會這樣看：

如果您運行兩次實驗並獲得相同的結果，您將不知道是否有兩個真陽性結果或連續兩個假陽性結果。

如果您運行兩次實驗並得到兩個不同的結果，那麼您不知道哪個是真陽性，哪個是假陽性結果。

在任何一種情況下，您都應該進行第三次實驗，只是為了確定。這對於相對便宜的實驗來說可能很好，但在成本可能很高的情況下（比如失去客戶），你真的需要考慮收益。

查看概率，第一次運行實驗時，有 1/20 的機會出現誤報。第二次運行實驗時，仍有1/20 的機會出現誤報（將其視為擲骰子，每次擲骰有 1/6 的機會獲得特定數字）。連續出現兩個誤報的可能性只有 1/400。

真正的問題是要有一個定義明確的假設和嚴格的程序，並且要有一個你可以忍受或負擔得起的樣本量、誤差水平和置信區間。實驗的重複應留待探索

隨著時間的推移客戶

組織所做的更改

比賽做出的改變

而不是第二次猜測結果。儘管向經理解釋這一點說起來容易做起來難。

引用自：https://stats.stackexchange.com/questions/90609

comments powered by Disqus

通過重新運行實驗來驗證 web a/b 測試 - 這有效嗎？

相關問答

這是p-hacking嗎？

哪個是第一位的 - 領域專業知識或實驗方法？

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

統計測試“穩健”意味著什麼？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？