Statistical-Significance

為什麼在統計顯著之前運行拆分測試是“壞事”?(或者是嗎?)

  • January 6, 2012

我讀了這篇關於“如何不運行 A/B 測試”的文章。

而且我仍然不明白作者的推理到底是什麼。有人可以為我降低它嗎?

我認為它可能會說隨著時間的推移閱讀我的拆分測試結果會誤導我。不過,我希望能夠很好地理解這一點,以便我可以向其他人解釋。

有什麼幫助嗎?

這是“三分之二”的現象。 你知道這個笑話:

“讓我們為它翻轉。”

“好,出發!”

“哎呀,我輸了。要不要再翻轉兩次,總次數最多的就是贏家?”

顯著性測試與拋硬幣*完全一樣(但通常使用有偏差的硬幣)。*如果您運行一個簡短的測試並且它並不重要,也許您可以通過延長測試來獲得重要意義(部分通過運氣)。

與此相反(我很想說這個 :-) 的“反面”)是,如果您計劃進行一定數量的測試並碰巧在早期看到“顯著”結果,那也不是決定性的。這類似於我們第一次比賽的反面:

“讓我們翻一下吧。三分之二最好?”

“好,出發!”

“哈,第一局我贏了,所以我贏了!”

話雖如此,請注意有些版本的測試允許您在進行過程中監控(標稱)重要性。這些工作就像在比賽過於片面時提前結束比賽,即所謂的憐憫規則。如果在早期階段,差異非常明顯,那麼您可以通過結束測試來節省時間和精力。這些被稱為順序假設檢驗程序。可以很好地證明這些應該是您進行 AB 測試的標準方式,因為從長遠來看,您將花費更少的時間和精力。

引用自:https://stats.stackexchange.com/questions/20676

comments powered by Disqus