Statistical-Significance
為什麼在統計顯著之前運行拆分測試是“壞事”?(或者是嗎?)
我讀了這篇關於“如何不運行 A/B 測試”的文章。
而且我仍然不明白作者的推理到底是什麼。有人可以為我降低它嗎?
我認為它可能會說隨著時間的推移閱讀我的拆分測試結果會誤導我。不過,我希望能夠很好地理解這一點,以便我可以向其他人解釋。
有什麼幫助嗎?
這是“三分之二”的現象。 你知道這個笑話:
“讓我們為它翻轉。”
“好,出發!”
“哎呀,我輸了。要不要再翻轉兩次,總次數最多的就是贏家?”
顯著性測試與拋硬幣*完全一樣(但通常使用有偏差的硬幣)。*如果您運行一個簡短的測試並且它並不重要,也許您可以通過延長測試來獲得重要意義(部分通過運氣)。
與此相反(我很想說這個 :-) 的“反面”)是,如果您計劃進行一定數量的測試並碰巧在早期看到“顯著”結果,那也不是決定性的。這類似於我們第一次比賽的反面:
“讓我們翻一下吧。三分之二最好?”
“好,出發!”
“哈,第一局我贏了,所以我贏了!”
話雖如此,請注意有些版本的測試允許您在進行過程中監控(標稱)重要性。這些工作就像在比賽過於片面時提前結束比賽,即所謂的憐憫規則。如果在早期階段,差異非常明顯,那麼您可以通過結束測試來節省時間和精力。這些被稱為順序假設檢驗程序。可以很好地證明這些應該是您進行 AB 測試的標準方式,因為從長遠來看,您將花費更少的時間和精力。