Hypothesis-Testing

NHST 何時適合開展業務?

  • December 2, 2019

零假設顯著性檢驗似乎在商業中被廣泛使用。最明顯的例子是 A/B 測試,其中企業將執行測試,比較其業務某些方面的兩個變體,舊的和新的,如果測試顯示出積極的差異,則切換到新的變體。作為一名 MBA 學生,我注意到 NHST 似乎是教授給大多數商科學生的唯一方法。

我不禁想到“A和B之間的差異在統計上顯著嗎?”這個問題。有時與“我應該選擇 B 而不是 A?”非常不同,但我們被教導使用前一個問題來確定後者的正確答案。例如:

  1. 兩個條件之間的統計顯著差異並不意味著這種差異大到足以抵消其他因素。例如,切換到新變體本身的成本可能大於變體之間的統計顯著差異帶來的新收入。
  2. 在某些情況下,我們可能沒有足夠的數據來發現統計上的顯著差異,但使用我們確實必須為決策提供信息的數據可能仍然有意義。例如,如果選擇一個變體或另一個變體不需要任何成本,那麼選擇具有更大期望值的變體可能是有意義的,即使我們不能確定差異是否顯著。這個想法是,我們不一定對 95% 的時間是對的感興趣,而是對正確的次數比我們錯誤的次數或更大的錯誤次數感興趣。

然而,在實踐中,僅根據是否拒絕原假設來做出決定似乎很常見。統計測試似乎會自動給分析帶來嚴謹的氣氛,通常足以支持結論,而無需過多討論在這種情況下對測試的正確解釋應該是什麼。那些認識到 NHST 在這方面存在一些局限性的人通常會說“有總比沒有好”來消除這些限制,但我覺得在某些情況下,不幸的是,事實可能並非如此。

我的問題是:這些擔憂是否合理?NHST 何時以及如何適合在商業中使用?

我將作為經濟學家/計量經濟學家和私營部門長達數十年的商業專業人士對此作出回應。

1)正如另一個答案指出的那樣,我們應該將“統計意義”與“經濟意義”(情況的“規模”方面)分開。

2)統計顯著性取決於“一個人願意承擔的錯誤風險的數量”。既定的科學傳統是“盡可能保守和謹慎”,反對聲稱確實存在顯著差異的說法。這反映在標準的 1%、5%、10%“顯著性水平”中,人們在運行顯著性測試時被教導使用。但是企業可能非常希望/決定接受更多此類風險,因此您可以在您選擇的任何顯著性水平(例如 40%)上進行顯著性測試。

  1. 經典統計和期望值更適合關於中期/重複情況的決策。在企業中,我們必須做出許多短期/一次性的決定。然後,貝伊斯推理方法可能更適合,而且考慮“最可能”的結果而不是“預期值”可能更有意義。

  2. 成本考慮當然應該進入商業決策。這歸結為正確建模您的損失/收益函數。在傳統的統計測試中,損失/收益函數被隱含地假設為圍繞“零差”對稱,因為科學的對像是準確性本身,因此不准確性的方向無關緊要。但在經濟活動中,這種成本/收益對稱的情況很少見。請參閱我在這篇文章這篇文章中的兩個答案

引用自:https://stats.stackexchange.com/questions/438982

comments powered by Disqus