Hypothesis-Testing

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

  • November 9, 2021

我不是訓練有素的統計學家,學生們要求我向他們解釋一篇名為“Ditch p-values. Use Bootstrap confidence interval instead”的文章。作者似乎是一位傑出的學者,但是,我對那裡的一些材料感到困惑。請忽略這篇文章,如果它對你來說太長了。我將其縮減為僅 3 個問題,我將根據這些推斷出其他答案。

讓我們舉一個簡單但有啟發性的例子:我們要確定羅伯特的公民身份。零假設:H0,羅伯特是美國公民。備擇假設:H1,他不是。我們的數據:我們知道羅伯特是美國參議員。3.3 億美國公民中有 100 位參議員,因此在零假設下,我們的數據(即 p 值)的概率為 100 / 300,000,000 ≈ 0.000000303。根據統計顯著性規則,我們可以安全地得出結論,我們的零假設被拒絕,羅伯特不是美國公民。

我說這不是 p 值是對的嗎(這是看到測試統計的這個或更多極值的概率)?這是一個正確的統計測試程序嗎?我有一種直覺,認為應用假設檢驗是錯誤的情況,但我無法正式回答原因。

P 值是在所有計算都必須手動完成的時候發明的,因此它們依賴於簡化的統計假設。從廣義上講,他們假設你觀察到的現象服從一些有規律的統計分佈

這似乎是錯誤的,但問題是:我們可以說非參數測試也依賴於一些規則的統計分佈嗎?他們不僅有假設,而且從技術上講,他們的統計數據也遵循一些分佈。

假設業務決策者正在考慮兩種可能的行動,A 和 B。根據觀察到的數據,零收益或負收益的概率為:

動作 A 為 0.08

動作 B 為 0.001

決策者是否應該根據這些數字選擇行動 B?如果我告訴你相應的 90% 置信區間是:

[-0.5m; 99.5m] 用於動作 A [0.1m; 0.2m] 對於行動 B 行動 B 導致零或負結果的概率可能較低,但其對業務的預期價值要低得多,除非業務非常規避風險。

我們可以根據置信區間說什麼是期望值嗎?在這種情況下是一個明確的決定嗎?我一直認為置信區間不一定是對稱的,但我在這裡開始懷疑。

1 他們的意思並不像人們認為的那樣

我說這不是 p 值是對的嗎(這是看到測試統計的這個或更多極值的概率)?這是一個正確的統計測試程序嗎?我有一種直覺,認為應用假設檢驗是錯誤的情況,但我無法正式回答原因。

有人可能會爭辯說,從技術上講,它是一個 p 值。但是,這是一個相當無意義的 p 值。有兩種方法可以將其視為無意義的 p 值

  • Neyman 和 Pearson建議,為了計算 p 值,您選擇似然比(原假設和備擇假設之間)最高的區域。當偏離原假設意味著更有可能進行極端觀察時,您將觀察視為“極端” 。

美國公民的例子並非如此。如果零假設“羅伯特是美國公民”是錯誤的,那麼“羅伯特是美國參議員”的觀察結果就不太可能了。因此,從 Neyman 和 Pearson 的假設檢​​驗方法的角度來看,這是一種非常糟糕的 p 值計算類型。

  • Fisher 的假設檢驗方法的角度來看,您可以測量一些效果,並且 p 值的重點是量化統計顯著性。它作為實驗精度的表達是有用的。

p 值量化了實驗在偏差量化方面的好壞程度。從統計學上講,由於測量值的隨機波動,總會在一定程度上產生影響。當一個觀測值是一個足夠大的波動時,它被認為具有統計學意義,以至於當實際上沒有影響時(當零假設為真時),我們觀察到表面上的影響的概率很低。很有可能我們觀察到效果而實際上沒有效果的實驗並不是很有用。我們使用 p 值來表示這個概率。

通過報告 p 值,研究人員可以證明他們的實驗具有足夠小的噪聲和足夠大的樣本量,因此觀察到的效果在統計上是顯著的(不太可能只是噪聲)。

Fisher 的 p 值是噪聲和隨機波動的一種表達,它們是一種信噪比的表達。建議僅在效應與噪聲水平相比足夠大時才拒絕假設。

儘管在費舍爾的觀點中沒有替代假設,但當我們表達 p 值時,這樣做是為了將某些效應測量為相對於零(無效應)假設的偏差。一定有某種方向感*,可以認為是效果偏差*。

在美國公民實驗的情況下,“羅伯特是美國參議員”的測量與某些效應的測量或與原假設的偏差無關。為它表達一個 p 值是沒有意義的。

美國國籍的例子可能有點奇怪和錯誤。但是,這並不意味著正確。關鍵是要表明簡單的 p 值不是很有意義和正確的。我們需要考慮的還有測試的力量(這在美國公民的例子中是缺失的)。低 p 值可能很好,但如果 p 值同樣低,甚至更低,作為替代解釋怎麼辦?如果您的假設檢驗不佳,那麼我們可以基於(糟糕的)低 p 值“拒絕假設”,而實際上,沒有替代假設更適合。

示例 1:假設您有兩個罐子,一個裝有 50% 的金幣和 50% 的銀幣,另一個裝有 75% 的金幣和 25% 的銀幣。你從一個罐子裡拿出10個硬幣,都是銀子,我們有哪個罐子?我們可以說先驗賠率是 1:1,後驗賠率是 1:1024。我們可以說這個罐子很可能是金:銀 50:50 的罐子,但是當我們觀察 10 個銀幣時,這兩種假設都不太可能,也許我們應該不信任我們的模型。

示例 2:假設您有按二次曲線 y = a + cx^2 分佈的數據。但是你用直線 y = a + b x 擬合它。當我們擬合模型時,我們發現零斜率(無影響)的 p 值極低,因為數據不匹配平線(因為它遵循二次曲線)。但這是否意味著我們應該拒絕係數 b 為零的假設?差異,低 p 值,不是因為原假設為假,而是因為整個模型為假(即當 p 值低時的實際結論,原假設和/或統計模型為假) .

2 他們依賴隱藏的假設

這似乎是錯誤的,但問題是:我們可以說非參數測試也依賴於一些規則的統計分佈嗎?他們不僅有假設,而且從技術上講,他們的統計數據也遵循一些分佈

非參數測試的重點是我們不對數據做任何假設。但是我們計算的統計數據可能遵循某種分佈。

示例:我們想知道一個樣本是否大於另一個樣本。假設樣本是配對的。然後在不知道分佈的情況下,我們可以只計算哪一對更大。與抽取樣本的總體分佈無關,該符號統計量將遵循二項分佈。

因此,非參數檢驗的重點不是計算的統計量沒有分佈,而是統計量的分佈獨立於數據的分佈。

這個“他們依賴隱藏的假設”的觀點是正確的。然而,它有點苛刻,並且在有限的意義上勾勒出假設(好像假設只是為了簡化計算而進行的簡化)。

事實上,許多模型都是簡化的。但我會說參數分佈仍然有用,即使我們現在擁有更多的計算能力並且沒有必要進行簡化。原因是參數分佈並不總是簡化。

  • 一方面:自舉或其他模擬可以接近與計算相同的結果,當計算做出假設、近似和簡化時,自舉甚至可能做得更好。
  • 另一方面:如果參數分佈為真,它會為您提供引導無法提供的信息。當您只有少量數據時,您無法正確估計 p 值或置信區間。使用參數分佈,您可以填補空白。

示例:如果您有來自分佈的十個樣本,那麼您可能會以 10% 的倍數估計分位數,但您將無法估計更小的分位數。如果您知道分佈可以通過某種分佈來近似(基於理論和先前的知識,這樣的假設可能還不錯),那麼您可以使用與參數分佈的擬合來內插十個樣本並將其外推到其他分位數。

示例 2:將參數測試表示為僅對簡化計算有用是稻草人的論點。這不是真的,因為它遠非唯一的原因。人們使用參數測試的主要原因是因為它們更強大。例如,將參數 t 檢驗與非參數 Mann-Whitney U 檢驗進行比較。選擇前者不是因為計算更容易,而是因為它可以更強大。

3 他們偏離了真正的問題

我們可以根據置信區間說什麼是期望值嗎?在這種情況下是一個明確的決定嗎?我一直認為置信區間不一定是對稱的,但我在這裡開始懷疑。

不,置信區間不能提供完整信息。相反,您應該計算一些成本函數來量化決策中的所有考慮因素(需要完整分佈)。

但置信區間可能是一個合理的指標。從單點估計到範圍的步驟是一個很大的差異,並為表示增加了一個全新的維度。

您在這裡的批評也正是博文作者的重點。您批評置信區間未提供完整信息。但是動作 A 的均值 0.08 和動作 B 的均值 0.001 的信息比置信區間還要少,這就是作者所指出的。

這第三點更多的是點估計與區間估計的問題。也許 p 值促進了點估計的使用,但將其用作對 p 值的批評有點牽強。該示例甚至不是關於 p 值的情況,而是關於兩種情況的貝葉斯後驗。

引用自:https://stats.stackexchange.com/questions/551593

comments powered by Disqus