Deborah Mayo 是否反駁了 Birnbaum 的似然原理證明?
這與我之前的問題有些相關:似然原則真的重要的示例?
顯然,Deborah Mayo在Statistical Science上發表了一篇論文,駁斥了 Birnbaum 的似然原理證明。誰能解釋伯恩鮑姆的主要論點和梅奧的反論點?她是對的嗎(邏輯上)?
簡而言之,伯恩鮑姆的論點是兩個被廣泛接受的原則在邏輯上意味著似然原則必須成立。Mayo 的反駁論點是證明是錯誤的,因為 Birnbaum 濫用了其中一項原則。
下面我將論證簡化到它們不是很嚴格的程度。我的目的是讓更廣泛的受眾能夠理解它們,因為最初的論點是非常技術性的。感興趣的讀者應該在問題和評論中鏈接的文章中查看詳細信息。
為了具體起見,我將重點關注具有未知偏差的硬幣的情況 θ . 實驗中 E1 我們翻轉它 10 次。實驗中 E2 我們翻轉它,直到我們獲得 3 個“尾巴”。實驗中 Emix 我們擲一枚兩邊都標有“1”和“2”的公平硬幣:如果它落在“1”上,我們執行 E1 ; 如果它落在“2”我們執行 E2 . 這個例子將大大簡化討論並展示論證的邏輯(原始證明當然更一般)。
原則:
以下兩個原則被廣泛接受:
弱條件原則說,如果我們決定進行實驗,我們應該得出相同的結論 E1 ,或者如果我們決定執行 Emix 硬幣落在“1”上。
充分性原則說我們應該在兩個實驗中得出相同的結論,其中充分的統計量具有相同的值。
以下原則被貝葉斯接受,但不被常客接受。然而,伯恩鮑姆聲稱這是前兩者的合乎邏輯的結果。
似然原理說我們應該在似然函數成比例的兩個實驗中得出相同的結論。
伯恩鮑姆定理:
說我們表演 E1 我們在十次翻轉中獲得了 7 個“正面”。似然函數 θ 是 (103)θ7(1−θ)3 . 我們執行 E2 並且需要擲硬幣 10 次才能獲得 3 個“反面”。似然函數 θ 是 (97)θ7(1−θ)3 . 這兩個似然函數是成比例的。
伯恩鮑姆考慮以下統計數據 Emix 從 1,2×N2 到 1,2×N2 : T:(ξ,x,y)→(1,x,y),
在哪裡 x 和 y 分別是“正面”和“反面”的數量。所以無論發生什麼, T 報告結果就好像它來自實驗 E1 . 事實證明 T 足以 θ 在 Emix . 唯一不平凡的情況是 x=7 和 y=3 , 我們有P(Xmix=(1,x,y)|T=(1,x,y))=0.5×(103)θ7(1−θ)30.5×(103)θ7(1−θ)3+0.5×(97)θ7(1−θ)3\=(103)(103)+(97), a value that is independent of θ.
所有其他情況都是 0 或 1——除了 P(Xmix=(2,x,y)|T=(1,x,y)) ,它是上述概率的補集。的分佈 Xmix 給定 T 獨立於 θ , 所以 T 是一個充分的統計量 θ .現在,根據充分性原則,我們必須得出相同的結論 (1,x,y) 和 (2,x,y) 在 Emix ,並且根據弱條件性原則,我們必須得出相同的結論 (x,y) 在 E1 和 (1,x,y) 在 Emix , 以及對於 (x,y) 在 E2 和 (2,x,y) 在 Emix . 所以我們的結論在所有情況下都必須是相同的,這就是似然原理。
梅奧的反證:
Birnbaum 的設置不是混合實驗,因為沒有觀察到標記為“1”和“2”的硬幣的結果,因此弱條件原則不適用於這種情況。
參加測試 θ=0.5 相對 θ>0.5 並從檢驗的 p 值得出結論。作為初步觀察,請注意 (7,3) 在 E1 由二項分佈給出 0.1719 ; p 值 (7,3) 在 E2 由負二項分佈給出 0.0898 .
重要的部分來了:p 值 T=(1,7,3) 在 Emix 是作為兩者的平均值給出的——記住我們不知道硬幣的狀態——即大約 0.1309 . 然而 p 值 (1,7,3) 在 Emix ——觀察硬幣的地方——與 E1 ,即大約 0.1719 . 弱條件原則成立(結論與 E1 並且在 Emix 硬幣落在“1”的地方),但似然原理卻沒有。反例反駁了伯恩鮑姆定理。
Peña 和 Berger 對 Mayo 反證的反駁:
梅奧含蓄地改變了充分性原則的表述:她將“相同的結論”解釋為“相同的方法”。取 p 值是一種推理方法,但不是結論。這很重要,因為即使兩個 p 值不同,代理也可以得出相同的結論。這並不意味著如果 p 值為 0.8 或 0.9,則您接受原假設,而是意味著 Mayo 的兩個 p 值是從不同的實驗(具有不同結果的不同概率空間)中計算出來的,所以有了這些信息,即使值不同,您也可以得出相同的結論。
充分性原則說,如果存在充分的統計量,那麼結論一定是相同的,但它根本不需要使用充分的統計量。如果確實如此,就會導致矛盾,正如梅奧所證明的那樣。