Bayesian

貝葉斯何時(以及為什麼)拒絕有效的貝葉斯方法?[關閉]

  • August 21, 2016

從我讀過的內容和對我在這裡提出的其他問題的回答來看,許多所謂的頻率論方法在數學上對應(我不在乎它們是否在哲學上對應,我只關心它是否在數學上對應)所謂的特殊情況貝葉斯方法(對於那些反對這一點的人,請參閱本問題底部的註釋)。這個對相關問題(不是我的)的回答支持這個結論:

大多數頻率學方法都有一個貝葉斯等價物,在大多數情況下會給出基本相同的結果。

請注意,在下文中,數學上相同意味著給出相同的結果。如果你描述兩種可以證明總是給出相同結果的方法是“不同的”,那是你的權利,但這是一種哲學判斷,不是數學判斷,也不是實際判斷。

然而,許多自稱為“貝葉斯”的人似乎在任何情況下都拒絕使用最大似然估計,即使它是(數學上)貝葉斯方法的一個特例,因為它是一種“頻率論方法”。顯然,與常客相比,貝葉斯主義者也使用有限/有限數量的分佈,即使從貝葉斯的角度來看,這些分佈在數學上也是正確的。

**問題:**貝葉斯主義者何時以及為什麼拒絕從貝葉斯觀點來看數學上正確的方法?這有什麼不是“哲學”的理由嗎?

在此處輸入圖像描述

**背景/上下文:**以下是對我在 CrossValidated 上一個問題的回答和評論的引用:

貝葉斯與常客辯論的數學基礎非常簡單。在貝葉斯統計中,未知參數被視為隨機變量;在頻率統計中,它被視為一個固定元素……

從上面我可以得出結論,(從數學上講)貝葉斯方法比頻率論方法更普遍,因為頻率論模型滿足所有與貝葉斯模型相同的數學假設,但反之則不然。然而,同樣的答案認為我從上面得出的結論是不正確的(下面的重點是我的):

儘管常數是隨機變量的特例,但我會猶豫得出貝葉斯主義更普遍的結論。**通過簡單地將隨機變量折疊為常數,您不會從貝葉斯結果中獲得常客結果。**區別就更深了……

進入個人喜好……我不喜歡貝葉斯統計使用相當有限的可用分佈子集。

另一位用戶在他們的回答中表示相反,貝葉斯方法通用,儘管奇怪的是,我能找到的最佳理由是在之前的回答中,這是由受過常客訓練的人給出的。

數學上的結果是,頻率論者認為概率的基本方程只是有時適用,而貝葉斯論者認為它們總是適用。所以他們認為相同的方程是正確的,但它們的普遍性不同……貝葉斯比頻率論更普遍。由於任何事實都可能存在不確定性,因此可以為任何事實分配概率。特別是,如果您正在處理的事實與現實世界的頻率相關(作為您正在預測的事物或數據的一部分),那麼貝葉斯方法可以像對待任何其他現實世界的事實一樣考慮和使用它們。因此,頻率論者認為他們的方法適用於貝葉斯的任何問題也可以自然地解決。

從以上答案中,我的印像是,常用的貝葉斯術語至少有兩種不同的定義。第一個我稱之為“數學貝葉斯”,它包含所有統計方法,因為它包括常數 RV 和非常數 RV 的參數。然後是“文化貝葉斯”,它拒絕一些“數學貝葉斯”方法,因為這些方法是“頻率主義者”(即出於個人敵意,有時將參數建模為常數或頻率)。上述問題的另一個答案似乎也支持這個猜想:

還值得注意的是,兩個陣營使用的模型之間存在很多分歧,這些分歧更多地與已經完成的事情相關,而不是與可以完成的事情相關(即一個陣營傳統上使用的許多模型可以被另一個陣營證明是合理的)。

所以我想另一種表達我的問題的方式如下:如果文化貝葉斯主義者拒絕許多數學貝葉斯方法,為什麼他們稱自己為貝葉斯主義者?為什麼他們拒絕這些數學貝葉斯方法?對於最經常使用這些特定方法的人來說,這是個人仇恨嗎?

編輯:如果兩個對象具有相同的屬性**,則它們在數學意義上是等效的,無論它們是如何構造的。例如,我可以想到至少五種不同的方式來構建虛數單位 $ i $ . 然而,關於虛數的研究,至少有五種不同的“思想流派”。事實上,我相信只有一個,那就是研究它們的特性的那群人。對於那些反對使用最大似然獲得點估計與使用最大先驗和統一先驗獲得點估計不同的人來說,因為所涉及的計算不同,我承認它們在哲學意義上是不同的,但是它們總是給出相同的估計值的程度,它們在數學上是等價的,因為它們具有相同的屬性。也許哲學上的差異與您個人有關,但與這個問題無關。

**注意:**這個問題最初對具有統一先驗的 MLE 估計和 MAP 估計進行了錯誤的表徵。

我想糾正原帖中的一個錯誤假設,這是一個相對常見的錯誤。OP 說:

從我讀過的內容和我在這裡提出的其他問題的答案來看,最大似然估計在數學上對應(我不在乎它是否在哲學上對應,我只關心它是否在數學上對應)與使用統一先驗的最大先驗估計(對於那些反對這一點的人,請參閱此問題底部的註釋)。

帖子底部的註釋說:

如果兩個對象具有相同的屬性,則無論它們是如何構造的,它們在數學意義上是等價的。[…]

我的反對意見是,撇開哲學不談,最大似然估計 (MLE) 和最大後驗 (MAP) 估計具有相同的數學屬性。

至關重要的是,在空間的(非線性)重新參數化下,MLE 和 MAP 的變換方式不同。發生這種情況是因為 MLE 在每個參數化中都有一個“平坦先驗”,而 MAP 沒有(先驗轉換為概率密度,因此有一個雅可比項)。

數學對象的定義包括對像在變量變換等運算符下的行為(例如,參見定義 a tensor)。

總之,MLE 和 MAP 在哲學上和數學上都不是一回事。這不是一個意見。

引用自:https://stats.stackexchange.com/questions/230921

comments powered by Disqus