Normal-Distribution

為什麼平方差如此常用?

  • January 8, 2015

很多時候,當我研究新的統計方法和概念時,我會遇到平方差(或均方誤差,或過多的其他綽號)。舉個例子,皮爾遜的 r 是根據與點所在的回歸線的均方差來確定的。對於方差分析,您正在查看平方和,等等。

現在,我明白,通過對所有內容進行平方,您可以確保具有異常值的數據真正受到懲罰。但是,為什麼使用的指數正好是 2?為什麼不是 2.1,或 e,或 pi,或其他什麼?使用 2 是否有一些特殊原因,或者它只是一個約定?我懷疑這個解釋可能與鍾形曲線有關,但我很確定。

統計決策理論方法提供了深刻的解釋。 它說,平方差異是廣泛損失函數的代表(只要它們可能被合理地採用)導致人們必須考慮的可能統計程序的相當大的簡化。

不幸的是,解釋這意味著什麼並指出為什麼它是真的需要大量的設置。符號很快就會變得難以理解。那麼,我在這裡的目的只是勾勒出主要思想,幾乎沒有詳細說明。有關更完整的帳戶,請參閱參考資料。


標準的、豐富的數據模型 $ \mathbf x $ 假設它們是(實數,向量值)隨機變量的實現 $ \mathbf X $ 誰的分佈 $ F $ 只知道是某個集合的一個元素 $ \Omega $ 分佈,自然狀態。統計過程是一個函數 $ t $ 的 $ \mathbf x $ 在某些決策中取值 $ D $ ,決策空間。

例如,在預測或分類問題中 $ \mathbf x $ 將由“訓練集”和“數據測試集”的聯合組成,並且 $ t $ 將映射 $ \mathbf x $ 為測試集的一組預測值。所有可能的預測值的集合將是 $ D $ .

程序的完整理論討論必須適應隨機程序。隨機程序根據某種概率分佈(取決於數據)在兩個或多個可能的決策中進行選擇 $ \mathbf x $ )。它概括了一個直觀的想法,即當數據似乎無法區分兩個備選方案時,您隨後“擲硬幣”來決定一個明確的備選方案。許多人不喜歡隨機程序,反對以這種不可預測的方式做出決定。

決策理論的顯著特徵是它使用損失函數 $ W $ . 對於任何自然狀態 $ F \in \Omega $ 和決定 $ d \in D $ , 損失

$$ W(F,d) $$

是一個數值,表示做出決定有多“糟糕” $ d $ 當真正的自然狀態是 $ F $ : 小虧好,大虧壞。例如,在假設檢驗的情況下, $ D $ 有兩個元素“接受”和“拒絕”(原假設)。損失函數強調做出正確的決策:當決策正確時設置為零,否則為常數 $ w $ . (這被稱為“ $ 0-1 $ 損失函數:“所有糟糕的決定都同樣糟糕,所有好的決定都同樣好。)具體來說, $ W(F,\text{ accept})=0 $ 什麼時候 $ F $ 在原假設中並且 $ W(F,\text{ reject})=0 $ 什麼時候 $ F $ 是在備擇假設中。

使用程序時 $ t $ , 數據的損失 $ x $ 當真正的自然狀態是 $ F $ 可以寫 $ W(F, t(x)) $ . 這使得損失 $ W(F, t(X)) $ 一個隨機變量,其分佈由(未知數)決定 $ F $ .

程序的預期損失 $ t $ 稱為它的風險, $ r_t $ . 期望用真實的自然狀態 $ F $ ,因此它將顯式顯示為期望運算符的下標。我們將風險視為一個函數 $ F $ 並用符號強調這一點:

$$ r_t(F) = \mathbb{E}_F(W(F, t(X))). $$

更好的程序具有更低的風險。 因此,比較風險函數是選擇好的統計程序的基礎。由於用一個共同(正)常數重新調整所有風險函數不會改變任何比較,因此 $ W $ 沒有區別:我們可以自由地將它乘以我們喜歡的任何正值。特別是,在乘以 $ W $ 經過 $ 1/w $ 我們可能總是採取 $ w=1 $ 為一個 $ 0-1 $ 損失函數(證明它的名字)。

繼續假設檢驗的例子,它說明了一個 $ 0-1 $ 損失函數,這些定義意味著任何風險 $ F $ 零假設中的決定是“拒絕”的機會,而任何風險 $ F $ 另一種情況是決定是“接受”的機會。最大值(總 $ F $ 在原假設中) 是檢驗規模,而在備擇假設上定義的風險函數部分是檢驗功效的補充( $ \text{power}_t(F) = 1 - r_t(F) $ )。在本文中,我們看到了整個經典(頻率論者)假設檢驗理論如何等同於一種特殊的方式來比較一種特殊損失的風險函數。

順便說一句,到目前為止所呈現的一切都與所有主流統計數據完美兼容,包括貝葉斯範式。此外,貝葉斯分析引入了“先驗”概率分佈 $ \Omega $ 並用它來簡化風險函數的比較:潛在復雜的函數 $ r_t $ 可以用它相對於先驗分佈的期望值代替。因此所有程序 $ t $ 以單個數字為特徵 $ r_t $ ; 貝葉斯過程(通常是唯一的)最小化 $ r_t $ . 損失函數在計算中仍然起著至關重要的作用 $ r_t $ .

圍繞損失函數的使用存在一些(不可避免的)爭議。 怎麼選 $ W $ ? 對於假設檢驗來說​​,它本質上是獨一無二的,但在大多數其他統計設置中,許多選擇都是可能的。它們反映了決策者的價值觀。例如,如果數據是內科患者的生理測量結果,並且決定是“治療”或“不治療”,則醫生必須考慮並權衡任何一種行動的後果。如何權衡後果可能取決於患者自己的意願、年齡、生活質量和許多其他因素。損失函數的選擇可能令人擔憂且非常個人化。通常它不應該留給統計學家!

那麼,我們想知道的一件事是,當損失發生變化時,最佳程序的選擇將如何變化? 事實證明,在許多常見的實際情況下,可以容忍一定數量的變化,而無需更改最佳程序。這些情況具有以下特徵:

  • 決策空間是一個凸集(通常是一個數字區間)。這意味著位於任何兩個決策之間的任何值也是有效決策。
  • 當做出可能的最佳決策時,損失為零,否則會增加(以反映做出的決策與可能為真實但未知的自然狀態做出的最佳決策之間的差異)。
  • 損失是決策的可微函數(至少局部接近最佳決策)。這意味著它是連續的——它不會以 a 的方式跳躍 $ 0-1 $ loss 確實如此——但這也意味著當決策接近最佳決策時,它的變化相對較小。

**當這些條件成立時,比較風險函數所涉及的一些複雜性就會消失。**的可微性和凸性 $ W $ 讓我們應用Jensen 不等式來證明

(1) 我們不必考慮隨機程序 [Lehmann, 推論 6.2]。

(2) 如果一個程序 $ t $ 被認為對這樣一種風險最大 $ W $ , 可以改進成一個過程 $ t^{} $ 它僅依賴於足夠的統計數據,並且**對於所有此類*情況至少具有同樣好的風險函數 $ W $ [基弗,p。151]。

例如,假設 $ \Omega $ 是具有均值的正態分佈的集合 $ \mu $ (和單位方差)。這標識 $ \Omega $ 與所有實數的集合,所以(濫用符號)我也將使用“ $ \mu $ “來確定分佈在 $ \Omega $ 平均 $ \mu $ . 讓 $ X $ 是一個大小的獨立同分佈樣本 $ n $ 從這些分佈之一。假設目標是估計 $ \mu $ . 這確定了決策空間 $ D $ 所有可能的值 $ \mu $ (任何實數)。讓 $ \hat\mu $ 指定一個任意決定,損失是一個函數

$$ W(\mu, \hat\mu) \ge 0 $$

和 $ W(\mu, \hat\mu)=0 $ 當且僅當 $ \mu=\hat\mu $ . 前面的假設意味著(通過泰勒定理)

$$ W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2 $$

對於一些恆定的正數 $ w_2 $ . (小O符號“ $ o(y)^p $ " 表示任何函數 $ f $ 其中的極限值 $ f(y) / y^p $ 是 $ 0 $ 作為 $ y\to 0 $ .) 如前所述,我們可以自由調整 $ W $ 使 $ w_2=1 $ . 對於這個家庭 $ \Omega $ , 的平均值 $ X $ , 寫 $ \bar X $ , 是一個充分的統計量。先前的結果(引自 Kiefer)表示 $ \mu $ ,這可能是 $ n $ 變量 $ (x_1, \ldots, x_n) $ 這對這樣的人有好處 $ W $ , 可以轉換為估計量,僅取決於 $ \bar x $ 這至少對所有這些都一樣好 $ W $ .

在這個例子中完成的是典型的:非常複雜的一組可能的程序,最初由可能的隨機函數組成 $ n $ 變量,已簡化為由單個變量的**非隨機函數組成的一組更簡單的程序(或在足夠多的統計數據為多變量的情況下,至少變量數量較少)。並且這可以不用擔心決策者的損失函數是什麼,只要它是凸的和可微的。

最簡單的損失函數是什麼? 當然,忽略餘項的那個,使它純粹是一個二次函數。同一類中的其他損失函數包括 $ z = |\hat\mu-\mu| $ 大於 $ 2 $ (如那個 $ 2.1, e, $ 和 $ \pi $ 問題中提到), $ \exp(z)-1-z $ , 還有很多。

數字

藍色(上)曲線圖 $ 2(\exp(|z|)-1-|z|) $ 而紅色(下部)曲線繪製 $ z^2 $ . 因為藍色曲線也有一個最小值 $ 0 $ , 是可微的,並且是凸的,二次損失(紅色曲線)所享有的統計過程的許多良好特性也將適用於藍色損失函數(即使全局指數函數的行為與二次函數不同)。

這些結果(儘管顯然受限於所施加的條件)有助於解釋為什麼二次損失在統計理論和實踐中無處不在:在有限的範圍內,它是任何凸可微損失函數的分析方便的代理。


二次損失絕不是要考慮的唯一甚至最好的損失。 事實上,萊曼寫道

已經看到凸損失函數導致估計問題的許多簡化。然而,人們可能想知道這樣的損失函數是否可能是現實的。如果 $ W(F, d) $ 不僅代表不准確的衡量標準,而且代表真實的(例如,財務)損失,有人可能會爭辯說所有這些損失都是有限的:一旦你失去了所有,你就不能再失去了。…

… [F] 快速增長的損失函數導致估計器往往對[假設分佈的]尾部行為的假設敏感,這些假設通常基於很少的信息,因此不是很可靠的。

事實證明,由平方誤差損失產生的估計量通常在這方面非常敏感。

[雷曼兄弟,第 1.6 節;有一些符號的變化。]

**考慮替代損失開闢了一系列豐富的可能性:**分位數回歸、M 估計器、穩健統計等等都可以以這種決策理論方式構建,並使用替代損失函數證明是合理的。有關簡單示例,請參閱百分比損失函數


參考

Jack Carl Kiefer,統計推斷導論。 施普林格出版社 1987 年。

EL Lehmann,點估計理論。威利 1983 年。

引用自:https://stats.stackexchange.com/questions/132622

comments powered by Disqus

相關問答