Sums-of-Squares

統計中的平方事物-廣義原理[重複]

  • December 11, 2014

你為什麼要在統計數據中平方?在數據挖掘和統計課程中,我遇到過很多這樣的問題,但從來沒有人能給我答案。一個具體的例子是,當對統計數據中的偏差分數求和時,你必須對它們進行平方(否則總和為 0)。你為什麼要對它們進行平方而不是使用其他東西,比如絕對值。

先前問題的區別: 如果您對上述問題有答案,您的答案是否適用於大多數統計數據?如果沒有,為什麼不呢。

$ \newcommand{\predicted}{{\rm predicted}}\newcommand{\actual}{{\rm actual}}\newcommand{\Var}{{\rm Var}} $ 你是對的,人們可以選擇使用絕對誤差——事實上,絕對誤差通常更接近你在從模型進行預測時“關心”的內容。例如,如果您購買一隻股票,期望其未來價格為 $ P_{\predicted} $ 它的未來價格是 $ P_{\actual} $ 相反,您損失的錢與 $ (P_{\predicted} - P_{\actual}) $ ,而不是它的正方形!在許多其他情況下也是如此。

那麼為什麼是平方誤差呢?

平方誤差有許多很好的數學性質。與這裡的其他回答者相呼應,我想說它們中的許多只是“方便”——如果在解決問題時不會造成技術問題,我們可能會選擇使用絕對錯誤。例如:

  • 如果 $ X $ 是一個隨機變量,那麼估計量 $ X $ 最小化平方誤差的是平均值, $ E(X) $ . 另一方面,最小化絕對誤差的估計量是中位數, $ m(X) $ . 平均值比中位數具有更好的屬性;例如, $ E(X + Y) = E(X) + E(Y) $ , 但沒有通用表達式 $ m(X + Y) $ .
  • 如果你有一個向量 $ \vec X = (X_1, X_2) $ 估計由 $ \vec x = x_1, x_2 $ ,那麼對於平方誤差,您是單獨考慮還是一起考慮組件都沒有關係: $ ||\vec X - \vec x||^2 = (X_1 - x_1)^2 + (X_2 - x_2)^2 $ ,所以組件的平方誤差只是增加了。你不能在絕對錯誤的情況下做到這一點。這意味著平方誤差與重新參數化無關:例如,如果您定義 $ \vec Y_1 = (X_1 + X_2, X_1 - X_2) $ ,那麼最小平方偏差估計量為 $ Y $ 和 $ X $ 是相同的,但最小絕對偏差估計量不同。
  • 對於獨立隨機變量,方差(預期平方誤差)添加: $ \Var(X + Y) = \Var(X) + \Var(Y) $ . 對於預期的絕對誤差,情況並非如此。
  • 對於來自多元高斯分佈的樣本(其中概率密度是與平均值的平方距離的指數),無論您使用什麼坐標系,它的所有坐標都是高斯的。對於多元拉普拉斯分佈(如高斯分佈但具有絕對距離而非平方距離),這是不正確的。
  • 概率分類器的平方誤差是一個合適的評分規則。如果您有一個預言機告訴您每個項目的每個類別的實際概率,並且您的評分是根據您的 Brier 分數,那麼您最好的選擇是預測預言機告訴您每個類別的內容。這不適用於絕對誤差。(例如,如果預言機告訴你 $ P(Y=1) = 0.9 $ ,然後預測 $ P(Y=1) = 0.9 $ 產生預期分數 $ 0.9\cdot 0.1 + 0.1 \cdot 0.9 = 0.18 $ ; 相反,您應該預測 $ P(Y=1) = 1 $ , 預期得分為 $ 0.9\cdot 0 + 0.1 \cdot 1 = 0.1 $ .)

不過,一些涉及平方誤差的數學巧合或便利更為重要。他們不會提出解決技術問題的問題;相反,它們為我們提供了為什麼最小化平方誤差可能是一個好主意的內在原因:

  • 當將高斯分佈擬合到一組數據時,最大似然擬合是最小化平方誤差而不是絕對誤差的擬合。
  • 在進行降維時,找到使平方重構誤差最小化的基礎會產生主成分分析,它易於計算,與坐標無關,並且對多元高斯分佈有自然的解釋(找到分佈所形成的橢圓軸) . 有一種稱為“魯棒 PCA”的變體,有時用於最小化絕對重建誤差,但似乎研究較少且更難理解和計算。

看得更深

有人可能會問,平方誤差的許多不同便利性背後是否存在一些深刻的數學真理。據我所知,有一些(在某種意義上是相關的,但我會說不是相同的):

可微性

平方誤差處處可微,而絕對誤差不可微(其導數未定義為 0)。這使得平方誤差更適合數學優化技術。要優化平方誤差,您可以將其導數設置為 0 並求解;優化絕對誤差通常需要更複雜的技術。

內部產品

平方誤差是由基礎空間上的內積引起的。內積基本上是“投影向量”的一種方式 $ x $ 沿矢量 $ y $ ” 或弄清楚“有多少 $ x $ 指向相同的方向 $ y $ ." 在有限維度中,這是標準(歐幾里得)內積 $ \langle a, b\rangle = \sum_i a_ib_i $ . 內部產品使我們能夠以幾何方式思考空間,因為它們給出了以下概念:

  • 一個直角( $ x $ 和 $ y $ 如果是直角 $ \langle x, y\rangle = 0 $ );
  • 和一個長度(長度 $ x $ 是 $ ||x|| = \sqrt{\langle x, x\rangle} $ ).

“平方誤差是由歐幾里得內積引起的”,我的意思是 $ x $ 和 $ y $ 是 $ ||x-y|| $ ,它們之間的歐幾里得距離。事實上,歐幾里得內積在某種意義上是有限維向量空間中“唯一可能的”與軸無關的內積,這意味著平方誤差具有獨特的良好幾何特性。

對於隨機變量,其實可以定義一個類似的內積: $ \langle X, Y\rangle = E(XY) $ . 這意味著我們可以想像一個隨機變量的“幾何”,其中兩個變量成“直角”,如果 $ E(XY) = 0 $ . 並非巧合的是,“長度” $ X $ 是 $ E(X^2) $ ,這與它的方差有關。事實上,在這個框架中,“獨立方差相加”只是勾股定理的結果:

$$ \begin{align} \Var(X + Y) &= ||(X - \mu_X), + (Y - \mu_Y)||^2 \ &= ||X - \mu_X||^2 + ||Y - \mu_Y||^2 \ &= \Var(X)\quad\ \ , + \Var(Y). \end{align} $$

超越平方誤差

考慮到這些很好的數學性質,我們會不想使用平方誤差嗎?好吧,正如我在一開始提到的那樣,有時絕對誤差更接近我們在實踐中“關心”的內容。例如,如果您的數據有比高斯更粗的尾部,那麼最小化平方誤差可能會給離群點帶來過多的權重。

絕對誤差對此類異常值不太敏感。(例如,如果您在樣本中觀察到異常值,它會根據異常值的大小成比例地改變平方誤差最小化平均值,但幾乎不會改變絕對誤差最小化中值!)雖然絕對誤差不會沒有像平方誤差一樣好的數學性質,這只是意味著絕對誤差問題更難解決,並不是說它們在某種意義上客觀上更糟。結果是,隨著計算方法的進步,我們已經能夠以數值方式解決絕對誤差問題,從而導致魯棒統計方法子領域的興起。

事實上,一些平方誤差和絕對誤差方法之間有相當好的對應關係:

Squared error           | Absolute error
========================|============================
Mean                    | Median
Variance                | Expected absolute deviation
Gaussian distribution   | Laplace distribution
Linear regression       | Quantile regression
PCA                     | Robust PCA
Ridge regression        | LASSO

隨著我們在現代數值方法上的進步,毫無疑問我們會發現其他有用的基於絕對誤差的技術,平方誤差和絕對誤差方法之間的差距將會縮小。但是由於平方誤差和高斯分佈之間的聯繫,我認為它永遠不會完全消失。

引用自:https://stats.stackexchange.com/questions/127598

comments powered by Disqus

相關問答