Regression

線性回歸相對於分位數回歸有什麼優勢?

  • March 8, 2019

線性回歸模型做了一堆分位數回歸沒有的假設,如果滿足線性回歸的假設,那麼我的直覺(以及一些非常有限的經驗)是中值回歸將給出與線性回歸幾乎相同的結果。

那麼,線性回歸有什麼優勢呢?它當然更熟悉,但除此之外呢?

經常說最小化最小二乘殘差優於最小化絕對殘差*,因為它在計算上更簡單*。但是,由於其他原因,它*也可能更好。*也就是說,如果假設是正確的(這並不少見),那麼它提供的解決方案(平均而言)更準確。

最大似然

最小二乘回歸和分位數回歸(當通過最小化絕對殘差執行時)可以被視為最大化高斯/拉普拉斯分佈誤差的似然函數,並且在這個意義上非常相關。

  • 高斯分佈:

$$ f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

在最小化殘差平方和時最大化對數似然

$$ \log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}} $$

  • 拉普拉斯分佈:

$$ f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}} $$

當最小化絕對殘差之和時,對數似然最大化

$$ \log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}} $$

注意:拉普拉斯分佈和絕對殘差之和與中位數有關,但可以通過對負殘差和正殘差賦予不同的權重,將其推廣到其他分位數。

已知誤差分佈

當我們知道誤差分佈(假設可能為真)時,選擇相關的似然函數是有意義的。最小化該功能是更優化的。

很多時候,錯誤是(大約)正態分佈的。在這種情況下,使用最小二乘法是找到參數的最佳方法 $ \mu $ (這與平均值和中位數有關)。這是最好的方法,因為它具有最低的樣本方差(所有無偏估計量中最低的)。或者您可以更強烈地說:它是隨機占主導地位的(參見本問題中比較樣本中位數和样本均值分佈的插圖)。

因此,當誤差呈正態分佈時,樣本均值是比樣本中位數更好的分佈中位數估計量。最小二乘回歸是分位數的更優估計。它比使用絕對殘差的最小和要好。

因為很多問題都涉及正態分佈的誤差,所以最小二乘法的使用非常流行。要使用其他類型的分佈,可以使用廣義線性模型。而且,可用於求解 GLM 的迭代最小二乘法也適用於拉普拉斯分佈(即絕對偏差),這相當於找到中位數(或在廣義版本中為其他分位數)。

未知錯誤分佈

魯棒性

中位數或其他分位數的優點是它們在分佈類型方面非常穩健。實際值無關緊要,分位數只關心順序。因此,無論分佈是什麼,最小化絕對殘差(相當於找到分位數)都非常有效。

這個問題在這裡變得複雜而廣泛,它取決於我們對分佈函數有或沒有什麼類型的知識。例如,分佈可能近似正態分佈,但只有一些額外的異常值。這可以通過刪除外部值來解決。這種極值的去除甚至可以用於估計柯西分佈的位置參數,其中截斷的平均值可能是比中位數更好的估計量。因此,不僅對於假設成立的理想情況,而且對於一些不太理想的應用程序(例如額外的異常值),可能仍然有很好的魯棒方法仍然使用某種形式的殘差平方和而不是絕對殘差之和。

我想帶有截斷殘差的回歸在計算上可能要復雜得多。所以它實際上可能是分位數回歸,它是執行的回歸類型,因為它在計算上更簡單(不比普通最小二乘法簡單,但比截斷最小二乘法更簡單)。

有偏見/無偏見

另一個問題是有偏估計與無偏估計。在上面我描述了平均值的最大似然估計,即最小二乘解,作為一個好的或優選的估計量,因為它通常具有所有無偏估計量的最低方差(當誤差是正態分佈時)。但是,有偏差的估計器可能更好(期望的誤差平方和更低)。

這使問題再次變得廣泛而復雜。有許多不同的估計器和許多不同的情況來應用它們。使用經過調整的殘差平方和損失函數通常可以很好地減少誤差(例如各種正則化方法),但它可能不需要對所有情況都有效。直觀地想像,由於殘差平方和損失函數通常適用於所有無偏估計器,因此最佳有偏估計器可能接近殘差平方和損失函數的總和並不奇怪。

引用自:https://stats.stackexchange.com/questions/396392

comments powered by Disqus