Machine-Learning

嶺回歸的 L2 歸一化會懲罰截距嗎?如果不是,如何解決它的導數?

  • January 8, 2018

我是 ML 新手。我被告知嶺回歸的 L2 歸一化不會懲罰截距. 在成本函數中:

L2 歸一化項只有總和到,而不是從到. 我還讀到:

在大多數情況下(所有情況?),你最好不要正則化,因為它不太可能減少過擬合併縮小可表示函數的空間

這來自為什麼零截距線性回歸模型的預測比具有截距的模型更好的 user48956 的最後一個答案?

我對如何解決成本函數的導數感到困惑,因為:

在哪裡,和. 和是不同的。因此,從我的角度來看,它們不能混為一談。導數是關於,其中包含. 在谷歌搜索並查看此論壇上的問題後,我仍然無法獲得解決方案:

任何人都可以給我一個線索嗎?在此先感謝您的幫助! 但是,我認為有兩個快速解決此問題的方法:

首先,我們不將所有 1 列添加到. 即. 也就是說我們在模型中根本不包含截距:

我相信我目前正在閱讀的 Peter Harrington 的經典著作*Machine Learning in Action採用了這種方法。*在嶺回歸的實現中(P166 和 P177,如果你也有這本書),所有的傳遞給嶺回歸沒有全部 1 列。所以根本沒有安裝截距。 其次,攔截也在現實中受到懲罰。

scikit 的邏輯回歸默認對截距進行正則化。

這再次來自用戶 48956 的最後一個答案,為什麼零截距線性回歸模型比具有截距的模型預測得更好?

這兩個快速修復都導致了解決方案

那麼嶺回歸的 L2 歸一化的導數實際上可以解決還是只是通過快速修復解決?

Hastie 等人*的統計學習要素。*在 P63 中指出:

攔截已被排除在刑期之外

此外,它說:

嶺解在輸入縮放下不是等變的,因此通常在求解 (3.41) 之前對輸入進行標準化(3.41 是成本函數)。可以證明(練習 3.5),(3.41)的解可以分成兩部分,在使用中心輸入重新參數化之後:每個被取代 我們估計經過 剩餘的係數通過沒有截距的嶺回歸估計,使用居中的. 此後我們假設這個中心已經完成,所以輸入矩陣擁有(而不是) 列。

雖然我想知道為什麼統計學習的要素首先建議特徵標準化,然後只進行特徵中心化。也許同意僅使用特徵居中的練習 3.5。

無論如何,我相信將 z-score 標準化應用於特徵是正確的。所以我現在嘗試按照上述評論者阿米巴的建議解決嶺回歸的成本函數的導數。非常感謝他或她!

一、成本函數:

在哪裡是屬性的平均值和是標準差. 為了使它更短:

現在我們首先計算在上面的表達式中,通過設置關於的導數等於零。自從不具有,我們得到:

那是:

作為(因為是屬性的平均值),所以現在我們有了明顯地:

所以特徵標準化嶺回歸的截距總是. 因此,如果我們首先集中通過減去它的平均值(得到 數據示例),不包括所有 1 列,然後對(得到為了數據示例),成本函數將簡單地為

那是

在哪裡,沒有全部 1 列和標準化的,相對於. 現在(沒有) 可以解決:

對於標準化特徵,線性模型將是

在哪裡 如果我們按照Plasty Grove 的答案中的建議在 (1) 中使用 (2) 。所以對於原始輸入數據,線性模型將是

那是

這就是為什麼在我們解決標準化特徵的係數之後,要返回原始輸入數據(非標準化特徵)的係數,我們必須返回

引用自:https://stats.stackexchange.com/questions/322101

comments powered by Disqus