Regression

對回歸函數的推導感到困惑

  • August 11, 2013

我剛拿到Hastie、Tibshirani 和 Friedman*的《統計學習要素》 。*在第 2 章(監督學習概述)第 4 節(統計決策理論)中,他給出了回歸函數的推導。

XRp 表示實值隨機輸入向量,並且 YR 具有聯合分佈的實值隨機輸出變量 Pr(X,Y) . 我們尋求一個函數 f(X) 用於預測 Y 輸入的給定值 X . 這個理論需要一個損失函數 L(Y,f(X)) 用於懲罰預測中的錯誤,到目前為止,最常見和最方便的是平方誤差損失: L(Y,f(X))=(Yf(X))2 . 這為我們提供了一個選擇標準 f ,

EPE(f)=E(Yf(X))2 =[yf(x)]2Pr(dx,dy)

預期的(平方)預測誤差。

我完全理解設置和動機。我的第一個困惑是:他的意思是 E[(Yf(x))]2 或者 E[(Yf(x))2] ? 二、沒見過記號 Pr(dx,dy) . 有人可以向我解釋它的含義嗎?難道只是這樣 Pr(dx)=Pr(x)dx ? 唉,我的困惑還不止於此,

通過調節 X ,我們可以寫 EPE 作為EPE(f)=EXEY|X([Yf(X)]2|X)

我缺少這兩個步驟之間的聯繫,並且我不熟悉“調理”的技術定義。讓我知道我是否可以澄清任何事情!我認為我的大部分困惑來自不熟悉的符號。我有信心,如果有人能把這個推導分解成簡單的英語,我會明白的。感謝 stats.SE!

對於您的第一個困惑,它應該是平方誤差的期望,所以它是

對於符號, 等於, 在哪裡是 x 和 y 的聯合 pdf。和,這可以解釋為 x 在一個很小的區間內的概率等於該點的pdf值, IE乘以區間長度.

關於 EPE 的方程源於定理對於任意兩個隨機變量和. 您可以使用條件分佈來證明這一點。條件期望是使用條件分佈計算的期望。條件分佈表示概率在你知道一些事情之後.

在我們的例子中,假設我們將平方誤差表示為一個函數, EPE 正在計算

上面的結果與您列出的結果相對應。希望這可以幫助你一點。

引用自:https://stats.stackexchange.com/questions/67038