對回歸函數的推導感到困惑

August 11, 2013

我剛拿到Hastie、Tibshirani 和 Friedman*的《統計學習要素》。*在第 2 章（監督學習概述）第 4 節（統計決策理論）中，他給出了回歸函數的推導。

讓 $ X \in \mathbb{R}^p $ 表示實值隨機輸入向量，並且 $ Y\in\mathbb{R} $ 具有聯合分佈的實值隨機輸出變量 $ Pr(X,Y) $ . 我們尋求一個函數 $ f(X) $ 用於預測 $ Y $ 輸入的給定值 $ X $ . 這個理論需要一個損失函數 $ L(Y,f(X)) $ 用於懲罰預測中的錯誤，到目前為止，最常見和最方便的是平方誤差損失： $ L(Y,f(X))=(Y −f(X))^2 $ . 這為我們提供了一個選擇標準 $ f $ ,

$$ \begin{align*} EPE(f) &= E(Y-f(X))^2 \ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*} $$預期的（平方）預測誤差。

我完全理解設置和動機。我的第一個困惑是：他的意思是 $ E[(Y - f(x))]^2 $ 或者 $ E[(Y - f(x))^2] $ ? 二、沒見過記號 $ Pr(dx,dy) $ . 有人可以向我解釋它的含義嗎？難道只是這樣 $ Pr(dx) = Pr(x)dx $ ? 唉，我的困惑還不止於此，

通過調節 $ X $ ，我們可以寫 $ EPE $ 作為$$ \begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*} $$

我缺少這兩個步驟之間的聯繫，並且我不熟悉“調理”的技術定義。讓我知道我是否可以澄清任何事情！我認為我的大部分困惑來自不熟悉的符號。我有信心，如果有人能把這個推導分解成簡單的英語，我會明白的。感謝 stats.SE！

對於您的第一個困惑，它應該是平方誤差的期望，所以它是

對於符號, 等於，在哪裡是 x 和 y 的聯合 pdf。和，這可以解釋為 x 在一個很小的區間內的概率等於該點的pdf值， IE乘以區間長度.

關於 EPE 的方程源於定理對於任意兩個隨機變量和. 您可以使用條件分佈來證明這一點。條件期望是使用條件分佈計算的期望。條件分佈表示概率在你知道一些事情之後.

在我們的例子中，假設我們將平方誤差表示為一個函數, EPE 正在計算

上面的結果與您列出的結果相對應。希望這可以幫助你一點。

引用自：https://stats.stackexchange.com/questions/67038

comments powered by Disqus

對回歸函數的推導感到困惑

相關問答

泊松分佈數據的邏輯回歸

隨機森林是不平衡數據分類的好選擇嗎？[關閉]

自變量和特徵有什麼區別？

偏差和誤差之間的區別？

統計學習理論VS計算學習理論？

有監督的聚類或分類？