Machine-Learning

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤?

  • July 28, 2021

在 Hastie、Tibshirani 和 Friedman (2013) The Elements of Statistic Learning 的第 7.2 節中,我們有目標變量 $ Y $ , 和一個預測模型 $ \hat{f}(X) $ 從訓練集估計的 $ \mathcal{T} = {Y_1, …, Y_N, X_1, …, X_N} $ . 損失表示 $ L(Y, \hat{f}(X)) $ ,然後作者定義了測試錯誤: $$ \begin{equation} \mathrm{Err}{\mathcal{T}} = \mathbb{E} \left[ L(Y, \hat{f}(X)) | \mathcal{T} \right] , \end{equation} $$ 和預期的測試錯誤: $$ \begin{equation} \mathrm{Err} = \mathbb{E} (\mathrm{Err}{\mathcal{T}}) . \end{equation} $$ 作者接著說:

估計 $ \mathrm{Err}_{\mathcal{T}} $ 將是我們的目標…

我的問題:為什麼我們更關心 $ \mathrm{Err}_{\mathcal{T}} $ 比 $ \mathrm{Err} $ ?

我會認為衡量預期損失的數量,無論使用什麼訓練樣本,都會比一個特定訓練樣本的預期損失更有趣。我在這裡想念什麼?

另外,我在這裡閱讀了這個答案(基於我可能不正確的閱讀)似乎同意我的觀點 $ \mathrm{Err} $ 是感興趣的數量,但建議我們經常談論 $ \mathrm{Err}{\mathcal{T}} $ 因為它可以通過交叉驗證來估計。但這似乎與教科書的第 7.12 節相矛盾,該節(再次通過我可能不正確的閱讀)似乎表明交叉驗證提供了更好的估計 $ \mathrm{Err} $ 比 $ \mathrm{Err}{\mathcal{T}} $ .

我在這個問題上繞圈子,所以我想我會在這裡問。

為什麼我們更關心 $ \operatorname{Err}_{\mathcal{T}} $ 比 Err?

我只能猜測,但我認為這是一個合理的猜測。

前者涉及我們現在擁有的訓練集的錯誤。它回答“如果我要使用這個數據集來訓練這個模型,我會期望什麼樣的錯誤?”。很容易想到想要知道這個數量的人的類型(例如數據科學家、應用統計學家,基本上任何使用模型作為達到目的的手段的人)。這些人並不關心模型在新訓練集本身上的屬性,他們只關心他們製作的模型將如何執行。

將此與後一個錯誤進行對比,後者是前一個錯誤在所有訓練集中的預期。它回答“如果我要收集無限序列的新訓練示例,我要計算 $ \operatorname{Err}_{\mathcal{T}} $ 對於無限序列中的每個訓練集,該錯誤序列的平均值是多少?”。很容易想到關心這個數量的人的類型(例如研究人員、理論家等)。這些人他們不關心模型的任何一個實例(與上一段中的人相反),他們對模型的一般行為感興趣。

那麼為什麼是前者而不是後者呢?這本書主要關注當讀者手頭有一個數據集並想知道該模型如何在新數據上執行時,如何擬合和驗證模型。

引用自:https://stats.stackexchange.com/questions/536279

comments powered by Disqus