Regression

應該R2R2R^2是根據訓練數據還是測試數據計算?

  • May 26, 2018

計算時線性回歸模型的值,應該在訓練數據集、測試數據集還是兩者上計算,為什麼?

此外,計算時和根據上面的維基百科文章,兩個總和是否應該在同一個數據集上?換句話說,如果計算在訓練數據集上,是否需要 也可以在訓練數據集上計算?(對於測試數據集也是如此。)

測試數據向您展示了您的模型的泛化程度。當您通過模型運行測試數據時,正是您一直在等待的時刻:它是否足夠好?

在機器學習領域,呈現所有訓練、驗證和測試指標是很常見的,但最重要的是測試準確性。

但是,如果你得到一個低 $ R^2 $ 一個得分,而不是另一個得分,那麼事情就錯了!例如,如果 $ R^2_{\text{test}}\ll R^2_{\text{training}} $ ,那麼它表明你的模型沒有很好地泛化。也就是說,如果您的測試集僅包含“看不見的”數據點,那麼您的模型似乎不會很好地推斷(也就是協變量移位的一種形式)。

總之:你應該比較它們!但是,在許多情況下,您最感興趣的是測試集結果。

引用自:https://stats.stackexchange.com/questions/348330

comments powered by Disqus