Goodness-of-Fit

基於診斷指標(𝑅2R2R^2/ AUC/ 準確度/ RMSE 等)值?

  • June 23, 2019

我已經安裝了我的模型,並試圖了解它是否有好處。我已經計算了推薦的指標來評估它( $ R^2 $ /AUC / 準確度 / 預測誤差 / 等)但不知道如何解釋它們。簡而言之,我如何根據指標判斷我的模型是否好?是一個 $ R^2 $ 0.6(例如)足以讓我繼續得出推論或基礎科學/商業決策?


這個問題有意寬泛,涵蓋了成員經常遇到的各種情況;這樣的問題可以作為這個問題的重複而結束。歡迎進行編輯以擴大此處提到的指標之外的範圍,以及其他答案 - 特別是那些提供有關其他類別指標的見解的答案。

這個答案將主要集中在 $ R^2 $ , 但這個邏輯大部分都延伸到了其他指標,例如 AUC 等。

CrossValidated 的讀者幾乎可以肯定不能很好地回答這個問題。沒有上下文無關的方式來決定模型指標是否如 $ R^2 $ 好不好。在極端情況下,通常可以從廣泛的專家那裡獲得共識: $ R^2 $ 接近 1 通常表示一個好的模型,接近 0 表示一個糟糕的模型。介於兩者之間的範圍內,評估本質上是主觀的。在這個範圍內,不僅需要統計專業知識來回答您的模型指標是否有用。它需要您所在領域的額外專業知識,而 CrossValidated 的讀者可能沒有。

為什麼是這樣?讓我用一個我自己的經驗的例子來說明(小細節改變了)。

我曾經做過微生物實驗室實驗。我會設置不同營養濃度水平的細胞燒瓶,並測量細胞密度的增長(即細胞密度與時間的斜率,儘管這個細節並不重要)。然後,當我模擬這種生長/營養關係時,通常會實現 $ R^2 $ > 0.90 的值。

我現在是一名環境科學家。我使用包含自然測量的數據集。如果我嘗試將上述完全相同的模型擬合到這些“字段”數據集,我會感到驚訝,如果我 $ R^2 $ 高達0.4。

這兩種情況涉及完全相同的參數、非常相似的測量方法、使用相同程序編寫和擬合的模型——甚至是同一個人進行擬合!但在一種情況下,一個 $ R^2 $ 0.7 的值低得令人擔憂,而另一個值則高得令人懷疑。

此外,我們將在生物測量的同時進行一些化學測量。化學標準曲線的模型將具有 $ R^2 $ 0.99 左右,而 0.90 的值會得令人擔憂。


是什麼導致了預期的這些巨大差異?語境。這個模糊的術語涵蓋了廣闊的領域,所以讓我嘗試將它分成一些更具體的因素(這可能不完整):

1. 回報/後果/應用是什麼?

這是您的領域的性質可能最重要的地方。無論我認為我的工作多麼有價值,提升我的模型 $ R^2 $ 0.1 或 0.2 的 s 不會徹底改變世界。但是有些應用程序的變化幅度將是巨大的!股票預測模型的一個小得多的改進可能意味著開發它的公司數千萬美元。

這對於分類器來說更容易說明,所以我將把我對度量的討論從 $ R^2 $ 以下示例的準確性(暫時忽略準確性指標的弱點)。想想雞性別鑑定這個奇怪而有利可圖的世界。經過多年的訓練,人類可以在 1 天大的時候迅速分辨出雄性和雌性小雞之間的區別。雄性和雌性的飼餵方式不同,以優化肉和蛋的生產,因此高精度節省了數十億隻雞的大量錯誤分配投資。直到幾十年前,大約 85% 的準確度在美國被認為是很高的。如今,達到 99% 左右的最高準確度的價值是什麼?薪水顯然可以高達60,000到可能180,000每年美元(基於一些快速的谷歌搜索)。由於人類的工作速度仍然有限​​,因此可以達到類似準確度但允許更快分類的機器學習算法可能價值數百萬。

(我希望你喜歡這個例子——另一個令人沮喪的例子是關於恐怖分子的非常可疑的算法識別)。

2. 未建模因素對您系統的影響有多強?

在許多實驗中,您可以將系統與可能影響它的所有其他因素隔離開來(畢竟這部分是實驗的目標)。自然更混亂。繼續前面的微生物學例子:當營養物質可用時細胞會生長,但其他因素也會影響它們——天氣有多熱,有多少捕食者在吃它們,水中是否有毒素。所有這些都與營養物質以及以復雜的方式相互變化。這些其他因素中的每一個都會導致模型未捕獲的數據發生變化。對於其他因素,營養素在驅動變化方面可能並不重要,因此如果我排除這些其他因素,我的現場數據模型必然會更低 $ R^2 $ .

3. 您的測量結果有多精確?

測量細胞和化學物質的濃度可以非常精確和準確。根據趨勢推特標籤來衡量(例如)社區的情緒狀態可能會……不那麼重要。如果你的測量不能精確,你的模型就不可能達到高 $ R^2 $ . 您所在領域的測量精度如何?我們可能不知道。

4. 模型複雜度和泛化性

如果您在模型中添加更多因子,即使是隨機因子,您平均會增加模型 $ R^2 $ (調整 $ R^2 $ 部分解決了這個問題)。這是過擬合。過擬合模型不能很好地泛化到新數據,即基於對原始(訓練)數據集的擬合,預測誤差將高於預期。這是因為它已經擬合了原始數據集中的噪聲。這就是為什麼模型會因模型選擇過程的複雜性而受到懲罰或受到正則化的部分原因。

如果過擬合被忽略或沒有成功防止,估計的 $ R^2 $ 將向上偏置,即高於應有的水平。換句話說,你的 $ R^2 $ 如果模型過擬合,value 會給您對模型性能的誤導性印象。

IMO,過擬合在許多領域都出奇地普遍。如何最好地避免這是一個複雜的話題,如果您對此感興趣,我建議您閱讀本網站上的正則化過程和模型選擇。

5. 數據范圍和外推

您的數據集是否擴展了您感興趣的 X 值範圍的很大一部分?在現有數據范圍之外添加新數據點可能會對估計值產生很大影響 $ R^2 $ ,因為它是基於 X 和 Y 的方差的度量。

除此之外,如果您將模型擬合到數據集並需要預測該數據集 X 範圍之外的值(即extrapolate),您可能會發現它的性能低於您的預期。這是因為您估計的關係可能​​會在您擬合的數據范圍之外發生變化。在下圖中,如果您僅在綠色框指示的範圍內進行測量,您可能會認為一條直線(紅色)很好地描述了數據。但是如果你試圖用那條紅線預測一個超出該範圍的值,那你就大錯特錯了。

在此處輸入圖像描述

[該圖是該圖的編輯版本通過谷歌快速搜索“單曲線”找到。]

6. 指標只給你一張圖片

這並不是對指標的真正批評——它們是摘要,這意味著它們也有意丟棄信息。但這確實意味著任何單一指標都會遺漏對其解釋至關重要的信息。一個好的分析考慮的不僅僅是一個單一的指標。


歡迎提出建議、指正和其他反饋。當然,還有其他答案。

引用自:https://stats.stackexchange.com/questions/414349

comments powered by Disqus