Regression

響應是一個整數。我應該使用分類還是回歸?

  • May 31, 2017

在我的計算機科學碩士課程中,教授要求我們提出最好的模型來預測這個特定的數據集。在其中,我們需要測量鮑魚的重量和大小,並需要預測其殼中的環數(整數)。這是數據外觀的示例:

在此處輸入圖像描述

最初使用該數據庫的原始論文(Sam Waugh (1995) “Extending and benchmarking Cascade-Correlation”)使用了一種分類方法,其中每個不同數量的環都被視為不同的類。

我發現這種方法存在一些問題:

  • 首先,論文作者使用的評價指標是分類準確率,沒有考慮預測值與其響應的接近程度。例如,當正確值為 4 時預測值為 3 的模型被視為與預測值為 22 且正確值為 4 的模型相同(兩者都分類錯誤)。
  • 其次,數據集高度不平衡,很少有鮑魚具有大量環。

根據我的最佳解釋,如果我們使用回歸模型(例如,以均方根誤差作為評估指標)而不是分類,這兩個問題都會消失。但是,通常的回歸模型會為您的響應提供真實值。對於我的非統計學家來說,這似乎不是問題,因為您總是可以將您的值四捨五入到最接近的整數。

我的問題是:

  1. 多元回歸確實是嘗試對這些數據建模的最佳方法嗎?
  2. 是否有考慮響應與分類結果的接近程度的分類評估指標?如果是,它可以用於這個問題嗎?
  3. 將回歸結果四捨五入到最接近的整數有什麼問題嗎?

任何其他有助於我最好地解決問題的意見、建議或想法也非常有幫助。

另外,如果在我對問題的解釋中做出任何不正確的假設或錯誤,我們深表歉意。隨時糾正我。

我最近使用鮑魚數據集來說明一些回歸方法,並且遇到了基本相同的問題。(更新:鏈接到論文“Predictive State Smoothing (PRESS): Scalable non-parametric regression for high-dimensional data with variable selection”。)

這是我的看法:

  1. 我想說回歸是解決這個問題的最自然的方法(有關特定領域的基本原理,請參閱帖子末尾的一般評論)。恕我直言,做一個簡單的多類分類方法是完全錯誤的——因為你指出的原因(預測“3”的“22”與預測“4”一樣好/壞——這顯然不是真的) .
  2. 我認為您正在尋找“有序”或“有序”分類,它考慮了這樣的排序(參見例如http://www.cs.waikato.ac.nz/~eibe/pubs/ordinal_tech_report.pdf也包含鮑魚數據集的示例。)但是,即使是序數分類也存在問題,即除了觀察到的環數之外,您無法預測任何其他內容。比如說,有一天有一個比我們以前見過的任何貝殼都大 20% 的巨大鮑魚殼——分類方法很可能會將它歸入最大的類別,即“29”。然而,這是沒有意義的,因為任何生物學家都會告訴你,那個殼很可能是一種罕見的發現,比如 35 環鮑魚殼。
  3. 不,根本不是問題——它只是你的預測模型的一部分。

說了這麼多,最後你應該問自己鮑魚數據試圖幫助解決的特定領域問題是什麼?!

它正在預測貝殼的年齡,它使用環數作為代理。生物學家對預測環的數量並不真正感興趣,他們想知道年齡。因此,例如 6.124 的預測並不比“6”或“7”有用——事實上,它可能更有用。我將此歸咎於 CS/eng 試圖將所有內容都視為精度/召回問題,因此他們喜歡將其強調為整數預測/分類問題而不是回歸——不是因為這實際上是根本問題,而是因為它適合他們的工具和基準指標(誰不喜歡在這個問題上拋出一個深度網絡分類器並宣布勝利,因為“精確度/召回率或 AUC 真的很高”;))

引用自:https://stats.stackexchange.com/questions/282803

comments powered by Disqus