Logistic

在訓練邏輯回歸時給予“部分信用”(連續結果)是一個好主意嗎?

  • February 19, 2016

我正在訓練邏輯回歸來預測哪些跑步者最有可能完成艱苦的耐力賽。

很少有跑者能完成這場比賽,所以我有嚴重的班級不平衡和一小部分成功的樣本(可能有幾十個)。我覺得我可以從幾乎成功的幾十個跑步者那裡得到一些好的“信號”。(我的訓練數據不僅有完成度,還有那些沒有完成的人實際完成了多遠。)所以我想知道包含一些“部分學分”是否是一個糟糕的想法。我想出了幾個用於部分信用的函數,斜坡和邏輯曲線,它們可以被賦予各種參數。

在此處輸入圖像描述

與回歸的唯一區別是我將使用訓練數據來預測修改後的連續結果,而不是二元結果。比較他們對測試集的預測(使用二元響應),我得到了相當不確定的結果——邏輯部分學分似乎略微提高了 R 平方、AUC、P/R,但這只是一個使用案例的嘗試小樣本。

我不關心預測是否一致地偏向於完成——我關心的是正確地對參賽者完成的可能性進行排名,或者甚至估計他們完成的相對可能性。

我知道邏輯回歸假設預測變量和優勢比的對數之間存在線性關係,如果我開始弄亂結果,顯然這個比率沒有真正的解釋。從理論上講,我確信這並不聰明,但它可能有助於獲得一些額外的信號並防止過度擬合。(我的預測變量幾乎與成功一樣多,因此使用部分完成的關係來檢查完全完成的關係可能​​會有所幫助)。

這種方法曾經在負責任的實踐中使用過嗎?

無論哪種方式,是否有其他類型的模型(可能是明確模擬危險率的模型,應用於距離而不是時間)可能更適合這種類型的分析?

這似乎是生存分析的工作,例如 Cox 比例風險分析或可能是一些參數生存模型。

與您解釋它的方式相反地考慮這個問題:與較早的**退出距離相關的預測變量是什麼?

退出是事件。在標準生存分析中,所覆蓋的距離可能被認為等同於事件發生時間。然後,您的事件數量等於退出的人數,因此您的預測變量數量有限的問題將會減少。所有退出的人都提供信息。

Cox 模型(如果適用於您的數據)將提供基於所有預測變量值的線性預測變量,按照預測的退出距離對參賽者進行排名。

引用自:https://stats.stackexchange.com/questions/197519

comments powered by Disqus