過擬合邏輯回歸模型
是否有可能過度擬合邏輯回歸模型?我看到一個視頻說如果我的ROC曲線下面積高於95%,那麼它很可能會過擬合,但是是否有可能過擬合邏輯回歸模型?
是的,您可以過度擬合邏輯回歸模型。但首先,我想談談關於 AUC(接收器操作特性曲線下的面積)的觀點:AUC 從來沒有通用的經驗法則。
AUC是隨機抽樣的陽性(或病例)比陰性(或對照)具有更高標記值的概率,因為 AUC 在數學上等同於 U 統計量。
AUC不是預測準確性的標準化度量。高度確定性事件的單預測 AUC 可能為 95% 或更高(例如在受控機電一體化、機器人或光學中),一些複雜的多變量邏輯風險預測模型的 AUC 為 64% 或更低,例如乳腺癌風險預測,這些是相當高的預測準確性。
與功效分析一樣,合理的 AUC 值是通過收集先驗研究的背景和目的的知識來預先指定的。醫生/工程師描述了他們想要什麼,而您(統計學家)為您的預測模型解決目標 AUC 值。然後開始調查。
確實有可能過度擬合邏輯回歸模型。除了線性相關性(如果模型矩陣的秩不足),您還可以擁有完美的一致性,或者說擬合值與 Y 的關係圖可以完美地區分案例和控制。在這種情況下,您的參數尚未收斂,而只是位於邊界空間上的某個位置,這可能會導致. 然而,有時 AUC 是 1 只是隨機的機會。
向模型中添加過多的預測變量會產生另一種類型的偏差,那就是小樣本偏差。一般來說,邏輯回歸模型的對數優勢比傾向於因為優勢比的不可折疊性和零細胞計數。在推論中,這是使用條件邏輯回歸來處理的,以控制分層分析中的混雜變量和精度變量。然而,在預測中,你是 SooL。當你有時,沒有可推廣的預測, () 因為你保證在那個時候對“數據”而不是“趨勢”進行了建模。高維(大) 使用機器學習方法更好地預測二元結果。了解線性判別分析、偏最小二乘法、最近鄰預測、提升和隨機森林將是一個很好的起點。