為什麼 P>`0.5 截止對於邏輯回歸不是“最佳”？

July 27, 2016

前言：我不關心是否使用截止點的優點，或者應該如何選擇截止點。我的問題純粹是數學問題，出於好奇。

邏輯回歸對 A 類與 B 類的後驗條件概率進行建模，並擬合後驗條件概率相等的超平面。所以理論上，我知道無論設置平衡如何，0.5 分類點都會最小化總錯誤，因為它模擬了後驗概率（假設您始終遇到相同的類別比率）。

在我的現實生活示例中，我使用 P > 0.5 作為我的分類截止值（大約 51% 的準確度）獲得了非常差的準確度。但是，當我查看 AUC 時，它高於 0.99。因此，我查看了一些不同的截止值，發現 P > 0.6 給了我 98% 的準確率（小類為 90%，大類為 99%）——只有 2% 的案例被錯誤分類。

這些類嚴重不平衡（1:9），這是一個高維問題。但是，我將類平均分配給每個交叉驗證集，以便模型擬合和預測之間的類平衡之間不應該存在差異。我還嘗試使用來自模型擬合和預測的相同數據，並且發生了同樣的問題。

我對 0.5 不會最小化錯誤的原因很感興趣，我認為如果模型通過最小化交叉熵損失來擬合，這將是設計使然。

有人對為什麼會發生這種情況有任何反饋嗎？是否由於增加了懲罰，如果是這樣，有人可以解釋發生了什麼嗎？

您不必從邏輯回歸模型中獲取預測類別。保持預測的概率會很好。如果您確實獲得了預測的類別，則不應使用該信息來做任何事情，而只能說“此觀察最好歸類為該類別”。例如，您不應使用“準確度”/正確百分比來選擇模型。

說了這些話， $ .50 $ 很少會成為分類觀察的最佳截止值。為了直觀地了解這種情況是如何發生的，想像一下你有 $ N=100 $ 和 $ 99 $ 正麵類別中的觀察。一個簡單的僅攔截模型可以很容易地擁有 $ 49 $ 使用時出現誤報 $ .50 $ 作為你的截止。另一方面，如果您只是將所有內容都稱為正面，那麼您將擁有 $ 1 $ 假陽性，但 $ 99% $ 正確的。

更一般地說，邏輯回歸試圖將觀察結果的真實概率正值擬合為解釋變量的函數。它不是試圖通過將預測概率集中在 $ .50 $ 隔斷。如果您的樣品不是 $ 50% $ 積極的，沒有理由 $ .50 $ 將最大化正確率。

引用自：https://stats.stackexchange.com/questions/225843

comments powered by Disqus

為什麼 P>`0.5 截止對於邏輯回歸不是“最佳”？

相關問答

沒有統計知識的人的 AUC

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

Brier 分數和極端的階級失衡

計量經濟學家將如何回答 Chen 和 Pearl (2013) 提出的反對意見和建議？

在臨床解釋的最佳截止值處對連續變量進行二分法

在貝葉斯推理中，為什麼有些術語會從後驗預測中刪除？