判別分析與邏輯回歸

December 28, 2015

我發現了判別分析的一些優點，並且我對它們有疑問。所以：

當類別分離良好時，邏輯回歸的參數估計值出人意料地不穩定。係數可能會達到無窮大。LDA 不會遇到這個問題。

如果特徵數量較少且預測變量的分佈在每個類中近似正常，線性判別模型再次比邏輯回歸模型更穩定。

什麼是穩定性，為什麼它很重要？（如果邏輯回歸提供了一個很好的擬合，那麼我為什麼要關心穩定性呢？）

當我們有兩個以上的響應類時，LDA 很受歡迎，因為它還提供數據的低維視圖。

我只是不明白。LDA如何提供低維視圖？

如果你能說出更多的優點或缺點，那就太好了。

當類別分離良好時，邏輯回歸的參數估計值出人意料地不穩定。係數可能會達到無窮大。LDA 不會遇到這個問題。

如果存在可以完美預測二元結果的協變量值，那麼邏輯回歸算法（即 Fisher 評分）甚至不會收斂。如果您使用的是 R 或 SAS，您將收到一條警告，提示您計算了 0 和 1 的概率並且算法已崩潰。這是完美分離的極端情況，但即使數據僅在很大程度上分離且不完美，最大似然估計量也可能不存在，即使存在，估計也不可靠。由此產生的合身性根本不好。這個網站上有很多線程處理分離問題，所以一定要看看。

相比之下，人們不會經常遇到費舍爾判別式的估計問題。如果協方差矩陣之間或內部協方差矩陣是奇異的，它仍然可能發生，但這是一個相當罕見的例子。事實上，如果存在完全或準完全分離，那就更好了，因為判別器更有可能成功。

還值得一提的是，與普遍的看法相反，LDA 不是基於任何分佈假設。我們只隱含地要求總體協方差矩陣相等，因為合併的估計量用於內部協方差矩陣。在正態性、相等的先驗概率和錯誤分類成本的附加假設下，LDA 在最小化錯誤分類概率的意義上是最優的。

LDA如何提供低維視圖？

對於兩個總體和兩個變量的情況，更容易看出這一點。這是 LDA 在這種情況下如何工作的圖示。請記住，我們正在尋找使可分離性最大化的變量的線性組合。

因此，數據被投影到方向更好地實現這種分離的向量上。我們如何發現向量是線性代數的一個有趣問題，我們基本上最大化了瑞利商，但現在讓我們把它放在一邊。如果將數據投影到該向量上，則維度會從 2 減少到 1。

類似地處理兩個以上總體和變量的一般情況。如果維度很大，則使用更多的線性組合來減少它，在這種情況下，數據被投影到平面或超平面上。當然，可以找到多少線性組合是有限制的，這個限制是由數據的原始維度造成的。如果我們將預測變量的數量表示為和人口數量 , 原來這個數最多 .

如果你能說出更多的優點或缺點，那就太好了。

然而，低維表示並非沒有缺點，最重要的當然是信息的丟失。當數據是線性可分的時，這不是一個問題，但如果它們不是，則信息的丟失可能會很大，並且分類器的性能會很差。

在某些情況下，協方差矩陣的相等性可能不是一個站得住腳的假設。您可以使用測試來確保，但這些測試對偏離正態性非常敏感，因此您需要做出這個額外的假設並對其進行測試。如果發現具有不等協方差矩陣的總體是正常的，則可以使用二次分類規則（QDA），但我發現這是一個相當尷尬的規則，更不用說在高維度上違反直覺了。

總體而言，LDA 的主要優點是存在顯式解決方案及其計算便利性，這對於更高級的分類技術（如 SVM 或神經網絡）而言並非如此。我們付出的代價是一系列假設，即協方差矩陣的線性可分性和相等性。

希望這可以幫助。

編輯：我懷疑我關於我提到的特定案例的 LDA 不需要任何分佈假設，除了協方差矩陣的相等性讓我投了反對票。儘管如此，這同樣是正確的，所以讓我更具體一點。

如果我們讓 $ \bar{\mathbf{x}}i, \ i = 1,2 \mathbf{S}{\text{pooled}} $ 表示合併的協方差矩陣，Fisher 判別式解決了這個問題

$$ \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}1 - \mathbf{a}^{T} \bar{\mathbf{x}}2 \right)^2}{\mathbf{a}^{T} \mathbf{S}{\text{pooled}} \mathbf{a} } = \max{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } $$

這個問題的解（直到一個常數）可以表示為

$$ \mathbf{a} = \mathbf{S}{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right) $$

這相當於您在正態性、等協方差矩陣、錯誤分類成本和先驗概率假設下得出的 LDA，對吧？好吧，是的，除了現在我們還沒有假設正常。

沒有什麼能阻止您在所有設置中使用上述判別式，即使協方差矩陣並不真正相等。從錯誤分類的預期成本 (ECM) 的角度來看，它可能不是最優的，但這是有監督的學習，因此您始終可以評估其性能，例如使用保留程序。

參考

Bishop, Christopher M. 用於模式識別的神經網絡。牛津大學出版社，1995 年。

約翰遜、理查德·阿諾德和院長 W. Wichern。應用多元統計分析。卷。4. 新澤西州恩格爾伍德懸崖：普倫蒂斯大廳，1992 年。

引用自：https://stats.stackexchange.com/questions/188416

判別分析與邏輯回歸

相關問答

為什麼指數族在統計學中如此重要？

可以使用多項式邏輯回歸學習任何數據嗎

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？

sklearn邏輯回歸收斂到一個簡單案例的意外係數

如何確定樣本是否在多元正態分佈的標準差內

無法在模擬數據集中獲得正確的邏輯回歸係數