Regression

判別分析與邏輯回歸

  • December 28, 2015

我發現了判別分析的一些優點,並且我對它們有疑問。所以:

當類別分離良好時,邏輯回歸的參數估計值出人意料地不穩定。係數可能會達到無窮大。LDA 不會遇到這個問題。

如果特徵數量較少且預測變量的分佈 在每個類中近似正常,線性判別模型再次比邏輯回歸模型更穩定。

  1. 什麼是穩定性,為什麼它很重要?(如果邏輯回歸提供了一個很好的擬合,那麼我為什麼要關心穩定性呢?)

當我們有兩個以上的響應類時,LDA 很受歡迎,因為它還提供數據的低維視圖。

  1. 我只是不明白。LDA如何提供低維視圖?
  2. 如果你能說出更多的優點或缺點,那就太好了。

當類別分離良好時,邏輯回歸的參數估計值出人意料地不穩定。係數可能會達到無窮大。LDA 不會遇到這個問題。

如果存在可以完美預測二元結果的協變量值,那麼邏輯回歸算法(即 Fisher 評分)甚至不會收斂。如果您使用的是 R 或 SAS,您將收到一條警告,提示您計算了 0 和 1 的概率並且算法已崩潰。這是完美分離的極端情況,但即使數據僅在很大程度上分離且不完美,最大似然估計量也可能不存在,即使存在,估計也不可靠。由此產生的合身性根本不好。這個網站上有很多線程處理分離問題,所以一定要看看。

相比之下,人們不會經常遇到費舍爾判別式的估計問題。如果協方差矩陣之間或內部協方差矩陣是奇異的,它仍然可能發生,但這是一個相當罕見的例子。事實上,如果存在完全或準完全分離,那就更好了,因為判別器更有可能成功。

還值得一提的是,與普遍的看法相反,LDA 不是基於任何分佈假設。我們只隱含地要求總體協方差矩陣相等,因為合併的估計量用於內部協方差矩陣。在正態性、相等的先驗概率和錯誤分類成本的附加假設下,LDA 在最小化錯誤分類概率的意義上是最優的。

LDA如何提供低維視圖?

對於兩個總體和兩個變量的情況,更容易看出這一點。這是 LDA 在這種情況下如何工作的圖示。請記住,我們正在尋找使可分離性最大化的變量 的線性組合。在此處輸入圖像描述

因此,數據被投影到方向更好地實現這種分離的向量上。我們如何發現向量是線性代數的一個有趣問題,我們基本上最大化了瑞利商,但現在讓我們把它放在一邊。如果將數據投影到該向量上,則維度會從 2 減少到 1。

類似地處理兩個以上總體和變量的一般情況。如果維度很大,則使用更多的線性組合來減少它,在這種情況下,數據被投影到平面或超平面上。當然,可以找到多少線性組合是有限制的,這個限制是由數據的原始維度造成的。如果我們將預測變量的數量表示為 $ p $ 和人口數量 $ g $ , 原來這個數最多 $ \min(g-1,p) $ .

如果你能說出更多的優點或缺點,那就太好了。

然而,低維表示並非沒有缺點,最重要的當然是信息的丟失。當數據是線性可分的時,這不是一個問題,但如果它們不是,則信息的丟失可能會很大,並且分類器的性能會很差。

在某些情況下,協方差矩陣的相等性可能不是一個站得住腳的假設。您可以使用測試來確保,但這些測試對偏離正態性非常敏感,因此您需要做出這個額外的假設並對其進行測試。如果發現具有不等協方差矩陣的總體是正常的,則可以使用二次分類規則(QDA),但我發現這是一個相當尷尬的規則,更不用說在高維度上違反直覺了。

總體而言,LDA 的主要優點是存在顯式解決方案及其計算便利性,這對於更高級的分類技術(如 SVM 或神經網絡)而言並非如此。我們付出的代價是一系列假設,即協方差矩陣的線性可分性和相等性。

希望這可以幫助。

編輯:我懷疑我關於我提到的特定案例的 LDA 不需要任何分佈假設,除了協方差矩陣的相等性讓我投了反對票。儘管如此,這同樣是正確的,所以讓我更具體一點。

如果我們讓 $ \bar{\mathbf{x}}i, \ i = 1,2 $ 表示來自第一和第二總體的均值,並且 $ \mathbf{S}{\text{pooled}} $ 表示合併的協方差矩陣,Fisher 判別式解決了這個問題

$$ \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}1 - \mathbf{a}^{T} \bar{\mathbf{x}}2 \right)^2}{\mathbf{a}^{T} \mathbf{S}{\text{pooled}} \mathbf{a} } = \max{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } $$

這個問題的解(直到一個常數)可以表示為

$$ \mathbf{a} = \mathbf{S}{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right) $$

這相當於您在正態性、等協方差矩陣、錯誤分類成本和先驗概率假設下得出的 LDA,對吧?好吧,是的,除了現在我們還沒有假設正常。

沒有什麼能阻止您在所有設置中使用上述判別式,即使協方差矩陣並不真正相等。從錯誤分類的預期成本 (ECM) 的角度來看,它可能不是最優的,但這是有監督的學習,因此您始終可以評估其性能,例如使用保留程序。

參考

Bishop, Christopher M. 用於模式識別的神經網絡。牛津大學出版社,1995 年。

約翰遜、理查德·阿諾德和院長 W. Wichern。應用多元統計分析。卷。4. 新澤西州恩格爾伍德懸崖:普倫蒂斯大廳,1992 年。

引用自:https://stats.stackexchange.com/questions/188416

comments powered by Disqus