Dimensionality-Reduction

線性判別分析和非正態分佈數據

  • August 6, 2014

如果我理解正確,線性判別分析 (LDA) 假設每個類別的最優性標準是正態分佈數據、獨立特徵和相同協方差。

既然均值和方差是從訓練數據中估計出來的,那不是已經違規了嗎?

我在一篇文章中找到了一段引文(Li、Tao、Shenghuo Zhu 和 Mitsunori Ogihara。“ Using Discriminant Analysis for Multi-Class Classification: An Experimental Investigation .” Knowledge and Information Systems 10, no. 4 (2006): 453–72 . )

“線性判別分析經常在人臉和物體識別的任務中取得良好的表現,即使組間的共同協方差矩陣和正態性的假設經常被違反(Duda, et al., 2001)”

  • 不幸的是,我在 Duda et 中找不到相應的部分。人。“模式分類”。

關於在降維上下文中使用 LDA(相對於正則化 LDA 或 QDA)處理非正態數據的任何經驗或想法?

這是 Hastie 等人的內容。必須在 The Elements of Statistical Learning,第 4.3 節中談到它(在二類 LDA 的背景下):

由於這種通過最小二乘法推導 LDA 方向的方法不對特徵使用高斯假設,因此其適用性超出了高斯數據的範圍。然而,(4.11)中給出的特定截距或切點的推導確實需要高斯數據。因此,改為選擇根據經驗最小化給定數據集的訓練誤差的切點是有意義的。這是我們發現在實踐中運作良好的東西,但在文獻中沒有提到它。

我不完全理解他們所指的通過最小二乘法推導,但總的來說[更新:我將在某個時候簡要總結一下]我認為這一段是有道理的:即使數據非常非高斯或類協方差非常不同,LDA 軸可能仍會產生一些可區分性。但是,LDA 給出的這個軸上的切點(分離兩個類)可以完全關閉。單獨優化它可以大大改善分類。

請注意,這僅指分類性能。如果您所追求的只是降維,那麼 LDA 軸就是您所需要的。所以我的猜測是,即使違反了假設,LDA 通常也會做一個體面的工作。

關於 rLDA 和 QDA:如果沒有足夠的數據點來可靠地估計類內協方差(在這種情況下至關重要),則必須使用 rLDA。而且 QDA 是一種非線性方法,所以我不確定如何使用它進行降維。

引用自:https://stats.stackexchange.com/questions/110908

comments powered by Disqus