Classification

線性判別分析和貝葉斯規則:分類

  • June 29, 2012

線性判別分析和貝葉斯規則有什麼關係?我知道 LDA 通過嘗試最小化組內方差和組間方差的比率來用於分類,但我不知道貝葉斯規則如何在其中使用。

LDA 中的分類如下(貝葉斯規則方法)。[關於判別式的提取,可以看這裡。]

根據貝葉斯定理,我們正在處理類的尋求概率在觀察當前點的同時是, 在哪裡

– 類別的無條件(背景)概率;– 點的無條件(背景)概率;– 點存在的概率在班上, 如果正在處理的類是.

“觀察當前點"作為基本條件,,所以分母可以省略。因此,.

是原生類的先驗(分析前)概率是;由用戶指定。通常默認情況下所有類都接收相同的= 1/number_of_classes。為了計算,即原生類的後驗(分析後)概率是,應該知道.

  • 概率本身- 無法找到,對於判別式,LDA 的主要問題是連續變量,而不是離散變量。數量表達在這種情況下,與它成正比的是概率密度(PDF 函數)。因此我們需要計算點的PDF在班上,, 在由值形成的維正態分佈判別器。[參見維基百科多元正態分佈]

在哪裡– 判別式空間中從點開始的平方馬氏距離 [參見維基百科馬氏距離]到類質心;–在該類別中觀察到的判別式之間的協方差矩陣。

以這種方式計算對於每個班級。為點和班級表達想要的為了我們。但是有了上面的保留,即 PDF 本身不是概率,僅與其成正比,我們應該規範化,除以總和s 在所有課程中。例如,如果總共有 3 個類,,,, 然後

觀點由 LDA 分配給是最高的。

筆記。這是一般方法。許多 LDA 程序默認使用合併的類內矩陣對於上述 PDF 公式中的所有類。如果是這樣,公式會大大簡化,因為這樣在 LDA 中是單位矩陣(請參見此處的底部腳註),因此和變成平方歐幾里得距離(提醒:合併的類內我們談論的是判別式之間的協方差,而不是輸入變量之間的協方差,該矩陣通常被指定為)。

加法。在將上述貝葉斯規則分類方法引入LDA之前,LDA先驅Fisher提出了計算現在所謂的Fisher線性分類函數來對LDA中的點進行分類。為點屬於類的功能得分是線性組合, 在哪裡是分析中的預測變量。

係數,是類的數量和是匯集的類內散佈矩陣的元素 -變量。

.

觀點被分配到其分數最高的班級。僅當匯集的類內協方差矩陣與基於判別式的貝葉斯方法一起使用時,通過這種 Fisher 方法(繞過提取參與復雜特徵分解的判別式)獲得的分類結果與通過貝葉斯方法獲得的分類結果相同(參見“注”以上),並且所有的判別式都被用於分類。貝葉斯方法更通用,因為它也允許使用單獨的類內矩陣。

引用自:https://stats.stackexchange.com/questions/31366

comments powered by Disqus