線性判別分析和貝葉斯規則:分類
線性判別分析和貝葉斯規則有什麼關係?我知道 LDA 通過嘗試最小化組內方差和組間方差的比率來用於分類,但我不知道貝葉斯規則如何在其中使用。
LDA 中的分類如下(貝葉斯規則方法)。[關於判別式的提取,可以看這裡。]
根據貝葉斯定理,我們正在處理類的尋求概率在觀察當前點的同時是, 在哪裡
– 類別的無條件(背景)概率;– 點的無條件(背景)概率;– 點存在的概率在班上, 如果正在處理的類是.
“觀察當前點"作為基本條件,,所以分母可以省略。因此,.
是原生類的先驗(分析前)概率是;由用戶指定。通常默認情況下所有類都接收相同的= 1/number_of_classes。為了計算,即原生類的後驗(分析後)概率是,應該知道.
- 概率本身- 無法找到,對於判別式,LDA 的主要問題是連續變量,而不是離散變量。數量表達在這種情況下,與它成正比的是概率密度(PDF 函數)。因此我們需要計算點的PDF在班上,, 在由值形成的維正態分佈判別器。[參見維基百科多元正態分佈]
在哪裡– 判別式空間中從點開始的平方馬氏距離 [參見維基百科馬氏距離]到類質心;–在該類別中觀察到的判別式之間的協方差矩陣。
以這種方式計算對於每個班級。為點和班級表達想要的為了我們。但是有了上面的保留,即 PDF 本身不是概率,僅與其成正比,我們應該規範化,除以總和s 在所有課程中。例如,如果總共有 3 個類,,,, 然後
觀點由 LDA 分配給是最高的。
筆記。這是一般方法。許多 LDA 程序默認使用合併的類內矩陣對於上述 PDF 公式中的所有類。如果是這樣,公式會大大簡化,因為這樣在 LDA 中是單位矩陣(請參見此處的底部腳註),因此和變成平方歐幾里得距離(提醒:合併的類內我們談論的是判別式之間的協方差,而不是輸入變量之間的協方差,該矩陣通常被指定為)。
加法。在將上述貝葉斯規則分類方法引入LDA之前,LDA先驅Fisher提出了計算現在所謂的Fisher線性分類函數來對LDA中的點進行分類。為點屬於類的功能得分是線性組合, 在哪裡是分析中的預測變量。
係數,是類的數量和是匯集的類內散佈矩陣的元素 -變量。
.
觀點被分配到其分數最高的班級。僅當匯集的類內協方差矩陣與基於判別式的貝葉斯方法一起使用時,通過這種 Fisher 方法(繞過提取參與復雜特徵分解的判別式)獲得的分類結果與通過貝葉斯方法獲得的分類結果相同(參見“注”以上),並且所有的判別式都被用於分類。貝葉斯方法更通用,因為它也允許使用單獨的類內矩陣。