使用 LDA 作為預處理步驟時的特徵標準化
如果多類線性判別分析(或者我有時也閱讀多重判別分析)用於降維(或通過 PCA 降維後的轉換),我理解通常“Z 分數歸一化”(或標準化)特徵不是必需的,即使它們是在完全不同的尺度上測量的,對嗎?由於 LDA 包含一個類似於馬氏距離的術語,它已經暗示了歸一化的歐幾里得距離?
所以它不僅沒有必要,而且標準化和非標準化特徵的 LDA 後的結果應該完全相同!?
這個答案的功勞歸於@ttnphns,他在上面的評論中解釋了所有內容。不過,我想提供一個擴展的答案。
對於您的問題:標準化和非標準化特徵的 LDA 結果是否會完全相同?— 答案是肯定的。我將首先給出一個非正式的論點,然後進行一些數學運算。
想像一個 2D 數據集顯示為氣球一側的散點圖(從這裡拍攝的原始氣球圖片):
這里紅點是一類,綠點是另一類,黑線是LDA類邊界。現在重新調整或者軸對應於水平或垂直拉伸氣球。可以直觀地看出,即使經過這樣的拉伸,黑線的斜率會發生變化,但類會像以前一樣完全分離,黑線的相對位置不會改變。每個測試觀察將被分配到與拉伸前相同的班級。所以可以說拉伸不會影響LDA的結果。
現在,在數學上,LDA 通過計算特徵向量來找到一組判別軸, 在哪裡和是類內和類間散佈矩陣。等價地,這些是廣義特徵值問題的廣義特徵向量.
考慮一個居中的數據矩陣列中的變量和行中的數據點,因此總散佈矩陣由下式給出. 標準化數據相當於縮放每一列按一定數量,即用, 在哪裡是一個對角矩陣,其對角線上有比例係數(每列標準差的倒數)。經過這樣的重新縮放後,散佈矩陣將發生如下變化:, 同樣的轉換也會發生和.
讓是原問題的特徵向量,即
如果我們把這個方程乘以在左邊,然後插入之前兩邊, 我們獲得IE意思就是是用完全相同的特徵值重新縮放後的特徵向量和以前一樣。 所以判別軸(由特徵向量給出)會改變,但它的特徵值(顯示類分離的程度)將保持完全相同。此外,該軸上的投影,最初由,現在將由,即也將保持完全相同(可能達到比例因子)。