Machine-Learning

KNN 應該使用哪種類型的數據規範化?

  • August 25, 2018

我知道有兩種以上的歸一化。

例如,

1- 使用 z 分數或 t 分數轉換數據。這通常稱為標準化。

2-重新縮放數據以具有介於 0 和 1 之間的值。

現在的問題是我是否需要規範化

KNN 應該使用哪種類型的數據規範化?為什麼?

對於 k-NN,我建議將數據標準化和.

k-NN 使用歐幾里得距離作為比較示例的方法。計算兩點之間的距離和 , 在哪裡是的價值-第一個特徵:

為了使所有特徵在計算距離時具有同等重要性,這些特徵****必須具有相同的值範圍。這只能通過標準化來實現。

如果它們沒有被規範化,例如特徵有一個值範圍), 儘管有一個值範圍. 在計算距離時,第二項將是比第一個重要的時間,導致 k-NN 比第一個更依賴第二個特徵。歸一化確保所有特徵都映射到相同的值範圍。

另一方面,標準化確實具有許多有用的屬性,但不能確保將特徵映射到相同的範圍。雖然標準化可能最適合其他分類器,但對於 k-NN 或任何其他基於距離的分類器,情況並非如此。

引用自:https://stats.stackexchange.com/questions/363889

comments powered by Disqus