Machine-Learning

哪些算法需要 one-hot 編碼？

June 30, 2017

我永遠不確定何時對無序分類變量使用 one-hot 編碼，何時不使用。每當算法使用距離度量來計算相似度時，我都會使用它。誰能給出一個一般的經驗法則，什麼類型的算法需要無序分類特徵進行單熱編碼，哪些不需要？

大多數算法（線性回歸、邏輯回歸、神經網絡、支持向量機等）都需要對分類變量進行某種編碼。這是因為大多數算法只將數值作為輸入。

不需要編碼的算法是可以直接處理聯合離散分佈的算法，例如馬爾可夫鏈/樸素貝葉斯/貝葉斯網絡、基於樹的等。

附加評論：

一種熱編碼是編碼方法之一。這是分類變量編碼的好資源（不限於 R）。分類變量的 R 庫對比編碼系統

即使沒有編碼，也可以定義具有離散變量的數據點之間的距離，例如漢明距離或列文斯坦距離

引用自：https://stats.stackexchange.com/questions/288095

comments powered by Disqus

相關問答

R

年齡部分作為連續變量，部分作為分類變量

November 10, 2021

Machine-Learning

為什麼 scikit-learn SVM 解決不了兩個同心圓？

June 17, 2020

Categorical-Encoding

究竟什麼是多熱編碼，它與單熱編碼有何不同？

May 21, 2020

Machine-Learning

為什麼很多人希望將偏斜數據轉換為機器學習應用程序的正態分佈數據？

August 1, 2019

Machine-Learning

具有高基數的分類變量的編碼

June 6, 2019

Categorical-Data

從連續數據到分類數據總是錯誤的嗎？

March 13, 2019