Machine-Learning
哪些算法需要 one-hot 編碼?
我永遠不確定何時對無序分類變量使用 one-hot 編碼,何時不使用。每當算法使用距離度量來計算相似度時,我都會使用它。誰能給出一個一般的經驗法則,什麼類型的算法需要無序分類特徵進行單熱編碼,哪些不需要?
大多數算法(線性回歸、邏輯回歸、神經網絡、支持向量機等)都需要對分類變量進行某種編碼。這是因為大多數算法只將數值作為輸入。
不需要編碼的算法是可以直接處理聯合離散分佈的算法,例如馬爾可夫鏈/樸素貝葉斯/貝葉斯網絡、基於樹的等。
附加評論:
- 一種熱編碼是編碼方法之一。這是分類變量編碼的好資源(不限於 R)。分類變量的 R 庫對比編碼系統
- 即使沒有編碼,也可以定義具有離散變量的數據點之間的距離,例如漢明距離或列文斯坦距離