Machine-Learning

二進制編碼與 One-hot 編碼

  • January 26, 2018

對於英文文本的分類輸入變量及其對神經網絡的影響,二進制編碼和 one-hot 有什麼區別?誰能幫我找到一篇關於這個問題的科學論文?

如果你有一個系統 $ n $ 不同(有序)狀態,給定狀態的二進制編碼就是 $ \text{rank number} - 1 $ 二進制格式(例如 $ k $ th 狀態二進制 $ k - 1 $ )。這個的一個熱門編碼 $ k $ 狀態將是一個向量/長度序列 $ n $ 與單個高位(1)在 $ k $ th 位置,所有其他位為低 (0)。

作為下一個系統(教育水平)的示例編碼:

-----------------------------------------------
|   Level   | "Decimal  | Binary   | One hot  |
|           | encoding" | encoding | encoding |
-----------------------------------------------
| No        |     0     |    000   |  000001  |
| Primary   |     1     |    001   |  000010  |
| Secondary |     2     |    010   |  000100  |
| BSc/BA    |     3     |    011   |  001000  |
| MSc/MA    |     4     |    100   |  010000  |
| PhD       |     5     |    101   |  100000  |
-----------------------------------------------

參考:維基百科上的一種熱門編碼

2017 年國際計算機應用雜誌上關於不同編碼對神經網絡影響的比較的論文可能是一個很好的起點: 神經網絡分類器的分類變量編碼技術的比較研究

引用自:https://stats.stackexchange.com/questions/325263

comments powered by Disqus