獨熱編碼即 One-Hot 編碼，又稱一位有效編碼。其方法是使用 N位狀態(tài)寄存器來對 N個狀態(tài) 進行編碼，每個狀態(tài)都有它獨立的寄存器位，并且在任意時候，其中只有一位有效，這篇文章主要介紹了機器學習數(shù)據(jù)預(yù)處理之獨熱One-Hot編碼及其代碼詳解,需要的朋友可以參考下

1. 為什么使用 one-hot 編碼？

問題：

在機器學習算法中，我們經(jīng)常會遇到分類特征，例如：人的性別有男女，祖國有中國，美國，法國等。這些特征值并不是連續(xù)的，而是離散的，無序的。

目的：

如果要作為機器學習算法的輸入，通常我們需要對其進行特征數(shù)字化。什么是特征數(shù)字化呢？例如：

性別特征：["男"，"女"]

祖國特征：["中國"，"美國，"法國"]

運動特征：["足球"，"籃球"，"羽毛球"，"乒乓球"]

瓶頸：

假如某個樣本（某個人），他的特征是["男","中國","乒乓球"] ，我們可以用 [0,0,4] 來表示，但是這樣的特征處理并不能直接放入機器學習算法中。因為類別之間是無序的。

2. 什么是 one-hot 編碼？

定義：

獨熱編碼即 One-Hot 編碼，又稱一位有效編碼。其方法是使用 N位狀態(tài)寄存器來對 N個狀態(tài) 進行編碼，每個狀態(tài)都有它獨立的寄存器位，并且在任意時候，其中只有一位有效。

理解：

One-Hot 編碼是分類變量作為二進制向量的表示。

(1) 將分類值映射到整數(shù)值。

(2) 然后，每個整數(shù)值被表示為二進制向量，除了整數(shù)的索引之外，它都是零值，它被標記為1。

舉例1：

舉個例子，假設(shè)我們有四個樣本（行），每個樣本有三個特征（列），如圖：

上述feature_1有兩種可能的取值，比如是男/女，這里男用1表示，女用2表示。feature_2 和 feature_3 各有4種取值（狀態(tài)）。

one-hot 編碼就是保證每個樣本中的單個特征只有1位處于狀態(tài)1，其他的都是0。

上述狀態(tài)用 one-hot 編碼如下圖所示：

舉例2：

按照 N位狀態(tài)寄存器 來對N個狀態(tài) 進行編碼的原理，處理后應(yīng)該是這樣的

性別特征：["男","女"] （這里只有兩個特征，所以 N=2）：

男 => 10

女 => 01

祖國特征：["中國"，"美國，"法國"]（N=3）：

中國 => 100

美國 => 010

法國 => 001

運動特征：["足球"，"籃球"，"羽毛球"，"乒乓球"]（N=4）：

足球 => 1000

籃球 => 0100

羽毛球 => 0010

乒乓球 => 0001

所以，當一個樣本為 ["男","中國","乒乓球"] 的時候，完整的特征數(shù)字化的結(jié)果為：

[1，0，1，0，0，0，0，0，1]

下圖可能會更好理解：

python 代碼示例：

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  # 訓練。這里共有4個數(shù)據(jù)，3種特征
   
array = enc.transform([[0,1,3]]).toarray()  # 測試。這里使用1個新數(shù)據(jù)來測試
   
print array   # [[ 1  0  0  1  0  0  0  0  1]] # 獨熱編碼結(jié)果

以上對應(yīng)關(guān)系可以解釋為下圖：

3. one-hot 編碼優(yōu)缺點？

優(yōu)點：

(1) 解決了 分類器不好處理離散數(shù)據(jù) 的問題。

a. 歐式空間。在回歸，分類，聚類等機器學習算法中，特征之間距離計算 或 相似度計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算余弦相似性，基于的就是歐式空間。

b. one-hot 編碼。使用 one-hot 編碼，將離散特征的取值擴展到了歐式空間，離散特征的某個取值就對應(yīng)歐式空間的某個點。將離散型特征使用 one-hot 編碼，確實會讓特征之間的距離計算更加合理。

(2) 在一定程度上也起到了 擴充特征 的作用。

缺點：

在文本特征表示上有些缺點就非常突出了。

(1) 它是一個詞袋模型，不考慮詞與詞之間的順序（文本中詞的順序信息也是很重要的）；

(2) 它假設(shè)詞與詞相互獨立（在大多數(shù)情況下，詞與詞是相互影響的）；

(3) 它得到的特征是離散稀疏的 (這個問題最嚴重)。

上述第3點展開：

(1) 為什么得到的特征是離散稀疏的？

例如，如果將世界所有城市名稱作為語料庫的話，那這個向量會過于稀疏，并且會造成維度災(zāi)難。如下：

杭州 [0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]
上海 [0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]
寧波 [0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]
北京 [0,0,0,0,0,0,0,0,0,……，1,0,0,0,0,0,0]

在語料庫中，杭州、上海、寧波、北京各對應(yīng)一個向量，向量中只有一個值為1，其余都為0。

(2)能不能把詞向量的維度變小呢？

a) Dristributed representation：

可以解決 One hot representation 的問題，它的思路是:

1. 通過訓練，將每個詞都映射到一個較短的詞向量上來。

2. 所有的這些 詞向量 就構(gòu)成了 向量空間，

3. 進而可以用 普通的統(tǒng)計學的方法 來研究詞與詞之間的關(guān)系。

這個較短的詞向量維度是多大呢？這個一般需要我們在訓練時自己來指定。

b) 舉例：

1. 比如將詞匯表里的詞用 "Royalty", "Masculinity", "Femininity" 和 "Age" 4個維度來表示，King 這個詞對應(yīng)的詞向量可能是 (0.99,0.99,0.05,0.7)。