python?sklearn數(shù)據(jù)預處理之數(shù)據(jù)縮放詳解

更新時間：2023年10月07日 11:49:22 作者：databook

數(shù)據(jù)的預處理是數(shù)據(jù)分析,或者機器學習訓練前的重要步驟,這篇文章主要為大家詳細介紹了sklearn數(shù)據(jù)預處理中數(shù)據(jù)縮放的相關知識,感興趣的小伙伴可以學習一下

提高數(shù)據(jù)質(zhì)量，處理數(shù)據(jù)的缺失值、異常值和重復值等問題，增加數(shù)據(jù)的準確性和可靠性
整合不同數(shù)據(jù)，數(shù)據(jù)的來源和結構可能多種多樣，分析和訓練前要整合成一個數(shù)據(jù)集
提高數(shù)據(jù)性能，對數(shù)據(jù)的值進行變換，規(guī)約等（比如無量綱化），讓算法更加高效

本篇介紹的數(shù)據(jù)縮放處理，主要目的是消除數(shù)據(jù)的不同特征之間的量綱差異，使得每個特征的數(shù)值范圍相同。這樣可以避免某些特征對模型的影響過大，從而提高模型的性能。

1. 原理

數(shù)據(jù)縮放有多種方式，其中有一種按照最小值-最大值縮放的算法是最常用的。
其主要步驟如下：

計算數(shù)據(jù)列的最小值（min）和最大值（max）
對數(shù)據(jù)列中的每個值進行最小-最大縮放，即將其轉換為 **[0,1]區(qū)間 **之內(nèi)的一個值

縮放公式為：new_data=(data−min?)/(max−min)

實現(xiàn)縮放的代碼如下：

# 數(shù)據(jù)縮放的實現(xiàn)原理
data = np.array([10, 20, 30, 40, 50])
min = np.min(data)
max = np.max(data)
data_new = (data - min) / (max-min)
print("處理前: {}".format(data))
print("處理后: {}".format(data_new))
# 運行結果
處理前: [10 20 30 40 50]
處理后: [0.   0.25 0.5  0.75 1.  ]

數(shù)值被縮放到 **[0,1]區(qū)間 **之內(nèi)。

這個示例只是為了演示縮放的過程，實際場景中最好使用scikit-learn庫中的函數(shù)。

scikit-learn中的minmax_scale函數(shù)是封裝好的數(shù)據(jù)縮放函數(shù)。

from sklearn import preprocessing as pp
data = np.array([10, 20, 30, 40, 50])
pp.minmax_scale(data, feature_range=(0, 1))
# 運行結果
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函數(shù)得到的結果是一樣的，數(shù)據(jù)也被壓縮到 **[0,1]區(qū)間 **之內(nèi)。

所以 數(shù)據(jù)縮放 的這個操作有時也被稱為歸一化。

不過，數(shù)據(jù)縮放不一定非得把數(shù)據(jù)壓縮到 **[0,1]區(qū)間 **之內(nèi)，

通過調(diào)整feature_range參數(shù)，可以把數(shù)據(jù)壓縮到任意的區(qū)間。

# 壓縮到[0, 1]
print(pp.minmax_scale(data, feature_range=(0, 1)))
# 壓縮到[-1, 1]
print(pp.minmax_scale(data, feature_range=(-1, 1)))
# 壓縮到[0, 5]
print(pp.minmax_scale(data, feature_range=(0, 5)))
# 運行結果
[0.   0.25 0.5  0.75 1.  ]
[-1.  -0.5  0.   0.5  1. ]
[0.   1.25 2.5  3.75 5.  ]