python數(shù)據(jù)歸一化及三種方法詳解
數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價。以下是三種常用的歸一化方法:
min-max標準化(Min-Max Normalization)
也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 , 1]之間。轉(zhuǎn)換函數(shù)如下:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。
min-max標準化python代碼如下:
import numpy as np arr = np.asarray([0, 10, 50, 80, 100]) for x in arr: x = float(x - np.min(arr))/(np.max(arr)- np.min(arr)) print x # output # 0.0 # 0.1 # 0.5 # 0.8 # 1.0
使用這種方法的目的包括:
1、對于方差非常小的屬性可以增強其穩(wěn)定性;
2、維持稀疏矩陣中為0的條目。
下面將數(shù)據(jù)縮至0-1之間,采用MinMaxScaler函數(shù)
from sklearn import preprocessing import numpy as np X = np.array([[ 1., -1., 2.], [ 2., 0., 0.], [ 0., 1., -1.]]) min_max_scaler = preprocessing.MinMaxScaler() X_minMax = min_max_scaler.fit_transform(X)
最后輸出:
array([[ 0.5 , 0. , 1. ],
[ 1. , 0.5 , 0.33333333],
[ 0. , 1. , 0. ]])
測試用例:
注意:這些變換都是對列進行處理。
當然,在構造類對象的時候也可以直接指定最大最小值的范圍:feature_range=(min, max),此時應用的公式變?yōu)椋?/p>
X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0)) X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))
Z-score標準化方法
也稱為均值歸一化(mean normaliztion), 給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1。轉(zhuǎn)化函數(shù)為:
其中 μμ 為所有樣本數(shù)據(jù)的均值,σσ為所有樣本數(shù)據(jù)的標準差。
import numpy as np arr = np.asarray([0, 10, 50, 80, 100]) for x in arr: x = float(x - arr.mean())/arr.std() print x # output # -1.24101045599 # -0.982466610991 # 0.0517087689995 # 0.827340303992 # 1.34442799399
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。