python實(shí)現(xiàn)幾種歸一化方法(Normalization Method)
數(shù)據(jù)歸一化問題是數(shù)據(jù)挖掘中特征向量表達(dá)時(shí)的重要問題,當(dāng)不同的特征成列在一起的時(shí)候,由于特征本身表達(dá)方式的原因而導(dǎo)致在絕對(duì)數(shù)值上的小數(shù)據(jù)被大數(shù)據(jù)“吃掉”的情況,這個(gè)時(shí)候我們需要做的就是對(duì)抽取出來的features vector進(jìn)行歸一化處理,以保證每個(gè)特征被分類器平等對(duì)待。下面我描述幾種常見的Normalization Method,并提供相應(yīng)的python實(shí)現(xiàn)(其實(shí)很簡(jiǎn)單):
1、(0,1)標(biāo)準(zhǔn)化:
這是最簡(jiǎn)單也是最容易想到的方法,通過遍歷feature vector里的每一個(gè)數(shù)據(jù),將Max和Min的記錄下來,并通過Max-Min作為基數(shù)(即Min=0,Max=1)進(jìn)行數(shù)據(jù)的歸一化處理:
LaTex:{x}_{normalization}=\frac{x-Min}{Max-Min}
Python實(shí)現(xiàn):
def MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return x;
找大小的方法直接用np.max()和np.min()就行了,盡量不要用python內(nèi)建的max()和min(),除非你喜歡用List管理數(shù)字。
2、Z-score標(biāo)準(zhǔn)化:
這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,這里的關(guān)鍵在于復(fù)合標(biāo)準(zhǔn)正態(tài)分布,個(gè)人認(rèn)為在一定程度上改變了特征的分布,關(guān)于使用經(jīng)驗(yàn)上歡迎討論,我對(duì)這種標(biāo)準(zhǔn)化不是非常地熟悉,轉(zhuǎn)化函數(shù)為:
LaTex:{x}_{normalization}=\frac{x-\mu }{\sigma }
Python實(shí)現(xiàn):
def Z_ScoreNormalization(x,mu,sigma): x = (x - mu) / sigma; return x;
這里一樣,mu(即均值)用np.average(),sigma(即標(biāo)準(zhǔn)差)用np.std()即可。
3、Sigmoid函數(shù)
Sigmoid函數(shù)是一個(gè)具有S形曲線的函數(shù),是良好的閾值函數(shù),在(0, 0.5)處中心對(duì)稱,在(0, 0.5)附近有比較大的斜率,而當(dāng)數(shù)據(jù)趨向于正無窮和負(fù)無窮的時(shí)候,映射出來的值就會(huì)無限趨向于1和0,是個(gè)人非常喜歡的“歸一化方法”,之所以打引號(hào)是因?yàn)槲矣X得Sigmoid函數(shù)在閾值分割上也有很不錯(cuò)的表現(xiàn),根據(jù)公式的改變,就可以改變分割閾值,這里作為歸一化方法,我們只考慮(0, 0.5)作為分割閾值的點(diǎn)的情況:
LaTex:{x}_{normalization}=\frac{1}{1+{e}^{-x}}
Python實(shí)現(xiàn):
def sigmoid(X,useStatus): if useStatus: return 1.0 / (1 + np.exp(-float(X))); else: return float(X);
這里useStatus管理是否使用sigmoid的狀態(tài),方便調(diào)試使用。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python 中的 import 機(jī)制之實(shí)現(xiàn)遠(yuǎn)程導(dǎo)入模塊
模塊導(dǎo)入( import ),是指在一個(gè)模塊中使用另一個(gè)模塊的代碼的操作,它有利于代碼的復(fù)用。這篇文章主要介紹了Python 的 import 機(jī)制:實(shí)現(xiàn)遠(yuǎn)程導(dǎo)入模塊,需要的朋友可以參考下2019-10-10python設(shè)置檢查點(diǎn)簡(jiǎn)單實(shí)現(xiàn)代碼
這篇文章主要介紹了python設(shè)置檢查點(diǎn)簡(jiǎn)單實(shí)現(xiàn)代碼,需要的朋友可以參考下2014-07-07在Python中關(guān)于使用os模塊遍歷目錄的實(shí)現(xiàn)方法
今天小編就為大家分享一篇在Python中關(guān)于使用os模塊遍歷目錄的實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01python實(shí)現(xiàn)pptx批量向PPT中插入圖片
大家好,本篇文章主要講的是python實(shí)現(xiàn)pptx批量向PPT中插入圖片,感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02150行python代碼實(shí)現(xiàn)貪吃蛇游戲
這篇文章主要為大家詳細(xì)介紹了150行python代碼實(shí)現(xiàn)貪吃蛇游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-04-04Django中STATIC_ROOT和STATIC_URL及STATICFILES_DIRS淺析
這篇文章主要給大家介紹了關(guān)于Django中STATIC_ROOT和STATIC_URL及STATICFILES_DIRS的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧2018-05-05Python3.6日志Logging模塊簡(jiǎn)單用法示例
這篇文章主要介紹了Python3.6日志Logging模塊簡(jiǎn)單用法,結(jié)合實(shí)例形式分析了Python3.6環(huán)境下日志Logging模塊設(shè)置格式、文件流輸出相關(guān)操作技巧,需要的朋友可以參考下2018-06-06