亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

TensorFlow神經(jīng)網(wǎng)絡(luò)優(yōu)化策略學(xué)習(xí)

 更新時(shí)間:2018年03月09日 15:26:25   作者:marsjhao  
這篇文章主要介紹了TensorFlow神經(jīng)網(wǎng)絡(luò)優(yōu)化策略

在神經(jīng)網(wǎng)絡(luò)模型優(yōu)化的過程中,會(huì)遇到許多問題,比如如何設(shè)置學(xué)習(xí)率的問題,我們可通過指數(shù)衰減的方式讓模型在訓(xùn)練初期快速接近較優(yōu)解,在訓(xùn)練后期穩(wěn)定進(jìn)入最優(yōu)解區(qū)域;針對(duì)過擬合問題,通過正則化的方法加以應(yīng)對(duì);滑動(dòng)平均模型可以讓最終得到的模型在未知數(shù)據(jù)上表現(xiàn)的更加健壯。

一、學(xué)習(xí)率的設(shè)置

學(xué)習(xí)率設(shè)置既不能過大,也不能過小。TensorFlow提供了一種更加靈活的學(xué)習(xí)率設(shè)置方法——指數(shù)衰減法。該方法實(shí)現(xiàn)了指數(shù)衰減學(xué)習(xí)率,先使用較大的學(xué)習(xí)率來快速得到一個(gè)比較優(yōu)的解,然后隨著迭代的繼續(xù)逐步減小學(xué)習(xí)率,使得模型在訓(xùn)練后期更加穩(wěn)定,緩慢平滑得達(dá)到最優(yōu)值。

tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate,staircase=False, name=None)

該函數(shù)會(huì)指數(shù)級(jí)減小學(xué)習(xí)率,實(shí)現(xiàn)每輪實(shí)際優(yōu)化時(shí)的衰減后的學(xué)習(xí)率decayed_learning_rate = learning_rate * decay_rate ^ (global_step /decay_steps),learning_rate為設(shè)定的出事學(xué)習(xí)率,decay_rate為衰減系數(shù),decay_steps為衰減速度。如下圖,參數(shù)staircase=False時(shí),學(xué)習(xí)率變化趨勢(shì)為淺色部分;staircase=True時(shí)為深色部分,使得學(xué)習(xí)率變化為階梯函數(shù)(staircase function),這種設(shè)置的常用應(yīng)用場(chǎng)景是每完整地過完一遍訓(xùn)練數(shù)據(jù),學(xué)習(xí)率就減小一次。

使用示例:learning_rate =tf.train.exponential_decay(starter_learning_rate, global_step, 100000, 0.96,staircase=True)。

二、過擬合問題

1. 過擬合問題及其解決方法

所謂過擬合問題,指的是當(dāng)一個(gè)模型過于復(fù)雜后,它可以很好地記憶每一個(gè)訓(xùn)練數(shù)據(jù)中隨機(jī)噪聲的部分而忘記了要去學(xué)習(xí)訓(xùn)練數(shù)據(jù)中通用的趨勢(shì)。

為了避免過擬合問題,常用的方法是正則化(Regularization),思想是在損失函數(shù)中加入刻畫模型復(fù)雜程度的指標(biāo),將優(yōu)化目標(biāo)定義為J(θ)+λR(w) ,其中R(w)刻畫的是模型的復(fù)雜程度,包括了權(quán)重項(xiàng)w不包括偏置項(xiàng)b,λ表示模型復(fù)雜損失在總損失中的比例。一般來說模型復(fù)雜度只由權(quán)重w決定。常用的刻畫模型復(fù)雜度的函數(shù)R(w)有兩種,一種是L1正則化:

另一種是L2正則化:

無論哪種正則化方式,基本思想都是希望通過限制權(quán)重的大小,使得模型不能任意擬合訓(xùn)練數(shù)據(jù)中的隨機(jī)噪音。區(qū)別:L1正則化會(huì)讓參數(shù)變得更稀疏,L2則不會(huì),所謂參數(shù)變得更稀疏是指會(huì)有更多的參數(shù)變?yōu)?,可達(dá)到類似特征選取的功能。實(shí)踐中,也可以將L1正則化和L2正則化同時(shí)使用:

2. 過擬合問題的TensorFlow解決方案

loss =tf.reduce_mean(tf.square(y_ - y) + tf.contrib.layers.l2_regularizer(lambda)(w)

以上就是一個(gè)含L2正則化項(xiàng)的損失函數(shù)。第一部分是均方誤差損失函數(shù),第二部分就是正則化項(xiàng)。lambda參數(shù)表示正則化項(xiàng)的權(quán)重,也就是J(θ)+λR(w)中的λ,w為需要計(jì)算正則化損失的參數(shù)。tf.contrib.layers.l2_regularize()函數(shù)可以計(jì)算給定參數(shù)的L2正則化項(xiàng),類似地,tf.contrib.layers.l1_regularizer()可以就是那給定參數(shù)的L1正則化項(xiàng)。

# 比較L1正則化和L2正則化函數(shù)的作用效果 
w = tf.constant([[1.0, -2.0], [-3.0, 4.0]]) 
with tf.Session() as sess: 
  # 0.5*(|1|+|-2|+|-3|+|4|=5.0) 
  print(sess.run(tf.contrib.layers.l1_regularizer(0.5)(w))) # 5.0 
  # 0.5*[(1+4+9+16)/2]=7.5 TensorFlow會(huì)將L2正則化項(xiàng)除以2使得求導(dǎo)的結(jié)果更簡潔 
  print(sess.run(tf.contrib.layers.l2_regularizer(0.5)(w))) # 7.5 

當(dāng)神經(jīng)網(wǎng)絡(luò)的參數(shù)增多以后,上面的定義損失函數(shù)的方式會(huì)導(dǎo)致loss的定義式很長,可讀性差,另外當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜后定義網(wǎng)絡(luò)結(jié)構(gòu)的部分和計(jì)算損失函數(shù)的部分可能不在同一個(gè)函數(shù)中,通過變量方式計(jì)算損失函數(shù)就不方便了。為解決此問題,可以使用TensorFlow中提供的集合(collection)。具體實(shí)現(xiàn)見代碼部分。

tf.add_to_collection()將變量加入至指定集合中;tf.get_collection()返回一個(gè)列表,存儲(chǔ)著這個(gè)集合中的元素。

三、滑動(dòng)平均模型

另一個(gè)使模型在測(cè)試數(shù)據(jù)上更健壯(robust)滑動(dòng)平均模型。在采用隨機(jī)梯度下降算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),使用滑動(dòng)平均模型在很多應(yīng)用中可提高最終模型在測(cè)試數(shù)據(jù)上的表現(xiàn),GradientDescent和Momentum方式的訓(xùn)練都能夠從ExponentialMovingAverage方法中獲益。

在TensorFlow中提供的tf.train.ExponentialMovingAverage是一個(gè)類class,來實(shí)現(xiàn)滑動(dòng)平均模型。初始化tf.train.ExponentialMovingAverage類對(duì)象時(shí),須指定衰減率decay和用于動(dòng)態(tài)控制衰減率的參數(shù)num_updates。tf.train.ExponentialMovingAverage對(duì)每一個(gè)變量維護(hù)一個(gè)影子變量(shadow variable),該影子變量的初始值就是相應(yīng)變量的初始值,每次變量更新時(shí),shadow_variable =decay * shadow_variable + (1 - decay) * variable。從公式中可看出,decay決定了模型更新的速度,decay越大模型越趨于穩(wěn)定,實(shí)際應(yīng)用中decay一般設(shè)置為接近1的數(shù)。num_updates默認(rèn)是None,若設(shè)置了,則衰減率按min(decay, (1 +num_updates) / (10 + num_updates))計(jì)算。

tf.train.ExponentialMovingAverage對(duì)象的apply方法返回一個(gè)對(duì)var_list進(jìn)行更新滑動(dòng)平均的操作,var_list必須是list的Variable或Tensor,該操作執(zhí)行會(huì)更新var_list的影子變量shadowvariable。average方法可獲取滑動(dòng)平均后變量的取值。

四、代碼呈現(xiàn)

1. 復(fù)雜神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)權(quán)重L2正則化方法

import tensorflow as tf 
 
''''' 
# 比較L1正則化和L2正則化函數(shù)的作用效果 
w = tf.constant([[1.0, -2.0], [-3.0, 4.0]]) 
with tf.Session() as sess: 
  # 0.5*(|1|+|-2|+|-3|+|4|=5.0) 
  print(sess.run(tf.contrib.layers.l1_regularizer(0.5)(w))) # 5.0 
  # 0.5*[(1+4+9+16)/2]=7.5 TensorFlow會(huì)將L2正則化項(xiàng)除以2使得求導(dǎo)的結(jié)果更簡潔 
  print(sess.run(tf.contrib.layers.l2_regularizer(0.5)(w))) # 7.5 
''' 
 
# 復(fù)雜神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)權(quán)重L2正則化方法 
# 定義各層的權(quán)重,并將該權(quán)重的L2正則化項(xiàng)加入至名稱為‘losses'的集合 
def get_weight(shape, lambda1): 
  var = tf.Variable(tf.random_normal(shape), dtype=tf.float32) 
  tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(lambda1)(var)) 
  return var 
 
x = tf.placeholder(tf.float32, (None, 2)) 
y_ = tf.placeholder(tf.float32, (None, 1)) 
 
layer_dimension = [2,10,5,3,1] # 定義了神經(jīng)網(wǎng)絡(luò)每層的節(jié)點(diǎn)數(shù) 
n_layers = len(layer_dimension) 
 
current_layer = x # 將當(dāng)前層設(shè)置為輸入層 
in_dimension = layer_dimension[0] 
 
# 通過循環(huán)生成一個(gè)5層全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 
for i in range(1,n_layers): 
  out_dimension = layer_dimension[i] 
  weight = get_weight([in_dimension,out_dimension], 0.003) 
  bias = tf.Variable(tf.constant(0.1, shape=[out_dimension])) 
  current_layer = tf.nn.relu(tf.matmul(current_layer, weight) + bias) 
  in_dimension = layer_dimension[i] 
 
mse_loss = tf.reduce_mean(tf.square(y_ - current_layer)) 
tf.add_to_collection('losses', mse_loss) 
loss = tf.add_n(tf.get_collection('losses')) # 包含所有參數(shù)正則化項(xiàng)的損失函數(shù) 

2. tf.train.ExponentialMovingAverage使用樣例

import tensorflow as tf 
 
# tf.train.ExponentialMovingAverage使用樣例 
v1 = tf.Variable(0, dtype=tf.float32) 
step = tf.Variable(0, trainable=False) # 此處step模擬神經(jīng)網(wǎng)絡(luò)迭代的輪數(shù) 
# 定義一個(gè)滑動(dòng)平均的類對(duì)象,初始化衰減率decay=0.99,用于動(dòng)態(tài)控制衰減率的參數(shù)num_updates 
ema = tf.train.ExponentialMovingAverage(0.99, num_updates=step) 
 
# apply方法返回一個(gè)對(duì)var_list進(jìn)行更新滑動(dòng)平均的操作,var_list必須是list的Variable或Tensor 
# 該操作執(zhí)行會(huì)更新var_list的影子變量shadow variable 
maintain_averages_op = ema.apply(var_list=[v1]) 
 
with tf.Session() as sess: 
  init_op = tf.global_variables_initializer() 
  sess.run(init_op) 
  # average方法可獲取滑動(dòng)平均后變量的取值 
  print(sess.run([v1, ema.average(v1)])) # [0.0, 0.0] 
 
  sess.run(tf.assign(v1, 5)) 
  # min{0.99, (1+step)(10+step)=0.1}=0.1 
  # 更新v1的滑動(dòng)平均值為 0.1*0.0+0.9*5=4.5 
  sess.run(maintain_averages_op) 
  print(sess.run([v1, ema.average(v1)])) # [5.0, 4.5] 
 
  sess.run(tf.assign(step, 10000)) 
  sess.run(tf.assign(v1, 10)) 
  # min{0.99, (1+step)(10+step)=0.999}=0.99 
  # 更新v1的滑動(dòng)平均值為 0.99*4.5+0.01*10=4.555 
  sess.run(maintain_averages_op) 
  print(sess.run([v1, ema.average(v1)])) # [10.0, 4.5549998] 
 
  # 更新v1的滑動(dòng)平均值為 0.99*4.555+0.01*10=4.60945 
  sess.run(maintain_averages_op) 
  print(sess.run([v1, ema.average(v1)])) # [10.0, 4.6094499] 

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • python numpy實(shí)現(xiàn)文件存取的示例代碼

    python numpy實(shí)現(xiàn)文件存取的示例代碼

    這篇文章主要介紹了python numpy實(shí)現(xiàn)文件存取的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-05-05
  • ITK 實(shí)現(xiàn)多張圖像轉(zhuǎn)成單個(gè)nii.gz或mha文件案例

    ITK 實(shí)現(xiàn)多張圖像轉(zhuǎn)成單個(gè)nii.gz或mha文件案例

    這篇文章主要介紹了ITK 實(shí)現(xiàn)多張圖像轉(zhuǎn)成單個(gè)nii.gz或mha文件案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Python中NumPy的ufuncs函數(shù)實(shí)例

    Python中NumPy的ufuncs函數(shù)實(shí)例

    這篇文章主要介紹了Python中NumPy的ufuncs函數(shù)實(shí)例,NumPy是一個(gè)開源的Python科學(xué)計(jì)算庫,使用NumPy,就可以很自然地使用數(shù)組和矩陣,本文主要介紹Python Numpy ufuncs通用函數(shù),需要的朋友可以參考下
    2023-07-07
  • python字典多鍵值及重復(fù)鍵值的使用方法(詳解)

    python字典多鍵值及重復(fù)鍵值的使用方法(詳解)

    下面小編就為大家?guī)硪黄猵ython字典多鍵值及重復(fù)鍵值的使用方法(詳解)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)才參考。一起跟隨小編過來看看吧
    2016-10-10
  • Django獲取前端數(shù)據(jù)的實(shí)現(xiàn)方式

    Django獲取前端數(shù)據(jù)的實(shí)現(xiàn)方式

    這篇文章主要介紹了Django獲取前端數(shù)據(jù)的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • python數(shù)字圖像處理之高級(jí)濾波代碼詳解

    python數(shù)字圖像處理之高級(jí)濾波代碼詳解

    這篇文章主要介紹了python數(shù)字圖像處理之高級(jí)濾波代碼詳解,介紹了許多對(duì)圖像處理的濾波方法,具有一定參考價(jià)值,需要的朋友可以了解下。
    2017-11-11
  • Python命令行參數(shù)解析之a(chǎn)rgparse模塊詳解

    Python命令行參數(shù)解析之a(chǎn)rgparse模塊詳解

    這篇文章主要介紹了Python命令行參數(shù)解析之a(chǎn)rgparse模塊詳解,argparse?是?Python?的一個(gè)標(biāo)準(zhǔn)庫,用于命令行參數(shù)的解析,這意味著我們無需在代碼中手動(dòng)為變量賦值,而是可以直接在命令行中向程序傳遞相應(yīng)的參數(shù),再由變量去讀取這些參數(shù),需要的朋友可以參考下
    2023-08-08
  • 基于Python實(shí)現(xiàn)一個(gè)簡易的數(shù)據(jù)管理系統(tǒng)

    基于Python實(shí)現(xiàn)一個(gè)簡易的數(shù)據(jù)管理系統(tǒng)

    為了方便的實(shí)現(xiàn)記錄數(shù)據(jù)、修改數(shù)據(jù)沒有精力去做一個(gè)完整的系統(tǒng)去管理數(shù)據(jù)。因此,在python的控制臺(tái)直接實(shí)現(xiàn)一個(gè)簡易的數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)的增刪改查等等。感興趣的可以跟隨小編一起學(xué)習(xí)一下
    2021-12-12
  • Python面向?qū)ο笾惡蛯?duì)象實(shí)例詳解

    Python面向?qū)ο笾惡蛯?duì)象實(shí)例詳解

    這篇文章主要介紹了Python面向?qū)ο笾惡蛯?duì)象,結(jié)合實(shí)例形式詳細(xì)分析了Python面向?qū)ο笙嚓P(guān)的繼承、多態(tài)、類及對(duì)象等概念、原理、操作技巧與注意事項(xiàng),需要的朋友可以參考下
    2018-12-12
  • 多個(gè)geojson經(jīng)過坐標(biāo)系轉(zhuǎn)換后如何合并為一個(gè)shp數(shù)據(jù)

    多個(gè)geojson經(jīng)過坐標(biāo)系轉(zhuǎn)換后如何合并為一個(gè)shp數(shù)據(jù)

    這篇文章主要介紹了多個(gè)geojson經(jīng)過坐標(biāo)系轉(zhuǎn)換后如何合并為一個(gè)shp數(shù)據(jù)問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-10-10

最新評(píng)論