快捷導(dǎo)航

keras做CNN的訓(xùn)練誤差loss的下降操作

更新時(shí)間：2020年06月22日 15:00:50 作者：fitzgerald0

這篇文章主要介紹了keras做CNN的訓(xùn)練誤差loss的下降操作，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧

采用二值判斷如果確認(rèn)是噪聲，用該點(diǎn)上面一個(gè)灰度進(jìn)行替換。

噪聲點(diǎn)處理：對原點(diǎn)周圍的八個(gè)點(diǎn)進(jìn)行掃描，比較。當(dāng)該點(diǎn)像素值與周圍8個(gè)點(diǎn)的值小于N時(shí)，此點(diǎn)為噪點(diǎn) 。

處理后的文件大小只有原文件小的三分之一，前后的圖片內(nèi)容肉眼幾乎無法察覺。

但是這樣處理后圖片放入CNN中在其他條件不變的情況下，模型loss無法下降，二分類圖片，loss一直在8-9之間。準(zhǔn)確率維持在0.5,同時(shí)，測試集的訓(xùn)練誤差持續(xù)下降，但是準(zhǔn)確率也在0.5徘徊。大概真是需要誤差，讓優(yōu)化方法從局部最優(yōu)跳出來。

使用的activation function是relu，full connection layer是softmax分類函數(shù)，優(yōu)化方法為RMsprop

難到是需要加入噪音更好，CNN中加入高斯噪音不是讓模型更穩(wěn)健的嗎？還有讓模型跳出局部最優(yōu)的好處，方便訓(xùn)練。

原意：降噪的目的是因?yàn)檫@批數(shù)據(jù)是樣本較少，用復(fù)印機(jī) 掃面出來的圖片，想著放入更干凈的數(shù)據(jù)，模型更容易學(xué)習(xí)到本質(zhì)特征。

結(jié)果事與愿違，但是在keras中是可以加入noise的，比如加入高斯噪音

form keras.layers.noise import GaussianNoise

我在全連接層中加入

model.add(GaussianNoise(0.125))

后來查看了BatchNormalization的作用，發(fā)現(xiàn)在這個(gè)大殺器之后，好像很少有人用到初始化和其他的tricks，就可以讓模型表現(xiàn)的很好。

在第一層的Maxpooling后面加上，model.add(BatchNormalization())，效果非常顯著，第一次epoch的loss值只有0.63，acc也迅速上升，不會出現(xiàn)之前的卡在8.354一直不動，哪怕更換 leraning rate和使用Adagrad，都是一樣的，如果前面的5個(gè)epoch完，還是沒有太大的變化，后面幾乎不會收斂。

1，leraning rate的設(shè)置

#導(dǎo)入模塊，以rmsprop為例
from keras.optimizers import rmsprop
rmsprop=rmsprop(lr=0.1)#只是更改了學(xué)習(xí)率，其他的參數(shù)沒有更改，默認(rèn)學(xué)習(xí)率是0.001

2.BatchNormalization()的設(shè)置

from keras.layers.normalization import BatchNormalization

#網(wǎng)上不少人說，批規(guī)范化 加在輸入層的激活函數(shù)（層）的前面

model.add(BatchNormalization())

也有看到每一個(gè)隱藏層的激活函數(shù)前面全部加上BN的，但是我這個(gè)實(shí)驗(yàn)中，效果很差。

3.在輸入數(shù)據(jù)的時(shí)候，依然加上train_x = data/255.0，對像素矩陣的取值放小到0-1之間，否則訓(xùn)練將很艱難。

其實(shí)在我自己的實(shí)驗(yàn)中，后來調(diào)整成：

train_x-= np.mean(train_x, axis = 0)

發(fā)現(xiàn)效果更好

4.如果第一次的epoch的loss在個(gè)位數(shù)，則很可能需要返回去重新構(gòu)建模型，加入更多的trick，如果最后的loss值依然沒有達(dá)到小數(shù)，則也可能是難于訓(xùn)練，也需要加入其他的技巧。或者模型搭建的有問題，需要慎重檢查。

5. 建議使用網(wǎng)格搜索，從最重要的參數(shù)開始，搭建一個(gè)簡單的模型，然后取合理的超參數(shù)，逐一進(jìn)行。

6 .也可以在卷積層中加正則化，比如：

C1 = Convolution2D(8 3, 3, border_mode='valid', init='he_uniform', activation='relu',W_regularizer=l2(regularizer_params))

7.有看到在kaggle中使用集成cnn的，分類錯(cuò)誤率確實(shí)有下降。

8 使用ReduceLROnPlateau 對學(xué)習(xí)率進(jìn)行衰減，當(dāng)下降很慢時(shí)，學(xué)習(xí)率自動調(diào)整，可以起到一部分作用，

我在模型中使用的是RMSprop ，RMSprop本身帶有學(xué)習(xí)率的自動調(diào)整，但是，我加上ReduceLROnPlateau ，依然可以看到學(xué)習(xí)率變化很慢時(shí)，設(shè)置的這個(gè)ReduceLROnPlateau 有調(diào)整。

9 用數(shù)據(jù)增強(qiáng)的時(shí)候，也需要小心，圖片調(diào)整的幅度等均會對模型的正確率有影響。

10，對3個(gè)顏色的圖像轉(zhuǎn)換為gray以后，分類準(zhǔn)確率穩(wěn)定在 0.5左右，幾乎就是廢掉了，說明圖像的像素對于模型的影響巨大，后來了解到有“圖像超分辨率重建Super-Resolution”其實(shí)是可以對圖像做像素的分辨率更高。當(dāng)然也是可以手工用PS進(jìn)行插值等修圖。查了下，像mnist這樣的數(shù)據(jù)集都是經(jīng)過處理后才放入模型中的，所以，不能完全指望著CNN卷積池化就把所有的問題都解決掉，盡管圖像分類和識別正在像CNN轉(zhuǎn)移。

keras遇到的坑（可能是水平的問題，總之有困惑）

(1) 多次運(yùn)行會在上一次運(yùn)行過的數(shù)據(jù)上起作用，比如，