快捷導(dǎo)航

使用Node.js在深度學(xué)習(xí)中做圖片預(yù)處理的方法

更新時(shí)間：2019年09月18日 10:10:37 作者：vabaly

這篇文章主要介紹了使用Node.js在深度學(xué)習(xí)中做圖片預(yù)處理的方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

背景

最近在做一個(gè)和對象識別相關(guān)的項(xiàng)目，由于團(tuán)隊(duì)內(nèi)技術(shù)棧偏向 JavaScript，在已經(jīng)用 Python 和 Tensorflow 搭建好了對象識別服務(wù)器后，為了不再增加團(tuán)隊(duì)成員維護(hù)成本，所以盡可能將訓(xùn)練和識別之外的任務(wù)交給 Node.js 來做，今天要講到的圖片預(yù)處理就是其中之一。

這里對還不了解深度學(xué)習(xí)的人就幾個(gè)概念做個(gè)簡單的解釋

對象識別：對象識別可理解為計(jì)算機(jī)在一張圖片中發(fā)現(xiàn)某個(gè)或某些指定的物體，比如找到里面所有的狗。

訓(xùn)練：計(jì)算機(jī)學(xué)會對象識別這個(gè)本領(lǐng)就像人類學(xué)會說話一樣，需要不斷地練習(xí)，深度學(xué)習(xí)中管這個(gè)過程叫做 “訓(xùn)練”。

訓(xùn)練集：人類學(xué)會說話需要看別人怎么說，聽別人的聲音等等，這些能夠讓自己學(xué)會說話的信息在深度學(xué)習(xí)中稱為訓(xùn)練集，只不過對象識別中需要的訓(xùn)練集只有圖片。

做圖片預(yù)處理的目的是為了解決對象識別中訓(xùn)練集不足的問題。當(dāng)對象識別應(yīng)用于某個(gè)專用領(lǐng)域的時(shí)候，就會遇到這個(gè)問題。如果你是識別一只狗，這樣的圖片一大把，而且有人已經(jīng)訓(xùn)練好了，并且可以提供服務(wù)給大家使用了。如果你是識別團(tuán)隊(duì)內(nèi)的文化衫，這樣的圖片就太少了，費(fèi)了老半天勁拍 100 張，這樣的數(shù)據(jù)量依然少得可憐。要知道網(wǎng)上那些成熟的 AI 服務(wù)，訓(xùn)練集隨隨便便就成千上萬，甚至以億為單位。當(dāng)然，專用領(lǐng)域一般需求也比較簡單，需要識別出來的東西種類不多，特征也比較明顯，但是仍然會希望訓(xùn)練集越大越好，這時(shí)候就可以對所擁有的圖片做一些處理，來生成新的圖片，從而擴(kuò)充當(dāng)前的訓(xùn)練集，這個(gè)過程就叫圖片預(yù)處理了。

常見的圖片預(yù)處理方式有以下幾種：

旋轉(zhuǎn)。由于旋轉(zhuǎn)的角度可以是任意值，所以需要隨機(jī)生成一些角度來旋轉(zhuǎn)，這又稱為隨機(jī)旋轉(zhuǎn)。
翻轉(zhuǎn)。相當(dāng)于在圖片旁邊放面鏡子，新圖片就是鏡子內(nèi)的圖片，一般有水平翻轉(zhuǎn)和豎直翻轉(zhuǎn)兩種。
調(diào)節(jié)亮度。調(diào)節(jié)過手機(jī)的亮度就能體會這個(gè)意思。
調(diào)節(jié)飽和度。調(diào)節(jié)過傳統(tǒng)電視就能體會到這個(gè)意思，飽和度越高，色彩顯示越鮮艷，反之給人一種冷色的感覺。
調(diào)節(jié)色相。這個(gè)相當(dāng)于給整個(gè)圖片變顏色一樣，想象一下以前調(diào)出來的綠色電視。
調(diào)節(jié)對比度。這個(gè)會讓圖片亮的地方更亮，暗的地方更暗。也可以想象一下電視上的對比度調(diào)節(jié)，不得不說電視機(jī)啟蒙了這些專業(yè)名詞。

上述每項(xiàng)操作都需要視場景而選擇，目前適用于我們團(tuán)隊(duì)的處理方式主要也就是上面這些。還有一些白化、Gamma 處理等操作，由于不是那么直觀，有興趣的人可以自己去了解。

安裝 gm

gm 是一個(gè)圖片處理的 npm 庫，性能在 Node.js 庫中應(yīng)該算佼佼者了，它底層默認(rèn)使用的是 GraphicsMagick，所以你需要先安裝 GraphicsMagick，在 Mac 系統(tǒng)中直接用 Homebrew 安裝：

brew install graphicsmagick

其他系統(tǒng)的安裝方式可以直接前往官網(wǎng)查看。

如果你需要在圖片上添加文字，還需要安裝 ghostscript，在 Mac 上可以用 brew install ghostscript 安裝。由于本文沒涉及到這一個(gè)功能，所以可以不用安裝。

同時(shí)，需要將 gm 安裝在你的項(xiàng)目下：

npm i gm -S

預(yù)處理

為了直觀，我選了一張圖片作為預(yù)處理對象：

另外，在本文的示例代碼中，每種預(yù)處理方法的函數(shù)名都是參照 Tensorflow 中 Image 模塊的同名方法而定，更多處理圖片的方法可以前往 Tensorflow 文檔官網(wǎng)自行查看，同時(shí)去 gm 官方文檔中尋找相同作用的方法。

翻轉(zhuǎn)

沿 Y 軸翻轉(zhuǎn)用到了 gm 的 .flip 方法：

import gm from 'gm';

/**
 * 沿 Y 軸翻轉(zhuǎn)，即上下顛倒
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param callback 處理后的回調(diào)函數(shù)
 */
function flip(inputPath, outputPath, callback) {
  gm(inputPath)
    .flip()
    .write(outputPath, callback);
}

翻轉(zhuǎn)后的效果如下圖所示：

沿 X 軸翻轉(zhuǎn)用到了 gm 的 .flop 方法：

import gm from 'gm';

/**
 * 沿 X 軸翻轉(zhuǎn)，即上下顛倒
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param callback 處理后的回調(diào)函數(shù)
 */
function flop(inputPath, outputPath, callback) {
  gm(inputPath)
    .flop()
    .write(outputPath, callback);
}

翻轉(zhuǎn)后的效果如下圖所示：

你還可以把 .flip 和 .flop 組合起來使用，形成對角線翻轉(zhuǎn)的效果：

如果把原圖看成一個(gè)前端組件，即一個(gè)購物按鈕組，里面每個(gè)按鈕的背景可以自定義，按鈕里面由文字、分隔線、文字三種元素組成，那么上面翻轉(zhuǎn)后的圖片是可以看成同一個(gè)組件的，即可以拿來作為訓(xùn)練集。

有時(shí)候，翻轉(zhuǎn)帶來的效果并不是自己想要的，可能翻轉(zhuǎn)后，和原來的圖片就不應(yīng)該視作同一個(gè)東西了，這時(shí)候這種方法就有局限性了。

調(diào)整亮度

相比之后，調(diào)整亮度就顯得更加普適了，無論是什么圖片，調(diào)整亮度后，里面的東西依然還是原來的那個(gè)東西。

調(diào)整亮度用到了 gm 的 .modulate 方法：

/**
 * 調(diào)整亮度
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param brightness 圖像亮度的值，基準(zhǔn)值是 100，比 100 高則是增加亮度，比 100 低則是減少亮度
 * @param callback 處理后的回調(diào)函數(shù)
 */
function adjustBrightness(inputPath, outputPath, brightness, callback) {
  gm(inputPath)
    .modulate(brightness, 100, 100)
    .write(outputPath, callback);
}

.modulate 方法是一個(gè)多功能的方法，可以同時(shí)調(diào)整圖片的亮度、飽和度和色相三種特性，這三種特性分別對應(yīng)著該方法的三個(gè)參數(shù)，這里只調(diào)整亮度，所以只改變第一個(gè)參數(shù)（比 100 高則是增加亮度，比 100 低則是減少亮度），其他保持 100 基準(zhǔn)值不變。

我把亮度從 0 - 200 的圖片都生成了出來，并進(jìn)行了對比，選出了一個(gè)亮度處理較為合適的區(qū)間。可以看看 0 - 200 之間相鄰亮度相差為 10 的圖片之間的差別（提示：每張圖片的左上角標(biāo)識出了該圖片的亮度）：

可以看到亮度為 60 以下的圖片，都太暗了，細(xì)節(jié)不夠明顯，亮度為 150 以上的圖片，都太亮了，也是細(xì)節(jié)不夠明顯。而經(jīng)過多張圖片綜合對比之后，我認(rèn)為 [60, 140] 這個(gè)區(qū)間的圖片質(zhì)量比較好，與原圖相比不會丟失太多細(xì)節(jié)。

再來看看亮度為 50 和 60 的兩張圖片，其實(shí)看起來像是一張圖片一樣，不符合訓(xùn)練集多樣性的原則，更何況是相鄰亮度相差為 1 的兩張圖片。所以最終決定作為訓(xùn)練集的相鄰兩張圖片亮度差為 20，這樣差異就比較明顯，比如亮度為 80 和亮度為 100 的兩張圖片。

最終，調(diào)節(jié)亮度產(chǎn)生的新圖片將會是 4 張。從亮度為 60 的圖片開始，每增加 20 亮度就選出來加入訓(xùn)練集，直到亮度為 140 的圖片，其中亮度為 100 的圖片不算。

調(diào)節(jié)飽和度

調(diào)節(jié)飽和度也是用 .modulate 方法，只不過是調(diào)節(jié)第二個(gè)參數(shù)：

/**
 * 調(diào)整飽和度
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param saturation 圖像飽和度的值，基準(zhǔn)值是 100，比 100 高則是增加飽和度，比 100 低則是減少飽和度
 * @param callback 處理后的回調(diào)函數(shù)
 */
function adjustSaturation(inputPath, outputPath, saturation, callback) {
  gm(inputPath)
    .modulate(100, saturation, 100)
    .write(outputPath, callback);
}

同樣按調(diào)節(jié)亮度的方法來確定飽和度的范圍以及訓(xùn)練集中相鄰兩張圖片的飽和度相差多少?？梢钥纯聪噜忥柡投认嗖顬?10 的圖片之間的差別（提示：每張圖片的左上角標(biāo)識出了該圖片的飽和度）：

調(diào)節(jié)飽和度的產(chǎn)生的圖片細(xì)節(jié)沒有丟，大多都能夠用作訓(xùn)練集中的圖片，與亮度一樣，飽和度相差 20 的兩張圖片差異性明顯。另外，飽和度大于 140 的時(shí)候，圖片改變就不明顯了。所以調(diào)節(jié)飽和度產(chǎn)生的新圖片將會是 6 張。從飽和度為 0 的圖片開始，每增加 20 飽和度就選出來加入訓(xùn)練集，直到飽和度為 140 的圖片，其中飽和度為 100 的圖片不算。

調(diào)節(jié)色相

調(diào)節(jié)色相的方法在此場景下是最有用的方法，產(chǎn)生的訓(xùn)練集最多，率先來看下色相相鄰為 10 的圖片之間的差距吧（提示：每張圖片的左上角標(biāo)識出了該圖片的色相）：

幾乎每個(gè)圖片都能作為新的訓(xùn)練集，由于色相調(diào)節(jié)范圍只能在 0 - 200 之間，所以從色相為 0 的圖片開始，每增加 10 色相就選出來加入訓(xùn)練集，直到色相為 190 的圖片，其中色相為 100 的圖片不算。這樣就能夠產(chǎn)生 20 張圖片作為訓(xùn)練集。

至于調(diào)節(jié)色相的代碼則和亮度、飽和度一樣，只是改變了第三個(gè)參數(shù)：

/**
 * 調(diào)整色相
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param hue 圖像色相的值，基準(zhǔn)值是 100，比 100 高則是增加色相，比 100 低則是減少色相
 * @param callback 處理后的回調(diào)函數(shù)
 */
function adjustHue(inputPath, outputPath, hue, callback) {
  gm(inputPath)
    .modulate(100, 100, hue)
    .write(outputPath, callback);
}

調(diào)節(jié)色相并不是萬能的，只是適用于這個(gè)場景，當(dāng)然，我們團(tuán)隊(duì)的需求都是類似這個(gè)場景的。但是，如果你要訓(xùn)練識別梨的人工智能，告訴它有個(gè)藍(lán)色的梨顯然是不合適的。

調(diào)節(jié)對比度

調(diào)整對比度用到了 gm 的 .contrast 方法：

/**
 * 調(diào)整對比度
 * @param inputPath 輸入的圖像文件路徑
 * @param outputPath 輸出的圖像文件路徑
 * @param multiplier 調(diào)節(jié)對比度的因子，默認(rèn)是 0，可以為負(fù)值，n 表示增加 n 次對比度，-n 表示降低 n 次對比度
 * @param callback 處理后的回調(diào)函數(shù)
 */
function adjustContrast(inputPath, outputPath, multiplier, callback) {
  gm(inputPath)
    .contrast(multiplier)
    .write(outputPath, callback);
}

下面是對比度因子從 -10 到 10 之間的圖像，可以看到圖片質(zhì)量較好的區(qū)間是 [-5, 2]，其他都會丟失一些細(xì)節(jié)。另外相鄰對比度因子的圖片之間的差異也比較明顯，所以每張圖片都可作為訓(xùn)練集，這樣又多出 7 張圖片。