nodejs批量下載圖片的實(shí)現(xiàn)方法
今天想獲取一大批貓的圖片,然后就在360流浪器搜索框中輸入貓,然后點(diǎn)擊圖片。就看到了一大波貓的圖片:http://image.so.com/i?q=%E7%8...,我在想啊,要是審查元素,一張張手動(dòng)下載,多麻煩,所以打算寫程序來實(shí)現(xiàn)。不寫不知道,一寫發(fā)現(xiàn)里面還是有很多道道的。
1. 爬取圖片鏈接
因?yàn)橹耙矊戇^nodejs爬蟲功能,所以覺得應(yīng)該很簡單,就用cheerio來處理dom啦,結(jié)果打印一下啥也沒有,后來查看源代碼:
發(fā)現(xiàn)waterfall_zoom里面空空如也,查找了一下,發(fā)現(xiàn)所有的數(shù)據(jù)都是寫在<script>里面,然后動(dòng)態(tài)加載到頁面的,所以用cheerio.load到的頁面里面其實(shí)沒數(shù)據(jù)的。真實(shí)數(shù)據(jù):
分析完畢,刷刷寫代碼:
var request = require('request'); var cheerio = require('cheerio'); var url = 'http://image.so.com/i?q=%E7%8C%AB&src=tab_www'; request(url,function(err,res,body){ if(!err && res.statusCode === 200){ var $ = cheerio.load(body); var imgList = [] JSON.parse($('script[id="initData"]').html()).list.forEach(function(item){ imgList.push(item.img) }); console.log(imgList); } });
2. 下載圖片到本地
2.1 粗糙的方案
最初的思路很簡單,簡單的fs.createWriteStream()就能解決:
var downloadPic = function(src, dest){ request(src).pipe(fs.createWriteStream(dest)).on('close',function(){ console.log('pic saved!') }) }
使用方式:
downloadPic(imgList[0],'./catpics/1.jpg');
成功捕獲一只貓!然后寫了一個(gè)循環(huán)準(zhǔn)備捕獲所有貓。然而這種方式是串行的,速度很慢!下載一大批圖片要花大量時(shí)間。
2.2 使用async異步批量下載
關(guān)于async的map操作,詳見:async_demo/map.js,對(duì)集合中的每一個(gè)元素,執(zhí)行某個(gè)異步操作,得到結(jié)果。所有的結(jié)果將匯總到最終的callback里。與forEach的區(qū)別是,forEach只關(guān)心操作不管最后的值,而map關(guān)心的最后產(chǎn)生的值。
提供了兩種方式:
- 并行執(zhí)行。async.map同時(shí)對(duì)集合中所有元素進(jìn)行操作,結(jié)果匯總到最終callback里。如果出錯(cuò),則立刻返回錯(cuò)誤以及已經(jīng)執(zhí)行完的任務(wù)的結(jié)果,未執(zhí)行完的占個(gè)空位
- 順序執(zhí)行。async.mapSeries對(duì)集合中的元素一個(gè)一個(gè)執(zhí)行操作,結(jié)果匯總到最終callback里。如果出錯(cuò),則立刻返回錯(cuò)誤以及已經(jīng)執(zhí)行完的結(jié)果,未執(zhí)行的被忽略。
在此處:
async.mapSeries(imgList,function(item, callback){ setTimeout(function(){ downloadPic(item, './catpics/'+ (new Date()).getTime() +'.jpg'); callback(null, item); },400); }, function(err, results){});
注:此處使用setTimeout,是因?yàn)橄螺d需要一定時(shí)間,在筆者較慢網(wǎng)速下,需要400ms的間隔能確保每張圖片下載完全。
成功捕獲一批貓貓!
2.3 使用bagpipe批量
bagpipe是樸靈大大做的一個(gè)在nodejs中控制并發(fā)執(zhí)行的模塊。其安裝和使用也比較簡單:
npm install bagpipe --save
使用:
var Bagpipe = require('bagpipe'); var bagpipe = new Bagpipe(10); var files = ['這里有很多很多文件']; for(vari =0; i < files.length; i++){ bagpipe.push(fs.readFile, files[i], 'utf-8',function(err, data){ ... }); }
在此處:
var bagpipe = new Bagpipe(10,{timeout: 100}); for(var i = 0; i < imgList.length; i++) { console.log('i:'+i) bagpipe.push(downloadPic, imgList[i], './catpics/'+ i +'.jpg', function(err, data){ // }); }
3.總結(jié)
作為一個(gè)程序員,能用程序解決就不手動(dòng)解決。每一次嘗都會(huì)有新的收獲。
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Node.js 條形碼識(shí)別程序構(gòu)建思路詳解
這篇文章主要介紹了Node.js 條形碼識(shí)別程序構(gòu)建思路詳解的相關(guān)資料,需要的朋友可以參考下2016-02-02node.js抓取并分析網(wǎng)頁內(nèi)容有無特殊內(nèi)容的js文件
nodejs獲取網(wǎng)頁內(nèi)容綁定data事件,獲取到的數(shù)據(jù)會(huì)分幾次相應(yīng),如果想全局內(nèi)容匹配,需要等待請求結(jié)束,在end結(jié)束事件里把累積起來的全局?jǐn)?shù)據(jù)進(jìn)行操作,本文給大家介紹node.js抓取并分析網(wǎng)頁內(nèi)容有無特殊內(nèi)容的js文件,需要的朋友參考下2015-11-11Node.js 緩沖區(qū)(Buffer)模塊的方法及實(shí)例分析
在本篇文章里小編給大家整理了一篇關(guān)于Node.js 緩沖區(qū)(Buffer)模塊的方法及實(shí)例分析,對(duì)此有興趣的朋友們可以跟著學(xué)習(xí)下。2022-01-01輕松創(chuàng)建nodejs服務(wù)器(2):nodejs服務(wù)器的構(gòu)成分析
這篇文章主要介紹了輕松創(chuàng)建nodejs服務(wù)器(2):nodejs服務(wù)器的構(gòu)成分析,本文是對(duì)第一節(jié)中簡單服務(wù)器的代碼進(jìn)行分析總結(jié),需要的朋友可以參考下2014-12-12Node.js中JavaScript操作MySQL的常用方法整理
這篇文章主要介紹了Node.js中JavaScript操作MySQL的常用方法整理,包括作者對(duì)使用MySQL模塊連接池時(shí)錯(cuò)誤解決的一個(gè)記錄,需要的朋友可以參考下2016-03-03