nodejs做個(gè)爬蟲爬取騰訊動(dòng)漫內(nèi)容簡單實(shí)現(xiàn)
更新時(shí)間:2023年07月24日 09:20:31 作者:紫氣東來_姜波
這篇文章主要為大家介紹了nodejs做個(gè)爬蟲爬取騰訊動(dòng)漫內(nèi)容簡單實(shí)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
首先上package.json
{ "name": "Spider", "version": "1.0.0", "description": "spider ", "main": "index.js", "dependencies": { "async": "^1.5.0", "cheerio": "^0.19.0", "eventproxy": "^0.3.4", "superagent": "^1.4.0" }, "devDependencies": {}, "scripts": { "test": "node index", "start": "node server.js" } }
server.js
var http = require("http"); var cheerio = require("cheerio"); var fs = require('fs'); //Utility function that downloads a URL and invokes //callback with the data. function downloadPage(url, callback) { http.get(url, function(res) { var data = ""; res.on('data', function(chunk) { data += chunk; }); res.on("end", function() { callback(data); }); }).on("error", function() { callback(null); }); } function start() { var url = 'http://ac.qq.com/Comic/index/type/4/page/'; var url2 = 'http://ac.qq.com/ComicView/index/id/549690/cid/1'; var arr = []; for (var i = 1; i < 13; i++) { downloadPage(url + i, function(data) { if (data) { var $ = cheerio.load(data); $("div.ret-search-result > ul > li.ret-search-item").each(function(i, e) { var json = {}; json.tags = []; json.img = $(e).find('img').attr('data-original'); json.link = $(e).find('a.mod-cover-list-thumb').attr('href'); json.id = json.link.split('/').reverse()[0]; json.title = $(e).find('h3.ret-works-title > a').text(); json.author = $(e).find('p.ret-works-author').text(); json.popular = $(e).find('p.ret-works-tags> span > em').text(); json.description = $(e).find('p.ret-works-decs').text(); $(e).find('p.ret-works-tags>a').each(function(i, e) { json.tags.push($(e).text()); }); downloadImg(json.img); arr.push(json) console.log("done"); // console.log(arr) // fs.writeFileSync('./output.json', JSON.stringify(arr)); // }); }) } }) } } function downloadImg(url) { console.log('string') http.get(url, function(res) { var imgData = ""; res.setEncoding("binary"); //一定要設(shè)置response的編碼為binary否則會(huì)下載下來的圖片打不開 res.on("data", function(chunk) { imgData += chunk; }); res.on("end", function() { var d = new Date(); fs.writeFile("./downImgs/" + Math.floor(Math.random() * 10000000) + '.jpg', imgData, "binary", function(err) { if (err) { console.log(err); } console.log("down success"); }); }); }); } exports.start = start;
最后index.js
var server = require("./server"); server.start();
說明
- 引入必須的模塊,http, cheerio, fs
- downloadPage函數(shù)接收URL,并在回調(diào)里處理數(shù)據(jù)。
- start函數(shù)里,定義url數(shù)據(jù)源,這里用的是騰訊動(dòng)漫.
- for循環(huán)處理url數(shù)據(jù)內(nèi)容,里面的downloadImg函數(shù),即保存圖片到本地。
以上就是nodejs做個(gè)爬蟲爬取騰訊動(dòng)漫內(nèi)容簡單實(shí)現(xiàn)的詳細(xì)內(nèi)容,更多關(guān)于nodejs爬蟲爬取騰訊動(dòng)漫的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Node.js API詳解之 module模塊用法實(shí)例分析
這篇文章主要介紹了Node.js API詳解之 module模塊用法,結(jié)合實(shí)例形式分析了Node.js API中module模塊基本功能、原理、用法及操作注意事項(xiàng),需要的朋友可以參考下2020-05-05基于socket.io+express實(shí)現(xiàn)多房間聊天
本文給大家分享的是使用node.js,基于socket.io+express實(shí)現(xiàn)多房間聊天的代碼,非常的實(shí)用,有需要的小伙伴可以來參考下2016-03-03Nodejs 搭建簡單的Web服務(wù)器詳解及實(shí)例
這篇文章主要介紹了Nodejs 搭建簡單的Web服務(wù)器詳解及實(shí)例的相關(guān)資料,并附實(shí)例代碼和實(shí)現(xiàn)效果圖,需要的朋友可以參考下2016-11-11干凈卸載Windows的Node.js環(huán)境的方法
這篇文章主要介紹了如何干凈卸載Windows的Node.js環(huán)境的方法,文中通過圖文結(jié)合的方式講解的非常詳細(xì),對大家刪除Node.js環(huán)境有一定的幫助,需要的朋友可以參考下2025-01-01node腳本實(shí)現(xiàn)自動(dòng)化簽到和抽獎(jiǎng)功能
本文主要介紹了node腳本實(shí)現(xiàn)自動(dòng)化簽到和抽獎(jiǎng)功能,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-01-01