亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

利用Node.js制作爬取大眾點評的爬蟲

 更新時間:2016年09月22日 11:52:51   投稿:daisy  
相信每位用過大眾點評的人都知道,大眾點評上有很多美食餐館的信息,所以這篇文章給大家分享利用Node.js實現(xiàn)爬取大眾點評的爬蟲,正好可以拿來練練手Node.js。感興趣的可以參考借鑒。

前言

Node.js天生支持并發(fā),但是對于習(xí)慣了順序編程的人,一開始會對Node.js不適應(yīng),比如,變量作用域是函數(shù)塊式的(與C、Java不一樣);for循環(huán)體({})內(nèi)引用i的值實際上是循環(huán)結(jié)束之后的值,因而引起各種undefined的問題;嵌套函數(shù)時,內(nèi)層函數(shù)的變量并不能及時傳導(dǎo)到外層(因為是異步)等等。

一、 API分析

大眾點評開放了查詢餐館信息的API,這里給出了城市與cityid之間的對應(yīng)關(guān)系,

鏈接:http://m.api.dianping.com/searchshop.json?&regionid=0&start=0&categoryid=10&sortid=0&cityid=110

GET方式給出了餐館的信息(JSON格式)。

首先解釋下GET參數(shù)的含義:

     1、start為步進數(shù),表示分步獲取信息的index,與nextStartIndex字段相對應(yīng);

     2、cityid表示城市id,比如,合肥對應(yīng)于110;

     3、regionid表示區(qū)域id,每一個id代表含義在start=0rangeNavs字段中有解釋;

     4、categoryid表示搜索商家的分類id,比如,美食對應(yīng)的id為10,具體每一個id的含義參見在start=0categoryNavs字段;

     5、sortid表示商家結(jié)果的排序方式,比如,0對應(yīng)智能排序,2對應(yīng)評價最好,具體每一個id的含義參見在start=0時sortNavs字段。

在GET返回的JSON串中l(wèi)ist字段為商家列表,id表示商家的id,作為商家的唯一標(biāo)識。在返回的JSON串中是沒有商家的口味、環(huán)境、服務(wù)的評分信息以及經(jīng)緯度的;

      因而我們還需要爬取兩個商家頁面:http://m.dianping.com/shop/<id>、http://m.dianping.com/shop/<id>/map。

通過以上分析,確定爬取策略如下(與dianping_crawler的思路相類似):

      1、逐步爬取searchshop API的取商家基本信息列表;

      2、通過爬取的所有商家的id,異步并發(fā)爬取評分信息、經(jīng)緯度;

      3、最后將三份數(shù)據(jù)通過id做聚合,輸出成json文件。

二、爬蟲實現(xiàn)

Node.js爬蟲代碼用到如下的第三方模塊:

      1、superagent,輕量級http請求庫,模仿了瀏覽器登錄;

      2、cheerio,采用jQuery語法解析HTML元素,跟Python的PyQuery相類似;

      3、async,牛逼閃閃的異步流程控制庫,Node.js的必學(xué)庫。

導(dǎo)入依賴庫:

var util = require("util"); var superagent = require("superagent"); var cheerio = require("cheerio"); var async = require("async"); var fs = require('fs');

聲明全局變量,用于存放配置項及中間結(jié)果:

var cityOptions = { "cityId": 110, // 合肥 // 全部商區(qū), 蜀山區(qū), 廬陽區(qū), 包河區(qū), 政務(wù)區(qū), 瑤海區(qū), 高新區(qū), 經(jīng)開區(qū), 濱湖新區(qū), 其他地區(qū), 肥西縣 "regionIds": [0, 356, 355, 357, 8840, 354, 8839, 8841, 8843, 358, -922], "categoryId": 10, // 美食 "sortId": 2, // 人氣最高 "threshHold": 5000 // 最多餐館數(shù) }; var idVisited = {}; // used to distinct shop var ratingDict = {}; // id -> ratings var posDict = {}; // id -> pos

判斷一個id是否在前面出現(xiàn)過,若object沒有該id,則為undefined(注意不是null):

function isVisited(id) { if (idVisited[id] != undefined) { return true; } else { idVisited[id] = true; return false; } }

采取回調(diào)函數(shù)的方式,實現(xiàn)順序逐步地遞歸調(diào)用爬蟲函數(shù):

function DianpingSpider(regionId, start, callback) { console.log('crawling region=', regionId, ', start =', start); var searchBase = 'http://m.api.dianping.com/searchshop.json?&regionid=%s&start=%s&categoryid=%s&sortid=%s&cityid=%s'; var url = util.format(searchBase, regionId, start, cityOptions.categoryId, cityOptions.sortId, cityOptions.cityId); superagent.get(url) .end(function (err, res) { if (err) return console.err(err.stack); var restaurants = []; var data = JSON.parse(res.text); var shops = data['list']; shops.forEach(function (shop) { var restaurant = {}; if (!isVisited(shop['id'])) { restaurant.id = shop['id']; restaurant.name = shop['name']; restaurant.branchName = shop['branchName']; var regex = /(.*?)(\d+)(.*)/g; if (shop['priceText'].match(regex)) { restaurant.price = parseInt(regex.exec(shop['priceText'])[2]); } else { restaurant.price = shop['priceText']; } restaurant.star = shop['shopPower'] / 10; restaurant.category = shop['categoryName']; restaurant.region = shop['regionName']; restaurants.push(restaurant); } }); var nextStart = data['nextStartIndex']; if (nextStart > start && nextStart < cityOptions.threshHold) { DianpingSpider(regionId, nextStart, function (err, restaurants2) { if (err) return callback(err); callback(null, restaurants.concat(restaurants2)) }); } else { callback(null, restaurants); } }); }

在調(diào)用爬蟲函數(shù)時,采用asyncmapLimit函數(shù)實現(xiàn)對并發(fā)的控制;采用asyncuntil對并發(fā)的協(xié)同處理,保證三份數(shù)據(jù)結(jié)果的id一致性(不會因為并發(fā)完成時間不一致而丟數(shù)據(jù)):

DianpingSpider(0, 0, function (err, restaurants) { if (err) return console.err(err.stack); var concurrency = 0; var crawlMove = function (id, callback) { var delay = parseInt((Math.random() * 30000000) % 1000, 10); concurrency++; console.log('current concurrency:', concurrency, ', now crawling id=', id, ', costs(ms):', delay); parseShop(id); parseMap(id); setTimeout(function () { concurrency--; callback(null, id); }, delay); }; async.mapLimit(restaurants, 5, function (restaurant, callback) { crawlMove(restaurant.id, callback) }, function (err, ids) { console.log('crawled ids:', ids); var resultArray = []; async.until( function () { return restaurants.length === Object.keys(ratingDict).length && restaurants.length === Object.keys(posDict).length }, function (callback) { setTimeout(function () { callback(null) }, 1000) }, function (err) { restaurants.forEach(function (restaurant) { var rating = ratingDict[restaurant.id]; var pos = posDict[restaurant.id]; var result = Object.assign(restaurant, rating, pos); resultArray.push(result); }); writeAsJson(resultArray); } ); }); });

其中,parseShopparseMap分別為解析商家詳情頁、商家地圖頁:

function parseShop(id) { var shopBase = 'http://m.dianping.com/shop/%s'; var shopUrl = util.format(shopBase, id); superagent.get(shopUrl) .end(function (err, res) { if (err) return console.err(err.stack); console.log('crawling shop:', shopUrl); var restaurant = {}; var $ = cheerio.load(res.text); var desc = $("div.shopInfoPagelet > div.desc > span"); restaurant.taste = desc.eq(0).text().split(":")[1]; restaurant.surrounding = desc.eq(1).text().split(":")[1]; restaurant.service = desc.eq(2).text().split(":")[1]; ratingDict[id] = restaurant; }); } function parseMap(id) { var mapBase = 'http://m.dianping.com/shop/%s/map'; var mapUrl = util.format(mapBase, id); superagent.get(mapUrl) .end(function (err, res) { if (err) return console.err(err.stack); console.log('crawling map:', mapUrl); var restaurant = {}; var $ = cheerio.load(res.text); var data = $("body > script").text(); var latRegex = /(.*lat:)(\d+.\d+)(.*)/; var lngRegex = /(.*lng:)(\d+.\d+)(.*)/; if(data.match(latRegex) && data.match(lngRegex)) { restaurant.latitude = latRegex.exec(data)[2]; restaurant.longitude = lngRegex.exec(data)[2]; }else { restaurant.latitude = ''; restaurant.longitude = ''; } posDict[id] = restaurant; }); }

array的每一個商家信息,逐行寫入到j(luò)son文件中:

function writeAsJson(arr) { fs.writeFile( 'data.json', arr.map(function (data) { return JSON.stringify(data); }).join('\n'), function (err) { if (err) return err.stack; }) }

總結(jié)

以上就是這篇文章的全部內(nèi)容,希望本文能給學(xué)習(xí)或者使用node.js的朋友們帶來一定的幫助,如果有疑問大家可以留言交流。

相關(guān)文章

  • 使用命令行升級Node.js的版本的操作指南

    使用命令行升級Node.js的版本的操作指南

    這篇文章主要給大家介紹了關(guān)于如何使用命令行升級Node.js的版本的操作指南,文中介紹的非常詳細,對大家具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起看看吧
    2023-11-11
  • 簡單實現(xiàn)nodejs上傳功能

    簡單實現(xiàn)nodejs上傳功能

    這篇文章主要為大家詳細介紹了如何簡單實現(xiàn)nodejs上傳功能,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-01-01
  • 詳解使用nvm安裝node.js

    詳解使用nvm安裝node.js

    本篇文章主要介紹了詳解nvm安裝node.js,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-07-07
  • koa-passport實現(xiàn)本地驗證的方法示例

    koa-passport實現(xiàn)本地驗證的方法示例

    這篇文章主要介紹了koa-passport實現(xiàn)本地驗證的方法示例,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-02-02
  • 在node中使用jwt簽發(fā)與驗證token的方法

    在node中使用jwt簽發(fā)與驗證token的方法

    這篇文章主要介紹了在node中使用jwt簽發(fā)與驗證token的方法,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-04-04
  • Node.JS中快速掃描端口并發(fā)現(xiàn)局域網(wǎng)內(nèi)的Web服務(wù)器地址(80)

    Node.JS中快速掃描端口并發(fā)現(xiàn)局域網(wǎng)內(nèi)的Web服務(wù)器地址(80)

    在 Node.JS 中進行端口掃描還是比較方便的,一般會有廣播和輪詢兩種方式。下文重點給大家介紹node.js 掃描端口并發(fā)現(xiàn)局域網(wǎng)內(nèi)的web服務(wù)器地址的方法,一起看看吧
    2017-09-09
  • Nodejs中的require函數(shù)的具體使用方法

    Nodejs中的require函數(shù)的具體使用方法

    這篇文章主要介紹了Nodejs中的require函數(shù)的具體使用方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-04-04
  • node.js中的定時器nextTick()和setImmediate()區(qū)別分析

    node.js中的定時器nextTick()和setImmediate()區(qū)別分析

    本文介紹了node.js中的定時器nextTick()和setImmediate()的區(qū)別分析,非常的不錯,這里推薦給大家。
    2014-11-11
  • 前端Electron新手入門教程詳解

    前端Electron新手入門教程詳解

    這篇文章主要介紹了Electron新手入門教程詳解,首先圍繞Electron框架的關(guān)鍵知識點進行詳細講解,然后對DEMO程序進行分析,讓前端開發(fā)人員對使用Electron開發(fā)桌面應(yīng)用程序有一個初步的了解。,需要的朋友可以參考下
    2019-06-06
  • 利用Node.js檢測端口是否被占用的方法

    利用Node.js檢測端口是否被占用的方法

    這篇文章主要給大家介紹了關(guān)于利用Node.js檢測端口是否被占用的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。
    2017-12-12

最新評論