亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

淺談Node.js爬蟲之網(wǎng)頁請(qǐng)求模塊

 更新時(shí)間:2018年01月11日 13:59:48   作者:Sirk  
本篇文章主要介紹了淺談Node.js爬蟲之網(wǎng)頁請(qǐng)求模塊,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧

本文介紹了Node.js爬蟲之網(wǎng)頁請(qǐng)求模塊,分享給大家,具體如下:

注:如您下載最新的nodegrass版本,由于部分方法已經(jīng)更新,本文的例子已經(jīng)不再適應(yīng),詳細(xì)請(qǐng)查看開源地址中的例子。

一、為什么我要寫這樣一個(gè)模塊?

源于筆者想使用Node.js寫一個(gè)爬蟲,雖然Node.js官方API提供的請(qǐng)求遠(yuǎn)程資源的方法已經(jīng)非常簡(jiǎn)便,具體參考

http://nodejs.org/api/http.html 其中對(duì)于Http的請(qǐng)求提供了,http.get(options, callback)和http.request(options, callback)兩個(gè)方法,

看方法便知,get方法用于get方式的請(qǐng)求,而request方法提供更多的參數(shù),例如其它請(qǐng)求方式,請(qǐng)求主機(jī)的端口等等。對(duì)于Https的請(qǐng)求于Http類似。一個(gè)最簡(jiǎn)單的例子:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

對(duì)于以上代碼,我們無非就是想請(qǐng)求遠(yuǎn)程主機(jī),得到響應(yīng)信息,例如響應(yīng)狀態(tài),響應(yīng)頭,響應(yīng)主體內(nèi)容。其中g(shù)et方法的第二個(gè)參數(shù)是一個(gè)回調(diào)函數(shù),我們異步的獲取響應(yīng)信息,然后,在該回調(diào)函數(shù)中,res對(duì)象又監(jiān)聽data,on方法中第二個(gè)參數(shù)又是一個(gè)回調(diào),而你得到d(你請(qǐng)求到的響應(yīng)信息)后,很可能在對(duì)它進(jìn)行操作的時(shí)候再次引入回調(diào),一層層下去,最后就暈了。。。對(duì)于異步方式的編程,對(duì)于一些習(xí)慣同步方式寫代碼的同學(xué)是非常糾結(jié)的,當(dāng)然國內(nèi)外已經(jīng)對(duì)此提供了一些非常優(yōu)秀的同步類庫,例如老趙的Wind.js......好像有點(diǎn)扯遠(yuǎn)了。其實(shí),我們調(diào)用get最終要得到的無非就是響應(yīng)信息,而不關(guān)心res.on這樣的監(jiān)聽過程,因?yàn)樘珣卸琛2幌朊看味紃es.on('data',func),于是誕生了今天我要介紹的nodegrass。

二、nodegrass請(qǐng)求資源,像Jquery的$.get(url,func)

一個(gè)最簡(jiǎn)單的例子:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

咋一看,和官方原來的get沒啥區(qū)別,確實(shí)差不多=。=!只不過少了一層res.on('data',func)的事件監(jiān)聽回調(diào)而已。不管你信不信,反正我看上去感覺舒服多了,第二個(gè)參數(shù)同樣是一個(gè)回調(diào)函數(shù),其中的參數(shù)data是響應(yīng)主體內(nèi)容,status是響應(yīng)狀態(tài),headers是響應(yīng)頭。得到響應(yīng)內(nèi)容,我們就可以對(duì)得到的資源提取任何我們感興趣的信息啦。當(dāng)然這個(gè)例子中,只是簡(jiǎn)單的打印的控制臺(tái)而已。第三個(gè)參數(shù)是字符編碼,目前Node.js不支持gbk,這里nodegrass內(nèi)部引用了iconv-lite進(jìn)行了處理,所以,如果你請(qǐng)求的網(wǎng)頁編碼是gbk的,例如百度。只需加上這個(gè)參數(shù)就行了。

那么對(duì)于https的請(qǐng)求呢?如果是官方api,你得引入https模塊,但是請(qǐng)求的get方法等和http類似,于是nodegrass順便把他們整合在一塊了??蠢樱?/p>

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass會(huì)根據(jù)url自動(dòng)識(shí)別是http還是https,當(dāng)然你的url必須得有,不能只寫www.baidu.com/而需要http://www.baidu.com/。

對(duì)于post的請(qǐng)求,nodegrass提供了post方法,看例子:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

以上是新浪微博Auth2.0請(qǐng)求accessToken的一部分,其中使用nodegrass的post請(qǐng)求access_token的api。

post方法相比get方法多提供了headers請(qǐng)求頭參數(shù),options--post的數(shù)據(jù),它們都是對(duì)象字面量的類型:

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

三、利用nodegrass做代理服務(wù)器?……**

看例子:

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

就這么簡(jiǎn)單,當(dāng)然代理服務(wù)器還有復(fù)雜的多,這個(gè)不算是,但至少你訪問本地8088端口,看到的是不是博客園的頁面呢?

nodegrass的開源地址:https://github.com/scottkiss/nodegrass

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • npm安裝sharp出現(xiàn)的問題詳解(安裝失敗的問題及解決)

    npm安裝sharp出現(xiàn)的問題詳解(安裝失敗的問題及解決)

    這篇文章主要給大家介紹了關(guān)于npm安裝sharp出現(xiàn)的問題(安裝失敗的問題及解決)的相關(guān)資料,sharp包是基于node.js的高性能圖片處理器,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-11-11
  • 新入門node.js必須要知道的概念(必看篇)

    新入門node.js必須要知道的概念(必看篇)

    下面小編就為大家?guī)硪黄氯腴Tnode.js必須要知道的概念(必看篇)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2016-08-08
  • nodejs實(shí)現(xiàn)百度輿情接口應(yīng)用示例

    nodejs實(shí)現(xiàn)百度輿情接口應(yīng)用示例

    這篇文章主要介紹了nodejs實(shí)現(xiàn)百度輿情接口應(yīng)用,結(jié)合實(shí)例形式分析了node.js調(diào)用百度輿情接口的具體使用技巧,需要的朋友可以參考下
    2020-02-02
  • koa-router路由參數(shù)和前端路由的結(jié)合詳解

    koa-router路由參數(shù)和前端路由的結(jié)合詳解

    這篇文章主要給大家介紹了關(guān)于koa-router路由參數(shù)和前端路由的結(jié)合的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用koa-router具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-05-05
  • Node.js之如何創(chuàng)建TCP服務(wù)器端

    Node.js之如何創(chuàng)建TCP服務(wù)器端

    這篇文章主要介紹了Node.js之如何創(chuàng)建TCP服務(wù)器端問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-09-09
  • Windows7系統(tǒng)下如何安裝nodejs16以上版本

    Windows7系統(tǒng)下如何安裝nodejs16以上版本

    這篇文章主要給大家介紹了關(guān)于Windows7系統(tǒng)下如何安裝nodejs16以上版本的相關(guān)資料,很多時(shí)候node.js的版本存在兼容,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-07-07
  • puppeteer實(shí)現(xiàn)html截圖的示例代碼

    puppeteer實(shí)現(xiàn)html截圖的示例代碼

    通過Puppeteer的提供的api直接控制Chrome模擬大部分用戶操作來進(jìn)行UI Test或者作為爬蟲訪問頁面來收集數(shù)據(jù),這篇文章主要介紹了puppeteer實(shí)現(xiàn)截圖的示例代碼,感興趣的可以了解一下
    2019-01-01
  • kafka調(diào)試中遇到Connection to node -1 could not be established. Broker may not be available.

    kafka調(diào)試中遇到Connection to node -1 could not be established. Br

    這篇文章主要介紹了kafka調(diào)試中遇到Connection to node -1 could not be established. Broker may not be available的解決方法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2019-09-09
  • 使用Node.js處理前端代碼文件的編碼問題

    使用Node.js處理前端代碼文件的編碼問題

    這篇文章主要介紹了使用Node.js處理前端代碼文件的編碼問題的方法,Node自帶的相關(guān)類庫處理編碼方面的問題時(shí)還是比較得心應(yīng)手的,需要的朋友可以參考下
    2016-02-02
  • 手把手教你把nodejs部署到linux上跑出hello world

    手把手教你把nodejs部署到linux上跑出hello world

    本篇文章主要介紹了手把手教你把nodejs部署到linux上跑出hello world,非常具有實(shí)用價(jià)值,需要的朋友可以參考下
    2017-06-06

最新評(píng)論