快捷導(dǎo)航

node.js抓取并分析網(wǎng)頁內(nèi)容有無特殊內(nèi)容的js文件

更新時(shí)間：2015年11月17日 10:40:01 作者：平凡公子

nodejs獲取網(wǎng)頁內(nèi)容綁定data事件，獲取到的數(shù)據(jù)會(huì)分幾次相應(yīng)，如果想全局內(nèi)容匹配，需要等待請(qǐng)求結(jié)束，在end結(jié)束事件里把累積起來的全局?jǐn)?shù)據(jù)進(jìn)行操作，本文給大家介紹node.js抓取并分析網(wǎng)頁內(nèi)容有無特殊內(nèi)容的js文件，需要的朋友參考下

nodejs獲取網(wǎng)頁內(nèi)容綁定data事件，獲取到的數(shù)據(jù)會(huì)分幾次相應(yīng)，如果想全局內(nèi)容匹配，需要等待請(qǐng)求結(jié)束，在end結(jié)束事件里把累積起來的全局?jǐn)?shù)據(jù)進(jìn)行操作！

舉個(gè)例子，比如要在頁面中找有沒有www.baidu.com，不多說了，直接放代碼：

//引入模塊
var http = require("http"),
fs = require('fs'),
url = require('url');
//寫入文件，把結(jié)果寫入不同的文件
var writeRes = function(p, r) {
   fs.appendFile(p , r, function(err) {
    if(err)
       console.log(err);
    else
       console.log(r);
  });
},
//發(fā)請(qǐng)求，并驗(yàn)證內(nèi)容，把結(jié)果寫入文件
postHttp = function(arr, num) {
   console.log('第'+num+"條！")
   var a = arr[num].split(" - ");
   if(!a[0] || !a[1]) {
     return;
   }
   var address = url.parse(a[1]),
   options = {
     host : address.host,
     path: address.path,
     hostname : address.hostname,
     method: 'GET',
     headers: {
      'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
    }
   }
   var req = http.request(options, function(res) {
     if (res.statusCode == 200) {
        res.setEncoding('UTF-8');
        var data = '';
        res.on('data', function (rd) {  
          data += rd;
        });
        res.on('end', function(q) {
          if(!~data.indexOf("www.baidu.com")) {
             return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');            
          } else {
             return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");
          }
        })
     } else {
        writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');
     }
   });
   req.on('error', function(e) {
     writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');
   })
   req.end();
},
//讀取文件，獲取需要抓取的頁面
openFile = function(path, coding) {
   fs.readFile(path, coding, function(err, data) {
     var res = data.split("\n");  
     for (var i = 0, rl = res.length; i < rl; i++) {
        if(!res[i])
          continue;
        postHttp(res, i);  
     };  
   })
};
openFile('./sites.log', 'utf-8');

上面代碼大家可以看的懂吧，有哪里不清楚的朋友歡迎給我留言，具體的還要靠大家發(fā)揮應(yīng)用到實(shí)踐當(dāng)中。

下面給大家介紹Nodejs對(duì)于網(wǎng)頁抓取的能力

首先PHP。先說優(yōu)勢(shì)：網(wǎng)上抓取和解析html的框架一抓一大把，各種工具直接拿來用就行了，比較省心。缺點(diǎn)：首先速度/效率很成問題，有一次下載電影海報(bào)的時(shí)候，由于是crontab定期執(zhí)行，也沒做優(yōu)化，開的php進(jìn)程太多，直接把內(nèi)存撐爆了。然后語法方面也很拖沓，各種關(guān)鍵字符號(hào) 太多，不夠簡潔，給人一種沒有認(rèn)真設(shè)計(jì)過的感覺，寫起來很麻煩。

Node.js。優(yōu)點(diǎn)是效率、效率還是效率，由于網(wǎng)絡(luò)是異步的，所以基本如同幾百個(gè)進(jìn)程并發(fā)一樣強(qiáng)大，內(nèi)存和CPU占用非常小，如果沒有對(duì)抓取來的數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算加工，那么系統(tǒng)的瓶頸基本就在帶寬和寫入MySQL等數(shù)據(jù)庫的I/O速度。當(dāng)然，優(yōu)點(diǎn)的反面也是缺點(diǎn)，異步網(wǎng)絡(luò)代表你需要callback，這時(shí)候如果業(yè)務(wù)需求是線性了，比如必須等待上一個(gè)頁面抓取完成后，拿到數(shù)據(jù)，才能進(jìn)行下一個(gè)頁面的抓取，甚至多層的依賴關(guān)系，那就會(huì)出現(xiàn)可怕的多層callback！基本這時(shí)候，代碼結(jié)構(gòu)和邏輯就會(huì)一團(tuán)亂麻。當(dāng)然可以用Step等流程控制工具解決這些問題。

最后說Python。如果你對(duì)效率沒有極端的要求，那么推薦用Python！首先，Python的語法很簡潔，同樣的語句，可以少敲很多次鍵盤。然后，Python非常適合做數(shù)據(jù)的處理，比如函數(shù)參數(shù)的打包解包，列表解析，矩陣處理，非常方便。

您可能感興趣的文章: