亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

nodejs爬蟲遇到的亂碼問題匯總

 更新時(shí)間:2017年04月07日 08:42:44   作者:村中少年  
這篇文章主要給大家匯總介紹了作者再制作nodejs爬蟲遇到的亂碼問題,有相同問題的小伙伴可以參考下

上一篇文章中使用nodejs程序解析了網(wǎng)頁編碼為gbk,gb2312,以及utf-8的情況,這里面有三種特殊的亂碼情況需要單獨(dú)的說明一下.

1,網(wǎng)頁編碼為utf-8,但是解析為亂碼,代表網(wǎng)站為www.guoguo-app.com。

這個(gè)問題真是個(gè)逗逼問題,查看網(wǎng)頁源碼中給出的編碼方式為utf8,如下:

<meta charset="UTF-8">
<title>查快遞</title>

由于解析出來的始終是亂碼,我就抓包看了下,報(bào)文中的編碼方式為gbk,果然我使用gbk的方式之后,得到的不再是亂碼了。淘寶為了反爬蟲也是操碎了新,但是我也很好奇這種方式是怎么實(shí)現(xiàn)的,知道的告訴我。

GET / HTTP/1.1
Host: www.guoguo-app.com
Connection: close

HTTP/1.1 200 OK
Date: Thu, 06 Apr 2017 01:56:23 GMT
Content-Type: text/html;charset=GBK
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Vary: Accept-Encoding
Content-Language: zh-CN
Server: Tengine/Aserver


1,網(wǎng)頁編碼為utf-8,解析為亂碼情況二,代表網(wǎng)站http//andersonjiang.blog.sohu.com/

單純的查看網(wǎng)頁源碼看不出任何毛病,于是我又抓了一次包,得到如下情形:

GET / HTTP/1.1
Host: andersonjiang.blog.sohu.com
Connection: close

HTTP/1.1 200 OK
Content-Type: text/html; charset=GBK
Transfer-Encoding: chunked
Connection: close
Server: nginx
Date: Thu, 06 Apr 2017 02:10:33 GMT
Vary: Accept-Encoding
Expires: Thu, 01 Jan 1970 00:00:00 GMT
RHOST: 192.168.110.68@11177
Pragma: No-cache
Cache-Control: no-cache
Content-Language: en-US
Content-Encoding: gzip
FSS-Cache: MISS from 13539701.18454911.21477824
FSS-Proxy: Powered by 9935166.11245896.17873234

andersonjiang.blog.sohu.com這個(gè)網(wǎng)站同時(shí)采用了Transfer-Encoding: chunked傳輸編碼和Content-Encoding: gzip內(nèi)容編碼功能,由于nodejs爬蟲沒有g(shù)zip解包功能,因此該網(wǎng)站提取不到任何字段,即title和charset等。要想提取此類網(wǎng)站則要添加gzip解包功能。

下面兩個(gè)網(wǎng)站www.cr173.com以及www.csdn.net是正常的抓包情況。

GET / HTTP/1.1
Host: www.cr173.com
Connection: close

HTTP/1.1 200 OK
Expires: Thu, 06 Apr 2017 02:42:20 GMT
Date: Thu, 06 Apr 2017 02:12:20 GMT
Content-Type: text/html
Last-Modified: Thu, 06 Apr 2017 00:52:42 GMT
ETag: "96a4141970aed21:0"
Cache-Control: max-age=1800
Accept-Ranges: bytes
Content-Length: 158902
Accept-Ranges: bytes
X-Varnish: 1075189606
Via: 1.1 varnish
X-Via: 1.1 dxxz46:4 (Cdn Cache Server V2.0), 1.1 oudxin15:1 (Cdn Cache Server V2.0)
Connection: close
GET / HTTP/1.1
Host: www.csdn.net
Connection: close

HTTP/1.1 200 OK
Server: openresty
Date: Thu, 06 Apr 2017 02:18:59 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 99363
Connection: close
Vary: Accept-Encoding
Last-Modified: Thu, 06 Apr 2017 02:10:02 GMT
Vary: Accept-Encoding
ETag: "58e5a37a-18423"
Accept-Ranges: bytes

3,網(wǎng)頁編碼為其他形式的編碼,解析為亂碼,例如:

(1)編碼為Big5,代表網(wǎng)站為 www.ruten.com.tw, www.ctgoodjobs.hk

(2)編碼為Shift_JIS,代表網(wǎng)站為www.vector.co.jp,www.smbc.co.jp

(3)編碼為windows-12,代表網(wǎng)站為www.tff.org,www.pravda.com.ua

(4)編碼為EUC-JP,代表網(wǎng)站為www.showtime.jp

(5)編碼為EUC-KR ,代表網(wǎng)站為www.incruit.com,www.samsunghospital.com,

由于iconv-lite的說明中支持如下的編碼方式:

Currently only a small part of encodings supported:

 All node.js native encodings: 'utf8', 'ucs2', 'ascii', 'binary', 'base64'.
 Base encodings: 'latin1'
 Cyrillic encodings: 'windows-1251', 'koi8-r', 'iso 8859-5'.
 Simplified chinese: 'gbk', 'gb2313'.

Other encodings are easy to add, see the source. Please, participate
因此對(duì)于上述出現(xiàn)的網(wǎng)頁編碼,只有自己添加解碼方式加以解決了。

總之要寫一個(gè)通用的爬蟲程序還有很長的路要走。

相關(guān)文章

  • 基于Node.js的http模塊搭建HTTP服務(wù)器

    基于Node.js的http模塊搭建HTTP服務(wù)器

    這篇文章主要為大家介紹了基于Node.js的http模塊來搭建HTTP服務(wù)器的示例過程詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步
    2022-02-02
  • Nodejs中解決cluster模塊的多進(jìn)程如何共享數(shù)據(jù)問題

    Nodejs中解決cluster模塊的多進(jìn)程如何共享數(shù)據(jù)問題

    本篇文章主要介紹了Nodejs中解決cluster模塊的多進(jìn)程如何共享數(shù)據(jù)問題,有需要的可以了解一下。
    2016-11-11
  • node.js連接mysql與基本用法示例

    node.js連接mysql與基本用法示例

    這篇文章主要介紹了node.js連接mysql與基本用法,結(jié)合實(shí)例形式分析了nodejs中mysql模塊的安裝、引入、創(chuàng)建連接、sql語句執(zhí)行等相關(guān)操作技巧,需要的朋友可以參考下
    2019-01-01
  • 從零學(xué)習(xí)node.js之模塊規(guī)范(一)

    從零學(xué)習(xí)node.js之模塊規(guī)范(一)

    Node.js是一個(gè)基于谷歌瀏覽器JavaScript執(zhí)行環(huán)境建立的一個(gè)平臺(tái),讓JavaScript可以脫離客戶端瀏覽器運(yùn)行,讓 JavaScript具有服務(wù)器語言的能力。從本文開始我們進(jìn)行學(xué)習(xí)node.js,這篇文章主要介紹的是node.js中模塊規(guī)范的相關(guān)資料,需要的朋友可以參考下。
    2017-02-02
  • Nodejs實(shí)戰(zhàn)心得之eventproxy模塊控制并發(fā)

    Nodejs實(shí)戰(zhàn)心得之eventproxy模塊控制并發(fā)

    本篇文章給大家分享我的nodejs實(shí)戰(zhàn)心得,如何使用eventproxy模塊控制并發(fā),感興趣的朋友可以參考下
    2015-10-10
  • Node.js如何響應(yīng)Ajax的POST請(qǐng)求并且保存為JSON文件詳解

    Node.js如何響應(yīng)Ajax的POST請(qǐng)求并且保存為JSON文件詳解

    這篇文章主要介紹了關(guān)于Node.js是如何響應(yīng)Ajax的POST請(qǐng)求并且保存為JSON文件的相關(guān)資料,文中介紹的很詳細(xì),對(duì)大家具有一定的參考價(jià)值,需要的朋友們下面來一起看看吧。
    2017-03-03
  • Node.js使用MySQL連接池的方法實(shí)例

    Node.js使用MySQL連接池的方法實(shí)例

    這篇文章主要介紹了Node.js使用MySQL連接池的方法,結(jié)合具體實(shí)例形式分析了nodejs操作mysql連接池的相關(guān)模塊安裝、連接、查詢等使用技巧,需要的朋友可以參考下
    2018-02-02
  • 基于游標(biāo)的分頁接口實(shí)現(xiàn)代碼示例

    基于游標(biāo)的分頁接口實(shí)現(xiàn)代碼示例

    這篇文章主要給大家介紹了關(guān)于基于游標(biāo)的分頁接口實(shí)現(xiàn)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2018-11-11
  • Mac下通過brew安裝指定版本的nodejs教程

    Mac下通過brew安裝指定版本的nodejs教程

    今天小編就為大家分享一篇Mac下通過brew安裝指定版本的nodejs教程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • 詳解nodejs中express搭建權(quán)限管理系統(tǒng)

    詳解nodejs中express搭建權(quán)限管理系統(tǒng)

    本篇文章主要介紹了詳解express搭建權(quán)限管理系統(tǒng),小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-09-09

最新評(píng)論