腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

Python小白學(xué)習(xí)爬蟲常用請求報頭

更新時間：2020年06月03日 15:06:45 作者：愛喝馬黛茶的安東尼

在本篇文章里小編給大家整理了關(guān)于Python小白學(xué)習(xí)爬蟲常用請求報頭的相關(guān)知識點，需要的朋友們可以學(xué)習(xí)下。

客戶端HTTP請求

URL只是標(biāo)識資源的位置，而HTTP是用來提交和獲取資源?？蛻舳税l(fā)送一個HTTP請求到服務(wù)器的請求消息，包括以下格式：

請求行、請求頭部、空行、請求數(shù)據(jù)

一個典型的HTTP請求

GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 
Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Accept-Language: zh,zh-CN;q=0.8,ar;q=0.6,zh-TW;q=0.4
Cookie: BAIDUID=AE4D1DA6B2D6689BB8C557B3436893E3:FG=1; BIDUPSID=AE4D1DA6B2D6689BB8C557B3436893E3; PSTM=1501466227; 
BD_UPN=12314353; BD_CK_SAM=1; PSINO=1; H_PS_PSSID=1420_25548_21080_20929; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; 
BDSVRTM=0

常用請求報頭

1. Host (主機和端口號)

Host：對應(yīng)網(wǎng)址URL中的Web名稱和端口號，用于指定被請求資源的Internet主機和端口號，通常屬于URL的一部分。

2. Connection (鏈接類型)

Connection：表示客戶端與服務(wù)連接類型。

Client 發(fā)起一個包含 Connection:keep-alive 的請求，HTTP/1.1使用 keep-alive 為默認(rèn)值。

Server收到請求后：

如果 Server 支持 keep-alive，回復(fù)一個包含 Connection:keep-alive 的響應(yīng)，不關(guān)閉連接；

如果 Server 不支持 keep-alive，回復(fù)一個包含 Connection:close 的響應(yīng)，關(guān)閉連接。

如果client收到包含 Connection:keep-alive 的響應(yīng)，向同一個連接發(fā)送下一個請求，直到一方主動關(guān)閉連接。

keep-alive在很多情況下能夠重用連接，減少資源消耗，縮短響應(yīng)時間，比如當(dāng)瀏覽器需要多個文件時(比如一個HTML文件和相關(guān)的圖形文件)，不需要每次都去請求建立連接。

3. Upgrade-Insecure-Requests (升級為HTTPS請求)

Upgrade-Insecure-Requests：升級不安全的請求，意思是會在加載 http 資源時自動替換成 https 請求，讓瀏覽器不再顯示https頁面中的http請求警報。

HTTPS 是以安全為目標(biāo)的 HTTP 通道，所以在 HTTPS 承載的頁面上不允許出現(xiàn) HTTP 請求，一旦出現(xiàn)就是提示或報錯。

4. User-Agent (瀏覽器名稱)

User-Agent：是客戶瀏覽器的名稱，以后會詳細講。

5. Accept (傳輸文件類型)

Accept：指瀏覽器或其他客戶端可以接受的MIME（Multipurpose Internet Mail Extensions（多用途互聯(lián)網(wǎng)郵件擴展））文件類型，服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>

舉例：

Accept: */*：表示什么都可以接收。

Accept：image/gif：表明客戶端希望接受GIF圖像格式的資源；

Accept：text/html：表明客戶端希望接受html文本。

Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8：表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的圖像格式資源。

q是權(quán)重系數(shù)，范圍 0 =< q <= 1，q 值越大，請求越傾向于獲得其“;”之前的類型表示的內(nèi)容。若沒有指定q值，則默認(rèn)為1，按從左到右排序順序；若被賦值為0，則用于表示瀏覽器不接受此內(nèi)容類型。

Text：用于標(biāo)準(zhǔn)化地表示的文本信息，文本消息可以是多種字符集和或者多種格式的；Application：用于傳輸應(yīng)用程序數(shù)據(jù)或者二進制數(shù)據(jù)。詳細請點擊

6. Referer (頁面跳轉(zhuǎn)處)

Referer：表明產(chǎn)生請求的網(wǎng)頁來自于哪個URL，用戶是從該 Referer頁面訪問到當(dāng)前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面，是從什么網(wǎng)站來的等。

有時候遇到下載某網(wǎng)站圖片，需要對應(yīng)的referer，否則無法下載圖片，那是因為人家做了防盜鏈，原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址，如果不是，則拒絕，如果是，就可以下載；

7. Accept-Encoding（文件編解碼格式）

Accept-Encoding：指出瀏覽器可以接受的編碼方式。編碼方式不同于文件格式，它是為了壓縮文件并加速文件傳遞速度。瀏覽器在接收到Web響應(yīng)之后先解碼，然后再檢查文件格式，許多情形下這可以減少大量的下載時間。

舉例：Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0

如果有多個Encoding同時匹配, 按照q值順序排列，本例中按順序支持 gzip, identity壓縮編碼，支持gzip的瀏覽器會返回經(jīng)過gzip編碼的HTML頁面。如果請求消息中沒有設(shè)置這個域服務(wù)器假定客戶端對各種內(nèi)容編碼都可以接受。

8. Accept-Language（語言種類）

Accept-Langeuage：指出瀏覽器可以接受的語言種類，如en或en-us指英語，zh或者zh-cn指中文，當(dāng)服務(wù)器能夠提供一種以上的語言版本時要用到。

9. Accept-Charset（字符編碼）

Accept-Charset：指出瀏覽器可以接受的字符編碼。

舉例：

Accept-Charset:iso-8859-1,gb2312,utf-8

ISO8859-1：通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符，英文瀏覽器的默認(rèn)值是ISO-8859-1.

gb2312：標(biāo)準(zhǔn)簡體中文字符集;

utf-8：UNICODE 的一種變長字符編碼，可以解決多種語言文本顯示問題，從而實現(xiàn)應(yīng)用國際化和本地化。

如果在請求消息中沒有設(shè)置這個域，缺省是任何字符集都可以接受。

10. Cookie （Cookie）

Cookie：瀏覽器用這個屬性向服務(wù)器發(fā)送Cookie。Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體，它可以記載和服務(wù)器相關(guān)的用戶信息，也可以用來實現(xiàn)會話功能，以后會詳細講。

11. Content-Type (POST數(shù)據(jù)類型)

Content-Type：POST請求里用來表示的內(nèi)容類型。

舉例：Content-Type = Text/XML; charset=gb2312：

指明該請求的消息體中包含的是純文本的XML類型的數(shù)據(jù)，字符編碼采用“gb2312”。

到此這篇關(guān)于Python小白學(xué)習(xí)爬蟲常用請求報頭的文章就介紹到這了,更多相關(guān)Python爬蟲常用請求報頭詳解內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python小白學(xué)習(xí)爬蟲常用請求報頭

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具