Python小白學(xué)習(xí)爬蟲常用請求報頭
客戶端HTTP請求
URL只是標(biāo)識資源的位置,而HTTP是用來提交和獲取資源??蛻舳税l(fā)送一個HTTP請求到服務(wù)器的請求消息,包括以下格式:
請求行、請求頭部、空行、請求數(shù)據(jù)
一個典型的HTTP請求
GET https://www.baidu.com/ HTTP/1.1 Host: www.baidu.com Connection: keep-alive Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Encoding: gzip, deflate, br Accept-Language: zh,zh-CN;q=0.8,ar;q=0.6,zh-TW;q=0.4 Cookie: BAIDUID=AE4D1DA6B2D6689BB8C557B3436893E3:FG=1; BIDUPSID=AE4D1DA6B2D6689BB8C557B3436893E3; PSTM=1501466227; BD_UPN=12314353; BD_CK_SAM=1; PSINO=1; H_PS_PSSID=1420_25548_21080_20929; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDSVRTM=0
常用請求報頭
1. Host (主機(jī)和端口號)
Host:對應(yīng)網(wǎng)址URL中的Web名稱和端口號,用于指定被請求資源的Internet主機(jī)和端口號,通常屬于URL的一部分。
2. Connection (鏈接類型)
Connection:表示客戶端與服務(wù)連接類型。
Client 發(fā)起一個包含 Connection:keep-alive 的請求,HTTP/1.1使用 keep-alive 為默認(rèn)值。
Server收到請求后:
如果 Server 支持 keep-alive,回復(fù)一個包含 Connection:keep-alive 的響應(yīng),不關(guān)閉連接;
如果 Server 不支持 keep-alive,回復(fù)一個包含 Connection:close 的響應(yīng),關(guān)閉連接。
如果client收到包含 Connection:keep-alive 的響應(yīng),向同一個連接發(fā)送下一個請求,直到一方主動關(guān)閉連接。
keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應(yīng)時間,比如當(dāng)瀏覽器需要多個文件時(比如一個HTML文件和相關(guān)的圖形文件),不需要每次都去請求建立連接。
3. Upgrade-Insecure-Requests (升級為HTTPS請求)
Upgrade-Insecure-Requests:升級不安全的請求,意思是會在加載 http 資源時自動替換成 https 請求,讓瀏覽器不再顯示https頁面中的http請求警報。
HTTPS 是以安全為目標(biāo)的 HTTP 通道,所以在 HTTPS 承載的頁面上不允許出現(xiàn) HTTP 請求,一旦出現(xiàn)就是提示或報錯。
4. User-Agent (瀏覽器名稱)
User-Agent:是客戶瀏覽器的名稱,以后會詳細(xì)講。
5. Accept (傳輸文件類型)
Accept:指瀏覽器或其他客戶端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯(lián)網(wǎng)郵件擴(kuò)展))文件類型,服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>
舉例:
Accept: */*:表示什么都可以接收。
Accept:image/gif:表明客戶端希望接受GIF圖像格式的資源;
Accept:text/html:表明客戶端希望接受html文本。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的圖像格式資源。
q是權(quán)重系數(shù),范圍 0 =< q <= 1,q 值越大,請求越傾向于獲得其“;”之前的類型表示的內(nèi)容。若沒有指定q值,則默認(rèn)為1,按從左到右排序順序;若被賦值為0,則用于表示瀏覽器不接受此內(nèi)容類型。
Text:用于標(biāo)準(zhǔn)化地表示的文本信息,文本消息可以是多種字符集和或者多種格式的;Application:用于傳輸應(yīng)用程序數(shù)據(jù)或者二進(jìn)制數(shù)據(jù)。詳細(xì)請點擊
6. Referer (頁面跳轉(zhuǎn)處)
Referer:表明產(chǎn)生請求的網(wǎng)頁來自于哪個URL,用戶是從該 Referer頁面訪問到當(dāng)前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面,是從什么網(wǎng)站來的等。
有時候遇到下載某網(wǎng)站圖片,需要對應(yīng)的referer,否則無法下載圖片,那是因為人家做了防盜鏈,原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址,如果不是,則拒絕,如果是,就可以下載;
7. Accept-Encoding(文件編解碼格式)
Accept-Encoding:指出瀏覽器可以接受的編碼方式。編碼方式不同于文件格式,它是為了壓縮文件并加速文件傳遞速度。瀏覽器在接收到Web響應(yīng)之后先解碼,然后再檢查文件格式,許多情形下這可以減少大量的下載時間。
舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
如果有多個Encoding同時匹配, 按照q值順序排列,本例中按順序支持 gzip, identity壓縮編碼,支持gzip的瀏覽器會返回經(jīng)過gzip編碼的HTML頁面。 如果請求消息中沒有設(shè)置這個域服務(wù)器假定客戶端對各種內(nèi)容編碼都可以接受。
8. Accept-Language(語言種類)
Accept-Langeuage:指出瀏覽器可以接受的語言種類,如en或en-us指英語,zh或者zh-cn指中文,當(dāng)服務(wù)器能夠提供一種以上的語言版本時要用到。
9. Accept-Charset(字符編碼)
Accept-Charset:指出瀏覽器可以接受的字符編碼。
舉例:
Accept-Charset:iso-8859-1,gb2312,utf-8
ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符,英文瀏覽器的默認(rèn)值是ISO-8859-1.
gb2312:標(biāo)準(zhǔn)簡體中文字符集;
utf-8:UNICODE 的一種變長字符編碼,可以解決多種語言文本顯示問題,從而實現(xiàn)應(yīng)用國際化和本地化。
如果在請求消息中沒有設(shè)置這個域,缺省是任何字符集都可以接受。
10. Cookie (Cookie)
Cookie:瀏覽器用這個屬性向服務(wù)器發(fā)送Cookie。Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信息,也可以用來實現(xiàn)會話功能,以后會詳細(xì)講。
11. Content-Type (POST數(shù)據(jù)類型)
Content-Type:POST請求里用來表示的內(nèi)容類型。
舉例:Content-Type = Text/XML; charset=gb2312:
指明該請求的消息體中包含的是純文本的XML類型的數(shù)據(jù),字符編碼采用“gb2312”。
到此這篇關(guān)于Python小白學(xué)習(xí)爬蟲常用請求報頭的文章就介紹到這了,更多相關(guān)Python爬蟲常用請求報頭詳解內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python爬蟲學(xué)習(xí)筆記之Beautifulsoup模塊用法詳解
- Python爬蟲學(xué)習(xí)之翻譯小程序
- Python爬蟲學(xué)習(xí)之獲取指定網(wǎng)頁源碼
- Python3爬蟲學(xué)習(xí)之將爬取的信息保存到本地的方法詳解
- Python3爬蟲學(xué)習(xí)之應(yīng)對網(wǎng)站反爬蟲機(jī)制的方法分析
- Python3爬蟲學(xué)習(xí)入門教程
- 一個月入門Python爬蟲學(xué)習(xí),輕松爬取大規(guī)模數(shù)據(jù)
- Python 爬蟲學(xué)習(xí)筆記之多線程爬蟲
- 學(xué)習(xí)Python爬蟲的幾點建議
相關(guān)文章
Python數(shù)據(jù)分析之?Pandas?Dataframe條件篩選遍歷詳情
這篇文章主要介紹了Python數(shù)據(jù)分析之?Pandas?Dataframe條件篩選遍歷詳情,查詢Pandas?Dataframe數(shù)據(jù)時,經(jīng)常會篩選出符合條件的數(shù)據(jù),關(guān)于其使用方式,需要的小伙伴可以參考一下下面文章內(nèi)容2022-05-05pandas round方法保留兩位小數(shù)的設(shè)置實現(xiàn)
本文主要介紹了pandas round方法保留兩位小數(shù)的設(shè)置實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08Python爬蟲請求模塊Urllib及Requests庫安裝使用教程
requests和urllib都是Python中常用的HTTP請求庫,使用時需要根據(jù)實際情況選擇,如果要求使用簡單、功能完善、性能高的HTTP請求庫,可以選擇requests,如果需要兼容性更好、功能更加靈活的HTTP請求庫,可以選擇urllib2023-11-11利用Python將圖片批量轉(zhuǎn)化成素描圖的過程記錄
萬能的Python真的是除了不會生孩子,其他的還真不在話下,下面這篇文章主要給大家介紹了關(guān)于如何利用Python將圖片批量轉(zhuǎn)化成素描圖的相關(guān)資料,需要的朋友可以參考下2021-08-08python 讀取dicom文件,生成info.txt和raw文件的方法
今天小編就為大家分享一篇python 讀取dicom文件,生成info.txt和raw文件的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01python opencv人臉識別考勤系統(tǒng)的完整源碼
這篇文章主要介紹了python opencv人臉識別考勤系統(tǒng)的完整源碼,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-04-04python中使用sys模板和logging模塊獲取行號和函數(shù)名的方法
這篇文章主要介紹了python中使用sys模板和logging模塊獲取行號和函數(shù)名的方法,需要的朋友可以參考下2014-04-04Django3.2 自動發(fā)現(xiàn)所有路由代碼詳解
這篇文章主要為大家介紹了Django自動發(fā)現(xiàn)所有路由的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2021-12-12Python實現(xiàn)ssh批量登錄并執(zhí)行命令
本篇文章主要是介紹了Python實現(xiàn)ssh批量登錄并執(zhí)行命令,有一些任務(wù)可以進(jìn)行批量完成,Python就可以完成,有需要的同學(xué)可以了解一下。2016-10-10