亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python反扒機(jī)制的5種解決方法

 更新時(shí)間:2021年02月06日 09:52:46   作者:其實(shí)還好啦  
這篇文章主要介紹了python反扒機(jī)制的5種解決方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

前言

反爬蟲(chóng)是網(wǎng)站為了維護(hù)自己的核心安全而采取的抑制爬蟲(chóng)的手段,反爬蟲(chóng)的手段有很多種,一般情況下除了百度等網(wǎng)站,反扒機(jī)制會(huì)常常更新以外。為了保持網(wǎng)站運(yùn)行的高效,網(wǎng)站采取的反扒機(jī)制并不是太多,今天分享幾個(gè)我在爬蟲(chóng)過(guò)程中遇到的反扒機(jī)制,并簡(jiǎn)單介紹其解決方式。

基于User-Agent反爬

簡(jiǎn)介:服務(wù)器后臺(tái)對(duì)訪問(wèn)的User_Agent進(jìn)行統(tǒng)計(jì),單位時(shí)間內(nèi)同一User_Agent訪問(wèn)的次數(shù)超過(guò)特定的閥值,則會(huì)被不同程度的封禁IP,從而造成無(wú)法進(jìn)行爬蟲(chóng)的狀況。

解決方法:

一 . 將常見(jiàn)的User-Agent放到ua_list中,以列表形式進(jìn)行隨機(jī)使用

代碼示例:

python干貨:5種反扒機(jī)制的解決方法

二. 加載fake_useragent庫(kù),隨機(jī)生成User-Agent添加到headers中

代碼示例:

python干貨:5種反扒機(jī)制的解決方法

2 基于IP反爬

簡(jiǎn)介: 爬蟲(chóng)程序可能會(huì)在短時(shí)間內(nèi)對(duì)指定的服務(wù)器發(fā)起高頻的請(qǐng)求。后臺(tái)服務(wù)器對(duì)訪問(wèn)進(jìn)行統(tǒng)計(jì),單位時(shí)間內(nèi)同一IP訪問(wèn)的次數(shù)超過(guò)一個(gè)特定的值(閥值),就會(huì)不同程度的禁封IP,導(dǎo)致無(wú)法進(jìn)行爬蟲(chóng)操作。

解決方法:使用代理池,并設(shè)定延遲訪問(wèn)

如何獲取代理服務(wù)器?免費(fèi):西祠代理、快代理、goubanjia 收費(fèi):代理精靈等

代碼示例:

python干貨:5種反扒機(jī)制的解決方法

3 基于cookie反扒

簡(jiǎn)介:網(wǎng)站會(huì)通過(guò)cookie跟蹤你的訪問(wèn)過(guò)程,如果發(fā)現(xiàn)有爬蟲(chóng)行為會(huì)立刻中斷你的訪問(wèn),比如特別快的填寫表單,或者短時(shí)間內(nèi)瀏覽大量頁(yè)面。而正確地處理cookie,又可以避免很多采集問(wèn)題,建議在采集網(wǎng)站過(guò)程中,檢查一下這些網(wǎng)站生成的cookie,然后想想哪一個(gè)是爬蟲(chóng)需要處理的。

解決方法:

一 手動(dòng)處理

將cookie封裝到headers字典中,將該字典作用到get/post方法的headers參數(shù)中

二 自動(dòng)處理

需要兩次處理。第一次是為了捕獲和存儲(chǔ)cookie到session對(duì)象中,第二次就是用攜帶cookie的session進(jìn)行請(qǐng)求發(fā)送,這次請(qǐng)求發(fā)送就是攜帶cookie發(fā)起的請(qǐng)求??梢愿鷕equests一樣調(diào)用get/post進(jìn)行請(qǐng)求的發(fā)送。在使用session進(jìn)行請(qǐng)求發(fā)送的過(guò)程中,如果產(chǎn)生了cookie,則cookie會(huì)被自動(dòng)存儲(chǔ)session對(duì)象中

代碼示例:

#基于session自動(dòng)處理
cookiesess = requests.Session() 
#該次請(qǐng)求只是為了捕獲cookie存儲(chǔ)到sess中
sess.get(url='https://xueqiu.com/',headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20367942&count=15&category=-1'
json_data = sess.get(url=url,headers=headers).json()json_data

4 圖片懶加載

簡(jiǎn)介:圖片懶加載是一種網(wǎng)頁(yè)優(yōu)化技術(shù)。圖片作為一種網(wǎng)絡(luò)資源,在被請(qǐng)求時(shí)也與普通靜態(tài)資源一樣,將占用網(wǎng)絡(luò)資源,而一次性將整個(gè)頁(yè)面的所有圖片加載完,將大大增加頁(yè)面的首屏加載時(shí)間。為了解決這種問(wèn)題,通過(guò)前后端配合,使圖片僅在瀏覽器當(dāng)前視窗內(nèi)出現(xiàn)時(shí)才加載該圖片,達(dá)到減少首屏圖片請(qǐng)求數(shù)的技術(shù)就被稱為“圖片懶加載”。在網(wǎng)頁(yè)源碼中,在img標(biāo)簽中首先會(huì)使用一個(gè)“偽屬性”(通常使用src2,original......)去存放真正的圖片鏈接而并非是直接存放在src屬性中。當(dāng)圖片出現(xiàn)到頁(yè)面的可視化區(qū)域中,會(huì)動(dòng)態(tài)將偽屬性替換成src屬性,完成圖片的加載。

解決方法:通過(guò)細(xì)致觀察頁(yè)面的結(jié)構(gòu),發(fā)現(xiàn)圖片的鏈接真正鏈的偽屬性中,一般不在src中,而是src2中,xpath要使用該屬性

示例代碼:

python干貨:5種反扒機(jī)制的解決方法

5 Ajax動(dòng)態(tài)加載

簡(jiǎn)介:從網(wǎng)頁(yè)的 url 加載網(wǎng)頁(yè)的源代碼之后,會(huì)在瀏覽器里執(zhí)行JavaScript程序。這些程序會(huì)加載出更多的內(nèi)容,并把這些內(nèi)容傳輸?shù)骄W(wǎng)頁(yè)中。這就是為什么有些網(wǎng)頁(yè)直接爬它的URL時(shí)卻沒(méi)有數(shù)據(jù)的原因?,F(xiàn)在這樣的網(wǎng)站也越來(lái)越多。
解決方法:使用審查元素分析”請(qǐng)求“對(duì)應(yīng)的鏈接(方法:右鍵→審查元素→Network→清空,點(diǎn)擊”加載更多“,出現(xiàn)對(duì)應(yīng)的GET鏈接尋找Type為text/html的,點(diǎn)擊,查看get參數(shù)或者復(fù)制Request URL),循環(huán)過(guò)程。如果“請(qǐng)求”之前有頁(yè)面,依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁(yè)。以此類推,抓取抓Ajax地址的數(shù)據(jù)。對(duì)返回的json使用requests中的json進(jìn)行解析,觀察動(dòng)態(tài)加載的規(guī)律,在請(qǐng)求頭中對(duì)規(guī)律進(jìn)行使用

抓包工具推薦:fiddler

到此這篇關(guān)于python反扒機(jī)制的5種解決方法的文章就介紹到這了,更多相關(guān)python反扒機(jī)制內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python?解釋器的站點(diǎn)配置和模塊搜索路徑詳解

    Python?解釋器的站點(diǎn)配置和模塊搜索路徑詳解

    Python?解釋器的站點(diǎn)配置是指一組配置和路徑設(shè)置,用于支持特定于站點(diǎn)的定制和擴(kuò)展,這些配置和路徑信息由?Python?的內(nèi)置?site?模塊提供,這篇文章主要介紹了Python?解釋器的站點(diǎn)配置和模塊搜索路徑詳解,需要的朋友可以參考下
    2022-01-01
  • 讓Django的BooleanField支持字符串形式的輸入方式

    讓Django的BooleanField支持字符串形式的輸入方式

    這篇文章主要介紹了讓Django的BooleanField支持字符串形式的輸入方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-05-05
  • Pandas中DataFrame的常用用法分享

    Pandas中DataFrame的常用用法分享

    Pandas是Python中最流行的數(shù)據(jù)分析和處理工具之一,它提供了一個(gè)名為DataFrame的數(shù)據(jù)結(jié)構(gòu),可以被認(rèn)為是一個(gè)二維表格或電子表格。本文主要來(lái)和大家分享一下Pandas中DataFrame的常用用法,希望對(duì)大家有所幫助
    2023-04-04
  • 用Python監(jiān)控你的朋友都在瀏覽哪些網(wǎng)站?

    用Python監(jiān)控你的朋友都在瀏覽哪些網(wǎng)站?

    今天教各位小伙伴一個(gè)黑科技,用Python監(jiān)控你的朋友都在瀏覽哪些網(wǎng)站,文中有非常詳細(xì)的介紹,對(duì)正在學(xué)習(xí)python的小伙伴們很有幫助,需要的朋友可以參考下
    2021-05-05
  • OpenCV結(jié)合selenium實(shí)現(xiàn)滑塊驗(yàn)證碼

    OpenCV結(jié)合selenium實(shí)現(xiàn)滑塊驗(yàn)證碼

    本文主要介紹了OpenCV結(jié)合selenium實(shí)現(xiàn)滑塊驗(yàn)證碼,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-08-08
  • 利用Python實(shí)現(xiàn)繪制論文中的曲線圖

    利用Python實(shí)現(xiàn)繪制論文中的曲線圖

    這篇文章主要為大家詳細(xì)介紹了如何利用Python語(yǔ)言實(shí)現(xiàn)繪制論文中需要的曲線圖,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2023-03-03
  • Python實(shí)現(xiàn)ssh批量登錄并執(zhí)行命令

    Python實(shí)現(xiàn)ssh批量登錄并執(zhí)行命令

    本篇文章主要是介紹了Python實(shí)現(xiàn)ssh批量登錄并執(zhí)行命令,有一些任務(wù)可以進(jìn)行批量完成,Python就可以完成,有需要的同學(xué)可以了解一下。
    2016-10-10
  • Python 編碼處理-str與Unicode的區(qū)別

    Python 編碼處理-str與Unicode的區(qū)別

    本文主要介紹Python 編碼處理的問(wèn)題,這里整理了相關(guān)資料,并詳細(xì)說(shuō)明如何處理編碼問(wèn)題,有需要的小伙伴可以參考下
    2016-09-09
  • Python3?DataFrame缺失值的處理方法

    Python3?DataFrame缺失值的處理方法

    這篇文章主要介紹了Python3?DataFrame缺失值的處理,包括缺失值的判斷缺失值數(shù)據(jù)的過(guò)濾及缺失值數(shù)據(jù)的填充,本文通過(guò)示例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-05-05
  • Python?Flask?JinJa2?語(yǔ)法使用示例詳解

    Python?Flask?JinJa2?語(yǔ)法使用示例詳解

    這篇文章主要為大家介紹了Python?Flask?JinJa2?語(yǔ)法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-03-03

最新評(píng)論