詳解selenium + chromedriver 被反爬的解決方法
問題背景:這個問題是在爬取某夕夕商城遇到的問題,原本的方案是用selenium + chromedriver + mitmproxy開心的刷,但是幾天之后,發(fā)現(xiàn)刷不出來了,會直接跳轉(zhuǎn)到登陸界面(很明顯,是遭遇反爬了)
講實話,這還是第一次用硒被反爬的,于是進行大規(guī)模的測試對比。
同臺機器,用鉻瀏覽器正常訪問是不用跳轉(zhuǎn)到登陸界面的,所以不是IP的問題。再用提琴手抓包對比了一下兩個請求頭,請求頭都是一樣的,所以忽略標(biāo)頭的反爬。
最后通過分析,可能是硒被檢測出來了。于是就去查資料。大概的查到是和webdriver的有關(guān)系的。因為這個在服務(wù)端是可以檢測到的。于是通過fiddler抓包,全局搜索了一下webdriver,發(fā)現(xiàn)在js中果然是有判斷的。導(dǎo)致selenium爬取的時候,被轉(zhuǎn)到登陸界面。
解決方法:mitmproxy
因為mitmproxy可以攔截請求,所以在響應(yīng)中,將包含的webdriver的JS中的關(guān)鍵字替換成其他的字符就可以了。
if "/_next/static/js/common_pdd" in flow.request.url: flow.response.text = flow.response.text.replace("webdriver", "userAgent")
我是這樣替換的。這樣js解析的參數(shù)就變了,問題花刃而解??梢哉E廊?shù)據(jù)了。
另外國外網(wǎng)上也有很多方法,比如修改webdriver里的一些特定參數(shù)名稱,我嘗試了一下,沒有生效。
到此這篇關(guān)于詳解selenium + chromedriver 被反爬的解決方法的文章就介紹到這了,更多相關(guān)selenium chromedriver反爬內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python+selenium+chromedriver實現(xiàn)爬蟲示例代碼
- selenium+chromedriver在服務(wù)器運行的詳細教程
- 使用selenium自動控制瀏覽器找不到Chromedriver問題
- 下載與當(dāng)前Chrome對應(yīng)的chromedriver.exe(用于python+selenium)
- python selenium 執(zhí)行完畢關(guān)閉chromedriver進程示例
- selenium + ChromeDriver安裝及使用方法
- selenium 安裝與chromedriver安裝的方法步驟
- selenium使用chrome瀏覽器測試(附chromedriver與chrome的對應(yīng)關(guān)系表)
相關(guān)文章
Python使用Gradio實現(xiàn)免費的內(nèi)網(wǎng)穿透
內(nèi)網(wǎng)穿透是一種將內(nèi)部網(wǎng)絡(luò)服務(wù)暴露到公共網(wǎng)絡(luò)的技術(shù),可以讓外部用戶訪問內(nèi)部網(wǎng)絡(luò)上的服務(wù),本文將介紹如何使用Gradio實現(xiàn)免費的內(nèi)網(wǎng)穿透,需要的可以參考下2024-03-03Python+OpenCV實現(xiàn)圖像識別替換功能詳解
OpenCV-Python是一個Python庫,旨在解決計算機視覺問題。本文將利用Python+OpenCV實現(xiàn)圖像識別替換功能,感興趣的小伙伴可以動手嘗試一下2022-07-07