python爬蟲的一個(gè)常見簡(jiǎn)單js反爬詳解
前言
我們?cè)趯懪老x是遇到最多的應(yīng)該就是js反爬了,今天分享一個(gè)比較常見的js反爬,這個(gè)我已經(jīng)在多個(gè)網(wǎng)站上見到過(guò)了。
我把js反爬分為參數(shù)由js加密生成和js生成cookie等來(lái)操作瀏覽器這兩部分,今天說(shuō)的是第二種情況。
目標(biāo)網(wǎng)站
列表頁(yè)url: http://www.hnrexian.com/archives/category/jk。
正常網(wǎng)站我們請(qǐng)求url會(huì)返回給我們網(wǎng)頁(yè)數(shù)據(jù)內(nèi)容等,看看這個(gè)網(wǎng)站返回給我們的是什么呢?
我們把相應(yīng)中返回的js代碼格式化一下,方便查看。
< script type = "text/javascript" > function stringToHex(str) { var val = ""; for (var i = 0; i < str.length; i++) { if (val == "") val = str.charCodeAt(i).toString(16); else val += str.charCodeAt(i).toString(16); } return val; } function YunSuoAutoJump() { var width = screen.width; var height = screen.height; var screendate = width + "," + height; var curlocation = window.location.href; if ( - 1 == curlocation.indexOf("security_verify_")) { document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;"; } self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate); } < /script> <script>setTimeout("YunSuoAutoJump()", 50);</script >
說(shuō)好的返回網(wǎng)頁(yè)數(shù)據(jù)源碼呢,這是什么東西!
js破解思路
js破解提供兩種思路,一種是直接用Python來(lái)重寫js內(nèi)容,實(shí)現(xiàn)模擬js的操作,這種一般用于比較簡(jiǎn)單的js;還有一種是用Python第三方庫(kù)來(lái)解析js,比如pyv8,execjs這些(個(gè)人覺(jué)得execjs比較好用),這種一般用于比較復(fù)雜的js解析。
分析返回的js分成兩個(gè)部分。第一部分,定義了stringToHex和YunSuoAutoJump兩個(gè)函數(shù)。第二部分,50毫秒后執(zhí)行YunSuoAutoJump這個(gè)函數(shù)。
YunSuoAutoJump這個(gè)函數(shù)功能是添加一個(gè)cookie并去請(qǐng)求一個(gè)構(gòu)造的url,可以從document.cookie 和 self.location這里看出。stringToHex這個(gè)函數(shù)的共能其實(shí)就是字符串的轉(zhuǎn)換,具體js內(nèi)容可以參考這個(gè)網(wǎng)址https://www.runoob.com/js/js-tutorial.html自行查找。
python重寫代碼
那么接下來(lái)就是用python來(lái)重寫js啦,重寫后代碼如下。
def stringToHex(string): length = len(string) hex_string = str() for i in xrange(length): hex_string += hex(ord(string[i]))[2:] return hex_string def get_cookie(url): hex_string = stringToHex(url) cookie = {"srcurl": hex_string, "path": "/"} return cookie
這是那兩個(gè)函數(shù),一個(gè)用于字符串轉(zhuǎn)換,一個(gè)用于獲取cookie。
最后拿到結(jié)果
接下來(lái)模擬瀏覽器操作,其中是分為三部分。第一次,我們請(qǐng)求目標(biāo)url,然后返回給我們js內(nèi)容;第二次,js添加1個(gè)cookie并請(qǐng)求了1個(gè)構(gòu)造出的url;第三次請(qǐng)求原目標(biāo)url,得到最終的數(shù)據(jù)。
這里我們用requests.Session來(lái)保持連接,模擬上面三部的內(nèi)容。
url = "http://www.hnrexian.com/archives/category/jk" s = requests.Session() r = s.get(url) url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0] screen_date = "1920,1080" url_2 = url_2 + stringToHex(screen_date) url_2 = urljoin(url, url_2) cookie = get_cookie(url) s.cookies.update(cookie) r2 = s.get(url_2) url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0] r3 = s.get(url3) r3.encoding = "gbk" print r3.text
到這里我們就完美得到最后想要的內(nèi)容了。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
用Python從零實(shí)現(xiàn)貝葉斯分類器的機(jī)器學(xué)習(xí)的教程
這篇文章主要介紹了用Python從零實(shí)現(xiàn)貝葉斯分類器的教程,樸素貝葉斯算法屬于機(jī)器學(xué)習(xí)中的基礎(chǔ)內(nèi)容、實(shí)用而高效,本文詳細(xì)展示了用Python語(yǔ)言實(shí)現(xiàn)的步驟,需要的朋友可以參考下2015-03-03Python 解決OPEN讀文件報(bào)錯(cuò) ,路徑以及r的問(wèn)題
今天小編就為大家分享一篇Python 解決OPEN讀文件報(bào)錯(cuò) ,路徑以及r的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12Django實(shí)現(xiàn)快速分頁(yè)的方法實(shí)例
分頁(yè)是我們?nèi)粘i_發(fā)中必不可少的一個(gè)功能,下面這篇文章主要給大家介紹了關(guān)于Django如何實(shí)現(xiàn)快速分頁(yè)的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。2017-10-10初次部署django+gunicorn+nginx的方法步驟
這篇文章主要介紹了初次部署django+gunicorn+nginx的方法步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09python實(shí)現(xiàn)接口并發(fā)測(cè)試腳本
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)接口并發(fā)測(cè)試腳本,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-06-06Python Web框架Pylons中使用MongoDB的例子
這篇文章主要介紹了Python Web框架Pylons中使用MongoDB 的例子,大家參考使用2013-12-12python不使用for計(jì)算兩組、多個(gè)矩形兩兩間的iou方式
今天小編就為大家分享一篇python不使用for計(jì)算兩組、多個(gè)矩形兩兩間的iou方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01Python?seaborn數(shù)據(jù)可視化繪圖(直方圖,密度圖,散點(diǎn)圖)
這篇文章主要介紹了Python?seaborn數(shù)據(jù)可視化繪圖(直方圖,密度圖,散點(diǎn)圖),文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下2022-07-07解決pyinstaller打包運(yùn)行程序時(shí)出現(xiàn)缺少plotly庫(kù)問(wèn)題
這篇文章主要介紹了解決pyinstaller打包運(yùn)行程序時(shí)出現(xiàn)缺少plotly庫(kù)問(wèn)題,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06