亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

js逆向解密之網(wǎng)絡(luò)爬蟲(chóng)

 更新時(shí)間:2019年05月30日 08:31:47   投稿:laozhang  
在本篇內(nèi)容里小編給大家整理的是關(guān)于js逆向解密之網(wǎng)絡(luò)爬蟲(chóng)的相關(guān)知識(shí)點(diǎn)內(nèi)容,需要的朋友們參考下。

1 引言

數(shù)月前寫過(guò)某網(wǎng)站(請(qǐng)?jiān)徫业难诙I鈴)的爬蟲(chóng),這兩天需要重新采集一次,用的是scrapy-redis框架,本以為二次爬取可以輕松完成的,可沒(méi)想到爬蟲(chóng)啟動(dòng)沒(méi)幾秒,出現(xiàn)了大堆的重試提示,心里頓時(shí)就咯噔一下,悠閑時(shí)光估計(jì)要結(jié)束了。
仔細(xì)分析后,發(fā)現(xiàn)是獲取店鋪列表的請(qǐng)求出現(xiàn)問(wèn)題,通過(guò)瀏覽器抓包,發(fā)現(xiàn)請(qǐng)求頭參數(shù)中相比之前多了一個(gè)X-Shard和x-uab參數(shù),如下圖所示:

X-Shard倒是沒(méi)什么問(wèn)題,一看就是興趣點(diǎn)的經(jīng)緯度,但x-uab看過(guò)之后就讓人心里苦了,js加密啊,只能去逆向解密了。

2 js逆向求解

最直接的思路是根據(jù)“x-uab”關(guān)鍵字在所有關(guān)鍵中查找(chrome瀏覽器-source中按ctrl + shift + F快捷鍵),結(jié)果如下所示:

接下來(lái),打個(gè)斷點(diǎn)調(diào)試一下:在數(shù)字那里點(diǎn)一下,數(shù)字位置出現(xiàn)藍(lán)點(diǎn),表示添加斷點(diǎn)成功,然后刷新獲取店鋪列表的頁(yè)面,程序會(huì)在斷點(diǎn)處停下。如下所示:

在控制臺(tái)調(diào)試o.getUA()函數(shù),看一下輸出:

果然是,證明猜測(cè)沒(méi)錯(cuò),就是這個(gè)o.getUA()函數(shù)負(fù)責(zé)生成請(qǐng)求頭中的x-uab參數(shù)。
繼續(xù)向下查看這個(gè)getUA()函數(shù)的引用(把光標(biāo)放在要查看的函數(shù)上,就可以查看這個(gè)函數(shù)的引用),就是下圖這個(gè)函數(shù):

圖中的s就是我們要的x-uab參數(shù),下圖在控制臺(tái)輸出可以證明:

所以,u-xab是這里的e生成的,而函數(shù)e傳入的參數(shù)中,第一個(gè)是常量2,第二個(gè)參數(shù)a是undefined,呵,看起來(lái)沒(méi)有傳其它參數(shù)。繼續(xù)向下找這個(gè)e(2,a)函數(shù):

就是這個(gè)function e(r, i, n, h, p) 方法,直接運(yùn)行可以獲取加密后的參數(shù)。把這個(gè)function e(r, i, n, h, p) 方法全部代碼取出來(lái),另存為一個(gè)js文件。

回到頂部

3 擼代碼

3.1 方案一

你以為上面找出生成x-uab的js代碼,就大功告成了嗎?少年,you are too young too simple!
怎么把這段js腳本運(yùn)行起來(lái),才是關(guān)(nan)鍵(dian)。
這個(gè)function e(r, i, n, h, p) 函數(shù)有近4萬(wàn)行代碼,重新用Python實(shí)現(xiàn)難(jiu)度(shi)有(bu)點(diǎn)(ke)大(neng)。所以,我選擇直接用Python來(lái)執(zhí)行這段js腳本。
怎么用python執(zhí)行js腳本,度娘會(huì)給你一堆資料,自己查吧。我這里選擇的是execjs。
因?yàn)樵谏厦鎻?fù)制出來(lái)的腳本中,只單單定義了一個(gè)e(r, i, n, h, p)方法,并沒(méi)有調(diào)用這個(gè)方法,所以,我要要在js文件的末尾添加一些代碼來(lái)調(diào)用:

function getParam() {
 var a;
 var param = e(2,a);
 return param
};

然后,開(kāi)始擼Python代碼吧:

import execjs
 
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

嘗試執(zhí)行,心涼,代碼異常:

execjs._exceptions.ProgramError: TypeError: 'window' 未定義

window對(duì)象估計(jì)是瀏覽器打開(kāi)是創(chuàng)建的,蘊(yùn)含瀏覽器的信息,所以用Python來(lái)執(zhí)行這段代碼時(shí),沒(méi)有這個(gè)對(duì)西鄉(xiāng)。本來(lái)想嘗試偽造window對(duì)象,但查找之后發(fā)現(xiàn)js腳本中上百個(gè)地方用到window,這還沒(méi)完,代碼經(jīng)過(guò)混淆,在下水平不夠,沒(méi)法追根溯源(這地方困擾了我許久,哪位前輩如果知道方法,請(qǐng)告知)。
后來(lái),從一個(gè)前輩那里(感謝前輩)獲知一個(gè)方法繞過(guò)去。這個(gè)前輩的方法是將execjs的引擎換成PhantomJS這個(gè)無(wú)頭瀏覽器(之前用的引擎是node.js),換句話說(shuō)就是用PhantomJS來(lái)執(zhí)行js腳本,PhantomJS是一個(gè)瀏覽器,自然就會(huì)創(chuàng)建window對(duì)象。

使用PhantomJS之前,需要下載它的驅(qū)動(dòng),然后放下Python代碼統(tǒng)一目錄下。對(duì)之前的Python代碼也進(jìn)行修改:

import execjs
 
import os
os.environ["EXECJS_RUNTIME"] = "PhantomJS"
node = execjs.get()
file = 'eleme.js'
ctx = node.compile(open(file).read())
js_encode = 'getParam()'
params = ctx.eval(js_encode)
print(params)

果然,按照這個(gè)方法,成功獲取加密字符串。

3.2 方案二

事實(shí)上,這個(gè)方案二才是我在出現(xiàn)未定義window對(duì)象異常后首先嘗試的方法,不過(guò)因?yàn)橥鵭s代碼中添加的js腳本有問(wèn)題,以為行不通,所以請(qǐng)教前輩,得到了方案一。

方案二的思路和方案一類似,不過(guò)更加粗暴一些。不是因?yàn)闆](méi)在瀏覽器執(zhí)行,造成沒(méi)有window對(duì)象嗎?那我就模擬瀏覽器來(lái)執(zhí)行。

在執(zhí)行之前,同樣要修改js腳本,在js文件末尾調(diào)用e方法,添加如下代碼:

var a;
var param = e(2,a);
return param;

切記:不要放在任何函數(shù)里面,我之前就是因?yàn)閷⑦@段代碼放在函數(shù)里頭強(qiáng)制執(zhí)行,導(dǎo)致的結(jié)果就是在瀏覽器里可以獲取加密字符串,但是在Python中獲取到的卻是None。

模擬瀏覽器用的selenium和chrome的webDriver,代碼如下:

from selenium import webdriver
 
browser = webdriver.Chrome(executable_path='chromedriver.exe')
with open('eleme.js', 'r') as f:
 js = f.read()
print(browser.execute_script(js))

這個(gè)方法也是可以獲得加密之后的字符串。

最后,有必要說(shuō)一下的是,如果需要獲取大量的x-uab,采用方案二效率會(huì)高一下,因?yàn)椴捎梅桨付脑?,可以自打開(kāi)一個(gè)瀏覽器(都調(diào)用一個(gè)webdriver對(duì)象),然后快速執(zhí)行js,返回加密字符串。

4 總結(jié)

一次js逆向解密,算是完成了吧。但是也留下了一些問(wèn)題:

(1)使用chrome斷點(diǎn)調(diào)試時(shí),js腳本都是壓縮混淆之后的,通過(guò)chrome的pretty print功能(也就是說(shuō)那對(duì)花括號(hào))可以格式美化,但是,有的時(shí)候卻會(huì)失敗,就像下圖,格式化后,還是一團(tuán)糟:

這個(gè)問(wèn)題耽擱了我很長(zhǎng)時(shí)間,沒(méi)法調(diào)試??!

(2)在下js基礎(chǔ)不行,很困惑為什么運(yùn)行時(shí),先通過(guò)o.getUA()調(diào)用e函數(shù)內(nèi)的嵌套函數(shù),然后e函數(shù)內(nèi)部嵌套函數(shù)中調(diào)用e方法本身,這是什么操作?函數(shù)調(diào)用不都應(yīng)該先外層函數(shù),然后再調(diào)用嵌套函數(shù)嗎?

(3)如果不適用瀏覽器執(zhí)行js的方法,就只能替換window對(duì)象,這該如何操作?

(4)這個(gè)e函數(shù)有近4萬(wàn)行,一個(gè)加密函數(shù)這么多代碼,我可不信,里面肯定很多事混淆視聽(tīng)用的,但我嘗試調(diào)試追蹤過(guò),只能說(shuō)混淆之后讓我無(wú)從追蹤,頭暈。怎么才能簡(jiǎn)化這段腳本呢?

如果哪位前輩可以解惑,請(qǐng)一定告知,不勝感激!拜謝!

相關(guān)文章

最新評(píng)論