快捷導(dǎo)航

python爬蟲的一個(gè)常見簡(jiǎn)單js反爬詳解

更新時(shí)間：2019年07月09日 09:46:52 作者：dragon-brother

這篇文章主要介紹了python爬蟲的一個(gè)常見簡(jiǎn)單js反爬詳解我們?cè)趯懪老x是遇到最多的應(yīng)該就是js反爬了，今天分享一個(gè)比較常見的js反爬，我把js反爬分為參數(shù)由js加密生成和js生成cookie等來(lái)操作瀏覽器這兩部分,需要的朋友可以參考下

前言

我們?cè)趯懪老x是遇到最多的應(yīng)該就是js反爬了，今天分享一個(gè)比較常見的js反爬，這個(gè)我已經(jīng)在多個(gè)網(wǎng)站上見到過(guò)了。

我把js反爬分為參數(shù)由js加密生成和js生成cookie等來(lái)操作瀏覽器這兩部分，今天說(shuō)的是第二種情況。

目標(biāo)網(wǎng)站

列表頁(yè)url: http://www.hnrexian.com/archives/category/jk。

正常網(wǎng)站我們請(qǐng)求url會(huì)返回給我們網(wǎng)頁(yè)數(shù)據(jù)內(nèi)容等，看看這個(gè)網(wǎng)站返回給我們的是什么呢？

我們把相應(yīng)中返回的js代碼格式化一下，方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
  var val = "";
  for (var i = 0; i < str.length; i++) {
    if (val == "") val = str.charCodeAt(i).toString(16);
    else val += str.charCodeAt(i).toString(16);
  }
  return val;
}
function YunSuoAutoJump() {
  var width = screen.width;
  var height = screen.height;
  var screendate = width + "," + height;
  var curlocation = window.location.href;
  if ( - 1 == curlocation.indexOf("security_verify_")) {
    document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
  }
  self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
 <script>setTimeout("YunSuoAutoJump()", 50);</script >

說(shuō)好的返回網(wǎng)頁(yè)數(shù)據(jù)源碼呢，這是什么東西!

js破解思路

js破解提供兩種思路，一種是直接用Python來(lái)重寫js內(nèi)容，實(shí)現(xiàn)模擬js的操作，這種一般用于比較簡(jiǎn)單的js；還有一種是用Python第三方庫(kù)來(lái)解析js，比如pyv8,execjs這些（個(gè)人覺(jué)得execjs比較好用），這種一般用于比較復(fù)雜的js解析。

分析返回的js分成兩個(gè)部分。第一部分，定義了stringToHex和YunSuoAutoJump兩個(gè)函數(shù)。第二部分，50毫秒后執(zhí)行YunSuoAutoJump這個(gè)函數(shù)。

YunSuoAutoJump這個(gè)函數(shù)功能是添加一個(gè)cookie并去請(qǐng)求一個(gè)構(gòu)造的url，可以從document.cookie 和 self.location這里看出。stringToHex這個(gè)函數(shù)的共能其實(shí)就是字符串的轉(zhuǎn)換，具體js內(nèi)容可以參考這個(gè)網(wǎng)址https://www.runoob.com/js/js-tutorial.html自行查找。

python重寫代碼

那么接下來(lái)就是用python來(lái)重寫js啦，重寫后代碼如下。

def stringToHex(string):
  length = len(string)
  hex_string = str()
  for i in xrange(length):
    hex_string += hex(ord(string[i]))[2:]
  return hex_string

def get_cookie(url):
  hex_string = stringToHex(url)
  cookie = {"srcurl": hex_string, "path": "/"}
  return cookie

這是那兩個(gè)函數(shù)，一個(gè)用于字符串轉(zhuǎn)換，一個(gè)用于獲取cookie。

最后拿到結(jié)果

接下來(lái)模擬瀏覽器操作，其中是分為三部分。第一次，我們請(qǐng)求目標(biāo)url，然后返回給我們js內(nèi)容；第二次，js添加1個(gè)cookie并請(qǐng)求了1個(gè)構(gòu)造出的url；第三次請(qǐng)求原目標(biāo)url，得到最終的數(shù)據(jù)。

這里我們用requests.Session來(lái)保持連接，模擬上面三部的內(nèi)容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到這里我們就完美得到最后想要的內(nèi)容了。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: