腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

python超詳細(xì)實(shí)現(xiàn)字體反爬流程

更新時(shí)間：2022年05月19日 10:15:43 作者：夢想橡皮擦

大家好，本篇文章主要講的是python查策網(wǎng)字體反爬實(shí)例，感興趣的同學(xué)趕快來看一看吧，對你有幫助的話記得收藏一下

查策實(shí)戰(zhàn)場景

本次要采集的目標(biāo)站點(diǎn)是查策，該測試站點(diǎn)如下所示。

目標(biāo)站點(diǎn)網(wǎng)址如下

www.chacewang.com/chanye/news?newstype=sbtz

該站點(diǎn)的新聞資訊類信息很容易采集，通過開發(fā)者工具查看了一下，并不存在加密反爬。

但字體反爬還是存在的，案例尋找過程非常簡單，只需要開發(fā)者工具切換到網(wǎng)絡(luò)，字體視圖，然后預(yù)覽一下字體文件即可。

可以看到僅數(shù)字進(jìn)行了順序變換。

接下來就是實(shí)戰(zhàn)解碼的過程，可以通過 FontCreator 查看一下該字體內(nèi)容。

字體實(shí)戰(zhàn)解碼

隨機(jī)下載一個(gè)字體文件打開之后發(fā)現(xiàn)出事情了，字體文件內(nèi)容如下所示。

其中除了簡易的數(shù)字外，還存在大量的中文字符，也就是存在一種可能性，網(wǎng)頁中的部分中文字符也被替換掉了。

我們拿一個(gè)【類】字做一下測試。

結(jié)果在頁面中檢索了一下，發(fā)現(xiàn)并沒有發(fā)生變化，而且通過計(jì)算樣式查看，得到的字體是平方和微軟雅黑？

可能網(wǎng)站升級之后，字體反爬只保留了數(shù)字部分。

既然這樣，那整體的難度就降低了~

我們隨機(jī)訪問一個(gè)頁面，獲取其網(wǎng)頁源碼內(nèi)容。

訪問公告類信息，需要提前登錄，注冊一個(gè)賬號即可

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的 UA 信息",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "cookie": "cityinfo={%22citycode%22:%22RegisterArea_HBDQ_Hebei_ShiJiaZhuangShi%22%2C%22cityname%22:%22%E7%9F%B3%E5%AE%B6%E5%BA%84%22}; 你的 COOKIES 信息"
}
res = requests.get('https://www.chacewang.com/news/detail?guid=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)

結(jié)果運(yùn)行代碼之后，返回了一堆亂碼。

橡皮擦原以為還有什么加密邏輯存在，結(jié)果發(fā)現(xiàn)多慮了，只是一個(gè)異步加載，真正的數(shù)據(jù)接口在下面。

web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo

接口一換，數(shù)據(jù)就可以獲取到了。

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "authorization": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1Ni 這個(gè)值每次登錄都會(huì)切換"
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)

此時(shí)也發(fā)現(xiàn)了數(shù)據(jù)差異，接口返回和頁面展現(xiàn)，差異如下所示。

此時(shí)字體反爬邏輯已經(jīng)發(fā)現(xiàn)，但是字體文件還存在如下邏輯：

每次請求有 2 個(gè)字體文件，確定哪一個(gè)影響；
字體文件每次刷新都會(huì)產(chǎn)生變化；
字體文件名每次刷新都會(huì)產(chǎn)生變化。

解決第一個(gè)問題，確定目標(biāo)字體文件，該操作很簡單，只需要通過文件替換規(guī)則比對即可，例如下圖中響應(yīng)中的 0 被替換為 2。

解決第三個(gè)問題，如何獲取字體文件名。

在網(wǎng)絡(luò)視圖頁面，喚醒搜索框，搜索字體文件名，發(fā)現(xiàn)其在 2 個(gè)請求中出現(xiàn)。第一個(gè)是字體文件，第二個(gè)是我們上文請求的數(shù)據(jù)接口。

檢索之后發(fā)現(xiàn)字體文件名在接口返回的 news_set 參數(shù)中，并且是部分字符串，稍后我們截取字符串即可。

字體反爬編碼時(shí)間

下面我們編寫獲取字體文件的代碼，如下所示，下述代碼注意自行獲取一下 UA 值和 authorization 值。

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "authorization": "Bearer "
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
# 獲取字體文件名
font_name = res.json()['data']['news_set'][:16]
res = requests.get(f'https://web.chace-ai.com/media/fonts/{font_name}.woff', headers=headers)
# 保存字體文件
file_woff =f'./fonts/{font_name}.woff'
with open(file_woff, 'wb') as f:
    f.write(res.content)

后續(xù)邏輯就變得簡單了，本文僅展示字體呈現(xiàn)部分邏輯，其安裝 fontTools 模塊，并使用下述命令行導(dǎo)入相關(guān)功能。

from fontTools.ttLib import TTFont

字體文件讀取代碼如下所示。

# 讀取文件
with open(file_woff, 'rb') as font_file:
    font = TTFont(io.BytesIO(font_file.read()))  # 轉(zhuǎn)換成字體對象
print(font)
# 獲取 cmap
font_obj = font['cmap']
# 獲取 cmap table
font_tables = font['cmap'].tables
uni_list = font['cmap'].tables[0].ttFont.getGlyphOrder()
print(uni_list[2:12])

查策，查策，就這么簡單的解決了站點(diǎn)

到此這篇關(guān)于python超詳細(xì)實(shí)現(xiàn)字體反爬流程的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: