python超詳細實現(xiàn)字體反爬流程
查策實戰(zhàn)場景
本次要采集的目標站點是查策,該測試站點如下所示。
目標站點網(wǎng)址如下
www.chacewang.com/chanye/news?newstype=sbtz
該站點的新聞資訊類信息很容易采集,通過開發(fā)者工具查看了一下,并不存在加密反爬。
但字體反爬還是存在的,案例尋找過程非常簡單,只需要開發(fā)者工具切換到網(wǎng)絡(luò),字體視圖,然后預(yù)覽一下字體文件即可。
可以看到僅數(shù)字進行了順序變換。
接下來就是實戰(zhàn)解碼的過程,可以通過 FontCreator 查看一下該字體內(nèi)容。
字體實戰(zhàn)解碼
隨機下載一個字體文件打開之后發(fā)現(xiàn)出事情了,字體文件內(nèi)容如下所示。
其中除了簡易的數(shù)字外,還存在大量的中文字符,也就是存在一種可能性,網(wǎng)頁中的部分中文字符也被替換掉了。
我們拿一個【類】字做一下測試。
結(jié)果在頁面中檢索了一下,發(fā)現(xiàn)并沒有發(fā)生變化,而且通過計算樣式查看,得到的字體是平方和微軟雅黑?
可能網(wǎng)站升級之后,字體反爬只保留了數(shù)字部分。
既然這樣,那整體的難度就降低了~
我們隨機訪問一個頁面,獲取其網(wǎng)頁源碼內(nèi)容。
訪問公告類信息,需要提前登錄,注冊一個賬號即可
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的 UA 信息", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "cookie": "cityinfo={%22citycode%22:%22RegisterArea_HBDQ_Hebei_ShiJiaZhuangShi%22%2C%22cityname%22:%22%E7%9F%B3%E5%AE%B6%E5%BA%84%22}; 你的 COOKIES 信息" } res = requests.get('https://www.chacewang.com/news/detail?guid=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) print(res.text)
結(jié)果運行代碼之后,返回了一堆亂碼。
橡皮擦原以為還有什么加密邏輯存在,結(jié)果發(fā)現(xiàn)多慮了,只是一個異步加載,真正的數(shù)據(jù)接口在下面。
web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo
接口一換,數(shù)據(jù)就可以獲取到了。
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "authorization": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1Ni 這個值每次登錄都會切換" } res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) print(res.text)
此時也發(fā)現(xiàn)了數(shù)據(jù)差異,接口返回和頁面展現(xiàn),差異如下所示。
此時字體反爬邏輯已經(jīng)發(fā)現(xiàn),但是字體文件還存在如下邏輯:
- 每次請求有 2 個字體文件,確定哪一個影響;
- 字體文件每次刷新都會產(chǎn)生變化;
- 字體文件名每次刷新都會產(chǎn)生變化。
解決第一個問題,確定目標字體文件,該操作很簡單,只需要通過文件替換規(guī)則比對即可,例如下圖中響應(yīng)中的 0 被替換為 2。
解決第三個問題,如何獲取字體文件名。
在網(wǎng)絡(luò)視圖頁面,喚醒搜索框,搜索字體文件名,發(fā)現(xiàn)其在 2 個請求中出現(xiàn)。第一個是字體文件,第二個是我們上文請求的數(shù)據(jù)接口。
檢索之后發(fā)現(xiàn)字體文件名在接口返回的 news_set
參數(shù)中,并且是部分字符串,稍后我們截取字符串即可。
字體反爬編碼時間
下面我們編寫獲取字體文件的代碼,如下所示,下述代碼注意自行獲取一下 UA 值和 authorization 值。
import requests headers = { "content-type": "application/json", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ", "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz", "authorization": "Bearer " } res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers) # 獲取字體文件名 font_name = res.json()['data']['news_set'][:16] res = requests.get(f'https://web.chace-ai.com/media/fonts/{font_name}.woff', headers=headers) # 保存字體文件 file_woff =f'./fonts/{font_name}.woff' with open(file_woff, 'wb') as f: f.write(res.content)
后續(xù)邏輯就變得簡單了,本文僅展示字體呈現(xiàn)部分邏輯,其安裝 fontTools
模塊,并使用下述命令行導(dǎo)入相關(guān)功能。
from fontTools.ttLib import TTFont
字體文件讀取代碼如下所示。
# 讀取文件 with open(file_woff, 'rb') as font_file: font = TTFont(io.BytesIO(font_file.read())) # 轉(zhuǎn)換成字體對象 print(font) # 獲取 cmap font_obj = font['cmap'] # 獲取 cmap table font_tables = font['cmap'].tables uni_list = font['cmap'].tables[0].ttFont.getGlyphOrder() print(uni_list[2:12])
查策,查策,就這么簡單的解決了站點
到此這篇關(guān)于python超詳細實現(xiàn)字體反爬流程的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python時間戳與時間字符串互相轉(zhuǎn)換實例代碼
這篇文章主要介紹了Python時間戳與時間字符串互相轉(zhuǎn)換實例代碼,大家參考使用2013-11-11python django下載大的csv文件實現(xiàn)方法分析
這篇文章主要介紹了python django下載大的csv文件實現(xiàn)方法,結(jié)合實例形式分析了Django框架下載csv大文件的相關(guān)操作技巧與注意事項,需要的朋友可以參考下2019-07-07python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)模型的保存和讀取
這篇文章主要為大家介紹了python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)如何將訓(xùn)練得到的模型保存下來方便下次直接使用。為了讓訓(xùn)練結(jié)果可以復(fù)用,需要將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型持久化2021-11-11python 解決flask uwsgi 獲取不到全局變量的問題
今天小編就為大家分享一篇python 解決flask uwsgi 獲取不到全局變量的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12pycharm 使用心得(六)進行簡單的數(shù)據(jù)庫管理
功能簡介:pycharm自帶了一個簡單的數(shù)據(jù)庫插件,可以比較方便的進行簡單的數(shù)據(jù)庫操作。2014-06-06