亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python超詳細實現(xiàn)字體反爬流程

 更新時間:2022年05月19日 10:15:43   作者:夢想橡皮擦  
大家好,本篇文章主要講的是python查策網(wǎng)字體反爬實例,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下

查策實戰(zhàn)場景

本次要采集的目標站點是查策,該測試站點如下所示。

目標站點網(wǎng)址如下

www.chacewang.com/chanye/news?newstype=sbtz

該站點的新聞資訊類信息很容易采集,通過開發(fā)者工具查看了一下,并不存在加密反爬。

但字體反爬還是存在的,案例尋找過程非常簡單,只需要開發(fā)者工具切換到網(wǎng)絡(luò),字體視圖,然后預(yù)覽一下字體文件即可。

可以看到僅數(shù)字進行了順序變換。

接下來就是實戰(zhàn)解碼的過程,可以通過 FontCreator 查看一下該字體內(nèi)容。

字體實戰(zhàn)解碼

隨機下載一個字體文件打開之后發(fā)現(xiàn)出事情了,字體文件內(nèi)容如下所示。

其中除了簡易的數(shù)字外,還存在大量的中文字符,也就是存在一種可能性,網(wǎng)頁中的部分中文字符也被替換掉了。

我們拿一個【類】字做一下測試。

結(jié)果在頁面中檢索了一下,發(fā)現(xiàn)并沒有發(fā)生變化,而且通過計算樣式查看,得到的字體是平方和微軟雅黑?

可能網(wǎng)站升級之后,字體反爬只保留了數(shù)字部分。

既然這樣,那整體的難度就降低了~

我們隨機訪問一個頁面,獲取其網(wǎng)頁源碼內(nèi)容。

訪問公告類信息,需要提前登錄,注冊一個賬號即可

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的 UA 信息",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "cookie": "cityinfo={%22citycode%22:%22RegisterArea_HBDQ_Hebei_ShiJiaZhuangShi%22%2C%22cityname%22:%22%E7%9F%B3%E5%AE%B6%E5%BA%84%22}; 你的 COOKIES 信息"
}
res = requests.get('https://www.chacewang.com/news/detail?guid=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)

結(jié)果運行代碼之后,返回了一堆亂碼。

橡皮擦原以為還有什么加密邏輯存在,結(jié)果發(fā)現(xiàn)多慮了,只是一個異步加載,真正的數(shù)據(jù)接口在下面。

web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo

接口一換,數(shù)據(jù)就可以獲取到了。

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "authorization": "Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1Ni 這個值每次登錄都會切換"
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
print(res.text)

此時也發(fā)現(xiàn)了數(shù)據(jù)差異,接口返回和頁面展現(xiàn),差異如下所示。

此時字體反爬邏輯已經(jīng)發(fā)現(xiàn),但是字體文件還存在如下邏輯:

  • 每次請求有 2 個字體文件,確定哪一個影響;
  • 字體文件每次刷新都會產(chǎn)生變化;
  • 字體文件名每次刷新都會產(chǎn)生變化。

解決第一個問題,確定目標字體文件,該操作很簡單,只需要通過文件替換規(guī)則比對即可,例如下圖中響應(yīng)中的 0 被替換為 2。

解決第三個問題,如何獲取字體文件名。

在網(wǎng)絡(luò)視圖頁面,喚醒搜索框,搜索字體文件名,發(fā)現(xiàn)其在 2 個請求中出現(xiàn)。第一個是字體文件,第二個是我們上文請求的數(shù)據(jù)接口。

檢索之后發(fā)現(xiàn)字體文件名在接口返回的 news_set 參數(shù)中,并且是部分字符串,稍后我們截取字符串即可。

字體反爬編碼時間

下面我們編寫獲取字體文件的代碼,如下所示,下述代碼注意自行獲取一下 UA 值和 authorization 值。

import requests
headers = {
    "content-type": "application/json",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) ",
    "Referer": "https://www.chacewang.com/chanye/news?newstype=sbtz",
    "authorization": "Bearer "
}
res = requests.get('https://web.chace-ai.com/api/gov/news/getDetailById/?id=KZwvLqpBVgE5AXB67k4XQY734MnG6ayo', headers=headers)
# 獲取字體文件名
font_name = res.json()['data']['news_set'][:16]
res = requests.get(f'https://web.chace-ai.com/media/fonts/{font_name}.woff', headers=headers)
# 保存字體文件
file_woff =f'./fonts/{font_name}.woff'
with open(file_woff, 'wb') as f:
    f.write(res.content)

后續(xù)邏輯就變得簡單了,本文僅展示字體呈現(xiàn)部分邏輯,其安裝 fontTools 模塊,并使用下述命令行導(dǎo)入相關(guān)功能。

from fontTools.ttLib import TTFont

字體文件讀取代碼如下所示。

# 讀取文件
with open(file_woff, 'rb') as font_file:
    font = TTFont(io.BytesIO(font_file.read()))  # 轉(zhuǎn)換成字體對象
print(font)
# 獲取 cmap
font_obj = font['cmap']
# 獲取 cmap table
font_tables = font['cmap'].tables
uni_list = font['cmap'].tables[0].ttFont.getGlyphOrder()
print(uni_list[2:12])

查策,查策,就這么簡單的解決了站點

到此這篇關(guān)于python超詳細實現(xiàn)字體反爬流程的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python時間戳與時間字符串互相轉(zhuǎn)換實例代碼

    Python時間戳與時間字符串互相轉(zhuǎn)換實例代碼

    這篇文章主要介紹了Python時間戳與時間字符串互相轉(zhuǎn)換實例代碼,大家參考使用
    2013-11-11
  • Python+OpenCV實現(xiàn)表面缺陷檢測

    Python+OpenCV實現(xiàn)表面缺陷檢測

    對于現(xiàn)在很多工業(yè)檢測,特別是對一些精密的器件進行篩選,往往都是像素級別的,十分的精確。本文將利用OpenCV+Python實現(xiàn)表面缺陷檢測,感興趣的可以了解一下
    2022-08-08
  • Python入門基礎(chǔ)之import機制

    Python入門基礎(chǔ)之import機制

    這篇文章主要給大家介紹了關(guān)于Python入門基礎(chǔ)之import機制的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • python django下載大的csv文件實現(xiàn)方法分析

    python django下載大的csv文件實現(xiàn)方法分析

    這篇文章主要介紹了python django下載大的csv文件實現(xiàn)方法,結(jié)合實例形式分析了Django框架下載csv大文件的相關(guān)操作技巧與注意事項,需要的朋友可以參考下
    2019-07-07
  • python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)模型的保存和讀取

    python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)模型的保存和讀取

    這篇文章主要為大家介紹了python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)如何將訓(xùn)練得到的模型保存下來方便下次直接使用。為了讓訓(xùn)練結(jié)果可以復(fù)用,需要將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型持久化
    2021-11-11
  • python 解決flask uwsgi 獲取不到全局變量的問題

    python 解決flask uwsgi 獲取不到全局變量的問題

    今天小編就為大家分享一篇python 解決flask uwsgi 獲取不到全局變量的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • python實現(xiàn)單鏈表的方法示例

    python實現(xiàn)單鏈表的方法示例

    這篇文章主要給大家介紹了關(guān)于python實現(xiàn)單鏈表的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-09-09
  • pycharm 使用心得(六)進行簡單的數(shù)據(jù)庫管理

    pycharm 使用心得(六)進行簡單的數(shù)據(jù)庫管理

    功能簡介:pycharm自帶了一個簡單的數(shù)據(jù)庫插件,可以比較方便的進行簡單的數(shù)據(jù)庫操作。
    2014-06-06
  • Python Django搭建網(wǎng)站流程圖解

    Python Django搭建網(wǎng)站流程圖解

    這篇文章主要介紹了Python Django搭建網(wǎng)站流程圖解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-06-06
  • python將圖片轉(zhuǎn)為矢量圖的方法步驟

    python將圖片轉(zhuǎn)為矢量圖的方法步驟

    這篇文章主要介紹了python將圖片轉(zhuǎn)為矢量圖的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03

最新評論