亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python起點(diǎn)網(wǎng)月票榜字體反爬案例

 更新時(shí)間:2021年12月03日 09:46:38   作者:豪豪喜歡吃豬肉  
大家好,本篇文章主要講的是python起點(diǎn)網(wǎng)月票榜字體反爬案例,感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下,方便下次瀏覽

前言:

字體反爬是什么個(gè)意思?就是網(wǎng)站把自己的重要數(shù)據(jù)不直接的在源代碼中呈現(xiàn)出來,而是通過相應(yīng)字體的編碼,與一個(gè)字體文件(一般后綴為ttf或woff)把相應(yīng)的編碼轉(zhuǎn)換為自己想要的數(shù)據(jù),知道了原理,接下來開始展示才藝

1.解析過程

老規(guī)矩哈我們先進(jìn)入起點(diǎn)月票榜f12調(diào)試,找到書名與其對(duì)應(yīng)的月票數(shù)據(jù)所在,使用xpath嘗試提取

?

可以看到剛剛好20條數(shù)據(jù),接下來找月票數(shù)據(jù):

?

這是什么鬼xpath檢索出來20條數(shù)據(jù)但是數(shù)據(jù)為空,element中數(shù)據(jù)顯示為未知符號(hào),這貌似沒有數(shù)據(jù)呀,這時(shí)我們觀察源代碼,搜索關(guān)鍵字font-face可以看到這種看不懂的編碼,這就是前言中所說的字體的編碼。

?我們接下來找字體文件數(shù)據(jù)包

?woff文件并且請(qǐng)求地址與這上面看到的地址一樣,不過這里需要注意的是每次請(qǐng)求地址都不一樣,文件名字也不一樣,所以我們需要每爬取一次都要單獨(dú)爬取一次字體加密數(shù)據(jù),字體加密數(shù)據(jù)可以使用第三方庫fonttools進(jìn)行解析

我們現(xiàn)在擁有:

1.書名

2.月票數(shù)據(jù)的密文

3.月票數(shù)據(jù)密文對(duì)應(yīng)的字體文件

2.開始敲代碼

首先定義獲取書名的函數(shù)get_book_name并進(jìn)行測(cè)試:

import requests
from lxml import etree
 
 
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
 
if __name__ == '__main__':
    # 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請(qǐng)求網(wǎng)頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長(zhǎng)夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']

2.請(qǐng)求月票數(shù)據(jù)密文,并進(jìn)行測(cè)試:

import re
 
import requests
from lxml import etree
 
# 獲取書名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
# 獲取月票加密數(shù)據(jù)
def get_yuepiao(str_data):
    # 這里我們之前分析發(fā)現(xiàn)xpath取出來的數(shù)據(jù)是空值,我們直接對(duì)網(wǎng)頁源代碼使用re正則匹配獲取加密數(shù)據(jù)
    yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
    return yuepiao_list
 
if __name__ == '__main__':
    # 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請(qǐng)求網(wǎng)頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長(zhǎng)夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']
    print(get_yuepiao(str_data))    # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']

3.獲取字體加密文件里的對(duì)應(yīng)關(guān)系:

安裝fonttools庫

?由于第一次使用fonttools庫,在使用時(shí)遇到了以下錯(cuò)誤?查詢百度得知可能是由于字體文件名字有誤,把名稱換成url上面帶的就成功的提取出來鍵值對(duì)了

(也可能是我使用re正則提取font_url時(shí)候不規(guī)范造成url錯(cuò)誤)

只是這個(gè)鍵值對(duì)怎么編碼對(duì)應(yīng)英文,程序員為何為難程序員呢,不說了我們要定義一個(gè)英語與阿拉伯?dāng)?shù)字對(duì)應(yīng)的字典進(jìn)行對(duì)英文的替換

def get_font(xml_obj, headers_):
    # 使用xpath與re獲取字體加密數(shù)據(jù)包地址
    font_div = xml_obj.xpath("http://span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 獲取font文件進(jìn)行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加載字體文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字體.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i]=font_doct02[font_doct01[i]]
    return font_doct01

程序完美運(yùn)行:

總代碼如下:?

import re
 
import requests
from lxml import etree
from fontTools.ttLib import TTFont
 
 
# 獲取書名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
    return name_list
 
 
# 獲取月票加密數(shù)據(jù)
def get_yuepiao(str_data):
    # 這里我們之前分析發(fā)現(xiàn)xpath取出來的數(shù)據(jù)是空值,我們直接對(duì)網(wǎng)頁源代碼使用re正則匹配獲取加密數(shù)據(jù)
    yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
    return yuepiao_list
 
 
def get_font(xml_obj, headers_):
    # 使用xpath與re獲取字體加密數(shù)據(jù)包地址
    font_div = xml_obj.xpath("http://span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 獲取font文件進(jìn)行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加載字體文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字體.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i] = font_doct02[font_doct01[i]]
    return font_doct01
 
 
def jiemi(miwen_list, font_list):
    yuepiao = []
    for i in miwen_list:
        num = ''
        mw_list=re.findall('&#(.*?);', i)
 
        for j in mw_list:
            num += font_list[int(j)]
        yuepiao.append(int(num))
    return yuepiao
 
 
if __name__ == '__main__':
    # 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 請(qǐng)求網(wǎng)頁源代碼
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析書名
    xml_obj = etree.HTML(str_data)
    # print(get_book_name(
    #     xml_obj))  # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長(zhǎng)夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']
    # print(get_yuepiao(
    #     str_data))  # ['&#100498;&#100498;&#100496;&#100489;&#100494;', '&#100492;&#100491;&#100496;&#100496;', '&#100492;&#100495;&#100492;&#100497;', '&#100497;&#100489;&#100498;&#100494;', '&#100497;&#100494;&#100491;&#100500;', '&#100497;&#100495;&#100495;&#100489;', '&#100494;&#100497;&#100496;&#100489;', '&#100494;&#100495;&#100497;&#100500;', '&#100494;&#100498;&#100489;&#100495;', '&#100495;&#100494;&#100495;&#100494;', '&#100500;&#100497;&#100497;&#100500;', '&#100500;&#100494;&#100496;&#100499;', '&#100500;&#100500;&#100497;&#100496;', '&#100500;&#100498;&#100497;&#100495;', '&#100500;&#100496;&#100498;&#100496;', '&#100498;&#100492;&#100489;&#100492;', '&#100498;&#100497;&#100492;&#100499;', '&#100498;&#100497;&#100494;&#100499;', '&#100498;&#100494;&#100499;&#100489;', '&#100498;&#100494;&#100495;&#100496;']
    # print(get_font(xml_obj, headers_))
    # 書名列表
    book_name_list = get_book_name(xml_obj)
    # 月票列表
    yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
    for i in range(len(book_name_list)):
        print(f'{book_name_list[i]}:{yuepiao_list[i]}')

到此這篇關(guān)于python起點(diǎn)網(wǎng)月票榜字體反爬案例的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 一文秒懂python讀寫csv xml json文件各種騷操作

    一文秒懂python讀寫csv xml json文件各種騷操作

    多年來,數(shù)據(jù)存儲(chǔ)的可能格式顯著增加,但是,在日常使用中,還是以 CSV 、 JSON 和 XML 占主導(dǎo)地位。 在本文中,我將與你分享在Python中使用這三種流行數(shù)據(jù)格式及其之間相互轉(zhuǎn)換的最簡(jiǎn)單方法,需要的朋友可以參考下
    2019-07-07
  • python?numpy?中l(wèi)inspace函數(shù)示例詳解

    python?numpy?中l(wèi)inspace函數(shù)示例詳解

    這篇文章主要介紹了python?numpy?中l(wèi)inspace函數(shù),本文我們通過示例學(xué)習(xí)了linspace函數(shù),如果你熟悉NumPy,一定也注意到還有np.arange函數(shù),兩者最大差異是,linspace能夠精確控制終止值終值,而arange能夠更直接地控制序列中值之間的增量,需要的朋友可以參考下
    2023-03-03
  • 解決使用pycharm提交代碼時(shí)沖突之后文件丟失找回的方法

    解決使用pycharm提交代碼時(shí)沖突之后文件丟失找回的方法

    這篇文章主要介紹了解決使用pycharm提交代碼時(shí)沖突之后文件丟失找回的方法 ,需要的朋友可以參考下
    2018-08-08
  • python datatable庫大型數(shù)據(jù)集和多核數(shù)據(jù)處理使用探索

    python datatable庫大型數(shù)據(jù)集和多核數(shù)據(jù)處理使用探索

    這篇文章主要介紹了python datatable庫大型數(shù)據(jù)集和多核數(shù)據(jù)處理使用探索,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • 對(duì)pandas中apply函數(shù)的用法詳解

    對(duì)pandas中apply函數(shù)的用法詳解

    下面小編就為大家分享一篇對(duì)pandas中apply函數(shù)的用法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Django Celery異步任務(wù)隊(duì)列的實(shí)現(xiàn)

    Django Celery異步任務(wù)隊(duì)列的實(shí)現(xiàn)

    這篇文章主要介紹了Django Celery異步任務(wù)隊(duì)列的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • Python兔子毒藥問題實(shí)例分析

    Python兔子毒藥問題實(shí)例分析

    這篇文章主要介紹了Python兔子毒藥問題,實(shí)例分析了兔子毒藥問題的算法原理與Python解決方法,需要的朋友可以參考下
    2015-03-03
  • Python處理電子表格的Pandas、OpenPyXL、xlrd和xlwt庫

    Python處理電子表格的Pandas、OpenPyXL、xlrd和xlwt庫

    在Python中處理表格數(shù)據(jù),有幾個(gè)非常流行且功能強(qiáng)大的庫,Pandas在數(shù)據(jù)分析方面提供了廣泛的功能,而OpenPyXL、xlrd和xlwt則在處理Excel文件方面各有所長(zhǎng),以下是一些最常用的庫及其示例代碼
    2024-01-01
  • 一文詳解Python灰色預(yù)測(cè)模型實(shí)現(xiàn)示例

    一文詳解Python灰色預(yù)測(cè)模型實(shí)現(xiàn)示例

    這篇文章主要為大家介紹了Python灰色預(yù)測(cè)模型實(shí)現(xiàn)示例解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-02-02
  • pycharm?終端部啟用虛擬環(huán)境詳情

    pycharm?終端部啟用虛擬環(huán)境詳情

    這篇文章主要介紹了pycharm?終端部啟用虛擬環(huán)境詳情,文章圍繞pycharm?終端部啟用虛擬環(huán)境商務(wù)相關(guān)資料展開全文章的詳細(xì)內(nèi)容,需要的小伙伴可以參考一下
    2021-12-12

最新評(píng)論