有時(shí)候看到一篇好的文章，想去保存下來(lái)，傳統(tǒng)方式一般是收藏書(shū)簽、復(fù)制粘貼到文檔或者直接復(fù)制鏈接保存，但這也太麻煩了。本文將用Python語(yǔ)言實(shí)現(xiàn)將網(wǎng)上的文章轉(zhuǎn)存為PDF文檔，保存電腦上慢慢看

我們有時(shí)候看到一篇好的文章，想去保存下來(lái)，傳統(tǒng)方式一般是收藏書(shū)簽、復(fù)制粘貼到文檔或者直接復(fù)制鏈接保存，但這樣一次兩次還好，數(shù)量多了，比較麻煩不說(shuō)，還可能不好找~

這個(gè)時(shí)候，Python的作用就來(lái)了，直接抓下來(lái)導(dǎo)出為PDF，直接把整個(gè)網(wǎng)站的內(nèi)容都導(dǎo)下來(lái)都行~

話不多說(shuō)，我們直接上代碼！

import requests
import parsel
import pdfkit
import os
import re


html_str = """
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""


def change_title(title):
    """
    替換標(biāo)題中的特殊字符
    :param title: 傳入文章標(biāo)題
    :return: 返回一個(gè)替換掉特殊字符的標(biāo)題
    """
    """
    使用re.compile()將正則表達(dá)式的字符串形式編譯為一個(gè)對(duì)象，通過(guò)該對(duì)象提供的一些列方法對(duì)文本
    進(jìn)行匹配查找
    re.sub() 第一個(gè)參數(shù)對(duì)應(yīng)的正則表達(dá)式，第二個(gè)參數(shù)為要替換成的字符串， 第三個(gè)參數(shù)為源字符串
    """
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title


for page in range(1, 11):
    """
    發(fā)送請(qǐng)求的url地址，唯一資源定位符
    headers: 請(qǐng)求頭 把python偽裝成瀏覽器對(duì)服務(wù)器發(fā)送請(qǐng)求， 然后服務(wù)器會(huì)給我們返回一個(gè)響應(yīng)數(shù)據(jù)
        請(qǐng)求頭所加的參數(shù)都是可以在開(kāi)發(fā)者工具中的headers里面的request headers中找到的
        比如 user-agent：代表著瀏覽器的信息
            cookies：用戶的信息 常用于檢測(cè)是否有登陸賬號(hào)
            host：域名
            referer：常說(shuō)的防盜鏈，告訴服務(wù)器是從哪個(gè)網(wǎng)頁(yè)跳轉(zhuǎn)過(guò)來(lái)的
    請(qǐng)求方式：可以通過(guò)開(kāi)發(fā)者工具中headers里面的數(shù)據(jù)看到是什么樣的請(qǐng)求方式
        get請(qǐng)求： 是可以直接從服務(wù)器上面獲取數(shù)據(jù)
        post請(qǐng)求：需要向服務(wù)器發(fā)送一個(gè)數(shù)據(jù) 比如說(shuō)(搜索/登陸)
    response：響應(yīng)對(duì)象
    狀態(tài)碼： 200表示請(qǐng)求成功 300：重定向 跳轉(zhuǎn) 400：通常是url網(wǎng)址不對(duì) 500 一般是服務(wù)器問(wèn)題
    獲取網(wǎng)頁(yè)文本數(shù)據(jù) response.text 獲取網(wǎng)頁(yè)json字典數(shù)據(jù) response.json() 獲取網(wǎng)頁(yè)二進(jìn)制數(shù)據(jù) response.content
    """
    url = 'https://****/qdPython/article/list/{page}'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    """
    url里面的****替換為blog.csdn.net即可
    把 html 字符串?dāng)?shù)據(jù)轉(zhuǎn)換成一個(gè) Selector 對(duì)象
    Selector 就具有一系列數(shù)據(jù)解析的方法  css/xpath/re
    類選擇器 都是使用圓點(diǎn).開(kāi)頭
    ID選擇器 是使用#開(kāi)頭
    屬性選擇器：
        ::text獲取標(biāo)簽里面的文本數(shù)據(jù)
        ::attr(xxx) 獲取標(biāo)簽內(nèi)某一個(gè)屬性的數(shù)據(jù)
        get() 從 Selector 對(duì)象中提取第一個(gè)數(shù)據(jù), 直接返回字符串?dāng)?shù)據(jù)給我們
        getall() 從 Selector 對(duì)象中提取提取所有數(shù)據(jù), 返回一個(gè)列表
    """
    selector = parsel.Selector(response.text)
    href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
    for link in href:
        response_1 = requests.get(url=link, headers=headers)
        selector_1 = parsel.Selector(response_1.text)
        title = selector_1.css('#articleContentId::text').get()
        content = selector_1.css('#content_views').get()
        new_title = change_title(title)
        # 創(chuàng)建文件保存地址以及保存文件的名字 和格式
        pdf_path = 'pdf\\' + new_title + '.pdf'
        html_path = 'pdf\\' + new_title + '.html'
        # str.format() 字符串格式化方法
        html = html_str.format(article=content)
        """
        with open   打開(kāi)文件時(shí), 當(dāng)文件對(duì)象引用完畢之后會(huì)自動(dòng)關(guān)閉文件
        html_path：文件保存路徑以及名字格式 
        mode：保存方式 w 寫入 如果你不寫mode默認(rèn)是r 讀
        encoding： 編碼
        as f 重命名 可以自定義
        f = open()
        f.writer()
        f.close()
        """
        with open(html_path, mode='w', encoding='utf-8') as f:
            f.write(html)
            print('正在保存：', title)
        # exe 文件存放的路徑
        config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
        # 把 html 通過(guò) pdfkit 變成 pdf 文件
        pdfkit.from_file(html_path, pdf_path, configuration=config)
        os.remove(html_path)

兄弟們快去試試吧！

到此這篇關(guān)于基于Python實(shí)現(xiàn)網(wǎng)頁(yè)文章轉(zhuǎn)PDF文檔的文章就介紹到這了,更多相關(guān)Python網(wǎng)頁(yè)文章轉(zhuǎn)PDF內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: