Python將博客內(nèi)容html導出為Markdown格式
一、為什么要搞?
有一部分博客文章需要搬家,逐個手動CV復制粘貼不僅效率低下,還容易出錯,而且還面臨格式調(diào)整的問題。為了簡化這一流程,這里嘗試使用Python來自動化處理,確保文章內(nèi)容的準確性和一致性。
二、準備如何搞?
通過博客url地址抓取文章,分析并提取出文章標題和內(nèi)容,將內(nèi)容構(gòu)建成html,再轉(zhuǎn)換為Markdown文件。
在文章新家導入生成的Markdown文件。
三、說搞咱就搞!
抓取文章
在瀏覽器中(Google Chrome)輸入博客網(wǎng)頁地址,并F12打開開發(fā)者工具
選中Doc,在Response中看到響應結(jié)果是html文檔

在Headers中復制出User-Agent,以便模擬瀏覽器的請求

Python代碼
requests模擬瀏覽器抓取文章
import requests
blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)
可見Python抓取結(jié)果和瀏覽器中的響應結(jié)果一致
提取內(nèi)容
分析響應結(jié)果html
標題在articleContentId中

內(nèi)容在content_views中

Python代碼
使用parsel的Selector解析抓取到的文章,css選擇器提取標題和內(nèi)容
import parsel
selector = parsel.Selector(res.text) # 創(chuàng)建Selector解析對象
title = selector.css('#articleContentId::text').get() # CSS選擇器提取文章標題
print(title)
print("="*100)
content = selector.css('#content_views').get() # CSS選擇器提取文章內(nèi)容
print(content)
構(gòu)建html
將提取到的content構(gòu)建成html
html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""轉(zhuǎn)存markdown
html2text將構(gòu)建好的html轉(zhuǎn)換為markdown文件
from html2text import html2text
markdown = html2text(html_content) # html轉(zhuǎn)換為markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f: # 保存為md文件
f.write(markdown)markdown文件內(nèi)容如下圖:

搬入新家
在新家中導入保存的.md文件

文章中的文字、圖片、代碼塊以及格式都完美搬入新家
到此這篇關(guān)于Python將博客內(nèi)容html導出為Markdown格式的文章就介紹到這了,更多相關(guān)Python將html導出為Markdown內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python編程中對super函數(shù)的正確理解和用法解析
可能有人會想到,Python中既然可以直接通過父類名調(diào)用父類方法為什么還會存在super函數(shù)?其實,很多人對Python中的super函數(shù)的認識存在誤區(qū),本文我們就帶來在Python編程中對super函數(shù)的正確理解和用法解析2016-07-07
Python使用eval函數(shù)執(zhí)行動態(tài)標表達式過程詳解
這篇文章主要介紹了Python使用eval函數(shù)執(zhí)行動態(tài)標表達式過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-10-10
關(guān)于Tensorflow和Keras版本對照及環(huán)境安裝
這篇文章主要介紹了關(guān)于Tensorflow和Keras版本對照及環(huán)境安裝方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-08-08
python?spotlight庫簡化交互式方法探索數(shù)據(jù)分析
這篇文章主要為大家介紹了python?spotlight庫簡化的交互式方法探索數(shù)據(jù),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2024-01-01
淺談python裝飾器探究與參數(shù)的領(lǐng)取
下面小編就為大家分享一篇淺談python裝飾器探究與參數(shù)的領(lǐng)取,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2017-12-12

