Python實(shí)現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例
隨著SaaS服務(wù)的流行,越來越多的人選擇在各個(gè)平臺(tái)上編寫文檔,制作表格并進(jìn)行分享。
同時(shí),隨著Markdown語法的破圈,很多平臺(tái)開始集成支持這種簡(jiǎn)潔的書寫標(biāo)記語言,這樣可以保證平臺(tái)上用戶文檔樣式的統(tǒng)一性。
但是在一些場(chǎng)景下,我們還是會(huì)在本地的Office軟件上寫有很多文檔,或者歷史遺留了很多本地文檔。
如果我們需要將其上傳到各大平臺(tái),直接復(fù)制粘貼,大概率是會(huì)造成文檔內(nèi)容結(jié)構(gòu)和樣式的丟失。于此我們需要將其轉(zhuǎn)換為 Markdown 語法。
很多桌面軟件(比如Typora)都提供了導(dǎo)入 Word 文件的功能,這類功能一般是通過 Pandoc 這個(gè)軟件來擴(kuò)展實(shí)現(xiàn)的。
Pandoc 是一個(gè)全能型的文檔格式轉(zhuǎn)換工具,其能夠?qū)⒍喾N文檔格式轉(zhuǎn)換為各類常見的文檔格式。具體的文檔格式之間的轉(zhuǎn)換如下圖所示(來源于官網(wǎng)):
Pandoc 是瑞士軍刀一般的存在,能夠較好的處理各類的文檔格式轉(zhuǎn)換,但是如果我們需要自己寫程序,調(diào)用 Pandoc 則需要額外的安裝 Pandoc 才行,并且也不方便自定義。
幸而,在 Python 中有很多第三方模塊提供了此類文檔格式的轉(zhuǎn)換功能。今天,我們來實(shí)現(xiàn)一下比較頻繁使用到的 Word 文檔轉(zhuǎn) Markdown 文檔。
轉(zhuǎn)換邏輯
Word 文檔到 Markdown 文檔的轉(zhuǎn)換總體而言分兩步來實(shí)現(xiàn):
- 第一步,將 Word 文檔轉(zhuǎn)換為 HTML 文檔;
- 第二步,將 HTML 文檔轉(zhuǎn)換為 Markdown 文檔;
依賴模塊
要實(shí)現(xiàn)這個(gè)功能我們需要借助 Python 的兩個(gè)第三方模塊:
- mammoth
- markdownify
mammoth 是一個(gè)用于將 Word 文檔轉(zhuǎn)換為 HTML 的模塊,它支持在 Python、JavaScript、Java、.Net等平臺(tái)使用。而 markdownify 則是將 HTML 轉(zhuǎn)換為 Markdown 文檔的模塊。
處理 Word 圖片
因?yàn)?Word 文檔中不可避免地會(huì)存在很多圖片,為了在轉(zhuǎn)換后的文檔中能夠正確地顯示圖片,我們需要自定義一下Word 文檔內(nèi)圖片的處理方式。默認(rèn)情況下,mammoth 會(huì)將圖片轉(zhuǎn)換為 base64 編碼的字符串,這樣不用生成額外的本地圖片文件,但是會(huì)使文檔體積變得很大。所以我們選擇將圖片另存為本地圖片:
# 轉(zhuǎn)存Word文檔內(nèi)的圖片 def convert_img(image): with image.open() as image_bytes: file_suffix = image.content_type.split("/")[1] path_file = "./img/{}.{}".format(str(time.time()),file_suffix) with open(path_file, 'wb') as f: f.write(image_bytes.read()) return {"src":path_file}
正式轉(zhuǎn)換
在這里,我們以州的先生很久以前寫的《Python爬蟲實(shí)戰(zhàn)與機(jī)器學(xué)習(xí)應(yīng)用》(需要這本書的小伙伴可以微信私聊我)這本書的 Word 文檔來演示。
代碼如下所示:
# 讀取Word文件 with open(r"F:\自媒體\Python爬蟲實(shí)戰(zhàn)與機(jī)器學(xué)習(xí)應(yīng)用.docx" ,"rb") as docx_file: # 轉(zhuǎn)化Word文檔為HTML result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img)) # 獲取HTML內(nèi)容 html = result.value # 轉(zhuǎn)化HTML為Markdown md = markdownify(html,heading_style="ATX") print(md) with open("./docx_to_html.html",'w',encoding='utf-8') as html_file,open("./docx_to_md.md","w",encoding='utf-8') as md_file: html_file.write(html) md_file.write(md) messages = result.messages
運(yùn)行程序,最終生成2個(gè)文件:
- docx_to_html.html
- docx_to_md.md
其中,docx_to_html.html 是 Word 文檔轉(zhuǎn)換為 HTML 后的文檔:
docx_to_md.md 是 HTML 轉(zhuǎn)換為 Markdown 后的文檔:
最后是另存為的圖片:
怎么樣,簡(jiǎn)單的二三十行代碼就完成了 Word 到 Markdown 文檔的轉(zhuǎn)換,是不是很簡(jiǎn)單?
此功能將集成到覓道文檔作為文檔導(dǎo)入的功能實(shí)現(xiàn),歡迎持續(xù)進(jìn)行關(guān)注!
文章版權(quán)所有:州的先生博客
以上就是Python實(shí)現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例的詳細(xì)內(nèi)容,更多關(guān)于python Word文檔轉(zhuǎn)換Markdown的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Django JWT Token RestfulAPI用戶認(rèn)證詳解
這篇文章主要介紹了Django JWT Token RestfulAPI用戶認(rèn)證詳解,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2019-01-01Python中第三方庫Requests庫的高級(jí)用法詳解
雖然Python的標(biāo)準(zhǔn)庫中urllib2模塊已經(jīng)包含了平常我們使用的大多數(shù)功能,但是它的API使用起來讓人實(shí)在感覺不好。它已經(jīng)不適合現(xiàn)在的時(shí)代,不適合現(xiàn)代的互聯(lián)網(wǎng)了。而Requests的誕生讓我們有了更好的選擇。本文就介紹了Python中第三方庫Requests庫的高級(jí)用法。2017-03-03Python實(shí)現(xiàn)不一樣的猜數(shù)字游戲的示例代碼
大家知道“猜數(shù)字”這個(gè)游戲嗎?顧名思義就是一個(gè)人想一個(gè)數(shù)字,另一個(gè)人猜。本文就來用Python實(shí)現(xiàn)一款不一樣的猜數(shù)字游戲,感興趣的可以了解一下2023-02-02win10下python3.5.2和tensorflow安裝環(huán)境搭建教程
這篇文章主要為大家詳細(xì)介紹了win10下python3.5.2和tensorflow安裝環(huán)境搭建教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09Django權(quán)限機(jī)制實(shí)現(xiàn)代碼詳解
這篇文章主要介紹了Django權(quán)限機(jī)制實(shí)現(xiàn)代碼詳解,分享了相關(guān)代碼示例,小編覺得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-02-02基于Python實(shí)現(xiàn)自動(dòng)摳圖小程序
這篇文章主要為了大家利用用Python制作一款界面化的摳圖小程序,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定的幫助,感興趣的可以學(xué)習(xí)一下2022-01-01