Python實(shí)用工具之實(shí)現(xiàn)PDF轉(zhuǎn)DOCX文檔
首先,大家對Python語法的了解已經(jīng)基本完成,現(xiàn)在我們需要開始進(jìn)行各種練習(xí)。我為大家準(zhǔn)備了一些練習(xí)題目,比如之前的向量數(shù)據(jù)庫等,這些題目可以參考第三方的SDK來進(jìn)行操作,文檔也是比較完善的。這個過程有點(diǎn)像我們之前使用Java對接第三方接口的方式,所以今天我想開發(fā)一個很實(shí)用的工具類,用于將PDF轉(zhuǎn)換為DOCX文檔。我覺得這個工具非常實(shí)用,所以通過這個項(xiàng)目,我想帶領(lǐng)那些在Python基礎(chǔ)上還比較薄弱的同學(xué)們從零開始,一起完成這個項(xiàng)目。
首先,我也剛開始接觸這個項(xiàng)目,所以我并不知道如何實(shí)現(xiàn)。我的第一反應(yīng)是去搜索引擎上查找是否有其他人已經(jīng)實(shí)現(xiàn)了類似的功能,因?yàn)楝F(xiàn)在有很多優(yōu)秀的開源項(xiàng)目可供參考。畢竟,站在巨人的肩膀上進(jìn)行開發(fā)并不可恥,而是一種聰明的做法。
幸運(yùn)的是,我找到了一個名為"pdf2docx"的第三方包,它提供了非常優(yōu)秀的功能。令人驚訝的是,僅僅幾行代碼就可以完成PDF轉(zhuǎn)換為DOCX的工作。而且,轉(zhuǎn)換結(jié)果也非常出色。讓我們來看一下具體的實(shí)現(xiàn)過程。
希望大家可以去倉庫中查看源碼,學(xué)習(xí)如何使用這個工具包,也歡迎大家在倉庫中留言,提出任何問題或建議。一起進(jìn)步,共同學(xué)習(xí)!倉庫地址為:https://github.com/StudiousXiaoYu/pdf2docx_with_ui
PDF轉(zhuǎn)DOCX文檔
第三方包:pdf2docx
from pdf2docx import Converter def convert_pdf_to_docx(pdf_path, docx_path): # 創(chuàng)建一個轉(zhuǎn)換器對象 converter = Converter(pdf_path) # 將PDF轉(zhuǎn)換為DOCX converter.convert(docx_path, start=0, end=None) # 關(guān)閉轉(zhuǎn)換器 converter.close() # 調(diào)用函數(shù)進(jìn)行轉(zhuǎn)換 pdf_path = "input.pdf" docx_path = "output.docx" convert_pdf_to_docx(pdf_path, docx_path)
他很容易理解,只需要你定義好文件路徑即可完成轉(zhuǎn)換操作。此外,我也不多解釋了,因?yàn)閟tart參數(shù)用于指定轉(zhuǎn)換的起始頁碼,而end參數(shù)用于指定轉(zhuǎn)換的結(jié)束頁碼。你可以根據(jù)需要設(shè)置這兩個參數(shù)的值,如果不需要指定起始頁碼,可以將start參數(shù)設(shè)置為0;如果不需要指定結(jié)束頁碼,則可以將end參數(shù)設(shè)置為None。
官方可視化界面
代碼很簡單,但是如果是自己使用的話,每次都要寫一次路徑可能會很麻煩。不過你可以使用一個可視化交互界面來簡化這個過程,這樣會更方便一些。幸運(yùn)的是,pdf2docx提供了一個簡易版的界面,你可以在控制臺中直接輸入"pdf2docx gui"來啟動。在界面中,你只需要選擇要轉(zhuǎn)換的PDF文件和一個文件夾作為保存路徑,就可以完成轉(zhuǎn)換操作了。這樣的話,你就不需要每次都手動輸入路徑了。非常方便。
簡易版可交互界面
但是,如果你對pdf2docx提供的界面不滿意,并且覺得界面不夠好看,那么可以考慮使用另一個第三方界面庫,叫做gradio。我記得你之前在向量數(shù)據(jù)庫中使用過這個庫,對后端非常友好。你可以先寫一個簡單的界面,然后逐步優(yōu)化它,以滿足你的需求。gradio提供了很多功能和自定義選項(xiàng),你可以根據(jù)自己的喜好來設(shè)計(jì)界面的外觀和交互方式。然后慢慢優(yōu)化吧。
import gradio as gr from pdf2docx import Converter def convert_pdf_to_docx_with_display(pdf_file): tmp_file = "./output.docx" # Convert PDF to DOCX cv = Converter(pdf_file) cv.convert(tmp_file) cv.close() return tmp_file def convert_and_display_pdf_to_docx(pdf_file): docx_file = convert_pdf_to_docx_with_display(pdf_file) return docx_file iface = gr.Interface( fn=convert_and_display_pdf_to_docx, inputs=["file"], outputs=["file"], title="[努力的小雨] PDF to DOCX Converter", description="上傳pdf文件,并將其轉(zhuǎn)化為docx文件", ) iface.launch()
恩恩,我看著是相當(dāng)不錯的,這個小工具已經(jīng)可以滿足用戶的需求了。效果圖,你可以看看:
優(yōu)化版界面
好的,目前可交互的資源還相對較少。然而,如果我們能夠提前預(yù)覽解析后的文字內(nèi)容,有時就能避免不必要的下載。比如,在查看PDF文件時,我們只需要復(fù)制粘貼其中的文字,而無需下載整個文件。為了實(shí)現(xiàn)這一功能,我們可以考慮在文件底部添加一個額外的窗口,用于顯示解析后的文字內(nèi)容。通過提供復(fù)制粘貼功能,用戶可以輕松地獲取所需的文字信息。
import gradio as gr from pdf2docx import Converter import docx2txt def convert_pdf_to_docx_with_display(pdf_file): tmp_file = "./output.docx" # Convert PDF to DOCX cv = Converter(pdf_file) cv.convert(tmp_file) cv.close() # Extract text from DOCX docx_text = docx2txt.process(tmp_file) return tmp_file, docx_text def convert_and_display_pdf_to_docx(pdf_file): docx_file, docx_text = convert_pdf_to_docx_with_display(pdf_file) return docx_file, docx_text iface = gr.Interface( fn=convert_and_display_pdf_to_docx, inputs=["file"], outputs=["file", "text"], title="[努力的小雨] PDF to DOCX Converter", description="上傳pdf文件,并將其轉(zhuǎn)化為docx文件且在界面單獨(dú)顯示文件的文字", ) iface.launch()
當(dāng)我們完成代碼的修改后,運(yùn)行一下,我發(fā)現(xiàn)效果與我預(yù)期的是一致的。
至強(qiáng)版界面
如果我們已經(jīng)能夠顯示文字,那么是否還需要顯示圖片呢?考慮到PDF中常常包含圖片,為了滿足用戶復(fù)制粘貼圖片的需求,我認(rèn)為單獨(dú)開發(fā)一個窗口來保存圖片是合理的。然而,在這個過程中,我遇到了一些困難,幾乎是我的噩夢。我一直遇到報(bào)錯,而且這些錯誤幾乎是我之前從未遇到過的。就像當(dāng)初學(xué)習(xí)Java的時候,總是需要上網(wǎng)搜索解決方法一樣。在使用gradio時,我創(chuàng)建了一個畫廊窗口,但是錯誤地以為它可以直接返回圖像的二進(jìn)制內(nèi)容,所以沒有進(jìn)行保存,結(jié)果一直報(bào)錯。后來,我保存了圖像,問題得以解決?,F(xiàn)在我們來修改代碼,因?yàn)橛泻芏嘀貜?fù)的代碼,我就不再一直復(fù)制粘貼了。
# 此處省略部分代碼 # Extract images from DOCX images = [] image_dir = os.path.join(tmp_dir, "images") os.makedirs(image_dir, exist_ok=True) for embed, related_part in document.part.related_parts.items(): if isinstance(related_part, ImagePart): image_path = os.path.join(image_dir, f'image_{embed}.png') with open(image_path, 'wb') as f: f.write(related_part.image.blob) images.append(image_path) return tmp_file, docx_text, images # 此處省略部分代碼
我將圖片保存到一個文件夾中,并返回一個包含圖片實(shí)體的列表?,F(xiàn)在讓我們來看一下效果:可以看到圖片已經(jīng)顯示出來了,但我覺得交互性還不夠,如果用戶不想要前幾頁的PDF怎么辦呢?為了解決這個問題,我將再添加一個輸入框,讓用戶可以輸入相關(guān)信息。讓我們繼續(xù)優(yōu)化一下。
inputs=["text","file"],
為了實(shí)現(xiàn)傳參,我們可以修改輸入?yún)?shù)的類型。這個過程非常簡單。除了我之前演示的簡單樣式外,Gradio還有很多其他樣式可供選擇。我只是提供了一個最簡單的示例,剩下的優(yōu)化工作就交給你了。你可以根據(jù)需要選擇適合的樣式進(jìn)行優(yōu)化。
這里我就不演示了,因?yàn)橹灰覀兡軌颢@取參數(shù),我們就可以實(shí)現(xiàn)各種功能。就pdf轉(zhuǎn)docx的可視化界面而言,我已經(jīng)基本完成了它,它符合我的要求并且基本上令我滿意。畢竟,我不需要去優(yōu)化界面。
總結(jié)
pdf轉(zhuǎn)docx文檔是一個非常實(shí)用的功能,我只是簡單地實(shí)現(xiàn)了一個可視化界面供用戶操作。我這么做的目的之一是想更多地掌握gradio的使用方法,同時也加強(qiáng)對Python流行第三方包的熟悉程度,因?yàn)檫@些第三方包是快速開發(fā)的關(guān)鍵。我也希望你能從中有所收獲,我已經(jīng)公布了本期的源碼地址,如果你覺得還不錯,或者在自己編寫的過程中遇到問題,可以簡單地參考一下。不過,我仍然希望你能自己解決bug問題,這樣一旦熟悉了,就知道如何處理,不用總是上網(wǎng)尋找解決方案。
到此這篇關(guān)于Python實(shí)用工具之實(shí)現(xiàn)PDF轉(zhuǎn)DOCX文檔的文章就介紹到這了,更多相關(guān)Python PDF轉(zhuǎn)DOCX內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python報(bào)錯TypeError: Input z must be
大家好,本篇文章主要講的是python報(bào)錯TypeError: Input z must be 2D, not 3D的解決方法,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下2021-12-12Python列表切片操作實(shí)例探究(提取復(fù)制反轉(zhuǎn))
在Python中,列表切片是處理列表數(shù)據(jù)非常強(qiáng)大且靈活的方法,本文將全面探討Python中列表切片的多種用法,包括提取子列表、復(fù)制列表、反轉(zhuǎn)列表等操作,結(jié)合豐富的示例代碼進(jìn)行詳細(xì)講解2024-01-01python tkinter之 復(fù)選、文本、下拉的實(shí)現(xiàn)
這篇文章主要介紹了python tkinter之 復(fù)選、文本、下拉的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03Python圖像識別+KNN求解數(shù)獨(dú)的實(shí)現(xiàn)
這篇文章主要介紹了Python圖像識別+KNN求解數(shù)獨(dú)的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11python實(shí)現(xiàn)愛奇藝登陸密碼RSA加密的方法示例詳解
這篇文章主要介紹了python實(shí)現(xiàn)愛奇藝登陸的密碼RSA加密的方法,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-05-05Python 使用with上下文實(shí)現(xiàn)計(jì)時功能
with 語句適用于對資源進(jìn)行訪問的場合,確保不管使用過程中是否發(fā)生異常都會執(zhí)行必要的“清理”操作,釋放資源,比如文件使用后自動關(guān)閉、線程中鎖的自動獲取和釋放等。這篇文章主要介紹了Python 使用with上下文實(shí)現(xiàn)計(jì)時,需要的朋友可以參考下2018-03-03用python實(shí)現(xiàn)學(xué)生信息管理系統(tǒng)
這篇文章主要為大家詳細(xì)介紹了用python實(shí)現(xiàn)學(xué)生信息管理系統(tǒng),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-07-07