Python使用wxPython和PyMuPDF提取PDF頁(yè)面指定頁(yè)數(shù)的內(nèi)容
前言
在本篇博客中,我們將探討如何使用wxPython和PyMuPDF庫(kù)創(chuàng)建一個(gè)簡(jiǎn)單的Bokeh應(yīng)用程序,用于選擇PDF文件并提取指定頁(yè)面的內(nèi)容,并將提取的內(nèi)容顯示在文本框中。
C:\pythoncode\new\pdfgetcontent.py
準(zhǔn)備工作
首先,確保你已經(jīng)安裝了以下庫(kù):
- wxPython:用于創(chuàng)建桌面應(yīng)用程序界面。
- PyMuPDF:用于處理PDF文件和提取頁(yè)面內(nèi)容。
你可以使用以下命令來(lái)安裝這些庫(kù):
pip install wxPython pymupdf
創(chuàng)建應(yīng)用程序界面
我們將使用wxPython來(lái)創(chuàng)建應(yīng)用程序的圖形界面。在應(yīng)用程序窗口中,我們將添加一個(gè)選擇按鈕,一個(gè)頁(yè)碼輸入框,一個(gè)提取按鈕和一個(gè)文本框用于顯示提取的內(nèi)容。
def __init__(self): super().__init__(None, title="提取PDF頁(yè)面內(nèi)容", size=(400, 300)) panel = wx.Panel(self) vbox = wx.BoxSizer(wx.VERTICAL) select_button = wx.Button(panel, label="選擇PDF文件") select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf) vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10) page_label = wx.StaticText(panel, label="頁(yè)碼:") vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10) self.page_input = wx.TextCtrl(panel) vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10) extract_button = wx.Button(panel, label="提取內(nèi)容") extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content) vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10) content_label = wx.StaticText(panel, label="內(nèi)容:") vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10) self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY) vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10) panel.SetSizer(vbox) def on_select_pdf(self, event): dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN) if dialog.ShowModal() == wx.ID_OK: self.pdf_path = dialog.GetPath() dialog.Destroy()
在上述代碼中,我們創(chuàng)建了一個(gè)名為PDFContentExtractor
的類,繼承自wx.Frame
。在該類中,我們使用Bokeh創(chuàng)建了一個(gè)包含選擇按鈕、頁(yè)碼輸入框、提取按鈕和內(nèi)容文本框的布局。我們?yōu)檫x擇按鈕和提取按鈕綁定了相應(yīng)的事件處理方法。
處理PDF文件選擇和內(nèi)容提取
我們使用wxPython的文件對(duì)話框來(lái)選擇PDF文件,并使用PyMuPDF庫(kù)來(lái)打開(kāi)和處理PDF文件。當(dāng)用戶選擇PDF文件并點(diǎn)擊提取按鈕時(shí),我們將提取指定頁(yè)碼的內(nèi)容,并將其顯示在內(nèi)容文本框中。
import wx import fitz class MyFrame(wx.Frame): def __init__(self): super().__init__(None, title="提取PDF頁(yè)面內(nèi)容", size=(400, 300)) panel = wx.Panel(self) vbox = wx.BoxSizer(wx.VERTICAL) select_button = wx.Button(panel, label="選擇PDF文件") select_button.Bind(wx.EVT_BUTTON, self.on_select_pdf) vbox.Add(select_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10) page_label = wx.StaticText(panel, label="頁(yè)碼:") vbox.Add(page_label, proportion=0, flag=wx.LEFT, border=10) self.page_input = wx.TextCtrl(panel) vbox.Add(self.page_input, proportion=0, flag=wx.EXPAND | wx.ALL, border=10) extract_button = wx.Button(panel, label="提取內(nèi)容") extract_button.Bind(wx.EVT_BUTTON, self.on_extract_content) vbox.Add(extract_button, proportion=0, flag=wx.ALIGN_CENTER | wx.ALL, border=10) content_label = wx.StaticText(panel, label="內(nèi)容:") vbox.Add(content_label, proportion=0, flag=wx.LEFT, border=10) self.content_text = wx.TextCtrl(panel, style=wx.TE_MULTILINE | wx.TE_READONLY) vbox.Add(self.content_text, proportion=1, flag=wx.EXPAND | wx.ALL, border=10) panel.SetSizer(vbox) def on_select_pdf(self, event): dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN) if dialog.ShowModal() == wx.ID_OK: self.pdf_path = dialog.GetPath() dialog.Destroy() def on_extract_content(self, event): page_num = int(self.page_input.GetValue()) self.extract_page_content(page_num) def extract_page_content(self, page_num): doc = fitz.open(self.pdf_path) if page_num < 1 or page_num > doc.page_count: wx.MessageBox("無(wú)效的頁(yè)碼!", "錯(cuò)誤", wx.OK | wx.ICON_ERROR) return page = doc.load_page(page_num - 1) text = page.get_text() self.content_text.SetValue(text) doc.close() if __name__ == '__main__': app = wx.App() frame = MyFrame() frame.Show() app.MainLoop() # ... class PDFContentExtractor(wx.Frame): # ... def on_select_pdf(self): dialog = wx.FileDialog(self, message="選擇PDF文件", wildcard="PDF files (*.pdf)|*.pdf", style=wx.FD_OPEN) if dialog.ShowModal() == wx.ID_OK: self.pdf_path = dialog.GetPath() dialog.Destroy() def on_extract_content(self): page_num = int(self.page_input.value) self.extract_page_content(page_num) def extract_page_content(self, page_num): doc = fitz.open(self.pdf_path) if page_num < 1 or page_num > doc.page_count: self.content_text.text = "無(wú)效的頁(yè)碼!" return page = doc.load_page(page_num - 1) text = page.get_text() self.content_text.text = text doc.close() # ...
在上述代碼中,我們使用wx.FileDialog
對(duì)話框來(lái)選擇PDF文件,并將選擇的文件路徑存儲(chǔ)在self.pdf_path
變量中。
在on_extract_content
方法中,我們獲取輸入框中的頁(yè)碼,并調(diào)用extract_page_content
方法來(lái)提取指定頁(yè)碼的內(nèi)容。
在extract_page_content
方法中,我們使用PyMuPDF打開(kāi)并讀取PDF文件。然后,我們通過(guò)doc.load_page
方法加載指定頁(yè)碼的頁(yè)面,并使用get_text
方法獲取該頁(yè)的文本內(nèi)容。最后,我們將提取的內(nèi)容設(shè)置到文本框content_text
中。
運(yùn)行應(yīng)用程序
if __name__ == '__main__': app = wx.App() frame = PDFContentExtractor() frame.Show() app.MainLoop()
在上述代碼中,我們創(chuàng)建了一個(gè)wx.App
實(shí)例,并實(shí)例化了PDFContentExtractor
類。然后,我們顯示應(yīng)用程序窗口,并通過(guò)調(diào)用app.MainLoop()
來(lái)啟動(dòng)應(yīng)用程序的事件循環(huán)。
結(jié)論
通過(guò)本篇博客,我們學(xué)習(xí)了如何使用wxPython和PyMuPDF創(chuàng)建用于選擇PDF文件并提取指定頁(yè)面的內(nèi)容。我們還了解了如何使用Bokeh來(lái)創(chuàng)建交互式應(yīng)用程序界面,并通過(guò)事件處理方法來(lái)處理用戶的選擇和操作。
到此這篇關(guān)于Python使用wxPython和PyMuPDF提取PDF頁(yè)面指定頁(yè)數(shù)的內(nèi)容的文章就介紹到這了,更多相關(guān)Python wxPython和PyMuPDF提取PDF內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
淺談Python peewee 使用經(jīng)驗(yàn)
這篇文章主要介紹了淺談Python peewee 使用經(jīng)驗(yàn),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-10-10Python實(shí)現(xiàn)的用戶登錄系統(tǒng)功能示例
這篇文章主要介紹了Python實(shí)現(xiàn)的用戶登錄系統(tǒng)功能,涉及Python流程控制及字符串判斷等相關(guān)操作技巧,需要的朋友可以參考下2018-02-02Python selenium鍵盤(pán)鼠標(biāo)事件實(shí)現(xiàn)過(guò)程詳解
這篇文章主要介紹了Python selenium鍵盤(pán)鼠標(biāo)事件實(shí)現(xiàn)過(guò)程詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07Python的Django框架中的select_related函數(shù)對(duì)QuerySet 查詢的優(yōu)化
這篇文章主要介紹了Python的Django框架中的select_related函數(shù)對(duì)QuerySet查詢的優(yōu)化,以減少數(shù)據(jù)庫(kù)的查詢次數(shù)為目的,需要的朋友可以參考下2015-04-04Python字符串格式化format()方法運(yùn)用實(shí)例
這篇文章主要給大家介紹了關(guān)于Python字符串格式化format()方法運(yùn)用實(shí)例的相關(guān)資料,字符串格式化是Python編程中十分常用的部分,它可以幫助我們將更具可讀性的數(shù)據(jù)輸出到控制臺(tái)或?qū)懭胛募?需要的朋友可以參考下2023-08-08python遞歸函數(shù)求n的階乘,優(yōu)缺點(diǎn)及遞歸次數(shù)設(shè)置方式
這篇文章主要介紹了python遞歸函數(shù)求n的階乘,優(yōu)缺點(diǎn)及遞歸次數(shù)設(shè)置方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-04-04基于Python中request請(qǐng)求得到的response的屬性問(wèn)題
這篇文章主要介紹了基于Python中request請(qǐng)求得到的response的屬性問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05