Python如何根據(jù)頁(yè)碼處理PDF文件的內(nèi)容
1.環(huán)境準(zhǔn)備
- pymupdf: 是wxWidgets在Python語(yǔ)言下的封裝,處理PDF文件的庫(kù),提供了讀取、提取和創(chuàng)建PDF文件的功能;wxWidgets是一個(gè)跨平臺(tái)的GUI應(yīng)用編程接口,使用C++編寫(xiě)。
- wxPython: 基于wxWidgets的Python包,用于創(chuàng)建跨平臺(tái)的圖形用戶(hù)界面(GUI)應(yīng)用程序。
- fitz: fitz庫(kù)是一個(gè)基于Python開(kāi)發(fā)的PDF處理庫(kù),它是PyMuPDF的前身。fitz提供了一系列的API和功能,可以用于讀取、編輯和生成PDF文件。此外,它還可以處理其他類(lèi)型的圖像,如TIFF和JPEG,提供圖像處理功能,如旋轉(zhuǎn)、裁剪、縮放、調(diào)整亮度、對(duì)比度和色彩平衡等。
- 在Python中,fitz庫(kù)可以用于多種任務(wù),如打開(kāi)PDF文件、遍歷頁(yè)面、添加注釋、提取文本、旋轉(zhuǎn)頁(yè)面等。此外,它還可以用于在PDF頁(yè)面上添加高亮注釋、提取圖像等操作。
pip install PIL pip install fitz pip install pymupdf pip install wxpython # pip install 庫(kù)包名 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com # pip install wxpython -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
2.Python參考代碼
創(chuàng)建1
個(gè)簡(jiǎn)單的GUI
應(yīng)用程序,它將允許用戶(hù)選擇要打開(kāi)的PDF
文件,并輸入開(kāi)始頁(yè)碼和結(jié)束頁(yè)碼。然后,點(diǎn)擊"Extract
"按鈕將提取指定范圍內(nèi)的頁(yè)面并將其保存為新的PDF
文件
import fitz import wx class PDFExtractor(wx.Frame): def __init__(self, parent): wx.Frame.__init__(self, parent, id=wx.ID_ANY, title=u"PDF Extractor", pos=wx.DefaultPosition, size=wx.Size(500, 254), style=wx.DEFAULT_FRAME_STYLE | wx.TAB_TRAVERSAL, name=u"PDF Extractor") self.SetSizeHintsSz(wx.DefaultSize, wx.DefaultSize) self.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_WINDOW)) self.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_ACTIVECAPTION)) bSizer2 = wx.BoxSizer(wx.VERTICAL) self.m_filePicker2 = wx.FilePickerCtrl(self, wx.ID_ANY, wx.EmptyString, u"Select a file", u"*.*", wx.DefaultPosition, wx.DefaultSize, wx.FLP_DEFAULT_STYLE) self.m_filePicker2.SetFont(wx.Font(9, 74, 90, 92, False, "微軟雅黑")) self.m_filePicker2.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_HIGHLIGHT)) self.m_filePicker2.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_HIGHLIGHT)) bSizer2.Add(self.m_filePicker2, 0, wx.ALL | wx.EXPAND, 5) self.m_staticText5 = wx.StaticText(self, wx.ID_ANY, u"Start Page:", wx.DefaultPosition, wx.DefaultSize, 0) self.m_staticText5.Wrap(-1) self.m_staticText5.SetFont(wx.Font(9, 74, 90, 92, True, "微軟雅黑")) self.m_staticText5.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT)) bSizer2.Add(self.m_staticText5, 0, wx.ALL, 5) self.m_textCtrl1 = wx.TextCtrl(self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0) bSizer2.Add(self.m_textCtrl1, 0, wx.EXPAND, 5) self.m_staticText6 = wx.StaticText(self, wx.ID_ANY, u"End Page:", wx.DefaultPosition, wx.DefaultSize, 0) self.m_staticText6.Wrap(-1) self.m_staticText6.SetFont(wx.Font(9, 74, 90, 92, True, "微軟雅黑")) self.m_staticText6.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT)) bSizer2.Add(self.m_staticText6, 0, wx.ALL, 5) self.m_textCtrl2 = wx.TextCtrl(self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0) bSizer2.Add(self.m_textCtrl2, 0, wx.EXPAND, 5) self.m_button18 = wx.Button(self, wx.ID_ANY, u"Extract", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER) self.m_button18.SetFont(wx.Font(12, 74, 90, 92, False, "微軟雅黑")) self.m_button18.SetForegroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNTEXT)) self.m_button18.SetBackgroundColour(wx.SystemSettings.GetColour(wx.SYS_COLOUR_BTNHIGHLIGHT)) self.m_button18.Bind(wx.EVT_BUTTON, self.extract_pages) bSizer2.Add(self.m_button18, 0, wx.ALIGN_CENTER_HORIZONTAL | wx.SHAPED, 5) self.SetSizer(bSizer2) self.Layout() self.Centre(wx.BOTH) def __del__(self): pass def extract_pages(self, event): file_path = self.m_filePicker2.GetPath() start_page = int(self.m_textCtrl1.GetValue()) end_page = int(self.m_textCtrl2.GetValue()) doc = fitz.open(file_path) output_doc = fitz.open() for page_num in range(start_page - 1, end_page): output_doc.insert_pdf(doc, from_page=page_num, to_page=page_num) output_path = file_path.replace(".pdf", "_extracted.pdf") output_doc.save(output_path) output_doc.close() doc.close() wx.MessageBox("Extraction complete!", "Success", wx.OK | wx.ICON_INFORMATION) # app = wx.App() # PDFExtractor(None, title="PDF Extractor") # app.MainLoop() if __name__ == '__main__': app = wx.App() # 運(yùn)行wx.App()方法。認(rèn)為窗體是一個(gè)獨(dú)立運(yùn)行的app,所以要定義一個(gè)app的程序類(lèi)來(lái)讓窗體執(zhí)行,調(diào)用wx類(lèi)庫(kù)對(duì)應(yīng)的App方法來(lái)生成應(yīng)用程序的類(lèi)對(duì)象:wx.App() frame = PDFExtractor(None) # 調(diào)用Frame類(lèi),并且不指定父類(lèi),當(dāng)前就成為父類(lèi) frame.Show() # 運(yùn)行展示界面的方法Show() app.MainLoop() # 進(jìn)入程序wx.App()循環(huán)
wxFormBuilder
配置效果
運(yùn)行效果
3.其他參考
https://blog.csdn.net/winniezhang/article/details/134924216wxFormBuilder
Python根據(jù)頁(yè)碼處理PDF文件的內(nèi)容
到此這篇關(guān)于Python根據(jù)頁(yè)碼處理PDF文件的內(nèi)容的文章就介紹到這了,更多相關(guān)Python頁(yè)碼處理PDF文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pycharm 2020.2.4 pip install Flask 報(bào)錯(cuò) Error:Non-zero exit co
這篇文章主要介紹了pycharm 2020.2.4 pip install Flask 報(bào)錯(cuò) Error:Non-zero exit code,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-12-12通過(guò)Python腳本+Jenkins實(shí)現(xiàn)項(xiàng)目重啟
Jenkins是一個(gè)流行的開(kāi)源自動(dòng)化服務(wù)器,用于快速構(gòu)建、測(cè)試和部署軟件,本文主要介紹了通過(guò)Python腳本+Jenkins實(shí)現(xiàn)項(xiàng)目重啟,具有一定的參考價(jià)值,感興趣的可以了解一下2023-10-10PHP實(shí)現(xiàn)發(fā)送和接收J(rèn)SON請(qǐng)求
本篇文章給大家分享了PHP實(shí)現(xiàn)發(fā)送和接收J(rèn)SON請(qǐng)求的詳細(xì)方法和實(shí)例代碼,有興趣的朋友可以參考學(xué)習(xí)下。2018-06-06python基于tkinter點(diǎn)擊按鈕實(shí)現(xiàn)圖片的切換
這篇文章主要介紹了python基于tkinter點(diǎn)擊按鈕實(shí)現(xiàn)圖片的切換,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04python庫(kù)TextDistance量化文本之間的相似度算法探究
這篇文章主要為大家介紹了python庫(kù)TextDistance量化文本之間的相似度算法探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01NumPy隨機(jī)數(shù)據(jù)分布與Seaborn可視化詳解
數(shù)據(jù)分布是指數(shù)據(jù)集中所有可能值出現(xiàn)的頻率,并用概率來(lái)表示,它描述了數(shù)據(jù)取值的可能性,Seaborn 是一個(gè)基于 Matplotlib 的 Python 數(shù)據(jù)可視化庫(kù),用于創(chuàng)建統(tǒng)計(jì)圖表,本文就給大家詳細(xì)的介紹一下NumPy隨機(jī)數(shù)據(jù)分布與Seaborn可視化,需要的朋友可以參考下2024-05-05