Python實現(xiàn)快速提取PDF文檔中的圖片

更新時間：2023年06月06日 12:02:12 作者：Python?集中營

提取PDF文檔中的圖片是一項常見的任務，本文將介紹如何使用PyPDF2和pdfminer.six這兩個庫來提取PDF文檔中的圖片，感興趣的可以了解一下

PyPDF2

PyPDF2是一個用于處理PDF文件的Python庫，可以用于合并、分割、旋轉和提取PDF文件中的文本和圖像等操作。

下面是一個使用PyPDF2庫提取PDF文檔中圖片的示例代碼：

import?PyPDF2

#?打開PDF文件
pdf_file?=?open('example.pdf',?'rb')

#?創(chuàng)建PDF閱讀器對象
pdf_reader?=?PyPDF2.PdfFileReader(pdf_file)

#?遍歷每一頁
for?page_num?in?range(pdf_reader.numPages):
????#?獲取當前頁
????page?=?pdf_reader.getPage(page_num)
????#?獲取當前頁中的所有XObject對象
????xobjects?=?page['/Resources']['/XObject'].getObject()
????#?遍歷所有XObject對象
????for?obj?in?xobjects:
????????#?如果當前對象是圖像
????????if?xobjects[obj]['/Subtype']?==?'/Image':
????????????#?獲取圖像的字節(jié)流
????????????image_data?=?xobjects[obj].getData()
????????????#?保存圖像到文件
????????????with?open('image{}.jpg'.format(page_num),?'wb')?as?f:
????????????????f.write(image_data)

在上面的代碼中，我們首先打開PDF文件，然后創(chuàng)建一個PDF閱讀器對象。

接著，我們遍歷每一頁，獲取當前頁中的所有XObject對象，然后遍歷所有XObject對象，如果當前對象是圖像，就獲取圖像的字節(jié)流并保存到文件中。

pdfminer.six

pdfminer.six是一個用于提取PDF文本和元數(shù)據(jù)的Python庫，它可以將PDF文檔轉換為HTML、XML和文本格式。

下面是一個使用pdfminer.six庫提取PDF文檔中圖片的示例代碼：

from?pdfminer.pdfparser?import?PDFParser
from?pdfminer.pdfdocument?import?PDFDocument
from?pdfminer.pdftypes?import?resolve1
from?pdfminer.pdfpage?import?PDFPage
from?pdfminer.pdfinterp?import?PDFResourceManager,?PDFPageInterpreter
from?pdfminer.converter?import?PDFPageAggregator
from?pdfminer.layout?import?LAParams,?LTImage

#?打開PDF文件
pdf_file?=?open('example.pdf',?'rb')

#?創(chuàng)建PDF解析器對象
parser?=?PDFParser(pdf_file)

#?創(chuàng)建PDF文檔對象
document?=?PDFDocument(parser)

#?創(chuàng)建PDF資源管理器對象
rsrcmgr?=?PDFResourceManager()

#?創(chuàng)建PDF設備對象
laparams?=?LAParams()
device?=?PDFPageAggregator(rsrcmgr,?laparams=laparams)

#?創(chuàng)建PDF解釋器對象
interpreter?=?PDFPageInterpreter(rsrcmgr,?device)

#?遍歷每一頁
for?page?in?PDFPage.create_pages(document):
????#?解析當前頁
????interpreter.process_page(page)
????#?獲取當前頁的LTImage對象
????layout?=?device.get_result()
????for?element?in?layout:
????????if?isinstance(element,?LTImage):
????????????#?獲取圖像的字節(jié)流
????????????image_data?=?element.stream.get_rawdata()
????????????#?保存圖像到文件
????????????with?open('image{}.jpg'.format(page.pageid),?'wb')?as?f:
????????????????f.write(image_data)

在上面的代碼中，我們首先打開PDF文件，然后創(chuàng)建一個PDF解析器對象和一個PDF文檔對象。

接著，我們創(chuàng)建一個PDF資源管理器對象、一個PDF設備對象和一個PDF解釋器對象。

然后，我們遍歷每一頁，解析當前頁并獲取當前頁的LTImage對象，如果當前對象是圖像，就獲取圖像的字節(jié)流并保存到文件中。