快捷導(dǎo)航

使用Python從PDF中提取圖片和圖片信息(坐標(biāo)、寬度和高度等)

更新時(shí)間：2025年02月24日 11:13:31 作者：nuclear2011

PDF文件作為一種廣泛使用的電子文檔格式,不僅包含文字信息,還可能包含各種圖片、圖表等視覺(jué)元素,在某些場(chǎng)景下,我們可能需要從PDF文件中提取這些圖片,用于其他用途,這篇博客將探討如何使用Python從PDF中提取圖片以及圖片的相關(guān)信息如坐標(biāo)、寬度和高度等

引言

PDF文件作為一種廣泛使用的電子文檔格式，不僅包含文字信息，還可能包含各種圖片、圖表等視覺(jué)元素。在某些場(chǎng)景下，我們可能需要從PDF文件中提取這些圖片，用于其他用途，比如插入到演示文稿中，或者進(jìn)行進(jìn)一步的編輯和處理。手動(dòng)從PDF中提取圖片是一項(xiàng)耗時(shí)的工作，尤其是當(dāng)需要處理大量PDF文檔時(shí)。而使用Python自動(dòng)化這一過(guò)程，可以大幅節(jié)省時(shí)間和精力。這篇博客將探討如何使用Python從PDF中提取圖片以及圖片的相關(guān)信息如坐標(biāo)、寬度和高度等。

使用工具

本文使用的是Spire.PDF for Python庫(kù)來(lái)實(shí)現(xiàn)從PDF中提取圖片和圖片信息。

你可以通過(guò)在終端運(yùn)行以下命令來(lái)從PyPI安裝Spire.PDF for Python：

pip install Spire.PDF

Python從PDF的特定頁(yè)面中提取圖片

要從PDF的特定頁(yè)面中提取圖片，首先需要使用PdfDocument.Pages[page_index]屬性訪(fǎng)問(wèn)目標(biāo)頁(yè)面。之后，使用PdfImageHelper.GetImagesInfo(page) 方法獲取該頁(yè)面上的圖片信息。最后使用PdfImageInfo.Image.Save() 方法將每個(gè)圖片保存為獨(dú)立的圖片文件。具體步驟如下：

創(chuàng)建 PdfDocument 類(lèi)的實(shí)例并使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔。
使用PdfDocument.Pages[page_index]屬性訪(fǎng)問(wèn)目標(biāo)頁(yè)面，這里的page_index表示頁(yè)面的索引，從0開(kāi)始計(jì)數(shù)。
創(chuàng)建 PdfImageHelper 實(shí)例。
使用 PdfImageHelper.GetImagesInfo(page) 方法獲取目標(biāo)頁(yè)面中的圖片信息。
循環(huán)遍歷獲取結(jié)果，使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為獨(dú)立的圖片文件。

from spire.pdf.common import *
from spire.pdf import *
import os
 
def extract_images_from_pdf_page(pdf_path, page_index, output_dir):
    """
    從 PDF 文件的指定頁(yè)面中提取圖片,并將其保存到指定的輸出目錄中。
    
    參數(shù):
        pdf_path (str): PDF 文件的路徑。
        page_index (int): 要提取圖片的頁(yè)面的索引值。
        output_dir (str): 輸出圖片文件的目錄。
    """
    # 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文件
    doc = PdfDocument()
    doc.LoadFromFile(pdf_path)
 
    # 獲取需要提取圖片的目標(biāo)頁(yè)面
    page = doc.Pages[page_index]
 
    # 創(chuàng)建 PdfImageHelper 實(shí)例
    image_helper = PdfImageHelper()
 
    # 獲取目標(biāo)頁(yè)面的圖片信息
    image_infos = image_helper.GetImagesInfo(page)
 
    image_count = 1
    # 提取并保存圖片
    for image_index in range(len(image_infos)):
        # 指定輸出文件名
        output_file = os.path.join(output_dir, f"Image-{image_count}.png")
        # 將圖片保存為圖片文件
        image_infos[image_index].Image.Save(output_file)
        image_count += 1
 
    doc.Close()
 
# 使用示例
extract_images_from_pdf_page("示例.pdf", 1, "C:/Users/Administrator/Desktop/圖片")

Python從PDF文檔中提取圖片

要從整個(gè)PDF文檔中提取圖片，只需要循環(huán)遍歷文檔中的頁(yè)面，然后重復(fù)上面的步驟，從每個(gè)頁(yè)面上提取圖片信息，最后將圖片保存為獨(dú)立的圖片文件即可。具體步驟如下：

創(chuàng)建 PdfDocument 實(shí)例并使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔。
創(chuàng)建 PdfImageHelper 實(shí)例。
循環(huán)遍歷文檔中的頁(yè)面。
使用 PdfImageHelper.GetImagesInfo(page) 方法獲取每個(gè)頁(yè)面中的圖片信息。
遍歷獲取結(jié)果，使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為圖片文件。

from spire.pdf.common import *
from spire.pdf import *
 
def extract_images_from_pdf(pdf_path, output_dir):
    """
    從 PDF 文件中提取所有圖片，并將其保存到指定的輸出目錄中。
    
    參數(shù):
        pdf_path (str): 輸入 PDF 文件的路徑。
        output_dir (str): 輸出圖片文件的目錄。
    """
    # 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文件
    doc = PdfDocument()
    doc.LoadFromFile(pdf_path)
 
    # 創(chuàng)建 PdfImageHelper 實(shí)例
    image_helper = PdfImageHelper()
 
    image_count = 1
    # 循環(huán)遍歷每個(gè)頁(yè)面
    for page_index in range(doc.Pages.Count):
        page = doc.Pages[page_index]
        # 獲取頁(yè)面的圖片信息
        image_infos = image_helper.GetImagesInfo(page)
 
        # 提取并保存圖片
        for image_index in range(len(image_infos)):
            # 指定輸出文件名
            output_file = os.path.join(output_dir, f"Image-{image_count}.png")
            # 將圖片保存為圖片文件
            image_infos[image_index].Image.Save(output_file)
            image_count += 1
 
    doc.Close()
 
# 使用示例
extract_images_from_pdf("示例.pdf", "C:/Users/Administrator/Desktop/圖片")

Python從PDF中提取圖片的坐標(biāo)、寬度和高度等信息

要提取 PDF 文件中圖片的信息，例如位置(X和Y坐標(biāo))、寬度和高度，可以使用 PdfImageInfo.Bounds.X、PdfImageInfo.Bounds.Y、PdfImageInfo.Bounds.Width 和 PdfImageInfo.Bounds.Height 屬性。具體步驟如下：

創(chuàng)建 PdfDocument 實(shí)例并使用 PdfDocument.LoadFromFile() 方法加載 PDF 文檔。
創(chuàng)建 PdfImageHelper 實(shí)例。
循環(huán)遍歷文檔中的頁(yè)面。
使用 PdfImageHelper.GetImagesInfo(page) 方法獲取每個(gè)頁(yè)面中的圖片信息。
遍歷獲取結(jié)果，使用 PdfImageInfo.Bounds.X、PdfImageInfo.Bounds.Y、PdfImageInfo.Bounds.Width 和 PdfImageInfo.Bounds.Height 屬性獲取圖片的坐標(biāo)、寬度和高度。

from spire.pdf.common import *
from spire.pdf import *
 
def print_pdf_image_info(pdf_path):
    """
    打印 PDF 文件中圖片的坐標(biāo)、寬度和高度。
    
    參數(shù):
        pdf_path (str): 輸入 PDF 文件的路徑。
    """
    # 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文件
    doc = PdfDocument()
    doc.LoadFromFile(pdf_path)
 
    # 創(chuàng)建 PdfImageHelper 實(shí)例
    image_helper = PdfImageHelper()
 
    # 循環(huán)遍歷每個(gè)頁(yè)面
    for page_index in range(doc.Pages.Count):
        page = doc.Pages[page_index]
        # 獲取頁(yè)面的圖片信息
        image_infos = image_helper.GetImagesInfo(page)
 
        # 打印圖片的坐標(biāo)位置、寬度和高度
        for image_index, image_info in enumerate(image_infos):
            print(f"第 {page_index + 1} 頁(yè), 第 {image_index + 1} 個(gè)圖片:")
            print(f"  圖片位置: ({image_info.Bounds.X}, {image_info.Bounds.Y})")
            print(f"  圖片大小: {image_info.Bounds.Width} x {image_info.Bounds.Height}")
 
    doc.Close()
 
# 使用示例
print_pdf_image_info("示例.pdf")