Python獲取PDF文檔的各種頁面信息

更新時間：2025年02月13日 10:50:58 作者：nuclear2011

了解PDF頁面信息對于有效處理、編輯和管理PDF文件至關重要,PDF文件通常包含多個頁面,每個頁面可能有不同的尺寸、方向、旋轉角度以及其他屬性,這篇文章將介紹如何使用Python獲取PDF文檔的各種頁面信息,需要的朋友可以參考下

引言

了解PDF頁面信息對于有效處理、編輯和管理PDF文件至關重要。PDF文件通常包含多個頁面，每個頁面可能有不同的尺寸、方向、旋轉角度以及其他屬性。在很多應用場景下，獲取這些頁面信息可以幫助我們更好地控制PDF內容的顯示、打印或轉換。這篇文章將介紹如何使用Python獲取PDF文檔的各種頁面信息，包括：

獲取PDF頁數
獲取PDF頁面尺寸
獲取PDF頁面旋轉角度
獲取PDF頁面方向
獲取PDF頁面標簽
獲取PDF頁面邊框信息

安裝所需庫

要在Python中獲取PDF的各種頁面信息，可以使用Spire.PDF for Python庫。它是一個專門用于在Python應用程序中創(chuàng)建、讀取、操作和轉換PDF文檔的庫。

你可以通過在終端運行以下命令來從PyPI安裝Spire.PDF for Python：

pip install Spire.PDF

Python獲取PDF頁數

PDF文件中的頁數是基本信息之一，了解文檔總共有多少頁可以幫助我們在操作文件時做出相應的調整。比如在拆分文件、打印特定頁碼或進行內容提取時，知道文件總頁數是至關重要的。

以下是獲取PDF頁數的具體步驟：

使用PdfDocument類打開PDF文件。
使用PdfDocument.Pages.Count屬性來獲取總頁數。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 獲取頁面總數
page_count = pdf.Pages.Count
 
# 輸出頁面總數
print(f"該PDF有 {page_count} 頁。")
pdf.Close()

Python獲取PDF頁面尺寸

PDF的頁面尺寸決定了內容如何在頁面上呈現，不同的文件可能使用不同的紙張尺寸，如A4、A3等。了解頁面尺寸可以幫助我們確保內容適合打印或顯示。

以下是獲取PDF頁面尺寸的具體步驟：

使用PdfDocument類打開PDF文件。
獲取特定頁，使用PdfPageBase.Size.Width和PdfPageBase.Size.Height來獲取頁面寬度和高度。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 通過索引獲取第一頁（索引從0開始）
page = pdf.Pages[0]
 
# 獲取第一頁的寬度和高度
width = page.Size.Width
height = page.Size.Height
 
# 輸出第一頁的尺寸
print(f"第一頁的尺寸為 {width}  x {height} 磅。")
pdf.Close()

注意，以上獲取的值以磅（pt）為單位，你可以使用 Spire.PDF for Python 提供的 PdfUnitConvertor 類在磅與其他單位例如英寸、像素、厘米和毫米之間進行轉換。轉換代碼如下：

# 創(chuàng)建 PdfUnitConvertor 對象
converter = PdfUnitConvertor()
 
# 將磅轉換為英寸
inch_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Inch)
 
# 將磅轉換為像素
pixel_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Pixel)
 
# 將磅轉換為厘米
centimeter_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Centimeter)
 
# 將磅轉換為毫米
millimeter_value = converter.ConvertUnits(point_value, PdfGraphicsUnit.Point, PdfGraphicsUnit.Millimeter)

Python獲取PDF頁面旋轉角度

有時PDF中的頁面可能由于編輯或導出過程中發(fā)生旋轉，導致頁面的內容顯示方向不正確。獲取頁面的旋轉角度（如0度、90度、180度或270度）可以幫助我們判斷頁面是否需要旋轉以便正確顯示。

以下是獲取PDF頁面旋轉角度的具體步驟：

使用PdfDocument類打開PDF文件。
獲取特定頁，使用PdfPageBase.Rotation屬性來獲取頁面的旋轉角度。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 通過索引獲取第一頁（索引從0開始）
page = pdf.Pages[0]
 
# 獲取第一頁的旋轉信息
rotation_info = page.Rotation
 
# 確定旋轉角度
if rotation_info == PdfPageRotateAngle.RotateAngle0:
    rotation_angle = "0度（正常）"
elif rotation_info == PdfPageRotateAngle.RotateAngle90:
    rotation_angle = "90度（順時針旋轉）"
elif rotation_info == PdfPageRotateAngle.RotateAngle180:
    rotation_angle = "180度（倒置）"
elif rotation_info == PdfPageRotateAngle.RotateAngle270:
    rotation_angle = "270度（逆時針旋轉）"
else:
    rotation_angle = "未知旋轉角度"
 
# 輸出第一頁的旋轉角度
print(f"第一頁的旋轉角度為 {rotation_angle}。")
pdf.Close()

Python獲取PDF頁面方向

PDF頁面的方向可以是縱向（Portrait）或橫向（Landscape）。不同的頁面方向適用于不同的內容展示方式。例如，表格或圖表可能更適合橫向展示，而文本內容則通常為縱向。判斷頁面的方向有助于確保頁面內容在顯示或打印時的布局正確。

以下是獲取PDF頁面方向的具體步驟：

使用PdfDocument類打開PDF文件。
獲取特定頁，根據頁面寬高來判斷方向。
- 寬度小于高度為縱向。
- 寬度大于高度為橫向。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 通過索引獲取第一頁（索引從0開始）
page = pdf.Pages[0]
 
# 獲取第一頁的寬度和高度
width = page.Size.Width
height = page.Size.Height
 
# 檢查頁面是縱向模式還是橫向模式
if width > height:
    print("第一頁是橫向模式。")
else:
    print("第一頁是縱向模式。")
 
pdf.Close()

Python獲取PDF頁面標簽

頁面標簽（Page Label）在文檔導航時非常有用，通常用于顯示自定義頁碼，幫助用戶快速找到指定內容。

實現步驟：

使用PdfDocument類打開PDF文件。
獲取特定頁，使用PdfPageBase.Label屬性獲取頁面的自定義標簽信息。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 通過索引獲取第一頁（索引從0開始）
page = pdf.Pages[0]
 
# 獲取第一頁的標簽
label = page.PageLabel
 
# 輸出第一頁的標簽
print(f"第一頁的標簽是: {label}")
pdf.Close()

Python獲取PDF頁面邊框信息

PDF擁有5種不同的頁面邊框：

媒體框（MediaBox）：定義頁面上需要印刷的物理介質的范圍。
裁剪框（CropBox）：定義頁面顯示或打印的內容范圍，默認值為頁面的媒體框‌。
出血框（BleedBox）：PDF 1.3 起開始支持，指在PDF文檔中，為了確保印刷品的完整性，在成品尺寸的四周加上一定距離的安全區(qū)域。這個安全區(qū)域通常為3mm，目的是為了減少裁切時的誤差，防止重要內容被裁切掉或留下白邊‌。
裁切框（TrimBox）：PDF 1.3 起開始支持，顯示印刷和裁切后，裁切文檔的最終尺寸，也稱為成品框。
作品框（ArtBox）：PDF 1.3 起開始支持，定義頁面上有意義的內容，包括可能存在的留白。

詳情可以參考以下示意圖：

以下是獲取PDF頁面邊框信息的具體步驟：

使用PdfDocument類打開PDF文件。
獲取特定頁，使用PdfPageBase.MediaBox、PdfPageBase.CropBox、PdfPageBase.BleedBox、PdfPageBase.TrimBox和PdfPageBase.ArtBox等屬性分別獲取對應的邊框。然后獲取它們的相關信息，如尺寸和坐標位置。

實現代碼：

# 導入所需的模塊
from spire.pdf.common import *
from spire.pdf import *
 
# 打開PDF文檔
pdf = PdfDocument("Sample.pdf")
 
# 通過索引獲取第一頁（索引從0開始）
page = pdf.Pages[0]
 
# 獲取第一頁的媒體框、裁剪框、出血框、裁切框和作品框
media_box = page.MediaBox
crop_box = page.CropBox
bleed_box = page.BleedBox
trim_box = page.TrimBox
art_box = page.ArtBox
 
# 輸出每個框的尺寸和坐標
print(f"媒體框: 寬度 = {media_box.Width}, 高度 = {media_box.Height}, X = {media_box.X}, Y = {media_box.Y}")
print(f"裁剪框: 寬度 = {crop_box.Width}, 高度 = {crop_box.Height}, X = {crop_box.X}, Y = {crop_box.Y}")
print(f"出血框: 寬度 = {bleed_box.Width}, 高度 = {bleed_box.Height}, X = {bleed_box.X}, Y = {bleed_box.Y}")
print(f"裁切框: 寬度 = {trim_box.Width}, 高度 = {trim_box.Height}, X = {trim_box.X}, Y = {trim_box.Y}")
print(f"作品框: 寬度 = {art_box.Width}, 高度 = {art_box.Height}, X = {art_box.X}, Y = {art_box.Y}")
pdf.Close()

以上就是如何使用Python獲取PDF頁數、頁面尺寸、旋轉角度、頁面方向、頁面標簽和頁面邊框等信息的全部內容。

到此這篇關于Python獲取PDF文檔的各種頁面信息的文章就介紹到這了,更多相關Python獲取PDF頁面信息內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: