Python利用PyPDF2庫實現(xiàn)輕松提取PDF文本

更新時間：2023年09月17日 08:57:27 作者：Python數(shù)據(jù)開發(fā)

ython中的PyPDF2庫是一個非常有用的工具,無論您是需要分析PDF文檔中的內容還是需要在文檔中搜索特定的信息,PyPDF2都可以幫助您輕松實現(xiàn)這些任務,下面我們就來學習一下如何利用PyPDF2提取PDF文本吧

安裝PyPDF2庫

首先，您需要安裝PyPDF2庫。您可以使用pip來安裝它：

pip install PyPDF2

打開PDF文件，并讀取內容

讓我們從一個簡單的示例開始。假設我們有一個名為"sample.pdf"的PDF文件，并且我們想要提取其中的文本內容。

import PyPDF2
# 打開PDF文件
pdf_file = open('YOLOv1.pdf', 'rb')
# 創(chuàng)建一個PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 獲取PDF文件中的頁面數(shù)量
num_pages = len(pdf_reader.pages)
# 創(chuàng)建一個空字符串，用于存儲提取的文本
text = ""
# 循環(huán)遍歷每一頁并提取文本
for page_num in range(num_pages):
    page = pdf_reader.pages[page_num]
    text += page.extract_text()
# 關閉PDF文件
pdf_file.close()
# 打印提取的文本
print(text)

以上代碼將打開名為"YOLOv1.pdf"的PDF文件，遍歷每一頁并將文本內容提取到一個字符串中。最后，它會打印提取的文本。

提取結果

高級用法

除了基本的文本提取，PyPDF2還提供了其他功能，例如合并多個PDF文件、旋轉頁面、添加書簽等。讓我們詳細討論一些高級用法，并提供相應的代碼示例。

合并多個PDF文件

有時，您可能需要將多個PDF文件合并成一個文件。PyPDF2允許您執(zhí)行此操作。

from PyPDF2 import PdfWriter
merger = PdfWriter()
for pdf in ["M:\YOLOv1.pdf", "M:\YOLOv2.pdf"]:
    merger.append(pdf)
merger.write("M:\merged.pdf")
merger.close()

以上代碼將打開名為’YOLOv1.pdf’和’YOLOv1.pdf’的兩個PDF文件，將它們的內容合并到一個新的PDF文件’merged.pdf’中。

旋轉頁面

有時，PDF文件中的頁面可能需要旋轉。使用PyPDF2，您可以旋轉頁面以適應您的需求。

import PyPDF2
# 打開PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 創(chuàng)建PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 創(chuàng)建一個新的PDF對象
pdf_writer = PyPDF2.PdfWriter()
# 旋轉第一頁90度
page = pdf_reader.pages[0]
page.rotate(90)
pdf_writer.add_page(page)
# 將未旋轉的頁面添加到新文件中
for page_num in range(1, len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)
# 創(chuàng)建一個新的PDF文件并保存旋轉后的內容
output_pdf = open('M:\YOLOv1-rd.pdf', 'wb')
pdf_writer.write(output_pdf)
# 關閉所有打開的文件
pdf_file.close()
output_pdf.close()

以上代碼將打開名為’YOLOv1.pdf’的PDF文件，旋轉第一頁90度，并將旋轉后的頁面保存到新的PDF文件’YOLOv1-rd.pdf’中。

添加書簽

您還可以使用PyPDF2在PDF文件中添加書簽，以便更輕松地導航和查找內容。

以上代碼將打開名為’YOLOv1.pdf’的PDF文件，將其內容復制到新的PDF文件’YOLOv1-copy.pdf’中，并在第一頁和第六頁添加了兩個書簽。

import PyPDF2
# 打開PDF文件
pdf_file = open('M:\YOLOv1.pdf', 'rb')
# 創(chuàng)建PDF對象
pdf_reader = PyPDF2.PdfReader(pdf_file)
# 創(chuàng)建一個新的PDF對象
pdf_writer = PyPDF2.PdfWriter()
# 循環(huán)遍歷每一頁并將頁面添加到新文件中
for page_num in range(len(pdf_reader.pages)):
    page = pdf_reader.pages[page_num]
    pdf_writer.add_page(page)
# 添加書簽
pdf_writer.add_bookmark('Chapter 1', 0)  # 在第一頁添加一個名為"Chapter 1"的書簽
pdf_writer.add_bookmark('Chapter 2', 5)  # 在第六頁添加一個名為"Chapter 2"的書簽
# 創(chuàng)建一個新的PDF文件并保存帶有書簽的內容
output_pdf = open('M:\YOLOv1-copy.pdf', 'wb')
pdf_writer.write(output_pdf)
# 關閉所有打開的文件
pdf_file.close()
output_pdf.close()