使用Python實現(xiàn)批量分割PDF文件

更新時間：2025年02月10日 10:36:25 作者：快樂星球沒有樂

這篇文章主要為大家詳細介紹了如何使用Python進行批量分割PDF文件功能,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下

一、架構設計

在進行批量分割PDF文件之前，我們需要先設計一個合理的架構，以確保代碼的可維護性和可擴展性。

以下是一個簡單的架構設計示意圖：

1. 輸入模塊：負責接收用戶輸入的PDF文件路徑和分割規(guī)則（如每頁分割、按頁數(shù)分割等）。

2. 處理模塊：負責讀取PDF文件，并根據(jù)分割規(guī)則進行分割。

3. 輸出模塊：將分割后的PDF文件保存到指定路徑。

二、代碼實現(xiàn)

接下來，我們將逐步實現(xiàn)上述架構中的各個模塊。

首先，我們需要安裝一個用于處理PDF文件的Python庫——PyPDF2。

可以使用以下命令進行安裝：

pip install PyPDF2

1.輸入模塊

import os  
  
def get_pdf_files(directory):  
    pdf_files = []  
    for file in os.listdir(directory):  
        if file.endswith(".pdf"):  
            pdf_files.append(os.path.join(directory, file))  
    return pdf_files  
  
def get_split_rule():  
    # 根據(jù)具體需求，獲取分割規(guī)則  
    pass  
  
def get_output_directory():  
    # 根據(jù)具體需求，獲取輸出路徑  
    pass

2.處理模塊

from PyPDF2 import PdfFileReader, PdfFileWriter  
  
def split_pdf(file_path, split_rule):  
    pdf = PdfFileReader(file_path)  
    output_files = []  
    for i in range(pdf.getNumPages()):  
        page = pdf.getPage(i)  
        output_pdf = PdfFileWriter()  
        output_pdf.addPage(page)  
        output_file_path = f"{file_path}_{i}.pdf"  
        with open(output_file_path, "wb") as output_file:  
            output_pdf.write(output_file)  
        output_files.append(output_file_path)  
    return output_files

3.輸出模塊

def save_output_files(output_files, output_directory):  
    for file in output_files:  
        file_name = os.path.basename(file)  
        output_path = os.path.join(output_directory, file_name)  
        os.rename(file, output_path)

三、批量分割PDF文件

現(xiàn)在，我們可以將上述模塊組合起來，實現(xiàn)批量分割PDF文件的功能。

def main():  
    directory = input("請輸入PDF文件所在目錄：")  
    pdf_files = get_pdf_files(directory)  
    split_rule = get_split_rule()  
    output_directory = get_output_directory()  
  
    for file in pdf_files:  
        output_files = split_pdf(file, split_rule)  
        save_output_files(output_files, output_directory)  
  
    print("分割完成！")  
  
if __name__ == "__main__":  
    main()