Python結合Deepseek編寫一個PDF轉Word軟件

更新時間：2025年02月26日 09:56:26 作者：PythonFun

如今,在線工具的普及讓PDF轉Word成為了一個常見需求,本文將利用Python開發(fā)一款本地化的PDF批量轉換為Word的軟件,有需要的小伙伴可以參考下

一、引言

如今，在線工具的普及讓PDF轉Word成為了一個常見需求，常見的pdf轉word工具有收費的wps，免費的有pdfgear

還有網(wǎng)上在線的免費pdf轉word工具smallpdf, ilovepdf, 24pdf等。然而，大部分免費的在線轉換工具都存在一些嚴重的隱私風險——文件往往需要上傳至云端進行處理，這樣操作極容易泄露敏感信息。

而且，許多在線平臺都要求付費才能使用更高效的服務，如wps, 迅捷pdf等，這導致很多用戶在無法快捷使用轉換文件的服務。

為了避免上述問題，我決定利用Python開發(fā)一款本地化的PDF批量轉換為Word的軟件，不僅保證文件的隱私安全，還能提供完全免費、快捷、個性化的轉換服務。

更重要的是，這個項目也有助于我鞏固Python編程知識，深入運用DeepSeek模型提升編程能力。

二、軟件的主要功能

這款PDF轉word的主要功能包括：

1. 100%離線文檔轉換。有效地避免信息的泄露，同時也加快了文檔的處理速度。

2. 支持批量PDF轉Word：軟件會自動掃描選擇文件夾及其子文件夾（如果勾選了相關選項），并將其中的PDF文件轉換為Word文檔，可以節(jié)省用法大量的時間。

3. 文件夾選擇與管理：用戶可以選擇輸入和輸出文件夾，支持自定義中英文路徑。

4. 進度條顯示：在轉換過程中，軟件會實時更新進度條，顯示當前文件的轉換進度以及整體的轉換進度。

5. 自動打開目標文件夾：轉換完成后，用戶可以選擇是否自動打開目標文件夾，查看轉換結果，以便進一步操作。

三、設計過程

在設計這款應用時，我采用了Python的tkinter圖形化界面和pdf2docx庫來實現(xiàn)文件轉換功能。具體如下圖：

PDF轉Word界面

用戶界面：界面設計以簡潔易用為主。通過tkinter的標簽、文本框、按鈕等控件，我實現(xiàn)了文件夾選擇、設置選項、進度條顯示等功能。

PDF轉Word功能：因為有現(xiàn)成的pdf2docx的庫，我采用了這個輪來進行PDF到Word格式的轉換，再加上Python的批量處理功能，要以輕松滿足我的文件轉換需求。

多線程與進度更新：為避免界面卡頓，我使用了threading庫來將文件轉換操作放入獨立線程，并利用queue進行線程間通信，實時更新進度條顯示。

我們在設計時，借助了DeepSeek R1的深度思考模型。先上傳軟件圖片，然后給出指令：

軟件開發(fā)提示詞

為了減少錯誤，我們在提示詞加入了讓deepseek進行自我運行代碼，進行調試的功能，減少用戶本地測試中產(chǎn)生的bug。

在其回復中，我們看到它針對我的提問題也進行了回答，尤其是在指定的Python環(huán)境下進行了測試。

DeepSeek自主調試功能

經(jīng)過測試，代碼運行無誤，但是缺少進度條功能，可能是沒有識別出來，或者漏掉了，于是通過追加提問：

這里我故意打錯了一個漢字，但是DeepSeek還能正確地進行理解，同時很好地解決了進度條缺失的問題。就這樣，我們通過兩步，不到1分鐘就可以把這個一個pdf轉word工具制作出來。

在開發(fā)過程中，我為DeepSeek提供了完整的開發(fā)環(huán)境，DeepSeek通過對項目需求的分析，建議我添加更多的異常處理機制，特別是在文件路徑不正確或者文件損壞的情況下的處理。最終，這些改進使得程序的穩(wěn)定性和用戶體驗都得到了顯著提升。

經(jīng)過多次的調試和優(yōu)化，軟件終于成型，并可以穩(wěn)定運行。用戶只需選擇文件夾并點擊轉換按鈕，程序就會自動處理所有PDF文件，最終輸出為Word格式。每一步的轉換進度都會實時更新，確保用戶能夠清晰地了解當前狀態(tài)。

四、代碼展示

廢話不多說，直接上軟件的全部代碼，同時提供了一些中文注釋，供大家學習使用

import os
import tkinter as tk
from tkinter import ttk,filedialog, messagebox
from pdf2docx import Converter
import threading
import queue
 
class PDFToWordConverter:
    def __init__(self, master):
        self.master = master
        master.title("PDF批量轉Word")
        master.geometry("610x295")
 
        # 輸入文件夾
        self.lbl_input = tk.Label(master, text="輸入文件夾：")
        self.ent_input = tk.Entry(master, width=30)
        self.btn_input = tk.Button(master, text="選擇", command=self.select_input)
 
        # 輸出文件夾
        self.lbl_output = tk.Label(master, text="輸出文件夾：")
        self.ent_output = tk.Entry(master, width=30)
        self.btn_output = tk.Button(master, text="選擇", command=self.select_output)
 
        # 復選框
        self.var_subdir = tk.BooleanVar()
        self.var_open = tk.BooleanVar(value=True)
        self.chk_subdir = tk.Checkbutton(master, text="包含子文件夾", variable=self.var_subdir)
        self.chk_open = tk.Checkbutton(master, text="轉換完成后打開目標文件夾", variable=self.var_open)
 
        # 轉換按鈕
        self.btn_convert = tk.Button(master, text="開始轉換", command=self.start_conversion)
 
        # 布局
        self.lbl_input.grid(row=0, column=0, padx=10, pady=10, sticky=tk.W)
        self.ent_input.grid(row=0, column=1, padx=5, pady=10, sticky=tk.EW)
        self.btn_input.grid(row=0, column=2, padx=10, pady=10)
 
        self.lbl_output.grid(row=1, column=0, padx=10, pady=10, sticky=tk.W)
        self.ent_output.grid(row=1, column=1, padx=5, pady=10, sticky=tk.EW)
        self.btn_output.grid(row=1, column=2, padx=10, pady=10)
 
        self.chk_subdir.grid(row=2, column=1, padx=5, pady=5, sticky=tk.W)
        self.chk_open.grid(row=3, column=1, padx=5, pady=5, sticky=tk.W)
 
        self.btn_convert.grid(row=4, column=1, pady=10)
 
 
        # 新增進度組件
        self.progress_label = tk.Label(master, text="準備就緒")
        self.progress_bar = ttk.Progressbar(master, orient=tk.HORIZONTAL, mode='determinate')
        
        # 調整布局（新增兩行）
        self.progress_label.grid(row=5, column=0, columnspan=3, padx=10, pady=5, sticky=tk.W)
        self.progress_bar.grid(row=6, column=0, columnspan=3, padx=10, pady=10, sticky=tk.EW)
 
        # 消息隊列用于線程通信
        self.queue = queue.Queue()
        master.after(100, self.process_queue)
        
        # 配置列權重
        master.columnconfigure(1, weight=1)
 
    def select_input(self):
        path = filedialog.askdirectory()
        if path:
            self.ent_input.delete(0, tk.END)
            self.ent_input.insert(0, path)
 
    def select_output(self):
        path = filedialog.askdirectory()
        if path:
            self.ent_output.delete(0, tk.END)
            self.ent_output.insert(0, path)
 
    def start_conversion(self):
        # 重置進度條
        self.progress_bar['value'] = 0
        self.progress_label.config(text="正在掃描PDF文件...")
        
        input_dir = self.ent_input.get()
        output_dir = self.ent_output.get()
 
        if not input_dir or not output_dir:
            messagebox.showerror("錯誤", "請先選擇輸入和輸出文件夾！")
            return
         # 禁用轉換按鈕
        self.btn_convert.config(state=tk.DISABLED)
        
        threading.Thread(target=self.convert_files, args=(input_dir, output_dir), daemon=True).start()
        
    def get_pdf_list(self, input_dir):
        pdf_list = []
        for root, dirs, files in os.walk(input_dir):
            if not self.var_subdir.get() and root != input_dir:
                continue
            for file in files:
                if file.lower().endswith('.pdf'):
                    pdf_list.append(os.path.join(root, file))
        return pdf_list
    
    def convert_files(self, input_dir, output_dir):
        self.pdf_files = self.get_pdf_list(input_dir)
        try:
            total_files = len(self.pdf_files)
            for index, pdf_path in enumerate(self.pdf_files):
                # 更新當前文件進度
                self.queue.put(("file_progress", (index+1, total_files, pdf_path)))
                
                # 構建輸出路徑
                relative_path = os.path.relpath(os.path.dirname(pdf_path), input_dir) if self.var_subdir.get() else ""
                output_path = os.path.join(output_dir, relative_path)
                os.makedirs(output_path, exist_ok=True)
                
                # 轉換文件
                docx_path = os.path.join(output_path, f"{os.path.splitext(os.path.basename(pdf_path))[0]}.docx")
                cv = Converter(pdf_path)
                cv.convert(docx_path, progress_callback=self.update_page_progress)
                cv.close()
 
            self.queue.put(("complete", None))
        except Exception as e:
            self.queue.put(("error", str(e)))
    def update_page_progress(self, current, total):
        # 頁面級別進度（每文件0-100%）
        progress = (current / total) * 100 if total != 0 else 0
        self.queue.put(("page_progress", progress))
 
    def process_queue(self):
        try:
            while True:
                msg_type, data = self.queue.get_nowait()
                
                if msg_type == "file_progress":
                    current, total, path = data
                    file_progress = (current / total) * 100
                    self.progress_bar['value'] = file_progress
                    self.progress_label.config(text=f"正在轉換 {current}/{total}：{os.path.basename(path)}")
                
                elif msg_type == "page_progress":
                    # 綜合進度 = 文件進度 + 頁面進度/總文件數(shù)
                    current_file_progress = self.progress_bar['value']
                    page_progress = data / len(self.pdf_files)
                    self.progress_bar['value'] = current_file_progress + page_progress
                
                elif msg_type == "complete":
                    messagebox.showinfo("完成", "轉換完成！")
                    if self.var_open.get():
                        os.startfile(self.ent_output.get())
                    self.btn_convert.config(state=tk.NORMAL)
                    self.progress_label.config(text="轉換完成")
                
                elif msg_type == "error":
                    messagebox.showerror("錯誤", f"轉換出錯：{data}")
                    self.btn_convert.config(state=tk.NORMAL)
                    self.progress_label.config(text="轉換出錯")
 
        except queue.Empty:
            pass
        finally:
            self.master.after(100, self.process_queue)
if __name__ == "__main__":
    root = tk.Tk()
    app = PDFToWordConverter(root)
    root.mainloop()