亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python實現(xiàn)pdf轉(zhuǎn)換成word/txt純文本文件

 更新時間:2018年06月07日 14:41:37   作者:initiallysunny  
這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)pdf轉(zhuǎn)換成word和txt純文本文件,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文實例為大家分享了python實現(xiàn)pdf轉(zhuǎn)word/txt,供大家參考,具體內(nèi)容如下

依賴包:pdfminer3k

可以通過pip安裝;也可以到官網(wǎng)下載,解壓,進(jìn)入文件夾,輸入命令setup.py install安裝軟件。

源代碼:

#!/usr/bin/python 
# -*- coding: utf-8 -*- 
 
import sys 
import importlib 
importlib.reload(sys) 
 
from pdfminer.pdfparser import PDFParser,PDFDocument 
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 
from pdfminer.converter import PDFPageAggregator 
from pdfminer.layout import * 
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed 
 
''''' 
解析pdf文件,獲取文件中包含的各種對象 
''' 
 
# 解析pdf文件函數(shù) 
def parse(pdf_path): 
  fp = open(pdf_path, 'rb') # 以二進(jìn)制讀模式打開 
  # 用文件對象來創(chuàng)建一個pdf文檔分析器 
  parser = PDFParser(fp) 
  # 創(chuàng)建一個PDF文檔 
  doc = PDFDocument() 
  # 連接分析器 與文檔對象 
  parser.set_document(doc) 
  doc.set_parser(parser) 
 
  # 提供初始化密碼 
  # 如果沒有密碼 就創(chuàng)建一個空的字符串 
  doc.initialize() 
 
  # 檢測文檔是否提供txt轉(zhuǎn)換,不提供就忽略 
  if not doc.is_extractable: 
    raise PDFTextExtractionNotAllowed 
  else: 
    # 創(chuàng)建PDf 資源管理器 來管理共享資源 
    rsrcmgr = PDFResourceManager() 
    # 創(chuàng)建一個PDF設(shè)備對象 
    laparams = LAParams() 
    device = PDFPageAggregator(rsrcmgr, laparams=laparams) 
    # 創(chuàng)建一個PDF解釋器對象 
    interpreter = PDFPageInterpreter(rsrcmgr, device) 
 
    # 用來計數(shù)頁面,圖片,曲線,figure,水平文本框等對象的數(shù)量 
    num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0 
 
    # 循環(huán)遍歷列表,每次處理一個page的內(nèi)容 
    for page in doc.get_pages(): # doc.get_pages() 獲取page列表 
      num_page += 1 # 頁面增一 
      interpreter.process_page(page) 
      # 接受該頁面的LTPage對象 
      layout = device.get_result() 
      for x in layout: 
        if isinstance(x,LTImage): # 圖片對象 
          num_image += 1 
        if isinstance(x,LTCurve): # 曲線對象 
          num_curve += 1 
        if isinstance(x,LTFigure): # figure對象 
          num_figure += 1 
        if isinstance(x, LTTextBoxHorizontal): # 獲取文本內(nèi)容 
          num_TextBoxHorizontal += 1 # 水平文本框?qū)ο笤鲆?
          # 保存文本內(nèi)容 
          with open(r'test.doc', 'a',encoding='utf-8') as f:  #生成doc文件的文件名及路徑 
            results = x.get_text() 
            f.write(results) 
            f.write('\n') 
    print('對象數(shù)量:\n','頁面數(shù):%s\n'%num_page,'圖片數(shù):%s\n'%num_image,'曲線數(shù):%s\n'%num_curve,'水平文本框:%s\n' 
       %num_TextBoxHorizontal) 
 
 
if __name__ == '__main__': 
  pdf_path = r'test.pdf' #pdf文件路徑及文件名 
  parse(pdf_path) 

此腳本只能將pdf文件轉(zhuǎn)換成純文本文件,沒有任何格式。

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • django使用html模板減少代碼代碼解析

    django使用html模板減少代碼代碼解析

    這篇文章主要介紹了django使用html模板減少代碼代碼解析,具有一定借鑒價值,需要的朋友可以參考下。
    2017-12-12
  • python dict 字典 以及 賦值 引用的一些實例(詳解)

    python dict 字典 以及 賦值 引用的一些實例(詳解)

    下面小編就為大家?guī)硪黄猵ython dict 字典 以及 賦值 引用的一些實例(詳解)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-01-01
  • 如何使用Python快速生成gif圖

    如何使用Python快速生成gif圖

    這篇文章主要給大家介紹了關(guān)于如何使用Python快速生成gif圖的相關(guān)資料,我們需要用到 imageio 庫,文章通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-02-02
  • django框架模板中定義變量(set variable in django template)的方法分析

    django框架模板中定義變量(set variable in django template)的方法分析

    這篇文章主要介紹了django框架模板中定義變量(set variable in django template)的方法,結(jié)合實例形式分析了Django框架實現(xiàn)模板中定義變量與變量賦值相關(guān)操作技巧,需要的朋友可以參考下
    2019-06-06
  • Python機(jī)器學(xué)習(xí)iris數(shù)據(jù)集預(yù)處理和模型訓(xùn)練方式

    Python機(jī)器學(xué)習(xí)iris數(shù)據(jù)集預(yù)處理和模型訓(xùn)練方式

    iris數(shù)據(jù)集包含150個樣本,每個樣本有4個特征及其類別信息,本文介紹了iris數(shù)據(jù)集的基本操作和如何使用knn模型進(jìn)行花卉種類預(yù)測,是機(jī)器學(xué)習(xí)中的經(jīng)典案例,適用于監(jiān)督式學(xué)習(xí)
    2024-10-10
  • Python實現(xiàn)批量提取PPT中的文字

    Python實現(xiàn)批量提取PPT中的文字

    這篇文章主要為大家詳細(xì)介紹了如何使用Python中的pptx和docx庫來將PPT中的文字提取到Word中,文中的示例代碼講解詳細(xì),有需要的可以參考下
    2024-03-03
  • Python寫入CSV文件的方法

    Python寫入CSV文件的方法

    這篇文章主要介紹了Python寫入CSV文件的方法,涉及Python使用csv模塊操作csv文件讀寫的相關(guān)技巧,非常簡單實用,需要的朋友可以參考下
    2015-07-07
  • Python爬蟲爬取一個網(wǎng)頁上的圖片地址實例代碼

    Python爬蟲爬取一個網(wǎng)頁上的圖片地址實例代碼

    這篇文章主要介紹了Python爬蟲爬取一個網(wǎng)頁上的圖片地址實例代碼,具有一定借鑒價值,需要的朋友可以參考下
    2018-01-01
  • python接入使用百度翻譯流程

    python接入使用百度翻譯流程

    這篇文章主要介紹了利用Python接入百度翻譯的實現(xiàn)方法,從而實現(xiàn)中英文互譯的功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2022-07-07
  • Python中的HTTP請求超時處理方式

    Python中的HTTP請求超時處理方式

    HTTP請求超時是指客戶端在設(shè)定的時間內(nèi)未收到服務(wù)器完整響應(yīng),合理設(shè)置超時時間可提高系統(tǒng)性能和用戶體驗,Python中,requests庫和aiohttp庫提供超時控制功能,通過timeout參數(shù)設(shè)置請求超時,并利用try-except捕獲異常,合理超時設(shè)置和處理是開發(fā)HTTP客戶端的重要技巧
    2024-11-11

最新評論