亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python基于pdfminer庫提取pdf文字代碼實(shí)例

 更新時(shí)間:2019年08月15日 14:52:32   作者:jokerBi  
這篇文章主要介紹了python 提取pdf文字代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

安裝pdfminer 庫

windows 下安裝pdfminer3k

pip install pdfminer3k

Liunx 下安裝pdfminer

pip install pdfminer

代碼

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter
def pdfParse(path):
"""
pdf文字提取
:param path:文件路徑
:return: 每頁結(jié)果列表
"""
fp = open(path, 'rb') # 以二進(jìn)制讀模式打開
# 用文件對象來創(chuàng)建一個(gè)pdf文檔分析器
praser = PDFParser(fp)
# 創(chuàng)建一個(gè)PDF文檔
doc = PDFDocument()
# 連接分析器 與文檔對象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密碼
# 如果沒有密碼 就創(chuàng)建一個(gè)空的字符串
doc.initialize()
# 檢測文檔是否提供txt轉(zhuǎn)換,不提供就忽略
if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
else:
 # 創(chuàng)建PDf 資源管理器 來管理共享資源
 rsrcmgr = PDFResourceManager()
 # 創(chuàng)建一個(gè)PDF設(shè)備對象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 創(chuàng)建一個(gè)PDF解釋器對象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 #每頁文字內(nèi)容
 results = []
 # 循環(huán)遍歷列表,每次處理一個(gè)page的內(nèi)容
 for page in doc.get_pages(): # doc.get_pages() 獲取page列表
  interpreter.process_page(page)
  # 接受該頁面的LTPage對象
  layout = device.get_result()
  # 這里layout是一個(gè)LTPage對象 里面存放著 這個(gè)page解析出的各種對象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性,
  for x in layout:
   if isinstance(x, LTTextBoxHorizontal):
    results.append(x.get_text())
 return results

該庫是根據(jù) 迭代pdf每一頁 進(jìn)行文字提取, 也可以識(shí)別判斷頁碼的功能

另外還有一個(gè)pypdf2 庫也可以識(shí)別但是感覺不如這個(gè)準(zhǔn)確

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python中斷點(diǎn)調(diào)試pdb包的用法詳解

    Python中斷點(diǎn)調(diào)試pdb包的用法詳解

    pdb(python debugger) 是 python 中的一個(gè)命令行調(diào)試包,為 python 程序提供了一種交互的源代碼調(diào)試功能,下面就跟隨小編一起學(xué)習(xí)一下它的具體使用吧
    2024-01-01
  • python中sample函數(shù)的介紹與使用

    python中sample函數(shù)的介紹與使用

    sample()函數(shù)常用來隨機(jī)獲取dataFrame中數(shù)據(jù),可以用于快速查看,下面這篇文章主要給大家介紹了關(guān)于python中sample函數(shù)的介紹與使用的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-09-09
  • python加密打包程序詳解

    python加密打包程序詳解

    這篇文章主要介紹了python加密打包程序,還給大家介紹了Python實(shí)現(xiàn)文件簡單加解密的方法,本文通過示例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-04-04
  • Python自定義函數(shù)的創(chuàng)建、調(diào)用和函數(shù)的參數(shù)詳解

    Python自定義函數(shù)的創(chuàng)建、調(diào)用和函數(shù)的參數(shù)詳解

    這篇文章主要介紹了Python自定義函數(shù)的創(chuàng)建、調(diào)用和函數(shù)的參數(shù)、變量作用域等常見問題,需要的朋友可以參考下
    2014-03-03
  • python 比較2張圖片的相似度的方法示例

    python 比較2張圖片的相似度的方法示例

    這篇文章主要介紹了python 比較2張圖片的相似度的方法示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • Python實(shí)現(xiàn)雙進(jìn)程防止單點(diǎn)故障實(shí)例深度探究

    Python實(shí)現(xiàn)雙進(jìn)程防止單點(diǎn)故障實(shí)例深度探究

    在分布式系統(tǒng)中,確保系統(tǒng)的高可用性是至關(guān)重要的,本文將深入探討如何使用Python實(shí)現(xiàn)雙進(jìn)程自我保護(hù)機(jī)制,以應(yīng)對單點(diǎn)故障,確保系統(tǒng)穩(wěn)定運(yùn)行,將通過詳實(shí)的示例代碼,介紹雙進(jìn)程自我保護(hù)的原理、實(shí)現(xiàn)步驟以及可能遇到的挑戰(zhàn)
    2024-01-01
  • Python用Try語句捕獲異常的實(shí)例方法

    Python用Try語句捕獲異常的實(shí)例方法

    在本篇文章中小編給大家整理了關(guān)于Python用Try語句如何捕獲異常的相關(guān)知識(shí)點(diǎn)內(nèi)容,需要的朋友們參考下。
    2019-06-06
  • 基于Python實(shí)現(xiàn)微信自動(dòng)回復(fù)功能

    基于Python實(shí)現(xiàn)微信自動(dòng)回復(fù)功能

    這篇文章主要為大家詳細(xì)介紹了Python如何通過WechatPCAPI來實(shí)現(xiàn)微信自動(dòng)回復(fù)的功能,文中的示例代碼講解詳細(xì),快跟隨小編一起動(dòng)手嘗試一下
    2022-06-06
  • Django如何與Ajax交互

    Django如何與Ajax交互

    Django前端模板向后端發(fā)送POST請求主要有兩種方式:form表單和ajax請求。本文將詳細(xì)介紹Django與Ajax的交互方式,如何通過csrftoken認(rèn)證,并提供了兩個(gè)具體示例。
    2021-04-04
  • python 實(shí)現(xiàn)Requests發(fā)送帶cookies的請求

    python 實(shí)現(xiàn)Requests發(fā)送帶cookies的請求

    這篇文章主要介紹了python 實(shí)現(xiàn)Requests發(fā)送帶cookies請求的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-02-02

最新評論