亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python利用pdfplumber庫提取pdf中表格數(shù)據(jù)

 更新時(shí)間:2023年05月29日 10:04:59   作者:空空star  
pdfplumber是一個(gè)用于從PDF文檔中提取文本和表格數(shù)據(jù)的Python庫,它可以幫助用戶輕松地從PDF文件中提取有用的信息,例如表格、文本、元數(shù)據(jù)等,本文介紹了如何通過Python的pdfplumber庫提取pdf中表格數(shù)據(jù),感興趣的同學(xué)可以參考一下

一、pdfplumber庫是什么?

pdfplumber是一個(gè)用于從PDF文檔中提取文本和表格數(shù)據(jù)的Python庫。它可以幫助用戶輕松地從PDF文件中提取有用的信息,例如表格、文本、元數(shù)據(jù)等。pdfplumber庫的特點(diǎn)包括:簡(jiǎn)單易用、速度快、支持多種PDF文件格式、支持從多個(gè)頁面中提取數(shù)據(jù)等。pdfplumber庫還提供了一些方便的方法來處理提取的數(shù)據(jù),例如排序、過濾和格式化等。它是一個(gè)非常有用的工具,特別是在需要從大量PDF文件中提取數(shù)據(jù)時(shí)。

二、安裝pdfplumber庫

pip install pdfplumber

三、查看pdfplumber庫版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格數(shù)據(jù)

1.引入庫

import pdfplumber

2.定義pdf文件路徑

local = '/Users/kkstar/Downloads/'

3.打開pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.獲取pdf文件中的頁數(shù)

num_pages = len(pdf.pages)

5.遍歷每一頁

for page_num in range(num_pages):

6.獲取當(dāng)前頁內(nèi)容

page = pdf.pages[page_num]

7.提取表格數(shù)據(jù)

        table = page.extract_table(table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_x_tolerance": 15,
            "intersection_y_tolerance": 15
        })

8.輸出表格數(shù)據(jù)

        for row in table:
            print(row)

9.效果

['username', 'nickname', 'article']
['weixin_38093452', '空空 star', '130889268']
['weixin_38093452', '空空 star', '130852811']
['weixin_38093452', '空空 star', '130815851']
Process finished with exit code 0

到此這篇關(guān)于Python利用pdfplumber庫提取pdf中表格數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python提取pdf表格數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python查詢oracle數(shù)據(jù)庫速度慢的解決方案

    Python查詢oracle數(shù)據(jù)庫速度慢的解決方案

    這篇文章主要介紹了Python查詢oracle數(shù)據(jù)庫速度慢的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • 用Python搶過年的火車票附源碼

    用Python搶過年的火車票附源碼

    離過年時(shí)間也不久了,還是預(yù)訂春節(jié)火車票了,現(xiàn)在有好多平臺(tái)都可以幫助大家搶購火車,下面小編給大家介紹用python搶過年的火車票附源碼,對(duì)pthon搶火車票相關(guān)知識(shí)感興趣的朋友一起學(xué)習(xí)吧
    2015-12-12
  • Python隨機(jī)函數(shù)random隨機(jī)獲取數(shù)字、字符串、列表等使用詳解

    Python隨機(jī)函數(shù)random隨機(jī)獲取數(shù)字、字符串、列表等使用詳解

    這篇文章主要介紹了Python隨機(jī)函數(shù)random使用詳解包含了Python隨機(jī)數(shù)字,Python隨機(jī)字符串,Python隨機(jī)列表等,需要的朋友可以參考下
    2021-04-04
  • 淺談flask截獲所有訪問及before/after_request修飾器

    淺談flask截獲所有訪問及before/after_request修飾器

    這篇文章主要介紹了淺談flask截獲所有訪問及before/after_request修飾器,具有一定借鑒價(jià)值,需要的朋友可以參考下
    2018-01-01
  • 利用matplotlib實(shí)現(xiàn)兩張子圖分別畫函數(shù)圖

    利用matplotlib實(shí)現(xiàn)兩張子圖分別畫函數(shù)圖

    這篇文章主要介紹了利用matplotlib實(shí)現(xiàn)兩張子圖分別畫函數(shù)圖問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Python的這些庫,你知道多少?

    Python的這些庫,你知道多少?

    最近整理了一些好用的庫但是只是初級(jí)介紹,如果大家用得到的話還請(qǐng)自己到官網(wǎng)上查一下,因?yàn)闁|西太多我一 一介紹的話可能不太現(xiàn)實(shí),需要的朋友可以參考下
    2021-06-06
  • Python入門教程(十)Python布爾值介紹

    Python入門教程(十)Python布爾值介紹

    這篇文章主要介紹了Python入門教程(十)Python布爾值,Python是一門非常強(qiáng)大好用的語言,也有著易上手的特性,本文為入門教程,需要的朋友可以參考下
    2023-04-04
  • Python實(shí)現(xiàn)地圖可視化folium完整過程

    Python實(shí)現(xiàn)地圖可視化folium完整過程

    Folium是一個(gè)基于leaflet.js的Python地圖庫,其中,Leaflet是一個(gè)非常輕的前端地圖可視化庫,本文重點(diǎn)給大家介紹Python實(shí)現(xiàn)地圖可視化folium完整過程,感興趣的朋友跟隨小編一起看看吧
    2021-05-05
  • Python sys.path詳細(xì)介紹

    Python sys.path詳細(xì)介紹

    這篇文章詳細(xì)介紹了Python sys.path,有需要的朋友可以參考一下
    2013-10-10
  • 詳解python中@classmethod和@staticmethod方法

    詳解python中@classmethod和@staticmethod方法

    在python類當(dāng)中,經(jīng)常會(huì)遇到@classmethod和@staticmethod這兩個(gè)裝飾器,那么到底它們的區(qū)別和作用是啥子呢?本文結(jié)合場(chǎng)景分析給大家詳細(xì)講解,感興趣的朋友跟隨小編一起看看吧
    2022-10-10

最新評(píng)論