亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

用Python提取PDF表格的方法

 更新時(shí)間:2021年04月10日 15:48:49   作者:早起python  
這篇文章主要介紹了用Python提取PDF表格的方法,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下

大家好,從PDF中提取信息是辦公場(chǎng)景中經(jīng)常需要用到的操作,也是經(jīng)常又讀者在后臺(tái)問(wèn)的一個(gè)操作。

內(nèi)容少的話我們可以手動(dòng)復(fù)制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉(zhuǎn)載過(guò)相關(guān)文章,提到主要就是使用pdfplumber庫(kù),今天我們?cè)俅闻e例講解。

通常PDF里的表格分為圖片型和文本型。文本型又分簡(jiǎn)單型和復(fù)雜型。本文就針對(duì)這三部分舉例講解。

  • 提取簡(jiǎn)單型表格
  • 提取較為復(fù)雜型表格
  • 提取圖片型表格

用到的模塊主要有

  • pdfplumber
  • pandas
  • Tesseract
  • PIL

文中出現(xiàn)的PDF材料是在巨潮資訊官網(wǎng)下載的公開(kāi)PDF文件,主題是關(guān)于理財(cái)?shù)?,相關(guān)發(fā)布信息等信息如下:

內(nèi)容總共有6頁(yè),后文中的例子會(huì)有展示。

一、簡(jiǎn)單文本類型數(shù)據(jù)

簡(jiǎn)單文本類型表格就是一頁(yè)P(yáng)DF中只有一個(gè)表格,并且表格內(nèi)容完整可復(fù)制,例如我們選定內(nèi)容為PDF中的第四頁(yè),內(nèi)容如下:

可以看到,該頁(yè)只有一個(gè)表格,下面我們將這個(gè)表寫入Excel中,先上代碼

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購(gòu)買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[3]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df1.to_excel('page2.xlsx')

得到的結(jié)果如下:

通過(guò)與PDF上原表格對(duì)比,在內(nèi)容上是完全一致的,唯一不同的是由于主營(yíng)業(yè)務(wù)內(nèi)容較多,導(dǎo)致顯示的不全面,現(xiàn)在來(lái)說(shuō)說(shuō)這段代碼。

首先導(dǎo)入要用到的兩個(gè)庫(kù)。在pdfplumber中,open()函數(shù)是用來(lái)打開(kāi)PDF文件,該代碼用的是相對(duì)路徑。.open().pages則是獲取PDF的頁(yè)數(shù),打印ps值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁(yè)。

pg.extract_tables():可輸出頁(yè)面中所有表格,并返回一個(gè)嵌套列表,其結(jié)構(gòu)層次為table→row→cell。此時(shí),頁(yè)面上的整個(gè)表格被放入一個(gè)大列表中,原表格中的各行組成該大列表中的各個(gè)子列表。若需輸出單個(gè)外層列表元素,得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( ):返回多個(gè)獨(dú)立列表,其結(jié)構(gòu)層次為row→cell。若頁(yè)面中存在多個(gè)行數(shù)相同的表格,則默認(rèn)輸出頂部表格;否則,僅輸出行數(shù)最多的一個(gè)表格。此時(shí),表格的每一行都作為一個(gè)單獨(dú)的列表,列表中每個(gè)元素即為原表格的各個(gè)單元格內(nèi)容。

由于該頁(yè)面中只有一個(gè)表格,我們需要tables集合中的第一個(gè)元素。打印table值,如下:

可以看到在上述中是存在\n這種沒(méi)不要的字符,它的作用其實(shí)是換行但我們?cè)贓xcel中是不需要的。所以需要剔除它,用代碼中的for循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)。觀察table是一個(gè)裝有2個(gè)元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個(gè)數(shù)據(jù)框,將內(nèi)容放到對(duì)應(yīng)的行列中。

本代碼只是簡(jiǎn)單將數(shù)據(jù)存入到Excel,如果你需要進(jìn)一步對(duì)樣式進(jìn)行調(diào)整,可以使用openpyxl等模塊進(jìn)行修改。

二、復(fù)雜型表格提取

復(fù)雜型表格即表格樣式不統(tǒng)一或一頁(yè)中有多個(gè)表格,以PDF中的第五頁(yè)為例:

可以看到本頁(yè)中有兩個(gè)大的表格,并且細(xì)看的話,其實(shí)是4個(gè)表格,按照簡(jiǎn)單型表格類型提取方法,得到的效果如下:

可以看到,只是將全部表格文本提取出來(lái),但實(shí)際上第一個(gè)表格又細(xì)分為兩個(gè)表,所以需要我們進(jìn)一步修改,將這張表再次拆分!例如提取上半部分代碼如下:

import pdfplumber as pr
import pandas as pd
pdf = pr.open('關(guān)于使用自有資金購(gòu)買銀行理財(cái)產(chǎn)品的進(jìn)展公告.PDF')
ps = pdf.pages
pg = ps[4]
tables = pg.extract_tables()
table = tables[0]
print(table)
df = pd.DataFrame(table[1:],columns = table[0])
for i in range(len(table)):
    for j in range(len(table[i])):
        table[i][j] = table[i][j].replace('\n','')
df1 = pd.DataFrame(table[1:],columns = table[0])
df2 = df1.iloc[2:,:]
df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"})
df2 = df2.loc[3:,:]
df1 = df1.loc[:1,:]
with pd.ExcelWriter('公司影響.xlsx') as i:
    df1.to_excel(i,sheet_name='資產(chǎn)', index=False, header=True) #放入資產(chǎn)數(shù)據(jù)
    df2.to_excel(i,sheet_name='營(yíng)業(yè)',index=False, header=True) #放入營(yíng)業(yè)數(shù)據(jù)

這段代碼在簡(jiǎn)單型表格提取的基礎(chǔ)上進(jìn)行了修改,第十四行代碼的作用就是提取另外一個(gè)表頭的信息,并將他賦值給df2,而后對(duì)df2進(jìn)行重命名操作(用到rename函數(shù))。

打印df2可以看出columns列名和第一行信息重復(fù)了,因此我們需要重復(fù)剛剛的步驟,利用loc()函數(shù)切割數(shù)據(jù)框。

注意,我們這里用了罕見(jiàn)的pandas.Excelwriter函數(shù)套for循環(huán),這個(gè)是為了避免直接寫入導(dǎo)致的最后數(shù)據(jù)覆蓋原數(shù)據(jù),感興趣可以嘗試一下不用withopen這種方法后結(jié)果。最終得到的效果如下:

可以看到,現(xiàn)在這個(gè)表格就被放在兩個(gè)sheet中單獨(dú)展示,當(dāng)然用于對(duì)比放在一張表中也是可以的

說(shuō)到底復(fù)雜型表格的主觀性是非常大的,需要根據(jù)不同情況進(jìn)行不同處理,想寫出一個(gè)一勞永逸的辦法是比較困難的!

三、圖片型表格提取

最后也是最難處理的就是圖片型表格,經(jīng)常有人會(huì)問(wèn)如何提取圖片型PDF中的表格/文本等信息。

其實(shí)本質(zhì)上就是提取圖片,之后如何對(duì)圖片進(jìn)一步處理提取信息就與Python提取PDF表格這個(gè)主題沒(méi)有太大關(guān)系了!

這里我們也簡(jiǎn)單進(jìn)行介紹,也就是先提取圖片再進(jìn)行OCR識(shí)別提取表格,在Python中可以使用Tesseract庫(kù),首先需要pip安裝

pip install pytesseract

在Python中安裝完這個(gè)庫(kù)之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可,注意目前如果按照正常步驟安裝的話是不會(huì)識(shí)別中文的,所以需要安裝簡(jiǎn)體中文語(yǔ)言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。

接下來(lái)我們使用一個(gè)簡(jiǎn)單的圖片型pdf如下:

第一步,提取圖片,這里使用在GUI辦公自動(dòng)化系列中的圖片提取軟件來(lái)提取PDF中的圖片,得到如下圖片:

接著執(zhí)行下方代碼識(shí)別圖片內(nèi)容

import pytesseract
from PIL import Image
import pandas as pd
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg'))
print(tiqu)
tiqu = tiqu.split('\n')
while '' in tiqu:    #不能使用for
  tiqu.remove('')
  first = tiqu[:6]
  second = tiqu[6:12]
  third =  tiqu[12:]
  df = pd.DataFrame()
  df[first[0]] = first[1:]
  df[second[0]] = second[1:]
  df[third[0]] = third[1:]
#df.to_excel('圖片型表格.xlsx')  #轉(zhuǎn)為xlsx文件

我們的思路是用Tesseract-OCR來(lái)解析圖片,得到一個(gè)字符串,接著對(duì)字符串運(yùn)用split函數(shù),把字符串變成列表同時(shí)刪除\n。

接著可以發(fā)現(xiàn)我們的列表里還存在空格,這時(shí)我們用while循環(huán)來(lái)刪除這些空字符,注意,這里不能用for循環(huán),因?yàn)槊看蝿h除一個(gè),列表里的元素就會(huì)前進(jìn)一個(gè),這樣會(huì)刪不完全。最后就是用pandas把這些變成數(shù)據(jù)框形式。最終得到的效果如下:

可以看到,該圖片型表格內(nèi)容被完美解析與處理!當(dāng)然能輕松搞定的原因也與這個(gè)表格足夠簡(jiǎn)單有關(guān),在真實(shí)場(chǎng)景中的圖片可能會(huì)有更復(fù)雜的干擾因素,而這就需要大家在處理的同時(shí)自行找到一個(gè)最合適的辦法!

以上就是用Python提取PDF表格的方法的詳細(xì)內(nèi)容,更多關(guān)于Python提取PDF表格的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • 詳解python的xlwings庫(kù)讀寫excel操作總結(jié)

    詳解python的xlwings庫(kù)讀寫excel操作總結(jié)

    這篇文章主要介紹了詳解python的xlwings庫(kù)讀寫excel操作總結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • Python操作MySQL模擬銀行轉(zhuǎn)賬

    Python操作MySQL模擬銀行轉(zhuǎn)賬

    這篇文章主要為大家詳細(xì)介紹了Python操作MySQL模擬銀行轉(zhuǎn)賬,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • 超詳細(xì)圖解修改pip?install默認(rèn)安裝路徑的方法

    超詳細(xì)圖解修改pip?install默認(rèn)安裝路徑的方法

    windows環(huán)境下Python pip安裝庫(kù)的時(shí)候,默認(rèn)安裝在c盤,下面這篇文章主要給大家介紹了關(guān)于修改pip?install默認(rèn)安裝路徑的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-07-07
  • Python復(fù)數(shù)屬性和方法運(yùn)算操作示例

    Python復(fù)數(shù)屬性和方法運(yùn)算操作示例

    這篇文章主要介紹了Python復(fù)數(shù)屬性和方法運(yùn)算操作,結(jié)合實(shí)例形式分析了Python復(fù)數(shù)運(yùn)算相關(guān)操作技巧,代碼注釋備有詳盡說(shuō)明,需要的朋友可以參考下
    2017-07-07
  • python tkinterEntry組件設(shè)置默認(rèn)值方式

    python tkinterEntry組件設(shè)置默認(rèn)值方式

    使用Tkinter庫(kù)中的Entry組件創(chuàng)建文本輸入框時(shí),可以通過(guò)insert方法在指定位置插入默認(rèn)文本作為提示,結(jié)合使用focus和focusin事件,可以實(shí)現(xiàn)用戶點(diǎn)擊時(shí)清除默認(rèn)文本,以便輸入自定義內(nèi)容
    2024-09-09
  • python3安裝speech語(yǔ)音模塊的方法

    python3安裝speech語(yǔ)音模塊的方法

    今天小編就為大家分享一篇python3安裝speech語(yǔ)音模塊的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2018-12-12
  • Python爬蟲(chóng)之Selenium實(shí)現(xiàn)關(guān)閉瀏覽器

    Python爬蟲(chóng)之Selenium實(shí)現(xiàn)關(guān)閉瀏覽器

    這篇文章主要介紹了Python爬蟲(chóng)之Selenium實(shí)現(xiàn)關(guān)閉瀏覽器,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • 使用Python腳本操作MongoDB的教程

    使用Python腳本操作MongoDB的教程

    這篇文章主要介紹了使用Python腳本操作MongoDB的教程,MongoDB作為非關(guān)系型數(shù)據(jù)庫(kù)得到了很大的宣傳力度,而市面上的教程一般都是講解JavaScript的腳本操作,本文則是基于Python,需要的朋友可以參考下
    2015-04-04
  • numpy數(shù)組拼接簡(jiǎn)單示例

    numpy數(shù)組拼接簡(jiǎn)單示例

    這篇文章主要介紹了numpy數(shù)組拼接簡(jiǎn)單示例,涉及對(duì)numpy數(shù)組的介紹,numpy數(shù)組的屬性等內(nèi)容,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12
  • 利用Python實(shí)現(xiàn)自動(dòng)生成圖文并茂的數(shù)據(jù)分析

    利用Python實(shí)現(xiàn)自動(dòng)生成圖文并茂的數(shù)據(jù)分析

    這篇文章主要介紹了利用Python實(shí)現(xiàn)自動(dòng)生成圖文并茂的數(shù)據(jù)分析,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的朋友可以參考一下
    2022-08-08

最新評(píng)論