亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python自動(dòng)化辦公之Word文件內(nèi)容的讀取

 更新時(shí)間:2022年05月11日 09:05:40   作者:渴望力量的哈士奇  
word、excel、PPT,雖然說是特殊文件,其實(shí)也是實(shí)際工作中我們經(jīng)常會(huì)用到的文件類型。本文將為大家詳解Python讀取Word文件和文件內(nèi)容的方法,感興趣的可以了解一下

前言

前面幾個(gè)章節(jié)我們學(xué)習(xí)了對(duì)于普通文件的操作,比如說文件的創(chuàng)建、復(fù)制粘貼、裁剪粘貼、文件名的重命名、刪除等等。另外還學(xué)習(xí)了一些基本練習(xí),如何查找文件、如何按照內(nèi)容查找文件等等。

在本章節(jié)及后續(xù),將開始學(xué)習(xí)一些特殊文件的自動(dòng)化相關(guān)操作。如 word、excel、PPT,雖然說是特殊文件,其實(shí)也是實(shí)際工作中我們經(jīng)常會(huì)用到的文件類型。

接下來我們就進(jìn)入到 word 文件自動(dòng)化操作的學(xué)習(xí)內(nèi)容。

該章節(jié)涉及的新模塊

python-docx

pdfkit

pydocx

利用 python 批量讀取文件

word利器之python-docx

python-docx 是用于創(chuàng)建可修改 微軟 Word 的一個(gè) python 庫,提供全套的 Word 操作,是最常用的 Word 工具。

使用前,先了解幾個(gè)概念:

  • Document:是一個(gè) Word 文檔 對(duì)象,不同于 VBA 中 Worksheet 的概念,Document 是獨(dú)立的,打開不同的 Word 文檔,就會(huì)有不同的 Document 對(duì)象,相互之間沒有影響
  • Paragraph:是段落,一個(gè) Word 文檔由多個(gè)段落組成,當(dāng)在文檔中輸入一個(gè)回車鍵,就會(huì)成為新的段落,輸入 shift + 回車,不會(huì)分段
  • Run 表示一個(gè)節(jié)段,每個(gè)段落由多個(gè) 節(jié)段 組成,一個(gè)段落中具有相同樣式的連續(xù)文本,組成一個(gè)節(jié)段,所以一個(gè) 段落 對(duì)象有個(gè) Run 列表。

例如下圖的 word 文檔示意圖:

word 文檔結(jié)構(gòu)劃分如下:

python-docx 安裝

安裝:

pip install python-docx 如果安裝速度太慢的話,可以換一個(gè)國內(nèi)的源地址(如下)

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

導(dǎo)入:

import docx
from docx import …

python-docx 之 Document

導(dǎo)入包與模塊:

from docx import Document

使用方法:

Document(word文件地址)

返回值:

word文件對(duì)象

python-docx 之段落內(nèi)容讀取

實(shí)際上要想讀取一個(gè) word 文檔,主要就是讀取它的段落以及它的表格。無論是段落還是表格,它的內(nèi)部都是字符串,我們的目的就是讀取這些字符串的內(nèi)容。

先看一下段落內(nèi)容的讀取方式:

來源:

document_obj.paragraphs 通過 document 對(duì)象的 paragraphs 函數(shù)返回一個(gè)段落的列表;如果 word 文件存在多個(gè)段落,就會(huì)有多個(gè)段落對(duì)象。

使用方法:

通過循環(huán)獲取每個(gè)段落對(duì)象,并調(diào)用 text

演示案例腳本如下:

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為:", path)     # 調(diào)試路徑

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

運(yùn)行結(jié)果如下:(PS:文本只是演示,本人非培訓(xùn)機(jī)構(gòu)的?。?/p>

python-docx 之表格內(nèi)容讀取

接下來我們看一下如何讀取 word 文件中的表格內(nèi)容:

來源:

document_obj.tables 通過 document 對(duì)象的 paragraphs 函數(shù)返回一個(gè)表格的列表;里面是一個(gè)一個(gè)的表格的對(duì)象。

使用方法:

同樣通過循環(huán),獲取行與列的內(nèi)容

返回值:

每個(gè)表格字段(字符串)

演示案例代碼如下:

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為:", path)     # 調(diào)試路徑

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循環(huán)獲取表格對(duì)象
    for row in t.rows:          # 獲取每一行
        row_str = []
        for cell in row.cells:    # 獲取每一行單獨(dú)的小表格,然后將其內(nèi)容拼接起來;拼接完成之后再第二個(gè)for循環(huán)中打印出來
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通過 "columns" 獲取表格中的列的內(nèi)容,可以自己嘗試一下

運(yùn)行結(jié)果如下:

到此這篇關(guān)于Python自動(dòng)化辦公之Word文件內(nèi)容的讀取的文章就介紹到這了,更多相關(guān)Python讀取Word內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python Matplotlib條形圖之垂直條形圖和水平條形圖詳解

    Python Matplotlib條形圖之垂直條形圖和水平條形圖詳解

    這篇文章主要為大家詳細(xì)介紹了Python Matplotlib條形圖之垂直條形圖和水平條形圖,使用數(shù)據(jù)庫,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2022-03-03
  • Pytorch限制或增加CPU使用的核數(shù)方式

    Pytorch限制或增加CPU使用的核數(shù)方式

    這篇文章主要介紹了Pytorch限制或增加CPU使用的核數(shù)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • python實(shí)現(xiàn)Excel文件轉(zhuǎn)換為TXT文件

    python實(shí)現(xiàn)Excel文件轉(zhuǎn)換為TXT文件

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)Excel文件轉(zhuǎn)換為TXT文件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-04-04
  • Python fileinput模塊如何逐行讀取多個(gè)文件

    Python fileinput模塊如何逐行讀取多個(gè)文件

    這篇文章主要介紹了Python fileinput模塊如何逐行讀取多個(gè)文件,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-10-10
  • Python利用matplotlib繪制散點(diǎn)圖的新手教程

    Python利用matplotlib繪制散點(diǎn)圖的新手教程

    這篇文章主要給大家介紹了關(guān)于Python利用matplotlib繪制散點(diǎn)圖的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-11-11
  • Python實(shí)現(xiàn)隨機(jī)選擇元素功能

    Python實(shí)現(xiàn)隨機(jī)選擇元素功能

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)隨機(jī)選擇元素功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-09-09
  • scrapy-redis的安裝部署步驟講解

    scrapy-redis的安裝部署步驟講解

    今天小編就為大家分享一篇關(guān)于scrapy-redis的安裝部署步驟講解,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • pyinstaller打包單個(gè)exe后無法執(zhí)行錯(cuò)誤的解決方法

    pyinstaller打包單個(gè)exe后無法執(zhí)行錯(cuò)誤的解決方法

    今天小編就為大家分享一篇pyinstaller打包單個(gè)exe后無法執(zhí)行錯(cuò)誤的解決方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • python編程開發(fā)之類型轉(zhuǎn)換convert實(shí)例分析

    python編程開發(fā)之類型轉(zhuǎn)換convert實(shí)例分析

    這篇文章主要介紹了python編程開發(fā)之類型轉(zhuǎn)換convert用法,結(jié)合實(shí)例形式分析了Python中常見的數(shù)據(jù)類型及類型轉(zhuǎn)換convert的具體使用方法,需要的朋友可以參考下
    2015-11-11
  • 基于Python實(shí)現(xiàn)對(duì)PDF文件的OCR識(shí)別

    基于Python實(shí)現(xiàn)對(duì)PDF文件的OCR識(shí)別

    大家可能聽說過使用Python進(jìn)行OCR識(shí)別操作。在Python中,最出名的庫便是Google所資助的tesseract。利用tesseract可以很輕松地對(duì)圖像進(jìn)行識(shí)別?,F(xiàn)在問題來了,如果想對(duì)一個(gè)PDF文檔進(jìn)行OCR識(shí)別,該怎么做呢?下面一起來看看。
    2016-08-08

最新評(píng)論