Document：是一個 Word 文檔對象，不同于 VBA 中 Worksheet 的概念，Document 是獨立的，打開不同的 Word 文檔，就會有不同的 Document 對象，相互之間沒有影響
Paragraph：是段落，一個 Word 文檔由多個段落組成，當在文檔中輸入一個回車鍵，就會成為新的段落，輸入 shift + 回車，不會分段
Run 表示一個節(jié)段，每個段落由多個節(jié)段組成，一個段落中具有相同樣式的連續(xù)文本，組成一個節(jié)段，所以一個段落對象有個 Run 列表。

例如下圖的 word 文檔示意圖：

word 文檔結(jié)構劃分如下：

python-docx 安裝

安裝：

pip install python-docx 如果安裝速度太慢的話，可以換一個國內(nèi)的源地址（如下）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

導入：

import docx
from docx import …

python-docx 之 Document

導入包與模塊：

from docx import Document

使用方法：

Document(word文件地址)

返回值：

word文件對象

python-docx 之段落內(nèi)容讀取

實際上要想讀取一個 word 文檔，主要就是讀取它的段落以及它的表格。無論是段落還是表格，它的內(nèi)部都是字符串，我們的目的就是讀取這些字符串的內(nèi)容。

先看一下段落內(nèi)容的讀取方式：

來源：

document_obj.paragraphs 通過 document 對象的 paragraphs 函數(shù)返回一個段落的列表；如果 word 文件存在多個段落，就會有多個段落對象。

使用方法：

通過循環(huán)獲取每個段落對象，并調(diào)用 text

演示案例腳本如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

for p in doc.paragraphs:
    print(p.text)

運行結(jié)果如下：（PS：文本只是演示，本人非培訓機構的?。?/p>

python-docx 之表格內(nèi)容讀取

接下來我們看一下如何讀取 word 文件中的表格內(nèi)容：

來源：

document_obj.tables 通過 document 對象的 paragraphs 函數(shù)返回一個表格的列表；里面是一個一個的表格的對象。

使用方法：

同樣通過循環(huán)，獲取行與列的內(nèi)容

返回值：

每個表格字段（字符串）

演示案例代碼如下：

# coding:utf-8

import os
from docx import Document

path = os.path.join(os.getcwd(), 'test_file/文本.docx')
print("\'文本.docx\' 的路徑為：", path)     # 調(diào)試路徑

doc = Document(path)

# for p in doc.paragraphs:
#     print(p.text)

for t in doc.tables:            # for 循環(huán)獲取表格對象
    for row in t.rows:          # 獲取每一行
        row_str = []
        for cell in row.cells:    # 獲取每一行單獨的小表格,然后將其內(nèi)容拼接起來;拼接完成之后再第二個for循環(huán)中打印出來
            row_str.append(cell.text)
        print(row_str)
        
# 也可以通過 "columns" 獲取表格中的列的內(nèi)容，可以自己嘗試一下

運行結(jié)果如下：