Python讀取Word（.docx）正文信息的方法

更新時間：2018年03月15日 08:34:51 作者：0_蠟筆小熊_0

這篇文章主要為大家詳細介紹了Python讀取Word（.docx）正文信息的方法，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文介紹用Python簡單讀取*.docx文件信息，一些python-word庫就是對這種方法的擴展。

介紹分兩部分：

Word(*.docx)文件簡述
Python提取Word信息

Word(*.docx)文件簡述

大約在2008年以前，Office產(chǎn)品中Word用.doc文件格式，這種二進制格式很難與其他軟件兼容。
為了跟上時代，微軟采用類XML格式標準定義其新版Word文件.docx。
.docx實際上是一個zip的壓縮文件，比如我們有一個test.docx的文件：

其內容如下：

改變其后綴名為test.zip，然后解壓，會得到如下文件：

其中Word文件的正文內容被保持在word/document.xml中，我們可以打開查看：

Python提取Word信息

根據(jù)Word（.docx）文件格式，我們遵循如下步驟進行正文信息的提?。?

1 解壓.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具體代碼如下：

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

Python
Word

Selenium之模擬登錄鐵路12306的示例代碼
這篇文章主要介紹了Selenium之模擬登錄鐵路12306的示例代碼，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-07-07
帶你了解python裝飾器
Python中的裝飾器是你進入Python大門的一道坎，不管你跨不跨過去它都在那里。Python中的裝飾器的概念經(jīng)常會讓人搞得一頭霧水,所以今天就好好來分析一下python中的裝飾器
2017-06-06
Python OpenCV實現(xiàn)邊緣檢測
這篇文章主要為大家詳細介紹了Python OpenCV實現(xiàn)邊緣檢測，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-08-08
python scipy.misc.imsave()函數(shù)的用法說明
這篇文章主要介紹了python scipy.misc.imsave()函數(shù)的用法說明，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2021-05-05
利用Python實現(xiàn)一鍵將頭像轉成動漫風
小編今天將為大家詳細介紹如何利用Python語言制作一個UI界面，大家可以通過一鍵點擊就實現(xiàn)頭像照片轉化成動漫風格的功能，感興趣的可以動手嘗試一下
2022-07-07
在Python的Django框架中用流響應生成CSV文件的教程
這篇文章主要介紹了在Python的Django框架中用流響應生成CSV文件的教程,作者特別講到了防止CSV文件中的中文避免出現(xiàn)亂碼等問題,需要的朋友可以參考下
2015-05-05
使用Selenium控制當前已經(jīng)打開的chrome瀏覽器窗口
有時通過selenium打開網(wǎng)站時,發(fā)現(xiàn)有些網(wǎng)站需要掃碼登錄,就很頭疼,導致爬蟲進展不下去,下面這篇文章主要給大家介紹了關于使用Selenium控制當前已經(jīng)打開的chrome瀏覽器窗口的相關資料,需要的朋友可以參考下
2022-07-07
pandas 小數(shù)位數(shù) 精度的處理方法
今天小編就為大家分享一篇pandas 小數(shù)位數(shù) 精度的處理方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
conda下載各種包時如何避免版本不匹配問題
在使用python和conda時,由于Python版本不匹配,可能會導致一些問題的出現(xiàn),本文主要介紹了conda下載各種包時如何避免版本不匹配問題,感興趣的可以了解一下
2024-03-03
利用Python進行異常值分析實例代碼
數(shù)據(jù)挖掘工作中的第一步就是異常值檢測，異常值的存在會影響實驗結果。下面這篇文章主要給大家介紹了關于利用Python進行異常值分析的相關資料，文中通過示例代碼介紹的非常詳細，需要的朋友可以參考借鑒，下面來一起看看吧。
2017-12-12