亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python讀取Word(.docx)正文信息的方法

 更新時間:2018年03月15日 08:34:51   作者:0_蠟筆小熊_0  
這篇文章主要為大家詳細介紹了Python讀取Word(.docx)正文信息的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文介紹用Python簡單讀取*.docx文件信息,一些python-word庫就是對這種方法的擴展。

介紹分兩部分:

  • Word(*.docx)文件簡述
  • Python提取Word信息

Word(*.docx)文件簡述

大約在2008年以前,Office產(chǎn)品中Word用.doc文件格式,這種二進制格式很難與其他軟件兼容。
為了跟上時代,微軟采用類XML格式標準定義其新版Word文件.docx。
.docx實際上是一個zip的壓縮文件,比如我們有一個test.docx的文件:

其內容如下:

改變其后綴名為test.zip,然后解壓,會得到如下文件:

其中Word文件的正文內容被保持在word/document.xml中,我們可以打開查看:

Python提取Word信息

根據(jù)Word(.docx)文件格式,我們遵循如下步驟進行正文信息的提?。?

1 解壓.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具體代碼如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • Selenium之模擬登錄鐵路12306的示例代碼

    Selenium之模擬登錄鐵路12306的示例代碼

    這篇文章主要介紹了Selenium之模擬登錄鐵路12306的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-07-07
  • 帶你了解python裝飾器

    帶你了解python裝飾器

    Python中的裝飾器是你進入Python大門的一道坎,不管你跨不跨過去它都在那里。Python中的裝飾器的概念經(jīng)常會讓人搞得一頭霧水,所以今天就好好來分析一下python中的裝飾器
    2017-06-06
  • Python OpenCV實現(xiàn)邊緣檢測

    Python OpenCV實現(xiàn)邊緣檢測

    這篇文章主要為大家詳細介紹了Python OpenCV實現(xiàn)邊緣檢測,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-08-08
  • python scipy.misc.imsave()函數(shù)的用法說明

    python scipy.misc.imsave()函數(shù)的用法說明

    這篇文章主要介紹了python scipy.misc.imsave()函數(shù)的用法說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-05-05
  • 利用Python實現(xiàn)一鍵將頭像轉成動漫風

    利用Python實現(xiàn)一鍵將頭像轉成動漫風

    小編今天將為大家詳細介紹如何利用Python語言制作一個UI界面,大家可以通過一鍵點擊就實現(xiàn)頭像照片轉化成動漫風格的功能,感興趣的可以動手嘗試一下
    2022-07-07
  • 在Python的Django框架中用流響應生成CSV文件的教程

    在Python的Django框架中用流響應生成CSV文件的教程

    這篇文章主要介紹了在Python的Django框架中用流響應生成CSV文件的教程,作者特別講到了防止CSV文件中的中文避免出現(xiàn)亂碼等問題,需要的朋友可以參考下
    2015-05-05
  • 使用Selenium控制當前已經(jīng)打開的chrome瀏覽器窗口

    使用Selenium控制當前已經(jīng)打開的chrome瀏覽器窗口

    有時通過selenium打開網(wǎng)站時,發(fā)現(xiàn)有些網(wǎng)站需要掃碼登錄,就很頭疼,導致爬蟲進展不下去,下面這篇文章主要給大家介紹了關于使用Selenium控制當前已經(jīng)打開的chrome瀏覽器窗口的相關資料,需要的朋友可以參考下
    2022-07-07
  • pandas 小數(shù)位數(shù) 精度的處理方法

    pandas 小數(shù)位數(shù) 精度的處理方法

    今天小編就為大家分享一篇pandas 小數(shù)位數(shù) 精度的處理方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • conda下載各種包時如何避免版本不匹配問題

    conda下載各種包時如何避免版本不匹配問題

    在使用python和conda時,由于Python版本不匹配,可能會導致一些問題的出現(xiàn),本文主要介紹了conda下載各種包時如何避免版本不匹配問題,感興趣的可以了解一下
    2024-03-03
  • 利用Python進行異常值分析實例代碼

    利用Python進行異常值分析實例代碼

    數(shù)據(jù)挖掘工作中的第一步就是異常值檢測,異常值的存在會影響實驗結果。下面這篇文章主要給大家介紹了關于利用Python進行異常值分析的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考借鑒,下面來一起看看吧。
    2017-12-12

最新評論