Python讀取word文本操作詳解
本文研究的主要問(wèn)題時(shí)Python讀取word文本操作,分享了相關(guān)概念和實(shí)現(xiàn)代碼,具體如下。
一,docx模塊
Python可以利用python-docx模塊處理word文檔,處理方式是面向?qū)ο蟮?。也就是說(shuō)python-docx模塊會(huì)把word文檔,文檔中的段落、文本、字體等都看做對(duì)象,對(duì)對(duì)象進(jìn)行處理就是對(duì)word文檔的內(nèi)容處理。
二,相關(guān)概念
如果需要讀取word文檔中的文字(一般來(lái)說(shuō),程序也只需要認(rèn)識(shí)word文檔中的文字信息),需要先了解python-docx模塊的幾個(gè)概念。
1,Document對(duì)象,表示一個(gè)word文檔。
2,Paragraph對(duì)象,表示word文檔中的一個(gè)段落
3,Paragraph對(duì)象的text屬性,表示段落中的文本內(nèi)容。
三,模塊的安裝和導(dǎo)入
需要注意,python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx,如下圖表示安裝成功(最后那句英文Successfully installed,成功地安裝完成,十分考驗(yàn)英文水平。)
注意在導(dǎo)入模塊時(shí),用的是import docx。
也真是奇了怪了,怎么安裝和導(dǎo)入模塊時(shí),很多都不用一個(gè)名字,看來(lái)是很有必要出一個(gè)python版本的模塊管理程序python-maven了,本段純屬PS。
四,讀取word文本
在了解了上面的信息之后,就很簡(jiǎn)單了,下面先創(chuàng)建一個(gè)D:\temp\word.docx文件,并在其中輸入如下內(nèi)容。
然后寫(xiě)一段程序,代碼及輸出結(jié)果如下:
#讀取docx中的文本代碼示例 import docx #獲取文檔對(duì)象 file=docx.Document("D:\\temp\\word.docx") print("段落數(shù):"+str(len(file.paragraphs)))#段落數(shù)為13,每個(gè)回車(chē)隔離一段 #輸出每一段的內(nèi)容 for para in file.paragraphs: print(para.text) #輸出段落編號(hào)及段落內(nèi)容 for i in range(len(file.paragraphs)): print("第"+str(i)+"段的內(nèi)容是:"+file.paragraphs[i].text)
運(yùn)行結(jié)果:
================ RESTART: F:/360data/重要數(shù)據(jù)/桌面/學(xué)習(xí)筆記/readWord.py ================ 段落數(shù):13 啊 我看見(jiàn)一座山 雄偉的大山 真高啊 啊 這座山是! 真的很高! 第0段的內(nèi)容是:啊 第1段的內(nèi)容是: 第2段的內(nèi)容是:我看見(jiàn)一座山 第3段的內(nèi)容是: 第4段的內(nèi)容是:雄偉的大山 第5段的內(nèi)容是: 第6段的內(nèi)容是:真高啊 第7段的內(nèi)容是: 第8段的內(nèi)容是:啊 第9段的內(nèi)容是: 第10段的內(nèi)容是:這座山是! 第11段的內(nèi)容是: 第12段的內(nèi)容是:真的很高! >>>
總結(jié)
以上就是本文關(guān)于Python讀取word文本操作詳解的全部?jī)?nèi)容,希望對(duì)大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專(zhuān)題,如有不足之處,歡迎留言指出。感謝朋友們對(duì)本站的支持!
相關(guān)文章
Python3調(diào)用百度AI識(shí)別圖片中的文字功能示例【測(cè)試可用】
這篇文章主要介紹了Python3調(diào)用百度AI識(shí)別圖片中的文字功能,結(jié)合實(shí)例形式分析了Python3安裝及使用百度AI接口的相關(guān)操作技巧,并附帶說(shuō)明了百度官方AI平臺(tái)的注冊(cè)及接口調(diào)用操作方法,需要的朋友可以參考下2019-03-03python實(shí)踐項(xiàng)目之監(jiān)控當(dāng)前聯(lián)網(wǎng)狀態(tài)詳情
介紹一個(gè)利用Python監(jiān)控當(dāng)前聯(lián)網(wǎng)狀態(tài)情況的python代碼,它可以清楚地知道,你的電腦網(wǎng)絡(luò)是否是鏈接成功或失敗,下面小編帶大家來(lái)一起學(xué)習(xí)它2019-05-05django從后臺(tái)返回html代碼的實(shí)例
這篇文章主要介紹了django從后臺(tái)返回html代碼的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03Python使用Pickle庫(kù)實(shí)現(xiàn)讀寫(xiě)序列操作示例
這篇文章主要介紹了Python使用Pickle庫(kù)實(shí)現(xiàn)讀寫(xiě)序列操作,結(jié)合實(shí)例形式分析了pickle模塊的功能、常用函數(shù)以及序列化與反序列化相關(guān)操作技巧,需要的朋友可以參考下2018-06-06Python+Selenium實(shí)現(xiàn)瀏覽器標(biāo)簽頁(yè)的切換
在實(shí)際工作中,我們經(jīng)常會(huì)遇到頁(yè)面切換的情況。就比如當(dāng)點(diǎn)擊了某個(gè)功能的按鈕后,瀏覽器出現(xiàn)了新的標(biāo)簽頁(yè),需要在這些標(biāo)簽頁(yè)之間進(jìn)行切換。本文將利用Selenium實(shí)現(xiàn)這一功能,需要的可以參考一下2022-06-06conda下載各種包時(shí)如何避免版本不匹配問(wèn)題
在使用python和conda時(shí),由于Python版本不匹配,可能會(huì)導(dǎo)致一些問(wèn)題的出現(xiàn),本文主要介紹了conda下載各種包時(shí)如何避免版本不匹配問(wèn)題,感興趣的可以了解一下2024-03-03caffe的python接口之手寫(xiě)數(shù)字識(shí)別mnist實(shí)例
這篇文章主要為大家介紹了caffe的python接口之手寫(xiě)數(shù)字識(shí)別mnist實(shí)例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06Python+MediaPipe實(shí)現(xiàn)檢測(cè)人臉功能詳解
MediaPipe是用于構(gòu)建多模態(tài)(例如視頻、音頻或任何時(shí)間序列數(shù)據(jù))、跨平臺(tái)(即eAndroid、IOS、web、邊緣設(shè)備)應(yīng)用ML管道的框架。本文將利用MediaPipe實(shí)現(xiàn)檢測(cè)人臉功能,需要的可以參考一下2022-02-02