python讀取多類型文件夾中的文檔內(nèi)容
突發(fā)奇想,想使用python讀取多類型文件夾中的文檔內(nèi)容,在Python中,讀取多類型文件夾中的文檔內(nèi)容通常涉及幾個(gè)步驟:
- 遍歷文件夾以獲取文件列表。
- 根據(jù)文件擴(kuò)展名判斷文件類型。
- 使用適當(dāng)?shù)膸?kù)或方法來(lái)讀取每種文件類型的內(nèi)容。
以下是一個(gè)簡(jiǎn)單的示例,展示如何使用Python讀取一個(gè)文件夾中所有.txt
和.docx
文件的內(nèi)容:
首先,你需要安裝python-docx
庫(kù)來(lái)讀取.docx
文件。你可以使用pip來(lái)安裝:
pip install python-docx
然后,你可以使用以下Python腳本來(lái)讀取文件夾中的文檔內(nèi)容:
import os from docx import Document def read_txt_file(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() return content def read_docx_file(file_path): doc = Document(file_path) content = '\n'.join([para.text for para in doc.paragraphs]) return content def read_folder_contents(folder_path): for root, dirs, files in os.walk(folder_path): for file in files: file_path = os.path.join(root, file) if file_path.endswith('.txt'): content = read_txt_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") elif file_path.endswith('.docx'): content = read_docx_file(file_path) print(f"File: {file_path}") print(f"Content:\n{content}\n") # 你可以根據(jù)需要添加更多文件類型的處理邏輯 # 使用示例 folder_to_read = 'path/to/your/folder' # 替換為你的文件夾路徑 read_folder_contents(folder_to_read)
這個(gè)腳本首先定義了讀取.txt
和.docx
文件的函數(shù)。然后,它遍歷指定的文件夾,并根據(jù)文件擴(kuò)展名調(diào)用相應(yīng)的讀取函數(shù)。對(duì)于每種文件類型,它都會(huì)打印文件名和內(nèi)容。你可以根據(jù)需要添加更多文件類型的處理邏輯。
請(qǐng)注意,處理不同類型的文件(如PDF、Excel等)可能需要使用不同的庫(kù)和方法。對(duì)于每種文件類型,你可能需要查找適當(dāng)?shù)腜ython庫(kù)來(lái)讀取其內(nèi)容。
ps:補(bǔ)
1 讀取Excel
通過(guò)pandas包來(lái)讀取
data = pd.read_excel('data.xlsx', sheet_name="Sheet1", header = 1) # header是第幾行數(shù)據(jù)作為列名
2 讀取csv文件
csv_data= pd.read_csv('/路徑/文件名.csv')
3 讀取txt文件
read_csv讀取時(shí)會(huì)自動(dòng)識(shí)別表頭,數(shù)據(jù)有表頭時(shí)不能設(shè)置header為空(默認(rèn)讀取第一行,即header=0);數(shù)據(jù)無(wú)表頭時(shí),若不設(shè)置header,第一行數(shù)據(jù)會(huì)被視為表頭,應(yīng)傳入names參數(shù)設(shè)置表頭名稱或設(shè)置header=None。
data = pd.read_csv(r'stdout', sep='\t', header=0) # stdout是txt文件
到此這篇關(guān)于python讀取多類型文件夾中的文檔內(nèi)容的文章就介紹到這了,更多相關(guān)python讀取多類型文件內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pandas.read_csv參數(shù)詳解(小結(jié))
這篇文章主要介紹了pandas.read_csv參數(shù)詳解(小結(jié)),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06python?pygame英雄循環(huán)飛行及作業(yè)示例
這篇文章主要為大家介紹了python?pygame英雄循環(huán)飛行及作業(yè)實(shí)現(xiàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-08-08PyCharm Python Console中文輸出亂碼問(wèn)題及解決
這篇文章主要介紹了PyCharm Python Console中文輸出亂碼問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-07-07Python中循環(huán)依賴問(wèn)題及其解決方案
在軟件開發(fā)中,循環(huán)依賴是一個(gè)常見(jiàn)的問(wèn)題,尤其是在使用 Python 這樣的動(dòng)態(tài)語(yǔ)言時(shí),循環(huán)依賴指的是兩個(gè)或多個(gè)模塊或組件相互依賴,形成一個(gè)閉環(huán),本文將探討 Python 中循環(huán)依賴的問(wèn)題,并提供一些解決方案,需要的朋友可以參考下2024-06-06手把手教你使用Python創(chuàng)建微信機(jī)器人
微信,一個(gè)日活10億的超級(jí)app,不僅在國(guó)內(nèi)社交獨(dú)領(lǐng)風(fēng)騷,在國(guó)外社交也同樣占有一席之地,今天我們要將便是如何用Python來(lái)生成一個(gè)微信機(jī)器人,感興趣的朋友跟隨小編一起看看吧2019-04-04用Python編寫一個(gè)簡(jiǎn)單的Lisp解釋器的教程
這篇文章主要介紹了用Python編寫一個(gè)簡(jiǎn)單的Lisp解釋器的教程,Lisp是一種源碼簡(jiǎn)單的函數(shù)式編程語(yǔ)言,本文主要介紹對(duì)其中的一個(gè)子集Scheme的解釋器開發(fā),需要的朋友可以參考下2015-04-04