pandas讀取文件夾下所有excel文件的實(shí)現(xiàn)
我這邊有個(gè)需求,是要求匯總一個(gè)文件夾所有的excel文件, 其中有.xls和 .xlsx文件,同時(shí)還excel文件中的數(shù)據(jù)可能還不一致,會(huì)有表頭數(shù)據(jù)不一樣需要一起匯總。
首先先遍歷子文件夾并讀取Excel文件: 使用os庫來遍歷包含子文件夾的主文件夾,并讀取所有的Excel文件。
import os
main_folder = '文件夾路徑'
all_data = []
for root, dirs, files in os.walk(main_folder):
for file in files:
if file.endswith(".xlsx"): # 只處理Excel文件,可以根據(jù)需要修改擴(kuò)展名
file_path = os.path.join(root, file)
df = pd.read_excel(file_path, skiprows=2) # 跳過前兩行無用數(shù)據(jù)
all_data.append(df)
elif file.endswith(".xls"):
file_path = os.path.join(root, file)
df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
all_data.append(df)然后是合并數(shù)據(jù): 使用pandas的concat函數(shù)將所有數(shù)據(jù)幀合并為一個(gè)總的數(shù)據(jù)幀,并處理不同表頭的情況。假設(shè)表頭位于第一行。
combined_df = pd.concat(all_data, ignore_index=True)
# 處理不同表頭的情況
combined_df = combined_df.fillna('') # 將NaN值填充為空字符串最后呢 ,保存總表:將合并后的數(shù)據(jù)保存到一個(gè)新的Excel文件
combined_df.to_excel('保存的excel文件路徑', index=False)出現(xiàn)的問題

上圖錯(cuò)誤, 我用斷點(diǎn)調(diào)試去看數(shù)據(jù), 發(fā)現(xiàn)里面出現(xiàn)了一個(gè)錯(cuò)誤的文件路徑。 是以~$ 開頭的一個(gè)excel文件。但是真實(shí)環(huán)境中是沒有這個(gè)excel文件,去查了一下資料如下解釋:在Windows系統(tǒng)中,當(dāng)一個(gè)Excel文件(.xlsx 或 .xls)正在被某個(gè)用戶編輯時(shí),Excel會(huì)創(chuàng)建一個(gè)臨時(shí)文件,文件名以 ~$ 開頭,然后是原始文件的名稱。這個(gè)臨時(shí)文件用于跟蹤編輯進(jìn)程,以防止多個(gè)用戶同時(shí)編輯相同的文件時(shí)發(fā)生沖突。
所以在os.walk遍歷文件夾時(shí),它會(huì)包括所有文件,包括這些臨時(shí)文件。這些臨時(shí)文件通常不應(yīng)被處理或讀取,因?yàn)樗鼈兪荅xcel編輯過程中的中間文件。
解決方案
要在遍歷文件夾時(shí)排除這些臨時(shí)文件,您可以添加一個(gè)條件來檢查文件名,如果文件名以 ~$ 開頭,則跳過該文件,在循環(huán)中多加一個(gè)判斷就好了。
if not file.startswith("~$"):到此這篇關(guān)于pandas讀取文件夾下所有excel文件的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)pandas讀取所有excel文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python?遞歸式實(shí)現(xiàn)二叉樹前序,中序,后序遍歷
這篇文章主要介紹了Python?遞歸式實(shí)現(xiàn)二叉樹前序,中序,后序遍歷,更多相關(guān)資料,需要的小伙伴可以參考下面具體的文章內(nèi)容2022-03-03
解決已經(jīng)安裝requests,卻依然提示No module named requests問題
今天小編就為大家分享一篇解決已經(jīng)安裝requests,卻依然提示No module named 'requests'問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05
Python 實(shí)用技巧之利用Shell通配符做字符串匹配
這篇文章主要介紹了Python 實(shí)用技巧之利用Shell通配符做字符串匹配的方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-08-08
python?flask項(xiàng)目打包成docker鏡像發(fā)布的過程
這篇文章主要介紹了python?flask項(xiàng)目打包成docker鏡像發(fā)布,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2023-03-03
wxPython中wx.gird.Gird添加按鈕的實(shí)現(xiàn)
本文主要介紹了wxPython中wx.gird.Gird添加按鈕的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03
python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解
這篇文章主要介紹了python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08
PyCharm 無法 import pandas 程序卡住的解決方式
這篇文章主要介紹了PyCharm 無法 import pandas 程序卡住的解決方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03
Python使用smtplib模塊發(fā)送電子郵件的流程詳解
Python中自帶的smtplib模塊可以進(jìn)行基于SMTP協(xié)議的郵件操作,這里我們便總結(jié)了Python使用smtplib模塊發(fā)送電子郵件的流程詳解,并對一些常見的問題給出了解決方法:2016-06-06

