Pandas操作兩個Excel實現(xiàn)數(shù)據對應行的合并
寫在前面
最近有朋友問我怎么把一個Excel工作表中的數(shù)據按照對應的匹配規(guī)則放到另外一個表中, 要求是兩個對應的列要相同, 具體來看就是sheet1中數(shù)據比較多, sheet2中只含有兩列, 這兩列包含了年份和行業(yè)信息, 這兩個表的header(pandas中的術語, 表示表頭或者列名)都是相同的, 所以關鍵點就是讓表1中的數(shù)據與表2中的數(shù)據建立對應即可, 然后注意一下選取過的數(shù)據就不能選了這個條件.
當然可能會有直接使用Pandas內置高級函數(shù)的方法來做, 但是畢竟不是主要研究數(shù)據分析了, 能用就行…
為了數(shù)據安全, 這里就不放截圖了.
主要思路
因為要填充表2, 那么當然要遍歷表二的每一行, 針對這每一行給出的列標信息, 然后遍歷表1中滿足條件的行, 填入表二之后break即可, 因為可能會出現(xiàn)重復遍歷, 這里用到了哈希表的方法, 并且哈希表也有兩種實現(xiàn),
一種是給表1新添加一個列, 這個列可以是布爾值或者全0列, 表示沒有遍歷過(unused), 然后在滿足條件的行添加到表二之后, 將對應值設置為1即可, 這樣可以在之后的遍歷過程中忽略掉已添加的數(shù)據.
另一種方法就是使用哈希表存儲表一中遍歷過的行的索引, 思路跟上面是一樣的, 但是不會對原始數(shù)據進行增刪.
代碼
代碼部分我給出了兩個版本, 一種是我首先想到的, 不借助pandas內置函數(shù), 將數(shù)據轉換為列表來完成, 這樣雖然好想當然之后還要手動處理表頭, 比較麻煩, 代碼如下:
import pandas as pd df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0).values.tolist() df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0).values.tolist() for i in range(len(df1)): ? ? df1[i].append(0) for i, item in enumerate(df2): ? ? for j in range(len(df1)): ? ? ? ? if df1[j][-1] == 0 and df1[j][0] == item[0] and df1[j][2] == item[2]: ? ? ? ? ? ? df2[i] = df1[j] ? ? ? ? ? ? df1[j][-1] = 1 ? ? ? ? ? ? break df2 = pd.DataFrame(df2) print(df2) with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer: ? ? df2.to_excel(writer, sheet_name="Sheet3")
另一種用到了pandas內置的行遍歷方法和索引等方法, 對Dataframe這種pandas內置的原生數(shù)據結構支持比較好, 但是不用的話就總忘…
import pandas as pd # pd.set_option('display.max_columns', None) pd.set_option('display.max_rows', None) df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0) df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0) # 標記是否匹配過 used = set() for idx2, row2 in df2.iterrows(): ? ? tmp = df1[(df1['所屬行業(yè)'] == row2['所屬行業(yè)']) & (df1['新年份'] == row2['新年份'])] ? ? for idx1, row1 in tmp.iterrows(): ? ? ? ? if idx1 not in used: ? ? ? ? ? ? df2.iloc[idx2, :] = row1 ? ? ? ? ? ? used.add(idx1) ? ? ? ? ? ? break df2.set_index('所屬行業(yè)', inplace=True) print(df2) with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer: ? ? df2.to_excel(writer, sheet_name="Sheet4")
到此這篇關于Pandas操作兩個Excel實現(xiàn)數(shù)據對應行的合并的文章就介紹到這了,更多相關Pandas Excel行合并內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python中實現(xiàn)精確的浮點數(shù)運算詳解
計算機智能處理可數(shù)集合的運算,但是全體實數(shù)是不可數(shù)的,所以計算機只能用一些奇怪的方法來擬合他,于是就產生了浮點數(shù)。下面這篇文章主要給大家介紹了關于python中實現(xiàn)精確浮點數(shù)運算的相關資料,需要的朋友可以參考借鑒,下面隨著小編來一起學習學習吧。2017-11-11Python使用JDAudioCrawler將下載的音頻存儲到本地
在當今數(shù)字化時代,音頻數(shù)據的獲取和處理變得越來越重要,本文將訪問網易云音樂為案例,介紹如何使用JDAudioCrawler這個強大的工具,將音頻數(shù)據存儲下載到本地存儲中,需要的可以了解下2023-10-10python實現(xiàn)BackPropagation算法
這篇文章主要為大家詳細介紹了python實現(xiàn)BackPropagation算法,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-12-12windows下安裝Python虛擬環(huán)境virtualenvwrapper-win
這篇文章主要介紹了windows下安裝Python虛擬環(huán)境virtualenvwrapper-win,內容超簡單,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下2019-06-06Python實現(xiàn)九宮格式的朋友圈功能內附“馬云”朋友圈
PIL(Python Imaging Library)是一個非常強大的Python庫,但是它支持Python2.X, 在Python3中則使用的是Pillow庫,它是從PIL中fork出來的一個分支。這篇文章主要介紹了用Python搞定九宮格式的朋友圈功能內附“馬云”朋友圈 ,需要的朋友可以參考下2019-05-05