python pandas多數(shù)據(jù)操作的完整指南
1. 引言
在數(shù)據(jù)分析工作中,我們經(jīng)常需要處理多個數(shù)據(jù)集并將它們以各種方式組合起來。Pandas 提供了多種強(qiáng)大的多數(shù)據(jù)操作方法,包括合并(merge)、連接(join)、連接(concatenate)和比較(compare)等。本文將詳細(xì)介紹這些功能,并通過實際代碼示例展示如何使用它們。
2. 數(shù)據(jù)合并 (Merge)
2.1 基本合并操作
merge() 是 Pandas 中最常用的數(shù)據(jù)合并方法,類似于 SQL 中的 JOIN 操作。
import pandas as pd # 創(chuàng)建兩個示例DataFrame df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]}) df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]}) # 內(nèi)連接(inner join) result = pd.merge(df1, df2, on='key') print("Inner Join:\n", result)
輸出:
Inner Join:
key value_x value_y
0 B 2 5
1 D 4 6
解釋:
- on='key' 指定了合并的鍵
- 默認(rèn)是內(nèi)連接(inner join),只保留兩個DataFrame中都有的鍵
- 自動為相同列名添加后綴 _x 和 _y
2.2 不同類型的連接
# 左連接(left join) result = pd.merge(df1, df2, on='key', how='left') print("\nLeft Join:\n", result) # 右連接(right join) result = pd.merge(df1, df2, on='key', how='right') print("\nRight Join:\n", result) # 外連接(full outer join) result = pd.merge(df1, df2, on='key', how='outer') print("\nOuter Join:\n", result)
輸出:
Left Join:
key value_x value_y
0 A 1 NaN
1 B 2 5.0
2 C 3 NaN
3 D 4 6.0
Right Join:
key value_x value_y
0 B 2.0 5
1 D 4.0 6
2 E NaN 7
3 F NaN 8Outer Join:
key value_x value_y
0 A 1.0 NaN
1 B 2.0 5.0
2 C 3.0 NaN
3 D 4.0 6.0
4 E NaN 7.0
5 F NaN 8.0
解釋:
- how 參數(shù)控制連接類型:‘left’, ‘right’, ‘outer’, ‘inner’
- 缺失值用 NaN 填充
2.3 多鍵合并
# 創(chuàng)建含有多個鍵的DataFrame df3 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'key2': ['W', 'X', 'Y', 'Z'], 'value': [1, 2, 3, 4]}) df4 = pd.DataFrame({'key1': ['B', 'D', 'E', 'F'], 'key2': ['X', 'Z', 'Y', 'W'], 'value': [5, 6, 7, 8]}) # 多鍵合并 result = pd.merge(df3, df4, on=['key1', 'key2']) print("\nMulti-key Merge:\n", result)
輸出:
Multi-key Merge:
key1 key2 value_x value_y
0 B X 2 5
1 D Z 4 6
3. 數(shù)據(jù)連接 (Join)
3.1 DataFrame的join方法
join() 是 merge() 的便捷方法,默認(rèn)按索引連接。
# 設(shè)置索引 df1.set_index('key', inplace=True) df2.set_index('key', inplace=True) # 使用join連接 result = df1.join(df2, lsuffix='_left', rsuffix='_right') print("\nJoin on Index:\n", result)
輸出:
Join on Index:
value_left value_right
key
A 1.0 NaN
B 2.0 5.0
C 3.0 NaN
D 4.0 6.0
解釋:
- 默認(rèn)是左連接
- 必須指定 lsuffix 和 rsuffix 來處理列名沖突
- 按索引連接而不是列
3.2 按列連接
# 重置索引 df1.reset_index(inplace=True) df2.reset_index(inplace=True) # 按列連接 result = df1.set_index('key').join(df2.set_index('key'), how='outer', lsuffix='_left', rsuffix='_right') print("\nJoin on Column:\n", result)
4. 數(shù)據(jù)連接 (Concatenate)
4.1 基本連接操作
concat() 用于沿特定軸連接多個DataFrame或Series。
# 創(chuàng)建示例DataFrame df5 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']}, index=[0, 1, 2]) df6 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}, index=[3, 4, 5]) # 垂直連接(沿axis=0) result = pd.concat([df5, df6]) print("\nVertical Concatenation:\n", result) # 水平連接(沿axis=1) result = pd.concat([df5, df6], axis=1) print("\nHorizontal Concatenation:\n", result)
輸出:
Vertical Concatenation:
A B
0 A0 B0
1 A1 B1
2 A2 B2
3 A3 B3
4 A4 B4
5 A5 B5
Horizontal Concatenation:
A B A B
0 A0 B0 NaN NaN
1 A1 B1 NaN NaN
2 A2 B2 NaN NaN
3 NaN NaN A3 B3
4 NaN NaN A4 B4
5 NaN NaN A5 B5
4.2 連接時處理索引
# 忽略原有索引 result = pd.concat([df5, df6], ignore_index=True) print("\nConcatenation with Ignored Index:\n", result) # 添加多級索引 result = pd.concat([df5, df6], keys=['df5', 'df6']) print("\nConcatenation with MultiIndex:\n", result)
5. 數(shù)據(jù)比較 (Compare)
5.1 比較兩個DataFrame
Pandas 提供了多種比較DataFrame的方法。
# 創(chuàng)建兩個相似但有差異的DataFrame df7 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) df8 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 6, 6]}) # 使用compare方法(需要Pandas 1.1.0+) try: comparison = df7.compare(df8) print("\nDataFrame Comparison:\n", comparison) except AttributeError: print("\ncompare() method requires pandas 1.1.0 or later") # 替代方法 diff = df7 != df8 print("\nDifference:\n", diff)
輸出(如果使用compare方法):
DataFrame Comparison:
A B
self other self other
2 3.0 4.0 NaN NaN
1 NaN NaN 5.0 6.0
5.2 比較并標(biāo)記差異
# 標(biāo)記所有差異 def highlight_diff(data, color='yellow'): attr = f'background-color: {color}' other = data.xs('other', axis='columns', level=-1) self = data.xs('self', axis='columns', level=-1) return pd.DataFrame(np.where(self != other, attr, ''), index=data.index, columns=data.columns) comparison.style.apply(highlight_diff, axis=None)
6. 其他實用合并技巧
6.1 合并時處理重復(fù)列名
# 合并時有重復(fù)列名 df9 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]}) df10 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value': [4, 5, 6]}) result = pd.merge(df9, df10, on='key', suffixes=('_left', '_right')) print("\nMerge with Suffixes:\n", result)
6.2 合并時驗證關(guān)系
# 驗證合并關(guān)系(確保是一對一、一對多或多對一) try: result = pd.merge(df9, df10, on='key', validate='one_to_one') print("\nValidated Merge:\n", result) except Exception as e: print("\nValidation Error:", e)
7. 性能考慮
合并大型DataFrame
# 創(chuàng)建大型DataFrame import numpy as np n = 1000000 big_df1 = pd.DataFrame({'key': np.random.randint(0, 10000, size=n), 'value1': np.random.randn(n)}) big_df2 = pd.DataFrame({'key': np.random.randint(0, 10000, size=n), 'value2': np.random.randn(n)}) # 比較合并方法的性能 %timeit pd.merge(big_df1, big_df2, on='key') %timeit big_df1.merge(big_df2, on='key')
8. 總結(jié)
1.merge() 是最靈活的數(shù)據(jù)合并方法,支持各種SQL風(fēng)格的連接操作
- 支持內(nèi)連接、左連接、右連接和外連接
- 可以處理多鍵合并和復(fù)雜的合并條件
2.join() 是基于索引的合并便捷方法
- 默認(rèn)按索引連接
- 語法比merge()更簡潔但功能較少
3.concat() 用于簡單堆疊數(shù)據(jù)
- 可以沿行(垂直)或列(水平)方向連接
- 適合結(jié)構(gòu)相同的數(shù)據(jù)集合并
4.compare() 用于比較兩個DataFrame的差異
- 可以高亮顯示差異
- 需要Pandas 1.1.0及以上版本
5.性能考慮
- 對于大型數(shù)據(jù)集,merge()通常比join()更快
- 合并前適當(dāng)設(shè)置索引可以提高性能
選擇合適的多數(shù)據(jù)操作方法取決于:
- 數(shù)據(jù)的大小和結(jié)構(gòu)
- 需要執(zhí)行的連接類型
- 是否需要保留所有數(shù)據(jù)或只保留匹配項
掌握這些多數(shù)據(jù)操作技術(shù)將大大提高你在實際數(shù)據(jù)分析工作中的效率和靈活性。
以上就是python pandas多數(shù)據(jù)操作的完整指南的詳細(xì)內(nèi)容,更多關(guān)于python pandas多數(shù)據(jù)操作的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
使用Python將PDF轉(zhuǎn)換為文檔的方法實現(xiàn)
要將PDF文件轉(zhuǎn)換為Doc格式,你可以使用 Python 模塊,它將讓你輕松地將 pdf 轉(zhuǎn)換為 doc ,在本文中,我們將探索使用 Python 將 PDF 文檔轉(zhuǎn)換為Doc文件,需要的朋友可以參考下2023-09-09深入了解Python中Pytest Markers的使用方法
從這篇開始,逐一解決fixture是啥,mark是啥,參數(shù)request是啥,鉤子函數(shù)是啥,parametrize參數(shù)化是啥,這些問題,本片先介紹一下mark是啥,以及如何使用2023-09-09python使用opencv在Windows下調(diào)用攝像頭實現(xiàn)解析
這篇文章主要介紹了python使用opencv在Windows下調(diào)用攝像頭實現(xiàn)解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-11-11python把列表中的字符串轉(zhuǎn)成整型的3種方法詳解
這篇文章主要介紹了python把列表中的字符串轉(zhuǎn)成整型的3種方法詳解,python中在不同類型數(shù)據(jù)轉(zhuǎn)換方面是有標(biāo)準(zhǔn)庫的,使用非常方便,但是在開發(fā)中,經(jīng)常在list中字符轉(zhuǎn)成整形的數(shù)據(jù)方便遇到問題,需要的朋友可以參考下2023-07-07Python從函數(shù)參數(shù)類型引出元組實例分析
這篇文章主要介紹了Python從函數(shù)參數(shù)類型引出元組,結(jié)合實例形式分析了Python函數(shù)定義與使用中常見的三種參數(shù)類型,并簡單分析了元組類型參數(shù)的使用,需要的朋友可以參考下2019-05-05python對站點數(shù)據(jù)做EOF且做插值繪制填色圖
這篇文章主要介紹了python對站點數(shù)據(jù)做EOF且做插值繪制填色圖,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,,需要的小伙伴可以參考一下2022-09-09