Pandas拼接concat使用方法

更新時間：2023年12月04日 10:44:56 作者：金戈鐡馬

當我們需要將兩個Pandas DataFrame對象合并為一個時,就需要使用Pandas拼接函數(shù),本文主要介紹了Pandas拼接concat使用方法,感興趣的可以了解一下

1.處理索引和軸

假設我們有2個關于考試成績的數(shù)據(jù)集。

df1 = pd.DataFrame（{ 
    'name'：['A'，'B'，'C'，'D']，
    'math'：[60,89,82,70]，
    'physics'：[66， 95,83,66]，
    'chemistry'：[61,91,77,70] 
}）
df2 = pd.DataFrame（{ 
    'name'：['E'，'F'，'G'，'H']，
    'math'：[66,95,83,66]，
    'physics'：[60， 89,82,70]，
    'chemistry'：[90,81,78,90] 
}）

最簡單的用法就是傳遞一個含有DataFrames的列表，例如[df1, df2]。默認情況下，它是沿axis=0垂直連接的，并且默認情況下會保留df1和df2原來的索引。

pd.concat（[df1，df2]）

如果想要合并后忽略原來的索引，可以通過設置參數(shù)ignore_index=True，這樣索引就可以從0到n-1自動排序了。

pd.concat（[df1，df2]，ignore_index = True）

如果想要沿水平軸連接兩個DataFrame，可以設置參數(shù)axis=1。

pd.concat（[df1，df2]，axis = 1）

以上是一些基本操作，我們繼續(xù)往下看。

2.避免重復索引

我們知道了concat()函數(shù)會默認保留原dataframe的索引。那有些情況，我想保留原來的索引，并且我還想驗證合并后的結果是否有重復的索引，該怎么辦呢？

可以通過設置參數(shù)verify_integrity=True，將此設置True為時，如果存在重復的索引，將會報錯。比如下面這樣。

try:
    pd.concat([df1,df2], verify_integrity=True)
except ValueError as e:
    print('ValueError', e)
ValueError: Indexes have overlapping values: Int64Index([0, 1, 2, 3], dtype='int64')

3.使用keys和names選項添加層次結構索引

添加層次結構索引非常的有用，可以進行更多層的數(shù)據(jù)分析。

舉個例子，某些情況下我們并不想合并兩個dataframe的索引，而是想為兩個數(shù)據(jù)集貼上標簽。比如我們分別為df1和df2添加標簽Year 1和Year 2。

這種情況，我們只需指定keys參數(shù)即可。

res = pd.concat（[df1，df2]，keys = ['Year 1'，'Year 2']）
res

如果我們想要獲取Year 1的數(shù)據(jù)集，可以直接使用loc像下面這樣操作：

res.loc['Year 1']

另外，參數(shù)names可用于為所得的層次索引添加名稱。例如，將名稱Class添加到剛創(chuàng)建的的標簽上。

pd.concat(
    [df1，df2]，
    keys = ['Year 1'，'Year 2']，
    names = ['Class'，None]，
)

如果要重置索引并將其轉換為數(shù)據(jù)列，可以使用 reset_index()，這一步操作也是非常的實用。

pd.concat(
    [df1, df2], 
    keys=['Year 1', 'Year 2'],
    names=['Class', None],
).reset_index(level=0)   
# reset_index(level='Class')

4.列匹配和排序

concat()函數(shù)還可以將合并后的列按不同順序排序。雖然，它會自動將兩個df的列對齊合并。但默認情況下，生成的DataFrame與第一個DataFrame具有相同的列排序。例如，在以下示例中，其順序與df1相同。

如果想要按字母順序對結果DataFrame進行排序，則可以設置參數(shù)sort=True。

pd.concat([df1, df2], sort=True)

或者也可以自定義排序，像下面這樣：

custom_sort = ['math', 'chemistry', 'physics', 'name']
res = pd.concat([df1, df2])
res[custom_sort]

5.連接CSV文件數(shù)據(jù)集

假設我們需要從一堆CSV文件中加載并連接數(shù)據(jù)集。常規(guī)做法，我們可能會使用for循環(huán)解決，比如下面這樣。

import pathlib2 as pl2
ps = pl2.Path('data/sp3')
res = None
for p in ps.glob('*.csv'):
    if res is None:
        res = pd.read_csv(p)
    else:
        res = pd.concat([res, pd.read_csv(p)])

但上面pd.concat()在每次for循環(huán)迭代中都會被調用一次，效率不高，推薦使用列表推導式的寫法。

import pathlib2 as pl2
ps = pl2.Path('data/sp3')
dfs = (
    pd.read_csv(p, encoding='utf8') for p in ps.glob('*.csv')
)
res = pd.concat(dfs)
res

這樣就可以用一行代碼讀取所有CSV文件并生成DataFrames的列表dfs。然后，我們只需要調用pd.concat(dfs)一次即可獲得相同的結果，簡潔高效。

使用%%timeit測試下上面兩種寫法的時間，第二種列表推導式大概省了一半時間。

# for-loop solution
298 ms ± 11.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
# list comprehension solution
153 ms ± 6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

到此這篇關于Pandas拼接concat使用方法的文章就介紹到這了,更多相關Pandas拼接concat內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: