快捷導(dǎo)航

Pandas中數(shù)據(jù)合并的實(shí)現(xiàn)

更新時(shí)間：2025年05月06日 09:43:03 作者：浮云H

本文介紹了使用Pandas庫(kù)進(jìn)行數(shù)據(jù)合并,包括堆疊合并和主鍵合并,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

一、數(shù)據(jù)合并

1.堆疊合并數(shù)據(jù)

1)橫向堆疊：用concat()函數(shù)

當(dāng)axis=1時(shí)，concat做行對(duì)齊，然后將不同列名稱的兩張或多張表合并。當(dāng)兩個(gè)表索引不完全相同時(shí)，可以使用join參數(shù)選擇是內(nèi)連接還是外連接。在內(nèi)連接的情況下，僅僅返回索引重疊部分；在外連接的情況下，則顯示索引的并集部分?jǐn)?shù)據(jù)，不足的地方使用空值填補(bǔ)。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 'D': ['D2', 'D3', 'D6', 'D7'], 'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
result = pd.concat([df1, df2], axis=1, join='inner')
print(result)

結(jié)果：

result = pd.concat([df1, df2], axis=1, join='outer')
print(result)

結(jié)果：

2)縱向堆疊：用concat()函數(shù)和append()函數(shù)

使用concat()函數(shù)時(shí)，在默認(rèn)情況下，即axis=0時(shí)，concat做列對(duì)齊，將不同行索引的兩張或多張表縱向合并。在兩張表的列名并不完全相同的情況下，可以使用join參數(shù)：取值為inner時(shí)，返回的僅僅是列名的交集所代表的列；取值為outer時(shí)，返回的是兩列名的并集代表的列。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 'B': ['B8', 'B9', 'B10', 'B11'], 'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']}, index=[8, 9, 10, 11])
frames = [df1, df2, df3]
result = pd.concat(frames, axis=0)
print(result)

結(jié)果：

append()函數(shù)實(shí)現(xiàn)縱向表堆疊有一個(gè)前提條件，即兩張表的列名需要完全一致。但是append應(yīng)該是用不了了。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])
result = df1.append(df2)
print(result)

結(jié)果：

df2 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 'D': ['D2', 'D3', 'D6', 'D7'], 'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
result = df1.append(df2)
print(result)

結(jié)果：

2.主鍵合并數(shù)據(jù)

使用merge()函數(shù)和join()函數(shù)

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
result = pd.merge(left, right, on='key')
print(result)

結(jié)果：

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'], 'key2': ['K0', 'K1', 'K0', 'K1'], 'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'], 'key2': ['K0', 'K0', 'K0', 'K0'], 'C':['C0', 'C1', 'C2', 'C3'],
                     'D':['D0', 'D1', 'D2', 'D3']})
result = pd.merge(left, right, on=['key1', 'key2'])
print(result)

結(jié)果：

解釋是如何合并的：

第一行（‘K0’, ‘K0’, ‘A0’, ‘B0’, ‘C0’, ‘D0’）：
- left中的第一行（‘K0’, ‘K0’, ‘A0’, ‘B0’）與right中的第一行（‘K0’, ‘K0’, ‘C0’, ‘D0’）在key1和key2上都有匹配，所以它們被合并在一起。
第二行和第三行（‘K1’, ‘K0’, ‘A2’, ‘B2’, ‘C1’, ‘D1’ 和 ‘K1’, ‘K0’, ‘A2’, ‘B2’, ‘C2’, ‘D2’）：
- left中的第三行（‘K1’, ‘K0’, ‘A2’, ‘B2’）與right中的第二行和第三行（‘K1’, ‘K0’, ‘C1’, ‘D1’ 和 ‘K1’, ‘K0’, ‘C2’, ‘D2’）在key1和key2上都有匹配，所以它們被合并在一起。由于right中有兩行與left的第三行匹配，所以結(jié)果中有兩行合并后的數(shù)據(jù)。
left中的第四行（‘K2’, ‘K1’, ‘A3’, ‘B3’）和right中的第四行（‘K2’, ‘K0’, ‘C3’, ‘D3’）：
- 這兩行在key1上匹配，但在key2上不匹配（left是’K1’，right是’K0’）。由于內(nèi)連接只保留完全匹配的行，所以這行不會(huì)被包括在結(jié)果中。