快捷導(dǎo)航

Pandas中數(shù)據(jù)表合并的幾種實(shí)現(xiàn)方法

更新時(shí)間：2024年12月31日 10:21:35 作者：00&00

Pandas提供了merge()、concat()和join()三種方法來(lái)合并數(shù)據(jù)表,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

在 Pandas 中，數(shù)據(jù)表合并是常見(jiàn)的數(shù)據(jù)處理任務(wù)，主要用于將多個(gè) DataFrame 按特定條件連接在一起。Pandas 提供了幾種方法來(lái)實(shí)現(xiàn)這一點(diǎn)，包括 `merge()`、`concat()` 和 `join()`。下面是這些方法的詳細(xì)概述。

1. 使用 merge 函數(shù)

`merge()` 是 Pandas 中最常用的數(shù)據(jù)合并函數(shù)，類(lèi)似于 SQL 中的連接操作?？梢愿鶕?jù)一個(gè)或多個(gè)鍵將兩個(gè) DataFrame 進(jìn)行合并。

1.1 基本用法

import pandas as pd  

# 創(chuàng)建示例 DataFrame  
df1 = pd.DataFrame({  
    'key': ['A', 'B', 'C'],  
    'value1': [1, 2, 3]  
})  

df2 = pd.DataFrame({  
    'key': ['B', 'C', 'D'],  
    'value2': [4, 5, 6]  
})  

# 合并 DataFrame  
result = pd.merge(df1, df2, on='key', how='inner')  # inner join  
print(result)

1.2 合并方式

`merge()` 允許多種合并方式：
        inner: 只保留兩者都存在的鍵（默認(rèn)值）
        outer: 保留所有的鍵，缺失的用 NaN 填充
        left: 保留左側(cè) DataFrame 的所有數(shù)據(jù)
        right: 保留右側(cè) DataFrame 的所有數(shù)據(jù)

# 外連接  
result_outer = pd.merge(df1, df2, on='key', how='outer')  
print(result_outer)  

# 左連接  
result_left = pd.merge(df1, df2, on='key', how='left')  
print(result_left)  

# 右連接  
result_right = pd.merge(df1, df2, on='key', how='right')  
print(result_right)

1.3 多列合并

可以通過(guò)傳遞列名的列表來(lái)根據(jù)多個(gè)列進(jìn)行合并：

df3 = pd.DataFrame({  
    'key1': ['A', 'B', 'C'],  
    'key2': ['W', 'X', 'Y'],  
    'value1': [1, 2, 3]  
})  

df4 = pd.DataFrame({  
    'key1': ['A', 'B', 'D'],  
    'key2': ['W', 'X', 'Z'],  
    'value2': [4, 5, 6]  
})  

result_multi_key = pd.merge(df3, df4, on=['key1', 'key2'], how='inner')  
print(result_multi_key)

2. 使用 concat 函數(shù)

`concat()` 函數(shù)用于沿著某個(gè)軸（行或列）將多個(gè) DataFrame 進(jìn)行連接。它更適合在 DataFrame 結(jié)構(gòu)相同的情況下合并數(shù)據(jù)。

2.1 基本用法

df5 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})  
df6 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})  

# 按行連接（縱向）  
result_concat = pd.concat([df5, df6], axis=0)  
print(result_concat)  

# 按列連接（橫向）  
result_concat_columns = pd.concat([df5, df6], axis=1)  
print(result_concat_columns)

2.2 忽略索引

可以選擇忽略原來(lái)的索引，重新生成新的索引：

result_concat_ignore_index = pd.concat([df5, df6], axis=0, ignore_index=True)  
print(result_concat_ignore_index)

3. 使用 join 函數(shù)

`join()` 方法用于連接 DataFrame，通常是基于索引進(jìn)行的。它比 `merge()` 更簡(jiǎn)潔，適合簡(jiǎn)單的連接場(chǎng)景。

df7 = pd.DataFrame({  
    'value1': [1, 2, 3]},  
    index=['A', 'B', 'C']  
)  

df8 = pd.DataFrame({  
    'value2': [4, 5]},  
    index=['B', 'C']  
)  

# 基于索引連接  
result_join = df7.join(df8, how='inner')  
print(result_join)

4. 注意事項(xiàng)

鍵的一致性: 確保用于合并的鍵在兩個(gè) DataFrame 中具有一致的數(shù)據(jù)類(lèi)型。
處理缺失值: 合并后可能會(huì)出現(xiàn)缺失值，需要后續(xù)進(jìn)行處理。
合并后的列名沖突: 合并時(shí)可能會(huì)出現(xiàn)列名沖突，可以使用 `suffixes` 參數(shù)給沖突的列附加后綴。

5. 總結(jié)

在 Pandas 中，合并數(shù)據(jù)表是非常靈活和強(qiáng)大的功能，主要有 `merge()`、`concat()` 和 `join()` 三種方法，根據(jù)具體需求選擇合適的方法。通過(guò)適當(dāng)?shù)暮喜?，可以更好地組織和分析數(shù)據(jù)。

到此這篇關(guān)于Pandas中數(shù)據(jù)表合并的幾種實(shí)現(xiàn)方法的文章就介紹到這了,更多相關(guān)Pandas 數(shù)據(jù)表合并內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: