欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python pandas多數據操作的完整指南

 更新時間:2025年04月30日 10:22:07   作者:aiweker  
在數據分析工作中,我們經常需要處理多個數據集并將它們以各種方式組合起來,Pandas 提供了多種強大的多數據操作方法,下面就跟隨小編一起了解一下吧

1. 引言

在數據分析工作中,我們經常需要處理多個數據集并將它們以各種方式組合起來。Pandas 提供了多種強大的多數據操作方法,包括合并(merge)、連接(join)、連接(concatenate)和比較(compare)等。本文將詳細介紹這些功能,并通過實際代碼示例展示如何使用它們。

2. 數據合并 (Merge)

2.1 基本合并操作

merge() 是 Pandas 中最常用的數據合并方法,類似于 SQL 中的 JOIN 操作。

import pandas as pd

# 創(chuàng)建兩個示例DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})

df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value': [5, 6, 7, 8]})

# 內連接(inner join)
result = pd.merge(df1, df2, on='key')
print("Inner Join:\n", result)

輸出:

Inner Join:
   key  value_x  value_y
0   B        2        5
1   D        4        6

解釋:

  • on='key' 指定了合并的鍵
  • 默認是內連接(inner join),只保留兩個DataFrame中都有的鍵
  • 自動為相同列名添加后綴 _x 和 _y

2.2 不同類型的連接

# 左連接(left join)
result = pd.merge(df1, df2, on='key', how='left')
print("\nLeft Join:\n", result)

# 右連接(right join)
result = pd.merge(df1, df2, on='key', how='right')
print("\nRight Join:\n", result)

# 外連接(full outer join)
result = pd.merge(df1, df2, on='key', how='outer')
print("\nOuter Join:\n", result)

輸出:

Left Join:
   key  value_x  value_y
0   A        1      NaN
1   B        2      5.0
2   C        3      NaN
3   D        4      6.0

Right Join:
   key  value_x  value_y
0   B      2.0        5
1   D      4.0        6
2   E      NaN        7
3   F      NaN        8Outer Join:
   key  value_x  value_y


0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      NaN
3   D      4.0      6.0
4   E      NaN      7.0
5   F      NaN      8.0

解釋:

  • how 參數控制連接類型:‘left’, ‘right’, ‘outer’, ‘inner’
  • 缺失值用 NaN 填充

2.3 多鍵合并

# 創(chuàng)建含有多個鍵的DataFrame
df3 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'],
                    'key2': ['W', 'X', 'Y', 'Z'],
                    'value': [1, 2, 3, 4]})

df4 = pd.DataFrame({'key1': ['B', 'D', 'E', 'F'],
                    'key2': ['X', 'Z', 'Y', 'W'],
                    'value': [5, 6, 7, 8]})

# 多鍵合并
result = pd.merge(df3, df4, on=['key1', 'key2'])
print("\nMulti-key Merge:\n", result)

輸出:

Multi-key Merge:
   key1 key2  value_x  value_y
0    B    X        2        5
1    D    Z        4        6

3. 數據連接 (Join)

3.1 DataFrame的join方法

join() 是 merge() 的便捷方法,默認按索引連接。

# 設置索引
df1.set_index('key', inplace=True)
df2.set_index('key', inplace=True)

# 使用join連接
result = df1.join(df2, lsuffix='_left', rsuffix='_right')
print("\nJoin on Index:\n", result)

輸出:

Join on Index:
      value_left  value_right
key                          
A           1.0          NaN
B           2.0          5.0
C           3.0          NaN
D           4.0          6.0

解釋:

  • 默認是左連接
  • 必須指定 lsuffix 和 rsuffix 來處理列名沖突
  • 按索引連接而不是列

3.2 按列連接

# 重置索引
df1.reset_index(inplace=True)
df2.reset_index(inplace=True)

# 按列連接
result = df1.set_index('key').join(df2.set_index('key'), how='outer', lsuffix='_left', rsuffix='_right')
print("\nJoin on Column:\n", result)

4. 數據連接 (Concatenate)

4.1 基本連接操作

concat() 用于沿特定軸連接多個DataFrame或Series。

# 創(chuàng)建示例DataFrame
df5 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']},
                   index=[0, 1, 2])

df6 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']},
                   index=[3, 4, 5])

# 垂直連接(沿axis=0)
result = pd.concat([df5, df6])
print("\nVertical Concatenation:\n", result)

# 水平連接(沿axis=1)
result = pd.concat([df5, df6], axis=1)
print("\nHorizontal Concatenation:\n", result)

輸出:

Vertical Concatenation:
     A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
5  A5  B5

Horizontal Concatenation:
     A   B    A    B
0  A0  B0  NaN  NaN
1  A1  B1  NaN  NaN
2  A2  B2  NaN  NaN
3  NaN  NaN  A3  B3
4  NaN  NaN  A4  B4
5  NaN  NaN  A5  B5

4.2 連接時處理索引

# 忽略原有索引
result = pd.concat([df5, df6], ignore_index=True)
print("\nConcatenation with Ignored Index:\n", result)

# 添加多級索引
result = pd.concat([df5, df6], keys=['df5', 'df6'])
print("\nConcatenation with MultiIndex:\n", result)

5. 數據比較 (Compare)

5.1 比較兩個DataFrame

Pandas 提供了多種比較DataFrame的方法。

# 創(chuàng)建兩個相似但有差異的DataFrame
df7 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})

df8 = pd.DataFrame({'A': [1, 2, 4],
                    'B': [4, 6, 6]})

# 使用compare方法(需要Pandas 1.1.0+)
try:
    comparison = df7.compare(df8)
    print("\nDataFrame Comparison:\n", comparison)
except AttributeError:
    print("\ncompare() method requires pandas 1.1.0 or later")
    # 替代方法
    diff = df7 != df8
    print("\nDifference:\n", diff)

輸出(如果使用compare方法):

DataFrame Comparison:
     A       B      
  self other self other
2  3.0   4.0  NaN   NaN
1  NaN   NaN  5.0   6.0

5.2 比較并標記差異

# 標記所有差異
def highlight_diff(data, color='yellow'):
    attr = f'background-color: {color}'
    other = data.xs('other', axis='columns', level=-1)
    self = data.xs('self', axis='columns', level=-1)
    return pd.DataFrame(np.where(self != other, attr, ''),
                        index=data.index, columns=data.columns)

comparison.style.apply(highlight_diff, axis=None)

6. 其他實用合并技巧

6.1 合并時處理重復列名

# 合并時有重復列名
df9 = pd.DataFrame({'key': ['A', 'B', 'C'],
                    'value': [1, 2, 3]})

df10 = pd.DataFrame({'key': ['B', 'C', 'D'],
                     'value': [4, 5, 6]})

result = pd.merge(df9, df10, on='key', suffixes=('_left', '_right'))
print("\nMerge with Suffixes:\n", result)

6.2 合并時驗證關系

# 驗證合并關系(確保是一對一、一對多或多對一)
try:
    result = pd.merge(df9, df10, on='key', validate='one_to_one')
    print("\nValidated Merge:\n", result)
except Exception as e:
    print("\nValidation Error:", e)

7. 性能考慮

合并大型DataFrame

# 創(chuàng)建大型DataFrame
import numpy as np
n = 1000000
big_df1 = pd.DataFrame({'key': np.random.randint(0, 10000, size=n),
                        'value1': np.random.randn(n)})

big_df2 = pd.DataFrame({'key': np.random.randint(0, 10000, size=n),
                        'value2': np.random.randn(n)})

# 比較合并方法的性能
%timeit pd.merge(big_df1, big_df2, on='key')
%timeit big_df1.merge(big_df2, on='key')

8. 總結

1.merge() 是最靈活的數據合并方法,支持各種SQL風格的連接操作

  • 支持內連接、左連接、右連接和外連接
  • 可以處理多鍵合并和復雜的合并條件

2.join() 是基于索引的合并便捷方法

  • 默認按索引連接
  • 語法比merge()更簡潔但功能較少

3.concat() 用于簡單堆疊數據

  • 可以沿行(垂直)或列(水平)方向連接
  • 適合結構相同的數據集合并

4.compare() 用于比較兩個DataFrame的差異

  • 可以高亮顯示差異
  • 需要Pandas 1.1.0及以上版本

5.性能考慮

  • 對于大型數據集,merge()通常比join()更快
  • 合并前適當設置索引可以提高性能

選擇合適的多數據操作方法取決于:

  • 數據的大小和結構
  • 需要執(zhí)行的連接類型
  • 是否需要保留所有數據或只保留匹配項

掌握這些多數據操作技術將大大提高你在實際數據分析工作中的效率和靈活性。

以上就是python pandas多數據操作的完整指南的詳細內容,更多關于python pandas多數據操作的資料請關注腳本之家其它相關文章!

相關文章

  • 使用Python將PDF轉換為文檔的方法實現(xiàn)

    使用Python將PDF轉換為文檔的方法實現(xiàn)

    要將PDF文件轉換為Doc格式,你可以使用 Python 模塊,它將讓你輕松地將 pdf 轉換為 doc ,在本文中,我們將探索使用 Python 將 PDF 文檔轉換為Doc文件,需要的朋友可以參考下
    2023-09-09
  • python繪制封閉多邊形教程

    python繪制封閉多邊形教程

    今天小編就為大家分享一篇python繪制封閉多邊形教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • 深入了解Python中Pytest Markers的使用方法

    深入了解Python中Pytest Markers的使用方法

    從這篇開始,逐一解決fixture是啥,mark是啥,參數request是啥,鉤子函數是啥,parametrize參數化是啥,這些問題,本片先介紹一下mark是啥,以及如何使用
    2023-09-09
  • Pygame游戲開發(fā)實例講解之圖形繪制與鍵鼠事件

    Pygame游戲開發(fā)實例講解之圖形繪制與鍵鼠事件

    這篇文章主要介紹了Pygame游戲開發(fā)中常用的圖形繪制與鍵鼠事件實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧
    2022-11-11
  • python使用opencv在Windows下調用攝像頭實現(xiàn)解析

    python使用opencv在Windows下調用攝像頭實現(xiàn)解析

    這篇文章主要介紹了python使用opencv在Windows下調用攝像頭實現(xiàn)解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-11-11
  • python把列表中的字符串轉成整型的3種方法詳解

    python把列表中的字符串轉成整型的3種方法詳解

    這篇文章主要介紹了python把列表中的字符串轉成整型的3種方法詳解,python中在不同類型數據轉換方面是有標準庫的,使用非常方便,但是在開發(fā)中,經常在list中字符轉成整形的數據方便遇到問題,需要的朋友可以參考下
    2023-07-07
  • Django批量向admin注冊模型方法詳解

    Django批量向admin注冊模型方法詳解

    這篇文章主要為大家介紹了Django批量向admin注冊模型方法詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-06-06
  • Python從函數參數類型引出元組實例分析

    Python從函數參數類型引出元組實例分析

    這篇文章主要介紹了Python從函數參數類型引出元組,結合實例形式分析了Python函數定義與使用中常見的三種參數類型,并簡單分析了元組類型參數的使用,需要的朋友可以參考下
    2019-05-05
  • Python實現(xiàn)自動上京東搶手機

    Python實現(xiàn)自動上京東搶手機

    這篇文章主要為大家詳細介紹了Python實現(xiàn)自動上京東搶手機的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • python對站點數據做EOF且做插值繪制填色圖

    python對站點數據做EOF且做插值繪制填色圖

    這篇文章主要介紹了python對站點數據做EOF且做插值繪制填色圖,文章圍繞主題展開詳細的內容介紹,具有一定的參考價值,,需要的小伙伴可以參考一下
    2022-09-09

最新評論