腳本之家服務器常用軟件

快捷導航

2025最新Pandas數(shù)據(jù)清洗與數(shù)據(jù)處理方法大全

更新時間：2025年06月27日 10:02:55 作者：貓頭虎

Pandas 是 Python 中最常用的數(shù)據(jù)分析庫之一,它可以幫助我們高效地進行數(shù)據(jù)清洗、數(shù)據(jù)處理及數(shù)據(jù)治理,本文將為你提供一篇超詳細的技術教程,需要的可以了解下

Pandas 是 Python 中最常用的數(shù)據(jù)分析庫之一，它可以幫助我們高效地進行數(shù)據(jù)清洗、數(shù)據(jù)處理及數(shù)據(jù)治理。隨著大數(shù)據(jù)的不斷發(fā)展，Pandas 也在不斷優(yōu)化，尤其是處理千萬級大數(shù)據(jù)時，如何高效清洗和治理數(shù)據(jù)成為了一個非常重要的話題。本文將為你提供一篇超詳細的技術教程，涵蓋如何使用 Pandas 進行數(shù)據(jù)清洗、數(shù)據(jù)治理和數(shù)據(jù)處理，并針對千萬級大數(shù)據(jù)的處理方法做了特別的講解。

1. 數(shù)據(jù)清洗概述

數(shù)據(jù)清洗是數(shù)據(jù)分析的第一步，目的是通過去除數(shù)據(jù)中的噪音和錯誤來提高數(shù)據(jù)質量。常見的數(shù)據(jù)清洗步驟包括：

刪除缺失值
填充缺失值
去除重復數(shù)據(jù)
標準化數(shù)據(jù)
處理異常值

在這部分，我們將詳細介紹每一個步驟，并提供相應的代碼示例。

1.1 刪除缺失值

缺失值是數(shù)據(jù)清洗中的常見問題。我們可以使用 dropna() 函數(shù)刪除含有缺失值的行或列。

import pandas as pd

# 創(chuàng)建一個包含缺失值的DataFrame
data = {
    'name': ['Tom', 'Jerry', 'Mickey', None],
    'age': [20, None, 22, 25],
    'city': ['New York', 'Los Angeles', 'Chicago', 'Miami']
}
df = pd.DataFrame(data)

# 刪除包含缺失值的行
df_cleaned = df.dropna()
print(df_cleaned)

1.2 填充缺失值

有時候我們不希望丟失含有缺失值的數(shù)據(jù)，而是希望通過合適的方法填充它們。Pandas 提供了 fillna() 函數(shù)來填充缺失值。

# 使用特定值填充缺失值
df_filled = df.fillna({'age': 0, 'name': 'Unknown'})
print(df_filled)

1.3 去除重復數(shù)據(jù)

數(shù)據(jù)集中的重復記錄也需要清洗，我們可以使用 drop_duplicates() 函數(shù)去除重復的行。

# 創(chuàng)建一個包含重復數(shù)據(jù)的DataFrame
data = {
    'name': ['Tom', 'Jerry', 'Tom', 'Mickey'],
    'age': [20, 21, 20, 22],
    'city': ['New York', 'Los Angeles', 'New York', 'Chicago']
}
df = pd.DataFrame(data)

# 去除重復行
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)

1.4 標準化數(shù)據(jù)

數(shù)據(jù)標準化是將數(shù)據(jù)轉換為統(tǒng)一的格式。Pandas 中可以使用 apply() 函數(shù)對數(shù)據(jù)列進行標準化處理。

# 假設我們需要將名字列中的所有字母轉為大寫
df['name'] = df['name'].apply(lambda x: x.upper())
print(df)

1.5 處理異常值

異常值可能會極大地影響分析結果，因此我們需要對數(shù)據(jù)中的異常值進行識別和處理。常見的處理方式包括刪除、替換或將其歸一化。

# 通過設定一個合理范圍來過濾掉異常值
df = df[df['age'] > 18]  # 假設我們只關心18歲以上的人
print(df)

2. 數(shù)據(jù)治理與數(shù)據(jù)處理

數(shù)據(jù)治理是確保數(shù)據(jù)質量、可用性和安全性的過程。數(shù)據(jù)處理是指對數(shù)據(jù)進行格式化、轉換、分組、篩選等操作。我們將在下面的部分詳細介紹如何使用 Pandas 完成這些任務。

2.1 數(shù)據(jù)格式化與轉換

有時，我們需要將數(shù)據(jù)轉換為特定的格式，比如將日期列轉換為日期時間格式。

# 假設我們有一列日期字符串
df['date'] = pd.to_datetime(df['date'])
print(df['date'])

2.2 數(shù)據(jù)分組與聚合

數(shù)據(jù)分組和聚合是數(shù)據(jù)處理中常用的操作，可以幫助我們在分類數(shù)據(jù)上進行匯總分析。

# 按照城市分組并計算每個城市的平均年齡
df_grouped = df.groupby('city')['age'].mean()
print(df_grouped)

2.3 數(shù)據(jù)合并與連接

在實際應用中，常常需要將多個數(shù)據(jù)集進行合并。Pandas 提供了 merge() 函數(shù)來進行數(shù)據(jù)的合并。

# 假設我們有兩個DataFrame
df1 = pd.DataFrame({'id': [1, 2, 3], 'name': ['Tom', 'Jerry', 'Mickey']})
df2 = pd.DataFrame({'id': [1, 2, 3], 'age': [20, 21, 22]})

# 按照'id'列合并兩個DataFrame
df_merged = pd.merge(df1, df2, on='id')
print(df_merged)

3. 千萬級大數(shù)據(jù)處理方法

當數(shù)據(jù)量達到千萬級時，Pandas 的性能可能會受到挑戰(zhàn)，以下是一些處理大數(shù)據(jù)的技巧：

3.1 分批加載大數(shù)據(jù)

對于非常大的數(shù)據(jù)集，Pandas 提供了 chunksize 參數(shù)可以讓我們分批次加載數(shù)據(jù)。這樣可以避免一次性將所有數(shù)據(jù)加載到內存中，導致內存溢出。

# 使用 chunksize 參數(shù)分批加載數(shù)據(jù)
chunk_size = 10000
chunks = pd.read_csv('large_data.csv', chunksize=chunk_size)

for chunk in chunks:
    process(chunk)  # 對每個批次的數(shù)據(jù)進行處理

3.2 使用 Dask 進行大數(shù)據(jù)處理

Dask 是一個分布式計算庫，它可以擴展 Pandas 的能力，處理比內存大的數(shù)據(jù)集。通過 Dask，我們可以實現(xiàn)類似于 Pandas 的操作，同時處理大數(shù)據(jù)。

import dask.dataframe as dd

# 讀取大文件
ddf = dd.read_csv('large_data.csv')

# 對數(shù)據(jù)進行操作
ddf_grouped = ddf.groupby('column_name').mean().compute()
print(ddf_grouped)

3.3 數(shù)據(jù)存儲優(yōu)化

在處理大數(shù)據(jù)時，選擇合適的數(shù)據(jù)存儲格式非常重要。例如，我們可以選擇 Parquet 格式，這種格式支持更高效的讀取和寫入操作，并且支持壓縮。

# 將數(shù)據(jù)保存為Parquet格式
df.to_parquet('data.parquet')

4. 數(shù)據(jù)處理一條龍 Demo

在這一部分，我們將通過一個完整的示例來展示如何使用 Pandas 從數(shù)據(jù)讀取、清洗到數(shù)據(jù)分析的整個過程。假設我們有一個包含用戶信息的 CSV 文件，我們將對其進行處理，清理掉缺失值、去除重復數(shù)據(jù)，進行數(shù)據(jù)標準化、分組統(tǒng)計，并最終進行可視化展示。

4.1 導入數(shù)據(jù)

首先，我們從 CSV 文件中導入數(shù)據(jù)，假設文件名為 user_data.csv。

import pandas as pd

# 讀取CSV文件
df = pd.read_csv('user_data.csv')

# 查看數(shù)據(jù)的前幾行
print(df.head())

4.2 數(shù)據(jù)清洗

1.刪除缺失值

首先，我們清理掉含有缺失值的行，以確保數(shù)據(jù)完整性。

# 刪除任何含有缺失值的行
df_cleaned = df.dropna()
print(df_cleaned.head())

2.填充缺失值

如果我們不希望丟失含有缺失值的行，可以選擇填充缺失值。例如，填充 age 列中的缺失值為 0，name 列為 ‘Unknown’。

# 填充缺失值
df_filled = df.fillna({'age': 0, 'name': 'Unknown'})
print(df_filled.head())

3.去除重復數(shù)據(jù)

接下來，我們檢查并刪除重復的數(shù)據(jù)記錄。

# 去除重復行
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates.head())

4.3 數(shù)據(jù)標準化

假設 name 列的所有名字格式不一致（有些是大寫，有些是小寫），我們可以將所有名字轉換為大寫字母，統(tǒng)一格式。

# 將名字轉換為大寫
df['name'] = df['name'].apply(lambda x: x.upper())
print(df.head())

4.4 數(shù)據(jù)分析

1.分組統(tǒng)計

假設我們需要按 city 列進行分組，并統(tǒng)計每個城市的平均年齡。

# 按照城市分組并計算每個城市的平均年齡
df_grouped = df.groupby('city')['age'].mean()
print(df_grouped)

2.聚合操作

除了計算平均值，我們還可以執(zhí)行更多的聚合操作，如計算最大值和最小值。

# 獲取每個城市的年齡最大值和最小值
df_aggregated = df.groupby('city')['age'].agg(['max', 'min'])
print(df_aggregated)

4.5 數(shù)據(jù)可視化

最后，我們將使用 matplotlib 進行簡單的可視化展示，查看每個城市的平均年齡。

import matplotlib.pyplot as plt

# 創(chuàng)建一個柱狀圖
df_grouped.plot(kind='bar', title='Average Age by City')
plt.ylabel('Average Age')
plt.xlabel('City')
plt.show()

4.6 完整代碼總結

以下是整個數(shù)據(jù)處理過程的完整代碼：

import pandas as pd
import matplotlib.pyplot as plt

# 讀取CSV文件
df = pd.read_csv('user_data.csv')

# 數(shù)據(jù)清洗
df_cleaned = df.dropna()  # 刪除缺失值
df_filled = df.fillna({'age': 0, 'name': 'Unknown'})  # 填充缺失值
df_no_duplicates = df.drop_duplicates()  # 去除重復數(shù)據(jù)

# 數(shù)據(jù)標準化
df['name'] = df['name'].apply(lambda x: x.upper())

# 數(shù)據(jù)分析
df_grouped = df.groupby('city')['age'].mean()  # 按城市計算平均年齡
df_aggregated = df.groupby('city')['age'].agg(['max', 'min'])  # 獲取最大值和最小值

# 數(shù)據(jù)可視化
df_grouped.plot(kind='bar', title='Average Age by City')
plt.ylabel('Average Age')
plt.xlabel('City')
plt.show()

4.7 小結

通過這個一條龍的示例，我們展示了如何從數(shù)據(jù)導入開始，經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)標準化、分組統(tǒng)計、聚合分析，最后到數(shù)據(jù)可視化的整個流程。無論是處理小數(shù)據(jù)還是大數(shù)據(jù)，掌握這些基礎的數(shù)據(jù)處理技巧對任何數(shù)據(jù)分析任務都是必不可少的。

5. 總結

本文詳細介紹了如何使用 Pandas 進行數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)處理，并重點講解了如何處理千萬級大數(shù)據(jù)。通過掌握這些技巧，你可以高效地清理數(shù)據(jù)、轉換數(shù)據(jù)格式，并在處理大數(shù)據(jù)時保持性能。

對于任何涉及數(shù)據(jù)清洗和處理的任務，掌握 Pandas 都是必不可少的。

以上就是2025最新Pandas數(shù)據(jù)清洗與數(shù)據(jù)處理方法大全的詳細內容，更多關于Pandas數(shù)據(jù)清洗與處理的資料請關注腳本之家其它相關文章！

您可能感興趣的文章: