快捷導(dǎo)航

Python處理缺失數(shù)據(jù)的多種方式

更新時(shí)間：2024年08月21日 10:37:43 作者：Itmastergo

在數(shù)據(jù)分析和數(shù)據(jù)處理的過(guò)程中,缺失數(shù)據(jù)（Missing Data）是一個(gè)常見(jiàn)的問(wèn)題,缺失數(shù)據(jù)的存在可能會(huì)影響模型的準(zhǔn)確性和預(yù)測(cè)的可靠性,因此正確處理缺失數(shù)據(jù)是數(shù)據(jù)分析的重要步驟,所以本文給大家介紹了Python處理缺失數(shù)據(jù)的多種方式,需要的朋友可以參考下

前言

在數(shù)據(jù)分析和數(shù)據(jù)處理的過(guò)程中，缺失數(shù)據(jù)（Missing Data）是一個(gè)常見(jiàn)的問(wèn)題。缺失數(shù)據(jù)的存在可能會(huì)影響模型的準(zhǔn)確性和預(yù)測(cè)的可靠性，因此正確處理缺失數(shù)據(jù)是數(shù)據(jù)分析的重要步驟。Python作為一種強(qiáng)大的數(shù)據(jù)科學(xué)工具，提供了多種方式來(lái)處理缺失數(shù)據(jù)。

一、缺失數(shù)據(jù)的來(lái)源

在討論如何處理缺失數(shù)據(jù)之前，首先要了解缺失數(shù)據(jù)的來(lái)源。數(shù)據(jù)集中的缺失值可能由多種原因引起，主要包括以下幾種：

數(shù)據(jù)收集錯(cuò)誤：在數(shù)據(jù)錄入或采集的過(guò)程中，可能會(huì)因?yàn)樵O(shè)備故障、傳感器故障、網(wǎng)絡(luò)問(wèn)題等原因?qū)е聰?shù)據(jù)丟失。
用戶不響應(yīng)：在問(wèn)卷調(diào)查中，用戶可能跳過(guò)某些問(wèn)題，導(dǎo)致這些字段的值缺失。
數(shù)據(jù)清洗：在數(shù)據(jù)清洗過(guò)程中，錯(cuò)誤地刪除了某些數(shù)據(jù)，導(dǎo)致剩余數(shù)據(jù)的不完整。
不適用或不相關(guān)的數(shù)據(jù)：某些數(shù)據(jù)字段對(duì)特定記錄不適用，因此沒(méi)有記錄值。
數(shù)據(jù)合并問(wèn)題：在合并多個(gè)數(shù)據(jù)源時(shí)，由于不同數(shù)據(jù)源中可能不包含某些列或記錄，導(dǎo)致合并后的數(shù)據(jù)集出現(xiàn)缺失值。

二、檢測(cè)缺失數(shù)據(jù)

在處理缺失數(shù)據(jù)之前，首先需要檢測(cè)數(shù)據(jù)集中缺失值的存在和分布情況。Python中常用的庫(kù)如pandas、numpy等都提供了強(qiáng)大的工具來(lái)檢測(cè)缺失數(shù)據(jù)。

1. 使用pandas檢測(cè)缺失數(shù)據(jù)

pandas是Python中處理數(shù)據(jù)的主力庫(kù)，它為處理缺失數(shù)據(jù)提供了許多方便的功能。下面是一些常用的方法：

isna()和isnull()：這兩個(gè)函數(shù)可以用來(lái)檢測(cè)數(shù)據(jù)框中是否存在缺失值。它們的返回值是一個(gè)與數(shù)據(jù)框結(jié)構(gòu)相同的布爾型數(shù)據(jù)框，其中的True表示該位置的值缺失。

import pandas as pd
 
# 創(chuàng)建一個(gè)示例數(shù)據(jù)框
df = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [None, 2, 3, 4],
    'C': [1, None, None, 4]
})
 
print(df.isna())

sum()：通過(guò)對(duì)isna()或isnull()的結(jié)果應(yīng)用sum()函數(shù)，可以快速統(tǒng)計(jì)每列中缺失值的數(shù)量。

print(df.isna().sum())

info()：該方法可以顯示數(shù)據(jù)框的基本信息，包括每列的非空值數(shù)量和數(shù)據(jù)類型等，這對(duì)初步了解缺失數(shù)據(jù)的分布情況很有幫助。

print(df.info())

2. 使用numpy檢測(cè)缺失數(shù)據(jù)

numpy是另一個(gè)用于科學(xué)計(jì)算的庫(kù)，它也提供了檢測(cè)缺失值的功能。例如：

numpy.isnan()：該函數(shù)可以檢測(cè)數(shù)組中是否存在NaN值，返回一個(gè)布爾型數(shù)組。

import numpy as np
 
arr = np.array([1, 2, np.nan, 4])
print(np.isnan(arr))

三、缺失數(shù)據(jù)的可視化

在實(shí)際分析中，了解缺失數(shù)據(jù)的分布情況對(duì)選擇合適的處理方法非常重要?？梢暬抢斫鈹?shù)據(jù)的有效手段，Python提供了多種工具用于缺失數(shù)據(jù)的可視化。

1. 使用matplotlib和seaborn進(jìn)行可視化

matplotlib和seaborn是Python中常用的可視化庫(kù)，它們可以幫助我們直觀地展示缺失數(shù)據(jù)的分布。

熱圖（Heatmap）：seaborn中的heatmap函數(shù)可以用來(lái)繪制缺失數(shù)據(jù)的熱圖，顯示哪些位置存在缺失值。

import seaborn as sns
import matplotlib.pyplot as plt
 
sns.heatmap(df.isna(), cbar=False, cmap="viridis")
plt.show()

條形圖（Barplot）：可以通過(guò)繪制每列缺失值數(shù)量的條形圖來(lái)直觀地觀察缺失數(shù)據(jù)的分布。

missing_values_count = df.isna().sum()
missing_values_count.plot(kind='bar')
plt.show()

2. 使用missingno庫(kù)

missingno是專門用于缺失數(shù)據(jù)可視化的庫(kù)，它提供了一些非常有用的可視化功能。

矩陣圖（Matrix plot）：顯示缺失值的存在與否，并通過(guò)亮度表示數(shù)據(jù)的完整性。

import missingno as msno
 
msno.matrix(df)
plt.show()

柱狀圖（Barplot）：顯示每列的缺失值數(shù)量。

msno.bar(df)
plt.show()

層次圖（Dendrogram）：通過(guò)層次聚類顯示缺失數(shù)據(jù)的模式和相似性。

msno.dendrogram(df)
plt.show()

四、處理缺失數(shù)據(jù)

根據(jù)缺失數(shù)據(jù)的情況，處理方式主要有以下幾種：刪除缺失數(shù)據(jù)、填充缺失數(shù)據(jù)和插值法。每種方法都有其適用場(chǎng)景。

1. 刪除缺失數(shù)據(jù)

刪除缺失數(shù)據(jù)是一種直接而簡(jiǎn)單的方法，適用于數(shù)據(jù)量大且缺失值較少的情況。在pandas中，常用的刪除方法有：

dropna()：刪除包含缺失值的行或列。

# 刪除任何包含缺失值的行
df_dropped_rows = df.dropna()
 
# 刪除任何包含缺失值的列
df_dropped_cols = df.dropna(axis=1)

dropna()方法的參數(shù)可以進(jìn)一步定制刪除的條件，例如how='all'只刪除全是缺失值的行或列，thresh=n保留至少有n個(gè)非空值的行或列。

drop()：結(jié)合isna().sum()使用drop()，可以刪除缺失值超過(guò)一定比例的列。

threshold = 2
df_dropped = df.drop(columns=df.columns[df.isna().sum() > threshold])

2. 填充缺失數(shù)據(jù)

當(dāng)缺失值數(shù)量較大且刪除會(huì)導(dǎo)致數(shù)據(jù)損失過(guò)多時(shí)，可以考慮填充缺失數(shù)據(jù)。常用的填充方法有：

使用常量填充：如用0、均值、中位數(shù)、眾數(shù)等填充缺失值。

# 用0填充
df_filled = df.fillna(0)
 
# 用列的均值填充
df_filled_mean = df.fillna(df.mean())
 
# 用列的中位數(shù)填充
df_filled_median = df.fillna(df.median())
 
# 用列的眾數(shù)填充
df_filled_mode = df.fillna(df.mode().iloc[0])

前向填充和后向填充：使用前一個(gè)或后一個(gè)值填充缺失數(shù)據(jù)，適用于時(shí)間序列數(shù)據(jù)。

# 前向填充
df_ffill = df.fillna(method='ffill')
 
# 后向填充
df_bfill = df.fillna(method='bfill')

插值法：通過(guò)插值的方法估算缺失值，適用于時(shí)間序列或連續(xù)數(shù)據(jù)。

# 線性插值
df_interpolated = df.interpolate(method='linear')

3. 插值法（Interpolation）

插值法是一種通過(guò)已知數(shù)據(jù)點(diǎn)來(lái)估算未知數(shù)據(jù)點(diǎn)的方法，適用于連續(xù)數(shù)據(jù)。pandas中的interpolate()函數(shù)支持多種插值方法，例如線性插值、多項(xiàng)式插值、樣條插值等。

線性插值：適用于數(shù)據(jù)呈線性變化的情況。

df_linear = df.interpolate(method='linear')

多項(xiàng)式插值：適用于數(shù)據(jù)具有非線性變化趨勢(shì)的情況。

df_poly = df.interpolate(method='polynomial', order=2)

樣條插值：使用樣條曲線進(jìn)行插值，適用于平滑的數(shù)據(jù)。

df_spline = df.interpolate(method='spline', order=2)

五、高級(jí)方法與建模

在處理缺失數(shù)據(jù)時(shí)，有時(shí)簡(jiǎn)單的刪除或填充無(wú)法滿足需求，這時(shí)可以使用更為復(fù)雜的模型方法來(lái)處理缺失數(shù)據(jù)。

1. 基于回歸的缺失值填充

回歸分析是一種利用已知變量預(yù)測(cè)缺失值的方法。例如，可以使用數(shù)據(jù)集中其他特征來(lái)預(yù)測(cè)缺失值。這種方法在缺失值較少時(shí)效果較好，但需要對(duì)數(shù)據(jù)有較好的理解和適當(dāng)?shù)慕＜记伞?/p>

單變量回歸：使用單個(gè)特征來(lái)預(yù)測(cè)缺失值。

from sklearn.linear_model import LinearRegression
 
# 假設(shè)A列中有缺失值，用B列來(lái)預(yù)測(cè)A列
model = LinearRegression()
df_non_missing = df.dropna(subset=['A'])
model.fit(df_non_missing[['B']], df_non_missing['A'])
 
# 預(yù)測(cè)缺失值
df.loc[df['A'].isna(), 'A'] = model.predict(df.loc[df['A'].isna(), ['B']])

多變量回歸：使用多個(gè)特征來(lái)預(yù)測(cè)缺失值，這種方法通常更為準(zhǔn)確。

# 使用多列來(lái)預(yù)測(cè)A列
features = ['B', 'C']
model.fit(df_non_missing[features], df_non_missing['A'])
 
df.loc[df['A'].isna(), 'A'] = model.predict(df.loc[df['A'].isna(), features])

2. 多重插補(bǔ)（Multiple Imputation）

多重插補(bǔ)是一種先進(jìn)的缺失數(shù)據(jù)處理方法，它通過(guò)生成多個(gè)填充版本的數(shù)據(jù)集并結(jié)合它們的結(jié)果來(lái)考慮數(shù)據(jù)的不確定性。pandas不直接支持多重插補(bǔ)，但可以使用fancyimpute庫(kù)來(lái)實(shí)現(xiàn)。

from fancyimpute import IterativeImputer
 
# 使用多重插補(bǔ)填充缺失值
imputer = IterativeImputer()
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

Python提供了多種工具和方法來(lái)處理缺失數(shù)據(jù)，從簡(jiǎn)單的刪除、填充到復(fù)雜的插值和建模，都有對(duì)應(yīng)的解決方案。在實(shí)際應(yīng)用中，處理缺失數(shù)據(jù)的方法應(yīng)該根據(jù)具體的數(shù)據(jù)集和分析需求來(lái)選擇。例如，對(duì)于缺失值較少的情況，可以選擇刪除；而對(duì)于缺失值較多且數(shù)據(jù)模式復(fù)雜的情況，可以嘗試填充或插值等方法。掌握這些處理缺失數(shù)據(jù)的技巧，將極大地提高數(shù)據(jù)分析的準(zhǔn)確性和有效性。

以上就是Python處理缺失數(shù)據(jù)的多種方式的詳細(xì)內(nèi)容，更多關(guān)于Python處理缺失數(shù)據(jù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python處理缺失數(shù)據(jù)的多種方式

目錄

前言

一、缺失數(shù)據(jù)的來(lái)源

二、檢測(cè)缺失數(shù)據(jù)

1. 使用pandas檢測(cè)缺失數(shù)據(jù)

2. 使用numpy檢測(cè)缺失數(shù)據(jù)

三、缺失數(shù)據(jù)的可視化

1. 使用matplotlib和seaborn進(jìn)行可視化

2. 使用missingno庫(kù)

四、處理缺失數(shù)據(jù)

1. 刪除缺失數(shù)據(jù)

2. 填充缺失數(shù)據(jù)

3. 插值法（Interpolation）

五、高級(jí)方法與建模

1. 基于回歸的缺失值填充

2. 多重插補(bǔ)（Multiple Imputation）

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python處理缺失數(shù)據(jù)的多種方式

目錄

前言

一、缺失數(shù)據(jù)的來(lái)源

二、檢測(cè)缺失數(shù)據(jù)

1. 使用pandas檢測(cè)缺失數(shù)據(jù)

2. 使用numpy檢測(cè)缺失數(shù)據(jù)

三、缺失數(shù)據(jù)的可視化

1. 使用matplotlib和seaborn進(jìn)行可視化

2. 使用missingno庫(kù)

四、處理缺失數(shù)據(jù)

1. 刪除缺失數(shù)據(jù)

2. 填充缺失數(shù)據(jù)

3. 插值法（Interpolation）

五、高級(jí)方法與建模

1. 基于回歸的缺失值填充

2. 多重插補(bǔ)（Multiple Imputation）

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、缺失數(shù)據(jù)的來(lái)源

二、檢測(cè)缺失數(shù)據(jù)

五、高級(jí)方法與建模