腳本之家服務器常用軟件

快捷導航

一文帶你深入了解Python中的數據清洗

更新時間：2023年03月27日 14:49:50 作者：胖子是個潛力股

數據清洗一般包括：空值，異常值，重復值，類型轉換和數據整合這些操作，這篇文章將通過一些示例為大家詳細講講Python中數據清洗的操作的實現，需要的可以參考一下

空值處理

data.info()后我們可以看到大部分數據都有541909行，所以我們大致猜到是Description ，CustomerID 列漏結果了

# 空值處理
print(data.isnull().sum())  # 空值中和，查看每一列的空值
 
# 空值刪除
data.drop(columns=['Description'], inplace=True)
print(data.info())
data.isnull()判斷是否為空。data.isnumll().sum()計算空值數量。

第5行進行空值刪除，這里先刪除Description列的空值，inplace=True意思是對數據進行修改，如果沒有inplace=True，則不對data進行修改，打印數據還是和之前一樣，或者重新定義一個變量進行賦值。

由于這一列空值數據比較少，這一列數據對我們數據分析沒有那么重要，所以我們選擇刪除這一整列。

我們這個表是對客戶進行篩選的，所以以CustomerID為準，強制刪除其他列

# CustomerID有空值
# 刪除所有列的空值
data.dropna(inplace=True)
# print(data.info())
print(data.isnull().sum())  # 由于CustomerID為必須字段，所以強制刪除其他列，以CustomerID為準

這里我們先對其他字段進行類型轉換

類型轉換

# 轉換為日期類型
data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
 
# CustomerID 轉換為整型
data['CustomerID'] = data['CustomerID'].astype('int')
print(data.info())

以上我們處理了空值，接下來我們處理異常值。

異常值處理

查看表的基本數據分布可以使用describe

print(data.describe())

可以看到數據Quantity 列中最小值為-80995.這列明顯有異常值，所以需要對這一列進行異常值篩選。

只需要大于0的值。

data = data[data['Quantity'] > 0]
print(data)

打印一下就只有397924行了。

重復值處理

# 查看重復值
print(data[data.duplicated()])

有5194行重復值，這里的重復值是完全重復的，所以是沒用的數據我們可以進行刪除。

刪除重復值

# 刪除重復值
data.drop_duplicates(inplace=True)
 
print(data.info())

刪除后對原來的表進行保存，再去查看一下表的基本信息

現在還剩下392730條數據。數據到這一步就完成了數據清洗?？罩担惓Ｖ?，重復值，類型轉換。后面一篇文章是對數據進行分析。

到此這篇關于一文帶你深入了解Python中的數據清洗的文章就介紹到這了,更多相關Python數據清洗內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

一文帶你深入了解Python中的數據清洗

目錄

空值處理

異常值處理

重復值處理

刪除重復值

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具