利用pandas進(jìn)行數(shù)據(jù)清洗的7種方式
1.處理數(shù)據(jù)中的空值
我們在處理真實的數(shù)據(jù)時,往往會有很多缺少的的特征數(shù)據(jù),就是所謂的空值,必須要進(jìn)行處理才能進(jìn)行下一步分析
空值的處理方式有很多種,一般是刪除或者填充
Excel通過“查找和替換”功能實現(xiàn)空值的統(tǒng)一替換:
通過“定位”刪除空值:
pandas處理空值的方式比較靈活,可以使用dropna函數(shù)刪除空值
import pandas as pd data=pd.read_csv('成績表.csv',encoding='gbk') data.dropna(how='any')
用fillna函數(shù)實現(xiàn)空值的填充
①使用數(shù)字0填充數(shù)據(jù)表中的空值
data.fillna(value=0)
②使用平均值填充數(shù)據(jù)表中的空值
data['語文'].fillna(data['語文'].mean())
2.刪除空格
excel中清理空格很簡單,直接替換即可
pandas刪除空格也很方便,主要使用map函數(shù)
data['姓名']=data['姓名'].map(str.strip) data
3.大小寫轉(zhuǎn)換
excel中大小寫轉(zhuǎn)換函數(shù)分別為upper()和lower()
pandas中轉(zhuǎn)換函數(shù)也為upper()和lower()
data['拼音']=data['拼音'].str.upper() data
data['拼音']=data['拼音'].str.lower() data
4.更改數(shù)據(jù)格式
excel中更改數(shù)據(jù)格式通過快捷鍵“ctrl+1”打開“設(shè)置單元格格式”:
pandas使用astype來修改數(shù)據(jù)格式,以將“語文”列改成整數(shù)為例
data['語文'].dropna(how='any').astype('int')
5.更改列名稱
excel中更改列名稱就不說了,大家都會
pandas使用rename函數(shù)更改列名稱,代碼如下:
data.rename(columns={'語文':'語文成績'})
6.刪除重復(fù)值
excel的功能區(qū)“數(shù)據(jù)”下有“刪除重復(fù)項”,可以用來刪除表中的重復(fù)值,默認(rèn)保留最第一個重復(fù)值,把后面的刪除:
pandas使用drop_duplicates函數(shù)刪除重復(fù)值:
data['數(shù)學(xué)'].drop_duplicates() #默認(rèn)刪除后面的重復(fù)值
data['數(shù)學(xué)'].drop_duplicates(keep='last') #刪除第一項重復(fù)值
7.修改及替換數(shù)據(jù)
excel中使用“查找和替換”功能實現(xiàn)數(shù)值的替換
pandas中使用replace函數(shù)實現(xiàn)數(shù)據(jù)替換
data['姓名'].replace('成 功','失 敗')
到此這篇關(guān)于利用pandas進(jìn)行數(shù)據(jù)清洗的7種方式的文章就介紹到這了,更多相關(guān)pandas數(shù)據(jù)清洗內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
探討python??pandas.DataFrame.to_json?函數(shù)
這篇文章主要介紹了python??pandas.DataFrame.to_json?函數(shù)示例詳解,to_json?函數(shù)提供了靈活的參數(shù)設(shè)置,使得?pandas?數(shù)據(jù)框能夠以多種格式導(dǎo)出為?JSON?文件,需要的朋友可以參考下2024-07-07用python基于appium模塊開發(fā)一個自動收取能量的小助手
大家都有了解過螞蟻森林吧,本篇文章帶給你自動收取螞蟻森林能量的思路與方法,基于appium模塊開發(fā)一個自動收取能量的小助手,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的價值2021-09-09

在Django中自定義filter并在template中的使用詳解