用Python進(jìn)行數(shù)據(jù)清洗以及值處理
數(shù)據(jù)清洗
數(shù)據(jù)分析中,數(shù)據(jù)清洗是一個(gè)必備階段。數(shù)據(jù)分析所使用的數(shù)據(jù)一般都很龐大,致使數(shù)據(jù)不可避免的出現(xiàn)重復(fù)、缺失、格式錯(cuò)誤等異常數(shù)據(jù),如果忽視這些異常數(shù)據(jù),可能導(dǎo)致分析結(jié)果的準(zhǔn)確性。
用以下數(shù)據(jù)為例,進(jìn)行講解數(shù)據(jù)清洗常用方式:
下面的操作只做示例,具體數(shù)據(jù)的清洗方式要根據(jù)數(shù)據(jù)特性進(jìn)行選擇!
重復(fù)值處理
重復(fù)值處理,一般采用直接刪除重復(fù)值的方式。在pandas中,可以用duplicated
函數(shù)進(jìn)行查看和drop_duplicates
函數(shù)刪除重復(fù)數(shù)據(jù)。
如下所示,可以通過(guò)duplicated
函數(shù)查看重復(fù)的數(shù)據(jù):
需要?jiǎng)h除重復(fù)值時(shí),可直接用drop_duplicates
函數(shù)完成:
缺失值處理
缺失值與重復(fù)值一樣,都是數(shù)據(jù)中比較常見的問(wèn)題,必須進(jìn)行處理才能進(jìn)行下一步分析,保證分析的準(zhǔn)確性。缺失值在數(shù)據(jù)中一般用NaN
表示,在處理缺失值時(shí),一般采用刪除
和填補(bǔ)
方式進(jìn)行處理。但在實(shí)際中,缺失值的處理是一件非常困難的事情,刪除
和填補(bǔ)
方式都無(wú)法解決,最后只能留著。
在pandas中,其有多種方式查看和處理缺失值的方法。
查看缺失值
最為基礎(chǔ)的可以通過(guò)isnull
和notnul
,或者info
函數(shù)來(lái)實(shí)現(xiàn)。
用info
函數(shù)可以很清楚的知道每一列的缺失值情況,進(jìn)而做出判斷處理:
isnull
函數(shù)為判斷序列元素是否為缺失,notnul
函數(shù)判斷序列元素是否不為缺失,二者在本質(zhì)上是一樣的。而二者在數(shù)據(jù)量龐大時(shí),效果很差。所以一般不會(huì)單獨(dú)使用,而是配合其它方法進(jìn)行使用。
查看某列缺失值所在的行:
isnull
函數(shù)配合sum
函數(shù)計(jì)算每列缺失值的個(gè)數(shù):
在多數(shù)查看缺失值中,經(jīng)常會(huì)采用計(jì)算缺失值在列中占比的方式,判斷缺失對(duì)數(shù)據(jù)具有多大的影響,從而選擇是刪除數(shù)據(jù)還是填補(bǔ)數(shù)據(jù)。計(jì)算占比可使用以下方式:
df.apply(lambda x: x.isnull().sum()/x.size)
x.size
為各個(gè)數(shù)據(jù)列總行數(shù):
缺失值刪除
刪除缺失值的情形,一般是在不會(huì)影響分析結(jié)果、造成的影響無(wú)傷大雅,或者難以填補(bǔ)的時(shí)候采用。
在pandas中,可以直接用dropna
函數(shù)進(jìn)行刪除所有含有缺失值的行,或者選擇性刪除含有缺失值到的行:
缺失值填補(bǔ)
在無(wú)法直接刪除缺失值時(shí),或者包含缺失值的行具有很多而無(wú)法選擇性刪除時(shí),填補(bǔ)是最佳的選擇,但填補(bǔ)的方式要根據(jù)數(shù)據(jù)來(lái)選擇,否則填補(bǔ)的數(shù)據(jù)依然會(huì)影響分析的準(zhǔn)確性。
在pandas中,可以使用fillna
函數(shù)完成對(duì)缺失值的填補(bǔ),例如對(duì)表中的體重列進(jìn)行填補(bǔ),填補(bǔ)方法為中位數(shù):
或者用平均值填補(bǔ):
也可以用pandas中的ffill
函數(shù)對(duì)缺失值進(jìn)行前向填補(bǔ),但在前向填補(bǔ)時(shí)需要注意各個(gè)列數(shù)據(jù)的情況:
但可以看到,體重列的第一行未填補(bǔ)完成,而pandas中提供了bfill
函數(shù)進(jìn)行后向填補(bǔ):
數(shù)據(jù)類型轉(zhuǎn)換
數(shù)據(jù)類型關(guān)乎后面的數(shù)據(jù)處理和數(shù)據(jù)可視化,不同的數(shù)據(jù)類型處理和進(jìn)行可視化的用法都不一樣,因此,事先把數(shù)據(jù)的類型轉(zhuǎn)換好,利于后面的相關(guān)步驟。
在pandas中,可以用info
和dtypes
方法進(jìn)行查看數(shù)據(jù)類型:
常用的數(shù)據(jù)類型包括str(字符型)
、float(浮點(diǎn)型)
和int(整型)
。當(dāng)某列數(shù)據(jù)的類型出現(xiàn)錯(cuò)誤時(shí),可通過(guò)astype
函數(shù)進(jìn)行強(qiáng)制轉(zhuǎn)換數(shù)據(jù)類型。
例如下面通過(guò)astype
函數(shù)對(duì)數(shù)值型列轉(zhuǎn)換為字符型:
文本處理
在數(shù)據(jù)中,文本在某種程度上可以說(shuō)是最‘臟’的數(shù)據(jù),不管在錄入的數(shù)據(jù),還是爬取的數(shù)據(jù),總會(huì)出現(xiàn)各種各樣的‘臟’數(shù)據(jù),處理難度非常高。在處理中,主要是切分字符串、值替換。
pandas提供了df.str.split.str()
方法對(duì)字符串的切割,以下通過(guò)此方法獲得地級(jí)市名稱:
對(duì)于一些多數(shù)詞,可以通過(guò)df.str.replace()
方法進(jìn)行增加、替換或者刪除:
到此這篇關(guān)于用Python進(jìn)行數(shù)據(jù)清洗以及值處理的文章就介紹到這了,更多相關(guān)Python進(jìn)行數(shù)據(jù)清洗內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- 使用Python進(jìn)行數(shù)據(jù)清洗與存儲(chǔ)的基本方法
- 如何使用Python數(shù)據(jù)清洗庫(kù)
- 使用python數(shù)據(jù)清洗代碼實(shí)例
- Python常用的數(shù)據(jù)清洗方法詳解
- 一文帶你深入了解Python中的數(shù)據(jù)清洗
- 三個(gè)Python常用的數(shù)據(jù)清洗處理方式總結(jié)
- Python數(shù)據(jù)清洗&預(yù)處理入門教程
- python?文件讀寫和數(shù)據(jù)清洗
- Python實(shí)現(xiàn)數(shù)據(jù)清洗的示例詳解
- python數(shù)據(jù)清洗中的時(shí)間格式化實(shí)現(xiàn)
- Python實(shí)現(xiàn)數(shù)據(jù)清洗的18種方法
相關(guān)文章
Python編程實(shí)現(xiàn)雙擊更新所有已安裝python模塊的方法
這篇文章主要介紹了Python編程實(shí)現(xiàn)雙擊更新所有已安裝python模塊的方法,涉及Python針對(duì)模塊操作命令的相關(guān)封裝與調(diào)用技巧,需要的朋友可以參考下2017-06-06用Django實(shí)現(xiàn)一個(gè)可運(yùn)行的區(qū)塊鏈應(yīng)用
這篇文章主要介紹了用Django實(shí)現(xiàn)一個(gè)可運(yùn)行的區(qū)塊鏈應(yīng)用,需要的朋友可以參考下2018-03-03Python隨手筆記之標(biāo)準(zhǔn)類型內(nèi)建函數(shù)
Python提供了一些內(nèi)建函數(shù)用于基本對(duì)象類型:cmp(),repr(),str(),type()和等同于repr()的(' ')操作符,本文給大家分享Python隨手筆記之標(biāo)準(zhǔn)類型內(nèi)建函數(shù),對(duì)python內(nèi)建函數(shù)相關(guān)知識(shí)感興趣的朋友一起學(xué)習(xí)吧2015-12-12Python實(shí)現(xiàn)二叉樹前序、中序、后序及層次遍歷示例代碼
這篇文章主要給大家介紹了關(guān)于Python實(shí)現(xiàn)二叉樹前序、中序、后序及層次遍歷的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05極速整理文件Python自動(dòng)化辦公實(shí)用技巧
當(dāng)涉及到自動(dòng)化辦公和文件整理,Python確實(shí)是一個(gè)強(qiáng)大的工具,在這篇博客文章中,將深入探討極速整理文件!Python自動(dòng)化辦公新利器這個(gè)話題,并提供更加豐富和全面的示例代碼,以便讀者更好地理解和運(yùn)用這些技巧2024-01-01python實(shí)現(xiàn)協(xié)同過(guò)濾推薦算法完整代碼示例
這篇文章主要介紹了python實(shí)現(xiàn)協(xié)同過(guò)濾推薦算法完整代碼示例,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12