pandas如何處理缺失值
在實(shí)際應(yīng)用中對(duì)于數(shù)據(jù)進(jìn)行分析的時(shí)候,經(jīng)常能看見缺失值,下面來介紹一下如何利用pandas來處理缺失值。常見的缺失值處理方式有,過濾、填充。
一、缺失值的判斷
pandas使用浮點(diǎn)值NaN(Not a Number)表示浮點(diǎn)數(shù)和非浮點(diǎn)數(shù)組中的缺失值,同時(shí)python內(nèi)置None值也會(huì)被當(dāng)作是缺失值。
a、Series的缺失值判斷
s = Series(["a","b",np.nan,"c",None]) print(s) ''' 0 a 1 b 2 NaN 3 c 4 None ''' #判斷缺失值,如果是則返回True,否則返回False print(s.isnull()) ''' 0 False 1 False 2 True 3 False 4 True ''' #輸出缺失值的索引和值 print(s[s.isnull()]) ''' 2 NaN 4 None '''
b、DataFrame的缺失值判斷
a = [[1,np.nan,2],[3,4,None]] data = DataFrame(a) #DataFrame的None值變成了NaN print(data) ''' 0 1 2 0 1 NaN 2.0 1 3 4.0 NaN ''' print(data.isnull()) ''' 0 1 2 0 False True False 1 False False True ''' print(data[data.isnull()]) ''' 0 1 2 0 NaN NaN NaN 1 NaN NaN NaN '''
注意:在使用Series和DataFrame的時(shí)候,如果其中有值為None,Series會(huì)輸出None,而DataFrame會(huì)輸出NaN,但是對(duì)空值判斷沒有影響。DataFrame使用isnull方法在輸出空值的時(shí)候全為NaN,因?yàn)镈ataFrame對(duì)于False對(duì)應(yīng)的位置,輸出值會(huì)使用NaN代替,而Series對(duì)于Fasel對(duì)應(yīng)的位置是沒有輸出值的。
二、過濾缺失數(shù)據(jù)
a、Series的缺失值過濾
s = Series(["a","b",np.nan,"c",None]) #通過使用notnull方法來獲取非缺失數(shù)據(jù) print(s[s.notnull()]) ''' 0 a 1 b 3 c ''' #使用dropna方法刪除缺失數(shù)據(jù),返回一個(gè)刪除后的Series print(s.dropna()) ''' 0 a 1 b 3 c ''' #并沒有在原來的Series上進(jìn)行直接刪除 print(s) ''' 0 a 1 b 2 NaN 3 c 4 None ''' #通過設(shè)置inplace參數(shù)為True,在原Series上進(jìn)行刪除,不會(huì)返回Series print(s.dropna(inplace=True)) #None print(s) ''' 0 a 1 b 3 c '''
b、DataFrame的缺失值過濾
DataFrame刪除缺失值相對(duì)于Series而言就要復(fù)雜一些,也許有的時(shí)候你是想刪除含有缺失值的行或列,也許有時(shí)候你需要?jiǎng)h除的是,當(dāng)整行或整列全為缺失值的時(shí)候才刪除,好在pandas對(duì)于這兩種情況都有相對(duì)應(yīng)的處理方法。
1、刪除含有缺失值的行和列
a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1 NaN 2.0 1 9 NaN NaN 2 3 4.0 NaN 3 5 6.0 7.0 ''' #使用dropna方法刪除含有缺失值的行,默認(rèn)是行 print(data.dropna()) ''' 0 1 2 3 5 6.0 7.0 ''' #刪除含有缺失值的列 print(data.dropna(axis=1)) ''' 0 0 1 1 9 2 3 3 5 '''
2、刪除全為NaN的行和列
a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1.0 NaN 2.0 1 NaN NaN NaN 2 3.0 NaN NaN 3 5.0 NaN 7.0 ''' #當(dāng)行全為NaN的時(shí)候,才刪除,參數(shù)how默認(rèn)是any,含有缺失值就刪除 print(data.dropna(how="all")) ''' 0 1 2 0 1.0 NaN 2.0 2 3.0 NaN NaN 3 5.0 NaN 7.0 ''' #當(dāng)列全為NaN的時(shí)候,才刪除 print(data.dropna(how="all",axis=1)) ''' 0 2 0 1.0 2.0 1 NaN NaN 2 3.0 NaN 3 5.0 7.0 '''
dropna方法的inplace的設(shè)置與Series一樣。
3、指定刪除數(shù)據(jù)后顯示部分?jǐn)?shù)據(jù)觀察
a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1.0 NaN 2.0 1 NaN NaN NaN 2 3.0 NaN NaN 3 5.0 NaN 7.0 ''' #當(dāng)行全為NaN的時(shí)候,才刪除,參數(shù)how默認(rèn)是any,含有缺失值就刪除 print(data.dropna(how="all")) ''' 0 1 2 0 1.0 NaN 2.0 2 3.0 NaN NaN 3 5.0 NaN 7.0 ''' #通過thresh參數(shù)來控制顯示刪除數(shù)據(jù)的條數(shù),刪除列的時(shí)候thresh參數(shù)無效 print(data.dropna(how="all",thresh=2)) ''' 0 1 2 0 1.0 NaN 2.0 3 5.0 NaN 7.0 '''
三、填充缺失值
數(shù)據(jù)都是寶貴的,也許有時(shí)候你的數(shù)據(jù)不夠多,因?yàn)閿?shù)據(jù)越多對(duì)于模型的訓(xùn)練,數(shù)據(jù)分析都是有好處的,所以很多的時(shí)候我們都不想刪除數(shù)據(jù)。通常情況下,也許你會(huì)選擇用一些特殊值來填充缺失值。下面介紹使用pandas的fillna方法來填充缺失數(shù)據(jù)。
1、指定特殊值填充缺失值
a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1 2.0 2.0 1 3 NaN 6.0 2 3 7.0 NaN 3 5 NaN 7.0 ''' #用0填充所有的缺失數(shù)據(jù) print(data.fillna(0)) ''' 0 1 2 0 1 2.0 2.0 1 3 0.0 6.0 2 3 7.0 0.0 3 5 0.0 7.0 '''
2、不同列使用不同的填充值
a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1 2.0 2.0 1 3 NaN 6.0 2 3 7.0 NaN 3 5 NaN 7.0 ''' print(data.fillna({1:1,2:2})) ''' 0 1 2 0 1 2.0 2.0 1 3 1.0 6.0 2 3 7.0 2.0 3 5 1.0 7.0 '''
3、前向填充和后向填充
a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1 2.0 2.0 1 3 NaN 6.0 2 3 7.0 NaN 3 5 NaN 7.0 ''' #前向填充,使用默認(rèn)是上一行的值,設(shè)置axis=1可以使用列進(jìn)行填充 print(data.fillna(method="ffill")) ''' 0 1 2 0 1 2.0 2.0 1 3 2.0 6.0 2 3 7.0 6.0 3 5 7.0 7.0 ''' #后向填充,使用下一行的值,不存在的時(shí)候就不填充 print(data.fillna(method="bfill")) ''' 0 1 2 0 1 2.0 2.0 1 3 7.0 6.0 2 3 7.0 7.0 3 5 NaN 7.0 '''
4、使用列的平均值進(jìn)行填充
a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]] data = DataFrame(a) print(data) ''' 0 1 2 0 1 2.0 2.0 1 3 NaN 6.0 2 3 7.0 NaN 3 5 NaN 7.0 ''' print(data.fillna(data.mean())) ''' 0 1 2 0 1 2.0 2.0 1 3 4.5 6.0 2 3 7.0 5.0 3 5 4.5 7.0 '''
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python實(shí)現(xiàn)多級(jí)目錄壓縮與解壓文件的方法
這篇文章主要介紹了Python實(shí)現(xiàn)多級(jí)目錄壓縮與解壓文件的方法,涉及Python針對(duì)文件路徑的遍歷、判斷以及文件壓縮、解壓縮等相關(guān)操作技巧,需要的朋友可以參考下2018-09-09Keras在mnist上的CNN實(shí)踐,并且自定義loss函數(shù)曲線圖操作
這篇文章主要介紹了Keras在mnist上的CNN實(shí)踐,并且自定義loss函數(shù)曲線圖操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。2021-05-05Python自動(dòng)化測(cè)試pytest中fixtureAPI簡(jiǎn)單說明
這篇文章主要為大家介紹了Python自動(dòng)化測(cè)試pytest中fixtureAPI的簡(jiǎn)單說明,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-10-10淺談Tensorflow2對(duì)GPU內(nèi)存的分配策略
本文主要介紹了Tensorflow2對(duì)GPU內(nèi)存的分配策略,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08簡(jiǎn)單利用conda安裝tensorflow-gpu=2.2.0的過程及問題解決
這篇文章主要介紹了簡(jiǎn)單利用conda安裝tensorflow-gpu=2.2.0,本文給大家詳細(xì)分享問題記錄及錯(cuò)誤問題解決方案,需要的朋友可以參考下2023-01-01