Python Pandas對缺失值的處理方法
Pandas使用這些函數(shù)處理缺失值:
- isnull和notnull:檢測是否是空值,可用于df和series
- dropna:丟棄、刪除缺失值
- axis : 刪除行還是列,{0 or ‘index', 1 or ‘columns'}, default 0
- how : 如果等于any則任何值為空都刪除,如果等于all則所有值都為空才刪除
- inplace : 如果為True則修改當(dāng)前df,否則返回新的df
- fillna:填充空值
- value:用于填充的值,可以是單個值,或者字典(key是列名,value是值)
- method : 等于ffill使用前一個不為空的值填充forword fill;等于bfill使用后一個不為空的值填充backword fill
- axis : 按行還是列填充,{0 or ‘index', 1 or ‘columns'}
- inplace : 如果為True則修改當(dāng)前df,否則返回新的df
import pandas as pd
實例:特殊Excel的讀取、清洗、處理
步驟1:讀取excel的時候,忽略前幾個空行
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx", skiprows=2)
studf
| Unnamed: 0 | 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|---|
| 0 | NaN | 小明 | 語文 | 85.0 |
| 1 | NaN | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | NaN | 英語 | 90.0 |
| 3 | NaN | NaN | NaN | NaN |
| 4 | NaN | 小王 | 語文 | 85.0 |
| 5 | NaN | NaN | 數(shù)學(xué) | NaN |
| 6 | NaN | NaN | 英語 | 90.0 |
| 7 | NaN | NaN | NaN | NaN |
| 8 | NaN | 小剛 | 語文 | 85.0 |
| 9 | NaN | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | NaN | 英語 | 90.0 |
步驟2:檢測空值
studf.isnull()
| Unnamed: 0 | 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|---|
| 0 | True | False | False | False |
| 1 | True | True | False | False |
| 2 | True | True | False | False |
| 3 | True | True | True | True |
| 4 | True | False | False | False |
| 5 | True | True | False | True |
| 6 | True | True | False | False |
| 7 | True | True | True | True |
| 8 | True | False | False | False |
| 9 | True | True | False | False |
| 10 | True | True | False | False |
studf["分?jǐn)?shù)"].isnull()
0 False 1 False 2 False 3 True 4 False 5 True 6 False 7 True 8 False 9 False 10 False Name: 分?jǐn)?shù), dtype: bool
studf["分?jǐn)?shù)"].notnull()
0 True 1 True 2 True 3 False 4 True 5 False 6 True 7 False 8 True 9 True 10 True Name: 分?jǐn)?shù), dtype: bool
# 篩選沒有空分?jǐn)?shù)的所有行 studf.loc[studf["分?jǐn)?shù)"].notnull(), :]
| Unnamed: 0 | 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|---|
| 0 | NaN | 小明 | 語文 | 85.0 |
| 1 | NaN | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | NaN | 英語 | 90.0 |
| 4 | NaN | 小王 | 語文 | 85.0 |
| 6 | NaN | NaN | 英語 | 90.0 |
| 8 | NaN | 小剛 | 語文 | 85.0 |
| 9 | NaN | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | NaN | 英語 | 90.0 |
步驟3:刪除掉全是空值的列
studf.dropna(axis="columns", how='all', inplace=True)
studf
| 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|
| 0 | 小明 | 語文 | 85.0 |
| 1 | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | 英語 | 90.0 |
| 3 | NaN | NaN | NaN |
| 4 | 小王 | 語文 | 85.0 |
| 5 | NaN | 數(shù)學(xué) | NaN |
| 6 | NaN | 英語 | 90.0 |
| 7 | NaN | NaN | NaN |
| 8 | 小剛 | 語文 | 85.0 |
| 9 | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | 英語 | 90.0 |
步驟4:刪除掉全是空值的行
studf.dropna(axis="index", how='all', inplace=True)
studf
| 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|
| 0 | 小明 | 語文 | 85.0 |
| 1 | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | 英語 | 90.0 |
| 4 | 小王 | 語文 | 85.0 |
| 5 | NaN | 數(shù)學(xué) | NaN |
| 6 | NaN | 英語 | 90.0 |
| 8 | 小剛 | 語文 | 85.0 |
| 9 | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | 英語 | 90.0 |
步驟5:將分?jǐn)?shù)列為空的填充為0分
studf.fillna({"分?jǐn)?shù)":0})
| 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|
| 0 | 小明 | 語文 | 85.0 |
| 1 | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | 英語 | 90.0 |
| 4 | 小王 | 語文 | 85.0 |
| 5 | NaN | 數(shù)學(xué) | 0.0 |
| 6 | NaN | 英語 | 90.0 |
| 8 | 小剛 | 語文 | 85.0 |
| 9 | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | 英語 | 90.0 |
# 等同于 studf.loc[:, '分?jǐn)?shù)'] = studf['分?jǐn)?shù)'].fillna(0)
studf
| 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|
| 0 | 小明 | 語文 | 85.0 |
| 1 | NaN | 數(shù)學(xué) | 80.0 |
| 2 | NaN | 英語 | 90.0 |
| 4 | 小王 | 語文 | 85.0 |
| 5 | NaN | 數(shù)學(xué) | 0.0 |
| 6 | NaN | 英語 | 90.0 |
| 8 | 小剛 | 語文 | 85.0 |
| 9 | NaN | 數(shù)學(xué) | 80.0 |
| 10 | NaN | 英語 | 90.0 |
步驟6:將姓名的缺失值填充
使用前面的有效值填充,用ffill:forward fill
studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")
studf
| 姓名 | 科目 | 分?jǐn)?shù) | |
|---|---|---|---|
| 0 | 小明 | 語文 | 85.0 |
| 1 | 小明 | 數(shù)學(xué) | 80.0 |
| 2 | 小明 | 英語 | 90.0 |
| 4 | 小王 | 語文 | 85.0 |
| 5 | 小王 | 數(shù)學(xué) | 0.0 |
| 6 | 小王 | 英語 | 90.0 |
| 8 | 小剛 | 語文 | 85.0 |
| 9 | 小剛 | 數(shù)學(xué) | 80.0 |
| 10 | 小剛 | 英語 | 90.0 |
步驟7:將清洗好的excel保存
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)
總結(jié)
以上就是我在處理客戶端真實IP的方法,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,謝謝大家對腳本之家的支持。
相關(guān)文章
Python實現(xiàn)批量將word轉(zhuǎn)html并將html內(nèi)容發(fā)布至網(wǎng)站的方法
這篇文章主要介紹了Python實現(xiàn)批量將word轉(zhuǎn)html并將html內(nèi)容發(fā)布至網(wǎng)站的方法,涉及Python調(diào)用第三方接口進(jìn)行文件轉(zhuǎn)換及操作數(shù)據(jù)庫等相關(guān)技巧,具有一定參考借鑒價值,需要的朋友可以參考下2015-07-07
Python計算一個給定時間點前一個月和后一個月第一天的方法
這篇文章主要介紹了Python計算一個給定時間點前一個月和后一個月第一天的方法,涉及Python使用datetime模塊計算日期時間的相關(guān)操作技巧,需要的朋友可以參考下2018-05-05
python使用post提交數(shù)據(jù)到遠(yuǎn)程url的方法
這篇文章主要介紹了python使用post提交數(shù)據(jù)到遠(yuǎn)程url的方法,涉及Python使用post傳遞數(shù)據(jù)的相關(guān)技巧,需要的朋友可以參考下2015-04-04
python語言線程標(biāo)準(zhǔn)庫threading.local解讀總結(jié)
在本篇文章里我們給各位整理了一篇關(guān)于python threading.local源碼解讀的相關(guān)文章知識點,有需要的朋友們可以學(xué)習(xí)下。2019-11-11
Python使用Asyncio進(jìn)行web編程方法詳解
這篇文章主要為大家介紹了Python使用Asyncio進(jìn)行web編程的方法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-08-08
Python 實現(xiàn)一個顏色色值轉(zhuǎn)換的小工具
這篇文章主要介紹了Python 實現(xiàn)一個顏色色值轉(zhuǎn)換的小工具的相關(guān)資料,需要的朋友可以參考下2016-12-12
解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題
這篇文章主要介紹了解決pytorch多GPU訓(xùn)練保存的模型,在單GPU環(huán)境下加載出錯問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06

