pandas中read_csv的缺失值處理方式
今天遇到的問題是,要將一份csv數(shù)據(jù)讀入dataframe,但某些列中含有NA值。對于這些列來說,NA應(yīng)該作為一個(gè)有意義的level,而不是缺失值,但read_csv函數(shù)會(huì)自動(dòng)將類似的缺失值理解為缺失值并變?yōu)镹aN。
看pandas文檔中read_csv函數(shù)中這兩個(gè)參數(shù)的描述,默認(rèn)會(huì)將'-1.#IND', ‘1.#QNAN', ‘1.#IND', ‘-1.#QNAN', ‘#N/A N/A','#N/A', ‘N/A', ‘NA', ‘#NA', ‘NULL', ‘NaN', ‘-NaN', ‘nan', ‘-nan', ''轉(zhuǎn)換為NaN,且na_values參數(shù)還支持定義另外的應(yīng)處理為缺失值的值。
值得注意的是keep_default_na參數(shù),這個(gè)參數(shù)的作用是決定要不要保留默認(rèn)應(yīng)該轉(zhuǎn)換的缺失值列表,將這個(gè)參數(shù)設(shè)為False之后同時(shí)不定義na_values參數(shù),就可以在讀取文件時(shí)不將任何值轉(zhuǎn)換為缺失值NaN。
例:
import pandas as pd df = pd.read_csv('train.csv', keep_default_na=False)
以上這篇pandas中read_csv的缺失值處理方式就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
淺談pandas關(guān)于查看庫或依賴庫版本的API原理
本文主要介紹了淺談pandas關(guān)于查看庫或依賴庫版本的API原理,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-06-06Python?4種實(shí)現(xiàn)定時(shí)任務(wù)的方案
這篇文章主要給大家分享了Python?4種實(shí)現(xiàn)定時(shí)任務(wù)的方案,運(yùn)用 while True: + sleep()、Timeloop 庫、threading.Timer 、內(nèi)置模塊 sched ,下面就來看看具體的實(shí)現(xiàn)過程吧2021-12-12Python實(shí)現(xiàn)自動(dòng)識(shí)別數(shù)字驗(yàn)證碼
這篇文章主要為大家詳細(xì)介紹了如何使用Python來自動(dòng)識(shí)別數(shù)字驗(yàn)證碼,以便在需要時(shí)自動(dòng)填寫或驗(yàn)證驗(yàn)證碼,有需要的小伙伴可以參考一下2024-04-04django drf框架中的user驗(yàn)證以及JWT拓展的介紹
這篇文章主要介紹了django drf框架中的user驗(yàn)證以及JWT拓展的介紹,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08TensorFlow查看輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)名稱方式
今天小編就為大家分享一篇TensorFlow查看輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)名稱方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01