Pandas之read_csv()讀取文件跳過(guò)報(bào)錯(cuò)行的解決

更新時(shí)間：2020年04月21日 16:09:48 作者：wf592523813

這篇文章主要介紹了Pandas之read_csv()讀取文件跳過(guò)報(bào)錯(cuò)行的解決，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

讀取文件時(shí)遇到和列數(shù)不對(duì)應(yīng)的行，此時(shí)會(huì)報(bào)錯(cuò)。若報(bào)錯(cuò)行可以忽略，則添加以下參數(shù):

樣式：

pandas.read_csv(***,error_bad_lines=False)

pandas.read_csv(filePath) 方法來(lái)讀取csv文件時(shí)，可能會(huì)出現(xiàn)這種錯(cuò)誤：

ParserError：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.

是指在csv文件的第407行數(shù)據(jù)，期待2個(gè)字段，但在第407行實(shí)際發(fā)現(xiàn)了3個(gè)字段。

原因：header只有兩個(gè)字段名，但數(shù)據(jù)的第407行卻出現(xiàn)了3個(gè)字段（可能是該行數(shù)據(jù)包含了逗號(hào)，或者確實(shí)有三個(gè)部分），導(dǎo)致pandas不知道該如何處理。

解決辦法：把第407行多出的字段刪除，或者通過(guò)在read_csv方法中設(shè)置error_bad_lines=False來(lái)忽略這種錯(cuò)誤：

改為

pandas.read_csv(filePath,error_bad_lines=False)

來(lái)忽略掉其中出現(xiàn)錯(cuò)亂(例如，由于逗號(hào)導(dǎo)致多出一列)的行。

KeyError錯(cuò)誤：

報(bào)這種錯(cuò)是由于使用了DataFrame中沒有的字段，例如id字段，原因可能是：

.csv文件的header部分沒加逗號(hào)分割，此時(shí)可使用df.columns.values來(lái)查看df到底有哪些字段：

print(df.columns.values)

.在操作DataFrame的過(guò)程中丟掉了id字段的header，卻沒發(fā)現(xiàn)該字段已丟失。

例如：

df=df[df['id']!='null']#取得id字段不為null的行
df=df['id']#賦值后df為Series，表示df在id列的值，而不再是一個(gè)DataFrame,于是丟掉了id的頭，此時(shí)若再使用df['id']將報(bào)錯(cuò)。

取列的值，與取列的區(qū)別：

df=df['id']#取id列的值，賦值后df為Series類型，可用print(type(df))來(lái)查看其類型
df=df[['id']]#只取df的id列作為一個(gè)新的DataFrame，賦值后df仍然是一個(gè)DataFrame
df=df[['id','age']]#取df的id和age列作為一個(gè)新的DataFrame，賦值后df仍然是一個(gè)DataFrame

過(guò)濾行

df=df[df['id']!='null']#過(guò)濾掉id字段取值為'null'的行

注意，此處的'null'是一個(gè)字符串，若df中某行id字段的值不是字符串型，或者為空，將報(bào)TypeError：invalid type comparison錯(cuò)，因?yàn)橹挥邢嗤愋偷闹挡拍苓M(jìn)行比較。

解決辦法：如果不能保證id列都是string類型，則需要去掉該過(guò)濾條件。

補(bǔ)充知識(shí)：pandas 使用read_csv讀取文件時(shí)產(chǎn)生錯(cuò)誤：EOF inside string starting at line

解決方法：使用參數(shù) quoting

df = pd.read_csv(csvfile, header = None, delimiter="\t", quoting=csv.QUOTE_NONE, encoding='utf-8')

以上這篇Pandas之read_csv()讀取文件跳過(guò)報(bào)錯(cuò)行的解決就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python 繪圖模塊matplotlib的使用簡(jiǎn)介
這篇文章主要介紹了python 繪圖模塊matplotlib的使用簡(jiǎn)介，幫助大家更好的理解和學(xué)習(xí)使用python，感興趣的朋友可以了解下
2021-03-03
python 數(shù)據(jù)清洗之?dāng)?shù)據(jù)合并、轉(zhuǎn)換、過(guò)濾、排序
這篇文章主要介紹了python 數(shù)據(jù)清洗之?dāng)?shù)據(jù)合并、轉(zhuǎn)換、過(guò)濾、排序的相關(guān)資料,需要的朋友可以參考下
2017-02-02
python利用多線程+隊(duì)列技術(shù)爬取中介網(wǎng)互聯(lián)網(wǎng)網(wǎng)站排行榜
這篇文章主要介紹了python利用多線程+隊(duì)列技術(shù)爬取中介網(wǎng)互聯(lián)網(wǎng)網(wǎng)站排行榜，文章基于python的相關(guān)內(nèi)容展開詳細(xì)介紹，具有一定的參考價(jià)值，需要的小伙伴可以參考一下
2022-05-05
Windows上使用virtualenv搭建Python+Flask開發(fā)環(huán)境
在自己本機(jī)的開發(fā)環(huán)境下,我們完全可以使用virtualenv來(lái)hold住多個(gè)Python環(huán)境,這樣就可以留出一個(gè)專門服役于Flask框架,哈哈,這里我們就來(lái)看看如何在Windows系統(tǒng)上使用virtualenv搭建Python+Flask開發(fā)環(huán)境
2016-06-06
Python占用的內(nèi)存優(yōu)化教程
這篇文章主要給大家介紹了關(guān)于Python占用的內(nèi)存優(yōu)化教程，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
Python使用matplotlib繪制三維圖形示例
這篇文章主要介紹了Python使用matplotlib繪制三維圖形,結(jié)合實(shí)例形式分析了Python基于matplotlib庫(kù)繪制三維圖形的相關(guān)操作技巧與注意事項(xiàng),需要的朋友可以參考下
2018-08-08
Keras模型轉(zhuǎn)成tensorflow的.pb操作
這篇文章主要介紹了Keras模型轉(zhuǎn)成tensorflow的.pb操作，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-07-07
Python進(jìn)程間通訊與進(jìn)程池超詳細(xì)講解
進(jìn)程彼此之間互相隔離，要實(shí)現(xiàn)進(jìn)程間通信（IPC），multiprocessing模塊主要通過(guò)隊(duì)列方式，隊(duì)列：隊(duì)列類似于一條管道，元素先進(jìn)先出，需要注意的一點(diǎn)是：隊(duì)列都是在內(nèi)存中操作,進(jìn)程退出,隊(duì)列清空,另外,隊(duì)列也是一個(gè)阻塞的形態(tài)
2022-12-12
Python語(yǔ)法學(xué)習(xí)之正則表達(dá)式的量詞匯總
通過(guò)正則的規(guī)則匹配到的信息都是一個(gè)單獨(dú)的字符存到輸出結(jié)果中的，如何更夠根據(jù)字符串中的詞組進(jìn)行匹配呢？因此本文將帶大家學(xué)習(xí)一下正則表達(dá)式中的量詞符號(hào)與組的概念，感興趣的可以了解一下
2022-04-04
Python Vaex實(shí)現(xiàn)快速分析100G大數(shù)據(jù)量
Vaex是一個(gè)開源的DataFrame庫(kù)，它可以對(duì)表格數(shù)據(jù)集進(jìn)行可視化、探索、分析，甚至機(jī)器學(xué)習(xí)，這些數(shù)據(jù)集和你的硬盤驅(qū)動(dòng)器一樣大。本文就來(lái)聊聊如何利用Vaex實(shí)現(xiàn)快速分析100G大數(shù)據(jù)量，需要的可以參考一下
2023-03-03