修復(fù)Python?Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤的幾種方法總結(jié)
什么是 Python Pandas 錯(cuò)誤標(biāo)記數(shù)據(jù)?
當(dāng)您使用 pandas.read_csv() 函數(shù)從 CSV 文件讀取數(shù)據(jù),并且該函數(shù)在標(biāo)記化或解析數(shù)據(jù)時(shí)遇到問題時(shí),通常會(huì)出現(xiàn)“ Python Pandas 錯(cuò)誤標(biāo)記數(shù)據(jù)” 。標(biāo)記化是指將數(shù)據(jù)分割成更小的單元(標(biāo)記)的過程,通?;诜指舴瑢?duì)于 CSV 文件,通常是逗號(hào)。
修復(fù) Python Pandas 數(shù)據(jù)標(biāo)記錯(cuò)誤
- 檢查 CSV 文件
- 指定分隔符
- 使用正確的編碼
- 跳過有錯(cuò)誤的行
- 修復(fù)不平衡的報(bào)價(jià)
檢查 CSV 文件
當(dāng)我們通過 CSV 文件讀取 Python Pandas 數(shù)據(jù)時(shí),檢查我們上傳的 CSV 文件是否有錯(cuò)誤至關(guān)重要。要檢查 CSV 文件是否有任何錯(cuò)誤,您可以通過任何 Excel 或任何您喜歡的編輯器打開 CSV 文件。如果您發(fā)現(xiàn)任何錯(cuò)誤,請(qǐng)更正錯(cuò)誤并再次上傳正確的 CSV。
指定分隔符
在 Pandas 數(shù)據(jù)框中讀取 CSV 文件時(shí)使用的默認(rèn)分隔符是逗號(hào) (,)。如果您在 CSV 文件中使用任何其他分隔符,則有必要在讀取 CSV 文件時(shí)指定該分隔符,否則會(huì)錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤的標(biāo)記數(shù)據(jù)。您可以在讀取 CSV 時(shí)指定分隔符,如下所示:
示例:在本例中,我們正在讀取 CSV 文件,其中的數(shù)據(jù)以分號(hào)分隔,因此我們?cè)谧x取 CSV 文件時(shí)指定了分隔符分號(hào) (;),如下所示:
import pandas as pd df = pd.read_csv('student_data1.csv', sep=';') df
輸出
使用正確的編碼
在 Pandas 數(shù)據(jù)幀中讀取 CSV 文件時(shí)使用的默認(rèn)編碼是 utf-8。如果您在 CSV 文件中使用任何特殊字符,那么在讀取 CSV 文件時(shí)使用正確的編碼至關(guān)重要,否則會(huì)錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤的標(biāo)記數(shù)據(jù)。您可以在讀取 CSV 時(shí)指定正確的編碼,如下所示:
示例:在此示例中,我們正在讀取的 CSV 文件中包含特殊字符,因此在讀取 CSV 文件時(shí),我們使用 ascii 編碼,如下所示:
import pandas as pd df = pd.read_csv('student_data1.csv', encoding='ascii') df
輸出
跳過有錯(cuò)誤的行
讀取上傳的 CSV 文件的默認(rèn)方式是讀取所有行,無論是否有錯(cuò)誤。如果您知道您的數(shù)據(jù)可能有一些包含錯(cuò)誤的行,那么有必要指定在讀取 CSV 文件時(shí)跳過這些行,否則它將錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤標(biāo)記數(shù)據(jù)。您可以指定在讀取 CSV 時(shí)跳過錯(cuò)誤行,如下所示:
示例:在此示例中,我們正在讀取的 CSV 文件中有一些包含錯(cuò)誤的行,因此在讀取 CSV 文件時(shí),我們將跳過包含錯(cuò)誤的行,如下所示:
import pandas as pd df = pd.read_csv('student_data1.csv', on_bad_lines='skip') df
輸出:
修復(fù)不平衡的報(bào)價(jià)
我們正在讀取的 CSV 文件中會(huì)出現(xiàn)包含不平衡報(bào)價(jià)的各種情況。在這種情況下,有必要在僅讀取 CSV 文件時(shí)修復(fù)不平衡的報(bào)價(jià)。在此方法中,我們將了解如何修復(fù)那些不平衡的報(bào)價(jià)。
**示例: **在此示例中,我們正在讀取的 CSV 文件中有一些不平衡的雙引號(hào),因此在讀取 CSV 文件時(shí),我們將修復(fù)不平衡的雙引號(hào),如下所示:
import pandas as pd import csv df = pd.read_csv('student_data1.csv', quoting=csv.QUOTE_NONE, quotechar='"') df
輸出:
結(jié)論:
在 Python Pandas 中讀取不正確的 CSV 文件可能會(huì)導(dǎo)致錯(cuò)誤標(biāo)記數(shù)據(jù),但本文中定義的各種方法將幫助您解決錯(cuò)誤并正確解析 Pandas 中的 CSV 文件。
到此這篇關(guān)于修復(fù)Python Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤的幾種方法總結(jié)的文章就介紹到這了,更多相關(guān)修復(fù)Python Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)(二)決策樹
這篇文章主要介紹了python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)第二篇,決策樹的相關(guān)資料,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01在Python的Flask框架中驗(yàn)證注冊(cè)用戶的Email的方法
這篇文章主要介紹了在Python的Flask框架中驗(yàn)證注冊(cè)用戶的Email的方法,包括非常詳細(xì)的測(cè)試過程,極力推薦!需要的朋友可以參考下2015-09-09使用Python實(shí)現(xiàn)下載并保存網(wǎng)絡(luò)圖片
這篇文章主要為大家詳細(xì)介紹了如何使用Python實(shí)現(xiàn)下載并保存網(wǎng)絡(luò)圖片,不需要有編程經(jīng)驗(yàn),本文將以最簡(jiǎn)單的方式一步步教你完成,快了跟隨小編一起學(xué)習(xí)一下吧2024-12-12python基于celery實(shí)現(xiàn)異步任務(wù)周期任務(wù)定時(shí)任務(wù)
這篇文章主要介紹了python基于celery實(shí)現(xiàn)異步任務(wù)周期任務(wù)定時(shí)任務(wù),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-12-12pytorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)爆內(nèi)存的解決方案
這篇文章主要介紹了pytorch訓(xùn)練神經(jīng)網(wǎng)絡(luò)爆內(nèi)存的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05