欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

修復(fù)Python?Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤的幾種方法總結(jié)

 更新時(shí)間:2023年10月25日 08:32:35   作者:鯨落_  
用于分析數(shù)據(jù)的?Python?庫稱為?Pandas,在?Pandas?中讀取數(shù)據(jù)最常見的方式是通過?CSV?文件,但?CSV?文件的限制是它應(yīng)該采用特定的格式,否則在標(biāo)記數(shù)據(jù)時(shí)會(huì)拋出錯(cuò)誤,在本文中,我們將討論修復(fù)?Python?Pandas?錯(cuò)誤標(biāo)記數(shù)據(jù)的各種方法

什么是 Python Pandas 錯(cuò)誤標(biāo)記數(shù)據(jù)?

當(dāng)您使用 pandas.read_csv() 函數(shù)從 CSV 文件讀取數(shù)據(jù),并且該函數(shù)在標(biāo)記化或解析數(shù)據(jù)時(shí)遇到問題時(shí),通常會(huì)出現(xiàn)“ Python Pandas 錯(cuò)誤標(biāo)記數(shù)據(jù)” 。標(biāo)記化是指將數(shù)據(jù)分割成更小的單元(標(biāo)記)的過程,通?;诜指舴瑢?duì)于 CSV 文件,通常是逗號(hào)。

修復(fù) Python Pandas 數(shù)據(jù)標(biāo)記錯(cuò)誤

  • 檢查 CSV 文件
  • 指定分隔符
  • 使用正確的編碼
  • 跳過有錯(cuò)誤的行
  • 修復(fù)不平衡的報(bào)價(jià)

檢查 CSV 文件

當(dāng)我們通過 CSV 文件讀取 Python Pandas 數(shù)據(jù)時(shí),檢查我們上傳的 CSV 文件是否有錯(cuò)誤至關(guān)重要。要檢查 CSV 文件是否有任何錯(cuò)誤,您可以通過任何 Excel 或任何您喜歡的編輯器打開 CSV 文件。如果您發(fā)現(xiàn)任何錯(cuò)誤,請(qǐng)更正錯(cuò)誤并再次上傳正確的 CSV。

指定分隔符

在 Pandas 數(shù)據(jù)框中讀取 CSV 文件時(shí)使用的默認(rèn)分隔符是逗號(hào) (,)。如果您在 CSV 文件中使用任何其他分隔符,則有必要在讀取 CSV 文件時(shí)指定該分隔符,否則會(huì)錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤的標(biāo)記數(shù)據(jù)。您可以在讀取 CSV 時(shí)指定分隔符,如下所示:

示例:在本例中,我們正在讀取 CSV 文件,其中的數(shù)據(jù)以分號(hào)分隔,因此我們?cè)谧x取 CSV 文件時(shí)指定了分隔符分號(hào) (;),如下所示:

import pandas as pd
df = pd.read_csv('student_data1.csv', sep=';')
df

輸出

使用正確的編碼

在 Pandas 數(shù)據(jù)幀中讀取 CSV 文件時(shí)使用的默認(rèn)編碼是 utf-8。如果您在 CSV 文件中使用任何特殊字符,那么在讀取 CSV 文件時(shí)使用正確的編碼至關(guān)重要,否則會(huì)錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤的標(biāo)記數(shù)據(jù)。您可以在讀取 CSV 時(shí)指定正確的編碼,如下所示:

示例:在此示例中,我們正在讀取的 CSV 文件中包含特殊字符,因此在讀取 CSV 文件時(shí),我們使用 ascii 編碼,如下所示:

import pandas as pd
df = pd.read_csv('student_data1.csv', encoding='ascii')
df

輸出

跳過有錯(cuò)誤的行

讀取上傳的 CSV 文件的默認(rèn)方式是讀取所有行,無論是否有錯(cuò)誤。如果您知道您的數(shù)據(jù)可能有一些包含錯(cuò)誤的行,那么有必要指定在讀取 CSV 文件時(shí)跳過這些行,否則它將錯(cuò)誤地讀取 CSV 文件或給出錯(cuò)誤標(biāo)記數(shù)據(jù)。您可以指定在讀取 CSV 時(shí)跳過錯(cuò)誤行,如下所示:

示例:在此示例中,我們正在讀取的 CSV 文件中有一些包含錯(cuò)誤的行,因此在讀取 CSV 文件時(shí),我們將跳過包含錯(cuò)誤的行,如下所示:

import pandas as pd
df = pd.read_csv('student_data1.csv', on_bad_lines='skip')
df

輸出

修復(fù)不平衡的報(bào)價(jià)

我們正在讀取的 CSV 文件中會(huì)出現(xiàn)包含不平衡報(bào)價(jià)的各種情況。在這種情況下,有必要在僅讀取 CSV 文件時(shí)修復(fù)不平衡的報(bào)價(jià)。在此方法中,我們將了解如何修復(fù)那些不平衡的報(bào)價(jià)。

**示例: **在此示例中,我們正在讀取的 CSV 文件中有一些不平衡的雙引號(hào),因此在讀取 CSV 文件時(shí),我們將修復(fù)不平衡的雙引號(hào),如下所示:

import pandas as pd
import csv
df = pd.read_csv('student_data1.csv', quoting=csv.QUOTE_NONE, quotechar='"')
df

輸出

結(jié)論:

在 Python Pandas 中讀取不正確的 CSV 文件可能會(huì)導(dǎo)致錯(cuò)誤標(biāo)記數(shù)據(jù),但本文中定義的各種方法將幫助您解決錯(cuò)誤并正確解析 Pandas 中的 CSV 文件。

到此這篇關(guān)于修復(fù)Python Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤的幾種方法總結(jié)的文章就介紹到這了,更多相關(guān)修復(fù)Python Pandas數(shù)據(jù)標(biāo)記錯(cuò)誤內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評(píng)論