Python使用pandas導(dǎo)入csv文件內(nèi)容的示例代碼

更新時(shí)間：2022年12月23日 14:26:31 作者：smart_cat

這篇文章主要介紹了Python使用pandas導(dǎo)入csv文件內(nèi)容,本文結(jié)合示例代碼給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

使用pandas導(dǎo)入csv文件內(nèi)容

1. 默認(rèn)導(dǎo)入

在Python中導(dǎo)入.csv文件用的方法是read_csv()。

使用read_csv()進(jìn)行導(dǎo)入時(shí)，指定文件名即可

import pandas as pd
df = pd.read_csv(r'G:\test.csv')
print(df)

20221222165053

2. 指定分隔符

read_csv()默認(rèn)文件中的數(shù)據(jù)都是以逗號分開的，但是有的文件不是用逗號分開的，這個(gè)時(shí)候就需要人為指定分隔符號，否則就會(huì)報(bào)錯(cuò)。

分隔符通過sep參數(shù)指定。常見的分隔符除了逗號，還有空格以及制表符(\t)等

import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',')
print(df)

3. 指定讀取行數(shù)

假設(shè)現(xiàn)在有一個(gè)幾百兆的文件，你想了解一下這個(gè)文件里有哪些數(shù)據(jù)，那么這個(gè)時(shí)候你就沒必要把全部數(shù)據(jù)都導(dǎo)入，你只要看到前面幾行即可，因此只要設(shè)置 nrows參數(shù)即可。

import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=2)
print(df)

20221222165130

4. 指定編碼格式

每個(gè)文件都是有編碼格式的，常用的編碼格式有utf-8和gbk等。有的時(shí)候兩個(gè)文件看起來一樣，它們的文件名一樣，格式也一樣，但如果它們的編碼格式不一樣，也是不一樣的文件，比如當(dāng)你把一個(gè)Excel文件另存為保存時(shí)會(huì)出現(xiàn)兩個(gè)選項(xiàng)，雖然都是.csv文件，但是這兩種格式代表兩種不同的文件

20221222163325

Python用得比較多的兩種編碼格式是UTF-8和gbk，默認(rèn)編碼格式是UTF-8。我們要根據(jù)導(dǎo)入文件本身的編碼格式進(jìn)行設(shè)置，通過設(shè)置參數(shù)encoding來設(shè)置導(dǎo)入的編碼格式。

如果我們不指定encoding參數(shù), 默認(rèn)是使用utf-8編碼格式。

import pandas as pd
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8')
print(df)

如果是CSV(逗號分隔) (*.csv)格式的文件，那么在導(dǎo)入的時(shí)候就需要把編碼格式更改為gbk，如果使用UTF-8就會(huì)報(bào)錯(cuò)。

5. 列標(biāo)題與數(shù)據(jù)對齊

因?yàn)槲覀兊谋砀裰杏兄形模形恼加玫淖址陀⑽?、?shù)字占用的字符不一樣，因此需要調(diào)用pd.set_option()使表格對齊顯示。如果你是使用 Jupyter 來運(yùn)行代碼的，Jupyter 會(huì)自動(dòng)渲染出一個(gè)表格，則無需這個(gè)設(shè)置。

import pandas as pd
#處理數(shù)據(jù)的列標(biāo)題與數(shù)據(jù)無法對齊的情況
pd.set_option('display.unicode.ambiguous_as_wide', True)
#無法對齊主要是因?yàn)榱袠?biāo)題是中文
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_csv(r'G:\test.csv', sep=',', nrows=3, encoding='utf-8')
print(df)

對齊后的效果：

20221222164851