詳解Python中Pandas read_csv參數(shù)使用
前言
在使用 Pandas 進(jìn)行數(shù)據(jù)分析和處理時(shí),read_csv 是一個(gè)非常常用的函數(shù),用于從 CSV 文件中讀取數(shù)據(jù)并將其轉(zhuǎn)換成 DataFrame 對(duì)象。read_csv 函數(shù)具有多個(gè)參數(shù),可以根據(jù)不同的需求進(jìn)行靈活的配置。本文將詳細(xì)介紹 read_csv 函數(shù)的各個(gè)參數(shù)及其用法,幫助大家更好地理解和利用這一功能。
常用參數(shù)概述
pandas的 read_csv 函數(shù)用于讀取CSV文件。以下是一些常用參數(shù):
- filepath_or_buffer: 要讀取的文件路徑或?qū)ο蟆?/li>
- sep: 字段分隔符,默認(rèn)為,。
- delimiter: 字段分隔符,sep的別名。
- header: 用作列名的行號(hào),默認(rèn)為0(第一行),如果沒有列名則設(shè)為None。
- names: 列名列表,用于結(jié)果DataFrame。
- index_col: 用作索引的列編號(hào)或列名。
- usecols: 返回的列,可以是列名的列表或由列索引組成的列表。
- dtype: 字典或列表,指定某些列的數(shù)據(jù)類型。
- skiprows: 需要忽略的行數(shù)(從文件開頭算起),或需要跳過的行號(hào)列表。
- nrows: 需要讀取的行數(shù)(從文件開頭算起)。
- skipfooter: 文件尾部需要忽略的行數(shù)。
- encoding: 文件編碼(如’utf-8’,'latin-1’等)。
- parse_dates: 將某些列解析為日期。
- infer_datetime_format: 如果 True 且 parse_dates 未指定,那么將嘗試解析日期。
- iterator: 如果 True,返回 TextFileReader 對(duì)象,用于逐塊讀取文件。
- chunksize: 每個(gè)塊的行數(shù),用于逐塊讀取文件。
- compression: 壓縮格式,例如 ‘gzip’ 或 ‘xz’
filepath_or_buffer要讀取的文件路徑或?qū)ο?/strong>
filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]可以接收3種類型,文件路徑,讀取文件的bytes, 讀取文件的str。
可以接受任何有效的字符串路徑。該字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。對(duì)于文件 URL,需要主機(jī)。本地文件可以是:file://localhost/path/to/table.csv。
想傳入一個(gè)路徑對(duì)象,pandas 接受任何 Path
類文件對(duì)象是指具有 read() 方法的對(duì)象,例如文件句柄(例如通過內(nèi)置 open 函數(shù))或 StringIO。
示例如下:
# 讀取字符串路徑 import pandas from pathlib import Path # 1.相對(duì)路徑,或文件絕對(duì)路徑 df1 = pandas.read_csv('data.csv') print(df1) # 文件路徑對(duì)象Path file_path = Path(__file__).parent.joinpath('data.csv') df2 = pandas.read_csv(file_path) print(df2) # 讀取url地址 df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv') print(df3) # 讀取文件對(duì)象 with open('data.csv', encoding='utf8') as fp: df4 = pandas.read_csv(fp) print(df4)
sep: 字段分隔符,默認(rèn)為,
sep 字段分隔符,默認(rèn)為,
delimiter(同sep,分隔符)
示例如下:
df1 = pandas.read_csv('data.csv', sep=',') print(df1) df2 = pandas.read_csv('data.csv', delimiter=',') print(df2)
header 用作列名的行號(hào)
header: 指定哪一行作為列名,默認(rèn)為0,即第一行,如果沒有列名則設(shè)為None。
如下數(shù)據(jù),沒有header
張三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
張六,男,22,123@qq.com
# 讀取示例 df6 = pandas.read_csv('data2.csv', header=None) print(df6)
names自定義列名
names自定義列名,如果header=None,則可以使用該參數(shù)。
df6 = pandas.read_csv( 'data2.csv', header=None, names=['姓名', '性別', '年齡', '郵箱']) print(df6)
index_col 用作行索引的列編號(hào)或列名
index_col參數(shù)在使用pandas的read_csv函數(shù)時(shí)用于指定哪一列作為DataFrame的索引。
如果設(shè)置為None(默認(rèn)值),CSV文件中的行索引將用作DataFrame的索引。如果設(shè)置為某個(gè)列的位置(整數(shù))或列名(字符串),則該列將被用作DataFrame的索引。
import pandas as pd # 我們想要將'`email`'列作為DataFrame的索引 df8 = pd.read_csv('data.csv', index_col='email') print(df8) # 或者,如果我們知道'email'列在第4列的位置,也可以這樣指定 df9 = pd.read_csv('data.csv', index_col=3) print(df9)
usecols 讀取指定的列
usecols 讀取指定的列,可以是列名或列編號(hào)。
import pandas as pd # 1.指定列的編號(hào) df10 = pd.read_csv('data.csv', usecols=[0, 1]) print(df10) # 2.指定列的名稱 df11 = pd.read_csv('data.csv', usecols=['name', 'sex']) print(df11)
skiprows 、nrows 和skipfooter
skiprows: 需要忽略的行數(shù)(從文件開頭算起),或需要跳過的行號(hào)列表。
nrows: 需要讀取的行數(shù)(從文件開頭算起)
skipfooter: 文件尾部需要忽略的行數(shù)。
示例如下:
# skiprpws忽略的行數(shù) import pandas as pd # 跳過前面2行 df15 = pd.read_csv('data.csv', skiprows=2) print(df15) # nrows 需要讀取的行數(shù) import pandas as pd # 讀取前面2行 df15 = pd.read_csv('data.csv', nrows=2) print(df15) # 文件尾部需要忽略的行數(shù) import pandas as pd # 忽略文件尾部3行 df15 = pd.read_csv('data.csv', skipfooter=3) print(df15)
parse_dates 將某些列解析為日期
示例如下:
name,time,date Bob,21:33:30,2019-10-10 Jerry,21:30:15,2019-10-10 Tom,21:25:30,2019-10-10 Vince,21:20:10,2019-10-10 Hank,21:40:15,2019-10-10 import pandas as pd # 1.指定列的編號(hào) df16 = pd.read_csv('data.csv') print(df16) ------------- # 結(jié)果如下: name time date 0 Bob 21:33:30 2019-10-10 1 Jerry 21:30:15 2019-10-10 2 Tom 21:25:30 2019-10-10 3 Vince 21:20:10 2019-10-10 4 Hank 21:40:15 2019-10-10
默認(rèn)讀取的date日期是字符串類型,使用parse_dates 參數(shù)轉(zhuǎn)成datetime類型。
import pandas as pd df16 = pd.read_csv('ddd.csv') print(df16.to_dict()) # 'date': {0: '2019-10-10', 1: '2019-10-10', df17 = pd.read_csv('ddd.csv', parse_dates=['date']) print(df17.to_dict()) # 'date': {0: Timestamp('2019-10-10 00:00:00')
總結(jié)
通過本文的介紹,大家應(yīng)該對(duì) Pandas 中 read_csv 函數(shù)的參數(shù)有了更全面的了解。在實(shí)際應(yīng)用中,根據(jù)數(shù)據(jù)的特點(diǎn)和處理需求,靈活使用 read_csv 的各種參數(shù),可以更輕松、高效地進(jìn)行數(shù)據(jù)讀取和預(yù)處理,為數(shù)據(jù)分析和建模提供更好的基礎(chǔ)。
以上就是詳解Python中Pandas read_csv參數(shù)使用的詳細(xì)內(nèi)容,更多關(guān)于Pandas read_csv參數(shù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python單線程文件傳輸?shù)膶?shí)例(C/S)
今天小編就為大家分享一篇python單線程文件傳輸?shù)膶?shí)例(C/S),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-02-02windows 下python+numpy安裝實(shí)用教程
這篇文章主要介紹了windows 下python+numpy安裝實(shí)用教程,具有一定借鑒價(jià)值,需要的朋友可以參考下。2017-12-12Python查看多臺(tái)服務(wù)器進(jìn)程的腳本分享
這篇文章主要介紹了Python查看多臺(tái)服務(wù)器進(jìn)程的腳本分享,需要的朋友可以參考下2014-06-06Pyramid Mako模板引入helper對(duì)象的步驟方法
ylons中的mako模板,默認(rèn)會(huì)引入一個(gè)helper對(duì)象,我們可以在里面擴(kuò)展方法,應(yīng)對(duì)在模板輸出時(shí)候會(huì)常用的操作,那么在Pyramid中如何默認(rèn)引入同樣的輔助類到模板中2013-11-11Python cookbook(數(shù)據(jù)結(jié)構(gòu)與算法)通過公共鍵對(duì)字典列表排序算法示例
這篇文章主要介紹了Python cookbook(數(shù)據(jù)結(jié)構(gòu)與算法)通過公共鍵對(duì)字典列表排序算法,結(jié)合實(shí)例形式分析了Python基于operator模塊中的itemgetter()函數(shù)對(duì)字典進(jìn)行排序的相關(guān)操作技巧,需要的朋友可以參考下2018-03-03