快捷導(dǎo)航

Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)

更新時(shí)間：2022年11月03日 14:41:27 作者：云朵君

數(shù)據(jù)分析過(guò)程中，需要對(duì)獲取到的數(shù)據(jù)進(jìn)行分析，往往第一步就是導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)有很多方式，不同的數(shù)據(jù)文件需要用到不同的導(dǎo)入方式，相同的文件也會(huì)有幾種不同的導(dǎo)入方式。下面總結(jié)幾種常用的文件導(dǎo)入方法

兩種獲取help的方法

很多時(shí)候?qū)σ恍┖瘮?shù)方法不是很了解，此時(shí)Python提供了一些幫助信息，以快速使用Python對(duì)象。

使用Numpy中的info方法

np.info(np.ndarray.dtype)

Python內(nèi)置函數(shù)

help(pd.read_csv)

一、文本文件

1、純文本文件

filename?=?'demo.txt'
file?=?open(filename,?mode='r')?#?打開(kāi)文件進(jìn)行讀取
text?=?file.read()?#?讀取文件的內(nèi)容
print(file.closed)?#?檢查文件是否關(guān)閉
file.close()?#?關(guān)閉文件
print(text)

使用上下文管理器 -- with

with?open('demo.txt',?'r')?as?file:
????print(file.readline())?#?一行一行讀取
????print(file.readline())
????print(file.readline())

2、表格數(shù)據(jù)：Flat文件

使用 Numpy 讀取 Flat 文件

Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語(yǔ)言級(jí)別的。

Flat 文件是一種包含沒(méi)有相對(duì)關(guān)系結(jié)構(gòu)的記錄的文件。（支持Excel、CSV和Tab分割符文件）

1.具有一種數(shù)據(jù)類型的文件

用于分隔值的字符串跳過(guò)前兩行。在第一列和第三列讀取結(jié)果數(shù)組的類型。

filename?=?'mnist.txt'
data?=?np.loadtxt(filename,
??????????????????delimiter=',',
??????????????????skiprows=2,
??????????????????usecols=[0,2],
??????????????????dtype=str)

2.具有混合數(shù)據(jù)類型的文件

兩個(gè)硬的要求：

跳過(guò)表頭信息
區(qū)分橫縱坐標(biāo)

filename?=?'titanic.csv'
data?=?np.genfromtxt(filename,
?????????????????????delimiter=',',
?????????????????????names=True,
?????????????????????dtype=None)

使用 Pandas 讀取Flat文件

filename?=?'demo.csv'?
data?=?pd.read_csv(filename,?
???????????????????nrows=5,????????#?要讀取的文件的行數(shù)
???????????????????header=None,????#?作為列名的行號(hào)
???????????????????sep='\t',???????#?分隔符使用
???????????????????comment='#',????#?分隔注釋的字符
???????????????????na_values=[""])?#?可以識(shí)別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()是pandas中對(duì)excel表格文件進(jìn)行讀取相關(guān)操作非常方便快捷的類，尤其是在對(duì)含有多個(gè)sheet的excel文件進(jìn)行操控時(shí)非常方便。

file?=?'demo.xlsx'
data?=?pd.ExcelFile(file)
df_sheet2?=?data.parse(sheet_name='1960-1966',
???????????????????????skiprows=[0],
???????????????????????names=['Country',
??????????????????????????????'AAM:?War(2002)'])
df_sheet1?=?pd.read_excel(data,
??????????????????????????sheet_name=0,
??????????????????????????parse_cols=[0],
??????????????????????????skiprows=[0],
??????????????????????????names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計(jì)分析文件。

from?sas7bdat?import?SAS7BDAT
with?SAS7BDAT('demo.sas7bdat')?as?file:
??df_sas?=?file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。其保存的文件后綴名為.dta的Stata文件。

data?=?pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數(shù)據(jù)類型（列表，字典，集合，類等）都可以用pickle來(lái)序列化。python的pickle模塊實(shí)現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過(guò)pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\(yùn)行的對(duì)象信息保存到文件中去，永久存儲(chǔ)；通過(guò)pickle模塊的反序列化操作，我們能夠從文件中創(chuàng)建上一次程序保存的對(duì)象。

import?pickle
with?open('pickled_demo.pkl',?'rb')?as?file:
???pickled_data?=?pickle.load(file)?#?下載被打開(kāi)被讀取到的數(shù)據(jù)

與其相對(duì)應(yīng)的操作是寫(xiě)入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一種常見(jiàn)的跨平臺(tái)數(shù)據(jù)儲(chǔ)存文件，可以存儲(chǔ)不同類型的圖像和數(shù)碼數(shù)據(jù)，并且可以在不同類型的機(jī)器上傳輸，同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫(kù)。

HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名，需要專門(mén)的軟件才能打開(kāi)預(yù)覽文件的內(nèi)容。

import?h5py
filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data?=?h5py.File(filename,?'r')

七、Matlab 文件

其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲(chǔ)的后綴為.mat的文件。

import?scipy.io
filename?=?'workspace.mat'
mat?=?scipy.io.loadmat(filename)

八、關(guān)系型數(shù)據(jù)庫(kù)

from?sqlalchemy?import?create_engine
engine?=?create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個(gè)表名列表

table_names?=?engine.table_names()

1、直接查詢關(guān)系型數(shù)據(jù)庫(kù)

con?=?engine.connect()
rs?=?con.execute("SELECT?*?FROM?Orders")
df?=?pd.DataFrame(rs.fetchall())
df.columns?=?rs.keys()
con.close()

使用上下文管理器 -- with

with?engine.connect()?as?con:
????rs?=?con.execute("SELECT?OrderID?FROM?Orders")
????df?=?pd.DataFrame(rs.fetchmany(size=5))
????df.columns?=?rs.keys()

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫(kù)

df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)

數(shù)據(jù)探索

數(shù)據(jù)導(dǎo)入后會(huì)對(duì)數(shù)據(jù)進(jìn)行初步探索，如查看數(shù)據(jù)類型，數(shù)據(jù)大小、長(zhǎng)度等一些基本信息。這里簡(jiǎn)單總結(jié)一些。

1、NumPy Arrays

data_array.dtype??#?數(shù)組元素的數(shù)據(jù)類型
data_array.shape??#?陣列尺寸
len(data_array)???#?數(shù)組的長(zhǎng)度

2、Pandas DataFrames

df.head()??#?返回DataFrames前幾行（默認(rèn)5行）
df.tail()??#?返回DataFrames最后幾行（默認(rèn)5行）
df.index???#?返回DataFrames索引
df.columns?#?返回DataFrames列名
df.info()??#?返回DataFrames基本信息
data_array?=?data.values?#?將DataFrames轉(zhuǎn)換為NumPy數(shù)組

以上就是Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)的詳細(xì)內(nèi)容，更多關(guān)于Python數(shù)據(jù)導(dǎo)入的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)

目錄

兩種獲取help的方法

使用Numpy中的info方法

Python內(nèi)置函數(shù)

一、文本文件

1、純文本文件

2、表格數(shù)據(jù)：Flat文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關(guān)系型數(shù)據(jù)庫(kù)

1、直接查詢關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫(kù)

數(shù)據(jù)探索

1、NumPy Arrays

2、Pandas DataFrames

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)

目錄

兩種獲取help的方法

使用Numpy中的info方法

Python內(nèi)置函數(shù)

一、文本文件

1、純文本文件

2、表格數(shù)據(jù)：Flat文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關(guān)系型數(shù)據(jù)庫(kù)

1、直接查詢關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫(kù)

數(shù)據(jù)探索

1、NumPy Arrays

2、Pandas DataFrames

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、文本文件

2、表格數(shù)據(jù)：Flat文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

六、HDF5 文件

1、直接查詢關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫(kù)

2、Pandas DataFrames