欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)

 更新時(shí)間:2022年11月03日 14:41:27   作者:云朵君  
數(shù)據(jù)分析過程中,需要對獲取到的數(shù)據(jù)進(jìn)行分析,往往第一步就是導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)有很多方式,不同的數(shù)據(jù)文件需要用到不同的導(dǎo)入方式,相同的文件也會(huì)有幾種不同的導(dǎo)入方式。下面總結(jié)幾種常用的文件導(dǎo)入方法

大多數(shù)情況下,會(huì)使用NumPyPandas來導(dǎo)入數(shù)據(jù),因此在開始之前,先執(zhí)行:

import?numpy?as?np
import?pandas?as?pd

兩種獲取help的方法

很多時(shí)候?qū)σ恍┖瘮?shù)方法不是很了解,此時(shí)Python提供了一些幫助信息,以快速使用Python對象。

使用Numpy中的info方法

np.info(np.ndarray.dtype)

Python內(nèi)置函數(shù)

help(pd.read_csv)

一、文本文件

1、純文本文件

filename?=?'demo.txt'
file?=?open(filename,?mode='r')?#?打開文件進(jìn)行讀取
text?=?file.read()?#?讀取文件的內(nèi)容
print(file.closed)?#?檢查文件是否關(guān)閉
file.close()?#?關(guān)閉文件
print(text)

使用上下文管理器 -- with

with?open('demo.txt',?'r')?as?file:
????print(file.readline())?#?一行一行讀取
????print(file.readline())
????print(file.readline())

2、表格數(shù)據(jù):Flat文件

使用 Numpy 讀取 Flat 文件

Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語言級(jí)別的。

Flat 文件是一種包含沒有相對關(guān)系結(jié)構(gòu)的記錄的文件。(支持Excel、CSV和Tab分割符文件 )

1.具有一種數(shù)據(jù)類型的文件

用于分隔值的字符串跳過前兩行。在第一列和第三列讀取結(jié)果數(shù)組的類型。

filename?=?'mnist.txt'
data?=?np.loadtxt(filename,
??????????????????delimiter=',',
??????????????????skiprows=2,
??????????????????usecols=[0,2],
??????????????????dtype=str)

2.具有混合數(shù)據(jù)類型的文件

兩個(gè)硬的要求:

  • 跳過表頭信息
  • 區(qū)分橫縱坐標(biāo)
filename?=?'titanic.csv'
data?=?np.genfromtxt(filename,
?????????????????????delimiter=',',
?????????????????????names=True,
?????????????????????dtype=None)

使用 Pandas 讀取Flat文件

filename?=?'demo.csv'?
data?=?pd.read_csv(filename,?
???????????????????nrows=5,????????#?要讀取的文件的行數(shù)
???????????????????header=None,????#?作為列名的行號(hào)
???????????????????sep='\t',???????#?分隔符使用
???????????????????comment='#',????#?分隔注釋的字符
???????????????????na_values=[""])?#?可以識(shí)別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()pandas中對excel表格文件進(jìn)行讀取相關(guān)操作非常方便快捷的類,尤其是在對含有多個(gè)sheetexcel文件進(jìn)行操控時(shí)非常方便。

file?=?'demo.xlsx'
data?=?pd.ExcelFile(file)
df_sheet2?=?data.parse(sheet_name='1960-1966',
???????????????????????skiprows=[0],
???????????????????????names=['Country',
??????????????????????????????'AAM:?War(2002)'])
df_sheet1?=?pd.read_excel(data,
??????????????????????????sheet_name=0,
??????????????????????????parse_cols=[0],
??????????????????????????skiprows=[0],
??????????????????????????names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計(jì)分析文件。

from?sas7bdat?import?SAS7BDAT
with?SAS7BDAT('demo.sas7bdat')?as?file:
??df_sas?=?file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。其保存的文件后綴名為.dta的Stata文件。

data?=?pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數(shù)據(jù)類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實(shí)現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\(yùn)行的對象信息保存到文件中去,永久存儲(chǔ);通過pickle模塊的反序列化操作,我們能夠從文件中創(chuàng)建上一次程序保存的對象。

import?pickle
with?open('pickled_demo.pkl',?'rb')?as?file:
???pickled_data?=?pickle.load(file)?#?下載被打開被讀取到的數(shù)據(jù)

與其相對應(yīng)的操作是寫入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一種常見的跨平臺(tái)數(shù)據(jù)儲(chǔ)存文件,可以存儲(chǔ)不同類型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類型的機(jī)器上傳輸,同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫。

HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名,需要專門的軟件才能打開預(yù)覽文件的內(nèi)容。

import?h5py
filename?=?'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data?=?h5py.File(filename,?'r')

七、Matlab 文件

其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲(chǔ)的后綴為.mat的文件。

import?scipy.io
filename?=?'workspace.mat'
mat?=?scipy.io.loadmat(filename)

八、關(guān)系型數(shù)據(jù)庫

from?sqlalchemy?import?create_engine
engine?=?create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個(gè)表名列表

table_names?=?engine.table_names()

1、直接查詢關(guān)系型數(shù)據(jù)庫

con?=?engine.connect()
rs?=?con.execute("SELECT?*?FROM?Orders")
df?=?pd.DataFrame(rs.fetchall())
df.columns?=?rs.keys()
con.close()

使用上下文管理器 -- with

with?engine.connect()?as?con:
????rs?=?con.execute("SELECT?OrderID?FROM?Orders")
????df?=?pd.DataFrame(rs.fetchmany(size=5))
????df.columns?=?rs.keys()

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫

df?=?pd.read_sql_query("SELECT?*?FROM?Orders",?engine)

數(shù)據(jù)探索

數(shù)據(jù)導(dǎo)入后會(huì)對數(shù)據(jù)進(jìn)行初步探索,如查看數(shù)據(jù)類型,數(shù)據(jù)大小、長度等一些基本信息。這里簡單總結(jié)一些。

1、NumPy Arrays

data_array.dtype??#?數(shù)組元素的數(shù)據(jù)類型
data_array.shape??#?陣列尺寸
len(data_array)???#?數(shù)組的長度

2、Pandas DataFrames

df.head()??#?返回DataFrames前幾行(默認(rèn)5行)
df.tail()??#?返回DataFrames最后幾行(默認(rèn)5行)
df.index???#?返回DataFrames索引
df.columns?#?返回DataFrames列名
df.info()??#?返回DataFrames基本信息
data_array?=?data.values?#?將DataFrames轉(zhuǎn)換為NumPy數(shù)組

以上就是Python中八種數(shù)據(jù)導(dǎo)入方法總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于Python數(shù)據(jù)導(dǎo)入的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • calendar在python3時(shí)間中常用函數(shù)舉例詳解

    calendar在python3時(shí)間中常用函數(shù)舉例詳解

    這篇文章主要介紹了calendar在python3時(shí)間中常用函數(shù)的相關(guān)文章,對此知識(shí)點(diǎn)有興趣的朋友們可以學(xué)習(xí)下。
    2020-11-11
  • python常用的正則表達(dá)式大全

    python常用的正則表達(dá)式大全

    正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配,下面這篇文章主要給大家介紹了關(guān)于python常用正則表達(dá)式的相關(guān)資料,文中通過圖文以及實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-02-02
  • Python使用tkinter實(shí)現(xiàn)搖骰子小游戲功能的代碼

    Python使用tkinter實(shí)現(xiàn)搖骰子小游戲功能的代碼

    這篇文章主要介紹了Python使用tkinter實(shí)現(xiàn)的搖骰子小游戲功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-07-07
  • OpenCV半小時(shí)掌握基本操作之傅里葉變換

    OpenCV半小時(shí)掌握基本操作之傅里葉變換

    這篇文章主要介紹了OpenCV基本操作之傅里葉變換,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-09-09
  • Python??Flask框架操作數(shù)據(jù)庫的方法

    Python??Flask框架操作數(shù)據(jù)庫的方法

    Flask中最方便用的數(shù)據(jù)庫框架是flask_sqlalchamy,是對?SQLAlchamy?在?Flask?中的擴(kuò)展,它主要在于簡化Flask?中?sqlalchamy的使用,本篇文章給大家介紹Python??Flask的數(shù)據(jù)庫操作使用方法,感興趣的朋友一起看看吧
    2024-02-02
  • Python面向?qū)ο缶幊剃P(guān)鍵深度探索類與對象

    Python面向?qū)ο缶幊剃P(guān)鍵深度探索類與對象

    這篇文章主要為大家介紹了Python面向?qū)ο缶幊剃P(guān)鍵深度探索類與對象示例解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-05-05
  • Python爬蟲實(shí)戰(zhàn)JS逆向AES逆向加密爬取

    Python爬蟲實(shí)戰(zhàn)JS逆向AES逆向加密爬取

    一個(gè)建筑行業(yè)的堂哥為了搞一些商業(yè)數(shù)據(jù)前前后后花了1w,辣條我半個(gè)小時(shí)就能解決的事情,這就是技術(shù)的魅力!聲明:爬取是的公開數(shù)據(jù)
    2021-10-10
  • Python任務(wù)調(diào)度模塊APScheduler使用

    Python任務(wù)調(diào)度模塊APScheduler使用

    這篇文章主要介紹了Python任務(wù)調(diào)度模塊APScheduler使用,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-04-04
  • 談一談基于python的面向?qū)ο缶幊袒A(chǔ)

    談一談基于python的面向?qū)ο缶幊袒A(chǔ)

    在本篇內(nèi)容中我們給大家整理了關(guān)于python面向?qū)ο缶幊袒A(chǔ)的觀點(diǎn)分析以及知識(shí)點(diǎn)整理,有需要的朋友們學(xué)習(xí)下。
    2019-05-05
  • 使用pyinstaller打包PyQt4程序遇到的問題及解決方法

    使用pyinstaller打包PyQt4程序遇到的問題及解決方法

    今天小編就為大家分享一篇使用pyinstaller打包PyQt4程序遇到的問題及解決方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06

最新評論