詳解pandas的外部數(shù)據(jù)導入與常用方法

更新時間：2019年05月01日 10:30:45 作者：Simon_Zhou

這篇文章主要介紹了詳解pandas的外部數(shù)據(jù)導入與常用方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

外部數(shù)據(jù)導入

導入excel文件

pandas導入excel用read_excel()方法：

import pandas as pd


excel_file1 = pd.read_excel('data/測試.xlsx',encoding='utf-8')

姓名年齡    工作    工資
0   張三 25    學生      200
1   李四 24    工人     3000
2   王偉 28    NaN      5000
3 王二毛 22 自由職業(yè)   6000

第一個參數(shù)是路徑，既可以使用絕對路徑又可以使用相對路徑，如果文件名含有漢字，注意指定設置一下屬性encoding = 'utf-8',另設置sheet_name指定具體的Sheet名字，也可傳入sheet的順序，從0開始。

excel_file1 = pd.read_excel('data/test.xlsx',sheet_name = 0)

指定索引

列索引默認從0開始，通過index_col設置，header設置行索引。

excel_file1 = pd.read_excel('data/測試.xlsx',encoding='utf-8'，index_col=0)

年齡    工作    年資
姓名
張三   25    學生      200
李四   24    工人     3000
王偉   28   NaN       5000
王二毛 22 自由職業(yè)   6000

excel_file1 = pd.read_excel('data/測試.xlsx',encoding='utf-8'，header=1)

張三 25    學生     200
0   李四 24    工人    3000
1   王偉 28   NaN      5000
2 王二毛 22 自由職業(yè) 6000

指定索引列

有時本地文件列數(shù)太多，可以設置usercols指定導入的列,也可以列表形式傳入多個值，表示傳入哪些列。

excel_file1 = pd.read_excel('data/測試.xlsx',encoding='utf-8',usecols=[0,2])

姓名    工作
0   張三    學生
1   李四    工人
2   王偉    NaN
3 王二毛自由職業(yè)

常用方法

shape() 可以獲取excel文件的行和列，以元祖形式返回；
info() 獲取數(shù)據(jù)類型；
astype() 可轉換列里面的數(shù)據(jù)類型，括號里是要轉換的目標類型；如 df[列2].astype('float64') ; df['列'].dtype 可查看列的類型
isnull() 判斷哪個值是缺失值；
dropna() 刪除有缺失值的行，返回刪除后的數(shù)據(jù)，傳入?yún)?shù)how=all,要全為空值才會刪除；
fillna() 括號內(nèi)可直接填入要要填充的值，也可指定列填充，以字典形式傳參；
drop_duplicates() 默認對所有重復值判斷，默認保留 keep=first 第一個行值；通過 keep 修改，值可為 last ，保留最后一個，還可設置 keep 為 False ,一個也不保留。另也可指定列名去重，如傳入?yún)?shù) subset =['列名1，列名2']，注意是以列表形式傳參；
head() 傳入的參數(shù)代表獲取前幾行；
describe() 掌握數(shù)值的分布情況，如均值，最值，方差，分位數(shù)。
column 和 index 可設置列索引和行索引，以列表形式傳參;
set_index() 重新設置索引列，傳入要指名要用做行索引的名稱；
reset_index(level = None,drop=False,inplace = False) ，level指定要將層次化索引的第幾級別轉化為 columns ,第一個索引為0級，第二個為1級，默認全部轉化為columns。 drop 是否將原索引刪掉， inplace 是否修改原數(shù)據(jù)表；該方法常用于數(shù)據(jù)分組和數(shù)據(jù)透視表中。
rename() 重命名索引，可重新設置 columns 和 index ,以字典形式傳參， key 為原值， value 為替換后的值。

導入CSV文件

pandas導入csv文件用read_csv()方法；

import pandas as pd
csv_file1 = pd.read_csv('.\\data\\train-pivot.csv',index_col=0,header=0,nrows = 2)

通過 sep 設置分割符， encoding 指定編碼格式。導入csv文件要指定為gbk,不然會報錯，如果一個大文件你只需看前面幾行，通過 nrows 設置。

import pandas as pd
csv_file1 = pd.read_csv('data/train-pivot.csv',encoding='gbk',nrows=2)
print(csv_file1)

用戶ID 客戶分類    區(qū)域是否省會 7月銷量 8月銷量
0 59224   A類一線城市    是     6    20     0
1 55295   B類三線城市    否    37    27    35

可以設置 usercols 指定導入的列。

用戶ID 區(qū)域
0 59224 一線城市
1 55295 三線城市
2 46035 二線城市
3 2459 一線城市
4 22179 三線城市

導入sql

pandas中有 read_sql() 方法：

import pandas as pd
import pymysql
# 創(chuàng)建連接
conn = pymysql.connect(host = 'localhost',user = 'python',
            password = 'passwd',db = 'test',
            charset = 'utf-8'
            )
'''
user:用戶名
password:密碼
host:數(shù)據(jù)庫地址/本機用localhost
db:數(shù)據(jù)庫名
charset:編碼，一般為utf-8
'''
sql = "SELECT * FROM user" # 寫要執(zhí)行的sql語句
pd.read_sql(sql,conn)

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: