Python?第三方庫?Pandas?數(shù)據(jù)分析教程
Pandas導(dǎo)入
Pandas是Python第三方庫,提供高性能易用數(shù)據(jù)類型和分析工具 Pandas基于NumPy實現(xiàn),常與NumPy和Matplotlib一同使用 兩個數(shù)據(jù)類型:Series, DataFrame
import pandas as pd
Pandas與numpy的比較
Pandas的Series類型
由一組數(shù)據(jù)及與之相關(guān)的數(shù)據(jù)索引組成
Pandas的Series類型的創(chuàng)建
Series類型可以由如下類型創(chuàng)建:
Python列表,index與列表元素個數(shù)一致 標量值,index表達Series類型的尺寸 Python字典,鍵值對中的“鍵”是索引,index從字典中進行選擇操作 ndarray,索引和數(shù)據(jù)都可以通過ndarray類型創(chuàng)建 其他函數(shù),range()函數(shù)等
Pandas的Series類型的基本操作
Series類型包含index和values兩個部分:
index 獲得索引 values 獲得數(shù)據(jù)
由ndarray或字典創(chuàng)建的Series,操作類似ndarray或字典類型
pandas的DataFrame類型
DataFrame類型由共用相同索引的一組列組成
DataFrame是一個表格型的數(shù)據(jù)類型,每列值類型可以不同
DataFrame既有行索引、也有列索引
DataFrame常用于表達二維數(shù)據(jù),但可以表達多維數(shù)據(jù)
DataFrame是二維帶“標簽”數(shù)組
DataFrame基本操作類似Series,依據(jù)行列索引
pandas的DataFrame類型創(chuàng)建
DataFrame類型可以由如下類型創(chuàng)建:
二維ndarray對象 由一維ndarray、列表、字典、元組或Series構(gòu)成的字典 Series類型 其他的DataFrame類型
Pandas的Dataframe類型的基本操作
pandas索引操作
pandas重新索引
reindex()能夠改變或重排Series和DataFrame索引
reindex(index=None, columns=None, …)的參數(shù)
pandas刪除索引
drop()能夠刪除Series和DataFrame指定行或列索引
pandas數(shù)據(jù)運算
算術(shù)運算根據(jù)行列索引,補齊后運算,運算默認產(chǎn)生浮點數(shù) 補齊時缺項填充NaN (空值) 二維和一維、一維和零維間為廣播運算 采用+ ‐ * /符號進行的二元運算產(chǎn)生新的對象
算術(shù)運算
不同維度間為廣播運算,一維Series默認在軸1參與運算 使用運算方法可以令一維Series參與軸0運算
Pandas數(shù)據(jù)分析
pandas導(dǎo)入與導(dǎo)出數(shù)據(jù)
導(dǎo)入數(shù)據(jù)
pd.read_csv(filename):從CSV文件導(dǎo)入數(shù)據(jù)
pd.read_table(filename):從限定分隔符的文本文件導(dǎo)入數(shù)據(jù)
pd.read_excel(filename):從Excel文件導(dǎo)入數(shù)據(jù)
pd.read_sql(query, connection_object):從SQL表/庫導(dǎo)入數(shù)據(jù)
pd.read_json(json_string):從JSON格式的字符串導(dǎo)入數(shù)據(jù)
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():從你的粘貼板獲取內(nèi)容,并傳給read_table()
pd.DataFrame(dict):從字典對象導(dǎo)入數(shù)據(jù),Key是列名,Value是數(shù)據(jù)
導(dǎo)出數(shù)據(jù)
df.to_csv(filename):導(dǎo)出數(shù)據(jù)到CSV文件
df.to_excel(filename):導(dǎo)出數(shù)據(jù)到Excel文件
df.to_sql(table_name, connection_object):導(dǎo)出數(shù)據(jù)到SQL表
df.to_json(filename):以Json格式導(dǎo)出數(shù)據(jù)到文本文件
Pandas查看、檢查數(shù)據(jù)
df.head(n):查看DataFrame對象的前n行
df.tail(n):查看DataFrame對象的最后n行
df.shape():查看行數(shù)和列數(shù)
http://df.info():查看索引、數(shù)據(jù)類型和內(nèi)存信息
df.describe():查看數(shù)值型列的匯總統(tǒng)計
s.value_counts(dropna=False):查看Series對象的唯一值和計數(shù)
df.apply(pd.Series.value_counts):查看DataFrame對象中每一列的唯一值和計數(shù)
Pandas數(shù)據(jù)選取
df[col]:根據(jù)列名,并以Series的形式返回列
df[[col1, col2]]:以DataFrame形式返回多列
s.iloc[0]:按位置選取數(shù)據(jù)
s.loc['index_one']:按索引選取數(shù)據(jù)
df.iloc[0,:]:返回第一行
df.iloc[0,0]:返回第一列的第一個元素
pandas數(shù)據(jù)清理
df.columns = ['a','b','c']:重命名列名
pd.isnull():檢查DataFrame對象中的空值,并返回一個Boolean數(shù)組
pd.notnull():檢查DataFrame對象中的非空值,并返回一個Boolean數(shù)組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小于n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數(shù)據(jù)類型更改為float類型
s.replace(1,'one'):用‘one’代替所有等于1的值
s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
df.set_index('column_one'):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
Pandas數(shù)據(jù)處理
df.columns = ['a','b','c']:重命名列名
pd.isnull():檢查DataFrame對象中的空值,并返回一個Boolean數(shù)組
pd.notnull():檢查DataFrame對象中的非空值,并返回一個Boolean數(shù)組
df.dropna():刪除所有包含空值的行
df.dropna(axis=1):刪除所有包含空值的列
df.dropna(axis=1,thresh=n):刪除所有小于n個非空值的行
df.fillna(x):用x替換DataFrame對象中所有的空值
s.astype(float):將Series中的數(shù)據(jù)類型更改為float類型
s.replace(1,'one'):用‘one’代替所有等于1的值
s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
df.rename(columns=lambda x: x + 1):批量更改列名
df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
df.set_index('column_one'):更改索引列
df.rename(index=lambda x: x + 1):批量重命名索引
df[df[col] > 0.5]:選擇col列的值大于0.5的行
df.sort_values(col1):按照列col1排序數(shù)據(jù),默認升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列數(shù)據(jù)
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列數(shù)據(jù)
df.groupby(col):返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2]):返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]:返回按列col1進行分組后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):創(chuàng)建一個按列col1進行分組,并計算col2和col3的最大值的數(shù)據(jù)透視表
df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
data.apply(np.mean):對DataFrame中的每一列應(yīng)用函數(shù)np.mean
data.apply(np.max,axis=1):對DataFrame中的每一行應(yīng)用函數(shù)np.max
Pandas數(shù)據(jù)合并
df1.append(df2):將df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執(zhí)行SQL形式的join
Pandas數(shù)據(jù)統(tǒng)計
df.describe():查看數(shù)據(jù)值列的匯總統(tǒng)計
df.mean():返回所有列的均值
df.corr():返回列與列之間的相關(guān)系數(shù)
df.count():返回每一列中的非空值的個數(shù)
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位數(shù)
df.std():返回每一列的標準差
到此這篇關(guān)于Python 第三方庫 Pandas 數(shù)據(jù)分析教程的文章就介紹到這了,更多相關(guān)Python Pandas 數(shù)據(jù)分析內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python基礎(chǔ)教程之Pandas數(shù)據(jù)分析庫詳解
- Python數(shù)據(jù)分析pandas之布爾索引使用詳解
- Python+pandas數(shù)據(jù)分析實踐總結(jié)
- Python實踐之使用Pandas進行數(shù)據(jù)分析
- Pandas數(shù)據(jù)分析常用函數(shù)的使用
- Python利用Pandas進行數(shù)據(jù)分析的方法詳解
- Pandas數(shù)據(jù)分析-pandas數(shù)據(jù)框的多層索引
- Pandas數(shù)據(jù)分析之pandas數(shù)據(jù)透視表和交叉表
- python pandas模塊進行數(shù)據(jù)分析
相關(guān)文章
淺談python中str字符串和unicode對象字符串的拼接問題
今天小編就為大家分享一篇淺談python中str字符串和unicode對象字符串的拼接問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12Python搭建Keras CNN模型破解網(wǎng)站驗證碼的實現(xiàn)
這篇文章主要介紹了Python搭建Keras CNN模型破解網(wǎng)站驗證碼的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04python編程中簡潔優(yōu)雅的推導(dǎo)式示例詳解
這篇文章主要為大家介紹了python編程中簡潔優(yōu)雅的推導(dǎo)式示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步2021-11-11Cpython3.9源碼解析python中的大小整數(shù)
這篇文章主要介紹了Cpython3.9源碼解析python中的大小整數(shù),在CPython中,小整數(shù)對象池是一種優(yōu)化機制,用于減少對常用小整數(shù)的內(nèi)存分配和銷毀開銷,需要的朋友可以參考下2023-04-04