腳本之家服務器常用軟件

快捷導航

Python?第三方庫?Pandas?數(shù)據(jù)分析教程

更新時間：2022年09月21日 08:27:59 作者：孤飛

這篇文章主要介紹了Python?第三方庫?Pandas?數(shù)據(jù)分析教程的相關資料,需要的朋友可以參考下

Pandas導入

Pandas是Python第三方庫，提供高性能易用數(shù)據(jù)類型和分析工具 Pandas基于NumPy實現(xiàn)，常與NumPy和Matplotlib一同使用兩個數(shù)據(jù)類型：Series, DataFrame

import pandas as pd

Pandas與numpy的比較

Pandas的Series類型

由一組數(shù)據(jù)及與之相關的數(shù)據(jù)索引組成

Pandas的Series類型的創(chuàng)建

Series類型可以由如下類型創(chuàng)建：

Python列表，index與列表元素個數(shù)一致標量值，index表達Series類型的尺寸 Python字典，鍵值對中的“鍵”是索引，index從字典中進行選擇操作 ndarray，索引和數(shù)據(jù)都可以通過ndarray類型創(chuàng)建其他函數(shù)，range()函數(shù)等

Pandas的Series類型的基本操作

Series類型包含index和values兩個部分：

index 獲得索引 values 獲得數(shù)據(jù)

由ndarray或字典創(chuàng)建的Series，操作類似ndarray或字典類型

pandas的DataFrame類型

DataFrame類型由共用相同索引的一組列組成

DataFrame是一個表格型的數(shù)據(jù)類型，每列值類型可以不同

DataFrame既有行索引、也有列索引

DataFrame常用于表達二維數(shù)據(jù)，但可以表達多維數(shù)據(jù)

DataFrame是二維帶“標簽”數(shù)組

DataFrame基本操作類似Series，依據(jù)行列索引

pandas的DataFrame類型創(chuàng)建

DataFrame類型可以由如下類型創(chuàng)建：

二維ndarray對象由一維ndarray、列表、字典、元組或Series構成的字典 Series類型其他的DataFrame類型

Pandas的Dataframe類型的基本操作

pandas索引操作

pandas重新索引

reindex()能夠改變或重排Series和DataFrame索引

reindex(index=None, columns=None, …)的參數(shù)

pandas刪除索引

drop()能夠刪除Series和DataFrame指定行或列索引

pandas數(shù)據(jù)運算

算術運算根據(jù)行列索引，補齊后運算，運算默認產(chǎn)生浮點數(shù) 補齊時缺項填充NaN (空值) 二維和一維、一維和零維間為廣播運算采用+ ‐ * /符號進行的二元運算產(chǎn)生新的對象

算術運算

不同維度間為廣播運算，一維Series默認在軸1參與運算使用運算方法可以令一維Series參與軸0運算

Pandas數(shù)據(jù)分析

pandas導入與導出數(shù)據(jù)

導入數(shù)據(jù)

pd.read_csv(filename)：從CSV文件導入數(shù)據(jù)

pd.read_table(filename)：從限定分隔符的文本文件導入數(shù)據(jù)

pd.read_excel(filename)：從Excel文件導入數(shù)據(jù)

pd.read_sql(query, connection_object)：從SQL表/庫導入數(shù)據(jù)

pd.read_json(json_string)：從JSON格式的字符串導入數(shù)據(jù)

pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格

pd.read_clipboard()：從你的粘貼板獲取內(nèi)容，并傳給read_table()

pd.DataFrame(dict)：從字典對象導入數(shù)據(jù)，Key是列名，Value是數(shù)據(jù)

導出數(shù)據(jù)

df.to_csv(filename)：導出數(shù)據(jù)到CSV文件

df.to_excel(filename)：導出數(shù)據(jù)到Excel文件

df.to_sql(table_name, connection_object)：導出數(shù)據(jù)到SQL表

df.to_json(filename)：以Json格式導出數(shù)據(jù)到文本文件

Pandas查看、檢查數(shù)據(jù)

df.head(n)：查看DataFrame對象的前n行

df.tail(n)：查看DataFrame對象的最后n行

df.shape()：查看行數(shù)和列數(shù)

http://df.info()：查看索引、數(shù)據(jù)類型和內(nèi)存信息

df.describe()：查看數(shù)值型列的匯總統(tǒng)計

s.value_counts(dropna=False)：查看Series對象的唯一值和計數(shù)

df.apply(pd.Series.value_counts)：查看DataFrame對象中每一列的唯一值和計數(shù)

Pandas數(shù)據(jù)選取

df[col]：根據(jù)列名，并以Series的形式返回列

df[[col1, col2]]：以DataFrame形式返回多列

s.iloc[0]：按位置選取數(shù)據(jù)

s.loc['index_one']：按索引選取數(shù)據(jù)

df.iloc[0,:]：返回第一行

df.iloc[0,0]：返回第一列的第一個元素

pandas數(shù)據(jù)清理

df.columns = ['a','b','c']：重命名列名

pd.isnull()：檢查DataFrame對象中的空值，并返回一個Boolean數(shù)組

pd.notnull()：檢查DataFrame對象中的非空值，并返回一個Boolean數(shù)組

df.dropna()：刪除所有包含空值的行

df.dropna(axis=1)：刪除所有包含空值的列

df.dropna(axis=1,thresh=n)：刪除所有小于n個非空值的行

df.fillna(x)：用x替換DataFrame對象中所有的空值

s.astype(float)：將Series中的數(shù)據(jù)類型更改為float類型

s.replace(1,'one')：用‘one’代替所有等于1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

Pandas數(shù)據(jù)處理

df.columns = ['a','b','c']：重命名列名

pd.isnull()：檢查DataFrame對象中的空值，并返回一個Boolean數(shù)組

pd.notnull()：檢查DataFrame對象中的非空值，并返回一個Boolean數(shù)組

df.dropna()：刪除所有包含空值的行

df.dropna(axis=1)：刪除所有包含空值的列

df.dropna(axis=1,thresh=n)：刪除所有小于n個非空值的行

df.fillna(x)：用x替換DataFrame對象中所有的空值

s.astype(float)：將Series中的數(shù)據(jù)類型更改為float類型

s.replace(1,'one')：用‘one’代替所有等于1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

df[df[col] > 0.5]：選擇col列的值大于0.5的行

df.sort_values(col1)：按照列col1排序數(shù)據(jù)，默認升序排列

df.sort_values(col2, ascending=False)：按照列col1降序排列數(shù)據(jù)

df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列數(shù)據(jù)

df.groupby(col)：返回一個按列col進行分組的Groupby對象

df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象

df.groupby(col1)[col2]：返回按列col1進行分組后，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：創(chuàng)建一個按列col1進行分組，并計算col2和col3的最大值的數(shù)據(jù)透視表

df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值

data.apply(np.mean)：對DataFrame中的每一列應用函數(shù)np.mean

data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數(shù)np.max

Pandas數(shù)據(jù)合并

df1.append(df2)：將df2中的行添加到df1的尾部

df.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部

df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執(zhí)行SQL形式的join

Pandas數(shù)據(jù)統(tǒng)計

df.describe()：查看數(shù)據(jù)值列的匯總統(tǒng)計

df.mean()：返回所有列的均值

df.corr()：返回列與列之間的相關系數(shù)

df.count()：返回每一列中的非空值的個數(shù)

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位數(shù)

df.std()：返回每一列的標準差

到此這篇關于Python 第三方庫 Pandas 數(shù)據(jù)分析教程的文章就介紹到這了,更多相關Python Pandas 數(shù)據(jù)分析內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?第三方庫?Pandas?數(shù)據(jù)分析教程

目錄

Pandas導入

Pandas與numpy的比較