Python中的pandas庫簡介及其使用教程
更新時間:2022年11月08日 11:02:13 作者:搞點學術的研究生
pandas是用于數據挖掘的Python庫,Pandas中常見的數據結構有Series和DateFrame兩種方式,今天通過本文給大家講解Python中的pandas庫簡介及其使用,感興趣你跟隨小編一起學習吧
pandas模塊
pandas是一個強大的分析結構化數據的工具集;它的使用基礎是Numpy(提供高性能的矩陣運算);用于數據挖掘和數據分析,同時也提供數據清洗功能。
- 便捷的數據處理能力
- 獨特的數據結構
- 讀取文件方便
- 封裝了matplotlib的畫圖和numpy的計算
Pandas中常見的數據結構有兩種:
Series | DateFrame |
---|---|
類似一維數組的對象, | 類似多維數組/表格數組;每列數據可以是不同的類型;索引包括列索引和行索引。 |
Series
- 構建Series:
ser_obj = pd.Series(range(10))
- 由索引和數據組成(索引在左<自動創(chuàng)建的>,數據在右)。
- 獲取數據和索引:
ser_obj.index; ser_obj.values
- 預覽數據:
ser_obj.head(n);ser_obj.tail(n)
DateFrame
- 獲取列數據:
df_obj[col_idx]或df_obj.col_idx
- 增加列數據:
df_obj[new_col_idx] = data
- 刪除列:
del df_obj[col_idx]
- 按值排序:
sort_values(by = “label_name”)
常用方法
Count | 非NA值得數量 |
---|---|
describe | 針對Series或各DataFrame列計算匯總統(tǒng)計 |
min\max | 計算最小值和最大值 |
argmin\argmax | 計算能夠獲取到最大值或最小值的索引位置 |
idxmin\idxmax | 計算能夠獲取到最小值和最大值的索引值 |
quantile | 計算樣本的分位數(0-1) |
sum | 值得總和 |
mean | 值得平均值 |
median | 值的算術中位數(50%分位數) |
mad | 根據平均值計算平均絕對離差 |
var | 樣本值得方差 |
std | 樣本值得標準差 |
skew | 樣本值的偏度(三階距) |
kurt | 樣本值的峰度(四階距) |
cumsum | 樣本值的累計和 |
cummin\cummax | 樣本值的累計最大值和累計最小值 |
cumprod | 樣本值的累計積 |
diff | 計算一階差分(對時間序列很有用) |
pct_change | 計算百分數變化 |
處理缺失數據
- Dropna()丟棄缺失數據
- Fillna()填充缺失數據
數據過濾
Df[filter_condition]依據filter_condition(條件)對Df(數據)進行過濾。
繪圖功能
Plot(kind,x,y,title,figsize) Kind(繪制什么形式的圖),x(x軸內容),y(y軸內容),title(圖標題),figsize(圖大?。?/pre>
保存圖片:plt.savefig()
("The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亞
)
到此這篇關于Python中的pandas庫簡介及其使用的文章就介紹到這了,更多相關Python pandas庫內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python兩個內置函數 locals 和globals(學習筆記)
這篇文章主要介紹了Python兩個內置函數 locals 和globals(學習筆記),需要的朋友可以參考下2016-08-08