欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python箱型圖處理離群點(diǎn)的例子

 更新時間:2019年12月09日 14:56:27   作者:ZenjaminFranklin  
今天小編就為大家分享一篇Python箱型圖處理離群點(diǎn)的例子,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

首先我們簡單地區(qū)分一下離群點(diǎn)(outlier)以及異常值(anomaly):

離群點(diǎn):

異常值:

個人覺著異常值和離群點(diǎn)是兩個不同的概念,當(dāng)然大家在數(shù)據(jù)預(yù)處理時對于這兩個概念不做細(xì)致的區(qū)分,不如:姚明站在我們中間的時候,我覺著我們只能說他是一個離群點(diǎn),我們能說他異常嗎?異常的假設(shè)是姚明得了巨人癥,可是他不是。

箱型圖

代碼塊

餐飲銷售數(shù)據(jù)離群點(diǎn)檢測代碼:

#-*- coding: utf-8 -*-
import pandas as pd

catering_sale = '../data/catering_sale.xls' #餐飲數(shù)據(jù)
data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數(shù)據(jù),指定“日期”列為索引列

import matplotlib.pyplot as plt #導(dǎo)入圖像庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負(fù)號

plt.figure() #建立圖像
p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'fliers'即為離群點(diǎn)的標(biāo)簽
y = p['fliers'][0].get_ydata()
y.sort() #從小到大排序,該方法直接改變原對象

#用annotate添加注釋
#其中有些相近的點(diǎn),注解會出現(xiàn)重疊,難以看清,需要一些技巧來控制。
#以下參數(shù)都是經(jīng)過調(diào)試的,需要具體問題具體調(diào)試。
for i in range(len(x)): 
 if i > 0:
  plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
 else:
  plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))

plt.show() #展示箱線圖

運(yùn)行結(jié)果:

以上這篇Python箱型圖處理離群點(diǎn)的例子就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

最新評論