欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現數據清洗(缺失值與異常值處理)

 更新時間:2019年12月02日 09:21:59   作者:諾坎普奇跡  
今天小編就為大家分享一篇python實現數據清洗(缺失值與異常值處理),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

1。 將本地sql文件寫入mysql數據庫

本文寫入的是python數據庫的taob表

source [本地文件]

其中總數據為9616行,列分別為title,link,price,comment

2。使用python鏈接并讀取數據

查看數據概括

#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數據庫
sql = 'select * from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數據
print(data.describe())

說明數據的導入是正確的,簡單的分析發(fā)現問題并不是這么簡單,因為comment均值562可能偏大,最大評論數454037也可能出現錯誤,price價格為0也不太可能出現。

 price    comment
count 9616.00000  9616.000000
mean   64.49324   562.239601
std   176.10901  6078.909643
min    0.00000    0.000000
25%   20.00000   16.000000
50%   36.00000   58.000000
75%   66.00000   205.000000
max  7940.00000 454037.000000

3。缺失值處理

將價格為0的值設置為中位數36

#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數據庫
sql = 'select * from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數據

data['price'][data['price']==0]=None
x = 0
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull()) [j]:
      data[i][j]='36'
      x+=1
print(x)
#44

結果顯示修改了44行的數據。

4。異常值處理

#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數據庫
sql = 'select * from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數據
#缺失值處理
data['price'][data['price']==0]=None
x = 0
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull()) [j]:
      data[i][j]='36'
      x+=1
print(x)
#異常值處理
#繪制散點圖,價格為橫軸
data1 = data.T#轉置
price = data1.values[2]
comment = data1.values[3]
plt.plot(price,comment,'o')
plt.show()
#print(price)

結果如下圖,價格為0左右時comment很大可能為異常值,comments為0時,價格極大這個有可能的。

接下來處理評論數異常值,假設異常值分割線設置為20w,

#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#鏈接本地數據庫
sql = 'select * from taob'#sql語句
data = pd.read_sql(sql,conn)#獲取數據
#缺失值處理
data['price'][data['price']==0]=None
x = 0
for i in data.columns:
  for j in range(len(data)):
    if (data[i].isnull()) [j]:
      data[i][j]='36'
      x+=1
print(x)
#異常值處理
da = data.values#重新賦值data
#異常值處理,將commments大于200000的數據comments設置為58
cont_clou = len(da)#獲取行數
#遍歷數據進行處理
for i in range(0,cont_clou):
  if(data.values[i][3]>200000):
    #print(data.values[i][3])
    da[i][3]='58'
    #print(da[i][3])

#繪制散點圖,價格為橫軸
data1 = da.T#轉置
price = data1[2]
comment = data1[3]
plt.plot(price,comment,'o')
plt.xlabel('price')
plt.ylabel('comments')
plt.show()

處理后的輸出結果為:

以上這篇python實現數據清洗(缺失值與異常值處理)就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關文章

  • keras 解決加載lstm+crf模型出錯的問題

    keras 解決加載lstm+crf模型出錯的問題

    這篇文章主要介紹了keras 解決加載lstm+crf模型出錯的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • python讀取txt文件并逐行輸出字符串

    python讀取txt文件并逐行輸出字符串

    Python提供了簡單且方便的方法來讀取txt文件,使用open()函數和readlines()方法逐行輸出文件中的字符串內容,我們可以輕松地讀取文件內容,并通過循環(huán)遍歷的方式逐行處理,讀取txt文件的方法在各種應用場景中非常常見,可以用于數據分析、文本處理、日志分析等
    2023-10-10
  • Pytorch神經網絡參數管理方法詳細講解

    Pytorch神經網絡參數管理方法詳細講解

    這篇文章主要介紹了Pytorch神經網絡參數管理方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧
    2023-05-05
  • Python實現我的世界小游戲源代碼

    Python實現我的世界小游戲源代碼

    這篇文章主要介紹了Python實現我的世界小游戲源代碼,代碼簡單易懂,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • Python讀取圖片為16進制表示簡單代碼

    Python讀取圖片為16進制表示簡單代碼

    這篇文章主要介紹了Python讀取圖片為16進制表示簡單代碼,具有一定借鑒價值,需要的朋友可以參考下
    2018-01-01
  • Python動態(tài)規(guī)劃實現虛擬機部署的算法思想

    Python動態(tài)規(guī)劃實現虛擬機部署的算法思想

    這篇文章主要介紹了Python動態(tài)規(guī)劃實現虛擬機部署的算法思想,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-07-07
  • Django全局啟用登陸驗證login_required的方法

    Django全局啟用登陸驗證login_required的方法

    這篇文章主要介紹了Django全局啟用登陸驗證login_required的方法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-06-06
  • python基于mysql實現的簡單隊列以及跨進程鎖實例詳解

    python基于mysql實現的簡單隊列以及跨進程鎖實例詳解

    這篇文章主要介紹了python基于mysql實現的簡單隊列以及跨進程鎖,需要的朋友可以參考下
    2014-07-07
  • python使用super()出現錯誤解決辦法

    python使用super()出現錯誤解決辦法

    這篇文章主要介紹了python使用super()出現錯誤解決辦法的相關資料,對于TypeError: must be type, not classobj的錯誤進行處理,需要的朋友可以參考下
    2017-08-08
  • Python 繪制北上廣深的地鐵路線動態(tài)圖

    Python 繪制北上廣深的地鐵路線動態(tài)圖

    這篇文章主要介紹了用python制作北上廣深——地鐵線路動態(tài)圖,文中的示例代碼講解詳細,對我們的工作或學習都有一定的價值,感興趣的同學可以學習一下
    2021-12-12

最新評論