Python數(shù)據(jù)分析與處理(二)——處理中國(guó)地區(qū)信息
2.1數(shù)據(jù)的爬取
代碼:
import pandas as pd data=pd.read_csv("example_data.csv",header=1) print(data) data1=pd.read_csv("北京地區(qū)信息.csv",header=1,encoding='gbk') data2=pd.read_csv("天津地區(qū)信息.csv",encoding='gbk') print(data1) print(data2)
代碼運(yùn)行結(jié)果:
首先使用pandas
的read_csv()
方法進(jìn)行數(shù)據(jù)的讀取,然后就能夠看到相應(yīng)的表格信息。
2.2檢查重復(fù)數(shù)據(jù)
dupnum=data.duplicated() print(dupnum) \# 對(duì)重復(fù)值進(jìn)行處理 caldup=data.drop_duplicates() print(caldup)
代碼運(yùn)行結(jié)果:
主要是是使用這個(gè)duplicated()
方法進(jìn)行數(shù)據(jù)的查重,返回一個(gè)布爾序列,僅對(duì)唯一元素而言為True
。如果有重復(fù)的數(shù)據(jù)就會(huì)在該數(shù)值的部分返貨Flase
。
然后我們就可以使用drop_duplicates()
進(jìn)行重復(fù)值刪除。
2.3檢查缺失值
代碼:
from pandas import Series from numpy import NAN \# import pandas as pd series_obj=Series([1,None]) pd.notnull(series_obj) \# 上面做的是測(cè)試 pd.notnull(data) pd.notnull(data1) pd.notnull(data2)
代碼運(yùn)行結(jié)果:
使用pd.notnull(data1)
進(jìn)行非空數(shù)值的返回, 返回值是布爾型的矩陣,再取df[布爾型矩陣]返回的是id為非空的行。
2.4 檢查異常值
import numpy as np \# 2.4 檢查異常值 def three_sig(ser1): mean_value=ser1.mean() \# 標(biāo)準(zhǔn)差 std_value=ser1.std() \# 位于3σ范圍外的都是異常值 \# 數(shù)值大于u+3σ小雨u-3σ rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1) index=np.arange(ser1.shape[0])[rule] outrange=ser1.iloc[index] return outrange three_sig(data2["女性"])
代碼運(yùn)行結(jié)果:
3σ原則又稱為拉依達(dá)準(zhǔn)則,該準(zhǔn)則具體來(lái)說(shuō),就是先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)差,然后按一定的概率確定一個(gè)區(qū)間,認(rèn)為誤差超過(guò)這個(gè)區(qū)間的就屬于異常值。
通俗理解就是正態(tài)分布。
到此這篇關(guān)于Python數(shù)據(jù)分析與處理--處理中國(guó)地區(qū)信息的文章就介紹到這了,更多相關(guān)Python Python數(shù)據(jù)分析與處理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Pytorch自己加載單通道圖片用作數(shù)據(jù)集訓(xùn)練的實(shí)例
今天小編就為大家分享一篇Pytorch自己加載單通道圖片用作數(shù)據(jù)集訓(xùn)練的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01Python如何向SQLServer存儲(chǔ)二進(jìn)制圖片
這篇文章主要介紹了Python如何向SQLServer存儲(chǔ)二進(jìn)制圖片,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06通過(guò)PYTHON來(lái)實(shí)現(xiàn)圖像分割詳解
這篇文章主要介紹了通過(guò)PYTHON來(lái)實(shí)現(xiàn)圖像分割詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,,需要的朋友可以參考下2019-06-06解決Python requests 報(bào)錯(cuò)方法集錦
這篇文章主要介紹了解決Python requests 報(bào)錯(cuò)方法集錦的相關(guān)資料,需要的朋友可以參考下2017-03-03python tkinter中的錨點(diǎn)(anchor)問(wèn)題及處理
這篇文章主要介紹了python tkinter中的錨點(diǎn)(anchor)問(wèn)題及處理方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-06-06