使用Numpy對(duì)特征中的異常值進(jìn)行替換及條件替換方式
原始數(shù)據(jù)為Excel文件,由傳感器獲得,通過(guò)Pyhton xlrd模塊讀入,讀入后為數(shù)組形式,由于其存在部分異常值和缺失值,所以便利用Numpy對(duì)其中的異常值進(jìn)行替換或條件替換。
1. 將'nan'替換為給定值
import numpy as np data = np.array([['nan', 1, 2, 3, 4], # 數(shù)據(jù)類(lèi)型為字符串型 [10, 15, 20, 25, 'nan'], ['nan', 5, 8, 10, 20]]) print(data) # [['nan' '1' '2' '3' '4'] # ['10' '15' '20' '25' 'nan'] # ['nan' '5' '8' '10' '20']] data[data == 'nan'] = 100 # 將numpy中為'nan'的項(xiàng)替換為 100 print(data) # [['100' '1' '2' '3' '4'] # ['10' '15' '20' '25' '100'] # ['100' '5' '8' '10' '20']] data = data.astype(float) # 將數(shù)據(jù)由字符型轉(zhuǎn)換為浮點(diǎn)型 print(data) # [[100. 1. 2. 3. 4.] # [ 10. 15. 20. 25. 100.] # [100. 5. 8. 10. 20.]]
2. 按列進(jìn)行條件替換
當(dāng)利用'3σ準(zhǔn)則'或者箱型圖進(jìn)行異常值判斷時(shí),通常需要對(duì) > upper 或 < lower的值進(jìn)行處理,這時(shí)就需要按列進(jìn)行條件替換了。
print(data) # [[100. 1. 2. 3. 4.] # [ 10. 15. 20. 25. 100.] # [100. 5. 8. 10. 20.]] data[:, 1][data[:, 1] < 5] = 5 # 對(duì)第2列小于 5 的替換為5 print(data) # [[100. 5. 2. 3. 4.] # [ 10. 15. 20. 25. 100.] # [100. 5. 8. 10. 20.]] data[:, 2][data[:, 2] > 15] = 10 # 對(duì)第3列大于 15 的替換為10 print(data) # [[100. 5. 2. 3. 4.] # [ 10. 15. 10. 25. 100.] # [100. 5. 8. 10. 20.]]
補(bǔ)充知識(shí):Python之dataframe修改異常值—按行判斷值是否大于平均值的指定倍數(shù),如果是則用均值替換
如下所示:
import pandas as pd data = {'hah':[1,2,9], '數(shù)量':[3,2,5], '價(jià)格':[10,9,8]} df = pd.DataFrame(data) df import numpy as np def panduan(x): x_mean = np.mean(x) print(x_mean) for i in x.index: if x[i] > x_mean*2: x[i] = x_mean # print(i) return x df = df.apply(lambda x:panduan(x),axis=1)
以上這篇使用Numpy對(duì)特征中的異常值進(jìn)行替換及條件替換方式就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python并行計(jì)算庫(kù)Joblib高效使用指北
Joblib是用于高效并行計(jì)算的Python開(kāi)源庫(kù),其提供了簡(jiǎn)單易用的內(nèi)存映射和并行計(jì)算的工具,以將任務(wù)分發(fā)到多個(gè)工作進(jìn)程中,這篇文章主要介紹了Python并行計(jì)算庫(kù)Joblib使用指北,需要的朋友可以參考下2024-08-08Python 網(wǎng)頁(yè)解析HTMLParse的實(shí)例詳解
這篇文章主要介紹了Python 網(wǎng)頁(yè)解析HTMLParse的實(shí)例詳解的相關(guān)資料,python里提供了一個(gè)簡(jiǎn)單的解析模塊HTMLParser類(lèi),使用起來(lái)也是比較簡(jiǎn)單的,解析語(yǔ)法沒(méi)有用到XPath類(lèi)似的簡(jiǎn)潔模式,需要的朋友可以參考下2017-08-08Face++ API實(shí)現(xiàn)手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)
這篇文章主要為大家詳細(xì)介紹了Face++ API實(shí)現(xiàn)手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-11-11Selenium執(zhí)行完畢未關(guān)閉chromedriver/geckodriver進(jìn)程的解決辦法(java版+python版
這篇文章主要介紹了Selenium執(zhí)行完畢未關(guān)閉chromedriver/geckodriver進(jìn)程的解決辦法(java版+python版),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12python函數(shù)局部變量、全局變量、遞歸知識(shí)點(diǎn)總結(jié)
在本篇文章里小編給大家整理了關(guān)于python函數(shù)局部變量、全局變量、遞歸知識(shí)點(diǎn),有興趣的朋友們學(xué)習(xí)參考下。2019-11-11python2 與 pyhton3的輸入語(yǔ)句寫(xiě)法小結(jié)
這篇文章主要給大家介紹了關(guān)于python2 與 pyhton3的輸入語(yǔ)句寫(xiě)法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-09-09