Python數(shù)據(jù)預(yù)處理常用的5個(gè)技巧
前言
我們知道數(shù)據(jù)是一項(xiàng)寶貴的資產(chǎn),近年來(lái)經(jīng)歷了指數(shù)級(jí)增長(zhǎng)。但是原始數(shù)據(jù)通常不能立即使用,它需要進(jìn)行大量清理和轉(zhuǎn)換。
Pandas 是 Python 的數(shù)據(jù)分析和操作庫(kù),它有多種清理數(shù)據(jù)的方法和函數(shù)。在本文中,我將做5個(gè)示例來(lái)幫助大家掌握數(shù)據(jù)清理技能。
數(shù)據(jù)集
這是一個(gè)包含臟數(shù)據(jù)的示例數(shù)據(jù)框
讓我們看看可以做些什么來(lái)使這個(gè)數(shù)據(jù)集變得干凈。
第一列是多余的,應(yīng)該刪除;
Date 沒(méi)有標(biāo)準(zhǔn);
Name 寫(xiě)成姓氏、名字,并有大寫(xiě)和小寫(xiě)字母;
Payment 代表一個(gè)數(shù)量,但它們顯示為字符串,需要處理;
在 Note 中,有一些非字母數(shù)字應(yīng)該被刪除;
示例 1
刪除列是使用 drop 函數(shù)的簡(jiǎn)單操作。除了寫(xiě)列名外,我們還需要指定軸參數(shù)的值,因?yàn)?drop 函數(shù)用于刪除行和列。 最后,我們可以使用 inplace 參數(shù)來(lái)保存更改。
import pandas as pd df.drop("Unnamed: 0", axis=1, inplace=True)
示例 2
我們有多種選擇將日期值轉(zhuǎn)換為適當(dāng)?shù)母袷健R环N更簡(jiǎn)單的方法是使用 astype 函數(shù)來(lái)更改列的數(shù)據(jù)類型。
它能夠處理范圍廣泛的值并將它們轉(zhuǎn)換為整潔、標(biāo)準(zhǔn)的日期格式。
df["Date"] = df["Date"].astype("datetime64[ns]")
示例 3
關(guān)于名稱列,我們首先需要解決如下問(wèn)題:
首先我們應(yīng)該用所有大寫(xiě)或小寫(xiě)字母來(lái)表示它們。另一種選擇是將它們大寫(xiě)(即只有首字母是大寫(xiě)的);
切換姓氏和名字的順序;
df["Name"].str.split(",", expand=True)
然后,我將取第二列與第一列結(jié)合起來(lái),中間有一個(gè)空格。最后一步是使用 lower 函數(shù)將字母轉(zhuǎn)換為小寫(xiě)。
df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()
示例 4
支付Payment的數(shù)據(jù)類型是不能用于數(shù)值分析的。在將其轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)類型(即整數(shù)或浮點(diǎn)數(shù))之前,我們需要?jiǎng)h除美元符號(hào)并將第一行中的逗號(hào)替換為點(diǎn)。
我們可以使用 Pandas 在一行代碼中完成所有這些操作
df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")
示例 5
Note 列中的一些字符也需要?jiǎng)h除。在處理大型數(shù)據(jù)集時(shí),可能很難手動(dòng)替換它們。
我們可以做的是刪除非字母數(shù)字字符(例如?、!、-、. 等)。在這種情況下也可以使用 replace 函數(shù),因?yàn)樗邮苷齽t表達(dá)式。
如果我們只想要字母字符,下面是我們?nèi)绾问褂锰鎿Q函數(shù):
df["Note"].str.replace('[^a-zA-Z]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral Name: Note, dtype: object
如果我們想要字母和數(shù)字(即字母數(shù)字),我們需要在我們的正則表達(dá)式中添加數(shù)字:
df["Note"].str.replace('[^a-zA-Z0-9]', '') 0 Unhappy 1 Satisfied 2 Neutral 3 Unhappy 4 Neutral0 Name: Note, dtype: object
請(qǐng)注意,這次沒(méi)有刪除最后一行中的 0,我只需選擇第一個(gè)選項(xiàng)。如果我還想在刪除非字母數(shù)字字符后將字母轉(zhuǎn)換為小寫(xiě)
df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()
與初始形式相比,數(shù)據(jù)集看起來(lái)要好得多。當(dāng)然,它是一個(gè)簡(jiǎn)單的數(shù)據(jù)集,但這些清理操作在處理大型數(shù)據(jù)集時(shí)肯定會(huì)對(duì)你有所幫助。
總結(jié)
到此這篇關(guān)于Python數(shù)據(jù)預(yù)處理常用的5個(gè)技巧的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)預(yù)處理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)增強(qiáng)及預(yù)處理示例詳解
- python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作
- python數(shù)據(jù)預(yù)處理 :樣本分布不均的解決(過(guò)采樣和欠采樣)
- python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)標(biāo)準(zhǔn)化的幾種處理方式
- Python----數(shù)據(jù)預(yù)處理代碼實(shí)例
- Python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)范化(歸一化)示例
- Python時(shí)間序列數(shù)據(jù)的預(yù)處理方法總結(jié)
相關(guān)文章
線程和進(jìn)程的區(qū)別及Python代碼實(shí)例
這篇文章主要介紹了線程和進(jìn)程的區(qū)別及Python代碼實(shí)例,本文給出了一個(gè)python的腳本讓一個(gè)進(jìn)程中運(yùn)行兩個(gè)線程,需要的朋友可以參考下2015-02-02Python流行ORM框架sqlalchemy安裝與使用教程
這篇文章主要介紹了Python流行ORM框架sqlalchemy安裝與使用,結(jié)合具體實(shí)例形式分析了sqlalchemy的安裝及ORM映射、查詢等相關(guān)操作技巧,需要的朋友可以參考下2019-06-06django使用F方法更新一個(gè)對(duì)象多個(gè)對(duì)象字段的實(shí)現(xiàn)
這篇文章主要介紹了django使用F方法更新一個(gè)對(duì)象多個(gè)對(duì)象字段的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03Python整數(shù)對(duì)象實(shí)現(xiàn)原理詳解
這篇文章主要介紹了Python整數(shù)對(duì)象實(shí)現(xiàn)原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07對(duì)python實(shí)現(xiàn)合并兩個(gè)排序鏈表的方法詳解
今天小編就為大家分享一篇對(duì)python實(shí)現(xiàn)合并兩個(gè)排序鏈表的方法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-01-01基于Python的OpenCV骨架化圖像并顯示(skeletonize)
這篇文章主要介紹了基于Python的OpenCV骨架化圖像并顯示(skeletonize),文中附含詳細(xì)的示例代碼,教大家來(lái)實(shí)現(xiàn)完成,有需要的可以參考下2021-08-08Python 隨機(jī)生成測(cè)試數(shù)據(jù)的模塊:faker基本使用方法詳解
這篇文章主要介紹了Python 隨機(jī)生成測(cè)試數(shù)據(jù)的模塊:faker基本使用方法,結(jié)合實(shí)例形式詳細(xì)分析了Python 隨機(jī)生成測(cè)試數(shù)據(jù)的模塊faker基本功能、原理、使用方法及操作注意事項(xiàng),需要的朋友可以參考下2020-04-04淺析Python 實(shí)現(xiàn)一個(gè)自動(dòng)化翻譯和替換的工具
這篇文章主要介紹了Python 實(shí)現(xiàn)一個(gè)自動(dòng)化翻譯和替換的工具,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-04-04python買(mǎi)賣(mài)股票的最佳時(shí)機(jī)(基于貪心/蠻力算法)
這篇文章主要介紹了python買(mǎi)賣(mài)股票的最佳時(shí)機(jī)(基于貪心/蠻力算法),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07