欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python數(shù)據(jù)預(yù)處理常用的5個技巧

 更新時間:2022年02月11日 10:37:25   作者:Python學(xué)習(xí)與數(shù)據(jù)挖掘  
大家好,本篇文章主要講的是Python數(shù)據(jù)預(yù)處理常用的5個技巧,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下

前言

我們知道數(shù)據(jù)是一項寶貴的資產(chǎn),近年來經(jīng)歷了指數(shù)級增長。但是原始數(shù)據(jù)通常不能立即使用,它需要進(jìn)行大量清理和轉(zhuǎn)換。

Pandas 是 Python 的數(shù)據(jù)分析和操作庫,它有多種清理數(shù)據(jù)的方法和函數(shù)。在本文中,我將做5個示例來幫助大家掌握數(shù)據(jù)清理技能。

數(shù)據(jù)集

這是一個包含臟數(shù)據(jù)的示例數(shù)據(jù)框

讓我們看看可以做些什么來使這個數(shù)據(jù)集變得干凈。

第一列是多余的,應(yīng)該刪除;

Date 沒有標(biāo)準(zhǔn);

Name 寫成姓氏、名字,并有大寫和小寫字母;

Payment 代表一個數(shù)量,但它們顯示為字符串,需要處理;

在 Note 中,有一些非字母數(shù)字應(yīng)該被刪除;

示例 1

刪除列是使用 drop 函數(shù)的簡單操作。除了寫列名外,我們還需要指定軸參數(shù)的值,因為 drop 函數(shù)用于刪除行和列。 最后,我們可以使用 inplace 參數(shù)來保存更改。

import pandas as pd
df.drop("Unnamed: 0", axis=1, inplace=True)

示例 2

我們有多種選擇將日期值轉(zhuǎn)換為適當(dāng)?shù)母袷健R环N更簡單的方法是使用 astype 函數(shù)來更改列的數(shù)據(jù)類型。
它能夠處理范圍廣泛的值并將它們轉(zhuǎn)換為整潔、標(biāo)準(zhǔn)的日期格式。

df["Date"] = df["Date"].astype("datetime64[ns]")

示例 3

關(guān)于名稱列,我們首先需要解決如下問題:

首先我們應(yīng)該用所有大寫或小寫字母來表示它們。另一種選擇是將它們大寫(即只有首字母是大寫的);

切換姓氏和名字的順序;

df["Name"].str.split(",", expand=True)

然后,我將取第二列與第一列結(jié)合起來,中間有一個空格。最后一步是使用 lower 函數(shù)將字母轉(zhuǎn)換為小寫。

df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()

示例 4

支付Payment的數(shù)據(jù)類型是不能用于數(shù)值分析的。在將其轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)類型(即整數(shù)或浮點數(shù))之前,我們需要刪除美元符號并將第一行中的逗號替換為點。

我們可以使用 Pandas 在一行代碼中完成所有這些操作

df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")

示例 5

Note 列中的一些字符也需要刪除。在處理大型數(shù)據(jù)集時,可能很難手動替換它們。

我們可以做的是刪除非字母數(shù)字字符(例如?、!、-、. 等)。在這種情況下也可以使用 replace 函數(shù),因為它接受正則表達(dá)式。

如果我們只想要字母字符,下面是我們?nèi)绾问褂锰鎿Q函數(shù):

df["Note"].str.replace('[^a-zA-Z]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral
Name: Note, dtype: object

如果我們想要字母和數(shù)字(即字母數(shù)字),我們需要在我們的正則表達(dá)式中添加數(shù)字:

df["Note"].str.replace('[^a-zA-Z0-9]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral0
Name: Note, dtype: object

請注意,這次沒有刪除最后一行中的 0,我只需選擇第一個選項。如果我還想在刪除非字母數(shù)字字符后將字母轉(zhuǎn)換為小寫

df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()

與初始形式相比,數(shù)據(jù)集看起來要好得多。當(dāng)然,它是一個簡單的數(shù)據(jù)集,但這些清理操作在處理大型數(shù)據(jù)集時肯定會對你有所幫助。

總結(jié)

到此這篇關(guān)于Python數(shù)據(jù)預(yù)處理常用的5個技巧的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)預(yù)處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 線程和進(jìn)程的區(qū)別及Python代碼實例

    線程和進(jìn)程的區(qū)別及Python代碼實例

    這篇文章主要介紹了線程和進(jìn)程的區(qū)別及Python代碼實例,本文給出了一個python的腳本讓一個進(jìn)程中運行兩個線程,需要的朋友可以參考下
    2015-02-02
  • Python流行ORM框架sqlalchemy安裝與使用教程

    Python流行ORM框架sqlalchemy安裝與使用教程

    這篇文章主要介紹了Python流行ORM框架sqlalchemy安裝與使用,結(jié)合具體實例形式分析了sqlalchemy的安裝及ORM映射、查詢等相關(guān)操作技巧,需要的朋友可以參考下
    2019-06-06
  • django使用F方法更新一個對象多個對象字段的實現(xiàn)

    django使用F方法更新一個對象多個對象字段的實現(xiàn)

    這篇文章主要介紹了django使用F方法更新一個對象多個對象字段的實現(xiàn),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • Python整數(shù)對象實現(xiàn)原理詳解

    Python整數(shù)對象實現(xiàn)原理詳解

    這篇文章主要介紹了Python整數(shù)對象實現(xiàn)原理詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • 對python實現(xiàn)合并兩個排序鏈表的方法詳解

    對python實現(xiàn)合并兩個排序鏈表的方法詳解

    今天小編就為大家分享一篇對python實現(xiàn)合并兩個排序鏈表的方法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • 基于Python的OpenCV骨架化圖像并顯示(skeletonize)

    基于Python的OpenCV骨架化圖像并顯示(skeletonize)

    這篇文章主要介紹了基于Python的OpenCV骨架化圖像并顯示(skeletonize),文中附含詳細(xì)的示例代碼,教大家來實現(xiàn)完成,有需要的可以參考下
    2021-08-08
  • Python input()函數(shù)案例教程

    Python input()函數(shù)案例教程

    在 Python 中,input() 函數(shù)用于獲取用于的輸入,并給出提示。input() 函數(shù),總是返回 string 類型,因此,我們可以使用 input() 函數(shù),獲取用戶輸入的任何數(shù)據(jù)類型 ,這篇文章主要介紹了Python input()函數(shù)案例詳解,需要的朋友可以參考下
    2023-01-01
  • Python 隨機生成測試數(shù)據(jù)的模塊:faker基本使用方法詳解

    Python 隨機生成測試數(shù)據(jù)的模塊:faker基本使用方法詳解

    這篇文章主要介紹了Python 隨機生成測試數(shù)據(jù)的模塊:faker基本使用方法,結(jié)合實例形式詳細(xì)分析了Python 隨機生成測試數(shù)據(jù)的模塊faker基本功能、原理、使用方法及操作注意事項,需要的朋友可以參考下
    2020-04-04
  • 淺析Python 實現(xiàn)一個自動化翻譯和替換的工具

    淺析Python 實現(xiàn)一個自動化翻譯和替換的工具

    這篇文章主要介紹了Python 實現(xiàn)一個自動化翻譯和替換的工具,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-04-04
  • python買賣股票的最佳時機(基于貪心/蠻力算法)

    python買賣股票的最佳時機(基于貪心/蠻力算法)

    這篇文章主要介紹了python買賣股票的最佳時機(基于貪心/蠻力算法),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07

最新評論