腳本之家服務器常用軟件

快捷導航

軟件下載

android MAC 驅動下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語言 Delphi Android

網絡編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉化為Js

數(shù)據庫

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python數(shù)據預處理常用的5個技巧

更新時間：2022年02月11日 10:37:25 作者：Python學習與數(shù)據挖掘

大家好，本篇文章主要講的是Python數(shù)據預處理常用的5個技巧，感興趣的同學趕快來看一看吧，對你有幫助的話記得收藏一下

前言

我們知道數(shù)據是一項寶貴的資產，近年來經歷了指數(shù)級增長。但是原始數(shù)據通常不能立即使用，它需要進行大量清理和轉換。

Pandas 是 Python 的數(shù)據分析和操作庫，它有多種清理數(shù)據的方法和函數(shù)。在本文中，我將做5個示例來幫助大家掌握數(shù)據清理技能。

數(shù)據集

這是一個包含臟數(shù)據的示例數(shù)據框

讓我們看看可以做些什么來使這個數(shù)據集變得干凈。

第一列是多余的，應該刪除；

Date 沒有標準；

Name 寫成姓氏、名字，并有大寫和小寫字母；

Payment 代表一個數(shù)量，但它們顯示為字符串，需要處理；

在 Note 中，有一些非字母數(shù)字應該被刪除;

示例 1

刪除列是使用 drop 函數(shù)的簡單操作。除了寫列名外，我們還需要指定軸參數(shù)的值，因為 drop 函數(shù)用于刪除行和列。最后，我們可以使用 inplace 參數(shù)來保存更改。

import pandas as pd
df.drop("Unnamed: 0", axis=1, inplace=True)

示例 2

我們有多種選擇將日期值轉換為適當?shù)母袷?。一種更簡單的方法是使用 astype 函數(shù)來更改列的數(shù)據類型。
它能夠處理范圍廣泛的值并將它們轉換為整潔、標準的日期格式。

df["Date"] = df["Date"].astype("datetime64[ns]")

示例 3

關于名稱列，我們首先需要解決如下問題：

首先我們應該用所有大寫或小寫字母來表示它們。另一種選擇是將它們大寫（即只有首字母是大寫的）；

切換姓氏和名字的順序；

df["Name"].str.split(",", expand=True)

然后，我將取第二列與第一列結合起來，中間有一個空格。最后一步是使用 lower 函數(shù)將字母轉換為小寫。

df["Name"] = (df["Name"].str.split(",", expand=True)[1] + " " + df["Name"].str.split(",", expand=True)[0]).str.lower()

示例 4

支付Payment的數(shù)據類型是不能用于數(shù)值分析的。在將其轉換為數(shù)字數(shù)據類型(即整數(shù)或浮點數(shù))之前，我們需要刪除美元符號并將第一行中的逗號替換為點。

我們可以使用 Pandas 在一行代碼中完成所有這些操作

df["Payment"] = df["Payment"].str[1:].str.replace(",", ".").astype("float")

示例 5

Note 列中的一些字符也需要刪除。在處理大型數(shù)據集時，可能很難手動替換它們。

我們可以做的是刪除非字母數(shù)字字符（例如？、！、-、. 等）。在這種情況下也可以使用 replace 函數(shù)，因為它接受正則表達式。

如果我們只想要字母字符，下面是我們如何使用替換函數(shù)：

df["Note"].str.replace('[^a-zA-Z]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral
Name: Note, dtype: object

如果我們想要字母和數(shù)字（即字母數(shù)字），我們需要在我們的正則表達式中添加數(shù)字：

df["Note"].str.replace('[^a-zA-Z0-9]', '')
0      Unhappy
1    Satisfied
2      Neutral
3      Unhappy
4      Neutral0
Name: Note, dtype: object

請注意，這次沒有刪除最后一行中的 0，我只需選擇第一個選項。如果我還想在刪除非字母數(shù)字字符后將字母轉換為小寫

df["Note"] = df["Note"].str.replace('[^a-zA-Z]', '').str.lower()

與初始形式相比，數(shù)據集看起來要好得多。當然，它是一個簡單的數(shù)據集，但這些清理操作在處理大型數(shù)據集時肯定會對你有所幫助。

總結

到此這篇關于Python數(shù)據預處理常用的5個技巧的文章就介紹到這了,更多相關Python數(shù)據預處理內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片