欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)數(shù)據(jù)清洗的18種方法

 更新時(shí)間:2025年01月18日 10:12:05   作者:懶大王愛(ài)吃狼  
本文主要介紹了Python實(shí)現(xiàn)數(shù)據(jù)清洗的18種方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

數(shù)據(jù)清洗可能是你們遇到的第一個(gè)大挑戰(zhàn),但別擔(dān)心,Python的魔力在于能用簡(jiǎn)潔的代碼解決復(fù)雜問(wèn)題。今天,我們就來(lái)學(xué)習(xí)如何用一行代碼完成數(shù)據(jù)清洗的十八個(gè)小絕招。準(zhǔn)備好,讓我們一起化繁為簡(jiǎn),成為數(shù)據(jù)清洗的高手!

1. 去除字符串兩邊空格

data = "   Hello World!   "  
cleaned_data = data.strip()  # 神奇的一行,左右空格拜拜  

  • 解讀:strip()方法去掉字符串首尾的空白字符,簡(jiǎn)單高效。

2. 轉(zhuǎn)換數(shù)據(jù)類型

num_str = "123"  
num_int = int(num_str)  # 字符串轉(zhuǎn)整數(shù),就是這么直接  
  • 注意:轉(zhuǎn)換時(shí)要確保數(shù)據(jù)格式正確,否則會(huì)報(bào)錯(cuò)。

3. 大小寫轉(zhuǎn)換

text = "Python is Awesome"  
lower_text = text.lower()  # 全部變小寫,便于統(tǒng)一處理  
upper_text = text.upper()  # 或者全部大寫,隨你心情  

4. 移除列表中的重復(fù)元素

my_list = [1, 2, 2, 3, 4, 4]  
unique_list = list(set(my_list))  # 集合特性,去重?zé)o壓力  
  • 小貼士:這招雖好,但改變了原列表順序哦。

5. 快速統(tǒng)計(jì)元素出現(xiàn)次數(shù)

from collections import Counter  
data = ['apple', 'banana', 'apple', 'orange']  
counts = dict(Counter(data))  # 想要知道誰(shuí)最受歡迎?  
  • 解讀:Counter是統(tǒng)計(jì)神器,輕松獲取頻率。

6. 字符串分割成列表

sentence = "Hello world"  
words = sentence.split(" ")  # 分割符默認(rèn)為空格,一句話變單詞列表  

7. 列表合并

list1 = [1, 2, 3]  
list2 = [4, 5, 6]  
merged_list = list1 + list2  # 合并列表,就這么簡(jiǎn)單  

8. 數(shù)據(jù)填充

my_list = [1, 2]  
filled_list = my_list * 3  # 重復(fù)三次,快速填充列表  

9. 提取日期時(shí)間

from datetime import datetime  
date_str = "2023-04-01"  
date_obj = datetime.strptime(date_str, "%Y-%m-%d")  # 日期字符串變對(duì)象  
  • 關(guān)鍵點(diǎn):%Y-%m-%d是日期格式,按需調(diào)整。

10. 字符串替換

old_string = "Python is fun."  
new_string = old_string.replace("fun", "awesome")  # 改頭換面,一言既出  

11. 快速排序

numbers = [5, 2, 9, 1, 5]  
sorted_numbers = sorted(numbers)  # 自然排序,升序默認(rèn)  
  • 進(jìn)階:reverse=True可降序排列。

12. 提取數(shù)字

mixed_str = "The year is 2023"  
nums = ''.join(filter(str.isdigit, mixed_str))  # 只留下數(shù)字,其余走開(kāi)  
  • 解密:filter函數(shù)配合isdigit,只保留數(shù)字字符。

13. 空值處理(假設(shè)是列表)

data_list = [None, 1, 2, None, 3]  
filtered_list = [x for x in data_list if x is not None]  # 拒絕空值,干凈利落  
  • 語(yǔ)法糖:列表推導(dǎo)式,簡(jiǎn)潔優(yōu)雅。

14. 字典鍵值對(duì)互換

my_dict = {"key1": "value1", "key2": "value2"}  
swapped_dict = {v: k for k, v in my_dict.items()}  # 翻轉(zhuǎn)乾坤,鍵變值,值變鍵  

15. 平均值計(jì)算

numbers = [10, 20, 30, 40]  
average = sum(numbers) / len(numbers)  # 平均數(shù),一步到位  

16. 字符串分組

s = "abcdef"  
grouped = [s[i:i+2] for i in range(0, len(s), 2)]  # 每?jī)蓚€(gè)一組,分割有道  
  • 應(yīng)用:適用于任何需要分組的場(chǎng)景。

17. 數(shù)據(jù)標(biāo)準(zhǔn)化

import numpy as np  
data = np.array([1, 2, 3])  
normalized_data = (data - data.mean()) / data.std()  # 數(shù)學(xué)之美,標(biāo)準(zhǔn)分布  
  • 背景:數(shù)據(jù)分析必備,讓數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。

18. 數(shù)據(jù)過(guò)濾(基于條件)

data = [1, 2, 3, 4, 5]  
even_numbers = [x for x in data if x % 2 == 0]  # 只留偶數(shù),排除異己  
  • 技巧:列表推導(dǎo)結(jié)合條件判斷,高效篩選。

進(jìn)階實(shí)踐與技巧

既然你已經(jīng)掌握了基礎(chǔ)的十八種方法,接下來(lái)讓我們深入一些,探討如何將這些技巧結(jié)合起來(lái),解決更復(fù)雜的數(shù)據(jù)清洗問(wèn)題,并分享一些實(shí)戰(zhàn)中的小技巧。

1. 復(fù)雜字符串處理:正則表達(dá)式

正則表達(dá)式是數(shù)據(jù)清洗中不可或缺的工具,雖然嚴(yán)格來(lái)說(shuō)可能超過(guò)一行,但它能高效地處理模式匹配和替換。

import re  
text = "Email: example@email.com Phone: 123-456-7890"  
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)  
phones = re.findall(r'\b\d{3}-\d{3}-\d{4}\b', text)  

這段代碼分別提取了文本中的電子郵件和電話號(hào)碼,展示了正則表達(dá)式的強(qiáng)大。

2. Pandas庫(kù)的魔法

對(duì)于數(shù)據(jù)分析和清洗,Pandas是不二之選。雖然Pandas的命令通常不止一行,但其高效性和簡(jiǎn)潔性值得學(xué)習(xí)。

import pandas as pd  
df = pd.read_csv('data.csv')  
# 刪除含有缺失值的行  
df_clean = df.dropna()  
# 替換特定值  
df['column_name'] = df['column_name'].replace('old_value', 'new_value')  
  • 注意:Pandas雖然強(qiáng)大,但對(duì)于初學(xué)者可能需要更多時(shí)間來(lái)熟悉。

3. 錯(cuò)誤處理和日志記錄

在處理大量數(shù)據(jù)時(shí),錯(cuò)誤幾乎是不可避免的。學(xué)會(huì)用try-except結(jié)構(gòu)捕獲異常,并使用logging記錄日志,可以大大提升調(diào)試效率。

import logging  
logging.basicConfig(level=logging.INFO)  
try:  
    result = some_function_that_might_fail()  
    logging.info(f"成功執(zhí)行!結(jié)果:{result}")  
except Exception as e:  
    logging.error(f"執(zhí)行失?。簕e}")  

這樣,即使出現(xiàn)問(wèn)題,也能迅速定位。

4. 批量操作與函數(shù)封裝

將常用的數(shù)據(jù)清洗步驟封裝成函數(shù),可以大大提高代碼的復(fù)用性和可讀性。

def clean_phone(phone):  
    """移除電話號(hào)碼中的非數(shù)字字符"""  
    return ''.join(c for c in phone if c.isdigit())  
  
phone_numbers = ['123-456-7890', '(555) 555-5555']  
cleaned_numbers = [clean_phone(phone) for phone in phone_numbers]  

通過(guò)定義clean_phone函數(shù),我們可以輕松地清理一批電話號(hào)碼。

實(shí)戰(zhàn)建議:

  • 分步進(jìn)行:不要試圖一次性完成所有清洗任務(wù),分步驟處理,逐步優(yōu)化。

  • 測(cè)試數(shù)據(jù):在實(shí)際數(shù)據(jù)上測(cè)試你的清洗邏輯前,先用小樣本或模擬數(shù)據(jù)驗(yàn)證代碼的正確性。

  • 文檔和注釋:即使是簡(jiǎn)單的數(shù)據(jù)清洗腳本,良好的注釋也能為未來(lái)的自己或其他開(kāi)發(fā)者提供巨大幫助。

到此這篇關(guān)于Python實(shí)現(xiàn)數(shù)據(jù)清洗的18種方法的文章就介紹到這了,更多相關(guān)Python 數(shù)據(jù)清洗內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python將unicode和str互相轉(zhuǎn)化的實(shí)現(xiàn)

    python將unicode和str互相轉(zhuǎn)化的實(shí)現(xiàn)

    這篇文章主要介紹了python將unicode和str互相轉(zhuǎn)化的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-05-05
  • Python?數(shù)據(jù)庫(kù)操作SQL基礎(chǔ)

    Python?數(shù)據(jù)庫(kù)操作SQL基礎(chǔ)

    在本章節(jié)中,我們將討論?Python?數(shù)據(jù)庫(kù)操作的基礎(chǔ)知識(shí),重點(diǎn)關(guān)注?SQL即Structured?Query?Language,結(jié)構(gòu)化查詢語(yǔ)言,SQL?是用于管理關(guān)系型數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)編程語(yǔ)言,可以用來(lái)執(zhí)行數(shù)據(jù)定義、數(shù)據(jù)操作和數(shù)據(jù)控制等任務(wù)
    2023-06-06
  • Python解壓可迭代對(duì)象賦值給多個(gè)變量詳解

    Python解壓可迭代對(duì)象賦值給多個(gè)變量詳解

    這篇文章主要為大家介紹了Python賦值多個(gè)變量,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2021-12-12
  • Python+OpenCV實(shí)戰(zhàn)之拖拽虛擬方塊的實(shí)現(xiàn)

    Python+OpenCV實(shí)戰(zhàn)之拖拽虛擬方塊的實(shí)現(xiàn)

    這篇文章主要介紹了如何利用Python+OpenCV實(shí)現(xiàn)拖拽虛擬方塊的效果,即根據(jù)手指坐標(biāo)位置和矩形的坐標(biāo)位置,判斷手指點(diǎn)是否在矩形上,如果在則矩形跟隨手指移動(dòng),感興趣的可以了解一下
    2022-08-08
  • python opencv實(shí)現(xiàn)直線檢測(cè)并測(cè)出傾斜角度(附源碼+注釋)

    python opencv實(shí)現(xiàn)直線檢測(cè)并測(cè)出傾斜角度(附源碼+注釋)

    這篇文章主要介紹了python opencv實(shí)現(xiàn)直線檢測(cè)并測(cè)出傾斜角度(附源碼+注釋),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • 詳細(xì)分析Python collections工具庫(kù)

    詳細(xì)分析Python collections工具庫(kù)

    這篇文章主要介紹了詳解Python collections工具庫(kù)的相關(guān)資料,文中講解非常細(xì)致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-07-07
  • Python3.7黑帽編程之病毒篇(基礎(chǔ)篇)

    Python3.7黑帽編程之病毒篇(基礎(chǔ)篇)

    這篇文章主要介紹了Python3.7黑帽編程之病毒篇(基礎(chǔ)篇),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-02-02
  • OpenCV?imread讀取圖片失敗的問(wèn)題及解決

    OpenCV?imread讀取圖片失敗的問(wèn)題及解決

    這篇文章主要介紹了OpenCV?imread讀取圖片失敗的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • python使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù)

    python使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù)

    這篇文章主要介紹了python如何使用ctypes庫(kù)調(diào)用DLL動(dòng)態(tài)鏈接庫(kù),幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-10-10
  • python對(duì)綁定事件的鼠標(biāo)、按鍵的判斷實(shí)例

    python對(duì)綁定事件的鼠標(biāo)、按鍵的判斷實(shí)例

    今天小編就為大家分享一篇python對(duì)綁定事件的鼠標(biāo)、按鍵的判斷實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-07-07

最新評(píng)論