欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Pandas搭配lambda組合使用詳解

 更新時間:2022年01月21日 14:31:45   作者:Python學(xué)習(xí)與數(shù)據(jù)挖掘  
大家好,在之前文章中,我們介紹了很多 Python 用法。喜歡的朋友可以看一下歷史文章。今天我給大家講講lambda與pandas模塊配合使用方法,熟練掌握可以極大地提高數(shù)據(jù)分析與挖掘的效率

導(dǎo)入模塊與讀取數(shù)據(jù)

我們第一步需要導(dǎo)入模塊以及數(shù)據(jù)集

import pandas as pd

df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()

創(chuàng)建新的列

一般我們是通過在現(xiàn)有兩列的基礎(chǔ)上進行一些簡單的數(shù)學(xué)運算來創(chuàng)建新的一列,例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新創(chuàng)建的列是經(jīng)過相當(dāng)復(fù)雜的計算得來的,那么lambda方法就很多必要被運用到了,我們先來定義一個函數(shù)方法

def custom_rating(genre,rating):
    if 'Thriller' in genre:
        return min(10,rating+1)
    elif 'Comedy' in genre:
        return max(0,rating-1)
    elif 'Drama' in genre:
        return max(5, rating-1)
    else:
        return rating

我們對于不同類別的電影采用了不同方式的評分方法,例如對于“驚悚片”,評分的方法則是在“原來的評分+1”和10分當(dāng)中取一個最小的,而對于“喜劇”類別的電影,則是在0分和“原來的評分-1”當(dāng)中取一個最大的,然后我們通過apply方法和lambda方法將這個自定義的函數(shù)應(yīng)用在這個DataFrame數(shù)據(jù)集當(dāng)中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我們這里需要說明一下axis參數(shù)的作用,其中axis=1代表跨列而axis=0代表跨行,如下圖所示

圖片

篩選數(shù)據(jù)

pandas當(dāng)中篩選數(shù)據(jù)相對來說比較容易,可以用到& | ~這些操作符,代碼如下

# 單個條件,評分大于5分的
df_gt_5 = df[df['Rating']>5]

# 多個條件: AND - 同時滿足評分高于5分并且投票大于100000的
And_df = df[(df['Rating']>5) & (df['Votes']>100000)]

# 多個條件: OR - 滿足評分高于5分或者投票大于100000的
Or_df = df[(df['Rating']>5) | (df['Votes']>100000)]

# 多個條件:NOT - 將滿足評分高于5分或者投票大于100000的數(shù)據(jù)排除掉
Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

這些都是非常簡單并且是常見的例子,但是要是我們想要篩選出電影的影名長度大于5的部分,要是也采用上面的方式就會報錯

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

這里我們還是采用applylambda相結(jié)合,來實現(xiàn)上面的功能

#創(chuàng)建一個新的列來存儲每一影片名的長度
df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1)

#篩選出影片名長度大于5的部分
new_df = df[df['num_words_title']>=5]

當(dāng)然要是大家覺得上面的方法有點繁瑣的話,也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我們想要篩選出那些影片的票房低于當(dāng)年平均水平的數(shù)據(jù),可以這么來做。

我們先要對每年票房的的平均值做一個歸總,代碼如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我們定義一個函數(shù)來判斷是否存在該影片的票房低于當(dāng)年平均水平的情況,返回的是布爾值

def bool_provider(revenue, year):
    return revenue<year_revenue_dict[year]

然后我們通過結(jié)合apply方法和lambda方法應(yīng)用到數(shù)據(jù)集當(dāng)中去

new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],x['Year']),axis=1)]

我們篩選數(shù)據(jù)的時候,主要是用.loc方法,它同時也可以和lambda方法聯(lián)用,例如我們想要篩選出評分在5-8分之間的電影以及它們的票房,代碼如下

df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]

轉(zhuǎn)變指定列的數(shù)據(jù)類型

通常我們轉(zhuǎn)變指定列的數(shù)據(jù)類型,都是調(diào)用astype方法來實現(xiàn)的,例如我們將“Price”這一列的數(shù)據(jù)類型轉(zhuǎn)變成整型的數(shù)據(jù),代碼如下

df['Price'].astype('int')

會出現(xiàn)如下所示的報錯信息

ValueError: invalid literal for int() with base 10: '12,000'

因此當(dāng)出現(xiàn)類似“12,000”的數(shù)據(jù)的時候,調(diào)用astype方法實現(xiàn)數(shù)據(jù)類型轉(zhuǎn)換就會報錯,因此我們還需要將到applylambda結(jié)合進行數(shù)據(jù)的清洗,代碼如下

df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)

方法調(diào)用過程的可視化

有時候我們在處理數(shù)據(jù)集比較大的時候,調(diào)用函數(shù)方法需要比較長的時間,這個時候就需要有一個要是有一個進度條,時時刻刻向我們展示數(shù)據(jù)處理的進度,就會直觀很多了。

這里用到的是tqdm模塊,我們將其導(dǎo)入進來

from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()

然后將apply方法替換成progress_apply即可,代碼如下

df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)

output

圖片

當(dāng)lambda方法遇到if-else

當(dāng)然我們也可以將if-else運用在lambda自定義函數(shù)當(dāng)中,代碼如下

Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)

output

10

當(dāng)然很多時候我們可能有多組if-else,這樣寫起來就有點麻煩了,代碼如下

df['Rating'].apply(lambda x:"低分電影" if x < 3 else ("中等電影" if x>=3 and x < 5 else("高分電影" if x>=8 else "值得觀看")))

看上去稍微有點凌亂了,這個時候,小編這里到還是推薦大家自定義函數(shù),然后通過applylambda方法搭配使用。

到此這篇關(guān)于Pandas搭配lambda組合使用詳解的文章就介紹到這了,更多相關(guān)Python Pandas 內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評論