如何用Python來(lái)搭建一個(gè)簡(jiǎn)單的推薦系統(tǒng)
在這篇文章中,我們會(huì)介紹如何用Python來(lái)搭建一個(gè)簡(jiǎn)單的推薦系統(tǒng)。
本文使用的數(shù)據(jù)集是MovieLens數(shù)據(jù)集,該數(shù)據(jù)集由明尼蘇達(dá)大學(xué)的Grouplens研究小組整理。它包含1,10和2億個(gè)評(píng)級(jí)。 Movielens還有一個(gè)網(wǎng)站,我們可以注冊(cè),撰寫(xiě)評(píng)論并獲得電影推薦。接下來(lái)我們就開(kāi)始實(shí)戰(zhàn)演練。
在這篇文章中,我們會(huì)使用Movielens構(gòu)建一個(gè)基于item的簡(jiǎn)易的推薦系統(tǒng)。在開(kāi)始前,第一件事就是導(dǎo)入pandas和numPy。
import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore')
接下來(lái),我們使用pandas read_csv()加載數(shù)據(jù)集。數(shù)據(jù)集由制表符分隔,所以我們將\ t傳遞給sep參數(shù)。然后,使用names參數(shù)傳入列名。
df = pd.read_csv('u.data', sep='\t', names=['user_id','item_id','rating','titmestamp'])
接下來(lái)查看表頭,檢查一下正在處理的數(shù)據(jù)。
df.head()
如果我們能夠看到電影的標(biāo)題而不僅僅是ID,那再好不過(guò)了。之后加載電影標(biāo)題并把它與此數(shù)據(jù)集合并。
movie_titles = pd.read_csv('Movie_Titles') movie_titles.head()
由于item_id列相同,我們可以在此列上合并這些數(shù)據(jù)集。
df = pd.merge(df, movie_titles, on='item_id') df.head()
數(shù)據(jù)集中的每一列分部代表:
- user_id - 評(píng)級(jí)電影的用戶的ID。
- item_id- 電影的ID。
- rating - 用戶為電影提供的評(píng)級(jí),介于1和5之間。
- timestamp - 電影評(píng)級(jí)的時(shí)間。
- title - 電影標(biāo)題。
使用describe或info命令,就可以獲得數(shù)據(jù)集的簡(jiǎn)要描述。如果想要真正了解正在使用的數(shù)據(jù)集的話,這一點(diǎn)非常重要。
df.describe()
可以看出,數(shù)據(jù)集共有100003條記錄,電影的平均評(píng)分介于3.52-5之間。
現(xiàn)在我們?cè)賱?chuàng)建一個(gè)dataframe,其中包含每部電影的平均評(píng)分和評(píng)分?jǐn)?shù)量。之后,這些評(píng)分將用來(lái)計(jì)算電影之間的相關(guān)性。相關(guān)性是一種統(tǒng)計(jì)指標(biāo),表示兩個(gè)或多個(gè)變量一起波動(dòng)的程度。相關(guān)系數(shù)越高,電影越為相似。
以下例子將使用Pearson相關(guān)系數(shù) (Pearson correlation coefficient),該數(shù)字介于-1和1之間,1表示正線性相關(guān),-1表示負(fù)相關(guān), 0表示沒(méi)有線性相關(guān)。也就是說(shuō),具有零相關(guān)性的電影完全不相似。
我們會(huì)使用pandas groupby 功能來(lái)創(chuàng)建dataframe。按照標(biāo)題對(duì)數(shù)據(jù)集進(jìn)行分組,并計(jì)算其平均值獲得每部電影的平均評(píng)分。
ratings = pd.DataFrame(df.groupby('title')['rating'].mean()) ratings.head()
接下來(lái)我們創(chuàng)建number_of_ratings列,這樣就能看到每部電影的評(píng)分?jǐn)?shù)量。完成這步操作后,就可以看到電影的平均評(píng)分與電影獲得的評(píng)分?jǐn)?shù)量之間的關(guān)系。五星級(jí)電影很有可能只被一個(gè)人評(píng)價(jià),而這種五星電影在統(tǒng)計(jì)上是不正確的。
因此,在構(gòu)建推薦系統(tǒng)時(shí),我們需要設(shè)置閾值。我們可以使用pandas groupby功能來(lái)創(chuàng)建新列,然后按標(biāo)題欄分組,使用計(jì)數(shù)函數(shù)計(jì)算每部電影的評(píng)分。之后,便可以使用head()函數(shù)查看新的dataframe。
rating ['number_of_ratings'] = df.groupby('title')['rating'].count() ratings.head()
接下來(lái)我們使用pandas繪制功能來(lái)繪制直方圖,顯示評(píng)級(jí)的分布:
import matplotlib.pyplot as plt %matplotlib inline ratings['rating'].hist(bins=50)
可以看到,大多數(shù)電影的評(píng)分都在2.5-4之間。通過(guò)類(lèi)似的方法還可以將number_of_ratings列可視化。
ratings['number_of_ratings'].hist(bins=60)
從上面的直方圖中可以清楚地看出,多數(shù)電影的評(píng)分都很低,評(píng)分最高的電影是一些非常有名的電影。
現(xiàn)在讓我們?cè)賮?lái)看一下電影評(píng)級(jí)與評(píng)分?jǐn)?shù)量之間的關(guān)系。我們可以使用seaborn繪制散點(diǎn)圖,然后使用jointplot()函數(shù)執(zhí)行此操作。
import seaborn as sns sns.jointplot(x='rating', y='number_of_ratings', data=ratings)
從圖中我們可以看出,電影平均評(píng)分與評(píng)分?jǐn)?shù)量之間呈正相關(guān)關(guān)系,電影獲得的評(píng)分?jǐn)?shù)量越多,其平均評(píng)分越高。
創(chuàng)建基于item的簡(jiǎn)易推薦系統(tǒng)
接下來(lái)我們會(huì)快速創(chuàng)建一個(gè)基于item的簡(jiǎn)單的推薦系統(tǒng)。
首先,我們需要將數(shù)據(jù)集轉(zhuǎn)換為矩陣,電影標(biāo)題為列,user_id為索引,評(píng)級(jí)為值。完成這一步,我們將得到一個(gè)dataframe,其中列是電影標(biāo)題,行是用戶ID。每列代表所有用戶對(duì)電影的所有評(píng)級(jí)。評(píng)級(jí)為NAN表示用戶未對(duì)這部電影評(píng)分。
我們可以用該矩陣來(lái)計(jì)算單個(gè)電影的評(píng)級(jí)與矩陣中其余電影的相關(guān)性,該矩陣可以通過(guò)pandas pivot_table實(shí)現(xiàn)。
movie_matrix = df.pivot_table(index ='user_id',columns ='title',values ='rating') movie_matrix.head()
接下來(lái)讓我們找到評(píng)分?jǐn)?shù)量最多的電影,并選擇其中的兩部電影。然后使用pandas sort_values并將升序設(shè)置為false,以便顯示評(píng)分最多的電影。然后使用head()函數(shù)來(lái)查看評(píng)分?jǐn)?shù)目最多的前十部電影。
ratings.sort_values('number_of_ratings', ascending=False).head(10)
假設(shè)一個(gè)用戶曾看過(guò)Air Force One(1997)和Contact(1997),我們想根據(jù)這兩條觀看記錄向該用戶推薦其他類(lèi)似的電影,那么這一點(diǎn)可以通過(guò)計(jì)算這兩部電影的評(píng)級(jí)與數(shù)據(jù)集中其他電影的評(píng)級(jí)之間的相關(guān)性來(lái)實(shí)現(xiàn)。第一步是創(chuàng)建一個(gè)dataframe,其中包含來(lái)自movie_matrix的這些電影的評(píng)級(jí)。
AFO_user_rating = movie_matrix['Air Force One (1997)'] contact_user_rating = movie_matrix['Contact (1997)']
Dataframe可以顯示user_id和這兩部電影的評(píng)分。
AFO_user_rating.head() contact_user_rating.head()
使用pandas corwith功能計(jì)算兩個(gè)dataframe之間的相關(guān)性。有了這一步,就能夠獲得每部電影的評(píng)級(jí)與Air Force One電影的評(píng)級(jí)之間的相關(guān)性。
similar_to_air_force_one = movie_matrix.corrwith(AFO_user_rating)
可以看到,Air Force One電影和Till There Was You(1997)之間的相關(guān)性是0.867。這表明這兩部電影之間有很強(qiáng)的相似性。
similar_to_air_force_one.head()
還可以計(jì)算Contact(1997)的評(píng)級(jí)與其他電影評(píng)級(jí)之間的相關(guān)性,步驟同上:
similar_to_contact = movie_matrix.corrwith(contact_user_rating)
可以從中發(fā)現(xiàn),Contact(1997)和Till There Was You(1997)之間存在非常強(qiáng)的相關(guān)性(0.904)。
similar_to_contact.head()
前邊已經(jīng)提到,并非所有用戶都對(duì)所有電影進(jìn)行了評(píng)分,因此,該矩陣中有很多缺失值。為了讓結(jié)果看起來(lái)更有吸引力,刪除這些空值并將相關(guān)結(jié)果轉(zhuǎn)換為dataframe。
corr_contact = pd.DataFrame(similar_to_contact, columns=['Correlation']) corr_contact.dropna(inplace=True) corr_contact.head()corr_AFO = pd.DataFrame(similar_to_air_force_one, columns=['correlation']) corr_AFO.dropna(inplace=True) corr_AFO.head()
上面這兩個(gè)dataframe分別展示了與Contact(1997)和Air Force One(1997)電影最相似的電影。然而,問(wèn)題出現(xiàn)了,有些電影的實(shí)際質(zhì)量非常低,但可能因?yàn)橐粌晌挥脩艚o他們5星評(píng)級(jí)而被推薦。
這個(gè)問(wèn)題可以通過(guò)設(shè)置評(píng)級(jí)數(shù)量的閾值來(lái)解決。從早期的直方圖中看到,評(píng)級(jí)數(shù)量從100開(kāi)始急劇下降。因此可以將此設(shè)置為閾值,但是也可以考慮其他合適的值。為此,我們需要將兩個(gè)dataframe與rating datframe中的number_of_ratings列一起加入。
corr_AFO = corr_AFO.join(ratings['number_of_ratings']) corr_contact = corr_contact.join(ratings['number_of_ratings'])corr_AFO.head()corr_contact.head()
現(xiàn)在,我們就能得到與Air Force One(1997)最相似的電影,并把這些電影限制在至少有100條評(píng)論的電影中,然后可以按相關(guān)列對(duì)它們進(jìn)行排序并查看前10個(gè)。
corr_AFO [corr_AFO ['number_of_ratings']> 100] .sort_values(by ='correlation',ascending = False).head(10)
我們注意到Air Force One(1997)與自身相關(guān)性最高,這并不奇怪。下一部與Air Force One(1997)最相似的電影是Hunt for Red October,相關(guān)系數(shù)為0.554。
顯然,通過(guò)更改評(píng)論數(shù)量的閾值,我們可以按之前的方式得到不同的結(jié)果。限制評(píng)級(jí)數(shù)量可以讓我們獲得更好的結(jié)果。
現(xiàn)在重復(fù)上邊的步驟,可以看到與Contact(1997)電影最相關(guān)的電影:
corr_contact [corr_contact ['number_of_ratings']> 100] .sort_values(by ='Correlation',ascending = False).head(10)
與Contact(1997)最相似的電影是Philadelphia(1993),相關(guān)系數(shù)為0.446,有137個(gè)評(píng)級(jí)。所以,如果有人喜歡Contact(1997),我們可以向他們推薦上述電影。
以上是構(gòu)建推薦系統(tǒng)的一種非常簡(jiǎn)單的方法,但并不符合行業(yè)標(biāo)準(zhǔn)。后續(xù)的話我們可以通過(guò)構(gòu)建基于存儲(chǔ)器的協(xié)同過(guò)濾系統(tǒng)來(lái)改進(jìn)該系統(tǒng)。在這種情況下,將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,使用諸如余弦相似性來(lái)計(jì)算電影之間的相似性;或者構(gòu)建基于模型的協(xié)作過(guò)濾系統(tǒng),然后使用Root Mean Squared Error(RMSE)等技術(shù)評(píng)估模型。
Github: https://github.com/mwitiderrick/simple-recommender-
英文:How to build a Simple Recommender System in Python
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
vscode配置與python虛擬環(huán)境切換的幾種方式總結(jié)
Python之所以強(qiáng)大,除了語(yǔ)言本身的特性外,更重要的是擁有無(wú)所不及的第三方庫(kù),下面這篇文章主要給大家介紹了關(guān)于vscode配置與python虛擬環(huán)境切換的幾種方式,文中通過(guò)圖文介紹的非常詳細(xì),需要的朋友可以參考下2022-12-12Python enumerate函數(shù)功能與用法示例
這篇文章主要介紹了Python enumerate函數(shù)功能與用法,結(jié)合實(shí)例形式分析了enumerate函數(shù)針對(duì)列表、字符串遍歷操作相關(guān)使用技巧,需要的朋友可以參考下2019-03-03Django中利用filter與simple_tag為前端自定義函數(shù)的實(shí)現(xiàn)方法
這篇文章主要給大家介紹了Django中利用filter與simple_tag為前端自定義函數(shù)的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起看看吧。2017-06-06python機(jī)器學(xué)習(xí)sklearn實(shí)現(xiàn)識(shí)別數(shù)字
本文主要介紹了python機(jī)器學(xué)習(xí)sklearn實(shí)現(xiàn)識(shí)別數(shù)字,主要簡(jiǎn)述如何通過(guò)sklearn模塊來(lái)進(jìn)行預(yù)測(cè)和學(xué)習(xí),最后再以圖表這種更加直觀的方式展現(xiàn)出來(lái),感興趣的可以了解一下2022-03-03linux系統(tǒng)使用python監(jiān)測(cè)系統(tǒng)負(fù)載腳本分享
這篇文章主要介紹了linux系統(tǒng)使用python監(jiān)測(cè)系統(tǒng)負(fù)載腳本,大家參考使用吧2014-01-01Python實(shí)現(xiàn)將內(nèi)容寫(xiě)入文件的五種方法總結(jié)
本篇帶你詳細(xì)看一下python將內(nèi)容寫(xiě)入文件的方法以及細(xì)節(jié),主要包括write()方法、writelines()?方法、print()?函數(shù)、使用?csv?模塊、使用?json?模塊,需要的可以參考一下2023-04-04Python爬蟲(chóng)實(shí)現(xiàn)驗(yàn)證碼登錄代碼實(shí)例
這篇文章主要介紹了Python爬蟲(chóng)實(shí)現(xiàn)驗(yàn)證碼登錄,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05Python實(shí)現(xiàn)圖算法、堆操作和并查集代碼實(shí)例
這篇文章主要介紹了Python實(shí)現(xiàn)圖算法、堆操作和并查集代碼實(shí)例,圖算法、堆操作和并查集是計(jì)算機(jī)科學(xué)中常用的數(shù)據(jù)結(jié)構(gòu)和算法,它們?cè)诮鉀Q各種實(shí)際問(wèn)題中具有重要的應(yīng)用價(jià)值,需要的朋友可以參考下2023-08-08Python字典取值全攻略之高效、簡(jiǎn)潔地獲取字典值的多種技巧
這篇文章主要給大家介紹了關(guān)于Python字典取值全攻略之高效、簡(jiǎn)潔地獲取字典值的多種技巧,dictionary(字典)是除列表以外Python之中最靈活的數(shù)據(jù)類(lèi)型,文中通過(guò)代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12