欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解Python 關聯(lián)規(guī)則分析

 更新時間:2021年03月18日 10:53:28   作者:阿橙FM  
這篇文章主要介紹了Python 關聯(lián)規(guī)則分析的相關資料,幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下

1. 關聯(lián)規(guī)則

大家可能聽說過用于宣傳數(shù)據(jù)挖掘的一個案例:啤酒和尿布;據(jù)說是沃爾瑪超市在分析顧客的購買記錄時,發(fā)現(xiàn)許多客戶購買啤酒的同時也會購買嬰兒尿布,于是超市調整了啤酒和尿布的貨架擺放,讓這兩個品類擺放在一起;結果這兩個品類的銷量都有明顯的增長;分析原因是很多剛生小孩的男士在購買的啤酒時,會順手帶一些嬰幼兒用品。

不論這個案例是否是真實的,案例中分析顧客購買記錄的方式就是關聯(lián)規(guī)則分析法Association Rules。

關聯(lián)規(guī)則分析也被稱為購物籃分析,用于分析數(shù)據(jù)集各項之間的關聯(lián)關系。

1.1 基本概念

  • 項集:item的集合,如集合{牛奶、麥片、糖}是一個3項集,可以認為是購買記錄里物品的集合。
  • 頻繁項集:顧名思義就是頻繁出現(xiàn)的item項的集合。如何定義頻繁呢?用比例來判定,關聯(lián)規(guī)則中采用支持度和置信度兩個概念來計算比例值
  • 支持度:共同出現(xiàn)的項在整體項中的比例。以購買記錄為例子,購買記錄100條,如果商品A和B同時出現(xiàn)50條購買記錄(即同時購買A和B的記錄有50),那邊A和B這個2項集的支持度為50%

  • 置信度:購買A后再購買B的條件概率,根據(jù)貝葉斯公式,可如下表示:

提升度:為了判斷產(chǎn)生規(guī)則的實際價值,即使用規(guī)則后商品出現(xiàn)的次數(shù)是否高于商品單獨出現(xiàn)的評率,提升度和衡量購買X對購買Y的概率的提升作用。如下公式可見,如果X和Y相互獨立那么提升度為1,提升度越大,說明X->Y的關聯(lián)性越強

1.2 關聯(lián)規(guī)則Apriori算法

關聯(lián)規(guī)則方法的步驟如下:

  • 發(fā)現(xiàn)頻繁項集
  • 找出關聯(lián)規(guī)則

Apriori算法是經(jīng)典的關聯(lián)規(guī)則算法。Apriori算法的目標是找到最大的K項頻繁集。Apriori算法從尋找1項集開始,通過最小支持度閾值進行剪枝,依次尋找2項集,3項集直到?jīng)]有更過項集為止。

下面是一個案例圖解:

  • 圖中有4個記錄,記錄項有1,2,3,4,5若干
  • 首先先找出1項集對應的支持度(C1),可以看出4的支持度低于最小支持閾值,先剪掉(L1)。
  • 從1項集生成2項集,并計算支持度(C2),可以看出(1,5)(1,2)支持度低于最小支持閾值,先剪掉(L2)
  • 從2項集生成3項集,(1,2,3)(1,2,5)(2,3,5)只有(2,3,5)滿足要求
  • 沒有更多的項集了,就定制迭代

2. mlxtend實戰(zhàn)關聯(lián)規(guī)則

關聯(lián)規(guī)則目前在scikit-learn中并沒有實現(xiàn)。這里介紹另一個python庫mlxtend。

2.1 安裝

pip install mlxtend

2.2 簡單的例子

來看下數(shù)據(jù)集:

import pandas as pd

item_list = [['牛奶','面包'],
    ['面包','尿布','啤酒','土豆'],
    ['牛奶','尿布','啤酒','可樂'],
    ['面包','牛奶','尿布','啤酒'],
    ['面包','牛奶','尿布','可樂']]

item_df = pd.DataFrame(item_list)

數(shù)據(jù)格式處理,傳入模型的數(shù)據(jù)需要滿足bool值的格式

from mlxtend.preprocessing import TransactionEncode

te = TransactionEncoder()
df_tf = te.fit_transform(item_list)
df = pd.DataFrame(df_tf,columns=te.columns_)

  • 計算頻繁項集
from mlxtend.frequent_patterns import apriori

# use_colnames=True表示使用元素名字,默認的False使用列名代表元素, 設置最小支持度min_support
frequent_itemsets = apriori(df, min_support=0.05, use_colnames=True)

frequent_itemsets.sort_values(by='support', ascending=False, inplace=True)

# 選擇2頻繁項集
print(frequent_itemsets[frequent_itemsets.itemsets.apply(lambda x: len(x)) == 2])  

  • 計算關聯(lián)規(guī)則
from mlxtend.frequent_patterns import association_rules

# metric可以有很多的度量選項,返回的表列名都可以作為參數(shù)
association_rule = association_rules(frequent_itemsets,metric='confidence',min_threshold=0.9)

#關聯(lián)規(guī)則可以提升度排序
association_rule.sort_values(by='lift',ascending=False,inplace=True)    
association_rule
# 規(guī)則是:antecedents->consequents

選擇出來關聯(lián)規(guī)則之后,根據(jù)提升度排序后,可能最高提升度的規(guī)則是在我們常識范圍內,那這個規(guī)則的價值就不高。所以我們要在產(chǎn)生的規(guī)則中根據(jù)業(yè)務特點進行篩選,像開篇提到(啤酒->尿布)完全不同的品類之間的關聯(lián)。

筆者最近用關聯(lián)規(guī)則分析用戶的體檢報告記錄,也得出了關于各個病癥的有意義的關聯(lián),如并發(fā)癥,不同病癥相互影響等。

3. 總結

本分介紹關聯(lián)規(guī)則的基本概念和經(jīng)典算法Apriori,以及python的實現(xiàn)庫mlxtend使用。

總結如下:

  • 關聯(lián)規(guī)則用于分析數(shù)據(jù)集各項之間的關聯(lián)關系,想一想啤酒和尿布的故事
  • 三個重要概念:支持度,置信度和提升度
  • Apriori通過迭代先找1項集,用支持度過濾項集,逐步找出所有k項集
  • 用置信度或提升度來選擇滿足的要求的規(guī)則
  • mlxtend對數(shù)據(jù)要求轉換成bool值才可用

以上就是詳解Python 關聯(lián)規(guī)則分析的詳細內容,更多關于Python 關聯(lián)規(guī)則分析的資料請關注腳本之家其它相關文章!

相關文章

  • 在Python 不同級目錄之間模塊的調用方法

    在Python 不同級目錄之間模塊的調用方法

    今天小編就為大家分享一篇在Python 不同級目錄之間模塊的調用方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Django視圖擴展類知識點詳解

    Django視圖擴展類知識點詳解

    這篇文章主要介紹了Django視圖擴展類知識點以及實例代碼,需要的朋友們可以學習下。
    2019-10-10
  • Python疊加矩形框圖層2種方法及效果

    Python疊加矩形框圖層2種方法及效果

    這篇文章主要介紹了Python疊加矩形框圖層2種方法及效果,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-06-06
  • 詳解Anaconda安裝tensorflow報錯問題解決方法

    詳解Anaconda安裝tensorflow報錯問題解決方法

    這篇文章主要介紹了Anaconda安裝tensorflow報錯問題解決方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-11-11
  • 用Python識別人臉,人種等各種信息

    用Python識別人臉,人種等各種信息

    這篇文章主要介紹了用Python識別人臉,人種等各種信息,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-07-07
  • Django使用Celery實現(xiàn)異步發(fā)送郵件

    Django使用Celery實現(xiàn)異步發(fā)送郵件

    這篇文章主要為大家詳細介紹了Django如何使用Celery實現(xiàn)異步發(fā)送郵件的功能,文中的示例代碼講解詳細,感興趣的小伙伴可以了解一下
    2023-04-04
  • python+matplotlib繪制餅圖散點圖實例代碼

    python+matplotlib繪制餅圖散點圖實例代碼

    這篇文章主要介紹了python+matplotlib繪制餅圖散點圖實例代碼,本實例是官網(wǎng)的一個實例,不過也很簡單,大家可以參考下
    2018-01-01
  • Python?plt.title()函數(shù)實例詳解

    Python?plt.title()函數(shù)實例詳解

    plt.title() 是 matplotlib 庫中用于設置圖形標題的函數(shù),這篇文章主要介紹了Python?plt.title()函數(shù),需要的朋友可以參考下
    2023-03-03
  • Python打印數(shù)據(jù)類型的全過程

    Python打印數(shù)據(jù)類型的全過程

    這篇文章主要介紹了Python打印數(shù)據(jù)類型的全過程,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • python數(shù)字圖像處理之高級形態(tài)學處理

    python數(shù)字圖像處理之高級形態(tài)學處理

    這篇文章主要介紹了python數(shù)字圖像處理之高級形態(tài)學處理,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-04-04

最新評論