关于数据挖掘:Python用Apriori-算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化

4次阅读

共计 1110 个字符,预计需要花费 3 分钟才能阅读完成。

​原文链接:http://tecdat.cn/?p=26999

Apriori 算法是一个相当新的算法,由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集开掘的算法,容许公司了解和组织向上销售和穿插销售流动。

最弱小的应用程序之一是咱们在亚马逊上在线购物时看到的举荐零碎 – 以及当今简直所有电子商务网站上都存在的各种其余版本。

这是为了帮忙了解一个非常简单的数据集,其中蕴含单个国际标准书号 (ISBN),它是一本书的惟一国内出版商标识符号。每行代表购买了所列书籍的惟一客户。

指标是理解根本购买行为,向客户举荐的其余书籍是什么——这样它能够进步公司的支出以及对所提供服务的整体满意度。

咱们以网络图完结,该图展现了置信度高于 55% 的关系或先验

设置和导入数据集


import numpy as np

import pandas as pd



data.head()


data.shape

数据集上的 EDA


#执行重叠的步骤,转换为字符串,包含删除索引

dt2 = pd.DataFrame

dt2 = dt2.reset_index(drop = True)


dt2.nunique()  # 总共有 4,999 本独特的书籍


#数据集中购买最多的前 10 本书

top0 = pd.DataFrame(dt2.value_counts(sort= True, ascending=False).head(10))

to10


  # 创立条形图 

plt.bar(t0.index, top_10\['Frequency'\])

预处理


tdf = t.fit(d2).transform(da2)


ted = t.fit(r).transform(tr)

t_f


tdf = df.astype("int")



t_f


oks = d.DataFrame(tf, columns=e.columns_)

bos.head()

建设 Apriori 模型


runets = apriori(o2, min\_support=0.01, use\_colnames=True)

feqts


fetes.sort_values(by = \['support'\] ,ascending = False)


rls  =  assoc(fret, metric = "lift", min_threshold = 1)


re.solues('confidence', ascending = False)

ruls.head()


rul = rls\[res\['confidence'\] >= 0.55\]

rue

论断网络图


fig, ax = plt.subplots(figsize = (10,6))

G = x.from\_pandas\_edgelist(ul,source = 'antecedents')

n.draw(A)

正文完
 0