共计 6867 个字符,预计需要花费 18 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=27606
作为数据挖掘的一个重要钻研方向—关联规定用于发现数据项之间隐含的深层次的关联,如 Apriori 模型能够通过对客户需要进行深刻的剖析来发现数据之间的潜在分割,为咱们提供主动决策反对。
Apriori 模型
关联规定是数据挖掘算法中次要技术之一,是在无领导学习零碎中开掘本地模式的最普便模式。在数据挖掘中,常见的关联规定开掘模型有 AIS、SETM、Apriori、DHP、MLT2L1、ML-TML1 等。其中,Apriori 算法是一种最有影响的开掘关联规定频繁项集的模型。
Apriori 模型原理
Apriori 算法通过屡次扫描事务数据库来产生频繁我的项目集,咱们称这种办法为逐层搜寻迭代法。具体地说,该算法的根本思维是通过对数据库的屡次扫描来发现所有的频繁项集。首先第 1 遍扫描事务数据库生成频繁 1 项集,记为 L1;而后基于 L1 第 2 遍扫描事务数据库生成频繁 2 项集,记为 L2;依此迭代,基于 L(k-1) 第 k 遍扫描事务数据库生成频繁 k 项集,记为 Lk。在后续的扫描中,首先以前一次所发现的所有频繁项集为根底,生成所有新的候选项集 (Candidate Item sets),而后扫描数据库,计算这些候选项集的反对度,最初确定候选项集中哪些可成为频繁项集。反复上述过程直到再也产生不出新的频繁项集。
由此可见,Apriori 算法是一种通过屡次扫描事务数据库统计不同项的产生次数,以此来抽取频繁模式的过程。因为 Apriori 算法须要大量扫描事务数据库,因而利用 Apriori 算法的相干性质对其进行搜寻空间压缩。
Apriori 算法的性质如下:频繁项集中的所有非空子集也是频繁的。该属性能够通过如下形式证实:若 A 是非频繁的,那么汇合 A∪B 也是非频繁的,即形成汇合的子集是非频繁的,则该汇合也是非频繁项集。Apriori 算法的这一属性为反枯燥性,在理论开掘过程中,如果一个汇合不能通过测试,那么它的所有超集也都不能通过雷同的测试。基于此,咱们通过“连贯”操作由现有频繁项集结构超集,通过“剪枝”操作过滤掉不能通过测试的超集,从而压缩下一次迭代的零碎开销。
仿真
试验平台及数据
为了验证 Apriori 模型在 DSS 数据挖掘中利用的可行性,本文在 Spss Modeler 软件平台上对 Apriori 模型进行仿真。试验数据为某超市的 DSS 零碎中的顾客及购买商品数据。数据包含 1000 条购买事务记录,每条购买事务记录中蕴含两大部分内容:第一局部是顾客的个人信息,次要变量有会员卡号、生产金额、领取形式、性别、年龄、支出等;第二局部是顾客一次购买商品的信息,次要变量有果蔬、鲜肉、奶制品等,均为二分类型变量,取值 T 示意购买,F 示意未购买,下表为局部顾客购买数据。本文联合 Apriori 模型剖析 DSS 中的顾客信息及购买数据分析哪些商品最有可能同时购买。
试验后果及剖析
本文别离用 Apriori 算法和 Carma 算法对数据进行解决开掘,具体后果如下所示。
(1)Apriori 算法
采纳了 46243 条顾客在超市购买的数据进行剖析,波及意大利面、牛奶、水、面包饼干、咖啡、奶油蛋糕、酸奶、冷藏蔬菜、金枪鱼、啤酒、番茄酱、可乐、大米、果汁、咸饼干、油、冰冻鱼、冰淇淋、奶酪、罐装肉多种商品,如果顾客购买了该商品,则记为 1,如果没有购买该商品,则记为 0。
尽管 Apriori 算法能够间接开掘生成表中的交易数据集,然而为了关联开掘其余算法的须要先把交易数据集转换成剖析数据集。
通过格局转换,发现数据源中共有二十种商品,设最低条件反对度为 15%,最小规定置信度为 30%,最大前项数为 5,抉择专家模式,挖掘出大类商品的 15 条关联规定,如图所示。生成的 15 条规定如下所示:
Rule1: milk→yoghurt,supprot =15.235%,confidence =52.165%;
Rule2: milk→biscuits,supprot =20.474%,confidence =51.531%;
Rule3: milk→coffee,supprot =15.027%,confidence =49.878%;
Rule4: milk→brioches,supprot =15.319%,confidence =49.675%;
Rule5: milk→water,supprot =27.851%,confidence =46.704%;
Rule6: milk→pasta,supprot =35.034%,confidence =45.855%;
Rule7: pasta→coffee,supprot =15.027%,confidence =39.891%;
Rule8: pasta→brioches,supprot =15.319%,confidence =38.834%;
Rule9: pasta→biscuits,supprot =20.474%,confidence =37.917%;
Rule10: pasta→milk,supprot =46.132%,confidence =34.824%;
Rule11: pasta→yoghurt,supprot =15.235%,confidence =34.649%;
Rule12: pasta→water,supprot =27.851%,confidence =34.296%;
Rule13: water→pasta, milk,supprot =16.065%,confidence =33.288%;
Rule14: biscuits→brioches,supprot =15.319%,confidence =30.795%;
Rule15: water→coffee,supprot =15.027%,confidence =30.047%;
通过 Spss Modeler 应用 Apriori 模型对某超市 DSS 数据的剖析,试验后果如表所示,试验产生了三条置信度和反对度最高的关联规定:别离为啤酒和罐头蔬菜→冷冻食品(S=14.6%,C=87.4%);啤酒和冷冻食品→罐头蔬菜(S=14.6%,C=85.9%);冷冻食品和罐头蔬菜→啤酒(S=14.6%,C=84.4%)。同时,三条关联规定的晋升值都能够承受。因而,啤酒、罐头蔬菜、冷冻食品是最可能连带销售的商品。因而,在理论销售或者在商品的摆放过程中,能够将这些商品进行捆绑销售。
同时,本试验后果的商品销售关系网状图如图所示,表明了顾客可能同时购买的所有商品之间的分割,其中网状图中的不同点别离代表着不同的商品,点与点之间的连线代表着同时被顾客购买的分割。通过设定商品同时发售的频数的阈值,能够失去一些顾客同时购买机率较大的商品。能够看到,网状图的论断与 Apriori 模型开掘的关联规定论断是统一的。
而后,本文对不同性别、年龄的顾客购买的商品之间的销售关系进行了 Apriori 模型的关联规定开掘。试验后果如表所示,其中性别与购买商品的分割如图所示,(a) 为不同性别顾客可能同时购买的所有商品之间的分割,其中网状图上方的两个点 F、M 别离代表着男性顾客与女性顾客,网状图下方的点别离代表不同的商品,点与点之间的连线代表着购买关系。通过设定商品同时发售的频数的阈值,能够失去不同性别的顾客同时购买的概率比拟大的商品 (b)。由图可知,男性最有可能同时购买饮料、牛奶、罐头蔬菜、甜食、冷冻熟食、果熟等商品,而女性则最有可能同时购买饮料、甜食、牛奶、罐头蔬菜等,因而,商家在采购其商品时能够针对不同性别的顾客制订不同的营销策略。
剖析及倡议: 通过图能够清晰的看到购买牛奶、意大利面、水、咖啡的顾客比拟多,倡议超市能够加大对这些商品的洽购,由上述后果可知,同时购买牛奶、意大利面的状况占总订单数的 46.132%,水和牛奶或意大利面和水别离占总订单数的 27.851%,购买牛奶的人有 45.855% 会购买意大利面,46.704% 的人会购买水,购买意大利面的人有 34.824% 会购买牛奶,有 34.296% 的人会购买水,由此可见,意大利面、水、牛奶这三种商品关联度较高,能够将意大利面、水、牛奶摆放在一块,从而减少销量。此外,在合乎反对度和置信度的条件下没有顾客购买冷冻食、果汁等,倡议无关人员缩小这几种商品的进货量,但为了放弃商品的多样性,还是要适当地进货。
Carma 算法
该试验数据仍采纳上述数据,商品种类涵盖意大利面、牛奶、水、面包饼干、咖啡、奶油蛋糕、酸奶、冷藏蔬菜、金枪鱼、啤酒、番茄酱、可乐、大米、果汁、咸饼干、油、冰冻鱼、冰淇淋、奶酪、罐装肉,如果顾客购买了该商品,则记为 T,如果没有购买该商品,则记为 F。将 Carma 节点最小反对度设为 7.0%,最小置信度设为 15.0%,大小规定为 5,Carma 算法数据流如图 3 所示,由其生成的商品关联规定所示。生成 16 条规定如下所示:
Rule1: milk→yoghurt,supprot =15.235%,confidence =52.165%;
Rule2: milk→biscuits,supprot =20.475%,confidence =51.531%;
Rule3: milk→coffee,supprot =15.027%,confidence =49.878%;
Rule4: milk→brioches,supprot =15.319%,confidence =49.675%;
Rule5: milk→water,supprot =27.851%,confidence =46.704%;
Rule6: milk→pasta,supprot =35.035%,confidence =45.855%;
Rule7: pasta→biscuits,supprot =20.475%,confidence =37.917%;
Rule8: pasta→milk,supprot =46.133%,confidence =34.824%;
Rule9: pasta→water,supprot =27.851%,confidence =34.296%;
Rule10: water→milk,supprot =46.133%,confidence =28.196%;
Rule11: water→pasta,supprot =35.035%,confidence =27.264%;
Rule12: biscuits→milk,supprot =46.133%,confidence =22.871%;
Rule13: biscuits→pasta,supprot =35.035%,confidence =22.159%;
Rule14: yoghurt→milk,supprot =46.133%,confidence =17.277%;
Rule15: brioches→milk,supprot =46.133%,confidence =16.496%;
Rule16: coffee→milk,supprot =46.133%,confidence =16.247%;
剖析及倡议: 通过上述规定能够清晰的看到顾客同时购买牛奶、意大利面、水、饼干的比拟多,倡议超市能够将这些商品放在同一货架上进行销售。Carma 算法所得后果相比 Apriori 算法略有不同,它比 Apriori 算法更加精准。商家能够多进牛奶、意大利面、水、酸奶、奶油蛋糕、饼干等商品,而对于冰冻食品,则能够缩小进货量。
结束语
数据挖掘所失去的信息资源无论是对于企业的管理人员还是员工来说都是非常有价值的,它使企业可能充分利用现有的信息资源,在强烈的社会竞争中获得区别于其余企业的独特劣势。本文应用关联规定算法中的 Apriori 模型对企业 DSS 数据进行关联规定开掘,首先具体阐明了 Apriori 模型的具体原理和施行步骤,而后,通过实例钻研和对试验后果的剖析,进一步明确了数据挖掘技术在以客户为核心的电子商务时代扮演着越来越重要的角色,随着数据挖掘实践的进一步倒退和深入,必然会带给 DSS 更为宽泛的利用前景和市场价值,同时进步企业的竞争力。
参考文献
Gorry G A, Scott Morton M S. A Framework for Management Information Systems[J]. Sloan Management Review, 1971, 13(1): 50-70.
Agrawal.R, T.Imieliński, A Swami. Mining association rules between sets ofitems in large databases[C]. ACM SIGMOD Record,1993,22(2):207-216.
V.P.Singh. Consumer Behavior and Firm Strategies in a Changing Retail Environment[D]. Northwestern University, 2003:63-100.
J.Jim. Consumer Heterogeneity in the Long-term Effects of Price Promotions[D]. University of California Irvine, 2004:5-21.
Lee jin A, Han Jonggyu, Chi Kwang Hoon. Mining quantitative association rule of earthquake data[C]. ACM International Conference Proceeding Series.2009:349-352.
李虹, 蔡之华. 关联规定在医疗数据分析中的利用 [J]. 微机倒退,2003,13(6):94-97.
杨引霞, 谢康林, 朱扬勇, 等. 电子商务网站举荐零碎中关联规定举荐模型的实现 [J]. 计算机工程,2004,30(19):57-59.
胡晓青, 王波. 基于数据挖掘的金融时序频繁模式的疾速发现 [J]. 上海理工大学学报,2006,28(4):381-385.
宋钰, 何小利, 张刚园. 关联规定在医药云数据定向中的利用与仿真 [J]. 计算机仿真,2013,30(2),239-242.
王和勇, 蓝金炯. 微群外围用户开掘的关联规定办法的利用 [J]. 图书情报工作,2014,58(2):115-120.
R N Anthony. Planning and Control Systems: A Framework for Analysis [D]. MA, USA: Graduate School of Business Administration, Harvard University Cambridge, 1965.
H A Simon. The New Science of Management Decision [M]. New York, USA: Harper Brothers, 1960.
Spague R H. A Framework for the Development of Decision Support Systems [J]. MIS Quarterly (S0276-7783), 1980, 12: 1-26.
Bonczek R H,C W Holsapple, A B Whinston. Foundations of Decision Support Systems [M]. New York, USA: Academic Press, 1981.
吉根林, 帅克, 孙志挥. 数据挖掘技术及其利用 [J]. 南京师大学报 (自然科学版), 2000, 23(2): 25-27.
杨炳儒. 常识工程与常识发现 [M]. 北京: 冶金工业出版社, 2000.
王安麟. 简单零碎的剖析与建模 [M]. 上海: 上海交通大学出版社,2004.
李小兵, 吴锦林, 薛永生等. 关联规定开掘算法的改良与优化钻研 [J]. 古代电子技术,2005,(4).
Jiawei Han, Micheline Kamber. 数据挖掘概念与技术 [M]. 北京: 机械工业出版社,2001,152~161.
Savasere A, Ong B, Mitbander B. An efficient algorithm for mining association rules in large databa ses[A]. Proc 1995,Int Conf Very Large Databases(VLDB’95)[C].1995.
陈江平, 傅仲良, 徐志红. 一种 Apriori 的改良算法 [J]. 武汉大学学报 (信息科学版),2003,28(1),94-99.
最受欢迎的见解
1.Python 中的 Apriori 关联算法 - 市场购物篮剖析
2.R 语言绘制生存曲线预计 | 生存剖析 | 如何 R 作生存曲线图
3. 用关联规定数据挖掘摸索药物配伍中的法则
4. 通过 Python 中的 Apriori 算法进行关联规定开掘
5. 用关联规定数据挖掘摸索药物配伍中的法则
6. 采纳 SPSS Modeler 的 Web 简单网络对所有腧穴进行剖析
7.R 语言如何在生存剖析与 COX 回归中计算 IDI,NRI 指标
8.R 语言如何找到患者数据中具备差别的指标?(PLS—DA 剖析)
9.R 语言中的生存剖析 Survival analysis 早期肺癌患者 4 例