全文链接:https://tecdat.cn/?p=35185
原文出处:拓端数据部落公众号
数据挖掘技术在跨区域立功预警中的钻研与利用尚处于起步阶段,许多跨区域立功预警业务信息系统还停留在高级解决程度,不足综合性的开发利用,智能化的剖析研判,科学性的决策预警;不足对数据由宏观到宏观的加工能力,由宏观数据到宏观数据的问题发现伎俩。
如何利用数据挖掘技术开掘和提取潜藏在大量业务数据中具备关联性的法则趋势,进步跨区域立功预警执法效率与快速反应能力、及时预防和打击犯罪行为,为警务决策提供反对服务,是本文钻研的重点。
在联合公安犯罪行为剖析理论的根底上,进行了基于决策树算法的犯罪行为剖析原型零碎设计,提出了性能需要与零碎流程图,介绍了原型零碎模块形成和实现。
分析表明:使用数据挖掘技术对公安信息数据库中的海量数据进行开掘解决,发现趋势法则,从而疾速精确的辅助警务决策,在跨区域立功预警中具备重要的现实意义。
数据筹备
本文应用社区与立功相干数据,其联合了人口普查的社会经济数据。通过相干的数据,咱们将进行数据分析,失去想要的后果。社区立功自身与许多因素无关,Communities 也提供了很多相干数据。因为数据有所缺失,在应用前咱们进行了相干解决。
首先,咱们取 ViolentCrimesPerPop(total number ofviolent crimes per 100K popuation)作为因变量,与这些影响元素做回归剖析,发现拟合的成果很差,而且后果也难以解读。
跨区域立功预警模型的建设
在联合公安犯罪行为剖析理论的根底上,进行了基于决策树算法的犯罪行为剖析原型零碎设计与试验,提出了性能需要与零碎流程图,介绍了原型零碎模块形成和实现。试验及分析表明:使用数据挖掘技术对公安信息数据库中的海量数据进行开掘解决,发现趋势法则,从而疾速精确的辅助警务决策,在跨区域立功中具备重要的现实意义。
建设模型和评估优化
接下来咱们通过画图来察看局部系数测验成果很好的变量
采纳主成分剖析降维
看图 screeplot, 思考前 6 个主成分
能够看到测验成果还不错, 再进一步察看:
察看图 predict.jpg 能够看到总体趋势的确靠近, 然而无奈再进一步作更准确的预测, 因此转向其余办法
建设模型和优化
接下来,咱们用决策树对 communities 分类
并找出那些对 ViolentCrimesPerPop 最有影响的因素
summary(D$ViolentCrimesPerPop)
按 1st Qu,3rd Qu 划分, 将社区评级为 Good,Medium,Bad
plot(rp)
text(rp)
能够看到, 决策树的次要的分类节点为
PctKids2Par: percentage of kids in familyhousing with two parents
HousVacant: number of vacant households
pctWInvInc: percentage of households withinvestment / rent income in 1989
OwnOccHiQuart: owner occupied housing -upper quartile value
NumIlleg: number of kids born to nevermarried
racePctWhite: percentage of population thatis caucasian
PersPerOccupHous: mean persons perhousehold
MalePctDivorce: percentage of males who aredivorced
应用决策树对 communities
进行分类并找出对ViolentCrimesPerPop
(每人口的暴力犯罪数)最有影响的因素是一个很好的剖析策略。决策树通过递归地将数据集宰割成更小的、更纯的子集来工作,每个宰割点都基于一个特定的特征值。
在给出的特色中对立功数有影响的因素有:
PctKids2Par
:家庭住房中双亲家庭的孩子百分比HousVacant
:空置户数的数量pctWInvInc
:1989 年领有投资 / 租金支出的户数的百分比OwnOccHiQuart
:业主自住房的上四分位数价值NumIlleg
:从未结婚的孩子的数量racePctWhite
:白种人人口的百分比PersPerOccupHous
:每户均匀人数MalePctDivorce
:离婚的男性百分比
模型公布和模型利用
·OwnOccHiQuart
函数关系不明确。然而大多数的点集中在左下角, 正相干
·NumIlleg
·racePctWhite
函数关系不明确。然而大多数的点集中在右下角, 负相关
预警模型的验证
咱们对模型进行检测
pre=predict(rp,A)
for(i in 1:3){for (j in 1:1994)
if (pre[j,i]>=pre[j,1] &&pre[j,i]>
决策树分类成果不错, 准确率大略 0.742。能够预感, 如果用组合算法的话, 准确率会很高。
上面,咱们将一半的数据用于训练。
boost(Rank~.,data=A[1:1000,])
准确率约为 0.860。
存在问题和相干倡议
只管发展了基于犯罪行为剖析的决策树原型零碎的设计,但还有许多不足之处,如数据表中的离散化数据短少肯定的灵活性,不可能齐全反映简单类型数据的信息,须要进一步改良;其次数据是基于内存而不是磁盘或磁盘组,也未能实现动静的加载数据,另外程序还有待于进一步优化以进步程序运行速度。