关于数据分析:思迈特软件大数据建模案例Smartbi解决垃圾短信带来的困扰

43次阅读

共计 1885 个字符,预计需要花费 5 分钟才能阅读完成。

截至 2020 年 12 月,我国手机网民规模达 9.86 亿。挪动互联网时代,个人信息和用户数据成为重要的商业资源。一些企业和集体为牟取经济利益,导致垃圾短信频发,让人们不胜其扰。爱护私生活安定曾经成为一项迫切需要解决的社会问题。

垃圾短信

垃圾短信是指未经用户批准向用户发送的用户不违心收到的短信息,或用户不能依据本人的志愿回绝接管的短信息,次要蕴含以下属性:(一)未经用户批准向用户发送的商业类、广告类等短信息;(二)其余违反行业自律性标准的短信息。

垃圾短信泛滥,曾经重大影响到人们失常生存、运营商形象乃至社会稳固。如伪基站能够给三公里内 10 万手机发信。现用户能够应用手机管家进行拦挡此类短信。

用户迫切的须要一种疾速、无效的垃圾短信识别方法。通过垃圾短信的精准辨认,以欠缺用户的通信环境,为无关部门提供无效根据,保护运营商利益。数据挖掘平台 Smartbi 也不甘示弱,为了能尽快解决垃圾短信的问题,Smartbi 利用 Smartbi Mining 进行建模,应用随机森林文本分类算法建设正当的短信辨认模型,对垃圾短信进行辨认,解决运营商和手机用户的困扰。

Smartbi mining 数据挖掘平台将操作分为四个步骤:

1. 数据获取,获取所需数据集;

2. 数据预处理,对数据进行文本中文分词、停用词过滤解决等;

3. 模型构建与评估,构建随机森林模型,并建设评估指标准确率、召回率、F1 值对模型分类成果进行评估。

4. 剖析后果,总结和倡议。

1 数据获取

目前,某运营商曾经积攒了大量的垃圾短信数据。通过加工解决数据如图 3 - 2 所示。本案例收集了 295755 条短信文本数据,字段阐明见表 3 -1。

表 3 -1 字段阐明

图 3 -2 数据集

为了不便识别字段含意,这里接入一个元数据编辑节点取别名,如图 3 - 3 所示。

图 3 -3 元数据编辑

2 数据预处理

2.1、分词

中文分词是指将一整段文字切分为具备最小语义的词条信息,即以词作为根本单元,应用计算机主动对中文文本进行词语的切分,将文本数据转化为机器可辨认的模式。英文单词之间是由空格作为分界符的,中文则是由字为根本书写单位,词语之间没有显著的区分符,因而,中文分词是中文信息处理的根底与要害。分词后果的准确性,对后续文本开掘有着重要影响。如在进行特色的抉择时,不同的分词成果将影响词语在文本中的重要性,从而影响特色的抉择。

这里接入一个分词节点将 text 列进行分词,_c2_seg 为分词后的字符串型后果,_c2_seg_words 为分词后的 WrappedArray 类型后果,分词输入后果如图 3 - 4 所示。

图 3 -4 分词

2.2、停用词解决

中文表白中经常蕴含许多功能性词语,相比于其它词汇,功能性词语并没有太多的理论含意。最罕用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的应用较大的作用仅仅是帮助一些文本的名词形容和概念表白。在信息检索中,为节俭存储空间和进步搜寻效率,在解决自然语言数据 (或文本) 之前或之后会主动过滤掉某些字或词,这些字或词即被称为停用词。

咱们抉择_c2_seg_words 列,接入一个停用词解决节点,自定义停用词列表,如图 3 - 5 所示,输入后果如图 3 - 6 所示。

图 3 -5 停用词列表

图 3 -6 停用词解决

2.3、TF-IDF

因为文本数据无奈间接用于建模,因而须要将文本示意成计算机可能间接解决的模式,即文本数字化。TF-IDF 算法行将文本数据进行数值化。TF 意思是词频,IDF 意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要水平。字词的重要性随着它在文件中呈现的次数成正比减少,但同时会随着它在语料库中呈现的频率成反比降落。TF-IDF 值越高,阐明该词越重要。

咱们接入 TF-IDF 算法进行抽取变换,输入后果如图 3 - 6 所示。

图 3 -6 TF-IDF

整个的数据预处理流程图如图 3 - 7 所示。

图 3 -7 数据预处理

3 构建模型

本案例采纳随机森林算法模型,通过特征选择_c2_seg_words_filtered_idf 列,指标标签为 target, 整体模型训练预测如图 3 - 8 所示。

图 3 -8 构建模型

随机森林参数配置如图 3 - 9 所示。

图 3 -9 参数配置

4 模型评估

通过评估节点接入,如图 3 - 8 所示,评估后果如图 3 -10 所示。

剖析后果得出 F1 分数达到 0.91, 阐明该模型成果比拟不错的。

该模型能较好地辨认出垃圾短信,无效进行垃圾短信过滤,解决运营商及用户的困扰。

Smartbi 数据挖掘平台这个案例使用短信数据,对垃圾短信进行辨认。次要实现了垃圾短信的准确辨认,通过取得以上开掘后果,为相干运营商提供一种解决垃圾短信过滤问题的计划。

正文完
 0