共计 1016 个字符,预计需要花费 3 分钟才能阅读完成。
拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档]
随着各种社交平台的衰亡,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此宏大且富裕情绪表白的文本信息,齐全能够思考通过摸索他们潜在的价值为人们服务。因而近年来情绪剖析受到计算机语言学畛域研究者们的亲密关注,成为一项进本的热点钻研工作。本赛题指标为在宏大的数据集中精准的辨别文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,准确辨认蕴藏在其中的情感偏向。
一、工作形容
1.1 赛题背景
随着各种社交平台的衰亡,网络上用户的生成内容越来越多,产生大量的文本信息,如新闻、微博、博客等,面对如此宏大且富裕情绪表白的文本信息,齐全能够思考通过摸索他们潜在的价值为人们服务。因而近年来情绪剖析受到计算机语言学畛域研究者们的亲密关注,成为一项进本的热点钻研工作。
本赛题指标为在宏大的数据集中精准的辨别文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,准确辨认蕴藏在其中的情感偏向。
1.2 工作要求
对官网提供的新闻数据进行情感极性分类,其中侧面情绪对应 0,中性情绪对应 1 以及负面情绪对应 2。依据提供的训练数据,通过算法或模型判断出测试集中新闻的情感极性。
1.3 数据形容
数据包由两个 csv 文件组成:第一个是 Train_Dataset,蕴含 7360 条新闻的 id 号,新闻标题和新闻内容。第二个是 Train_Dataset_Label,蕴含了 Dataset 中新闻的 id 号,以其新闻的情感得分(用 0,1,2 示意)。
二、实施方案
该问题本质上为对信息的分类解决,所以核心内容是应用一个适合的分类器。其次,因为新闻是由文本形成的语言,一条新闻的情感通常能够由文本中词语的情感性决定。于是,另一个重要的内容是如何将数据进行预处理,即删除无用文字,并将新闻文本切分成一个个中文词语。
2.1 数据预处理
察看训练集中新闻的内容,发现新闻文本乌七八糟,有各种不属于中文词库的符号。所以预处理的第一步就是将不属于中文的文本删除(包含各种标点符号)。预处理的第二步是将修改后的文本进行词语的切分,从而将一整段话切分为一个个词语。
2.2 分类器抉择
情感标签有三种赋值:踊跃、中立和消极。于是所有的二分类器就不能够应用,比方规范意义下的 SVM 反对向量机等。思考到运行工夫和效率,咱们将抉择奢侈贝叶斯分类器作为首选(事实上,测试后果也表明奢侈贝叶斯分类器是效率和正确率均较高的分类器)