关于程序员:互联网新闻情感分析

拜访【WRITE-BUG 数字空间】_[内附残缺源码和文档]
随着各种社交平台的衰亡，网络上用户的生成内容越来越多，产生大量的文本信息，如新闻、微博、博客等，面对如此宏大且富裕情绪表白的文本信息，齐全能够思考通过摸索他们潜在的价值为人们服务。因而近年来情绪剖析受到计算机语言学畛域研究者们的亲密关注，成为一项进本的热点钻研工作。本赛题指标为在宏大的数据集中精准的辨别文本的情感极性，情感分为正中负三类。面对浩如烟海的新闻信息，准确辨认蕴藏在其中的情感偏向。
一、工作形容
1.1 赛题背景
随着各种社交平台的衰亡，网络上用户的生成内容越来越多，产生大量的文本信息，如新闻、微博、博客等，面对如此宏大且富裕情绪表白的文本信息，齐全能够思考通过摸索他们潜在的价值为人们服务。因而近年来情绪剖析受到计算机语言学畛域研究者们的亲密关注，成为一项进本的热点钻研工作。
本赛题指标为在宏大的数据集中精准的辨别文本的情感极性，情感分为正中负三类。面对浩如烟海的新闻信息，准确辨认蕴藏在其中的情感偏向。
1.2 工作要求
对官网提供的新闻数据进行情感极性分类，其中侧面情绪对应 0，中性情绪对应 1 以及负面情绪对应 2。依据提供的训练数据，通过算法或模型判断出测试集中新闻的情感极性。
1.3 数据形容
数据包由两个 csv 文件组成：第一个是 Train_Dataset，蕴含 7360 条新闻的 id 号，新闻标题和新闻内容。第二个是 Train_Dataset_Label，蕴含了 Dataset 中新闻的 id 号，以其新闻的情感得分（用 0，1，2 示意）。
二、实施方案
该问题本质上为对信息的分类解决，所以核心内容是应用一个适合的分类器。其次，因为新闻是由文本形成的语言，一条新闻的情感通常能够由文本中词语的情感性决定。于是，另一个重要的内容是如何将数据进行预处理，即删除无用文字，并将新闻文本切分成一个个中文词语。
2.1 数据预处理
察看训练集中新闻的内容，发现新闻文本乌七八糟，有各种不属于中文词库的符号。所以预处理的第一步就是将不属于中文的文本删除（包含各种标点符号）。预处理的第二步是将修改后的文本进行词语的切分，从而将一整段话切分为一个个词语。
2.2 分类器抉择
情感标签有三种赋值：踊跃、中立和消极。于是所有的二分类器就不能够应用，比方规范意义下的 SVM 反对向量机等。思考到运行工夫和效率，咱们将抉择奢侈贝叶斯分类器作为首选（事实上，测试后果也表明奢侈贝叶斯分类器是效率和正确率均较高的分类器）