关于数据库:COMP9414课业解析

COMP9414：情绪剖析
假如你被一家大型航空公司聘为数据科学家。你的工作是剖析Twitter提要，以确定客户对你的公司及其竞争对手的情绪。在这项作业中，你将取得一系列对于美国航空公司的推文。这些微博被人为地贴上了情感标签。情绪分为踊跃、消极或中性。重要提醒：不要在互联网上公布这些推文，因为这违反了Twitter的服务条款。您须要应用各种个性和设置来评估各种有监督的机器学习办法，以确定哪些办法最适宜该畛域中的情感分类。工作包含两个局部：编写一系列用于情绪剖析的模型，以及一份评估模型有效性的报告。编程局部包含开发用于tweet数据预处理的Python代码，以及应用NLP和机器学习工具箱进行办法试验。该报告包含应用各种指标评估和比拟模型，并将机器学习模型与基线办法进行比拟。您将应用NLTK工具箱进行根本语言预处理，scikit learn用于性能构建和评估机器学习模型。您将取得一个如何应用NLTK和scikit learn来实现此工作的示例(示例.py). 对于情绪剖析基线，NLTK包含一个手工制作的（众包）情绪剖析工具，VADER，1，因为其应用表情符号和社交媒体文本的其余特色来强化情绪，因而在该畛域可能体现良好，然而，维德的准确性很难预测，因为：（i）众包总体上是高度不牢靠的，（ii）这个数据集可能不包含太多的情绪和其余情绪标记的应用。数据和办法训练数据集是一个tsv（tab分隔值）文件，其中蕴含许多tweet，每行有一条tweet，tweet中的换行符被删除。tsv文件的每一行都有三个字段：实例号、tweet文本和情绪（侧面、负面或中性）。测试数据集是一个与训练数据集格局雷同的tsv文件，只是代码应该疏忽情感字段。训练和测试数据集能够从提供的文件中提取数据集.tsv（见下文）。对于除VADER之外的所有模型，将tweet视为单词汇合，其中单词是由至多两个字母、数字或符号#、@、$或%组成的字符串，并在删除所有其余字符后（两个字符是scikit learn中CountVectorizer的默认最小字长）。URL应该被视为一个空格，所以要对单词进行分隔。请留神，删除“垃圾邮件”字符可能会创立以前由这些字符分隔的较长单词。应用课堂上探讨的监督学习办法：决策树（DT）、伯努利奢侈贝叶斯（BNB）和多项式奢侈贝叶斯（MNB）。
情绪剖析其实是一个绝对不好量化的内容，每个人的情绪随着工夫与地点的扭转始终在进行这起伏变动。就像课业中提到的剖析客户对自家公司及竞争对手的情绪变动，目标是什么呢，是寻求到客户对两者的态度以及抉择趋势的区别，那么就须要进行大量的日常数据列举与归类，在归类的同时寻找其中的大范畴概率。这也是较难执行的局部
更多探讨能够+Vabby12468

关于数据库:COMP9414课业解析

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:COMP9414课业解析

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复