关于数据库:COMP9414课业解析

74次阅读

共计 1139 个字符,预计需要花费 3 分钟才能阅读完成。

COMP9414:情绪剖析
假如你被一家大型航空公司聘为数据科学家。你的工作是剖析 Twitter 提要,以确定客户对你的公司及其竞争对手的情绪。在这项作业中,你将取得一系列对于美国航空公司的推文。这些微博被人为地贴上了情感标签。情绪分为踊跃、消极或中性。重要提醒:不要在互联网上公布这些推文,因为这违反了 Twitter 的服务条款。您须要应用各种个性和设置来评估各种有监督的机器学习办法,以确定哪些办法最适宜该畛域中的情感分类。工作包含两个局部:编写一系列用于情绪剖析的模型,以及一份评估模型有效性的报告。编程局部包含开发用于 tweet 数据预处理的 Python 代码,以及应用 NLP 和机器学习工具箱进行办法试验。该报告包含应用各种指标评估和比拟模型,并将机器学习模型与基线办法进行比拟。您将应用 NLTK 工具箱进行根本语言预处理,scikit learn 用于性能构建和评估机器学习模型。您将取得一个如何应用 NLTK 和 scikit learn 来实现此工作的示例 (示例.py). 对于情绪剖析基线,NLTK 包含一个手工制作的(众包)情绪剖析工具,VADER,1,因为其应用表情符号和社交媒体文本的其余特色来强化情绪,因而在该畛域可能体现良好,然而,维德的准确性很难预测,因为:(i)众包总体上是高度不牢靠的,(ii)这个数据集可能不包含太多的情绪和其余情绪标记的应用。数据和办法训练数据集是一个 tsv(tab 分隔值)文件,其中蕴含许多 tweet,每行有一条 tweet,tweet 中的换行符被删除。tsv 文件的每一行都有三个字段:实例号、tweet 文本和情绪(侧面、负面或中性)。测试数据集是一个与训练数据集格局雷同的 tsv 文件,只是代码应该疏忽情感字段。训练和测试数据集能够从提供的文件中提取数据集.tsv(见下文)。对于除 VADER 之外的所有模型,将 tweet 视为单词汇合,其中单词是由至多两个字母、数字或符号 #、@、$ 或 % 组成的字符串,并在删除所有其余字符后(两个字符是 scikit learn 中 CountVectorizer 的默认最小字长)。URL 应该被视为一个空格,所以要对单词进行分隔。请留神,删除“垃圾邮件”字符可能会创立以前由这些字符分隔的较长单词。应用课堂上探讨的监督学习办法:决策树(DT)、伯努利奢侈贝叶斯(BNB)和多项式奢侈贝叶斯(MNB)。
情绪剖析其实是一个绝对不好量化的内容,每个人的情绪随着工夫与地点的扭转始终在进行这起伏变动。就像课业中提到的剖析客户对自家公司及竞争对手的情绪变动,目标是什么呢,是寻求到客户对两者的态度以及抉择趋势的区别,那么就须要进行大量的日常数据列举与归类,在归类的同时寻找其中的大范畴概率。这也是较难执行的局部
更多探讨能够 +Vabby12468

正文完
 0