乐趣区

关于算法:人类的悲欢虽不相通但情感分析模型读得懂

内容提要:社交媒体逐步成为当今人们生存的一部分,而它也成为心理学家们进行钻研的重要数据起源。与此同时,研究者也尝试利用自然语言解决、机器学习技术,来预测社交媒体用户的情绪稳定。

原创:HyperAI 超神经

关键词:自然语言解决 心理学


去年从天而降的新冠疫情,粗浅地影响着人们的生存。这一非凡的历史期间,社会公众的心理都变得敏感软弱。

疫情期间缩小外出和接触,使得民众把更多工夫花在社交网络上。有些人不可避免地将工作和生存中的不如意,通过网络发泄给了他人。恐慌、焦虑、悲伤、无助等不良情绪也有所减轻。

面对突发公共事件,社交媒体用户广泛呈现了包含愤恨、胆怯、放心、怅惘、悲伤等负面情绪

据调查显示,寰球互联网用户均匀每天花在社交媒体上的工夫,达到 2 小时 22 分钟, 社交媒体曾经不限于社交性能,它们还成为了很多人记录情绪、倾诉心事的阵地。

无论是国内的微信朋友圈、微博、QQ 空间等,还是国外的 Twitter、Instagram、Facebook,都承载了万千用户的状态。

而对于心理学研究者来说,这些社交媒体上的帖子,无疑为其提供了数量可观的钻研数据。

来自斯坦福大学的研究员 Johannes Eichstaedt 和密歇根大学的 Aaron Weidman,在其最新钻研中,应用自然语言解决工具,对 Facebook 用户的帖子进行剖析。

钻研表明,机器学习模型能够通过社交媒体洞察一个人的情绪与稳定,其准确度与传统心理学的度量后果相当。

从字里行间,读懂你的喜怒哀乐

近年来,网络上的大量材料,曾经成为人格迷信中一个重要的数据起源。 大量的钻研表明,应用社交媒体材料,对人格相干维度进行分类非常无效。

Eichstaedt 和 Weidman 的最新钻研,则为利用社交媒体大数据分析、跟踪人的心理状态,提供了一个前沿案例。

应用社交媒体语言跟踪心理状态的稳定:基于每周情绪稳定的案例钻研

取样校准

作者应用「效价」和「唤起」这两个根本情绪维度,来评估 Facebook 上帖子的情绪。

注:「效价」和「唤起」是心理学中评估情绪的两个维度,前者示意感触到的踊跃 / 消极水平,辨别侧面和负面情绪;后者示意沉着 / 兴奋的水平。

他们首先让曾经有心理学钻研根底的人类钻研助理,给一项晚期钻研中的 2895 条公开 Facebook 帖子做正文。

钻研助力给每一条帖子的「效价」(valence)和「唤醒」(arousal)进行打分。采纳 9 分制(对于「效价」,1=「消极」,9=「踊跃」,同样地,对于「唤起」,1=「低」,9=「高」)。

心理学钻研助理为帖子所作出的「效价」和「唤起」正文

该情绪跟踪数据集曾经公开:https://osf.io/pbjer/files/

实现这些评估之后,这些帖子被用于训练机器学习模型,该模型将可能预测哪种语言传播了哪种情感。

而后作者对这些评分数据进行了一系列模型的拟合,每一个模型都显示,「效价」和「唤起」之间可能存在的显著分割。

对于国内的 NLP 研究者来说,中文情感剖析数据集则更为实用。 因而,超神经为大家举荐一个来自 2014 NLPCC 的中文微博情感剖析数据集。

该评测数据来自新浪微博,对于输出的整条微博,工作要求判断出该微博是否蕴含情绪。对蕴含情绪的微博,要求判断其情绪分类输入为 anger(愤恨)、disgust(讨厌)、fear(恐怖)、happiness(快乐)、like(爱好)、sadness(悲伤)、surprise(诧异)。

数据集详细信息如下:

下载地址:_https://hyper.ai/datasets/14390_

模型创立

团队应用差别语言剖析工具包 DLATK(Differential Language Analysis ToolKit),提取所选 Facebook 帖子中的语言特色,依据单词、短语呈现的绝对频率,保留了比偶尔呈现的短语频率高出三倍以上的词汇。最终过滤出 1439 个句子成分用来预测「效价」,675 个句子成分预测「唤起」。

接着, 训练一个基于整个语言特色集的脊回归模型,来预测「效价」和「唤起」, 并应用 10 倍穿插验证(即在 90% 的数据上建设模型,而后在残余的 10% 上进行评估)。

该模型的穿插验证样本外预测准确率为:「效价」预测准确率 0.63;「唤起」准确率为 0.82。与之前其余规范的情感测量方法相比拟,发现该模型比这些代替测量方法预计得更精确。

验证样本

为了测试该模型,钻研团队又从超过 6.5 万条 Facebook 帖子中,抽取了 640 个美国用户,男女人数相当,还须要满足的条件为:至多间断 14 周的工夫里,公布 10 条以上的状态。

最终,钻研团队收集了这些用户公布的 303575 个帖子作为验证样本。

试验后果

作者对用户的情绪评估进行了可视化,如下图,形容了一个女性(左)和一个男性(右)的每周情绪和唤醒稳定,以及五大人格特色预测。

注:五大人格特色是古代心理学中,用于人格特质形容的构造模型。包含:内向性、神经质、亲和性、尽责性和教训开放性。

横坐标为「效价」值,纵坐标为「唤起」值

从图中看到,右边的女性用户情绪稳定较大,并且呈现高度愉悦(Valence)、高度兴奋(Arousal)的频率较高。

相比之下,左边的男性用户,情绪稳定较小,很少经验高度愉悦或高度兴奋的情绪。

这也是团队试验中的一个新发现:女性往往比男性更乐观、情绪变动范畴更广。这与

另外,团队剖析还发现了「效价」和「唤起」值和五大人格之间的相关性。

模型评估

提供验证样本的 Facebook 用户,之前都被迫参加了「我的性情」的问卷调查,测评了其五大性格特征。

结果显示,机器学习模型对他们性情的预测,与应用心理学考察办法的预测统一。

缺点剖析

当然,作者也指出了这一模型目前所存在的问题。

首先,他们以比拟沉闷的 Facebook 用户作为样本,然而之所以抉择他们是因为他们提供了足够频繁的状态更新,但他们并不可能代表所有美国人。

其次,不同社交平台,具备不同的属性与格调,应用 Facebook 帖子所取得的成绩,是否在不同社交媒体 比方 Twitter 上进行复制,还是个未知数。

因而,这些局限性、普适性问题,也都是研究者将来要进一步摸索的方向。

社交平台用于心理学,后劲有限

兴许对于很多人来说,社交平台无非是一个分享生存、美照、看八卦的中央,但事实上它在心理学钻研中领有着微小的后劲。

通过数据挖掘、机器学习,可能从巨量的数据中提取信号,辨认出患有抑郁症、焦虑症等情绪阻碍的人,而后及时采取一些医治措施。在这方面,国内也曾经有成熟案例。

荷兰阿姆斯特丹自在大学(Vrije Universiteit Amsterdam)人工智能学者黄智生, 于 2018 年创立了一个叫做「树洞救援队」的 AI 程序,在微博上搜查有他杀偏向的帖子, 而后通过「蛛丝马迹」锁定有轻生念头的用户的地位,及时派出救济志愿者前去寻找和疏导。

当初这支有志愿者组成的小队,还沉闷在心理疏导的一线。

截至 2020 年 9 月底,成立两年工夫以来「树洞救援队」共阻止了 3289 次他杀行为

另外,基于社交媒体的情感剖析技术, 还能够追踪创伤性事件(比方大地震、和平、新冠肺炎疫情等),对人们的心理影响,从而帮忙政府部门无效发展舆情疏导、迷信施救和民众情绪的安抚工作。

而对于集体来说,兴许将来能够利用这些工具,剖析剖析男 / 女朋友的小情绪呢,大家就再也不必猜来猜去了~

新闻来源:

https://hai.stanford.edu/blog…

退出移动版