关于后端:云音乐舆情平台建设云音乐舆情平台建设

37次阅读

共计 4756 个字符,预计需要花费 12 分钟才能阅读完成。

本文作者:王桂泽

本文介绍了云音乐舆情平台建设过程中遇到的一些问题和解决方案。

背景介绍

通用舆情剖析概念和局限

通用的舆情剖析是指通过收集、整顿和剖析公众对某一特定话题或事件的舆论、观点和情感,从而理解公众对该话题或事件的态度和情绪的办法。舆情剖析能够通过监测社交媒体、新闻媒体、论坛、博客等渠道上的信息来获取公众的声音和反馈。

通用舆情剖析的局限

通用的舆情剖析因为数据起源宽泛,内容格局宽泛,仅能基于特定主题进行情感剖析或趋势剖析,无奈深刻开掘信息,这意味着企业可能无奈取得对于产品的具体反馈和倡议,无奈理解消费者对产品的具体需要和改良方向。因而,为了满足企业外部对产品晋升的需要,可能须要采纳更业余、更定制化的舆情剖析工具和办法,以便更全面、深刻地理解消费者对产品的态度和冀望。

云音乐舆情平台建设

1. 数据特色:数据起源丰盛

云音乐舆情剖析的数据起源不仅包含内部公众渠道上的信息(比方社交媒体、新闻、博客等),还有许多外部的数据起源,例如通过 APP 提交的反馈数据,在歌曲下方的评论数据,或者是通过七鱼客服人工反馈的数据等等。这些数据为精细化的舆情剖析提供了根底。

这些数据具备如下特点:

  1. 相关性更高:反馈内容都与产品密切相关。
  2. 馈更加及时:反馈音讯实时推送,具备高时效性。
  3. 更加结构化:除了反馈内容,还包含用户信息、设施信息、零碎信息等。

2. 剖析诉求:精细化剖析诉求

云音乐的舆情剖析平台与通用的舆情剖析不同,它须要反对更多维度和更粗疏的剖析能力,以满足不同业务和场景的监控需要。

聚类分析

云音乐领有多个产品,每个产品都有各自的功能模块,而每个功能模块还能够进一步细分为子性能。能够将这种构造了解为每个产品都有一个性能树(聚类树)。聚类分析是指将舆情数据归类到聚类树上的某个具体的聚类节点,以便更好地理解用户对不同功能模块的态度和需要,从而针对性地进行改良和优化产品。

反馈类型剖析

在确定舆情所属的功能模块之后,还须要进一步剖析用户的反馈类型,不同的反馈类型须要不同的角色关注。包含:

  • 问题反馈:反馈产品或性能问题,开发人员须要关注
  • 产品倡议:反馈产品或性能改良倡议,产品经理须要关注
  • 应用征询:用户征询产品的应用办法或者相干问题,客服须要关注
  • 投诉举报:反馈产品或性能的不良问题或违规行为,合规人员须要关注

摘要提取

摘要提取是指提取舆情音讯中的要点和要害信息。通过对原始音讯进行提炼,摘要辨认能够帮忙用户疾速理解舆情音讯。另外,能够对大量舆情音讯进行摘要剖析,以便发现整体问题和趋势,并发现新的热点问题。

情感剖析

情感剖析相似于传统的舆情剖析,次要是辨认用户情感,包含正向、负向和中性。能够帮忙咱们理解用户对特定性能的态度和情绪,从而领导产品的改良和优化方向。

3. 智能监控:监控和报警

舆情监控和通用的监控零碎存在一些区别:

  1. 有些渠道的舆情音讯是定时爬取的,实时性要求不高
  2. 舆情音讯量个别都比拟大,个别是对整体趋势、热点问题的监控
  3. 舆情变化趋势是随机的,和外部产品和外部环境都有关系,没有特定的法则

这就要求平台制订更加智能的监控策略,当舆情音讯超出预期时,能够通过短信、邮件等形式向指定人员发送报警告诉,以便相干人员及时处理。

舆情流转链路

云音乐舆情平台更加专一于舆情数据的剖析、洞察和监控,通过定义标准化的数据结构疾速接入不同起源的数据,上面是外围的舆情流转链路:

舆情数据来自第三方平台,包含:反馈平台,七鱼私信平台、大数据平台;上报反对包含 MQ 协定和 http 协定;输入原始舆情。

适配器 :原始舆情先通过适配器解决,标准化各数据源模型构造,补充设施、产品等元数据信息。输入规范舆情。

分析器 :对规范舆情进行内容分析,依据舆情所属空间,获取该空间的聚类树,并进行聚类分析、情感剖析、用意剖析、摘要剖析、关键词剖析。输入规范舆情 + 剖析标。

存储器 :将规范舆情和剖析标存储到 Elasticsearch,供后续在线查问和剖析。

报警计算器 :依据平台内的报警规定(零碎报警 + 用户报警),判断以后舆情是否满足报警规定并触发报警。

在线查问 & 剖析 :查问、趋势剖析、聚合剖析等。

舆情大盘 :发现热点事件、各剖析维度的排行榜等。

舆情音讯模型

平台数据起源渠道宽泛,而且每个数据源都有独立的属性,既要反对针对每种渠道的精细化剖析,也要反对在全局视角对多种渠道数据进行整体剖析。
为了解决这个问题,平台设计了通用的舆情音讯模型,在数据接入层和产品展现层,都是面向这个数据模型进行设计,这样设计的益处有:

  1. 在数据接入层,能够疾速接入新的数据源
  2. 在产品层,能够复用舆情查问、剖析、报警等性能

一条标准化的舆情音讯有上面一些属性:

数据源

数据源是指舆情的数据起源,比方来自 App 的用户反馈,来自七鱼私信的客服对话等。
平台会依据不同的数据源,在产品层做动静的性能展现。比方在舆情查问页,会依据数据源展现相应的属性,在报警配置页,会依据数据源展现相应的筛选条件。

根底属性

每种数据源都有一些根底属性。这些属性是在舆情上报时可能辨认并携带上来的,例如用户信息、设施信息、App 信息、操作系统信息等。
平台反对依照所有根底属性做筛选、聚合剖析,在报警的时候也能够依照所有根底属性做筛选,提供了灵便的查问和监控能力。

分析属性

除了根底属性,分析器(包含平台内置的分析器和用户自定义的分析器)还会为舆情增加额定的分析属性。
不同的分析器会生成不同的分析属性,例如情感分析器会生成情感属性,聚类分析器会生成聚类属性等。
和根底属性相似,所有分析属性都反对筛选、聚合剖析。

扩大属性

反对业务方自定义一些扩大属性,以满足不同业务方差异化的查问和剖析需要。

技术架构

数据接入 :原始舆情数据,有来自反馈平台、七鱼平台、数据平台等;协定反对 MQ 和 http 协定。

解决层

  • 适配器 :将各种起源的数据源整合成规范文档构造,并补充元数据:如产品、设施信息、用户信息等。
  • 分析器 :对舆情内容进行多维度剖析,包含:聚类、情感、用意、关键词、摘要提取,剖析之后会打上剖析标

数据管理 :数据管理次要是配置解决层的解决规定以及报警规定

剖析 & 可视化层 :提供对剖析之后的舆情数据的查问和剖析能力;

监控 & 报警 :对接通用监控和对立报警实现舆情监控;同时提供定时剖析和舆情洞察能力,提供舆情大盘和日报性能。

剖析引擎

剖析引擎负责对采集上来的数据做剖析,生成对应的分析属性。平台会内置一些分析器,比方情感剖析、聚类分析、反馈类型剖析等。
分析器的抉择是灵便的,能够依据舆情的数据特色(数据源和根底属性)和剖析需要,抉择相应的一个或多个分析器进行剖析解决。
同时,平台也能够不便地增加自定义的分析器,以满足不同场景的剖析需要。能够通过 GPT 提醒词开发、SDK 插件、服务接入等多个形式接入自定义的分析器。

内置分析器

平台内置的分析器都是基于 GPT 开发的,相比传统的机器学习、NLP 等分析方法,应用 GPT 剖析具备以下劣势。

  1. 首先,GPT 模型可能更好地了解和解决自然语言,在语义了解和文本生成方面表现出色,更好地了解语言的上下文和含意,从而析过程中可能更精确地捕捉到轻微的语义差别。
  2. 其次,GPT 不须要人工标注训练数据,依据需要调整提醒词后即可立刻失效。传统的机器学习和 NLP 办法通常须要大量标注数据来训练模型,须要消耗大量人力、机器和工夫老本,无奈满足疾速变动的业务需要。
  3. 另外,GPT 模型还能具备总结演绎、发现新问题的能力,而传统的机器学习和 NLP 办法则则无奈实现这一工作。

GPT 老本优化

与传统的机器学习、NLP 等分析方法相比,GPT 剖析会产生费用,并且随着剖析文本数量的减少,老本也会增长。在某些状况下,老本可能会很高,例如在进行聚类分析时,须要将聚类树和文本一起输出给 GPT。然而,聚类树自身(包含节点和节点的形容)可能十分宏大,这将耗费大量的 Token。平台也针对性的做了一些老本优化措施:

优化 1 缓存

  • 基于常见文本的剖析后果缓存
  • 基于文本 + 聚类树版本的剖析后果缓存

优化 2 精简聚类树

聚类分析场景中,聚类树自身耗费了大量的 Token,能够在剖析之前通过文本类似度算法先筛选出 ” 可能归属 ”
的聚类,在剖析的时候只须要剖析这些聚类即可,这能够大大减少聚类树的大小,无效地升高剖析老本。

在线查问 & 聚合剖析

舆情音讯通过剖析引擎剖析后会保留在 ElasticSearch 数据库中,以便反对实时地在线查问和剖析。
舆情查问页设计如下:

舆情查问

舆情查问的次要场景:在限定上下文中,查问和某个关键词相干的舆情。限定上下文反对全属性(包含根底属性和分析属性);关键词也须要反对逻辑运算,通配符匹配等能力。

例如:查问用户反馈数据源、iphone 端、负面情感的和『黑椒播放器』相干的舆情音讯。

趋势剖析

平台反对灵便的趋势剖析能力。在给定查问条件后,您能够查看数据的变化趋势,并指定不同的聚合粒度。此外,平台还提供一些趋势指标,如平均值、最小值、最大值、P80 和 P95 等数据,以满足不同的剖析场景。

例如:在新建监控和报警时,心愿依据历史的舆情数据趋势和指标,制订正当的报警阈值。

聚合剖析

平台反对全属性的聚合剖析能力。在给定查问条件后,平台会计算所有『可聚合维度』的散布状况,给出每个维度的不同取值的音讯总数和占比。『可聚合维度』是依据以后搜寻的数据源动静辨认的,不同的数据源能够配置不同的聚合剖析维度。

例如:查问某个工夫范畴内的 Top 聚类问题,或者剖析和某个主题相干的所有舆情音讯的情感散布、App 版本散布等。

监控和报警

平台反对灵便的监控和报警策略。一条监控或报警规定包含 3 个局部:

1. 数据筛选

数据筛选指定了心愿监控的舆情音讯范畴,反对全属性(根底属性和分析属性)的筛选,每个属性反对指定多个值。

例如:指定监控范畴为:用户反馈数据源中,iphone 端、改版相干、负面舆情。

2. 报警条件

平台反对常见的报警条件,例如检测周期、每次检测的工夫范畴,以及依照阈值、环比增长触发等。同时,平台对阈值的设定通过优化,能够依据历史数据的趋势指标来指定动静阈值。当趋势发生变化时,报警阈值也会相应地动静扭转,以确保阈值始终与以后趋势匹配,从而更精确地反映问题。

3. 报警接管

当满足报警条件后,会告诉相干的接管方。反对指定接管人、IM 群组,发送形式也反对 IM、短信、电话、邮件等。

智能报警

舆情报警具备肯定的特殊性,首先舆情音讯自身数据量较大,数据有肯定的滞后性,通常会关注整体的变化趋势,而且趋势会随着产品性能迭代和外部环境产生较大的变动。
在这种场景下,报警的监控策略和阈值设置就难以确定,如果设置固定的报警阈值,很容易呈现误报或者漏报的状况。如果都是靠人工定期维护报警,老本又会很高,而且及时性和有效性也难以保障。

针对这个问题,平台提供了一种智能报警的解决方案。平台会依据不同的监控场景主动创立报警规定,报警阈值是依据历史数据动静计算并定时刷新的。

例如,在聚类问题反馈类监控中,心愿监控每个聚类的问题反馈状况,平台会为每个聚类创立一个智能报警规定,监控与该聚类相干且反馈类型是问题反馈的舆情数据。
同时依据在该数据筛选条件下的历史的舆情趋势,动静计算阈值和环比增长值,以确保阈值和环比值与以后舆情趋势相匹配。为了保障阈值的时效性,平台还会定时刷新这个阈值。
这样能够无效保障报警的有效性和时效性,同时不须要人工参加,大大降低了人工成本。

总结

云音乐舆情平台具备以下特点:多数据源、多维度的数据特色;丰盛、可扩大的分析器;灵便的在线查问和聚合剖析能力;以及智能的监控和报警能力。可能满足简单场景的舆情剖析、查问、监控和报警需要。

后续的倒退方向是联合 GPT,进一步开掘数据背地的价值,例如提供智能日报或周报性能,对周期内的舆情数据进行提炼、总结,并给出剖析报告,以缩小人工剖析的老本。

最初

更多岗位,可进入网易招聘官网查看 https://hr.163.com/

正文完
 0