共计 3879 个字符,预计需要花费 10 分钟才能阅读完成。
图片起源:https://unsplash.com/photos/F…
作者:周阳
摘要
歌曲评论是云音乐的外围资产之一,对歌曲评论的内容进行了解,有助于散发好内容,晋升用户体验。评论内容了解须要解决的外围问题有:一方面,亿级的评论内容品质参差不齐,存在大量的水评等各种低质量的评论会吞没好评论,侵害了用户体验和评论区气氛,因而设计评论分类算法,将评论类别区隔开来,再用举荐策略针对性的进行打压和优化,对社区评论气氛治理有核心作用;另一方面,优质评论千千万,目前次要的散发场景是在最新、最热和举荐 Tab,歌曲评论被歌曲人造“隔离”,因而利用 NLP 技术突破评论是歌曲下的评论这个限度,比方将叙述雷同话题的不同歌曲下的评论主动汇集起来造成话题(比方热点、IP 主题),而后再进行散发,能起到吸引用户看评,晋升用户新鲜感的作用。
1. 歌曲评论正负标签辨认
云音乐歌曲评论是用户表白感情和观点的次要模式,既有走心的点评、感人的故事等优质评论,也有让人不适的水评论、广告等低俗内容,因而采纳文本分类等技术对歌曲评论进行正负向的辨认,能在保障内容品质、促成优质内容散发,反对云音乐评论经营流动等方面起到很大的帮忙的作用。咱们将歌曲评论分为两个标签体系,正向标签(比方故事等)和负向标签(比方水评等)。
1.1 业务难点
歌曲评论文本相比其余类型的文本,存在文本短,语意歧义多等特点,对这类评论文本进行正负向分类的次要难点有:
- 局部类别辨认难度较大:比方容易引战的评论:唱的什么破歌;对应的反例:唱的什么破歌,一句不好听的都没有。
- 人工标注样本难以对齐:打标的正负样本之间存在肯定比例的穿插,产运规范难以未对齐。
- 标注耗时耗力:正向样本比例低,文本标也要保证质量和数量,比拟消耗工夫和人力资源。
1.2 解决方案
针对评论分类的工作难点,次要的优化和建模方向有:
- 被动学习:辨认难样本,矛盾样本重标,进步标注效率和对齐产运标注。
- 畛域内预训练:用音乐社区畛域文本进行畛域内预训练,进步模型泛化能力。通过比照学习失去好的评论文本表征,用于样本裁减和噪声样本筛选。
- 多任务学习:各类别工作共享编码层,抵制乐音、缓解过拟合。
1.2.1 持续预训练
一般来说,对通用的预训练模型在上游垂直语料下进行持续预训练,能无效晋升上游工作成果。咱们将云音乐社区文本进行了整合训练失去畛域内评论预训练模型,文本数据包含评论、视频题目、村民广场帖子题目等、中文歌词,通过清理后失去 20 亿文本数据,预训练方法采纳 MLM,失去了社区评论预训练模型,在上游的工作中,外围指标均匀晋升 1%~2%+。
1.2.2 样本裁减和去噪
咱们采纳开源的 RoFormer 进行比照学习预训练失去好的评论文本表征,接下来咱们通过计算奴才评论的类似度,主动进行正样本的裁减,还能够间接寻找 topN 类似的正样本评论作为正样本,这能够了解为利用类似度主动进行高质量的数据加强,因为咱们裁减的样本与原正样本在语意上统一,然而在表白上有区别,所以能无效进步模型的泛化能力,咱们在原有几千的标注数据下,各类别裁减高质量 1~5W 样本,最终显著晋升召回率。
1.2.3 多任务学习
多任务学习通过共享编码层,能起到正则化,进步泛化能力的作用;负向模型咱们采纳的是每个类别一个模型,起因是受业务流程决定;在正向评论分类的模型设计中,咱们采纳了多任务的构造,之所以抉择多任务的构造除了前述的长处,一部分起因还在于正向标签自身是个多标签问题,因为历史起因,标注数据只有对应类别的正样本,所以为了更好的优化每一个类别,咱们抉择共享 BERT 编码层,每个类别有本人的正负样本,同时进行训练。通过多任务学习,咱们能针对性的优化各个类别的样本数据,而不影响其余类别,毕竟样本为王,能较快的达到目标。
1.2.4 总结
最终通过以上优化,正负向各类别模型准召均达 90% 以上,晋升 2~3%,咱们将负面标签使用到评论治理后,线上评论干净率晋升 50% 以上,此外,咱们还积淀了大量优质评论,将来可用于多场景散发。
2. 评论话题聚类
云音乐的歌曲评论是个亿级大宝库,目前次要通过歌曲下最新、最热、举荐三个 Tab 进行散发,然而其实,在不同歌曲下大家也有可能会聊同样的事件,比方最近的世界杯话题,在很多歌曲下都会有相干的评论,如果咱们能通过算法主动将评论汇集起来造成话题,那么就能够以新的模式对评论进行售卖散发,从而可能晋升业务指标。
2.1 业务难点
话题聚类能够简略的看着一个聚类问题,然而用聚类问题来解存在的问题是评论文本短、无上下文分割,绝对于新闻等文章来说,不能间接应用业界罕用的聚类算法;另一个尝试的方向是咱们能够通过站外关键词进行匹配,然而通过咱们的实际发现,站内很少探讨站外热点话题或站内会受站外刺激衍生出评论热点话题,因而咱们须要依据评论的特点设计独有的话题聚合形式。
2.2 解决方案
基于评论上下文信息弱、也很难与站外热点间接匹配等难点,咱们将问题细化,首先确定咱们须要什么话题,对于音乐类文本来说,除了探讨歌曲、歌手自身的评论,影综漫游是更多的探讨模式;另外,热点发现也是一个方向,如果能主动发现热点,发现的热点也能与内部进行关联上,那这样的评论话题意义就比拟具备时效性,因而咱们将话题聚类拆分成子工作。
2.2.1 故事类别主题主动生成
云音乐的评论故事丰富多彩,然而间接应用聚类算法去失去话题并不可取,因为评论故事形容不像新闻,有显著的边界,很难分出适合可用的话题,所以咱们无妨提前定义好故事的类型,分为不同类型阶段等主题,而后通过标签的组合主动的生成对应的主题;那么定义好了标签,另一个问题又来了,那就是标注,如果再去标注数据来做是比拟节约人力的,对于这类通用的类别,咱们齐全能够利用开源的 Prompt-learning 模型,采纳 ICL(In-Context Learning)的思维, 主动生成对应的标签。咱们应用开源的 PromptCLUE 模型,主动生成对应的主题标签,人工评估准确率在 90% 左右。
2.2.2 IP 主题
对于 IP 主题,咱们采取从上而下的做法,在站内咱们可间接失去 IP 下对应的歌曲列表,从而失去对应的评论汇合,接下来问题就转换成了 IP 与评论相关性的问题。
相关性的正样本咱们首先通过 IP 名、IP 人物名去召回了相干评论,而后对相干评论做了一些规定改写(比方删除 IP 名,把 IP 名随机替换等),从而进步泛化能力,最初咱们采纳文本对的输出模式进行分类微调。
2.2.3 热点话题开掘
咱们定义短时间内某个话题的发评评论忽然增多,就会造成热点话题的模式,那么外围的问题就是怎么找到某个话题和怎么晓得某个话题是一个热点,主动聚类的形式已知走不通,通过调研和参考业内支流计划,咱们设计了一种热词话题聚合办法。
为了不便分明简略的论述,无妨间接用一个实例来进行介绍算法流程:
3. 总结与瞻望
云音乐评论是云音乐独有的贵重的内容资产,在社区工作中,怎么无效的对评论内容进行散发和售卖,满足用户的情感需要,是咱们的使命和主旨。在之前的工作中,咱们对歌曲评论进行了类目标划分和信息的开掘,获得了肯定的成果和播种;将来,咱们心愿更好的利用好评论这个大宝库,以及整个云音乐社区宝库。咱们会在更多的方向,比方相关性、评论生成等方向持续摸索,从而期待为业务赋能。
参考资料
[1] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 4171-4186.
[2] Su J, Lu Y, Pan S, et al. Roformer: Enhanced transformer with rotary position embedding[J]. arXiv preprint arXiv:2104.09864, 2021.
[3] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.
[4] Bach S H, Sanh V, Yong Z X, et al. Promptsource: An integrated development environment and repository for natural language prompts[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2022: 93-104.
[5] 一种海量社交短文本的热点话题发现办法
https://cloud.tencent.com/dev…
[6] 后 Prompt 时代 | NLP 对立范式:预训练 + 大规模多任务学习
https://www.163.com/dy/articl…
本文公布自网易云音乐技术团队,文章未经受权禁止任何模式的转载。咱们长年招收各类技术岗位,如果你筹备换工作,又恰好喜爱云音乐,那就退出咱们 staff.musicrecruit@service.ne…。