关于语音:黄硕百度飞桨文心大模型在语音文本审核中的应用

58次阅读

共计 6914 个字符,预计需要花费 18 分钟才能阅读完成。

实时互动作为下一代根底技术能力,正在撑持并推动着人、物及空间之间翻新的沟通和交互方式。

语音解决是实时互动畛域中十分重要的一个场景,在「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用」流动中,来自百度、寰宇科技和依图的技术专家,围绕该话题进行了相干分享。

本文基于百度自然语言解决部架构师黄硕在流动中分享内容整顿。关注公众号「声网开发者」,回复关键词「DM0428」即可下载流动相干 PPT 材料。

百度飞桨文心大模型在语音文本审核中的利用

黄硕 百度自然语言解决部架构师

深度学习预训练大模型最近几年倒退迅速,颠覆了很多以往应用传统机器学习技术解决的畛域。得益于大模型技术在百度的倒退,语音文本审核这项互联网传统业务在技术上也有了较大的倒退。

本文将在大模型绝对传统模型的整体成果、通用性、个性化需要适配以及服务性能上进行介绍和开展,心愿让大家理解大模型的劣势,以及审核技术最新的一些发展趋势和业务利用成果。

01 百度飞桨文心大模型的倒退

1、业界大规模与训练模型的历史

2018 年,Google 推出 BERT 预训练大模型之后,自然语言解决畛域的很多传统做法被彻底改变。在此之前,如果想让机器了解人类的语言,往往要解决一系列语言学问题,比方,中文畛域最根底的切词、词性标注、实体辨认、外围词的抽取,甚至简单句子中词语的依存关系,能力让计算机精确了解一句话中的逻辑关系,从而进行搜寻、相关度计算或者举荐等实现工作。

而 BERT 这一类针对文本的大规模预训练模型被提出之后,GPT、T5,以及百度的 ERNIE 等大模型底座相继推出,使得咱们在了解语言文本的相干工作时,能够疾速地基于大规模的预训练模型底座,利用其对语言的了解,间接在下层搭建要解决的工作即可。

如图 1 所示,在 2014 年左右,业界就曾经有了相似 word2vec 的词向量的实际,百度的网页搜寻、语义计算排序的大降级也是在 2014 年左右进行进行了全流量上线,这些技术在过后优雅地解决了搜寻排序时关键词不齐全匹配的问题,通过这些技术,计算机也能够了解词语背地的语义,不过在成果和泛化性上不迭起初联合 Attention 以及 Transformer 等网络结构的预训练模型。

■图 1

2、深度学习技术框架在百度的倒退

方才提到,对于语义向量的计算,百度在 2013 年左右就曾经开始了相干实际。图 2 的时间轴展示了百度深度学习技术的倒退历程。在 2012 年左右,百度就曾经开始在语音辨认和 OCR 畛域研发深度学习相干的技术,而深度学习在搜寻上的利用也在 2013 年左右实现上线。同时,百度还自主研发了 PaddlePaddle,也就是飞桨深度学习框架。深度学习技术在图像、文本、语音、搜寻举荐以及主动驾驶等各个百度的次要业务上都实现了大规模的利用。

■图 2

3、百度飞桨文心与训练模型近几年的倒退状况

百度在 2019 年推出了飞桨文心大规模预训练模型,明天会围绕咱们应用文心大模型在审核技术方面所尝试的各种利用形式来进行技术分享。在最近两三年间咱们陆续公布了 2.0、3.0 以及各种不同畛域、不同语言、不同规模的文心大模型版本。

图 3 展现了文心大模型的家族。文心大模型的家族从下向上分为几层,其实不仅是飞桨文心大模型,业界相似的大模型大多数也是如此。文心大模型有不同粒度的版本,也有针对不同工作类型进行优化的版本。比方,针对语言生成的模型和用于信息抽取的模型,模型底座对应不同工作会有成果差别。再下层,两头是一层畛域模型,基于不同的畛域,大模型技术会利用不同的预训练语料打造不同的成果,所以在不同的畛域中,成果也会有所不同。再上一层是比方跨模态、跨语言这种,也就是说,除了文本以外,还能够交融语音、图像、文档等不同的信息模态,实现一个更多层次的预训练模型。最顶层代表不同偏向的预训练大模型的利用,其在搜寻、举荐、语音、文档、客服等各个业务上都失去了利用验证。

■图 3

文心大规模的预训练模型语音文本审核业务上能起到什么作用呢?对于这一点我将会从多个不同的方面来进行分享,包含大模型作为模型底座的成果是怎么样的?针对大模型的性能问题,利用蒸馏技术能起到什么样的作用?大模型对于数据样本加强会起到什么样的作用?在不同用户的个性化需要方面,大模型的作用是什么?大模型能够如何优化传统审核业务中的匹配规定策略?

02 文心大模型在语音文本审核中的利用

1、审核业务特点

(1) 文本审核与语音审核背景介绍

文档审核是语音审核的一个根底,内容审核在业界大抵划分为涉黄、涉政、广告暴恐、唾骂等类,各类在数据层面的细分中具备不同的审核指标。而这些不同的数据起源对于审核技术来说,难度是不一样的。比方,在新闻网站上公布的文章,其内容、用词会绝对规整;而用户评论或论坛发帖等文本,在用词和句式方面就会绝对随便。对应到审核的需要,每一类下的细分内容也会有不同的需要,对应的技术方面,词库联合模型的语义判断是最常见的做法。

除了经典的通过 ASR 转译为文本后能够利用文本的审核能力以外,语音数据具备其余特点。比方声纹,咱们仅凭文本字面无奈辨认一句话是在愤恨的情绪下还是平静的情绪下讲述的,但通过声音其实能够失去这些信息。此外,语音的断句、转译、纠错,以及利用机器人合成的语音广告、对话等,都是在语音审核方面区别于纯文本的特点。

(2) 语音审核与文本审核技术常见难点

图 4 展现了审核技术方面通常蕴含的技术难点。第一个是数据的多样性,比方新闻稿、用户弹幕和机器人语音,数据的内容差别十分大。第二个是审核需要的多样性,涉政、涉黄、广告等各个类目,其审核重点、在数据中的检出率,以及对于语义了解的需要水平,难度各不相同。第三个是审核业务对服务的性能要求通常较高,如在语音直播、语音聊天、弹幕等利用中,对时延的要求是十分高的。此外,很多业务须要实时拦挡,而不能承受离线大批量审核过滤形式。

■图 4

(3) 审核业务客户个性化需要

除了上述几点通用的技术难点以外,还有一些常见的来自客户的个性化需要。比方,审核的尺度存在差别,比方针对不同客户的批评,在比拟庄重的论坛中,客户的要求根本是零容忍;而在聊天场景下,客户或者能够承受一些不太过分的口头禅等。这样,即便是同样的审核需要,然而对于尺度的要求可能也是不一样的。

另外,在审核类目方面,比方,同样是涉黄审核,语音和纯文字的审核侧重点可能是不一样的,比方一些波及未成年人爱护的审核要求等,在内容的审核要求方面侧重点就是不一样的,这是不同用户的特点。那么,咱们是怎么联合大模型尝试解决上述这些技术难点的呢?我将从上面几个方面开展介绍。

2、文心大模型底座

(1) 语音与文本联合的审核模型

首先咱们从模型自身来讲,图 5 是语音跟文本相结合的审核模型,图 5 从左到右是三个不同档次的模型的语音和文本联合形式。首先,咱们个别把审核模型建模为一个分类问题。当然,在一些场景下,为了辨认出不同的审核水平,咱们也会联合回归建模技术,但通常来说都是分类问题。图 5 的右边展现的是一种最奢侈的语音审核模型和文本审核模型的联合形式,过程是在两个模型别离预测出后果之后,通过规定策略将其相结合,这是一种最简略的形式。但这种形式的成果是不太现实的。两头的模型进行了整合,把文本和语音模型在特色层面开展,使两边的模型别离产出特色,而后在这一层进行跨模态的的特色层建模。这样做的益处是,比方咱们要判断一段话是不是涉黄,不是单纯地把语音模型辨认进去的后果跟文本模型辨认进去的后果进行加权打分,而是能够联合语音模型中辨认进去的性别特色和语调,以及在语音方面比拟非凡的审核特色,通过从文本模型中辨认出的整体涉黄度、涉黄特征词等具体特色,让模型进行最终判断。这是目前咱们发现的一种成果比拟好的建模形式。最右侧是一种多模态的端到端建模的形式,它是在语义了解的 embedding 层把语音和文本开展,并在该层穿插之后间接进行建模。从久远来说,这种端到端的形式更通用、更优雅,而且能够更好地扩大到视频畛域。比方咱们能够把图像特色也引入到 embedding 层上,目前咱们在文档了解和视频图文了解方面的大模型中就是采取这种形式。

■图 5

(2) 预训练模型底座的成果

图 6 展现了应用文心模预训大模型之后的成果,可见利用这种语言了解的大模型作为底座,成果远远超过单纯地减少训练数据。图 6 中紫色的线代表基线模型,这大略是咱们一两年前应用的基准模型,这里横轴是在不同审核维度上的模型成果,纵轴中与基线模型比照的有两种办法,黄色代表继续减少训练数据,在继续减少训练数据的状况下,模型成果是显著有所晋升的。而橙色展现的是把模型底座实现预训练大模型之后的趋势,发现其成果失去了整体的晋升,能够说远远超出破费大量工夫一直积攒训练数据所带来的成果。

■图 6

应用预训练大模型,除了间接替换语义了解层能带来显著的成果以外,咱们还利用预训练模型能够进行畛域适配的这种畛域预训练方法,打造了多种不同场景下的场景化审核模型。如图 7 所示,右边是一个比较简单的流程示意图,展现的是畛域训练的过程,对于已有的文心预训练模型,咱们会退出大规模的无标签的畛域语料进行畛域预训练。这样,该模型的底座能更好地了解特定畛域的语义,在用于下层的审核模型训练的时候,其训练进去的模型对场景成果适配得更好。最右侧是成果的比照图,这是咱们在游戏场景下进行的成果评估。前四种色彩是咱们的通用模型跟几家友商外部评估的模型成果的比照。能够看到,在不同的审核维度下,成果是各有千秋的。然而当应用通过畛域预训练的游戏场景模型之后,能够很显著地看出,在各个维度上,不论是比照友商还是比照之前的通用模型,成果都是显著当先的。

■图 7

3、大规模蒸馏

家喻户晓,大模型无论是训练还是预测都须要微小的计算量,那么在审核服务这种性能要求较高的场景下,怎么应用大模型呢?接下来针对性能的问题介绍大模型蒸馏的成果。对于大模型蒸技术大家可能都有所理解,通过数据蒸馏或模型蒸馏形式,成果会受到肯定水平的损失,但性能会失去显著的晋升。具体到咱们的业务中,能够看图 8 所示,左侧图中橙色的线展现了大模型通过蒸馏,被压缩到一个较小的模型构造之后,用于预测服务的模型成果,相比残缺训练好的大模型它的成果的确会略有降落,然而相比于小模型或者退出大量训练数据之后的小模型,它的成果还是失去了显著晋升。

■图 8

右上角是咱们在服务预测性能方面进行的评估,这里我没有列具体性能晋升的数字,因为蒸馏之后小模型构造跟基线模型是统一的,所以它的预测性能跟应用大模型之前是齐平的。能够看到,跟残缺的大模型的性能差距大略是数十倍的量级。

4、样本加强

除了间接用于模型层以外,利用大模型技术,咱们能够在数据样本层进行一些比拟有意思的操作。这里列举两个样本加强的例子,后面提到过,在审核业务过程中,因为客户需要的多样性,咱们无奈基于每一个客户的需要标注大量的训练数据来优化模型,所以如何低成本地获取大量的无效训练样本是一个很要害的问题。通过图 9 别离展现了咱们如何利用文心大模型基于有标签的训练数据和无标签的数据达到样本加强的目标。图 9 左侧展现的是基于有标签的训练数据,利用文心大模型针对生成工作的预训练大模型,这里咱们用到 ERNIR-Gen。利用该模型能够生成大量与训练数据类似的样本,而后联合类似度或者匹配等简略的过滤规定,能够低成本地失去大量基于生成的训练数据。

■图 9

图 9 右侧展现的过程是,首先收集大量线上业务中无标签的数据,而后通过预训练大模型的语义聚类计算退出大量有标签的数据,对无标签数据进行聚类,同时在每一个聚类处的后果中联合有标签数据的散布,能够看到哪些地位的标签大概率是雷同的,从而失去大批量基于聚类的来自线上的训练数据。

此外,利用大模型进行样本加强,除了通过生成或者聚类形式以外,还能够进行一些更有针对性的工作。比方在解决审核业务的时候,往往要求审核模型具备泛化性。所谓泛化性是指能够笼罩某些“变体”,这是业界常见的绕过审核技术的文本表达方式。对于这个问题,咱们利用大模型的泛化性,借鉴文本纠错技术中的建模办法,除了对单字的特色进行语义的建模以外,还将拼音和笔画这两种信息都进行了建模,使大模型可能了解发音雷同,或者笔画类似的字,使得大模型具备肯定的变体辨认能力。当然,如果间接建模大模型用于审核业务,其成果并不如人意。所以基于变体辨认的大模型,咱们能够通过数据加强形式有针对性地从内部定向开掘可疑的变体和样本,而后在离线利用变体检测模型进行辨认,通过校验后将样本增加到模型的训练数据集中,就能够继续晋升审核模型对变体的辨认成果。

5、个性化需要扩大

在技术难点的介绍中提到过,不同客户的数据起源是不一样的。这导致长期下来除了几个通用的审核模型以外,咱们还积攒了大量的不同场景下成果不同的子模型,如何使零碎智能地给不同的用户抉择最优的模型组合,这对系统整体来说是一个难题,为此,咱们尝试了一种自适应的多模型调度框架。

首先是利用大模型对于客户数据进行语义聚类,使类型类似的数据汇集在一起。如图 10 所示,两头黄色这一层就是一个示意。当然咱们无奈精确地晓得不同类的数据是怎么的,然而它们的长短、文本特色散布等方面会有肯定的特色,使得相似需要的数据汇集在一起。将这些数据汇集在一起之后,再进行最优模型的抉择。这样,既能够解决客户的个性化需要,同时也能够防止整套零碎有限的收缩,因为咱们不可能继续一直地为每一个客户减少成果优化过的子模型。通过这个语义聚类,经营人员也能够在模型的抉择层染指,这样能够更有针对性地进行成果的剖析和客户需要的成果优化。

■图 10

另外,为了满足不同的客户在审核尺度上的需要,审核服务的输入是反对阈值可调的。然而咱们在训模型时常常会遇到一个问题,就是模型预测后果的概率分布常常汇集在很小的区间中。比方图 11 所示,模型预测进去的后果可能 90% 都集中在 0.4~0.6 这一概率区间之内,这会导致客户无论是设置 0.8 的阈值还是 0.9 的阈值,都无奈失去令本人称心的精确召回率。因而,咱们尝试了不同的模型建模办法,比方在唾骂轻重度的需要方面,咱们引入了 Pairwise 的建模形式,并在数据标注的时候尝试了更细粒度的分档标注,而不是简略的 0/1 标注。这使得模型对审核的水平更加敏感,从而肯定水平上达到了把预测后果散布拉伸到更广的范畴上的目标。

■图 11

6、大模型优化匹配规定

图 12 的最右边是一个简略的词匹配规定流程。词匹配技术是传统审核零碎中必备的环节。能够说大略从十多年前互联网审核需要呈现开始,就产生了词匹配技术。词匹配技术具备简略、见效快、精准等特点,然而它没有泛化性,同时因为长期保护很容易导致规定的抵触,历史规定或者词更新规范不统一等都是长期保护中存在的难题。

■图 12

在图 12 中我想举例三个例子,这是三种利用大模型优化词匹配零碎的办法。其中,流程图上边这部分利用了无标签数据,上面这部分利用了有标签数据。首先基于无标签数据有两种办法能够优化词匹配规定。第一种是将无标签的数据联合现有的词匹配规定,能够失去大量不确定的匹配后果,对于这些匹配规定失去的后果咱们不确定其正确性。而后能够利用大模型进行二次的审核校验,这样能够失去一些高置信度的谬误匹配的后果。利用这些谬误的样本就能够反向荡涤词库或者匹配规定,这是一种间接高效的做法。另一种办法是对无标签数据进行匹配之后,失去一些不确定的样本,而后将这些样本进行语义聚类。留神,此时既要增加匹配的样本,也要把一些不匹配的样本,也就是没有命中审核规定的样本也增加进来。在进行语义聚类之后,能够剖析每一个聚类簇的标签散布。咱们能够发现,有一些簇的标签是十分统一的,比方 100% 认为是正样本或者 100% 认为是负样本,也会有一些簇的标签是互相矛盾的。同一个簇的语义是十分相近的,于是对于一半命中、一半没有命中的状况,能够找出这些标签矛盾的样本,这些样本同样能用于词典和匹配规定的荡涤。第三种办法是利用已有的大量的有标签数据,通过大模型技术生成一批标签雷同、文本类似的样本,而后用于校验词匹配规定,这能够起到相似的成果。不过咱们罕用的是前两种,因为这样能够常常利用最新的线上业务数据来校验历史词表和规定策略的准确性。

03 百度语音文本审核产业化倒退

图 13 展现了审核业务所依赖的技术全景图,从数据层到根底的算法,包含词法剖析、句法分析、语义计算等技术,蓝色局部展现了审核业务反对的各种性能细节,最上层是审核技术支持的产品。能够看出,审核技术目前除了对外反对以外,同时也反对了百度重要的产品业务,比如说输入法、百家号等。在对外业务方面,百度的内容审核在各种常见的内容生产 / 散发场景都失去了宽泛的利用,比方视频直播、社区社交、在线教育等。在服务接入方面,百度的内容审核反对在线的私有云接入形式,也反对私有化部署。

■图 13

对于 RTC Dev Meetup

「RTC Dev Meetup」是由声网发动的技术分享交流活动,邀请业界优良的一线技术专家,围绕在实时音视频利用开发过程中波及的关键技术,分享实践经验,波及挪动开发、音视频技术、计算机视觉 等。

点击文末 此处 即可拜访声网开发者社区,查看流动更多相干信息。

正文完
 0