关于语音:探索语言交互技术在政务数字化的应用

摘要：在智慧城市的建设中，政府也心愿可能应用新技术来提供更好的服务。

最近去公积金核心办理逐月还贷的业务，因为胆怯排队工夫较长，还没到上班时间就早早排队去了。正当我期待得百无聊赖之时，坐旁边的一位小兄弟对着手机说：转 1000 块钱给我妈。我看他用手机人脸识别了一把，看样子是转账胜利了，开心地持续刷手机。作为一名业内人士，对这位孝顺的小兄弟，我心生感（kui）慨（jiu）之余，立马想到，如果我能对着手机说：帮我办下公积金还贷业务，而后能很快办完，我就能够不必在这等而是去加班奋斗了。很惋惜，我的欲望临时不能实现。

好的音讯是，随着目前智慧城市建设的推动，政府也心愿可能借助数字化伎俩，进步政府治理能力，不便市民办理各项业务。这其中，采纳语音作为交互方式的新兴利用也逐渐呈现。事实上，在一些发达国家，也能看到这类利用。比方在推广数字政府的新加坡，能够通过像 LifeSG[[1]]这类利用用语音来获取政务服务。在 2019 年 4 月份，英国数字政府部门上线语音查问政府公开信息的服务，用户在家能够通过 Google Home 或者 Amazon Alexa 智能音箱间接查问 GOV.UK 网站上超过 12,000 项政府信息，市民可通过语音实现的工作范畴逐步扩充，从“国家最低工资规范”到“我如何申请一个新的护照”等等，并且陆续上线更多的查问服务，比方办理结婚手续的具体过程等[[2]]。

那为什么会呈现很多基于语音的利用呢？咱们留神到，只管因为新冠疫情影响，寰球智能音箱出货量在 2020 年增长了 13%，在 2019 年第四季度出货量约为 4900 万台[[3]]。而早在 2016 年，谷歌号称，在谷歌 app 中有 20% 的搜寻是通过语音来实现。这些事实阐明，越来越多的家庭和集体习惯应用语音来进行交互，而且语音交互式将来的一个趋势。在智慧城市的建设中，政府也心愿可能应用新技术来提供更好的服务。咱们简略剖析下语音交互利用（VUI）的劣势。

首先，谈话是人最天然的沟通形式。如果零碎可能提供一个用会话进行交互的接口，那么，用户不须要学习，只有提问题，就能取得零碎的反馈。其次，谈话比打字要快得多。大家常常用语音助手查天气，定闹钟，是因为比起关上几个 APP 页面，再搜寻查问的城市或者拨选闹钟工夫，间接通过简略的语音指令就能实现，后者更加疾速。对于一些输出文字征询问题的场景，语音输入也要比打字快得多。再者，谈话的形式能够解放双手。现实生活中，有很多工作场景不方便使用手去操作屏幕，比方你在厨房做饭想查看菜谱，交警执勤时想查看路况信息，制作工人操作时想查看整机参数，忙着改进配备的钢铁侠想查看家门口的监控，等等。VUI 提供了与零碎交互的另外一个渠道，多渠道地交互，能力播种更天然顺畅的体验。因为这几个次要劣势，VUI 被看作是将来利用交互的趋势。除此之外，有些设施可能不具备显示屏，或者屏幕很小，VUI 可能是更好或者惟一能抉择的交互方式。

既然 VUI 具备这么多的有点，那么如何设计 VUI 呢？首先咱们先看下 VUI 的设计准则。

在探讨设计准则之前，对 VUI 的设计，有几个前提：第一，语音交互过程通常要短，并放弃起码的来回对话次数；第二，即便正处于忙时，并且没方法集中注意力时，用户依然可能通过对话来实现工作；第三，实现同样的工作，VUI 形式比应用 GUI 交互方式更顺畅[4]。而后咱们来看下具体的设计准则：

1. 了解用户的实在用意。

目前的对话利用，大多在工作型对话机器人畛域获得肯定的胜利。一个用意通常对应一个具体的待执行工作，比方“我想把客厅的等关掉”，对应的就是一个简略的工作。然而，在设计 VUI 时，咱们不应该假如用户的表述时很精确的，也就是用户对同一件事的表白多种多样。如何精确了解用户的用意，是 VUI 的要害。

更重要的是，如果想要取得更天然的交互方式，VUI 零碎须要了解很多背景常识。比方，当你说“我想解决下汽车违章事件”，你冀望可能取得的响应是，“XX 路的违章解决核心离你最近，你能够在 17 点前带上驾驶证、行车证返回办理”。这须要 VUI 零碎可能理解办事的相干流程和地点，所须要的资料，以及相干部门的上班时间等等。相同，如果你失去的响应是一步接着一步向你确认信息，其中某一步很可能还出错，那么体验必定是令人解体的。

最难的一点是，用户很多表述是十分含糊的，或者须要某种共识来了解对话的用意，比方“公积金管理中心是 996 下班吗？”，用户想要查问的是上班时间。对于这类问题，很多解决方案会借助常识图谱，来构建行业内的共享常识，以冀望更加智能地交互。咱们置信，随着技术的提高，机器了解对话的用意将会越来越精确。

2. 了解上下文信息

了解对话过程中的上下文，再做出响应是十分体现“智能”的方面。这里的上下文蕴含几个方面：物理上下文，也就是感知用户所处的地位，用户正在做的事件；情感上下文：也就是以后用户的情绪状态；对话上下文：也就是对话过程中，后面说的话蕴含的信息，以及了解话题是否曾经转移。只有充沛理解用户，能力给出最合适的答案，加强用户粘性。

3. 协同形式回复

VUI 是帮忙咱们同机器或者设施进行交互，实现某项工作或者取得某个答案，但值得注意的是，如果仅仅给个正确答案，会给人“寒冷”的感觉，更何况，因为很难了解用户用意和上下文信息，其实给出正确答案并不容易。这要求在设计 VUI 时，须要以协同的形式，与用户进行交互。有三种办法：1）如果用户的问题太含糊，那就询问更多的细节；2）如果答案是“否”，那么给出其它的可选倡议，或者满足所说的用意的一种形式；3）给出比期望值更多的信息，当然不是要拉开对话的主题。比方，当用户询问：“我要办理户口迁徙”，零碎可能没方法执行这一工作，能够回复：“以后户口转移须要现场办理，您能够返回 XXX 地点办理。”

4. 回复具备多样性

如果对同样情景，每次都是一样的答案，会显得比拟枯燥。尽量设置几种不同的回复，来应答用户的同样的用意，而后随机抉择。

5. 关注隐衷数据的解决

政务畛域会波及到很多敏感和隐衷的数据，比方获取资产证实的官网文档，或者是查问人事信息等。在重视 VUI 提供操作遍历的同时，也须要关注对隐衷数据的解决。

6. 建设鉴权机制

权限机制是大多数利用都会思考的问题，对于 VUI 利用，目前的技术手段很难通过声音辨认身份，可能须要联合传统的鉴权机制。

有了 VUI 的设计准则后，咱们来看下，在政务畛域，VUI 具备哪些利用场景。

G2C 场景次要是指，政府提供面向市民的手机 APP，或者小程序，以提供便捷的政务服务，市民能够用它来查问政府公开数据和信息，办理业务等。

有国外同行剖析了在数字政府畛域构建基于语音的利用的需要以及可能存在的机会点，通过访谈了多位政府工作人员以及具备 VUI 工程教训的工程师，探讨基于语音的利用场景[5]，失去的后果如图 Figure 1 所示。这些场景，咱们认为在国内智慧城市我的项目中，也具备可参考性。

Figure 1 G2C 语音助手场景剖析

G2G 场景次要是指，面向政府部门外部，提供数字化的伎俩，优化各部门间的协同办公流程，将一些反复流程自动化，进步日常办公效率等。

在政务办公外部，依据目前的调研，现有产品大都集中在 Figure 2 所示的场景。这些场景，从技术上来说，只是把对话机器人在其余畛域的胜利复制到了政务畛域，当然，解决好这些场景的需要，也是很有价值的。单就语音查找文件来说，在政府推广无纸化办公的明天，如何疾速不便地找到须要的文档，甚至可能了解文档里的内容，间接给出答案，是进步工作效率很无效的伎俩，这可能是融入到日常办公工作过程中的罕用性能。

Figure 2 G2G 场景语音助手场景剖析

通过以上的剖析，咱们有了设计准则，也有了利用场景。如果咱们再把 VUI 其中的技术元素再拆解开，将适合的元素与利用场景相结合，就有可能搞出一块创新性的利用。

语音助手的技术框架如 Figure 3 所示。借助目前深度学习在这一畛域的倒退，语音辨认、自然语言了解等外围模块准确率很高，而且模型泛化性较强。在构建语音助手时，能够抉择本人开发相干模型，也能够借助云服务。甚至，几家次要的云服务提供商都有本人的构建语音助手的框架，用户只须要关注行业语料以及业务对话流程，无需关注底层技术细节。比方华为云对话机器人服务 [[6]]、百度云 Unit 平台[[7]]，微软 QnA Maker[[8]] 以及 Amazon Lex[[9]]等。

Figure 3 语音助手技术元素拆解

显然，对技术元素的拆解，还能够更细。本文就不再开展，有趣味的读者，能够参考华为在这方面的技术停顿总结[[10]]。

语音交互技术在政务畛域的数字化利用是一个不可疏忽的趋势，本文剖析了如何构建 VUI 的技术准则，并剖析了在政务畛域 VUI 的利用场景。试图通过 VUI 的技术合成，以及利用场景的联合，摸索构建政务畛域语音交互技术的利用。

[[1]]https://www.life.gov.sg/

[[2]] Government Digital Service: Government uses Alexa and Google Home to make

services easier to access. https://www.gov.uk/government… accessed: 2021-01-05

[[3]] Global smart speaker Q4 2019, full year 2019 and forecasts https://www.canalys.com/newsr… accessed: 2021-01-05

[[4]] Dasgupta R . Voice User Interface Design: Moving from GUI to Mixed Modal Interaction[M]. 2018.

[[5]] Baldauf M, Zimmermann H D. Towards Conversational E-Government[C]//International Conference on Human-Computer Interaction. Springer, Cham, 2020: 3-14.

[[6]] https://support.huaweicloud.com/cbs/

[[7]] https://ai.baidu.com/unit/home

[[8]] https://www.qnamaker.ai/

[[9]] https://aws.amazon.com/cn/lex/

[[10]] 对话机器人 70 年：科幻与事实的融合 https://www.jianshu.com/p/e0f…

本文分享自华为云社区《语音交互技术在政务畛域的利用》，原文作者：夕可石。

点击关注，第一工夫理解华为云陈腐技术~

关于语音:探索语言交互技术在政务数字化的应用

VUI 的劣势

VUI 设计准则

G2C 利用场景

G2G 利用场景

VUI 的技术元素拆解

总结

Just My Socks（注册教程内含优惠码）

关于语音:探索语言交互技术在政务数字化的应用

VUI 的劣势

VUI 设计准则

G2C 利用场景

G2G 利用场景

VUI 的技术元素拆解

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）