语音 | 乐趣区

关于语音:深入解读多人语音聊天室源码开发搭建社交分享功能

在生活中，流传着这么一句谚语，叫“赠人玫瑰，手有余香”，这句谚语大抵意思就是开导人们，分享给他人好的货色，本人也会有益处，播种到高兴。分享也是咱们日常生活中社交的一种形式，当咱们在看到乏味的事件或是在网络软件上刷到难看的视频，如果将它们分享给本人的敌人或家人，不仅会让家人和敌人取得高兴，也会让咱们与别人产生一个乏味的话题，增进感情，当然，分享不只是能让咱们与别人建设密切的分割，还能让咱们取得成长和满足感。在当今数字化时代，在多人语音聊天室源码平台中，也衍生出了和分享无关的性能：社交分享性能！社交分享性能并不是像咱们所说的只是一般的去分享，那这一性能到底是什么样的哪？明天咱们就来深刻解读一下多人语音聊天室源码开发搭建中的社交分享性能。一、多人语音聊天室源码开发搭建社交分享性能的作用首先，在多人语音聊天室源码平台中，用户能够进行语音会议或是语音班会等形式，但这时候，经常会面临人太多，要让所有人都退出会议工夫长且麻烦，然而，多人语音聊天室源码社交分享性能就能够将聊天室的进入链接或是码汇合成一个图片，分享给他人，他人只有保留这个图片就可轻松进入到聊天室中，不便了用户的进入聊天室，也进步了互动性，只有分享进来，其余用户就可进入。其次，对于多人语音聊天室源码平台中的主播来说，社交分享性能便能够让主播在创立多人语音聊天室时，将链接或码或者集成的图片，分享到本人的社交媒体上，让更多的用户晓得本人的多人语音聊天室或是轻松进入到本人创立的多人语音聊天室中，扩充影响范畴。最初，多人语音聊天室源码社交分享性能能够加强用户的体验，不便用户与别人共享本人青睐的语音聊天室，加强了用户的参与感和体验。二、多人语音聊天室源码开发搭建社交分享性能的实现多人语音聊天室源码开发搭建社交分享性能实现代码多人语音聊天室源码开发搭建社交分享性能示例代码三、总结这样，咱们就实现了多人语音聊天室源码开发搭建的社交分享性能，社交分享性能对于多人语音聊天室源码平台是十分重要的，它能够不便地扩充交换范畴、晋升互动性、促成单干和合作，同时加强用户体验。当然，源码性能还有很多，喜爱的能够留个关注问我。

关于语音:语音软件源码开发搭建好友管理功能剖析

在当今社会，时代的疾速倒退也带给了人们越来越多的压力，像是经济压力、社会压力、家庭压力等，这些压力让人们越来越繁忙，使人们没有工夫去进行社交，所以很多人的社交圈子内可能就只有家人与共事，没有真正能够去倾诉、交心的敌人。网络的倒退带来了语音软件源码平台，它能够让人们能够用匿名的形式来去聊天交友，并且没有工夫和间隔的限度，不便人们的社交，那大家就会有一个疑难，如果在语音软件源码平台中遇到了很投缘，很想深刻交换的敌人，然而退出语音房后，下次找不到他怎么办那？这就要说咱们明天要讲的这个性能了，它就是语音软件源码好友治理性能，上面我就为大家分析这一性能。分析语音软件源码好友治理性能第一步,要明确好友治理性能的作用。第一点，不便用户去增加查找好友。就如我第一段说的那样，当用户在语音房遇见很想深刻交换的人时，用户能够间接去增加他的好友，当他批准时，他就会被增加贮存到用户本人的好友列表里，用户就能够很容易的找到他，当然用户也能够去增加本人的家人、共事等意识的人。第二点，不便用户去进行分类，当用户增加了很多好友时，就会面临到一个问题，好友列表里就会横七竖八，共事、增加的陌生人、家人等都会交叉着进行排列，这时候，好友治理性能就能够为他们进行分类，用户能够去创立子列表并为其命名，能够使列表排列变得有序。第三点，用户能够进行即时通讯，通过语音软件的好友治理性能，用户能够实时理解好友的在线状态，晓得何时能够与他们进行交换和互动，这使得用户能够及时回复音讯、共享重要信息或进行实时的语音通话，进步沟通的效率和品质。第四点，保障用户的隐衷平安，在增加好友时，用户都能够去抉择批准增加或是回绝增加，咱们都晓得，网络上有坏蛋也有好人，而这时如果有好人去增加用户，用户能够间接点回绝增加好友申请，而如果分不清坏蛋好人，不小心增加了后，好友治理性能也有删除好友的选项，很大水平爱护用户的隐衷平安。语音软件源码好友治理性能是语音软件中常见的性能之一，它可能帮忙用户更加不便地治理和组织本人的好友列表，通过好友治理性能，用户能够增加、删除、查找和分类好友，以及进行群组治理等操作。上面是语音软件源码好友治理性能的实现：（局部代码）输出参数，创立好友治理性能实例，并输出增加好友揭示创立好友治理性能的小组件，实现好友治理性能这样，咱们就胜利实现了语音软件源码好友治理性能，这一性能对于语音软件源码平台是十分重要，语音软件源码好友治理性能能够为咱们的社交削减一份松软的力量。

关于语音:语音直播源码知识分享探索新的沟通方式

语音直播是一种借助在线平台或应用程序进行实时语音传输的模式，它在互联网倒退的背景下逐步衰亡，并受到越来越多人的关注和青睐。随着互联网的疾速倒退和社交媒体的遍及，传统文字、图像的沟通形式曾经无奈满足人们日益增长的交换需要。在这个背景下，语音直播作为一种翻新的沟通模式，正逐步成为人们谋求实时交换和更密切沟通的首选。语音直播通过即时的语音传输，将传统的文字聊天降级到了声音的交换层面。它给用户带来了全新的沟通体验和互动形式。相较于文字沟通，语音直播具备以下劣势：第一，身临其境的交换感。语音直播让听众可能实时凝听主播的声音，人声传输可能更加实在地传播情感和表白用意，让交换更具备亲近感和身临其境感。同时，主播也能够通过语音直播表白本人的情感和思考，进一步加强互动交换的魅力。第二，促成社交互动。语音直播为用户提供了实时回应和互动的机会。听众能够通过语音直播平台与主播进行即时对话、发问、点赞或送礼物等互动行为，突破了传统信息的单向传递模式，让沟通更加灵活多样。这种互动性不仅加强了用户参与感，也使得语音直播成为一个社交平台，可能帮忙人们结识新敌人、拓展社交圈子。第三，多样化的内容模式。语音直播涵盖了各个领域的内容，既有常识分享、教育培训，也有娱乐表演、音乐演唱等。无论是想要学习新常识，还是享受音乐、戏剧等艺术表演，语音直播都能为用户提供一个丰盛多样的内容平台。同时，语音直播也为那些有才艺或专长的人提供了展现自我的机会，让他们可能通过语音表白和分享，取得更多关注和认可。然而，与其余模式的直播相比，语音直播也存在一些挑战和注意事项。首先，语音直播对主播的语言表达能力和沟通技巧要求较高，须要有清晰明了的语音、良好的语调和节奏感，以吸引和留住听众。其次，语音直播在网络传输的稳定性和品质上也有要求，须要具备良好的网络环境和业余的技术支持，以确保语音的实时传输和清晰度。总的来说，语音直播作为一种新兴的沟通形式，给用户带来了更加实在、亲热的交换体验。它不仅满足了人们对于实时沟通的需要，还促成了社交互动和多元化内容的流传。随着技术的不断进步和用户需要的一直演变，置信语音直播将会越来越受到欢送，并在将来倒退出更多可能性。

关于语音:语音房源码搭建技术分享之降噪功能详解

乐音是指人们感觉到不欢快或烦扰的声音，它通常是因为各种起源产生的不规则、芜杂的声音信号，乐音在咱们生存中有很多的起源，像是环境乐音、社会乐音等，如果长时间裸露在乐音环境中可能导致许多衰弱问题，包含听力受损、睡眠阻碍、心理压力减少、集中注意力艰难等，而我明天要分享的常识就与乐音无关，在语音房源码平台中，乐音的存在对其也会有极大的影响，影响语音房源码平台的乐音起源也有很多，像是外界环境的噪杂等，所以在语音房源码中，降噪性能的呈现缓解了乐音对语音房源码平台的影响，上面我就分享给大家这个常识。首先咱们要明确语音房源码技术降噪性能的其余作用。第一点语音房性能能够晋升语音房语音品质，在语音房源码平台中，经常会面临很多的乐音问题，像是风噪、电子设备的乐音等，降噪性能就能够缓解这些乐音带来的影响，从而晋升语音房语音品质。第二点能够进步语音辨认的准确度，在语音房源码平台中，语音辨认性能是常见的性能之一（具体见以前文章：实时语音辨认字幕出现性能），乐音会使语音辨认性能无奈听清语音内容，可能导致无奈辨认，通过降噪性能能够缩小环境乐音对语音辨认的烦扰，进步辨认的准确度，使得语音转文字的后果更加精确牢靠。第三点加强用户体验，语音房是为了不便人们进行近程沟通和交换而设计的，良好的用户体验是至关重要的，降噪性能可能去除乐音，使得语音清晰可听，防止用户疲劳和困惑，进步语音交换的成果，进而加强用户对语音房的满意度。说了这么多降噪性能的重要性，咱们接着就要去说语音房源码技术降噪性能的实现：（局部代码）输出参数，从麦克风获取实时音频数据设置实时降噪，降噪性能设置胜利这样，咱们就胜利设置了语音房源码技术降噪性能，要留神的是语音房源码技术降噪性能尽管可能肯定水平上改善语音品质，但也可能存在一些局限性。例如，在适度降噪的状况下，可能会损失一些轻微的语音信息或使音频听起来过于平滑。因而，在应用降噪性能时，须要依据具体场景和需要进行调节，并放弃适度的降噪成果。当然，语音房源码平台的技术性能还有很多很多，我在当前也会分享给大家，大家还有什么不懂的能够问我。

关于语音:语音厅源码实用功能屏幕的转换

在咱们日常生活中，咱们会利用电子设备去放松、开释压力，像是利用手机去看电影、看电视剧等，明天咱们要分享的常识就与这个开释压力的形式无关，那是什么哪？咱们都晓得当初市面上的大部分手机都是长方形的，所以在咱们看手机上的内容大部分都是竖着的，那咱们如果去看电影、电视剧时，则也会是竖屏的，则会让咱们十分的好受，所以在起初，各大影视app都减少了一项性能：全屏性能，那我家有没有发现当咱们点全屏性能时，咱们看到的电影或者电视剧会变成横屏，这就为咱们减少了很多体验，说到这里，我要分享的性能就浮出了水面，那就是屏幕转换性能，然而我明天要讲的不只是简略地放松形式的性能，而是语音厅源码平台的屏幕转换性能，上面我就为大家进行解读。第一步咱们要明确语音厅源码平台的屏幕转换性能的作用是什么？首先，和看电影、电视剧一样，咱们在看语音厅源码平台的直播时，竖屏可能会让咱们感觉不难受，比方画面较小等，横屏就能够增大画面；还有就是如果是咱们在躺着时，手机竖屏会使咱们在握手机时很累，横屏就能够让咱们扭转为一个舒服的握手机姿态。其次，对于主播而言，在语音厅源码平台进行直播的时候，横屏直播能够减少画面的宽度，能够将身边的更多事物出现给大家，像是讲课时或者会议时的黑板等，为主播和观众提供更多的便当和更好的体验。讲完语音厅源码平台屏幕转换性能的作用，接下来来讲语音厅源码屏幕转换性能的实现:(局部代码）转换为横屏，设置画面分辨率从新转换为竖屏，设置画面分辨率说了这么多，其实最终目标是通知大家语音厅源码屏幕转换性能的重要性，当然不只是这一个性能重要，语音厅源码的各个性能都是很重要的，它们独特组成了语音厅源码平台，当前我会一一为大家解读，如果还有什么不懂的能够问我。

关于语音:语音社交源码知识语音房间功能的实现

当今，快节奏的社会为当初的很多年轻人带来了压力，每到深夜或是压力大的时候，很多人都想找人倾诉一下本人心里的悲伤与苦楚，以此来开释一下本人的压力，然而，这是一个独生子女的社会，大部分家庭都只有一个孩子，并且每天工作忙碌又加班到很晚的人基本没有工夫或是精力去交朋友，所以这些人没有人去倾诉，去开释本人的压力。然而科技的迅速倒退将这个问题胜利的解决，一个性能的呈现，让本应该没有交际的人们全都聚到了一个网络房间，让大家能够互相的去倾诉，通过语言交换去开释本人的压力。说到这里，咱们明天要分享的常识就要浮出水面，我明天要分享的这个性能就是语音社交源码常识语音房间性能，上面我将具体为大家阐明。首先我要阐明我为什么要分享这一个知识点，语音社交源码常识语音房间性能对语音社交源码平台的意义是什么？从我第一段所讲的不难看出在古代社会，有一个能够去倾诉、开释压力的app性能尤为重要，是目前的市场所需，所以语音社交源码常识语音房间性能对语音社交平台的第一个意义就是能够去吸引用户，很多用户的应用也是源码开发平台的首要任务；第二个意义就是语音社交房不仅仅只能作为互相倾诉的场合，他还能开发很多趣味性内容，像是语音开黑、语音相亲社交、语音房KTV等，这既能为用户减少体验，还能让语音社交平台以省流程的形式进行多种性能的实现，很可能为语音社交平台减少收益。那如何去实现语音社交源码技术语音房间性能，上面我将为大家解说：（局部代码）先进行房间根本配置：名称、麦位人数、房间封面等调用参数，创立胜利这样，咱们就实现了语音社交源码技术语音房间性能，就像我说的一样，语音社交源码技术语音房间性能对于开发语音社交平台也是至关重要的，当然，开发语音社交平台还有很多性能，在当前我会为大家一一解说，如果大家还有什么不懂的能够问我。

关于语音:重拾梦想语音交友源码平台搭建技术知识在线KTV功能的实现

你是否小时候也有一个当歌手的幻想，长大后却因生存压力所迫而放弃？我置信绝大多数人小的时候都有一个当歌手的幻想，因为在咱们小的时候十分的天真纯净，当听到好听的歌或是想起好听的歌，不论在何时何地，公共场合或是私密场合咱们都能够不惧他人的眼光唱起来歌，不论咱们唱的好不好听，大部分人都会感觉咱们可恶夸赞咱们，让咱们很有自信，这也是让咱们大部分人领有歌手幻想的重要起因之一；而长大后咱们大部分人一方面开始变的外向，有了“好体面的心理”，不能随时随地唱起来歌；另一方面，咱们工作生存的压力太大，没有工夫，也没有精力去唱歌，去实现当年当歌手的幻想。然而，还是会有人在闲暇工夫，去往KTV拿起话筒找回儿时的歌手梦。但总归来说，咱们大部分人既不想去节约这个钱，也不想去在闲暇工夫不劳动而是出门去KTV唱歌。随着网络的疾速倒退，语音交友源码平台的新型性能将咱们儿时的歌手梦托起，这个性能就是语音交友源码平台的在线KTV性能，语音交友源码技术在线KTV性能就能够让这些人足不出户，只有登录上语音交友源码平台就能够去唱歌，只有在平台上创立房间，就能够搭建一个网络的KTV，有麦位，也有观众席等等，大家相互看不到对方，只能够听见声音，解决了没有精力、工夫、金钱的问题，也解决很多人的外向或是“好体面”心理。而对于开发语音交友平台的公司和集体来说，这个性能是十分重要的，上面我就具体为大家解说语音交友源码平台搭建技术：在线KTV性能的实现！在阐明语音交友源码技术在线KTV性能实现之前，咱们先须要明确实现这一性能的意义是什么？首先就是我第一段所讲的很多人可能没有工夫、精力去KTV唱歌，或者是外向、怯场心理，这个性能就很好的解决了这一问题，并且当用户喜爱上了这个平台就会分享给本人的敌人或是亲人，这样对于语音交友平台来说，就能吸引很多的用户来应用这个平台，应用这一个性能。其次，语音交友源码在线KTV性能还能为语音交友平台带来大的收益，语音交友在线KTV性能也是年老人们开释压力和心理的寄托，大家能够在外面听歌交换，送给唱歌人们礼物来相互观赏，这样就能够为语音交友源码平台减少收益。说完语音交友源码平台在线KTV性能的意义之后，咱们来说如何创立一个语音交友源码平台的在线KTV：（局部代码）进行房间的根本设置：id、名称、麦位、封面等输出参数，创立胜利这样咱们就实现了语音交友源码平台搭建技术在线KTV性能，尽管这个性能不起眼，但对于开发语音交友源码平台也是重要的性能之一，我会持续为大家分享这些性能常识，大家还有什么不懂的能够问我。

关于语音:如何做好音频理解的推理优化GTC23火山语音告诉你

现在，咱们未然进入到一个视频暴发的时代。据国内数据调研机构IDC预计，2025年寰球数据空间中80.3%将是以视频、图片、音频为代表的非结构化数据。有权威机构显示，目前我国短视频用户规模增长尤为显著高达9.26亿，较2021年12月增长2805万，短视频未然成为全民时尚不可或缺。面对全行业视频化的大势所趋，长期面向字节跳动各大业务线，提供行业优质的 AI 语音技术能力以及全栈语音产品解决方案的火山语音或者是较有教训的实践者之一。 2022卡塔尔世界杯期间，火山语音技术能力同步反对了上线抖音的“无障碍字幕直播间”，截至12月19日决赛，已有累计超过1905万人在该直播间观看了球赛，累计观看次数超过2624万次。赛事期间，团队通过自研推出的端到端的流式语音识别系统，着力解决了世界杯较量场景中外国球员教练员的人名辨认等难题，为观众出现更佳的字幕成果，带来更好的观赛体验。在不久之前的国家语音及图像识别产品质量检验检测核心的权威检测中，火山语音还荣获了语音辨认加强级测验检测证书，在语音辨认的根本要求以及扩大要求上均已达AI国检核心的最高等级规范。长期以来，火山语音将打磨多年的AI语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎凋谢给内部企业，目前曾经笼罩多种语言和方言，涵盖音视频、有声浏览、语音交互、游戏、广告等泛滥行业利用场景，为抖音、剪映、飞书、番茄小说、Pico等外围业务提供了当先的AI语音能力利用与拓展。在3月20日-23日举办的NVIDIA GTC大会上，火山语音团队再次亮相，与会专家将基于音频了解技术带来独家干货分享，通过 NVIDIA 提供的推理 GPU（T4, A10, A30）详尽介绍音频了解如何做到推理减速，以及怎么广泛应用于抖音等大流量场景，更多语音技术详情点击理解：https://www.volcengine.com/pr... 线上观看请点击报名：https://www.nvidia.cn/gtc-glo... 对于NVIDIA GTC：这是一个面向寰球AI开发者的大会，3月秋季大会包含超过650场演讲、专家座谈会以及特地流动。寰球范畴的技术专家、开发者、钻研人员、创作者、IT决策者和企业首领将汇聚于此，理解AI、减速计算及其他畛域的突破性停顿。NVIDIA 创始人兼首席执行官黄仁勋将在本次GTC主题演讲中分享 NVIDIA 减速计算平台如何推动AI、元宇宙、云技术和可继续计算的下一波浪潮。

关于语音:兴业证券打造更自然的数字人火山语音提供技术支持

随着AI技术的一直成熟，越来越多金融机构将虚构数字人利用到业务场景中。虚构数字人可能突破时空限度、实现降本增效、进步服务体验，无望进一步助力金融机构数字化转型、晋升经营效率。以兴业小知为例，与此前诸多的虚构数字人不同，小知是兴业证券携手火山引擎打造的业内首款以自有员工为原型、集“播报+服务”于一体的全真数字分身。作为智慧主播，数智服务官小知将在优理宝App、兴业证券App以及兴业其余新媒体平台为用户解读股市行情、播报市场资讯。兴业证券首位数智服务官小知整体来看，小知不仅从形状上深度还原了兴业证券明星投顾的形象，更重要的是其口唇形、微表情与动作也都达到了较高的仿真度与天然度。作为火山引擎金融虚构数字人解决方案的技术提供方，火山语音通过应用行业当先的非自回归模型的唇形生成网络，合成与输出文本或语音齐全匹配的唇形，准确率高达98.55%；基于翻新的Motion Graph技术，数字人能够轻松做到毫秒级动作切换提早且天然无感知。值得一提的是，数智服务官小知在火山语音当先的端到端语音合成技术加持下，还具备开心、诧异、愤恨等丰盛的情感演绎能力，还可通过管制音色的重音、进展等，赋予多样的语气，实现笑声、哭腔等非语言景象建模能力，贴近真人的同时为用户提供更有温度的服务。能够说，小知是兴业证券在数智化转型的一次重要摸索和实际。据理解，在火山语音的“AI虚构员工解决方案”反对下，火山引擎已建设了包含2D、3D卡通和3D超写实在内的虚构数字人产品矩阵；从场景适配登程，包含“播报型数字人”和“交互型数字人”两种类型。其中播报型数字人，即输出文本或语音，就可生成天然活泼的数字人播报视频；交互数字人作为播报型数字人的状态降级，依靠于火山语音长期积攒的成熟语音交互技术，能够做到“善听”、“会说”、“能想”，与用户面对面实时交互。数字人产品矩阵交互数字人集成了全双工语音交互链路，前向兼容语音以及文本输出，后向兼容2D与3D数字人表现力，整体端到端交互提早在500ms左右，性能成果达到业内领先水平。多模态交互数字人技术环路目前该计划曾经具备规范平台的疾速交付能力，面向金融、大生产、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚构直播”等场景细分解决方案，为用户带来全新的互动服务和便捷体验。2022年6月，火山引擎虚拟人数字平台已取得信通院首批数字人零碎根底能力认证。在数字化浪潮之下，各行各业的虚构数字人“大战”已蓄势待发。此次兴业证券推出的虚构数字人便是打响了新年“第一枪”。在火山引擎等科技公司的加持下，让这场没有硝烟的“和平”变得更加精彩。面对这一片新蓝海，最终谁将怀才不遇，谁又将“笑到最初”，需等待时间测验。

关于语音:基于无监督预训练的语音识别技术落地实践-火山语音表示有话要说

始终以来，火山语音团队都为时下风靡的视频平台提供基于语音辨认技术的智能视频字幕解决方案，简略来说就是能够主动将视频中的语音和歌词转化成文字，来辅助视频创作的性能。但随同平台用户的快速增长以及对语言品种更加丰盛多样的要求，传统采纳有监督学习技术来解决的方法日渐遭逢瓶颈，这让团队着实犯了难。家喻户晓，传统的有监督学习会对人工标注的有监督数据产生重大依赖，尤其在大语种的继续优化以及小语种的冷启动方面。以中文普通话和英语这样的大语种为例，只管视频平台提供了短缺的业务场景语音数据，但有监督数据达到肯定规模之后，持续标注的ROI将非常低，必然须要技术人员思考如何无效利用百万小时级别的无标注数据，来进一步改善大语种语音辨认的成果。绝对小众的语言或者方言，因为资源、人力等起因，数据的标注老本昂扬。在标注数据极少的状况下（10小时量级），有监督训练的成果十分差，甚至可能无奈失常收敛；而洽购的数据往往和指标场景不匹配，无奈满足业务的须要。为此火山语音团队迫切需要钻研如何以尽可能低廉的标注老本充分利用大量的无标注数据，晋升大量标注数据下的辨认成果并落地到理论业务中，所以无监督预训练技术成为视频平台ASR（Automatic Speech Recognition / 主动语音辨认）能力向小语种推广的要害。只管近年来学术界在语音无监督预训练畛域获得了许多重大进展，包含Wav2vec2.0 [1]、HuBERT [2]等，但在工业界却鲜有落地案例能够参考借鉴。整体来看，火山语音团队认为，以下三方面次要起因，妨碍了无监督预训练技术的落地： 1.模型参数量大、推理开销大。大量无标注数据须要用较大的模型做无监督预训练，能力失去高质量的语音表征，但这样的模型如果间接部署到线上，会带来昂扬的推理老本。 2.无监督预训练只关注语音表征的学习，须要联合大量纯文本训练的语言模型联结解码能力达到现实成果，和端到端ASR推理引擎不兼容。 3.无监督预训练开销大、周期长且不稳固。以Wav2vec2.0为例，300M参数量的模型用64张V100 GPU预训练60万步，耗时长达半个月；此外因为数据分布的差别，在业务数据上训练容易发散。对此火山语音团队在基于无监督预训练的语音辨认技术落地过程中，针对以上三大痛点进行了算法改良和工程优化，造成一套残缺易推广的落地计划。本文将针对计划，从落地流程、算法优化以及工程优化等环节开展详尽介绍。落地流程下图是基于无监督预训练的低资源语种ASR的落地流程，大抵能够划分为数据收集、种子模型训练和模型迁徙三个阶段。图1 基于无监督预训练的ASR落地流程具体来说，第一阶段的数据收集，能够通过语种分流、洽购等伎俩收集目标语言的无标注语音、标注语音和纯文本数据。第二阶段的种子模型训练，也就是经典的“无监督预训练+有监督微调”过程。这一阶段将失去一个声学模型，通常基于连贯时序分类（Connectionist Temporal Classification, CTC [3]）损失函数微调。声学模型联合纯文本训练的语言模型，形成一个残缺的语音识别系统，能够获得不错的辨认成果。之所以称之为种子模型，是因为这个模型并不适宜间接上线到业务，咱们更偏向于应用LAS（Listen, Attend and Spell [4]）或RNN-T（Recurrent Neural Network Transducer [5]）这类端到端模型进行线上部署。归其起因，次要是LAS/RNN-T具备杰出的端到端建模能力，同时在近年来曾经获得了优于传统CTC模型的成果，并在工业界失去越来越多的利用。火山语音团队针对端到端语音辨认模型的推理和部署做了大量优化工作，已造成一套绝对成熟的计划，并反对泛滥业务。在维持成果无损的前提下，如果能够沿用端到端推理引擎，就能大幅升高引擎的运维老本。基于此团队设计了第三阶段，即模型迁徙阶段。次要借鉴常识蒸馏的思维，用种子模型对无标注数据打伪标签，而后提供一个参数量较小的LAS模型做训练，同步实现了模型构造的迁徙和推理计算量的压缩。整个流程的有效性在粤语ASR上失去验证，具体试验后果如下表所示：首先，团队洽购了1kh成品数据用于试验比照，间接训练LAS模型性能不佳，字错率（Character Error Rate, CER）高达44.2%。通过剖析，火山语音认为次要起因是洽购数据（对话）和业务测试集（视频）畛域不匹配，在wav2vec2.0上的初步试验也发现了相似的景象。相比用洽购数据做预训练，采纳和指标畛域统一的数据做预训练，在业务测试集上的CER能够从42.0%降落到29.4%，于是团队将业务场景的无标注数据积攒到50kh，模型参数量从100M减少到300M，CER进一步降落到23.1%。最初团队验证了模型迁徙的成果，联合粤语语言模型对50kh无标注数据解码失去伪标签，训练LAS模型。能够看到，基于伪标签训练的LAS模型根本能够放弃CTC种子模型的辨认成果且模型参数量减少了三分之一，能够间接基于成熟的端到端推理引擎部署上线。图2 模型参数量和CER比照最终在模型构造和参数量不变的前提下，团队用50kh无标注业务数据和10h有标注业务数据获得了23.0%的CER，绝对基线模型降落48%。解决了线上计算量和兼容性的问题之后，聚焦到整个流程中最为外围的无监督预训练技术，针对wav2vec2.0，火山语音团队别离从算法和工程两个维度进行了优化。算法优化 wav2vec2.0作为Meta AI在2020年提出来的自监督预训练模型，开启了语音无监督表征学习的新篇章。其核心思想在于用量化模块将输出特色离散化，并通过比照学习优化，模型主体与BERT相似，随机mask局部输出特色。图3 wav2vec2.0模型构造示意图（起源：wav2vec 2.0 Figure 1 [1]）对此在业务数据上训练wav2vec 2.0模型遇到了两个辣手的问题：一个是训练效率低，300M的大模型64卡须要十几天能力训完；另一个是训练不稳固，容易发散。为此团队提出Efficient wav2vec以缓解上述两个问题：对于训练效率低的问题，团队通过升高模型的帧率来放慢训练速度，将输出特色从waveform替换成filterbanks，帧率由原来的20ms变成40ms。这样既大幅升高了特征提取卷积的计算量，同时也大幅升高了Transformer外部编码的长度，从而进步训练效率。对于训练不稳固的问题，则是通过剖析无监督预训练的学习形式并联合业务数据理论状况综合判断解决，比照学习损失能够用下式表白：对于每一帧t，Ct示意该帧的编码器输入，qt示意该帧的量化输入。除此之外，还须要采样若干其它帧作为负样本，从而以后帧与负样本帧的汇合就相当于是动静结构的词表Qt。为了解决上述两个问题，火山语音对应提出了两点改良： 1.等长数据流：预训练过程中将整个训练集视为由每句话首尾拼接而成的一段音频，每个训练样本从中截取固定长度失去，这样做是为了保障负样本数量足够多，且上下文编码网络外部的长度在不同帧率下统一，进而保障训练的稳健性。 2.自适应间断mask：为缓解数据乐音对训练的影响，选取较小的mask长度且强制每个mask区域间断，并且mask区域对应的音频长度在不同帧率下相当。这样既加重了乐音数据下比照学习的难度，同时也做到了适配不同的帧率。在业务数据上比照了wav2vec2.0(w2v)与 Efficient wav2vec (w2v-e)的成果，如下表所示(所有模型均采纳64 V100 GPUs训练)：能够看到改良过的Efficient wav2vec绝对原始wav2vec 2.0有稳固5%的性能晋升，并且训练效率靠近翻倍。工程优化只管团队提出的Efficient wav2vec曾经从算法层面将训练效率晋升近两倍，但因为300M模型通信量大，训练通信仍然存在稳定且多机扩大效率低。对此火山语音团队总结道：“为了进步模型预训练在同步梯度场景下的通信效率，咱们基于BytePS的分布式训练框架，在通信后端实现了Bucket分组通信优化技术，数据并行效率能获得10%的晋升；同时针对模型参数定义程序与梯度更新程序不同造成的期待问题，还实现了自适应的参数重排（Parameter Reorder）策略。”在这些优化根底上，进一步联合梯度累加等技术，300M模型的单卡扩大效率由55.42%晋升至81.83%，多机扩大效率由60.54%晋升至91.13%，原来须要6.5天训完的模型当初只须要4天就能够训完，耗时缩短40%。 ...

关于语音:火山语音7篇论文入选国际顶会Interspeech

日前，火山语音团队七篇论文胜利入选国内顶会Interspeech2022，内容涵盖音频合成、音频了解等多个技术方向的翻新冲破。Interspeech作为国内语音通信协会ISCA组织的语音钻研畛域的顶级会议之一，也被称为寰球最大的综合性语音信号处理盛会，在世界范畴内享有极高名誉，并受到寰球各地语言畛域人士的宽泛关注。上面咱们就入选论文进行全面解读，一起理解火山语音技术的重要停顿吧！音频合成方向——●针对语音合成有声书的自动化配乐零碎An Automatic Soundtracking System for Text-to-Speech Audiobooks 通常在有声小说中，合适的背景音乐能够大幅晋升听感，加强用户的沉迷式体验。该论文独创性提出了基于篇章级情节了解的有声小说配乐零碎，可能自动化地筛选并组合出贴合文章情节、衬托感情气氛的背景音乐，同时与语音合成的有声小说音频进行精准的工夫戳对齐和混音，极大节俭了前期配乐的人力投入。具体来说该零碎能够分为情节划分(Plot Partition)、情节分类(Plot Classification) 和音乐抉择(Novel Selection) 三个局部。前两局部次要通过NLP技术实现了篇章级语意了解，可能主动将小说文本进行片段式的情节划分，做到预测多达十二类的情节；第三局部则实现了基于语意及小说音频长度的启发式规定，自动化地从音乐库中抉择适合的音乐片段并与小说音频进行主动混音。该零碎在与人工配乐的比照试验中，目前的合格率已追平人工程度（均为88.75%）；优秀率也高达45%，但比照人工 52.5%的数据指标还略有差距。有声小说自动化配乐零碎框架在语音合成有声小说的场景和业务中，自动化精配背景音乐的退出不仅可能大幅度晋升用户的听觉感触和代入感，还极大升高了音频前期的人力投入老本。目前，自动化精配背景音乐曾经在番茄小说等业务中开始利用。 ●一种借助声学参考特色和比照学习的高品质歌唱转换方法TOWARDS HIGH-FIDELITY SINGING VOICE CONVERSION WITH ACOUSTIC REFERENCE AND CONTRASTIVE PREDICTIVE CODING 近年来随同语音后验概率（Phonetic PosteriorGrams，PPG）特色的宽泛应用，语音转换成果获得了显著晋升，但PPG特色在声学信息上的缺失导致了在格调和天然度方面的转换成果并不尽如人意，尤其对于「歌唱」这种对声学表现力极高要求的场景。基于上述考量，本篇论文在端到端歌唱转换模型的根底上，一方面尝试应用了梅尔谱、无监督声学表征和语音辨认模型中间层表征等多种附加特色来补足歌唱转换模型对声学信息的需要，同时确保音色成果不受影响，最终通过比照明确了无监督声学表征的成果劣势。另一方面，针对转换模型的编码器输入后果，团队抉择减少一个比照预测编码（Contrastive Predictive Coding，CPC）模块以进步编码后果的连贯性，加强模型对声学信息的建模能力。通过与根底模型的主观评测比照，团队提出的优化计划取得了显著收益，主观评测MOS分晋升了0.18；同时该办法也被证实能够晋升语音音色的歌唱能力，音准主观指标晋升了6%，达到较好的跨域转换成果。联合附加声学特色和CPC模块的歌唱转换零碎框架现在语音转换和歌唱转换已在视频和歌曲创作方面有相干的利用，而论文提出的办法能够进一步晋升直播场景以及视频创作中的语音转换和歌唱转换的天然度，晋升用户体验的同时升高创作门槛。音频了解方向——●联合对话上下文的流式 RNN-T 语音辨认Bring dialogue-context into RNN-T for streaming ASR 日常生活中，人们说出的语音内容通常与所处的上下文（context）相干，而在对话工作中，凭借历史轮次的对话文本所蕴含的与以后句无关的信息，能够晋升语音辨认成果。基于此，该论文提出将对话历史作为 context 输出到流式RNN-T模型中，总结出几种不同的引入对话历史的办法和训练策略，最终取得了比单句 ASR 晋升5%+的辨认成果。（a）根底 RNN-T 构造（b）引入对话历史到 predictor 的构造（c）引入对话历史到 encoder 的构造首先针对 RNN-T的构造特点，论文提出将对话历史更早地引入到 RNN-T 的 predictor（上图(b)）和 encoder（上图(c)），从而能够更充沛地将对话历史信息融入到 RNN-T 模型中。其次论文提出了两种训练策略：有/无对话历史输出模型的联结训练（joint training）和对话历史增加随机扰动（context perturbation）。Joint training 策略升高了模型在对话历史缺失状况下的性能损失，而 context perturbation 则解决了对话历史含有的辨认谬误对 context-aware ASR 模型的烦扰。最初论文通过在神经网络语言模型（neural network language model，NNLM）中引入对话历史，来取得更好的语言模型，并用于 beam-search 解码，进一步晋升辨认成果。 ...

关于语音:Android实现仿微信实时语音对讲功能｜与女友游戏开黑

与亲朋好友一起玩在线游戏，如果游戏中有实时语音对讲能力就能够拉进玩家之间的间隔，增加更多乐趣。咱们以经典的中国象棋为例，开发在线语音对讲象棋。本文次要波及如下几个点：在线游戏的规定，本文以中国象棋为例。借助Zego 音视频 SDK的实时音讯能力，实现在线游戏实时数据传输。借助Zego 音视频 SDK的语音能力，实现在线语音。留神：尽管本文以中国象棋为例，但其余在线小游戏同样能够套用，只是游戏规则不一样而已。实时语音对讲最终成果如下： 1 中国象棋游戏规则对于中国象棋的游戏规则，我这里做个简略的介绍。车：只能走直线。马：只能按日字对角走，如果往对角方向的长边有棋子，则不能走。象：只能按田字对角走，且不能过河。如果田字正核心有棋子，则不能走。仕：只能在九宫对角线上走。帅：只能在九宫外面走，须要留神，单方帅如果在同一条直线上两头必须有棋子，否则不容许在同一条直线。跑：如果不吃子，则跟车一样的规定。如果吃子，则须要被吃的子与跑之间有一个棋子。兵：没过河时只能后退。过河后，能够左右和后退，但不能后腿。在玩家每一次下棋时，首先须要验证指标地位是否是无效地位，即是否合乎游戏规则： // 判断是否能够挪动public static boolean canMove(Chessboard chessboard, int fromX, int fromY, int toX, int toY) { //不能原地走 if (fromX == toX && fromY == toY) return false; Chess chess = chessboard.board[fromY][fromX]; // 首先，确保指标地位不是本人的子 Chess[][] board = chessboard.board; if (board[toY][toX] != null && board[toY][toX].isRed() == chessboard.isRed) { return false; } switch (chess.type) { case RED_SHUAI: case BLACK_SHUAI: return canShuaiMove(chessboard, fromX, fromY, toX, toY); case RED_SHI: case BLACK_SHI: return canShiMove(chessboard, fromX, fromY, toX, toY); case RED_XIANG: case BLACK_XIANG: return canXiangMove(chessboard, fromX, fromY, toX, toY); case RED_MA: case BLACK_MA: return canMaMove(chessboard, fromX, fromY, toX, toY); case RED_CHE: case BLACK_CHE: return canCheMove(chessboard, fromX, fromY, toX, toY); case RED_PAO: case BLACK_PAO: return canPaoMove(chessboard, fromX, fromY, toX, toY); case RED_ZU: case BLACK_ZU: return canZuMove(chessboard, fromX, fromY, toX, toY); } return true;}如果是合乎规定的行走，再间接将指标地位的棋子移除（必须先判断有棋子且是对方棋子才行）。游戏能够始终这样继续上来，直到有一方的帅被吃掉, 游戏完结。 ...

关于语音:跨平台Android和IOS百度语音在线识别原生插件

一、插件举荐跨平台Office文档、图片在线预览，视频播放原生插件Android和IOS图片在线预览，视频播放原生插件跨平台Android和IOS百度OCR文字辨认、证卡辨认、票据辨认原生插件二、筹备工作1. Android、IOS端证书筹备工作Android端：生成Android打包keystore证书文件及获取MD5（十分重要），参考文档：Android平台签名证书(.keystore)生成指南 - DCloud问答IOS端：Windows零碎下申请IOS证书、Mac零碎下申请IOS证书2. 百度材料筹备进入百度AI开放平台点击右上角控制台登录，若无账号，请先注册账号登录后，若没有实名认证，请先实名认证，举荐企业实名认证（可应用性能更多）抉择语音技术 —》创立利用获取API Key、Secret Key以及License文件百度语音辨认接口免费详情，请在百度控制台—》概述查看，或者间接查看产品定价文档三、疾速上手Step1：下载本插件示例我的项目，或者下载GitHub - silianpan/Seal-UniPlugin-DemoStep2：关上manifest.json—》根底配置—》从新获取DCloud AppIDStep3：点击试用Step4：关上manifest.json—》App原生插件配置—》抉择云端插件 Step5：制作自定义调试基座：在HBuilderX菜单中点击运行—》运行到手机或模拟器—》制作自定义调试基座，填写步骤及注意事项如下图附：debug.keystore下载链接，仅仅用作测试 Keystore name: “debug.keystore” Keystore password: “android” Key alias: “AndroidDebugKey” Key password: “android” md5：A5:61:77:2E:AA:63:15:18:47:D6:5B:EC:6A:FA:F4:0A Step6：抉择自定义调试基座：点击运行—》运行到手机或模拟器—》基座运行抉择—》自定义调试基座Step7：调试运行：点击运行—》运行到手机或模拟器—》运行到Android App基座四、接口使用手册插件办法一：recogOnlineStart，开始在线辨认办法参数参数类型默认值是否必填阐明appIdstringnull否百度AI开放平台控制台利用AppIDappKeystringnull否百度AI开放平台控制台利用Api KeyappSecretstringnull否百度AI开放平台控制台利用Secret Keypidintnull否PID，语种，具体阐明如下lmIdintnull否自训练平台ID，请选PID=8002失效enableLongSpeechboolfalse否长语音，优先级高于vad_endpoint_timeoutvadEndpointTimeoutintnull否VAD时长设置，长语音抉择0vadstringdnn否VAD是否开启，dnn，默认，举荐模型；touch，敞开静音断句性能，用户手动进行录音。infilestringnull否内部音频，能够是：资源门路或回调办法名该参数反对设置为： a. pcm文件，零碎门路，如：/sdcard/test/test.pcm；音频pcm文件不超过3分钟 b. pcm文件, JAVA资源门路，如：res:///com/baidu.test/16k_test.pcm；音频pcm文件不超过3分钟 c. InputStream数据流，#办法全名的字符串，格局如：”#com.test.Factory.create16KInputStream()”（解释：Factory类中存在一个返回InputStream的办法create16kInputStream()），留神：必须以井号开始；办法原型必须为：public static InputStream create16KInputStream()。超过3分钟的录音文件，请在每次read中sleep，防止SDK外部缓冲不够。multiInvokebooltrue否是否放弃屡次语音辨认后果回调checkPermRecordAudiobooltrue否是否开启查看录音权限isFinishboolfalse否是否完结辨认PID，语种具体阐明在线参数，请依据语言，输入法模型及是否须要在线语义，来抉择PID。语言：目前反对中文普通话，四川话，粤语，和英语四个输入法模型：实用于较长的句子输出。默认有标点，不反对在线语义; 开启标点后，不反对本地语义。自训练平台模型：在输入法模型的根底上，能够自行上传词库和句库，生成您本人的训练模型。在线语义：在线语义只反对普通话（本地语义也是只反对普通话）。在线语义对辨认后果的文字，再做结构化解析，找到语句的“关键词”。在线语义具体阐明请查看“语义了解协定”文档。Unit 2.0 语义：性能相似在线语义，然而能够自定义解析。补充：PID=8001，自训练平台输入法模型；PID=8002，自训练平台搜寻模型。代码示例 sealVoiceASRModule.recogOnlineStart( { // appId: '', // appKey: '', // appSecret: '', enableLongSpeech: true }, ret => { const resultCode = ret.code; console.log('resultCode', resultCode); if (resultCode === 1000) { modal.toast({ message: `正在在线辨认，开始标识：${resultCode}`, duration: 3 }); this.recogOnlineBtn = '正在在线辨认...'; } else if (resultCode === 1001) { this.recogText += JSON.parse(ret.result).result + ' ' // uni.showModal({ // content: `获取在线辨认后果（${resultCode}）：` + ret.result // }); // modal.toast({ // message: '获取在线辨认后果：' + ret.result, // duration: 3 // }) } });接口返回格局 ...

关于语音:方便好用的语音通知API

语音告诉，就是通过零碎发动电话直呼并播放告诉内容。反对动态和动静语音，可自定义告诉内容。明天就和大家分享一下近期发现的一个语音告诉API，我是在 APISpace 这个接口服务平台发现的，它外面有各种类型的API，并且所有的API都能够收费的试用，举荐有须要的同学能够去下面看看~ 官网地址：https://www.apispace.com/?utm_source=sf&utm_term=yuyintongzhi 语音告诉利用场景会议告诉：会议邻近，告诉与会人员按时参会，防止脱漏重要会议。快递群发：快递员可一键向多个用户发动快递送达告诉，大大缩短等待时间，进步送件效率。还款揭示：最迟还款期前，以语音告诉形式及时告诉到借款人，防止用户忘记、逾期造成损失。订单告诉：用户下单后，以语音告诉的形式拨打到商家指定的手机或者固话上。事件揭示：紧急安全事件预警，确保市民大众第一工夫获取重要信息。接口详情接口简介：API语音，拨打电话告知用户短信内容，实现语音告诉。申请形式：POST申请格局：FORMDATA申请参数：语音告诉批量语音告诉返回示例 { message: "申请胜利", data: { callId: "YYTZ674990835598622720" }, code: "200000"}

关于语音:如何解决-Iterative-半监督训练-在-ASR-训练中难以落地的问题丨RTC-Dev-Meetup

前言「语音解决」是实时互动畛域中十分重要的一个场景，在声网发动的「RTC Dev Meetup丨语音解决在实时互动畛域的技术实际和利用」流动中，来自微软亚洲研究院、声网、数美科技的技术专家，围绕该话题进行了相干分享。本文基于数美科技 NLP 技术负责人李田在流动中分享内容整顿。关注公众号「声网开发者」，回复关键词「DM0428」即可下载流动相干 PPT 材料。 01 半监督训练在 ASR 畛域的必要性通用 ASR 的字准确率尽管曾经十分高，然而在面向具体的场景（游戏场景、私聊场景、群聊场景、主播场景）时，还是存在场景不匹配的问题，因为通用的 ASR 在这些畛域中的利用绝对比拟艰难，次要存在以下问题。 1、标注资源的稀缺性对应场景的标注很难获取，通常状况下无奈疾速取得业务场景须要的大量标注样本。即便样本的获取很简略，但获取标注样本仍是十分艰难的事件，因为标注老本十分高。在创立我的项目或者确定产品方向的时候，会发现波及畛域的 ASR 工作时要先解决数据问题。以前应用音素和文字拆分的时候，数据量要求比拟小，而当初常应用端到端的技术，动辄 1000 个小时起步的数据量，不论是自行标注还是借助比拟出名的数据公司，在产品还没开始的状况下，其费用都是很难承受的。 2、标注品质的不稳固在唤醒、Siri 交互等场景中，用户晓得后端会进行转录，但大部分业务场景中人对于 ASR 转录是无感知的。比方在与 Siri 沟通的时候，如果 Siri 没听分明谈话人表白的意思，那么人会进行二次尝试，使表白更加分明即可。然而实在的业务层面，大部分状况下客户并不知道后端在对其进行 ASR 转录，比方直播平台。其中可能会提供审核层面的需要，此时不可能告诉主播声音在被转录，咬字须要更分明一些。吐字不清晰以及句法成分破碎带来的标注品质是十分不稳固的。那么在标注的时候怎么解决这些问题呢？对数美业务而言，因为笼罩整个互联网中大量的相似社交场景，面临着各式各样形形色色的数据和特定术语等，因而对这类标注的获取难度十分大，同时标注品质也很难保障，但同源数据又能够轻易取得场景的数据，咱们认为半监督计划是一个当仁不让的现实抉择。如果已经接触过 NLP 或者 CV，置信你对半监督会有比拟明确的定义。在 ASR 这个畛域，尤其基于端到端，目前一般来说分为两种：Self-training 和 Pre-training，其余不太常见，或者目前来看不能在 ASR 畛域取得比拟好的落地。 Self-training 体系次要围绕大家熟知的 Pseudo labeling。外围计划次要基于 consistency regularization 逻辑。实践上来说，Pseudo label 其实是 true label 的一种乐音，在模型训练的时候，将 Pseudo label 和 true label 放在一起进行训练，这自身是训练抗噪的过程，能够使模型逐渐学习。Pre-training 非常简单。如果做 NLP 出身就会比拟理解，原先是在对应畛域中训练对应畛域更适合的表征。这种工作个别围绕的是表征的意义或者内容的重构，不须要额定的标签，这些数据能够构建无标签/无人工转录文字的 Pre-training 的训练任务，再应用对应场景的有人工转录数据进行 ASR 工作训练。 ...

关于语音:FastCorrect语音识别快速纠错模型丨RTC-Dev-Meetup

前言「语音解决」是实时互动畛域中十分重要的一个场景，在声网发动的「RTC Dev Meetup丨语音解决在实时互动畛域的技术实际和利用」流动中，来自百度、寰宇科技和依图的技术专家，围绕该话题进行了相干分享。本文基于微软亚洲研究院主管研究员谭旭在流动中分享内容整顿。关注公众号「声网开发者」，回复关键词「DM0428」即可下载流动相干 PPT 材料。语音辨认纠错通过检测并纠正语音辨认后果中存在的谬误，进一步晋升辨认准确率。目前，大部分纠错模型采纳了基于注意力机制的自回归构造，提早较高，影响模型线上部署。本文将介绍一种低提早、高精度的纠错模型 FastCorrect，通过利用编辑对齐以及多个候选后果，在获得 10% 的词错误率降落的同时，将模型减速 6-9 倍，相干钻研论文已被 NeurIPS 2021 和 EMNLP 2021 收录。 01 背景材料1、ASR（Automatic Speech Recognition 主动语音辨认）语音辨认的准确率是影响语音辨认广泛应用的最关键因素，如何升高语音辨认在辨认过程中的错误率对 ASR 来说十分重要。晋升语音辨认的精度、升高错误率存在很多不同的路径，传统形式是晋升语音辨认的外围模型。在以往的钻研过程中，次要关注点在于如何改良语音辨认的训练模型建典范式以及训练数据等。其实，除了晋升语音辨认模型自身的准确率，还能够对语音辨认的辨认后果进行后处理，进一步升高辨认错误率。 2、ASR 后处理在语音辨认后处理场景下能够进行哪些操作呢？首先是 reranking，也就是重排序，通常在语音辨认生成文字的时候会生成多个候选，咱们能够通过对模型进行排序，从多个候选中抉择较好的后果作为最终的辨认后果以晋升准确率。第二种办法是对语音辨认的后果进行谬误纠正，这样能进一步升高错误率。这两种办法都是语音辨认后处理的可选办法，也是当初大家宽泛采纳的升高错误率的方法，而明天的分享次要聚焦于纠错伎俩。 3、为什么抉择纠错抉择纠错伎俩的起因是，咱们认为纠错是基于已有的语音辨认的后果进行改过，能产生更好的语音辨认后果。而 reranking 是从已有的语音辨认返回的后果中产生一个较好的候选，如果纠错成果足够好，则会比 reranking 更有劣势。 02 ASR 纠错工作的模式上文介绍了技术计划选型，为什么要抉择纠错伎俩。接下来定义 ASR 纠错工作（error correction）的模式。首先给定一个训练数据汇合（S,T），其中 S 代表语音辨认的输出语音，T 是对应的文本标注。而后 ASR 模型会将语音辨认成文本，最终失去 M(S)。M(S) 和 T 两个数据配对组成了一个训练集，error correction 模型次要是在这个训练集中训练。训练实现当前，咱们给定 ASR 辨认的后果，也就是 M(S)，返回正确后果。 Error correction 模型的工作是典型的序列到序列学习工作，输出是一个语音辨认生成的后果，而输入是纠错当前的正确后果。既然是序列到序列的模型，以前的工作会很天然地将其当成一个序列建模的工作，通过 encoder- attention-decoder 自回归解码的形式进行纠错，输出是谬误的句子，输入是正确的句子。在解码的过程当中采纳自回归形式，比方生成 A，而后生成下一个词 B，再顺次生成 C 和 D。这种形式存在一个问题，就是解码速度会比较慢。咱们进行过实测，比方线上的 ASR 模型在 CPU 上的均匀 latency 是 500 毫秒，如果再加一个自回归的纠错模型，则会带来额定的 660 毫秒的时延，使线上辨认速度升高两倍以上，如图 1 所示。 ...

关于语音:黄硕百度飞桨文心大模型在语音文本审核中的应用

实时互动作为下一代根底技术能力，正在撑持并推动着人、物及空间之间翻新的沟通和交互方式。语音解决是实时互动畛域中十分重要的一个场景，在「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用」流动中，来自百度、寰宇科技和依图的技术专家，围绕该话题进行了相干分享。本文基于百度自然语言解决部架构师黄硕在流动中分享内容整顿。关注公众号「声网开发者」，回复关键词「DM0428」即可下载流动相干 PPT 材料。百度飞桨文心大模型在语音文本审核中的利用黄硕百度自然语言解决部架构师深度学习预训练大模型最近几年倒退迅速，颠覆了很多以往应用传统机器学习技术解决的畛域。得益于大模型技术在百度的倒退，语音文本审核这项互联网传统业务在技术上也有了较大的倒退。本文将在大模型绝对传统模型的整体成果、通用性、个性化需要适配以及服务性能上进行介绍和开展，心愿让大家理解大模型的劣势，以及审核技术最新的一些发展趋势和业务利用成果。 01 百度飞桨文心大模型的倒退1、业界大规模与训练模型的历史2018 年，Google 推出 BERT 预训练大模型之后，自然语言解决畛域的很多传统做法被彻底改变。在此之前，如果想让机器了解人类的语言，往往要解决一系列语言学问题，比方，中文畛域最根底的切词、词性标注、实体辨认、外围词的抽取，甚至简单句子中词语的依存关系，能力让计算机精确了解一句话中的逻辑关系，从而进行搜寻、相关度计算或者举荐等实现工作。而 BERT 这一类针对文本的大规模预训练模型被提出之后，GPT、T5，以及百度的 ERNIE 等大模型底座相继推出，使得咱们在了解语言文本的相干工作时，能够疾速地基于大规模的预训练模型底座，利用其对语言的了解，间接在下层搭建要解决的工作即可。如图 1 所示，在 2014 年左右，业界就曾经有了相似 word2vec 的词向量的实际，百度的网页搜寻、语义计算排序的大降级也是在 2014 年左右进行进行了全流量上线，这些技术在过后优雅地解决了搜寻排序时关键词不齐全匹配的问题，通过这些技术，计算机也能够了解词语背地的语义，不过在成果和泛化性上不迭起初联合 Attention 以及 Transformer 等网络结构的预训练模型。 ■图 1 2、深度学习技术框架在百度的倒退方才提到，对于语义向量的计算，百度在 2013 年左右就曾经开始了相干实际。图 2 的时间轴展示了百度深度学习技术的倒退历程。在 2012 年左右，百度就曾经开始在语音辨认和 OCR 畛域研发深度学习相干的技术，而深度学习在搜寻上的利用也在 2013 年左右实现上线。同时，百度还自主研发了 PaddlePaddle，也就是飞桨深度学习框架。深度学习技术在图像、文本、语音、搜寻举荐以及主动驾驶等各个百度的次要业务上都实现了大规模的利用。 ■图 2 3、百度飞桨文心与训练模型近几年的倒退状况百度在 2019 年推出了飞桨文心大规模预训练模型，明天会围绕咱们应用文心大模型在审核技术方面所尝试的各种利用形式来进行技术分享。在最近两三年间咱们陆续公布了 2.0、3.0 以及各种不同畛域、不同语言、不同规模的文心大模型版本。图 3 展现了文心大模型的家族。文心大模型的家族从下向上分为几层，其实不仅是飞桨文心大模型，业界相似的大模型大多数也是如此。文心大模型有不同粒度的版本，也有针对不同工作类型进行优化的版本。比方，针对语言生成的模型和用于信息抽取的模型，模型底座对应不同工作会有成果差别。再下层，两头是一层畛域模型，基于不同的畛域，大模型技术会利用不同的预训练语料打造不同的成果，所以在不同的畛域中，成果也会有所不同。再上一层是比方跨模态、跨语言这种，也就是说，除了文本以外，还能够交融语音、图像、文档等不同的信息模态，实现一个更多层次的预训练模型。最顶层代表不同偏向的预训练大模型的利用，其在搜寻、举荐、语音、文档、客服等各个业务上都失去了利用验证。 ■图 3 文心大规模的预训练模型语音文本审核业务上能起到什么作用呢？对于这一点我将会从多个不同的方面来进行分享，包含大模型作为模型底座的成果是怎么样的？针对大模型的性能问题，利用蒸馏技术能起到什么样的作用？大模型对于数据样本加强会起到什么样的作用？在不同用户的个性化需要方面，大模型的作用是什么？大模型能够如何优化传统审核业务中的匹配规定策略？ 02 文心大模型在语音文本审核中的利用1、审核业务特点(1) 文本审核与语音审核背景介绍文档审核是语音审核的一个根底，内容审核在业界大抵划分为涉黄、涉政、广告暴恐、唾骂等类，各类在数据层面的细分中具备不同的审核指标。而这些不同的数据起源对于审核技术来说，难度是不一样的。比方，在新闻网站上公布的文章，其内容、用词会绝对规整；而用户评论或论坛发帖等文本，在用词和句式方面就会绝对随便。对应到审核的需要，每一类下的细分内容也会有不同的需要，对应的技术方面，词库联合模型的语义判断是最常见的做法。 ...

关于语音:恒源云语音识别与语义处理领域之机器翻译-217-mRASP2

文章起源 | 恒源云社区（一个专一 AI 行业的共享算力平台恒源智享云) 原文地址 | [[机器翻译] 21.7 mRASP2](https://bbs.gpushare.com/topi...) 原文作者 | 角灰 Contrastive Learning for Many-to-many Multilingual Neural Machine Translationgithub: 摘要：现有的多语言模型聚焦于英语为核心的翻译，而非英语的方向远远落后。本文旨在一个多对多翻译零碎，重点是非英语语言方向的品质。基于这样一个假如:通用的跨语言示意会导致更好的多语言翻译性能。为此提出了一种训练方法mRASP2，以取得繁多对立的多语言翻译模型。mRASP2的外围在于如下两点：通过比照学习拉近多语言示意对齐语义空间同时应用平行和单语语料进行对齐加强论断：比照学习的确能晋升零资源翻译应用单语数据，所有翻译方向上都获得了实质性的改良。剖析并可视化了本文办法，比照学习的确可能拉近不同语言语义的表征将来打算应用更大数据集训练模型PC150办法：1.损失函数损失为穿插熵Lce和比照损失Lctr的加权和,|s|是均匀句子长度，因为Lce是词级别的，而Lctr是序列级别的，两者有比例关系，因而要乘上均匀句子长度。xi,xj是平行语料。Lce计算惯例decoder输入和label的穿插熵，旨在让解码器输入散布与实在散布统一。而比照损失Lctr为了拉近语义空间中跨语言同义词的表征间隔，并且拉远非同义词表征的间隔。具体为：以某个样本点的源端向量示意为锚点，以该样本指标端的向量表征为正样本（过encoder），以同一个batch中其余样本点的指标端句子向量示意为负样本，最小化锚点和正样本的间隔，最大化锚点和所以负样本的间隔。[ 其中间隔应用的是余弦间隔，分子是锚点和正例的间隔，分母是所有负例和锚点的间隔和，通过最小化Lctr就能达到拉近同义词表征、拉远非同义词表征的目标。引入比照学习，能够在不升高其余翻译方向的根底上，进步零资源翻译的性能。 2.对齐加强其中间隔应用的是余弦间隔，分子是锚点和正例的间隔，分母是所有负例和锚点的间隔和，通过最小化Lctr就能达到拉近同义词表征、拉远非同义词表征的目标。试验后果相比多语言基线模型m-Transformer，mRASP2在表中的10个方向上都有显著的晋升。在无监督翻译（至多一端的语料在预训练时呈现过）上均匀超过了基线十多点。即便是在零资源翻译（非英语对翻译）上性能也很卓越，和桥接模型差不多（pivot）。可视化剖析应用T-SNE对英、日、德三种语言同义句的语义空间表征降维后可视化，发现应用mRASP（b）比基线transformer更好的拉近了多语言同义句的语义表征。集体总结比照学习yyds，接下来筹备找代码试试。

关于语音:AI为啥能读懂说话人的情感

摘要：本文介绍了语音情感辨认畛域的倒退现状，挑战，重点介绍了解决标注数据不足的问题。本文分享自华为云社区《语音情感辨认的利用和挑战》，作者：SSIL_SZT_ZS。情感在人与人的交换中扮演者重要的角色。情感辨认具备极大的利用价值，胜利的检测人的情感状态对于社交机器人、医疗、教育品质评估和一些其余的人机交互零碎都有着重要意义。本文的要点有： 1、情感辨认的基础知识和利用场景。2、语音情感辨认技术的介绍以及面临的挑战。3、如何解决数据不足问题，咱们的计划是什么。 1.什么是情感辨认？情感是人对外部事件或对话流动的态度。人的情感个别分为：快乐、怄气、悲伤、恐怖和惊喜等。机器对采集的信号进行剖析，从而失去人的情感状态，这一过程就是情感辨认。通常，能用来进行情绪辨认的信号包含两个方面，一个是生理信号如呼吸、心率和体温，另一个是行为表现包含面部表情、语音和姿势等等。人脸与语音得益于简略的采集形式，常常被用来辨认对象的情感。情感辨认能帮忙零碎理解对象的情感状态以及其对某个话题或事务的态度。在人工智能（AI）产品和人的交互过程中，如果可能精确地把握人以后的情感状态，依据情感状态做出回应，能够极大地晋升用户对AI产品的体验。这在商品举荐，舆论监控，人机对话等方面都有着重要的意义。例如，在销售过程中，理解用户对商品的满意度，能够帮忙平台制订更好的销售策略；在影视行业，理解观众对节目的喜怒哀乐，能帮忙制订更精彩的剧情以及安顿特定节目的上线工夫；在人机对话中，把握人的情感状态能够帮忙智能机器人做出失当的回复，并适时地表白安抚和体谅，晋升用户体验；在舆论方面，行政部门通过理解大众对热门事件的情感偏向、把握舆论导向，从而更及时无效的进行舆情监控，为制订政策提供反对。情感辨认还能利用于许多事实的场景中。情感辨认算法具备很高的钻研价值。思考到采集难度、隐衷等因素，本文的工作聚焦于应用语音来辨认谈话人情感的语音情感辨认（SpeechEmotionRecognition,SER）工作。 2.语音情感辨认技术介绍语音是日常生活中交换的次要媒介，它不仅传播了思维，还表白了谈话人的情感状态。语音情感辨认的指标是从语音中辨认出人类的情感状态。其次要蕴含两个步骤：特征提取与分类器构建。音频信号输出是近似间断的数值。提取音频特色通常首先对音频进行分帧，加窗，进行短时傅里叶变换（STFT）。而后失去了维度为T\timesDT×D的频谱特色，其中TT示意帧数与工夫长度相干，DD是特色维度，每个维度对应不同的频率。有一些工作也会对此频谱进行一些mel滤波操作。频谱特色蕴含丰盛的信息，比方谈话内容、节奏、语气、语调等等。与情感相干的语音特征提取依然是一个尚未成熟钻研方向。深度学习的呈现简化了人工特色提出过程，应用数据驱动的办法，利用情感标签作为监督信号来训练深度模型提取与情感相干的隐含语义特色。因为音频输出的序列化特点，深度特征提取通常也有基于CNN/GRU/LSTM办法，或者基于CRNN或CNN+Attention的办法。传统的机器学习办法能够基于人工语音特色或者深度语音特色构建分类器，例如高斯混合模型（GMM），隐马尔科夫模型（HMM）,反对向量机（SVM）等经典办法。此外，得益于深度学习的倒退，基于神经网络的分类器能够与深度特征提取器一起端到端（end-to-end）训练，失去情感分类器。 3.语音情感辨认面临的挑战咱们后面介绍了语音情感剖析中罕用的办法，但语音情感辨认在理论中也面临着一些挑战：情感主观性与模糊性问题：语音情感辨认是一个比拟年老的畛域，在情感定义上不足官网规范。不同听者对同一段语音的情感可能有不同的观点。此外，一段语音往往有情感变动，主观性较强，导致许多钻研工作没有普适性。情感特征提取和抉择问题：语音谈话人各种各样，情感类别多变，语音片段长短不一等，这些问题导致人工设计特色无奈涵盖全副情感信息。另一方面，深度特色尽管成果好，但不具备可解释性。标注数据不足问题：深度学习办法获得很好的性能要求大量的高质量的标注数据。因为情感的主观性与模糊性，标注语音情感十分费时费力，同时要求大量业余人员。收集大量情感标注数据，是语音情感辨认畛域亟需解决的问题。4.如何解决数据不足的问题？数据是深度学习的驱动力，大规模高质量的数据是深度学习取得成功的要害。然而，在很多理论问题中，因为标注代价问题，只存在大量的标注数据，这重大限度深度学习办法的倒退。随着互联网社交平台的倒退，每天都回生产大量的多媒体数据，大规模无标注的数据很容易取得。这就促成了能同时应用标注数据和无标注数据的半监督学习（Semi-SupervisedLearning）办法的倒退。另一方面，多媒体数据通常状况下都蕴含多个模态，因而也有一些工作摸索利用一个模态的标注常识去增强在另一个模态上的工作的成果。上面介绍这两种办法。 4.1半监督学习半监督学习个别有两个数据集，一个小规模的有标注数据集，一个大规模的无标注数据集。其目标是利用无标注数据来加强，监督学习的成果。经典半监督学习办法蕴含很多类别，例如self-training(自训练算法)，generativemodels（生成模型），SVMs（半监督反对向量机），graph-basedmethods（图论办法），multiviewlearing（多视角算法）等等。上面介绍几类次要半监督学习办法。简略自训练算法（self-training）self-training算法的步骤为：（1）首先利用标注训练集数据训练分类器；（2）利用分类器对无标注数据进行分类，并计算误差；（3）抉择分类后果中误差较小的样本，将分类后果作为其标签，退出到训练集。循环次训练过程，直到所有的无标注数据被标注。多视角学习（multiviewlearing）这是self-training算法的一种。其假如每个数据能够从不同的角度进行分类。算法步骤如下：（1）在角度用标注数据集训练出不同的分类器；（2）用这些分类器从不同的角度对无标注数据进行分类；（3）依据多个分类后果来选出可信的无标签样本退出训练集。循环后面的训练过程。此办法的长处是不同角度的预测后果能够互相补充，从而进步分类精度。标签流传算法（LabelPropagationAlgorithm）标签流传算法是一种基于图的半监督算法，通过结构图构造来找无标签数据和有标签数据之间的关系，而后通过这个关系来进行标签流传。在深度学习上的半监督学习办法，叫做半监督深度学习。半监督深度学习次要包含三类：Fine-tune;基于深度学习的self-training算法；半监督的形式训练神经网络。Fine-tune形式，利用无标签数据训练网络（重构自编码或基于伪标签训练），而后应用有标签数据在指标工作上进行微调。基于深度学习办法的self-training,根本的步骤：（1）利用有标注数据训练深度模型；（2）利用深度模型作为分类器或者利用深度特色对无标签数据进行分类；（3）抉择执行度高的退出有标签训练集，反复此过程。半监督的办法训练深度网络蕴含许多技术，例如Pseudo-Label[1],LadderNetworks[2],TemporalEnsembling[3]，Meanteachers[4]还有FixMatch等等。上面咱们介绍几个次要的工作。 1.Pseudo-Label办法[1]此办法将网络对无标签数据的预测后果，作为无标签数据的标签，来训练网络。办法尽管简略，成果却很好。从下图咱们能够看出，加了无标签数据之后，同一个类别的数据点汇集得更笼了。 2.TemporalEnsembling[3]TemporalEnsembling是Pseudo-Label办法的倒退。其指标是结构更好的伪标签。下图给出了此办法的结构图，此办法有两种不同的实现，即-model和temporalensembling。 -model的无监督代价是对同一个输出在不同的正则或数据加强的条件下模型输出应具备一致性，这样能够激励网络学习数据外部的不变性。Temporalensembling对每一次迭代的预测z_izi进行挪动均匀得个\hat{z_i}zi^作为无监督训练的监督信号。 3.Meanteacher[4]Meanteacher办法另辟蹊径，从模型的角度进步伪标签品质，其奉行“均匀的就是最好的”准则。对每次迭代之后的student模型参数进行挪动均匀（weight-averaged）失去teacher模型,而后用teacher模型来结构高质量的伪标签，来监督student模型的无标签loss。 4.FixMatch[5]FixMatch发挥了TemporalEnsembling办法中的一致性正则化（consistencyregularization）准则，即同一个样本的不同增广，模型应该失去统一的后果，从而学习数据外部的不变性。因而FixMatch办法利用弱增广的样本生成一个伪标签，利用此伪标签来监督模型对强增广样本的输入。 4.2跨模态常识迁徙跨模态常识迁徙基于多媒体数据中各个模态之间的内在联系，将标注信息由一个模态向指标模态迁徙从而实现数据标注。如下图所示，跨模态常识迁徙包含视觉到语音的迁徙，文本到图像的迁徙等等。上面介绍几种经典的跨模态常识迁徙工作。 1.基于跨媒体迁徙的图像情感剖析[6]此办法利用推特上成对的文本图像数据，实现图像情感剖析工作，具体步骤如下图。其应用训练好的文本情感分类器，对文本进行情感分类，而后将标签间接给对应的图片。而后应用具备伪标注的图片训练图片情感分类器。 2.SoundNet[7] 通过预训练的视频对象和场景辨认网络实现从视觉模态到语音模态的常识迁徙，利用迁徙的标签训练语音模型，实现语音场景或语音对象分类。 3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8] 此办法利用预训练好的人脸情感辨认模型作为teacher模型，而后利用teacher模型的预测后果来训练语音情感辨认模型。 5.咱们的语音情感辨认计划这一节将介绍咱们解决标注数据不足的计划。联结跨模态常识迁徙与半监督学习办法为了解决语音情感辨认畛域数据不足的问题，咱们在2021年提出了联结跨模态常识迁徙与半监督学习的架构，该办法在CH-SMIS以及IEMOCAP数据集上获得了语音情感辨认工作以后最优的后果，同时咱们将此工作发表在SCI一区期刊knowledge-basedsystem上发表论文Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。上面是咱们的计划的架构图：咱们的计划基于两个察看：间接跨模态标签迁徙存在误差，因为人脸情感与语音语音情感之间的关系十分复杂，并不是完全一致。半监督学习办法，标注数据很少的状况下，体现并不好。模型的预测谬误可能会一直的失去增强，导致模型在某些类别上精度很低。咱们的办法收到了多视角学习思路的启发，利用视频数据中存在两种模态，在两个模态上辨认情感，交融它们取得更加精确的伪标签。为了进行语音情感辨认，本计划首先提取了语音的STFT特色，而后进行了Specaugment数据增广。因为Transformer在建模序列数据的胜利，本计划采纳了Transformer的encoder进行语音的编码，最初利用均值池化来失去语音特色并分类情感。跨模态常识迁徙为了进行跨模态情感迁徙，本计划基于MobileNet模型利用大量的人脸表情数据集训练了一个性能弱小的人脸表情辨认模型。应用此模型对从视频中抽取的图片帧进行人脸表情辨认。而后将多个帧辨认的后果综合到一起失去整个视频段的人脸表情预测后果。半监督语音情感辨认受到FixMatch中一致性正则化假如的启发，咱们设计了半监督语音情感识别方法。具体的，此办法对语音样本输出采取了两种类型的增广，利用强增广办法SpecAugment算法取得到语音重大扭曲版频谱特色，利用弱增广办法（特色上的dropout等）失去变动不大的语音特色。模型应用弱增广的样本生成伪标签，来监督强增广的样本的训练。联合半监督学习与跨模态常识迁徙在模型的每一次迭代中，本办法利用弱增广样本生成一个伪标签，而后将其与跨模态迁徙的伪标签进行交融，以进步伪标签的品质。本工作摸索了两种交融办法，一个是加权求和，一个是多视角一致性。失去高质量的伪标签之后，用此标签监督强增广样本的训练。模型通过屡次迭代，一直晋升伪标签品质。绝对于半监督学习办法和跨模态办法，本办法在CH-SIMS和IEMOCAP数据集上均获得了最好的成果。后果如下：参考文献[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks[2]Semi-SupervisedLearningwithLadderNetworks[3]TemporalEnsemblingforSemi-supervisedLearning[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence[6]Cross-MediaLearningforImageSentimentAnalysisintheWild[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild 点击关注，第一工夫理解华为云陈腐技术~

关于语音:基于RNN和CTC的语音识别模型探索语境偏移解决之道

摘要：在本文介绍的工作中，咱们展现了一个基于RNN和CTC的语音辨认模型，在这个模型中，基于WFST的解码可能无效地交融词典和语言模型.本文分享自华为云社区《语境偏移如何解决？专有畛域端到端ASR之路（三）》，原文作者：xiaoye0829 。这篇文章咱们介绍一个联合CTC与WFST (weighted finite-state transducers) 的工作：《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》。在这个工作中，声学模型的建模是利用RNN去预测上下文无关的音素或者字符，而后应用CTC去对齐语音和label。这篇文章不同凡响的一个点是基于WFST提出了一种通用的解码办法，能够在CTC解码的时候融入词典和语言模型。在这个办法中，CTC labels、词典、以及语言模型被编码到一个WFST中，而后合成一个综合的搜寻图。这种基于WFST的形式能够很不便地解决CTC里的blank标签和进行beam search。在这篇博文中，咱们不再叙述对于RNN和CTC的内容。次要关注如何利用WFST进行解码的模块。一个WFST就是一个无限状态接收器（finite-state acceptor, FSA），每一个转换状态都有一个输出符号，一个输入符号，和一个权重。上图是一个语言模型WFST的示意图。弧上的权重是当给定了后面的词语，发射失去下一个词的概率。节点0是开始节点，节点4是完结节点。WFST中的一条门路蕴含一系列输出符号到输入符号的发射序列。咱们的解码办法将CTC labels，词典（lexicons），以及语言模型表示成分别的WFST，而后利用高度优化的FST库，比方OpenFST，咱们能无效地将这些WFST交融成一个独自的搜寻图。上面咱们开始介绍，如何开始构建单个的WFST。 1、语法（Grammar）. 一个语法WFST编码了语言容许的单词序列。上图是一个精简的语言模型。它有两条序列：“how are you”和“how is it”。WFST的根本符号单位是word，弧上的权重是语言模型的概率。利用这种WFST模式的示意，CTC解码原则上能够利用任何能被转换成WFST的语言模型。依照Kaldi中的示意形式，这个语言模型的WFST被示意为G。2、词典（lexicon）. 一个词典WFST编码了从词典单元序列到单词的映射。依据RNN的对应的label的建模单元，这个词典有两种对应的状况。如果label是音素，那么这个词典是与传统的hybrid模型雷同的规范词典。如果label是character，那么这个词典简略地蕴含了每个单词的拼写。这两种状况的区别在于拼写词典可能较为容易地拓展到蕴含任何OOV（词汇表之外）的单词。相同，拓展音素词典不是那么直观，它依赖于一些grapheme-to-phoneme的办法或者模型，并且容易产生谬误。这个词典WFST被示意成L，下图展现了两个词典构建L的例子：第一个例子展现了音素词典的构建，如果音素词典的条目为“is IH Z”，上面的一个例子展现了拼写词典的构建，“is i s”。对于拼写词典，有另一个简单的问题须要解决，当以character为CTC的标签时，咱们通常在两个word间插入一个额定的空格（space）去建模原始转写之前的单词距离。在解码的时候，咱们容许空格选择性地呈现在一个单词的结尾和结尾。这种状况可能很轻易地被WFST解决。除了英文之外，咱们这里也展现一个中文词典的条目。 3、令牌（token）. 第三个WFST将帧级别的CTC标签序列映射到单个词典单元（音素或者character）上。对一个词典单元，token级的WFST被用来纳入所有可能的帧级的标签序列。因而，这个WFST容许空白标签∅的呈现，以及任何非空白标签的反复。举例来说，在输出5帧之后，RNN模型可能输入3种标签序列：“AAAAA”，“∅∅AA∅”，“∅AAA∅”。Token wfst将这三个序列映射到一个词典单元：“A”上。下图展现了一个音素“IH”的WFST，这个图中容许空白<blank>标签的呈现，以及非空白标签“IH”的反复呈现。咱们将这个token的WFST示意成T。4、搜寻图. 在别离编译完三个WFST后，咱们将它们合成一个全面的搜寻图。首先合成词典WFST L和语法WFST G，在这个过程中，确定性（determinization）和最小化（minimization）被应用，这两个操作是为了压缩搜寻空间和减速解码。这个合成的WFST LG，而后与token的WFST进行合成，最初生成搜寻图。总得FST操作的程序是：S = T min（det（LG））。这个搜寻图S编码了从一个由语音帧对应的CTC标签序列映射到单词序列的过程。具体来说，就是首先将语言模型中的单词解析成音素，形成LG图。而后RNN输入每帧对应的标签（音素或者blank），依据这个标签序列去LG图中进行搜查。当解码混合DNN模型时，咱们须要应用先验状态去缩放来自DNN的后验状态，这个先验通常由训练数据中的强制对齐预计失去的。在解码由CTC训练失去的模型时，咱们采纳一个类似的过程。具体地，咱们用最终的RNN模型在整个训练集上运行了一遍，具备最大后验的labels被选出来作为帧级的对齐，而后利用这种对齐，咱们去预计标签的先验。然而，这种办法在咱们的试验中体现得并不好，局部起因是因为利用CTC训练的模型在softmax层后的输入体现出高度的巅峰散布（即CTC模型偏向于输入单个非空的label，因而整个散布会呈现很多尖峰），体现在大部分的帧对应的label为blank标签，而非blank的标签只呈现在很狭隘的一个区域内，这使得先验散布的预计会被空白帧的数量主导。作为代替，咱们从训练集中的标签序列里去预计更鲁棒的标签先验，即从加强后的标签序列中去计算先验。假如原始的标签为：“IH Z”，那么加强后的标签可能为“∅ IH ∅ Z ∅”等。通过统计在每帧上的标签散布数量，咱们能够失去标签的先验信息。下面介绍了基于WFST的办法，咱们接下来来看一下试验局部。在进行后验散布正则之后，这个声学模型的分数须要被放大，缩放因子在0.5~0.9之间，最佳的缩放值通过试验决定。本文的试验是WSJ上进行的。本文应用的最佳模型是一个基于音素的RNN模型，在eval92测试集上，在应用词典与语言模型时，这个模型达到了7.87%的WER，当只用词典时，WER疾速升高到了26.92%。下图展现了本文的Eesen模型与传统hybrid模型的成果比照。从这个表中，咱们能够看到Eesen模型比混合的HMM/DNN模型较差一些。然而在更大的数据集上，比方Switchboard，CTC训练的模型能取得比传统模型更好的成果。 Eesen的一个显著的劣势是，相较于混合的HMM/DNN模型，解码速度大大放慢了。这种减速来源于状态数量的大幅缩小。从下表的解码速度能够看进去，Eesen获取了3.2倍以上的解码速度减速。并且，在Eesen模型中用到的TLG图，也显著小于HMM/DNN中用到的HCLG图，这也节约了用于存储模型的磁盘空间。总得来说，在本文介绍的工作中，咱们展现了一个基于RNN和CTC的语音辨认模型，在这个模型中，基于WFST的解码可能无效地交融词典和语言模型. 点击关注，第一工夫理解华为云陈腐技术~

关于语音:语音唤醒真香警告轻松开启与Siri小度和小爱的畅聊

“Hey Siri，给我讲个故事吧”，这时Siri相熟的机械女声从你手机传出，娓娓讲述起一段故事。 “Hey Siri”是iOS8中新增加的唤醒Siri的形式，不须要任何操作，只须要说Hey，Siri就能够轻松被唤醒。在这一过程中用户不须要用手接触，能够间接用语音进行操作。利用语音唤醒的机制，手机不必实时地处于工作状态，从而实现节俭能耗的目标。说出“Hey Siri”即可唤醒Siri 语音唤醒的目标是让智能设施如手机、音箱等，在休眠或锁屏状态下也能检测到用户的唤醒词，让处于休眠状态下的设施间接进入到期待指令状态，开启语音交互第一步。不同的产品会有不同的唤醒词，例如百度是“小度小度”，小米是“小爱同学”，苏宁是“小biu小biu”，用户须要唤醒设施时即说出特定的唤醒词。语音唤醒的应用领域非常宽泛，除了手机，智能家居、智能车载等畛域都装备了很多带有语音交互性能的设施，都会须要语音唤醒技术作为人和机器互动的一个开始或入口。在智能家居畛域，语音唤醒技术最常见利用于智能音箱，例如阿里推出的天猫精灵、喜马拉雅的小雅Home AI智能音箱和苏宁的小biu智能闹钟音响等。海尔智家推出的依赖语音唤醒进行管制的全屋智能同样，海尔智家推出了依赖语唤醒进行管制的全屋智能。回到家后，你只须要召唤“小优小优”，智能音箱就能联动客厅的所有，实现开灯、开空调、关上电视、拉开窗帘等性能。除了家居畛域，智能车载也成为语音唤醒技术落地利用的另一场景。自2018年以来，本田就与Sound Hound单干进行车载语音助手的研发，驾驶员能够通过说出“OK本田”来将其唤醒，并且它可能依据以后的地位以及以前的所有问题推断出一个问题的上下文。驾驶者说出“嗨小问”唤醒思皓E20X电动汽车零碎国产汽车同样重视语音唤醒在车载场景的利用。此前，公众旗下思皓品牌推出了E20X电动汽车。驾驶者能够向说出“嗨小问”来轻松唤醒零碎，在行驶过程中，人们能够通过语音指令管制导航利用，疾速达到目的地。语音唤醒获得较好利用成果的决定性因素在于短缺的训练数据集。AI企业如科大讯飞、百度等均提供了语音唤醒开放平台，通过诉诸丰盛的语音唤醒训练数据集，其产品搭载的语音唤醒技术均获得了长足的倒退。数据堂自有版权的行业内高标准语音唤醒数据深受器重和好评。从理论的利用场景登程，数据堂研制了《1,000人唤醒词麦克风采集语音数据》和《998人远场家居手机麦克风阵列采集语音数据》，为语音唤醒技术更宽泛的落地利用提供助力。 1000人唤醒词麦克风采集语音数据该数据在业余录音棚内用高保真麦克风进行采集，录制内容为20个各大支流厂商的唤醒词，是一套高质量的近场语音唤醒训练数据。 1000位被采集者分两批，每500人应用10个唤醒词，每个词录10遍，包含失常速度6遍、疾速2遍和慢速2遍。第一批次500位被采集者的唤醒词为：小度小度；小爱同学；天猫精灵；小艺小艺；你好小艺；小冰小冰；小布小布；小乐小乐；小白小白；小V小V。第二批次500位被采集者的唤醒词为：ok google；hey google；hey siri；alexa；hi siri；hi bixby；ok Emy；叮咚叮咚；小宝小宝；若琪。 998人远场家居手机麦克风阵列采集语音数据该数据在实在家居场景下进行采集，录制间隔分为0.5m、1m、3m、5m，是一套高标准的远场麦克风阵列采集语音数据。参加录制的998人每人录制20个唤醒词，每个词反复10遍，笼罩失常速度、疾速、慢速。录制的20个唤醒词涵盖了不同规定组成的自定义唤醒词，包含小贝小贝、你好小星、唤醒小朵、我的小胖、小乐在哪儿、小奇进去、小娜醒醒等。数据堂积淀了十余年的数据处理教训，领有上百套数据标注工具集，通过欠缺的服务流程体系撑持，可能满足不同企业的数据个性化需要。

关于语音:打破传统降噪技术-看网易云信在语音降噪的实践应用

导读随着音视频会议、娱乐互动直播、在线教育产品的炽热倒退，产品中令人愉悦的音效音质体验是必不可少的。但在音视频实时通信中，难免会遇到各种咱们不心愿呈现的声音，例如电流声、键盘敲击声、嘈杂声等，这些统称为噪声。克制这些声音的技术为降噪。本文咱们将从语音降噪的概念动手，详细分析常见的几种语音降噪技术实现以及网易云信在语音降噪上的利用。什么是语音降噪咱们先来看看什么是语音降噪。语音降噪（或语音加强）是指当语音信号被各种各样的背景噪声烦扰、甚至吞没后，尽可能地从带噪语音信号中提取有用语音信号（或污浊语音信号），克制或升高噪声烦扰的技术。语音降噪有两个次要作用：升高背景噪声烦扰，改善语音品质，晋升听者的舒适感进步语音信息传播的可懂度语音降噪分类语音降噪能够从不同的维度进行划分，个别能够从录音的通道数或者降噪办法有无监督进行划分，上面咱们次要剖析一下这两种划分状况。按通道数划分根据采集语音时麦克风数量的不同，划分为单通道办法和麦克风阵列办法。单通道办法的语音降噪对单个麦克风录制的语音信号进行解决，只利用了时域与频域的信息，其对硬件老本要求较低，然而因为短少空间信息，降噪更为艰难。麦克风阵列语音降噪对麦克风阵列采集的语音信号进行解决，不仅利用了时域与频域信息，还利用了空间信息，因而在克制特定方向的烦扰和对不同声源进行拆散等方面具备劣势，能够在更简单声学环境和远场环境中实现语音加强。在音视频会议、直播等场景中，多应用 PC 端、手机设施，是典型的单通道语音降噪场景，云信目前也次要提供单通道的语音降噪能力。按钻研思路不同划分从钻研思路不同进行划分，音频降噪算法能够分为传统信号处理办法与深度学习办法。这两种办法各有优劣，次要区别有以下几点：原理上的区别传统信号处理算法大多基于物理和数学原理推导，这些原理是基于人类的认知倒退而来的，适用性强，所以零碎个别有比拟好的鲁棒性。深度学习算法更多是利用大量的语音数据或噪声数据，训练网络学习相干的特色从而实现降噪，性能的决定因素来自于训练集的大小、训练集的代表性、应用的模型、训练过程和准则等，性能的变动范畴较大，零碎在新环境下鲁棒性较差。假如上的区别传统信号处理算法为了简化计算或取得解析解做了很多假如和简化，这可能会限度语音降噪的下限，难以解决非安稳噪声。深度学习算法通常不须要这些假如，其外围特定就是模型是简单非线性的，因而在大量训练数据和较好模型设计的前提下无望获得更好的性能。应用环境的区别传统信号处理办法个别具备小计算量、低提早等劣势，容易满足实时性要求。基于深度学习的办法往往模型较大、计算资源要求较多，一方面会限度其在计算资源无限的零碎中的应用，另一方面难以保障实时通信需要。接下来咱们将对这两类降噪办法进行介绍与剖析。传统信号处理办法传统单通道降噪办法类别传统单通道降噪通过几十年的倒退，品种繁多，次要有谱减法、维纳滤波、子空间法、基于最小均方误差的语音幅度谱估计办法等。谱减法基于一个假如：噪声是加性噪声且具备平稳性，因而在初始的非语音段音频中预计出噪声谱，再从带噪语音谱中减去预计的噪声谱就能够失去洁净的语音谱。然而，该减法解决的代价在于过多减去噪声谱则会去掉局部语音信号；过少减去则会残留噪声，将产生令人恶感的音乐噪声。维纳滤波办法对语音信号复频谱生成了一个线性预计器，该估计值在均方意义上性能最优。维纳滤波办法不会产生音乐噪声，使解决后语音信号听起来更为舒服，然而它是对信号安稳条件下的最小均方误差预计，因而对于非安稳噪声克制成果不佳，而且容易造成语音失真。子空间算法将带噪语音信号的向量空间合成为信号子空间与噪声子空间，尽可能保留信号子空间重量且去除噪声子空间的重量，可能在肯定水平上克制噪声，然而子空间法须要对每一帧语音进行奇怪值合成或特征值合成，计算代价高，不适用于实时语音降噪。基于最小均方误差的语音幅度谱估计算法是传统语音降噪算法中具备反动意义的办法，于1984年由Ephraim 和 Malah 提出。随后，思考到人耳对语音频率的非线性感知，他们推导出基于最小均方误差的对数谱估计办法。2001 年，Cohen 提出最优改良对数谱幅度预计办法，它的设计准则是最小化洁净对数谱与预计对数谱的误差，首先利用最小值管制递归均匀办法预计噪声，再顺次预计先验、后验信噪比、语音存在概率，最初计算频谱增益函数预计出洁净语音。尔后，改良的最小值管制递归均匀办法预计噪声被提出，具备预计误差更小且对非安稳噪声跟踪更快的特点，此办法失去了广泛应用。传统降噪的实现目前业界罕用的开源算法之一是 WebRTC 中噪声克制模块算法，其核心思想是采纳维纳滤波器克制预计进去的噪声。其算法流程图如图所示：信号剖析：对输出帧语音进行加窗，疾速傅里叶变换（FFT）失去频域数据。噪声预计与克制：应用分位数噪声预计进行初始噪声预计、后验和先验 SNR 的裁决疏导更新、语音/噪声概率计算，概率计算是基于似然比因子进行的。似然比应用后验 SNR、先验 SNR 以及语音概率密度函数模型，还有特色建模、噪声预计更新并利用维纳滤波增益滤波器确定的概率而确定的。信号合成：将频域数据通过 IFFT、窗口合成转为时域数据。WebRTC 降噪算法对于安稳背景噪声（如风扇、家用电器等噪声）具备良好的克制成果，但对于低信噪比和瞬变噪声场景成果不佳。网易云信在 WebRTC 噪声克制模块根底上自研了流动检测(VAD)算法，辨别语音与噪声，并且以此调整噪声预计办法，优化了噪声收敛工夫与降噪力度。深度学习办法传统信号处理办法具备计算量小、可实时降噪解决的劣势，然而难以解决非安稳噪声场景，而理论会议中，嘈杂噪声、键盘敲击声等非安稳噪声是用户痛点，极大的影响听感舒适度。近年来，深度学习办法显著晋升了有监督工作性能，在语音降噪工作中开始呈现一些数据驱动类算法(即 AI 算法)。相较于传统信号处理办法难以解决多样性、突发性非安稳噪声的弊病，深度学习办法在大量训练数据和较好模型设计的前提下可能获得更好的降噪性能。深度学习办法类别基于深度学习办法大抵可分为三类，基于频谱映射的办法、基于时频掩码的办法、端到端办法。基于频谱映射的办法，次要通过深度神经网络弱小的非线性建模能力来建设带噪语音谱参数与污浊语音谱参数之间的映射关系。基于时频掩码办法，其核心思想是通过训练深度神经网络预测时频掩码，它反映了各个时频单元上对噪声的克制水平，而后将预测的掩码利用于输出带噪语音的频谱来重构污浊语音信号。常见的时频掩码有现实二值掩码、现实比例掩码、相敏掩码、复比例掩码等。端到端语音加强，则是间接在工夫域波形级上进行操作，通过模型间接输出带噪语音波形失去加强后波形。基于深度学习的降噪办法（AI 降噪）可能获得更好的降噪性能，然而其模型较大、计算复杂度高。对于运行在挪动终端的实时算法来说，计算复杂度须要满足实时性、CPU 占用率、内存占用率等必须比拟小。一般而言，模型的性能耗费与其输入成果，综合来看是一种平衡的关系。然而在降噪场景下，算法既须要长时间实时运行，又须要保障算法成果可能应答复杂多变噪声场景，这对现有降噪技术提出了肯定的挑战。网易云信自研 AI 降噪算法网易云信自研 AI 降噪算法将传统信号处理办法与深度学习类办法相结合，利用私有化大数据集训练模型，并且采纳了轻量级模型设计与模型裁剪等伎俩, 节俭计算资源，反对挪动端实时加强。它能够无效克制传统降噪算法解决不了的嘈杂噪声、键盘声、鼠标声等突发噪声，同时也可能晋升对于安稳噪声克制，提取更清晰的人声。上面是一个案例展现网易云信自研 AI 降噪算法成果，左图为是办公室场景下带噪语音波形图与语谱图，右图为降噪后波形图与语谱图：以下为应用网易云信前后的降噪文件比照，也能够更直观感触到应用网易云信自研 AI 降噪算法后的降噪成果。总结本文简述了常见的传统语音降噪与 AI 降噪技术，以及网易云信在该畛域的利用。传统降噪技术对于安稳噪声解决良好，但对于非安稳，突发的声音的降噪往往无能为力。网易云信提出自研 AI 降噪算法，充分利用深度学习网络对语音和噪声特色的学习能力，无效克制环境中的各种乐音。今后，网易云信将在 AI+实时音频解决上继续推动钻研，致力于为用户提供更好的音频通话体验。 ...

关于语音:为语音社交平台加一个防护罩即构上线实时语音安全方案

2021年伊始，语音社交行业迎来暴发。语音社交产品以“实时语音”作为互动交换的载体，具备信息密度高、实时性强、互动频繁、玩法多样等特点。正当大家欣慰“耳朵经济”衰亡，语音社交产品“出圈”，筹备抓住风口红利大干一场的时候，一个不容忽视的问题摆在了语音社交产品的背后：平安数据安全、用户隐衷爱护是互联网产品绕不开的话题，因而无论是平台方还是技术提供方，所提供的产品或服务都必须具备平安、合规。即构基于服务超过70%泛娱乐行业头部客户的教训，针对语音社交场景提供整套的平安技术计划。同时作为寰球当先的音视频云服务商，服务的客户笼罩寰球超过200个国家和地区的用户，在服务合规和数据安全性方面与国内最高规范同步对齐。一、针对语音社交行业的全套平安计划 ===================== 即构针对不同利用场景的平安需要，提供场景化的平安计划。以语聊房为例，其安全隐患次要来自两个方面：内部：未认证用户“非法登陆”业务房间，烦扰失常业务体验。非法分子利用外挂或系统漏洞，非法上麦，在聊天室歹意发言，影响聊天室秩序，也被称为“炸麦”。外部：为防止主播或用户在房间内的发言涉恐涉暴涉政涉黄，平台方需对内容进行鉴定审核，以合乎政策监管，咱们统称为“内容鉴定”。炸麦会间接影响用户体验，内容鉴定更是平台平安经营的警戒线。面对泛滥语音社交产品亟待解决的平安难题，即构推出整套平安计划，为语音社交产品的稳固经营保驾护航。 1、五大措施，从底层进行“防炸麦” 炸麦的实质，是不在麦位的用户能够发言，并且房间内的其余用户能听见其发言。即构通过“房间级+流级”两个层级的五项措施，来杜绝炸麦的产生。房间级防炸麦语音社交是以“房间”作为线上交换空间，用户要上麦发言或收听语音，都须要先登录房间。因而，即构通过“房间登录鉴权”和“登录鉴权黑名单”两项动作来防非法用户登录。措施一：房间鉴权用户在进行房间登录时须要业务服务授予权限，防止非正常登录用户通过其余路径登录房间，而后在房间内进行歹意评论和消息传递。措施二：登录鉴权黑名单在登录鉴权中，咱们还提供一个强力的补充性能：登录鉴权黑名单。登录鉴权在无效工夫内都能够反复利用，非法分子有可能会利用该破绽进行业务攻打。此时平台方能够通过登录鉴权黑名单对这些异样用户进行拦挡，业务方能够将疑似异样的用户增加到鉴权黑名单中，使其以后应用的鉴权生效。当即构SDK 获取到鉴权生效的告诉，就会被动跟房间服务断开连接，直到用户从新申请到新鉴权，达到业务服务强制校验和刷新鉴权的目标。流级防炸麦即构反对别离从客户端侧和服务端侧来实现防炸麦，客户能够灵便抉择。在具体的技术实现形式上，同时反对推流鉴权和拉流鉴权，可满足不同业务场景的需要。措施一：强校验业务麦位状态即构会依据房间以后麦位状态，执行开始/进行推拉流操作。通过监听上麦用户汇合，将汇合中的用户对立勾销静音，监听拉流用户汇合，将汇合中的用户对立设置静音，来实现只有合乎业务侧规定的“上麦用户”才容许推流发言，拉流用户（非上麦用户）则对立设置闭麦静音。措施二：推流鉴权推流鉴权的申请会通过客户业务服务器，因而平台方能够去拦挡异样的用户不让其进行推流。同时未获取到推流鉴权的用户进行推流操作，即构 SDK 也会对齐进行拦挡，通过业务侧+SDK的双重校验，防止非麦上用户的推流操作。措施三：后盾流新增回调 + 后盾踢人逻辑即构提供后盾踢人逻辑，业务服务器可监听后盾流新增回调，判断用户是否上麦，如果不是上麦状态，即调用后盾踢人逻辑将其踢出房间。能够看到，即构的防炸麦计划是从房间鉴权和流鉴权两个层级提供技术保障的，安全等级更高的同时，还能灵便适配平台场景，让防炸麦与平台能力完满交融。 -- 2、一站式服务，反对老本优先的“内容鉴定” 语音社交产品的非法合规，始终是平台长期稳固经营的底线。此前，已有游戏语音、在线K歌、线上语聊交友等多个语音社交平台，因为内容合规问题而被约谈、整治、下架。即构通过与头部的AI鉴定平台单干，推出了“音视频+内容鉴定”整体化计划，只需“调用接口，发动鉴定申请，期待回调后果”三步，就可实现语音内容的审核鉴定性能。语音社交平台接入即构“音视频+内容鉴定”计划后，不须要再集成额定的内容审核SDK，不须要对接其余第三方CDN，不须要理解语音辨认服务商的对接流程，能极大的升高开发和接入老本。基于优良的自研音视频引擎，即形成熟的3A语音解决技术，能极大的进步语音辨认的准确率；寰球超低延时语音互动，能放慢语音辨认后果返回。灵便的音视频架构，反对房间级别的内容鉴定，每个房间可将所有用户的音视频流混合成一条流进行鉴定，而不用拉取每条流别离鉴定，可极大的升高平台方的内容审核老本。二、自研音视频引擎，平安可管可控的平台根底 ========================= 业务的平安还必须建设在根底平台平安和数据/服务的全面非法合规之上，即构提供了一个端到端全面平安合规的音视频底座，让各行各业的业务能够安枕无忧地运行。数据安全和用户隐衷爱护，是 ZEGO 在寰球提供音视频云服务、践行 AnyWhere AnyTime AnyResource 理念的基本保障。各业态场景下的客户，一直进步对服务商平安规范的要求，亦使 ZEGO 的产品安全生态得以日趋完善。为了实现真正的可管可控，ZEGO 抉择了从引擎底层开始的技术自研。在整个自研技术体系的搭建和经营保护过程中，从需要、设计到部署、公布，每一个阶段都贯通着相应的平安流动。ZEGO始终秉承着 SDL 平安设计的六大外围准则，从认证合规、主机与通信安全、数据安全、终端平安、业务平安、内部人员治理、供应商治理七个方面响应对客户的平安承诺。认证合规ZEGO 音视频云服务平台与具备寰球平安与隐衷合规先进经验的 KPMG 进行了深度单干。从组织、流程、文化、技术、业务等各方面全面构建欠缺的 GDPR 隐衷平安爱护体系，充沛遵循和合乎史上最严格的隐衷法案。同时，ZEGO 在亲密的审核流程和监管下执行着 ISO 27000 系列规范，此外还取得了公安部颁发的平安等保三级认证。主机与通信安全ZEGO 保持 Hybrid Cloud 多服务高可用架构，采纳业界顶级基础设施提供商，所有基础设施均遵循含ISO/IEC 27701、ISO/IEC 29151、ISO/IEC 27018、BS 10012在内的所有可信云和环境平安认证的“全满贯”规范。通信方面 ZEGO 基于自研 UDP 协定平安握手、平安传输，所有外网接口通过一个冗余建设、高防高抗的对立网关解决，具备 SSL/TLS 加密、签名校验、状态监测等平安个性。本文重点探讨的防炸麦方向下，ZEGO就实现了音视频 AES 对称加密传输，密钥只有业务方晓得，可避免用户音频数据在传输过程中被拦挡破解后的非正常渠道流传扩散。 ...

关于语音:ZEGO全新语音聊天解决方案4步搭建爆火的语音聊天室

最近，国外一款语音聊天软件胜利火出圈。与此同时，该类产品也引发了国内互联网的关注，除了争相下载试用之外，不少社交、泛娱乐行业从业者也示意要跟进对应玩法。据理解，不少泛娱乐玩家曾经在加班加点抢占先机。那么，实现相似的玩法难吗？ 01 4步搭建语音聊天室其实相似的产品，咱们并不生疏，即构早就提供了成熟的语音互动服务，并胜利服务客户推出了成熟的语音互动产品，比方主打音频内容的喜马拉雅、语音社交的Soul、和线上狼人杀等行业主流产品。现在，语音社交再次爆火，在国内泛滥团队“紧急出击”的背景下，即构深度钻研了最近爆火产品的业务逻辑之后，基于曾经成熟的音视频互动技术，推出全新「语音聊天室计划」——4步疾速搭建一个相似的语音聊天室。 1、主播创立房间房主通过语音聊天室房间服务创立房间，房间服务将此房间退出由语音聊天室语音列表保护的在线房间列表。而后房主执行一个所有用户都须要做的进房收听操作：进入即构房间，监听流信息更新触发拉流，以便收听房间内其余主播的声音。 2、听众退出房间听众从语音聊天室语音列表服务中获取房间列表，再从语音聊天室房间服务中获取须要收听的房间信息，如房间ID、房主、主播、听众列表等信息。而后同主播一样做进房收听操作。 3、听众申请上麦/麦位更新听众申请上麦是一个业务概念：听众向语音聊天室房间服务发动上麦申请，语音聊天室房间服务将此申请音讯推送给房主，房主审批后将后果再通过房间服务发送给申请方。如果申请通过，房间服务会告诉所有房间内的用户麦位更新信息。 4、麦上主播开麦/闭麦麦上主播能够开麦发言，开麦操作只须要调用即构SDK的推流接口，房间内的其他人就可能收听该主播的声音。当主播不想发言了，就能够闭麦，闭麦操作只须要调用即构SDK的进行推流接口即可。基于以上4个步骤，你能够在2小时做出一个多人语音聊天室产品，在“速度”上快人一步。当然，除了速度，还有品质——即构语音聊天室计划对语音互动场景进行了极致优化。 02 3大极致体验不同于其余类型的社交产品，当音频为惟一沟通介质时，用户对声音会更加敏感，从而对音频产生更高的要求，基于即构语音聊天室搭建的聊天室具备三大劣势： 1、极致音质保障在一个只能听语音的产品里什么最重要？当然是音质。试想一下，如果一个房间内的聊天对话总是呈现卡顿、不清晰、噪声等情况，这个房间还会有观众吗？麦主们还会有急躁持续聊上来吗？针对这一问题，即构通过3A（AEC、ANC、AGC）解决技术对音质进行了高度优化解决，确保在语音连麦时取得清晰、高保真的音质体验。同时还反对双声道、全频带采集和编码，最高可达192Kbps码率。 2、卓越的多人互动成果除了音质，其次就是实时互动成果。在多人语聊模式的场景下，如果呈现多人同时进行开麦、高低麦、疾速开关麦等状况，互动环节容易蒙受影响进而造成互动成果差的问题。即构能够在多人通话时保障互动成果。比方在多人同时谈话的嘈杂环境下，反对开启多路混音模式，通过设定拉流端在多路混音时突出的指标，实现特定用户语音聚焦，既保留多人同时讲话的沟通探讨气氛，也同时凸显关键人物的表白成果。 3、高可用的网络保障一个语音聊天室内能够汇集好几千人，人一多就容易出问题。比方有人在美国，有人在中国，远距离沟通的状况怎么保障？再比方一个麦主刚上了地铁，网速忽然从4Mbps骤降几十k，还能确保连麦通常吗？即构在寰球笼罩超过500个外围节点，笼罩寰球212个国家或地区，基于即构自研的海量有序数据网络MSDN（Massive Serial Data Network），能够确保寰球任何地区都能够享有300ms超低提早的高质语音对话，同时在上、上行80%丢包状况下，也能放弃晦涩通话体验。面对客户业务量爆增时的扩容需要，即构能以分钟级的速度迅速响应，实现用户无感知扩容。 03 “后来者”的机会在哪里？在国外相干产品爆火之后，国内紧跟其后的产品还有哪些机会？基于国内市场现状，即构语音聊天室提供了更多能力反对，让你在性能、玩法上轻松拓展。 1、内容审核不少产品因为聊天内容太过于“放飞自我”导致被下架，在咱们日渐趋严的监管下，内容审核不可不加。即构提供的全套内容审核计划，将多重鉴定算法融入产品架构中，让客户实现“音视频+内容审核”的高效集成上线。 2、防炸麦治理什么是炸麦？简略来说就是被人利用外挂或者破绽，非法上麦，在聊天室歹意发言扰乱秩序。即构提供房间鉴权、推流鉴权，能够避免未受权的用户登录和推流；后盾流新增时判断用户是否上麦，并提供后盾踢人接口可将用户踢出；反对拉流端静音，可将监听中的疑似用户汇合，并将汇合中的用户对立设置静音。 3、声音趣味互动在趣味互动上，即构能够让你疾速集成变声、立体声、混响等特效性能。用户能够通过模仿萝莉、大叔、熊孩子等多种变声成果达到趣味互动的目标。置信在目前的炽热玩法中退出了个性化的翻新性能之后，不久的未来，咱们就能看到国内企业更出圈的音视频互动产品！

关于语音:ZEGO全新语音聊天室方案教你2小时复刻-Clubhouse

真的火了！新晋带货王马斯克在 Clubhouse“开房”之后，间接让 Clubhouse 爆火出圈，据说，Clubhouse 平台邀请码当初在ebay上曾经卖到了快200刀一个。与此同时，Clubhouse 的热度也引发了国内互联网的关注，除了争相下载试用、到处“求码”之外，不少社交、泛娱乐行业从业者也示意要跟进 Clubhouse 的玩法。而就在发文前夕，Clubhouse 被墙的音讯曾经传出，能够必定这一音讯会减速国内相干产品的诞生，不少泛娱乐玩家曾经在加班加点抢占先机。那么，实现类 Clubhouse 的玩法难吗？ 01 2小时搭建一个新 Clubhouse 其实 Clubhouse 相似的产品，咱们并不生疏，即构早就提供了成熟的语音互动服务，并胜利服务客户推出了成熟的语音互动产品，比方主打音频内容的喜马拉雅、语音社交的Soul、和线上狼人杀等行业主流产品。现在，语音社交再次爆火，在国内泛滥团队“紧急出击”的背景下，即构深度钻研了 Clubhouse 的业务逻辑之后，基于曾经成熟的音视频互动技术，推出全新「语音聊天室计划」——4步疾速搭建一个新 Clubhouse。 ① 主播创立房间房主通过语音聊天室房间服务创立房间，房间服务将此房间退出由语音聊天室语音列表保护的在线房间列表。而后房主执行一个所有用户都须要做的进房收听操作：进入即构房间，监听流信息更新触发拉流，以便收听房间内其余主播的声音。 ② 听众退出房间听众从语音聊天室语音列表服务中获取房间列表，再从语音聊天室房间服务中获取须要收听的房间信息，如房间ID、房主、主播、听众列表等信息。而后同主播一样做进房收听操作。 ③ 听众申请上麦/麦位更新听众申请上麦是一个业务概念：听众向语音聊天室房间服务发动上麦申请，语音聊天室房间服务将此申请音讯推送给房主，房主审批后将后果再通过房间服务发送给申请方。如果申请通过，房间服务会告诉所有房间内的用户麦位更新信息。 ④ 麦上主播开麦/闭麦麦上主播能够开麦发言，开麦操作只须要调用即构SDK的推流接口，房间内的其他人就可能收听该主播的声音。当主播不想发言了，就能够闭麦，闭麦操作只须要调用即构SDK的进行推流接口就可实现。基于以上4个步骤，你能够在2小时做出一个类 Clubhouse 的产品，在“速度”上快人一步。当然，除了速度，还有品质——即构语音聊天室计划对语音互动场景进行了极致优化。 02 3大极致体验不同于其余类型的社交产品，当音频为惟一沟通介质时，用户对声音会更加敏感，从而对音频产生更高的要求，基于即构语音聊天室搭建的类Clubhouse具备三大劣势： ① 极致音质保障在一个只能听语音的产品里什么最重要？当然是音质。试想一下，如果一个房间内的聊天对话总是呈现卡顿、不清晰、噪声等情况，这个房间还会有观众吗？麦主们还会有急躁持续聊上来吗？针对这一问题，即构通过3A（AEC、ANC、AGC）解决技术对音质进行了高度优化解决，确保在语音连麦时取得清晰、高保真的音质体验。同时还反对双声道、全频带采集和编码，最高可达192Kbps码率。 ② 卓越的多人互动成果除了音质，其次就是实时互动成果。在多人语聊模式的场景下，如果呈现多人同时进行开麦、高低麦、疾速开关麦等状况，互动环节容易蒙受影响进而造成互动成果差的问题。即构能够在多人通话时保障互动成果。比方在多人同时谈话的嘈杂环境下，反对开启多路混音模式，通过设定拉流端在多路混音时突出的指标，实现特定用户语音聚焦，既既保留多人同时讲话的沟通探讨气氛，也同时凸显关键人物的表白成果。 ③ 高可用的网络保障在 Clubhouse 上，一个语音聊天室内最多能够汇集5000人，人一多就容易出问题。比方有人在美国，有人在中国，跨国沟通的状况怎么保障？再比方一个麦主刚上了地铁，网速忽然从4Mbps骤降几十k，还能确保连麦通常吗？即构在寰球笼罩超过500个外围节点，笼罩寰球212个国家或地区，基于即构自研的海量有序数据网络MSDN（Massive Serial Data Network），能够确保寰球任何地区都能够享有300ms超低提早的高质语音对话，同时在上、上行80%丢包状况下，也能放弃晦涩通话体验。面对客户业务量爆增时的扩容需要，即构能以分钟级的速度迅速响应，实现用户无感知扩容。 03 “后来者”的机会在哪里？ ...

关于语音:探索语言交互技术在政务数字化的应用

摘要：在智慧城市的建设中，政府也心愿可能应用新技术来提供更好的服务。最近去公积金核心办理逐月还贷的业务，因为胆怯排队工夫较长，还没到上班时间就早早排队去了。正当我期待得百无聊赖之时，坐旁边的一位小兄弟对着手机说：转1000块钱给我妈。我看他用手机人脸识别了一把，看样子是转账胜利了，开心地持续刷手机。作为一名业内人士，对这位孝顺的小兄弟，我心生感（kui）慨（jiu）之余，立马想到，如果我能对着手机说：帮我办下公积金还贷业务，而后能很快办完，我就能够不必在这等而是去加班奋斗了。很惋惜，我的欲望临时不能实现。好的音讯是，随着目前智慧城市建设的推动，政府也心愿可能借助数字化伎俩，进步政府治理能力，不便市民办理各项业务。这其中，采纳语音作为交互方式的新兴利用也逐渐呈现。事实上，在一些发达国家，也能看到这类利用。比方在推广数字政府的新加坡，能够通过像LifeSG[[1]]这类利用用语音来获取政务服务。在2019年4月份，英国数字政府部门上线语音查问政府公开信息的服务，用户在家能够通过Google Home或者Amazon Alexa智能音箱间接查问GOV.UK网站上超过12,000项政府信息，市民可通过语音实现的工作范畴逐步扩充，从“国家最低工资规范”到“我如何申请一个新的护照”等等，并且陆续上线更多的查问服务，比方办理结婚手续的具体过程等[[2]]。那为什么会呈现很多基于语音的利用呢？咱们留神到，只管因为新冠疫情影响，寰球智能音箱出货量在2020年增长了13%，在2019年第四季度出货量约为4900万台[[3]]。而早在2016年，谷歌号称，在谷歌app中有20%的搜寻是通过语音来实现。这些事实阐明，越来越多的家庭和集体习惯应用语音来进行交互，而且语音交互式将来的一个趋势。在智慧城市的建设中，政府也心愿可能应用新技术来提供更好的服务。咱们简略剖析下语音交互利用（VUI）的劣势。 VUI的劣势首先，谈话是人最天然的沟通形式。如果零碎可能提供一个用会话进行交互的接口，那么，用户不须要学习，只有提问题，就能取得零碎的反馈。其次，谈话比打字要快得多。大家常常用语音助手查天气，定闹钟，是因为比起关上几个APP页面，再搜寻查问的城市或者拨选闹钟工夫，间接通过简略的语音指令就能实现，后者更加疾速。对于一些输出文字征询问题的场景，语音输入也要比打字快得多。再者，谈话的形式能够解放双手。现实生活中，有很多工作场景不方便使用手去操作屏幕，比方你在厨房做饭想查看菜谱，交警执勤时想查看路况信息，制作工人操作时想查看整机参数，忙着改进配备的钢铁侠想查看家门口的监控，等等。VUI提供了与零碎交互的另外一个渠道，多渠道地交互，能力播种更天然顺畅的体验。因为这几个次要劣势，VUI被看作是将来利用交互的趋势。除此之外，有些设施可能不具备显示屏，或者屏幕很小，VUI可能是更好或者惟一能抉择的交互方式。既然VUI具备这么多的有点，那么如何设计VUI呢？首先咱们先看下VUI的设计准则。 VUI设计准则在探讨设计准则之前，对VUI的设计，有几个前提：第一，语音交互过程通常要短，并放弃起码的来回对话次数；第二，即便正处于忙时，并且没方法集中注意力时，用户依然可能通过对话来实现工作；第三，实现同样的工作，VUI形式比应用GUI交互方式更顺畅[4]。而后咱们来看下具体的设计准则： 1.了解用户的实在用意。目前的对话利用，大多在工作型对话机器人畛域获得肯定的胜利。一个用意通常对应一个具体的待执行工作，比方“我想把客厅的等关掉”，对应的就是一个简略的工作。然而，在设计VUI时，咱们不应该假如用户的表述时很精确的，也就是用户对同一件事的表白多种多样。如何精确了解用户的用意，是VUI的要害。更重要的是，如果想要取得更天然的交互方式，VUI零碎须要了解很多背景常识。比方，当你说“我想解决下汽车违章事件”，你冀望可能取得的响应是，“XX路的违章解决核心离你最近，你能够在17点前带上驾驶证、行车证返回办理”。这须要VUI零碎可能理解办事的相干流程和地点，所须要的资料，以及相干部门的上班时间等等。相同，如果你失去的响应是一步接着一步向你确认信息，其中某一步很可能还出错，那么体验必定是令人解体的。最难的一点是，用户很多表述是十分含糊的，或者须要某种共识来了解对话的用意，比方“公积金管理中心是996下班吗？”，用户想要查问的是上班时间。对于这类问题，很多解决方案会借助常识图谱，来构建行业内的共享常识，以冀望更加智能地交互。咱们置信，随着技术的提高，机器了解对话的用意将会越来越精确。 2.了解上下文信息了解对话过程中的上下文，再做出响应是十分体现“智能”的方面。这里的上下文蕴含几个方面：物理上下文，也就是感知用户所处的地位，用户正在做的事件；情感上下文：也就是以后用户的情绪状态；对话上下文：也就是对话过程中，后面说的话蕴含的信息，以及了解话题是否曾经转移。只有充沛理解用户，能力给出最合适的答案，加强用户粘性。 3.协同形式回复 VUI是帮忙咱们同机器或者设施进行交互，实现某项工作或者取得某个答案，但值得注意的是，如果仅仅给个正确答案，会给人“寒冷”的感觉，更何况，因为很难了解用户用意和上下文信息，其实给出正确答案并不容易。这要求在设计VUI时，须要以协同的形式，与用户进行交互。有三种办法：1）如果用户的问题太含糊，那就询问更多的细节；2）如果答案是“否”，那么给出其它的可选倡议，或者满足所说的用意的一种形式；3）给出比期望值更多的信息，当然不是要拉开对话的主题。比方，当用户询问： “我要办理户口迁徙”，零碎可能没方法执行这一工作，能够回复：“以后户口转移须要现场办理，您能够返回XXX地点办理。” 4.回复具备多样性如果对同样情景，每次都是一样的答案，会显得比拟枯燥。尽量设置几种不同的回复，来应答用户的同样的用意，而后随机抉择。 5.关注隐衷数据的解决政务畛域会波及到很多敏感和隐衷的数据，比方获取资产证实的官网文档，或者是查问人事信息等。在重视VUI提供操作遍历的同时，也须要关注对隐衷数据的解决。 6.建设鉴权机制权限机制是大多数利用都会思考的问题，对于VUI利用，目前的技术手段很难通过声音辨认身份，可能须要联合传统的鉴权机制。有了VUI的设计准则后，咱们来看下，在政务畛域，VUI具备哪些利用场景。 G2C利用场景G2C场景次要是指，政府提供面向市民的手机APP，或者小程序，以提供便捷的政务服务，市民能够用它来查问政府公开数据和信息，办理业务等。有国外同行剖析了在数字政府畛域构建基于语音的利用的需要以及可能存在的机会点，通过访谈了多位政府工作人员以及具备VUI工程教训的工程师，探讨基于语音的利用场景[5]，失去的后果如图Figure 1所示。这些场景，咱们认为在国内智慧城市我的项目中，也具备可参考性。 Figure 1 G2C 语音助手场景剖析 G2G利用场景G2G场景次要是指，面向政府部门外部，提供数字化的伎俩，优化各部门间的协同办公流程，将一些反复流程自动化，进步日常办公效率等。在政务办公外部，依据目前的调研，现有产品大都集中在Figure 2所示的场景。这些场景，从技术上来说，只是把对话机器人在其余畛域的胜利复制到了政务畛域，当然，解决好这些场景的需要，也是很有价值的。单就语音查找文件来说，在政府推广无纸化办公的明天，如何疾速不便地找到须要的文档，甚至可能了解文档里的内容，间接给出答案，是进步工作效率很无效的伎俩，这可能是融入到日常办公工作过程中的罕用性能。 Figure 2 G2G场景语音助手场景剖析通过以上的剖析，咱们有了设计准则，也有了利用场景。如果咱们再把VUI其中的技术元素再拆解开，将适合的元素与利用场景相结合，就有可能搞出一块创新性的利用。 VUI的技术元素拆解语音助手的技术框架如Figure 3所示。借助目前深度学习在这一畛域的倒退，语音辨认、自然语言了解等外围模块准确率很高，而且模型泛化性较强。在构建语音助手时，能够抉择本人开发相干模型，也能够借助云服务。甚至，几家次要的云服务提供商都有本人的构建语音助手的框架，用户只须要关注行业语料以及业务对话流程，无需关注底层技术细节。比方华为云对话机器人服务[[6]]、百度云Unit平台[[7]]，微软QnA Maker[[8]]以及Amazon Lex[[9]]等。 Figure 3 语音助手技术元素拆解显然，对技术元素的拆解，还能够更细。本文就不再开展，有趣味的读者，能够参考华为在这方面的技术停顿总结[[10]]。总结语音交互技术在政务畛域的数字化利用是一个不可疏忽的趋势，本文剖析了如何构建VUI的技术准则，并剖析了在政务畛域VUI的利用场景。试图通过VUI的技术合成，以及利用场景的联合，摸索构建政务畛域语音交互技术的利用。 [[1]]https://www.life.gov.sg/ [[2]] Government Digital Service: Government uses Alexa and Google Home to make services easier to access. https://www.gov.uk/government... accessed: 2021-01-05 ...

关于语音:libsoxr音频重采样

还是音频重采样的问题，https://segmentfault.com/a/11... 的后续，利用场景是对已解码的8K采样率、16bit采样深度、单声道、无文件头的raw格局语音数据进行重采样，将采样率变为16K，其余参数不变。之前试过libsox，Release版本始终无奈正确运行，起因也没有找到，FFmpeg做进去的采样后果又和SoX不同，跟模型对不上。依据官网的说法soxr和SoX应该是一样的，只不过是专门做疾速高精度的一维声采样。对于我这么简略的利用场景，实践上它俩成果应该能够达到齐全一样，然而我用libsoxr做进去的采样后果和SoX就不一样，肉眼看上去波形没有区别，然而看二进制文件差异还挺大的……我尝试扭转了一些参数，包含dither和quality的各项参数，然而都没有失去雷同后果。也搜了讨论区和StackOverflow，都没有失去解答。上面是代码，心愿有人能指出我的问题。 #include "soxr.h"bool Resample (short* pWavBuf, int wavLen, short* pWav16k, int wavLen16k) {//pWavBuf为输出的raw格局语音数据，采样率8K，采样深度16bit；//wavLen为输出数据的长度，单位为样点数，并非数据长度的字节数//pWav16k为输入的缓存//wavLen16k为输入数据的长度，单位仍然为样点数 size_t ilen = wavLen; //input samples per channel size_t olen = ilen * 2; //output samples per channel wavLen16k = olen; double irate = 8000; //input sample reate double orate = 16000; //output sample rate soxr_io_spec_t io_spec; //io format io_spec.itype = SOXR_INT16; //input datatype io_spec.otype = SOXR_INT16; //output datatype io_spec.scale = 1; //linear io_spec.e = NULL; //reserved io_spec.flags = SOXR_TPDF; //SOXR_NO_DITHER也试过，都不行 soxr_quality_spec_t qua_spec; //quality qua_spec = soxr_quality_spec(SOXR_HQ, 0); //not sure size_t idone, odone; soxr_error_t error; //single call to resample one wav error = soxr_oneshot(irate, orate, 1, pWavBuf, ilen, &idone, pWav16k, olen, &odone, &io_spec, &qua_spec, NULL); return true;}

语音转换文字软件哪个好语音如何免费转换文字

语音转换文字软件哪个好？经常会有人询问我这个问题，因为我们会经常需要在会议记录、商务访谈等场合，通过即刻录音来轻松记录会议纪要。那么当我们遇到类似问题时，我们该如何解决语音转换文字问题呢？别急，今天小编将要分享给大家一个好方法。 1：打开手机应用市场想要一个好一点的语音转换文字软件，我们需要打开手机应用市场。 2：选择工具在手机应用市场搜索并打开我们的APP迅捷PDF转换器（如图片所示），进入准备阶段。 3：语音识别打开工具后，进入小功能页面，选择并点击语音识别功能。 4：语音识别页面在语音识别页面，长按最下角的录音按钮，开始说话，录音结束后，即可开始识别 5：转换结果语音转换文字的结果会很快的识别出来，而转换出的文字你可以点击最下角的复制按钮，进行复制保存。以上就是小编分享的如何利用语音转换文字软件免费进行语音识别的方法，是不是觉得特别简单。如果你刚好需要，不如赶紧尝试一下吧，小编也希望可以帮助到大家。

抓住语音社交风口1天快速搭建语音聊天室

语音聊天室孵化一起KTV、众人大合唱、语音开黑、狼人杀、剧本杀、多人配音、观影、语音电台、相亲联谊社交等，一般都是在语音聊天室中进行，那么语音聊天室产品如此火热的原因有哪些呢？一对一社交适用于朋友、家人之间，而更多的社交场景需要多人参与，聊天室的多人属性，正好满足此需求，用户按照自己的兴趣去交友聊天，也让社交更加多样化、娱乐化。对于有视频社交压力的用户来讲，实时展示自己的画面会是一个高压场景，压力也会明显大于文字、图片、语音等。另外，文字、图片社交不能携带太多用户的情绪和态度。语音社交不仅可以解决视频社交压力用户的痛点，也可以通过感知对方音量、音色等，感受到一个“真实”的对话者，让用户在轻松氛围中交友聊天。语音聊天室原型越来越多的产品提供语音聊天室，在语音聊天室的基础上创建多种玩法，那么一个标准的语音聊天室原型是怎样的呢？语音聊天室应该有如下角色：创建者、管理员、普通成员。房间创建者拥有聊天室所有权限；管理员应该具有拉黑、禁言、踢人、设置普通成员权限、设置房间属性：如设置背景音乐、背景图、房间密码等；普通成员可以加入房间，申请连麦，参与语音聊天互动等。语音聊天室的技术关键点语音聊天室需要为用户提供长时间、高频次语音连麦互动功能，在网络抖动时保证语音通话流畅、延迟小、卡顿低、音质好。因此开发语音聊天室，一些技术关键点需要关注，如：频繁麦位切换：抢麦、跳麦、麦位排序、抱麦、上麦、下麦等是典型场景，复杂的麦位逻辑需要详细设计，否则影响会产品体验；高并发：应用高峰一般会出现在午休时刻、晚上或者周末，音视频通话发起、接听数会瞬间爆发增长，如果音视频架构不能支持海量并发，那么通话发起或者接听不成功、丢包、卡顿、延时等现象出现几率极高；卡顿：通常是由丢包引起，涉及到音视频编解码性能质量，以及端到端的传输链路设计都会对卡顿造成影响；时延：通话延时大于150ms时，就会影响通话质量通话连续性影响，当最大时延大于400ms，基本听不到对方讲话；音质：噪声、回声、听不清、无声等音质问题，特别影响用户体验，提高音质，适配机型、适配音频编解码、调优性能等工作需要重视。网易云信语音聊天室方案根据语音聊天室用户的需求，以及需要考虑的核心要点，网易云信提出两种语音聊天室方案，让客户迅速搭建语音聊天室。在介绍方案之前先介绍几个概念：房间：用户进行多人实时音视频通话的地方房主：音视频房间的创建者或者管理员连麦者：在多人通话时参与语音互动，发言的人，可以发送语音，接收其他连麦者、房主语音观众：只可以收听的人，没有发言的权限，其中连麦者和观众身份可以随时切换。方案A，实时音视频方案方案A的连麦互动基于多人实时音视频通话架构实现，选择纯音频模式，多人连麦进行实时音频通话，观众只可以听连麦者、房主的声音，不可以发言。要强调的是方案A的优点是观众听到声音延时小，但是支持观众人数有上限。方案B，互动直播方案方案B是基于音视频直播与实时互动开发架构实现，互动直播由连麦互动和直播两部分组成，其中连麦互动基于音频通话实现，房主、连麦者互动合并直播，普通观众拉流观看语音聊天室的直播。要强调的是方案B支持观众人数无上限，但是拉流延时相对方案A有点大。介绍完语音聊天室的架构之后，接下来重点介绍一下核心模块实现，如多人语音互动、麦位管理以及成员权限管理等。• 语音互动语言聊天室多人语音互动是基于自研的音视频通话开发框架实现，流程如图所示多人语音互动流程• 麦位管理麦位管理是聊天室常用功能之一，麦位管理分类主要有：上麦、下麦、跳麦、抱麦、抢麦、禁麦、解禁等，网易云信麦位管理方案基于自研的聊天室队列实现。 • 权限管理语音聊天室不同成员具有不同权限，按照不同角色进行分类：语音聊天室权限网易云信的语音聊天室权限管理方案基于自研的IM以及聊天室自定义消息、系统消息实现。网易语音聊天室方案特点丰富灵活的API：实现场景自由切换与角色灵活设置，连麦者、观众观战轻松掌控、群聊/私聊切换；音质清晰：音频独家48kHz超宽屏音质，支持全频带编解码，PLC丢包补偿算法，自适应音频模式提供复杂音频环境解决方案，满足音质要求的痛点；抗抖动、丢包：智能网络探测，智能Qos保障，音视频码率自适应，多种核心算法保障弱网环境音频体验，可抗800ms网络抖动，30%丢包；低延时：端到端平均延时低于200ms，实时连麦互动无压力；易集成、扩展：集成稳定IM、音视频服务，满足即时通信聊天场景，高度灵活可扩展，不仅支持多人语音连麦，还支持多人视频连麦；麦位管理方便：IM、聊天室自定义消息、聊天室队列接口，便捷实现频繁麦位管理需求，优化麦位管理逻辑；高可用：服务器使用高可用的架构部署，对于服务器宕机、网络切断，使用了相应的恢复和切换策略。网易云信已经为诸多专注语音社交的客户提供优质音视频服务，语音聊天室方案的功能与服务也会越来越全面，满足更广泛场景需求，让用户快速搭建，抓住语音社交的风口。想要阅读更多行业洞察和技术干货，请关注网易云信博客。

阿里工程师养了只“二哈”，专治讨厌的骚扰电话

前几天的3.15晚会上曝光了利用智能机器人，一天打4万个骚扰电话，从而赚取利润的黑色产业链。阿里的工程师恼了，技术是用来让人们生活变美好的，不是被利用来走向阴暗的。机器人的问题交给机器人！工程师们用业余时间开发的AI机器人——“二哈”要登场了~视频感受一下咱们“二哈”，连女推销员都丝毫没有察觉。1、别惹程序员，用机器人对付机器人研发“二哈”，其实就是阿里的技术人，对日益普遍的骚扰电话很头疼，而且更可气的是，大量骚扰电话是机器自动拨出的，成本越来越低。这些骚扰电话，甚至还影响到日常工作，会议开着开着，经常被各类电话打断导致会议终中断。于是阿里AI实验室的同学们开始思考着如何用技术的方式解决问题。阿里AI实验室天猫精灵算法团队，聚集着语音识别、NLP、知识图谱……全链条的技术人才，当技术人聚在一起，那就能搞事情了。于是他们先以“课余”项目开始，参与的同学都很开心。一方面是解气，另一方面更清楚背后带来的意义。没想到在今年3.15晚会上，机器人骚扰电话引起如此大关注。于是团队决定公开最新研发成果，“二哈”也正式从幕后走到台前，一炮而红。2、我们要做到真假难辨“二哈”是这个智能防骚扰电话技术的项目代号。当用户在手机上开通了这项服务，在接到骚扰来电时，用户可以直接转接给机器人接听。我们都知道哈士奇之所以被喊作“二哈”，就是它欢乐多，工作起来又相当认真。阿里的程序员们，就是希望这个“课余”爱好的项目，给自己带来快乐，也能帮主人扫除骚扰电话的焦虑。而“二哈”背后，其实主要使用了智能聊天技术。所谓“智能聊天”，就是要理解用户请求，同时用强大的知识图谱制作聊天的知识点，通过跟用户对话，把知识图谱里的知识灌输给用户，同时也引导用户反馈。听起来，简单的一段话，要真正实现聊天聊得“真假难辨”却十分不容易。于是，我们特地请教了阿里达摩院AI实验室语音助手首席科学家聂再清。他告诉大家，要做到真假难辨，最核心的是以下3点：第一，接住用户的每一句话。因为用户的输入空间非常大，要理解和聪明的回复来电者的每一句话很有难度。对于一些不是“二哈”知识领域的问题，阿里AI目前采用了闲聊（ChitChat）的技术，从互联网上公开的人类对话库中来找到最适合回复。目标是让来电者看不出“二哈”可能的知识缺乏。第二，主动提出一个相关问题。这更多是一个对话策略学习的工作，需要让来电者知道“二哈”真能理解他们的话，并提出只有理解了对话上下文，才能提出的好问题。一味被动接话，很容易被识破。该项挑战非常大，核心就是一套聊天机器人对话策略学习框架，让“二哈”这样的聊天机器人在不同的场景下都可以持续学习。通过和人类不断对话，“二哈”AI会通过深度强化学习越来越好地知道如何提问才能更好地达成他的目标。最后，像真人一样的语音语调以及停顿。如果推销广告的骚扰电话，通过声音判断初接电话的是个机器人，他们就不会继续聊下去了。所以“二哈”在语音合成方面做了很多工作。阿里AI最新算法利用Tacotron加上基于神经网络的声码器算法，合成出极其逼真的人声，但还有很大比例情况不能通过图灵测试。于是“二哈”现在采取了过渡性方案，把非常高频的回复借用真人录播。感受一下“二哈”真声和“二哈”的互相调戏学习，竟然没有一点违和感呢。3、不止用来对付骚扰电话“二哈”就只是帮对付骚扰电话而已嘛？当然不是咯。项目组的工程师说，“二哈”的进一步的目标是成为每个人的AI电话秘书，除了帮主人应付骚扰电话，还可以在主人繁忙的时候询问来电的主要意图，也能帮主人预约议程。在你不方便接电话时帮接听来电，并转换成文字向你“汇报”。“二哈”这样的AI电话秘书，可以利用个性化TTS，模仿出跟主人声音极尽逼真的声音。可以把它看作是你的‘声替’，也可以用任何喜欢的声音替你接打电话。阿里工程师还在畅想，是否有一天，它还还可以帮助聋哑人打电话？技术的进步可以延伸人的能力，也可以弥补人的缺陷。阿里人常说，所有的异想天开，终究化为寻常。希望这样的“寻常”能早点到来！讲真，这样的私人秘书，你期不期待？最后告诉你一个小技能：在支付宝搜索天猫精灵，或直接打开天猫精灵App，就可以调戏这只二哈！本文作者：代码橙阅读原文本文来自云栖社区合作伙伴“ 阿里味儿”，如需转载请联系原作者。

以语音评测的PC端demo代码为例，讲解口语评测如何实现

本文由云+社区发表作者：腾讯智慧教育概述腾讯云智聆口语评测（英文版）（Smart Oral Evaluation-English，SOE-E）是腾讯云推出的语音评测产品，是基于英语口语类教育培训场景和腾讯云的语音处理技术，应用特征提取、声学模型和语音识别算法，为儿童和成人提供高准确度的英语口语发音评测。腾讯云智聆口语评测（英文版）支持单词和句子模式的评测，多维度反馈口语表现，可广泛应用于英语口语类教学应用中。本 SDK 为智聆口语测评（英文版）的 Web 版本，封装了对智聆口语测评（英文版）网络 API 的调用及本地音频文件处理，并提供简单的录音功能，使用者可以专注于从业务切入，方便简洁地进行二次开发。本文档只对 Web SDK 进行描述，详细的网络 API 说明请参见 API 文档。使用说明SDK引入只需要在您的 Web 页面中添加如下代码即可：html<script src=“https://imgcache.qq.com/open/qcloud/soe/TencentSOE-0.0.1.js"></script>创建对象new TencentSOE参数类型说明是否必填默认值InitUrlString初始化接口地址是无TransUrlString评分接口地址是无WorkModeInteger上传方式：语音输入模式，0流式分片，1非流式一次性评估否0EvalModeInteger评估模式，0:词模式, 1:句子模式否0ScoreCoeffFloat评价苛刻指数，取值为1.0 - 4.0范围内的浮点数用于平滑不同年龄段的分数，1.0为小年龄段，4.0为最高年龄段否3.5SoeAppIdString业务应用ID，与账号应用APPID无关，是用来方便客户管理服务的参数否无StorageModeInteger音频存储模式，0：不存储，1：存储到公共对象存储，输出结果为该会话最后一个分片TransmitOralProcess 返回结果 AudioUrl 字段。否无successfunction创建成功回调否无errorfunction创建失败回调否无用户需自行替换后台接口地址,nodejs版本可参考此SDKlet recorder = new TencentSOE({ InitUrl: ‘http://127.0.0.1:3000/cgi/init’, TransUrl: ‘http://127.0.0.1:3000/cgi/trans’, success() { // TODO }, error(err) { console.log(err); } });方法初始化/** * 调用初始化接口，设置测评文本 * @param { * success: function() {} // 成功回调 * error: function() {} // 失败回调 * } /recorder.init({ RefText: ‘about’, success() { recorder.start(); }, error(err) { console.log(err); }});开始录音/* * 开始录音 * @param { * error: function() {} // 录音过程出现错误时回调，选填 * } /recorder.start({ error(err) { console.log(err); }});停止录音/* * 停止录音，返回测评结果 * @param { * success: function() {} // 成功回调 * error: function() {} // 失败回调 * } /recorder.stop({ success(res) { // 获取blob对象，创建audio进行回放 let audio = document.createElement(‘audio’); audio.setAttribute(‘controls’, ‘’); let blobUrl = URL.createObjectURL(res.blob); document.body.appendChild(audio); // 输出测评得分 console.log(res.PronAccuracy) }, error(err) { console.log(err); }});重置参数/* * 重置参数，用于修改请求参数 * @param {Object} params */recorder.reset({ WorkMode: 1});在线Demohttps://soe.cloud.tencent.com错误码code错误说明10000参数格式错误10001当前浏览器不支持录音功能10002未开启麦克风访问权限10003未提供发音评估初始化接口10004未提供发音数据传输接口接口10005未提供测评文本10020接口错误Tip：非本地环境必须使用https协议极简示例创建html，引入TencentSOE SDK，代码如下<!DOCTYPE html><html lang=“en”><head> <meta charset=“UTF-8”> <title>Title</title> <script src=”//imgcache.qq.com/open/qcloud/soe/TencentSOE-0.0.1.js"></script></head><body> <input type=“text” value=“about” id=“word”> <button id=“start”>开始录音</button> <button id=“stop”>结束录音</button> <!– 显示当前状态 –> <span id=“status”></span> <!– 显示测评结果 –> <div id=“result”></div></body></html>编写录音代码：开始录音、结束录音、展示结果，代码如下let recorder = new TencentSOE({ InitUrl: ‘http://127.0.0.1:3000/cgi/init’, TransUrl: ‘http://127.0.0.1:3000/cgi/trans’, success(res) { console.log(‘创建成功’); }, error(err) { console.log(‘创建失败’); },});startBtn.onclick = function () { result.innerHTML = ‘’; status.textContent = ‘初始化中’; recorder.init({ RefText: word.value, success(res) { status.textContent = ‘录音转码中…’; recorder.start(); }, error(err) { console.log(’err’, err); } });};stopBtn.onclick = function () { recorder.stop({ success(res) { status.textContent = ‘已结束’; createAudioLinkFromBlob(res, ‘wav’); }, error(err) { console.log(’err’, err); } });};// 创建音频、下载链接function createAudioLinkFromBlob(res, type) { let audio = document.createElement(‘audio’); let alink = document.createElement(‘a’); let score = document.createElement(‘span’); let blobUrl = URL.createObjectURL(res.blob); alink.download = ‘demo.’ + type; alink.textContent = ‘demo.’ + type; alink.href = blobUrl; audio.src = blobUrl; audio.setAttribute(‘controls’, ‘’); score.textContent = ‘分数：’ + res.PronAccuracy; let container = document.createElement(‘div’); container.appendChild(audio); container.appendChild(alink); container.appendChild(score); result.appendChild(container);}此文已由腾讯云+社区在各渠道发布获取更多新鲜技术干货，可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号 ...

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

阿里妹导读：语音识别技术作为人工智能技术中的重要组成部分，成为影响人机交互的核心组件之一，从各种智能家用IoT设备的语音交互能力，到公共服务、智慧政务等场合的应用，语音识别技术正在影响着人们生活的方方面面。本文将全面介绍阿里云语音识别技术中的重要模型端技术，希望和业界同仁交流探讨。声学模型、语言模型和解码器可以看作是现代语音识别系统最核心的三个组成部分。虽然最近有一些研究者尝试构建End2end的语音识别系统，但包含声学模型、语言模型和解码器的现代语音识别系统依然是当前最主流和使用最广泛的系统。在这其中，声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系；语言模型用来描述不同字词之间的概率搭配关系，使得识别出的句子更像自然文本；解码器负责结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选，最终得到最可能的识别结果。随着近几年深度学习的火热，语音识别领域也纷纷投入深度学习的大潮之中。将传统HMM-GMM声学模型替换成HMM-DNN声学模型后，可以获得超过20%的相对提升，在传统N-Gram语言模型基础上叠加NN-LM语言模型也可以获得进一步的提高。在这过程中，声学模型由于更适合采用深度神经网络模型，从而受到研究者更多的关注。本文主要介绍阿里云语音识别技术中采用的声学模型技术和语言模型技术，包括LC-BLSTM声学模型、LFR-DFSMN声学模型和NN-LM语言模型，其中LC-BLSTM是对传统BLSTM模型的一种改进，在保持了高准确率的同时，提供了低延时的特性；而DFSMN是一种新颖的非递归结构的神经网络却可以像RNN一样对信号的长时相关进行建模，同时可以获得更稳定的训练效果和更好的识别准确。NN-LM语言模型是近年来在传统N-Gram语言模型基础上获得的进一步改进。Latency-Controlled BLSTM模型DNN（即fully connected DNN）模型的优点在于通过增加神经网络的层数和节点数，扩展了网络对于复杂数据的抽象和建模能力，但同时DNN模型也存在一些不足，例如DNN中一般采用拼帧来考虑上下文相关信息对于当前语音帧的影响，这并不是反映语音序列之间相关性的最佳方法。自回归神经网络（RNN）在一定程度上解决了这个问题，它通过网络节点的自连接达到利用序列数据间相关性的目的。进一步有研究人员提出一种长短时记忆网络（LSTM-RNN），它可以有效减轻简单RNN容易出现的梯度爆炸和梯度消散问题，而后研究人员又对LSTM进行了扩展，使用双向长短时记忆网络（BLSTM-RNN）进行声学模型建模，以充分考虑上下文信息的影响。BLSTM模型可以有效地提升语音识别的准确率，相比于DNN模型，相对性能提升可以达到15%-20%。但同时BLSTM模型也存在两个非常重要的问题：1、句子级进行更新，模型的收敛速度通常较慢，并且由于存在大量的逐帧计算，无法有效发挥GPU等并行计算工具的计算能力，训练会非常耗时；2、由于需要用到整句递归计算每一帧的后验概率，解码延迟和实时率无法得到有效保证，很难应用于实际服务。对于这两个问题，学术界首先提出Context-Sensitive-Chunk BLSTM（CSC-BLSTM）的方法加以解决，而此后又提出了Latency Controlled BLSTM（LC-BLSTM）这一改进版本，更好、更高效地减轻了这两个问题。我们在此基础上采用LC-BLSTM-DNN混合结构配合多机多卡、16bit量化等训练和优化方法进行声学模型建模，取得了相比于DNN模型约17-24%的相对识别错误率下降。典型的LSTM节点结构由3个gate组成：input gate、forget gate、output gate和一个cell组成，输入、输出节点以及cell同各个门之间都存在连接；inputgate、forget gate同cell之间也存在连接，cell内部还有自连接。这样通过控制不同门的状态，可以实现更好的长短时信息保存和误差传播。LSTM可以像DNN一样逐层堆积成为DeepLSTM，为了更好地利用上下文信息，还可以使用BLSTM逐层堆积构造Deep BLSTM，其结构如下图所示，网络中沿时间轴存在正向和反向两个信息传递过程，每一个时间帧的计算都依赖于前面所有时间帧和后面所有时间帧的计算结果，对于语音信号这种时序序列，该模型充分考虑了上下文对于当前语音帧的影响，能够极大提高音素状态的分类准确率。然而由于标准的BLSTM是对整句语音数据进行建模，训练和解码过程存在收敛慢、延迟高、实时率低等问题，针对这些弊端我们采用了Latency Controlled BLSTM进行解决，与标准的BLSTM使用整句语音进行训练和解码不同，Latency Control BLSTM使用类似truncated BPTT的更新方式，并在cell中间状态处理和数据使用上有着自己的特点，如下图所示，训练时每次使用一小段数据进行更新，数据由中心chunk和右向附加chunk构成，其中右向附加chunk只用于cell中间状态的计算，误差只在中心chunk上进行传播。时间轴上正向移动的网络，前一个数据段在中心chunk结束时的cell中间状态被用于下一个数据段的初始状态，时间轴上反向移动的网络，每一个数据段开始时都将cell中间状态置为0。该方法可以很大程度上加快网络的收敛速度，并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同，不同之处在于中心chunk和右向附加chunk的维度可以根据需求进行调节，并不必须与训练采用相同配置。LFR-DFSMN模型FSMN是近期被提出的一种网络结构，通过在前馈全连接神经网络（Feedforward Fully-connectedNeural Networks，FNN）的隐层添加一些可学习的记忆模块，从而可以有效地对信号的长时相关性进行建模。FSMN相比于LCBLSTM不仅可以更加方便的控制时延，而且往往也能获得更好的性能，需要的计算资源也更少。但是标准的FSMN很难训练非常深层的结构，由于梯度消失问题导致训练效果不好。而深层结构的模型目前在很多领域被证明具有更强的建模能力。因而针对此我们提出了一种改进的FSMN模型，称之为深层的FSMN（Deep FSMN, DFSMN）。进一步的我们结合低帧率（Low Frame Rate，LFR）技术构建了一种高效的实时语音识别声学模型，相比于去年我们上线的LFR-LCBLSTM声学模型可以获得超过20%的相对性能提升，同时可以获得2-3倍的训练以及解码的加速，可以显著的减少我们的系统实际应用时所需要的计算资源。最早提出的FSMN的模型结构如上图（a）所示，其本质上是一个前馈全连接神经网络，通过在网络的某些隐层旁添加一些记忆模块（memory block）来对当前时刻周边的上下文信息进行建模，从而使得模型可以对时序信号的长时相关性进行建模。记忆模块采用如上图（b）所示的抽头延迟结构将当前时刻以及之前 N 个时刻的隐层输出通过一组系数编码得到一个固定的表达。FSMN的提出是受到数字信号处理中滤波器设计理论的启发：任何无限响应冲击（Infinite Impulse Response, IIR）滤波器可以采用高阶的有限冲击响应（FiniteImpulseResponse, FIR）滤波器进行近似。从滤波器的角度出发，如上图（c）所示的RNN模型的循环层就可以看作如上图（d）的一阶IIR滤波器。而FSMN采用的采用如上图（b）所示的记忆模块可以看作是一个高阶的FIR滤波器。从而FSMN也可以像RNN一样有效的对信号的长时相关性进行建模，同时由于FIR滤波器相比于IIR滤波器更加稳定，因而FSMN相比于RNN训练上会更加简单和稳定。根据记忆模块编码系数的选择，可以分为：标量FSMN（sFSMN）矢量FSMN（vFSMN）sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记忆模块的编码系数。以上的FSMN只考虑了历史信息对当前时刻的影响，我们可以称之为单向的FSMN。当我们同时考虑历史信息以及未来信息对当前时刻的影响时，我们可以将单向的FSMN进行扩展得到双向的FSMN。FSMN相比于FNN，需要将记忆模块的输出作为下一个隐层的额外输入，这样就会引入额外的模型参数。隐层包含的节点越多，则引入的参数越多。研究结合矩阵低秩分解（Low-rank matrix factorization）的思路，提出了一种改进的FSMN结构，称之为简洁的FSMN（Compact FSMN，cFSMN）。下图是一个第l个隐层包含记忆模块的cFSMN的结构框图。对于cFSMN，通过在网络的隐层后添加一个低维度的线性投影层，并且将记忆模块添加在这些线性投影层上。进一步的，cFSMN对记忆模块的编码公式进行了一些改变，通过将当前时刻的输出显式的添加到记忆模块的表达中，从而只需要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量，加快网络的训练。上图是我们进一步提出的Deep-FSMN（DFSMN）的网络结构框图，其中左边第一个方框代表输入层，右边最后一个方框代表输出层。我们通过在cFSMN的记忆模块（红色框框表示）之间添加跳转连接（skip connection），从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中，高层记忆模块的梯度会直接赋值给低层的记忆模块，从而可以克服由于网络的深度造成的梯度消失问题，使得可以稳定的训练深层的网络。相比于之前的cFSMN，DFSMN优势在于，通过跳转连接可以训练很深的网络。对于原来的cFSMN，由于每个隐层已经通过矩阵的低秩分解拆分成了两层的结构，这样对于一个包含4层cFSMN层以及两个DNN层的网络，总共包含的层数将达到13层，从而采用更多的cFSMN层，会使得层数更多而使得训练出现梯度消失问题，导致训练的不稳定性。我们提出的DFSMN通过跳转连接避免了深层网络的梯度消失问题，使得训练深层的网络变得稳定。需要说明的是，这里的跳转连接不仅可以加到相邻层之间，也可以加到不相邻层之间。跳转连接本身可以是线性变换，也可以是非线性变换。具体的实验我们可以实现训练包含数十层的DFSMN网络，并且相比于cFSMN可以获得显著的性能提升。从最初的FSMN到cFSMN不仅可以有效的减少模型的参数，而且可以获得更好的性能。进一步的在cFSMN的基础上，我们提出的DFSMN，可以更加显著的提升模型的性能。如下表是在一个2000小时的英文任务上基于BLSTM，cFSMN，DFSMN的声学模型性能对比。从上表中可以看到，在2000小时这样的任务上，DFSMN模型可以获得比BLSTM声学模型相对14%的错误率降低，显著提高了声学模型的性能。传统的声学模型，输入的是每帧语音信号提取的声学特征，每帧语音的时长通常为10ms，对于每个输入的语音帧信号会有相对应的一个输出目标。最近有研究提出一种低帧率（Low Frame Rate，LFR）建模方案：通过将相邻时刻的语音帧进行绑定作为输入，去预测这些语音帧的目标输出得到的一个平均输出目标。具体实验中可以实现三帧（或更多帧）拼接而不损失模型的性能。从而可以将输入和输出减少到原来的三分之一甚至更多，可以极大的提升语音识别系统服务时声学得分的计算以及解码的效率。我们结合LFR和以上提出的DFSMN，构建了基于LFR-DFSMN的语音识别声学模型，经过多组实验我们最终确定了采用一个包含10层cFSMN层+2层DNN的DFSMN作为声学模型，输入输出则采用LFR，将帧率降低到原来的三分之一。识别结果和去年我们上线的最好的LCBLSTM基线比较如下表所示。通过结合LFR技术，我们可以获得三倍的识别加速。从上表中可以看到，在实际工业规模应用上，LFR-DFSMN模型比LFR-LCBLSTM模型可以获得20%的错误率下降，展示了对大规模数据更好的建模特性。NN-LM语言模型语言模型，顾名思义，对语言进行建模的模型。语言表达可以看作一串字符序列，不同的字符序列组合代表不同的含义，字符的单位可以是字或者词。语言模型的任务，可以看作是给定字符序列，如何估计该序列的概率，或者说，如何估计该序列的合理性。P(上海的工人师傅有力量)>P(上海的工人食腐有力量)拿这句话做个例子。比如到底应该是“工人师傅有力量”，还是“工人食腐有力量”，哪句话更“合适”。我们容易判断左边这句的概率大一点。于是我们希望通过语言模型的建模，可以给出符合人类预期的概率分配。就像这句，“工人师傅”的概率，大于“工人食腐”的概率。基于统计词频的传统N元文法模型，通过马尔可夫假设简化了模型结构和计算，通过计数的方式计算，通过查找的方式使用。拥有估计简单、性能稳定、计算快捷的优势，有超过三十年的使用历史。然而其马尔科夫假设强制截断建模长度，使得模型无法对较长的历史建模；基于词频的估计方式也使得模型不够平滑，对于低词频词汇估计不足。随着神经网络（Neural Networks，NNs）的第三次崛起，人们开始尝试通过NN来进行语言模型建模。一个典型的建模结构是递归神经网络（recurrentneural networks，RNNs），其递归的结构理论上可以对无穷长序列进行建模，弥补了N元文法对于序列长度建模的不足；同时其各层间的全向连接也保证了建模的平滑。此外为了提升模型的性能，研究者们还尝试了通过长短时记忆（Long Short-Term Memory，LSTM）结构来提升基本RNN本身建模能力的不足，进一步提升模型性能。NN用于大规模语言建模的系统中，需要面对一些问题，例如大词表带来的存储和计算增加。实际线上系统的词表往往比较大，而随着词表的增加，基本RNN结构的存储和计算量都会几何级数爆炸式增长。为此，研究者们进行了一些尝试，压缩词典尺寸成了一个最直接的解决方案，一个经典的方法是词表聚类。该方法可以大幅压缩词表尺寸，但往往也会带来一定的性能衰减。更直接的一个想法是直接过滤掉低频词汇，这样依然会带来一定的性能衰减，据此有一个改进策略，我们发现真正制约速度性能的主要是输出层节点，输入层节点大，借助projection层可以很好解决，于是输入层采用大辞典，而仅对输出层词表进行抑制，这样不仅尽可能地降低了损失，同时过滤掉过低的词频，也有利于模型节点的充分训练，性能往往还会略有提升。词表的压缩可以提升建模性能，降低计算量和存储量，但仅限于一定的量级，不可以无限制压缩，如何继续降低计算量依然是一个问题。一些方法被提了出来。例如LightRNN，通过类似聚类的方式，利用embedding的思想，把词表映射到一个实值矩阵上，实际输出只需要矩阵的行加矩阵的列，计算量大概也能开个方。和节点数多一起造成计算量大的一个原因就是softmax输出，需要计算所有的节点求个和，然后得到分母。若是这个分母能保持一个常数，实际计算的时候就只算需要的节点，在测试环节就快的多了。于是就有了正则项相关的方法，Variance Regularization，如果训练速度可以接受的话，这种方法在基本不损失模型正确性的情况下可以大幅提升前向计算速度；如果训练的时候也想提速，还可以考虑基于采样，sampling的方法，比如NCE、Importance Sampling、Black Sampling等，本质上就是说，在训练的时候不计算全部节点，只计算正样本（也就是标签为1的节点），以及部分通过某种分布采样的到的负样本，避免高输出造成的计算缓慢。速度上提升还是很明显的。从阿里云获得开发者模型定制能力想象一个做智能电话客服或是智能会议系统的开发者，需要为他的系统接入语音识别（将语音转写为文字）的能力。摆在他面前的会是这样一个尴尬的局面：一个选择是自己从零开始学做语音识别，这可能要花费大量的时间和金钱。毕竟人工智能这种事情，各大互联网巨头投入大量的人力、物力、财力，也要花较长的时间才能积累下技术；第二个选择是用上述巨头们在互联网上提供的开箱即用的、one size fits all的语音识别接口，时间是省下了，但语音转文字的准确率嘛，只能碰碰运气，毕竟巨头们也很忙，没有精力为你关注的场景进行优化。那么问题来了：有没有一种手段能够以最小的投入获得业务上最佳的语音识别效果呢？答案是肯定的。阿里云依托达摩院业界领先的语音交互智能，打破传统语音技术提供商的供给模式，在云计算时代让普通开发者也能够通过阿里云提供的语音识别云端自学习技术，获得定制优化自己所关心的业务场景的成套手段。阿里云让广大的开发者站在巨头的肩膀上，通过自主可控的自学习，在短时间内实现对语音识别系统应用从入门到精通，并在开发者关心的场景下轻松拥有业界顶尖的语音识别准确率。这就是云计算时代的语音识别技术全新的供给模式。与其它人工智能技术一样，语音识别技术的关键在于算法、算力和数据三个方面。阿里云依托达摩院语音交互智能，近年来持续在世界前沿进行“算法”演进，近期还将最新的研究成果DFSMN声学模型开源，供全世界的研究者复现目前最佳的结果并进行持续提升。在“算力”方面自不用说，这本身就是云计算的天然强项。基于阿里云ODPS-PAI平台，我们构建了专为语音识别应用优化的CPU/GPU/FPGA/NPU训练和服务混布平台，每天服务于阿里云上巨量的语音识别请求。在“数据”方面，我们提供通过海量数据训练的、开箱即用的场景模型，包括电商、客服、政务、手机输入等等。同时应该看到，在具体的落地场景下往往会有一些非常特殊、领域相关的“说法”需要被识别，很多时候类似于“碎屑岩岩性地层”、“海相碳酸盐岩”这种特定说法对于通用场景模型的识别率提出了挑战。要获得开发者关心的具体场景下最佳的准确率，开箱即用的模型一般还需要一定的定制优化工作才可以达到。传统上，这样的定制是通过语音技术服务提供商来完成的，在成本、周期、可控性等方面都存在明显不足。阿里云提供的语音定制“自学习”平台服务，可以提供多种手段，在很短的时间内、以较低的成本，让开发者完全掌控模型定制优化及上线的工作。阿里云创新工具平台及服务技术，依托强大的基础设施，使得在云计算的大背景下进行大规模定制化语音服务成为可能。而开发者完全无需关心后台的技术和服务，只需要使用阿里云提供的简单易用的“自学习”工具，利用场景知识和数据，就可以获得该特定场景下最优的效果，并按需要持续迭代提升。阿里云的智能语音自学习平台具备以下优势：易：智能语音自学习平台颠覆性地提供一键式自助语音优化方案，极大地降低进行语音智能优化所需要的门槛，让不懂技术的业务人员也可以来显著提高自身业务识别准确率。快：自学习平台能够在数分钟之内完成业务专属定制模型的优化测试上线，更能支持业务相关热词的实时优化，一改传统定制优化长达数周甚至数月的漫长交付弊端。准：自学习平台优化效果在很多内外部合作伙伴和项目上得到了充分验证，很多项目最终通过自学习平台不光解决了效果可用性问题，还在项目中超过了竞争对手使用传统优化方式所取得的优化效果。举例来说，开发者可以使用下述多种“自学习”手段来定制自己关心领域的模型：a)业务热词定制在许多特定场所，要求快速对特定词的识别能力进行加强（注：包括两种模式，模式一为其他词易被识别成特定词；模式二为特定词易被识别成其他词），采用实时热词加载技术，可以在实时场景下，通过设置不同的档位，能够实现热词识别能力的加强。b)类热词定制很多时候，相同的发音相同的属性在不同上下文上会需要不同的识别效果。联系人和地名就是典型的案例，对于不同人的好友，“张阳”和“章扬”我们就必须能准确地识别出相应的名字。同样，相隔千里的安溪跟安西如果识别错误会给导航带来大麻烦。智能语音自学习平台相信“每个人都值得被尊重”，提供联系人类和地名类的定制能力，“让天下没有难识的路”。c)业务专属模型定制用户通过输入对应领域的相关文本，如行业或公司的基本介绍、客服聊天记录、领域常用词汇和专有名词等，即可快速自行生成该行业下的定制模型，整个定制过程无需用户人工干预。通过这些手段，阿里云使得开发者不必关心语音技术的算法和工程服务细节，专注于他们擅长的垂直领域的知识和数据收集，实现全新的语音技术云端供给模式，造福于广大的开发者及其业务结果。本文作者：鄢志杰、薛少飞、张仕良、郑昊、雷鸣阅读原文本文来自云栖社区合作伙伴“阿里技术”，如需转载请联系原作者。

用 C# 开发自己的语音识别程序

开发工具：vs 2017AI 平台：http://ai.baidu.com/准备工作1、注册百度账号2、登录百度 AI 开发平台，http://ai.baidu.com/3、在控制台点击“百度语音”服务，点击“创建应用”，填写必填项，勾选额外接口，点击立即创建获取秘钥。在应用列表中查看自己的id用 360 软件管家安装 vs2017 创建自己的项目1、新建项目打开 vs2017，点击文件，新建项目，选择 visual C# –> windows 桌面 –> windows 窗体应用，选择自己的项目地址，点击确定2、添加 baiduai 开发包点击引用 –> 管理 nuGet 程序包，搜索 baiduai，点击下载3、UI 设计直接拖动即可，生成界面如下4、后台功能实现选择文件按钮private void button1_Click(object sender, EventArgs e){ OpenFileDialog fdlg = new OpenFileDialog(); fdlg.Title = “C# Corner Open File Dialog”; //fdlg.InitialDirectory = @“c:/”; //@是取消转义字符的意思 //fdlg.Filter = “All files（.）|.|All files(.)|. “; ///* // * FilterIndex 属性用于选择了何种文件类型,缺省设置为0,系统取Filter属性设置第一项 // * ,相当于FilterIndex 属性设置为1.如果你编了3个文件类型，当FilterIndex ＝2时是指第2个. // / fdlg.FilterIndex = 2; /// // *如果值为false，那么下一次选择文件的初始目录是上一次你选择的那个目录， // *不固定；如果值为true，每次打开这个对话框初始目录不随你的选择而改变，是固定的 // */ //fdlg.RestoreDirectory = true; if (fdlg.ShowDialog() == DialogResult.OK) { //textBox1.Text = System.IO.Path.GetFileNameWithoutExtension(fdlg.FileName); filePath.Text = System.IO.Path.GetFullPath(fdlg.FileName); }}开始识别按钮// 语音合成按钮private void button2_Click(object sender, EventArgs e){ string value = this.videoType.Text; String filePath = this.filePath.Text; // 设置APPID/AK/SK String APP_ID = “14433392”; String API_KEY = “C7WMYgLeWv3Wm2yogwv5gD08”; String SECRET_KEY = “xcvwiwikALBDBaIcGisNQ6aQImtj3qua”; var client = new Asr(APP_ID, API_KEY, SECRET_KEY); client.Timeout = 60000; // 修改超时时间 client.Timeout = 120000; // 若语音较长，建议设置更大的超时时间. ms FileStream fs = new FileStream(filePath, FileMode.Open, FileAccess.Read); byte[] buffur = new byte[fs.Length]; try { fs.Read(buffur, 0, (int)fs.Length); } catch (Exception ex) { Console.Write(ex.StackTrace); } finally { if (fs != null) { //关闭资源 fs.Close(); } } var result = client.Recognize(buffur, value, 16000); Convert.ToString(result); JToken resultStr = null; result.TryGetValue(“result”, out resultStr); Console.WriteLine(“aToken===>"+ resultStr); voiceResult.Text = Convert.ToString(resultStr); Console.Write(result);}开始合成按钮调用 api 中 C# SDK 的语音合成 apihttps://ai.baidu.com/docs#/AS…// 开始合成按钮（语音合成功能）private void synthesisButton_Click(object sender, EventArgs e){ String APP_ID = “14433392”; String API_KEY = “C7WMYgLeWv3Wm2yogwv5gD08”; String SECRET_KEY = “xcvwiwikALBDBaIcGisNQ6aQImtj3qua”; // 获取输入框的值 String value = this.Speech_Synthesis.Text; // 将 value 转成语音文件存放到本地 var client = new Baidu.Aip.Speech.Tts(API_KEY, SECRET_KEY); // 可选参数 var option = new Dictionary<string, object>() { {“spd”, 5}, // 语速 {“vol”, 7}, // 音量 {“per”, 3} // 发音人，4：情感度丫丫童声 }; var result = client.Synthesis(value, option); try { if (result.ErrorCode == 0) { // 或 result.Success File.WriteAllBytes(“E:/prepared/北航/07_工程实践–AI方向/作业/WindowsFormsApplication1/WindowsFormsApplication1/tmp.mp3”, result.Data); } } catch (Exception ex) { Console.Write(ex.StackTrace); } Play();}关注微信公众号[ prepared ]，后续会更新一系列有深度的 AI 文章。 ...

Facebook开源语音识别系统wav2letter++简介

语音识别系统是深度学习生态中发展最成熟的领域之一。当前这一代的语音识别模型基本都是基于递归神经网络（Recurrent Neural Network）对声学和语言模型进行建模，以及用于知识构建的计算密集的特征提取流水线。虽然基于RNN的技术已经在语音识别任务中得到验证，但训练RNN网络所需要的大量数据和计算能力已经超出了大多数机构的能力范围。最近，Facebook的AI研究中心（FAIR）发表的一个研究论文，提出了一种新的单纯基于卷积神经网络（Convolutional Neural Network）的语音识别技术，而且提供了开源的实现wav2letter++，一个完全基于卷积模型的高性能的语音识别工具箱。在深度学习领域，在语音识别系统中使用CNN并不新鲜，但是大部分应用都局限于特定的任务，而且通常与RNN结合起来构成完整的系统。但是当前CNN领域的研究表明只使用卷积神经网络也有潜力在语音识别的所有领域达到最高水平，例如机器翻译、存在长程依赖的语言模型的语音合成等。CNN模型与其他技术的最大优势在于它不需要额外而且昂贵的特征提取计算就可以天然地对诸如MFCC之类的标准特征计算进行建模。因此长久以来，深度学习社区一直都期待着在语音识别工作流中完全使用CNN，因为这要比目前的基于RNN的模型更高效也更富有竞争力。全卷积语音识别架构经过很多次实验，FAIR团队决定依赖于一个整合多个不同CNN层的架构来实现端对端的语音识别流水线，从音频波形处理到语言转录。该架构基于下图所示的散射模型：模型的第一层CNN用来处理原始音频并提取一些关键特征；接下来的卷积声学模型是一个具有门限单元的CNN，可通过训练从音频流中预测字母；卷积语言模型层则根据来自声学模型的输入生成候选转录文本；最后环节的集束搜索（Beam-Search）编码器则完成最终的转录单词序列。FAIR团队将其全卷积语音识别模型与最先进的模型进行了对比，它可以用少的多的训练数据达到基本一致的性能，测试结果令人满意因此FAIR团队决定开源该算法的初始实现。Wav2letter++虽然深度学习技术近期的进步促进了自动语音识别（Automatic Speech Recognition）框架和工具箱的增加。然而，全卷机语音识别模型的进步，激励了FAIR团队创建wav2letter++，一个完全使用C++实现的深度语音识别工具箱。wav2letter++的核心设计基于以下三个关键原则：实现在包含成千上万小时语音数据集上的高效模型训练简单可扩展模型，可以接入新的网络架构、损失函数以及其他语音识别系统中的核心操作平滑语音识别模型从研究到生产部署的过渡基于以上原则，wav2letter++实现了如下图所示的非常直白的架构：为了更好地理解wav2letter++的架构，有以下几点值得着重指出：ArrayFire张量库：wav2letter++使用ArrayFire作为张量操作的基础库。ArrayFire支持硬件无关的高性能并行建模，可以运行在多种后端上，例如CUDA GPU后端或CPU后端数据预备和特征提取：wav2letter++支持多种音频格式的特征提取。框架可以在每次网络评估之前即时计算特征，并且通过异步并行计算来实现模型训练的效率最大化模型：wav2letter++包含一组丰富的端对端序列模型，也包含众多网络架构以及激活函数。可扩展的训练：wav2letter++支持三种主要的训练模式：train ：从零开始训练continue ：从检查点状态继续训练(continuing with a checkpoint state),fork ：可用于迁移学习。训练流水线使用并行数据、同步随机梯度下降以及基于NVIDIA的集群通信库，可以无缝伸缩。解码：wav2letter++解码器是基于前面提到的全卷积架构中的集束搜索解码器，它负责输出最终的音频转录文本Wav2letter++实战FAIR团队将wav2letter++与其他语音识别进行了对比测试，例如ESPNet、Kaldi和OpenSeq2Seq。实验基于著名的华尔街日报CSR数据集。初始结果表明wav2letter++在训练周期中的任一方面都完胜其他方案。完全基于CNN的语音识别系统当然是一个有意思的实现途径，它可以优化对计算能力和训练数据的需求。Facebook的wav2letter++实现已经被视为当前最快的语音识别框架之一。我们将在不久的未来看到该领域越来越多的进步。汇智网翻译整理，转载请标明出处：Introducing Wav2letter++

h5语音聊天audio实战|仿微信语音效果|h5即时聊天系统

最近一段时间不是那么忙，就抽空整理了下之前的项目，因为之前有开发过H5聊天项目，只是觉得好些功能都没有特别的完善，所以就把之前项目重新开发了下，如是就有了这个html5版实时聊天语音项目weChatIM系统。依旧使用的是h5+css3+jquery+wcPop+swiper+weScroll等技术架构开发，新增了上拉刷新加载数据，右键长按菜单弹窗、仿微信语音效果(按住说话，上滑取消发送)及地图定位功能。// >>> 【按住说话核心模块】——————————————// …按住说话var _voiceObj = $(".J__wdtVoice"), eY1 = 0, eY2 = 0, eY3 = 0, isDrag = true;var voiceIdx;var difftime = 0;function initVoice(){ _voiceObj.on(“touchstart”, function(e){ difftime = new Date(); if(!isDrag) return; isDrag = false; eY1 = e.originalEvent.targetTouches[0].pageY; _voiceObj.text(“松开结束”); // 弹窗提示 voiceIdx = wcPop({ id: ‘wdtVoice’, skin: ’toast’, content: ‘<div style=“margin-top:-10px;"><i class=“iconfont icon-yuyin” style=“font-size:65px;"></i><div style=“line-height:32px;">手指上滑，取消发送</div></div>’, style: ‘border-radius:6px;height: 160px; width:160px;’, time: 10, opacity: 0, }); _voiceObj.on(“touchmove”, function (e) { e.preventDefault(); eY3 = e.originalEvent.targetTouches[0].pageY; if(eY1 - eY3 < 150){ _voiceObj.text(“松开结束”); }else{ _voiceObj.text(“松开手指，取消发送”); // 弹窗提示 $("#wdtVoice .popui__panel-cnt”).html(’<div style=“margin-top:-10px;"><i class=“iconfont icon-quxiao” style=“font-size:65px;"></i><div style=“background:#c53838; border-radius:3px; line-height:32px;">松开手指，取消发送</div></div>’); } }); }); _voiceObj.on(“touchend”, function (e) { e.preventDefault(); eY2 = e.originalEvent.changedTouches[0].pageY; _voiceObj.text(“按住说话”); // 录音时间太短提示 if(new Date() - difftime < 1000){ // 弹窗提示 $("#wdtVoice .popui__panel-cnt”).html(’<div style=“margin-top:-10px;"><i class=“iconfont icon-gantan” style=“font-size:65px;"></i><div style=“line-height:32px;">录音时间太短！</div></div>’); } else{ if (eY1 - eY2 < 150) { // 发送成功 submitData(); console.log(“测试数据”); } else { // 取消发送 console.log(“cancel”); } } // 关闭弹窗 setTimeout(function(){ wcPop.close(voiceIdx); }, 500); isDrag = true; });}// >>> 【摇一摇加好友核心模块】——————————————// 摇一摇加好友弹窗$("#J__popScreen_shake”).on(“click”, function () { var shakePopIdx = wcPop({ id: ‘wcim_shake_fullscreen’, skin: ‘fullscreen’, title: ‘摇一摇’, content: $("#J__popupTmpl-shakeFriends”).html(), position: ‘right’, xclose: true, style: ‘background: #303030;’, show: function(){ // 摇一摇功能 var _shake = new Shake({threshold: 15}); _shake.start(); window.addEventListener(“shake”, function(){ window.navigator.vibrate && navigator.vibrate(500); // console.log(“触发摇一摇！”); $(".J__shakeInfoBox”).html(””); $(".J__shakeLoading”).fadeIn(300); // 消息模板 var shakeTpl = [ ‘<div class=“shake-info flexbox flex-alignc”>\ <img class=“uimg” src=“img/uimg/u__chat-img08.jpg” />\ <div class=“flex1”>\ <h2 class=“name”>大幂幂<i class=“iconfont icon-nv c-f37e7d”></i></h2>\ <label class=“lbl clamp1”>开森每一刻，每天都要美美哒！</label>\ </div>\ </div>’ ].join(”"); setTimeout(function(){ $(".J__shakeLoading").fadeOut(300); $(".J__shakeInfoBox").html(shakeTpl); }, 1500); }, false); } });});// 切换摇一摇项目$(“body”).on(“click”, “.J__swtShakeItem a”, function(){ $(this).addClass(“active”).siblings().removeClass(“active”);});// 摇一摇设置$(“body”).on(“click”, “.J__shakeSetting”, function(){ wcPop({ skin: ‘actionsheetMini’, anim: ‘footer’, btns: [ { text: ‘<div class=“flexbox flex-alignc”><span class=“flex1”>是否开启震动</span> <span class=“rpr-30”><input class=“cp__checkboxPX-switch” type=“checkbox” checked /></span></div>’ }, { text: ‘摇到的历史’ }, ] });});欢迎大家一起交流、学习 Q：282310962 wx：xy190310 ...

信号为E时，如何让语音识别脱“网”而出？

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦本文由腾讯教育云发表于云+社区专栏一般没有网络时，语音识别是这样的▽而同等环境下，嵌入式语音识别，是这样的▽不仅可以帮您边说边识、出口成章，有个性化名字的时候也难不倒它。这就是嵌入式语音识别的魅力。本文将从微信智聆的嵌入式语音识别引擎的实现和优化，介绍嵌入式语音识别的技术选型。01语音识别，大体是这么来的语音识别，能让机器“听懂”人类的语音，把说话内容识别为对应文本。开始于上世纪50年代从最初的小词量孤立识别系统到如今的大词量连续识别系统语音识别系统的发展，性能得到显著的提升，主要得利于以下几个方面：大数据时代的到来深度神经网络在语音识别中的应用GPU硬件的发展因此，语音识别逐步走向实用化和产品化语音输入法，语音智能助手，语音车载交互系统……可以说，语音识别是人类征服人工智能的前沿阵地，是目前机器翻译、自然语言理解、人机交互等的奠基石。然而，性能的提升基于服务端CPU/GPU高计算能力和大内存，没有网络的时候将无法享受语音识别的便利。为了解决这个问题，微信智聆针对嵌入式语音识别进行研发。嵌入式语音识别，也称为嵌入式LVCSR（或离线LVCSR，Large Vocabulary Continuous Speech Recognition），指全程运行在手机端的语音识别，而不依赖于服务端强大的计算能力。在一些网络不稳的特殊场景（车载、境外等等），嵌入式语音识别可“曲线救国”。那么，实现一个嵌入式语音识别，存在哪些难点呢？语音识别的基本流程主流的语音识别算法当中，包括声学和语言两大模型。声学模型得利于近十年深度学习的发展，从GMM（高斯模型）到DNN（深度神经网络），再从DNN到LSTM RNN（循环神经网络），识别率不断提升的同时，计算量也不断地飞涨。而语言模型常用的n-gram算法，阶数越高性能越好，常用的模型多达数十G的内存。所以综合起来，嵌入式语音识别有以下几个难点：1. 深度学习运算复杂，仅仅对模型进行裁剪性能损失大，需寻找挽回性能的方法；2. 裁剪模型不可避免，在模型训练环节如何避免小模型训练易陷入局部最优的问题；3. 如何计算的更快，满足嵌入式的CPU环境；4. 如何组织语言模型存储，能在有限的内存下存储更多的语言信息。本文将以语音识别的技术原理出发，浅谈微信智聆嵌入式的实现技术。内容将分为四个部分：1. 回顾语音识别的基本概念；2. 简单介绍在速度和内存优化上我们做的部分工作，侧重于工程应用实现；3. 说一说为了更好的性能我们做了哪些事，侧重于算法研究介绍；4. 我们进行实验对比，最后我们进行总结。02语音识别的各个组件语音识别“黑盒”语音识别从输入录音输出文字，黑盒子处理经过特征提取、声学模型、发音词典、语言模型等流程，笔者认为可以把语音识别比作一台计算机。特征提取相当于是路由器，作为领头羊给后续环节提供源源不断的数据来源。声学模型相当于语音识别的心脏——CPU，他将最直接影响着识别的准确性能。语言模型相当于语音识别的硬盘，大量的词汇组合信息存储于此。发音词典相当于内存条，能有效组织声学模型与语言模型的关系。除此之外，语音识别包含一个解码器，他如同计算机的操作系统，有效地组织着各个环节。接下来，我们基于每个“部件”简介其基本概念，以便后续介绍如何在这些“部件”上对嵌入式ASR工作的展开。1.特征提取音识别特征提取包括预加重、分帧、加窗、FFT（Fast Fourier Transform）等一系列流程，常用的特征有PLP、MFCC、FBANK等等。一般来说，语音识别把一秒语音分成100段（之间有互相重叠），而特征提取能把每段语音数据转化为一个向量（常见的有39维MFCC特征）。为了关联上下文信息，特征作为声学模型的输入时，常将相邻帧拼凑一起。比如以39维特征为例，前后各取5帧信息，那么总共有11帧，输入的向量维度为11*39=429。一般地，语音识别的性能与取帧宽度是正相关的。作为语音识别的路由器，特征提取环节的运算量并不大。然而其作为声学模型拓扑结构的输入，间接影响着深度学习的运算量，是我们在嵌入式ASR中要考虑的问题。2.帧率抖动5s统计一次直播流视频帧率，1min计算一次帧率方差，方差过大，视为推流帧率抖动.3.声学模型（acoustic model）声学模型作为语音识别的CPU，其重要性不言自喻。一般地，它占据着语音识别大部分的运算开销，直接影响着语音识别系统的性能。传统语音识别系统普遍基于GMM-HMM的声学模型，其中GMM对语音声学特征的分布进行建模，HMM则用于对语音信号的时序性进行建模。2006年深度学习兴起以后，深度神经网络（DNN，Deep Neural Networks）被应用于声学模型。近十多年，声学模型的上深度学习的发展一路高歌，各种CNN、RNN、TDNN的拓扑结构如雨后春笋一一冒出，关于深度学习在声学模型的更多介绍见文。对于嵌入式LVCSR来说，选择合适的DNN拓扑结构，并用合理的优化在手机实现结构的运算，是声学模型在其的核心诉求。4.语言模型（language model）语言模型，NLP从业者相对更为熟悉。在语音识别里，语言模型用来评估一个句子（即图2的词语序列）出现的概率高低。在语言模型的实现算法中，最常见的为n-gram模型（n-gram models），利用当前词前面的n个词来计算其概率，是一个上下文有关模型。几年来，神经语言模型（Neural language models）使用词汇Embedding来预测，也得到广泛的发展与应用。在嵌入式ASR中，由于计算资源要留予声学模型，所以语言模型采用的依旧是n-gram的思想。那么在有限的内存中，如何最大化存储语言模型，是嵌入式ASR要解决的问题。5.发音词典发音词典，是语音识别的内存条。内存能将硬盘的数据读入，并使用cpu进行运算。同样的，发音词典，能将语言模型的词条序列转化为音素序列，并用声学模型进行分数评估运算。发音词典是连接声学模型和语言模型的桥梁，他的大小直接影响声学模型和语言模型的发挥空间。在嵌入式ASR中，发音词典的大小，与语言模型的规模互相共鸣，所以要解决的问题可以与语言模型归为一谈。6.解码器解码器，估计这个词的来自英文decoder的直译，笔者认为更恰当的名字应称为识别器。之所以叫解码器，还有另外一个比较形象的原因。以16bit语音数据为例，计算机的存储是一堆我们看不懂的short类型数字，如同密码一般。语音识别能破解这些密码，将明文展示在我们面前。所以通俗来讲，解码器就是将语音识别各个流程串联的代码工程。一般云端采用与WFST（带权优有限状态自动机）搭档的静态解码器，可以更方便地综合处理语音识别的各个环节。而嵌入式为了节省语言模型的内存开支，采用特定的动态解码器。03开始优化这些组件——速度和内存优化为了优化这些“部件”占用的时间与内存，我们做了一系列工作：neon计算优化，奇异值分解优化，哈夫曼编码优化。1.neon优化声学模型计算neon的计算优化，已是广大工程师们的老生常谈，机器学习相关的T族们更是耳熟能详。在嵌入式ASR引擎中，我们对核心高频运算的函数进行了neon优化，采用了汇编语言进行编写，最终有效提高了25%的计算速度。接下来，本文现以实现char类型向量乘的介绍优化的实现，分三版本来介绍：A. 优化前的朴素版B. neon c版C. neon汇编版首先，我们将要实现的函数是：/** * 实现两个char类型向量乘 * start_a: 向量A * start_b: 向量B * cnt：向量元素个数 * result：向量乘返回存储变量 */void vector_product_neon(const char * start_a, const char * start_b, int & result,const int cnt);A. 优化前朴素版void vector_product_neon(const char * start_a, const char * start_b, int & result, const int cnt) { int res = 0; for(int j = 0; j < cnt; j++) { res += int(*start_a) * int(*start_b); start_a++; start_b++; } result = res;}B. neon c版Neon寄存器能实现128位空间的并行运算，对于char类型的向量乘而言，两两相乘的结果在short类型范围内，故可8个为一组实现。以下代码，8个元素一组，一次循环处理两组。在我们的深度学习运算中，隐层的向量长度保证为16倍数，实现代码如下：void vector_product_neon(const char * start_a, const char * start_b, int & result, const int cnt) { int res = 0; int32x4_t neon_sum = vdupq_n_s32(0); int8x8_t neon_vector1; int8x8_t neon_vector2; for(int j = 0; j < cnt / 16; j++) { neon_vector1 = vld1_s8((char *)start_a); neon_vector2 = vld1_s8((char *)start_b); int16x8_t neon_tmp = vmull_s8(neon_vector1, neon_vector2); start_a += 8; start_b += 8; neon_vector1 = vld1_s8((char *)start_a); neon_vector2 = vld1_s8((char *)start_b); neon_tmp = vmlal_s8(neon_tmp, neon_vector1, neon_vector2); neon_sum = vaddw_s16(neon_sum, vget_low_s16(neon_tmp)); neon_sum = vaddw_s16(neon_sum, vget_high_s16(neon_tmp)); start_a += 8; start_b += 8; } for(int j = 0; j < 4; j++) res += vgetq_lane_s32(neon_sum, j); result = res;}C. neon汇编版汇编版本的neon代码编写与维护成本高，但速度比c版本更快。秉着精益求精的态度，我们实现了汇编代码：void vector_product_neon(const char * start_a, const char * start_b, int & result, const int cnt) { int res = 0; asm volatile( “vmov.s32 q2, #0” “\n\t” “lsr %[cnt], %[cnt], #4” “\n\t” “.charloop:” “vld1.s8 {d0}, [%[vec1]]!” “\n\t” “vld1.s8 {d1}, [%[vec2]]!” “\n\t” “vmull.s8 q1, d0, d1” “\n\t” “vld1.s8 {d0}, [%[vec1]]!” “\n\t” “vld1.s8 {d1}, [%[vec2]]!” “\n\t” “vmlal.s8 q1, d0, d1” “\n\t” “vaddw.s16 q2, q2, d2” “\n\t” “vaddw.s16 q2, q2, d3” “\n\t” “subs %[cnt], %[cnt], #1” “\n\t” “bne .charloop” “\n\t” “vadd.s32 d4, d4, d5” “\n\t” “vmov.s32 r4, d4[0]” “\n\t” “add %[sum], r4” “\n\t” “vmov.s32 r4, d4[1]” “\n\t” “add %[sum], r4” “\n\t” : [sum]"+r"(res) : [vec1]“r”(start_a), [vec2]“r”(start_b), [cnt]“r”(cnt) : “r4”, “cc”, “memory” ); result = res;}2.奇异值分解优化声学模型运算量为了降低乘加运算的次数，我们决定利用奇异值分解来对DNN进行重构，通过裁剪掉最小的奇异值及其相对应的特征向量，来达到减少乘加运算数量的目标。奇异值分解将任意矩阵Wm×n(不失一般性，假设m≤n)分解成3个矩阵相乘：Wm×n ＝Um×mm×mVm×n。其中：m×m 为对角矩阵,即m×m ＝diag(１,２,…,m)，它的对角元素即为Wm×n的奇异值；Um×m 为单位正交矩阵,其列向量为与奇异值对应的特征向量；Vm×n中的行向量是互相单位正交的，也是与奇异值对应的特征向量。下图是我们以DNN模型其中一层网络作为例子，阐述我们在重构DNN中的模型转化，其中原始DNN模型为图中上方子图（a），新重构DNN模型在下方子图（b）所示：a:原始DNN模型的一层结构（b）新DNN模型的两层对应结构利用SVD对声学模型计算量优化大致分为3个步骤（1）训练初始DNN神经网络；（2）对权重矩阵进行奇异值分解；（3）对重构后的DNN模型重新训练。通过基于SVD的模型压缩方法，我们可以在稍微降低模型性能的前提下，将声学模型计算量减少30%。 3.哈夫曼优化语言模型内存一般地，n-gram语言模型可以用一张有向图存储便于介绍存储空间以及快速查询，这张图上的边要存储词汇信息。我们知道以汉语为例，不同词语的出现频率相差极大，如果所有词汇的label id都用int类型存储，那空间的利用率较为低下。以“我”“要”“吃饭”为例，假设语言模型的词汇频率：我>要>吃饭，那么我们可以构建图3的哈夫曼树，则四个字使用的编号码分别为：我（0），要（10），吃饭（110）二叉哈夫曼十六叉哈夫曼树然而，采用图4的二叉树数据结构，一次只能处理1bit效率较低，也不便于工程实现。所以在工程实现的时候，我们按4bits编码为单位，对词汇进行分类存储处理。我们使用一棵16叉树的哈夫曼树结构，每层树节点的编号总量是上一层的16倍。树中的所有编号为0的子节点用于储存词汇，越高频的词汇储存于深度越低的节点位置。通过哈夫曼优化，我们的引擎最终成功降低了25%的内存占用，同时引擎是资源文件也得到50%左右的优化。04识别性能的优化1.基于TDNN优化声学模型近几年，TDNN（Time-Delay Neural Network，延时神经网络）【5】的拓扑结构被应用于语音识别。事实上，该结构于1989年被提出，随着近几年技术的发展，重新进入了大家的视线。 DNN结构DNN的拓扑网络仅针对单一特征时刻点建模。TDNN结构TDNN的隐层结构，对语音特征多个时刻点进行抽象建模，拥有更强的建模能力。除此之外，TDNN结构的多时刻建模参数是共享的（图中红、绿、紫用的是同样的拓扑矩阵传播）。所以，TDNN虽然在训练的时候，比DNN需要更多的BP运算。而在语音识别时，由于参数共享的原因，隐层的计算结果可以复用，每一帧仅需对所有参数进行一次运算，大大节省了计算量。最后，我们基于TDNN结构，引擎在保持计算量一致的前提下，识别率提升了相对20%的准确率。2.基于多任务训练优化性能采用多任务联合训练，能有效提高声学训练的鲁棒性，避免过早陷入局部最优。在嵌入式的模型中，模型输出目标比较少，训练容易陷入局部最优。所以我们，同时用目标多的大模型联合训练，让训练的隐层结构更为鲁棒。声学模型多任务训练在训练的时候，我们网络同时拥有输出1和输出2两个，多任务训练时，逆向迭代需要残差协调，我们采用以下公式分配残差，其中权衡两个模型的训练权重：最终我们采用多任务训练优化性能，对语音识别率带来了一定提升，接下来所有的性能提升我们将在下一章结实验给出。3.基于区分性训练（Discriminative Training）性能优化声学模型区分性训练是针对MLE训练的不足而提出的。DT训练通常定义一个目标函数（Objective Function），或者说是准则函数（Criterion Function），来近似一个与分类代价相关的度量。通过区分性训练，我们可以从一定程度上弱化模型假设错误所带来的影响。同时，由于区分性训练致力于优化与识别效果好坏相关的度量，因此也就为提高识别器性能提供了更直接的途径。形象的说，MLE训练告诉模型“这是椅子，那是桌子”，而区分性训练则告诉模型“这是桌子而不是椅子，那是椅子而不是桌子”。MLE训练更重视调整模型参数以反映训练数据的概率分布，而区分性训练则更重视调整模型之间的分类面，以更好的根据设定的准则对训练数据进行分类。DT的目标函数是这样的：对DT的目标函数用一次贝叶斯公司可以得到：分子正是ML的目标函数；而分母则是所有文本（包括训练文本和它的所有竞争者）产生训练语音的概率的（按语言模型加权的）和。由于分母上要枚举所有可能的文本并不现实，所以实际中，一般是用一个已有的ML训练的语音系别系统对训练语音做一次解码，得到n-best list或lattice，用这里面的文本来近似分母上的求和。n-best list或lattice中包含了训练文本的足够接近的竞争者。4.基于互信息的新词发现对于语音识别系统来说，语言模型对结果影响至关重要；而对于语言模型来讲，语言模型的词典是关键。一个好的分词词典，对于得到鲁棒的语言模型是至关重要的，如果才能选出合理正确的“词”所组成的词典，首先最关键的一步就是基于现有语料的新词挖掘。由于嵌入式系统性能有限，因此选择合适大小的词表，并对语言模型进行适当剪枝头，可以压缩安装包大小、限制内存消耗、提高识别性能。压缩词表可以筛选高频词，并通过一定的模型来识别筛掉截断词，如“新功”、“嘉年”、“扛生”、“鹅卵”、“刘德”、“利亚”等半个高频词。一个简单而又有效的新词发现和筛选方案可以采用互信息和左右信息熵的计算方法，计算二元的信息熵的分数由三个对应部分组成： 1）点间互信息：点间互信息越高，内部聚合程度越高； 2）两个单词片段信息熵 h_r_l 和 h_l_r 的最小值：这个数值越大，则意味着两个单词一起出现的可能性越小； 3）单词左右信息熵的最小值：这个数值越大就表示着候选词出现的语境越多，越有可能成词因此，分数越高表示成词的可能性越大。计算完二元的信息熵后，可以依次计算三元、四元的信息熵，三元的新词发现和筛选是将二元替换原有的两个单字做为一个单字继续进行，候选集可以取左信息熵或者右信息熵为0的候选集，四元、五元以此类推。另外，语言模型直接关系到识别结果输出，因此选与应用场景相对应的语料进行统计尤为重要。05实验对比第二章节和第三章节，介绍了一些我们完成的工作，本章节将分为两部分。首先，我们通过实验对比验证工作的成果。其次，我们将引擎和行业竞品进行对比。工作成果验证目前总共有6个通用测试集，测试集大小分别为1220、6917、4069、2977、2946、2500条语音。其中测试集1是手机录制测试集，集2是命令类的录音，集3是麦克风录音涉及一般生活情景，4、5、6集都是线上实网数据，区别是集4、5背景比较干净，集6背景带噪。测试集DNNTDNNTDNN优化版110.486.9213.711.39.3322.918.315.6415.813.312515.312.210.5622.620.317.8在模型选取对比，我们针对DNN、TDNN、以及TDNN优化版（优化内容为第三章的2、3、4小结内容），总共设计出三个不同版本的嵌入式语音识别引擎进行对比。三个版本的嵌入式语音识别引擎在6个通用测试集上的实验结果如表中所示。表中的数字表示字错误率，即100个字里面识别错字的数量。总体来看，TDNN对识别率带来了20%左右的提升，其他工作也带来了10%左右的提升。从语音识别的基本概念，到语音识别速度和内存优化的介绍，以及沉淀的一些算法研究、实验结果验证，本文大体讲述了语音识别从原理到实践的基本过程。欢迎同样从事语音AI识别的小伙伴加入我们相关阅读【每日课程推荐】机器学习实战！快速入门在线广告业务及CTR相应知识 ...

智能语音技术的深度解析

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由腾讯云AI中心发表于云+社区专栏广义上来讲智能语音技术有各种各样的定义，以上是常见的一些热门的场景。语音识别，刚才罗老师也分享了部分内容。语音合成是文字变成语音，这部分我们后面会详细展开。再往后看，声纹识别，在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门，车上有一个小孩，突然哭闹，下一个不合适的指令，你区别不出来这个人，对语音控制来说不合适的。或者有一些不当的操作，可以通过声纹来做，通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门，实际应用当中遇到大的挑战点是什么？很多其他的生物识别靠人脸或指纹这类比较稳定的特征，可是声纹不稳定，人高兴的时候，第一天晚上唱了卡拉OK，第二天声音哑了，怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。声学事件监测，在家里有音响或者有监控的系统，监控里面有没有婴儿啼哭的声音，或者有什么不当的声音发生，这就是声学事件监测的应用。现在这些难点不算难，有更多场景接进来的时候这一块有很快的发展。自然语音处理，本质来看是在语义层面上做了一些工作。我们继续往下展开，语音识别刚才罗老师提了很多了，我们就不多讲了，这些技术和环节串起来就是语音识别的框架和结构。语音识别面临的挑战，在实际应用当中我们遇到的一些难点，我们需要怎么解决呢？也像之前提到的，语音识别的准确率达到多少？你们这个场景能够达到90%左右，就会被人家说，别的厂商反馈95%到97%，你们怎么只有90%。其实有一个前提，你提供的语音材料质量怎么样？如果声音很清晰，没有杂音可以达到97%。语音识别遇到的挑战，首先就是口语化的问题，很多时候你的发言并不像你的演讲这么理智这么逻辑，有很多口语化的表达。比如说在会议的场景，有很多人同时说话，会抢着说话。本身你听录音的时候都感觉很嘈杂，这个时候指望语音识别有特别高的准确率比较难。离话筒比较远，麦克风技术等等，在这里面需要做一些提高。还有就是方言的问题，本身带口音的，我们日常做语音识别训练的语料本身不太标准，本身对带口音的普通话的识别，我们在训练语料的时候就灌输进去，口音不是特别严重的情况下，轻度的口音没有什么问题。口音严重的，除非你是当地人，否则你都听不清，这就对语音识别有很大的挑战。所以我们投入应用的时候要考虑场景和录音材料，这样才能达到好的效果。要在线下和线上给客户一个好的体验，我们尽量提高语音识别的能力，在其他这方面的素材层面也一样的，是要有一定的配合度效果才能比较好。因为语音识别讲的比较多，后面我们转到其他的主题，下一个阶段我讲一下语音合成。语音合成更大程度上是一门艺术。语音识别对它转写的好坏有客观衡量标准，你说一句话，转成文字的结果，跟正常说的话做比对准确率是多少？但是语音合成的难点就是难有客观统一标准。语音合成最后的目的是达到什么？希望机器的发音跟人正常的发音接近，对语音合成这项技术的判定的好坏是比较艺术的，你这个声音好听好不好听，像不像真人，是比较偏主观的感受。语音合成，如果只有识别没有合成，你只能听不能说，这样的话交互体验不是完整的，语音合成的技术当下越来越热，也有很多的场景需要语音合成，后面会具体展开多讲这一块。语音识别合成这项技术很明确的，那它有什么难点呢？你看到人在说话的时候，人的声音是否准确，说话是否流畅，人的发言在不同场景下是阴阳顿挫的，很多时候你会发现这是一个机器人在说话，对于语音合成这项技术就不成功，因为语音合成最后的目标就是以假乱真，听到机器人说话，不认真听听不出来，这也是在做技术突破的点。技术难点的主观性，有时候很难有一个客观指标，有人说这个语音合成不好，我说哪儿不好？他说我听着不舒服，在不同场合下人的要求，你的声音是否满足，你的声音是否适合做语音助手，我会有一些例子给大家听，展现我们现在做的技术的突破。还有一部分提到很多客户的需求，希望有语音的定制化，为什么？对大型公司来说，如果我做一个智能冰箱或者智能硬件，这个声音的要求高，这个声音对于他们来说，跟品牌的logo一样，希望我的用户听到的声音，是我这个品牌的音响，或者我这个品牌的应用。我不希望跟别人共享。也有这种类似的需求，也是很常见的，这一块对语音合成的技术也有挑战。有的厂商比较有钱，可以请到一些明星来录音棚录音，录音的质量决定了合成的效果，之前做合成要求来录音棚录8个小时才能有比较好的效果，现在这个门槛不断在降低。今年腾讯内部，由马化腾在微信里面给大家发红包，有一段语音，这段语音就是用语音合成做出来的，我们搜集马化腾在大会上比较有质的发音，以这些优质的发音做组合训练，依然可以达到很好的合成效果。简单讲一下语音合成技术的引进。最早是波形拼接，从每个人的发音，你的发音是什么样子，然后把这个波形拼接，然后是HMM+GMM的合成，然后再到神经网络的参数合成，然后WaveNet合成。WaveNet合成的效果非常接近真人录音的效果，MOS是一个对语音合成的指标，产生的声码器能够做到4.2已经很好了，真人的录音效果普遍在4.5，如果做的好在4.5以上，WaveNet合成我看到比较好的效果是在4.52，非常接近真人的录音效果。谷歌在今年AI大会上发布了人和机器人对话的效果，那个效果就是WaveNet合成的效果。这些是WaveNet合成的声音，比以前一听就是很明显的机器人的声音，现在的合成技术效果相比以前有一个质的提升。简单讲一下WaveNet，因为我是做产品的，可能讲的不够深，后续可以继续探讨。WaveNet是端到端的合成技术，是谷歌提出来的，最早WaveNet的合成速度比较慢，对资源消耗比较大，2017年底的时候谷歌又出了一个WaveNet的技术，比之前加速1000倍。前面主要是讲了技术方面的储备，后面我们切换到更多的场景层面。讲到数字化这个主题，为什么说语音在数字化的时代很重要？数字化时代，很多时候对用户的服务和追求是更好的人机交互体验，有更多的人机交互渠道，比如说你的客户是机器人，你只能给别人打字聊天，跟客服做反馈，现在越来越多的希望基于人的交流，如果自己特别大量的去做，这对人工成本消耗比较高，这是一个场景。需要售后服务的方式，人机交互的模式有一个更好的效果。手机端的应用，发布的这些例子都可以看到。首先是语音输入法，按住这个键，然后是语音提醒，5分钟以后我要打一个电话，帮我记录一下，或者提醒我喝口水，用简单的输入做语音的提醒功能，相信很多人用到。微信里面说话，比如说我收到大一段语音以后，我在开会，长按语音键上面有一个按纽，上面有一个转文字，就会把你刚才收到的语音材料转成文字的形式，在不方便听语音的情况下一样实时接受信息的效果。这里有一段语音，这也是我们之前的一个项目做的一个东西，这是嵌入在银行APP里面的一个应用。我们当时因为是内部在做测试，测试人知道下一步的效果。感觉就不太连贯，这个应用里面看到的，除了刚才讲到的很多信息对话的场景以外，很多功能性的产品上面把语音技术嵌进去。语音技术识别的成熟度，很多业务场景，需要办理业务的场景一样可以用语音交互的方式来做接入。刚才讲的是手机端的情况，跳出手机端我们讲硬件。智能硬件也火了很久，语音识别合成，语义理解就是很重要的功能。智能穿戴、手表等等一些场景，更常见的是智能的音箱，还有车载的语音技术。尤其在车载环境下语音是很重要的，在车上的时候驾驶员没有时间按手机的，如果持续按手机比较危险，这个时候语音交互是很好的切入点，来实现控制，比如说简单的开空调，比如说帮我放一张碟，比用手按不仅方便而且增加了安全性。这是智能硬件的几个方案，在酒店应用的一个场景。我们在北京一家酒店做了一些样板间，把语音交互的平台，放在客房，通过跟他的交互，类似帮我拉一下窗帘，帮我放一下音乐，帮我关灯，很多人比较懒，在酒店里面不想关灯，都可以帮你实现。包括天气、交通、新闻等等，在酒店客房可以实现语音助手的效果，也方便了很多酒店的住客。前面讲了手机端的应用，然后是智能硬件的应用，还有一个很大的应用场景，是客服机器人，其实在线下遇到的这些问题，这些问题大家都有了解，一个是你需要24小时的反馈，如果你需要同时在线，客户问你的问题80%都是重复的，没有困难到需要人查的地步。比如说运营商查询话费等等。如果80%的问题重复，我们设法用机器人来解决，讲到全渠道的观念，最早机器人客服用一些公众号、服务号，还有一些网页的客服等等。电话坐席还是用人工来覆盖，因为电话坐席前面放一层语音识别，还有就是语音合成，如果这两个做不好，客户体验就很差，不知道有没有这样的电话，你发现是机器人，语音识别很差，我一听是机器人，就很没有耐心。然后是语义，有的合成效果不错，没有以为是机器人，当我说了两句话给我反馈一样的时候，我知道是机器人，了语音识别失败，或者语义没有解析。电话客服是一个很综合，又比较有挑战的产品。需要我们继续摸索，如果这个效果做的好，很大程度上能够解决需要克服的，也解决很多客户等待的问题，未来这些都需要进一步优化。前面讲了一些场景化的问题，后面落实到我们腾讯云，包括线下场景的一些解决方案，我们在做的一些方向。这部分先回顾一下，之前罗老师也讲到腾讯云语音类能力，包括语音识别，语音合成等等，在这些技术上面打包一些解决方案，这些解决方案能够解决什么实际的问题？首先是直播安全的解决方案。在互联网领域内容的安全审定，一直是监管部门很重视的话题。对相应的直播平台，它的内容不可控的。如果主播在直播间里面有不当的行为，一样会受到很多的举报，会给这些平台带来很多麻烦。最早的这些内容鉴别，基于图像这个层面来做，有的时候解决不了问题。可能图像里面没有出现什么越界的问题，但是说的话是不对的，或者整个直播过程中间发出来的声音不正常，就图上来看没有什么，下面的这些字有点小，但是被鉴别出来了。在直播过程当中，说的话是违规的，直播平台会受到下线或者告警，需要结合图片，包括语音，甚至音频声音识别的能力来做内容审核。客服质检，也是线下很多电话客服的场景。话务员跟客户的对话质量不可控，成熟平台还好，现在一些互联网金融公司，他们的业务发展比较快，又遇到催款等等，工作人员话术不规范，甚至是骂人的场景。这样的情况就会受到很多的投诉，某某平台的客服特别不文明。能不能基于这些客服的录音做质检，靠人去检，比如说20个坐席，一天靠人来质检检查不了几通电话，语音识别这么好，我整个电话录音的情况记录下来，然后转成文字，在文字层面基于关键词或者特定业务逻辑做评分，来评价我的客服是否符合我的管理规范，这也是基于语音识别这个基础做的方案。智慧法庭解决方案，它也是比较有趣的。书记员需要做记录，某某人说了什么，一样的在庭审的场景下，速记员的个人习惯不同，或者这里漏了一点什么，那里多了什么，庭审的记录可读性不强。我们在这个场景下，把语音识别技术放进去以后：法官前面有一个麦克风，被告和原告都有麦克风，通过麦克风把这句话是谁说的记录下来，语音转成文字，变成文字以后，结合这两个层面形成记录：公诉人说了什么，法官说了什么，还有被告人说了什么。基于这个记录后续再做档案的检索。语音识别技术，在之前谈到的几个场景中，就描述了语音识别技术怎么帮助线下的很多传统行业或者是政府机关。小微是谁？我们打包了一个人机交互的操作平台，在海外比较成熟的是亚马逊，一样的基于这个平台，你通过简单的对话能，比如说帮我查一下天气，对于整个小微平台后台的技术，基于语音识别，语音合成，以及对话的处理，多种能力综合起来达到一种人机交互的效果。除了有这些语音的能力以外，这种平台是否好用？这也是我们腾讯自己本身的优势，腾讯音乐等等自有的能力打包，我们把这些能力放到小微平台当中去，小微的用户可以很方便的使用。语音交互的平台一定程度上对应一些硬件，包括机器人等等。基于这些硬件合作伙伴，最后形成整个人机交互的终端生态圈。哈曼卡顿音乐也是很高端的音响，跟腾小微合作，低中音效果都是非常好的，你的音响只是一个人机交互，如果想听音乐，对这方面有比较好的要求都可以达到。Q&A：Q：现在有部分的小语种或语料不够，导致识别率不高，识别率怎么统计的？A：语音识别的结果跟正常文本的结果一个字一个字的比对，业内也有提到句错率。Q：我想问一个问题，小微，类似其他的产品都已经出来了。比如说微软的，还有亚马逊的，谷歌也有相应的生态圈，也有相应的开发工具，应用场景以及特点，SKD或者是开发平台的使用方便有没有做过比较，比较结果能不能跟大家做一个分享？A：比较结果，说实话各家的进展都比较快，很难说有一个精确的，国外真的成熟度比较高的是亚马逊和谷歌的产品。因为生态比较完整，有大量的开发和底层应用平台，国内还是属于起步阶段。腾讯小微，这方面的优势，包括对开发者的友好程度，包括底层硬件的能力，我们本身腾讯的原生的能力比较强的。我们有QQ音乐等有非常好的内容，我们帮助开发者在这方面提升，硬件平台的开发也很高，很难说有一个准确的数字，因为高内市场比较早，还都是齐头并进的状态。相关阅读【每日课程推荐】机器学习实战！快速入门在线广告业务及CTR相应知识

腾讯云 Game-Tech 技术沙龙小游戏专场“空降”长沙

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由腾讯游戏云发表于云+社区专栏小游戏作为今年快速成长的新生态，在开放进入市场之后持续成为行业热点，获得了游戏开发商的高度关注与参与。在阿拉丁统计平台最新公布的2018年8月小程序 Top100榜单中，有超过40%的小程序为小游戏，面对大量开发技术需求，腾讯游戏云针对小游戏开发者最为关注的技术问题和未来的发展趋势，将于2018年10月18日在长沙为“游戏湘军”带来Game-Tech 技术沙龙小游戏专场。本次长沙站小游戏专场，腾讯云Game-Tech技术沙龙不仅汇聚了腾讯云资深专家为开发者进行技术解读，来自知名的游戏引擎Layabox和专注于微信小程序生态服务的阿拉丁小程序统计平台的大咖们也将来到现场为从业者带来小游戏的开发技术分享。届时来自三方的资深技术专家将从小程序新技术&大商业、如何快速开发小游戏、用LayaAir 2.0高效开发微信小游戏、重度小游戏架构经验分享、H5游戏语音解决方案等方面进行深度探讨。另外，本次活动也得到了草花互动及七米文化的大力支持。小程序新技术&大商业根据阿拉丁报告显示，截至2018年1月至8月，微信小程序开发者数量从100万上升至150万，小程序用户平均每月打开小程序次数从4.01次上升至5.98次，无论是开发端还是用户端，今年小程序的增长都颇为显著。阿拉丁小程序统计平台创始人&CEO史文禄将围绕目前小程序行业发展状况、优秀小程序案例及阿拉丁指数榜单，展望小程序未来变化，为行业从业者带来深度观察。如何快速开发小游戏？——小程序·云开发解决方案微信小程序开发平台上月推出了全新的能力——小程序·云开发。腾讯云产品经理黄赞志本次将就此全新推出的能力，分享介绍云开发模式及其优势，以及如何在小游戏项目中使用云开发能力。“小程序·云开发”是由微信小程序团队及腾讯云云开发团队联合推出的功能，为开发者提供了完整的云端支持，开发者无需搭建服务器，通过小程序官方提供的 API ，即可进行核心业务开发，实现快速上线和迭代。用LayaAir 2.0高效开发微信小游戏Layabox合伙人李明将从小游戏开发入门介绍开始切入，结合LayaAir2.0的新特性，例如可视化物理系统、组件化、场景管理等功能，以及用前端的开发模式开发联网游戏等，再针对小游戏分包、物理缓存、开放域等开发中常见的问题，全面讲解用LayaAir 2.0引擎高效快速的开发微信小游戏产品。重度小游戏架构经验分享小游戏的出现吸引了无数的开发者加入，短短时间内成为了游戏行业的又一新的风口。腾讯云高级解决方案架构师陶为将从小游戏的特点讲起，向开发者全面讲解如何从容应对因社交传播导致小游戏瞬间爆发所带来的运维困境、以及腾讯云为小游戏开发者推出的扶持方案等内容。H5游戏语音解决方案随着小游戏市场规模不断扩大，自2018年以来用户群体日益递增，其社交需求也正逐渐提升，实现小游戏语音互通成为当下游戏开发商的迫切需求。为适应小游戏社交新形态，并增加客户黏性，语音能力支持将是一个不得不解决的问题。腾讯云GME高级工程师白兴师将从如何设计小游戏社交新形态，提升用户粘性；如何通过快速接入腾讯云游戏语音GME，实现低延迟的H5小游戏全球语音互通等问题着手全面介绍腾讯云H5小游戏实时语音解决方案及其优势所在。小游戏作为今年游戏行业的风口，自年初起就备受行业关注，其所带来的技术挑战其实并不亚于其他游戏品类，无论是在技术研发还是运维阶段，都需要成熟完善的技术作为底层支撑。腾讯云作为游戏云服务领域的领跑者，本次长沙站腾讯云Game-Tech技术沙龙将通过以上5位专家对小游戏行业的发展趋势、小游戏技术研发和运维等方面的深度探讨，为从业者带来小游戏开发及运维过程中的最新思考和最佳实践，持续为游戏从业者和开发商们保驾护航，带来丰富的技术干货。请锁定腾讯云Game-Tech沙龙小游戏专场，10月18日下午2点在长沙市雨花区劳动东路139号夸克仓库等你！报名速戳：https://cloud.tencent.com/dev…此文已由作者授权腾讯云+社区发布，更多原文请点击搜索关注公众号「云加社区」，第一时间获取技术干货，关注后回复1024 送你一份技术课程大礼包！

团战开黑必备“良药”了解一下！

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由腾讯游戏云发表于云+社区专栏第十八届亚运会在印度尼西亚首都雅加达进行得如火如荼，电子竞技作为2018亚运会的表演赛项目，首次登上亚运会的舞台。对于团队合作的电竞赛事来说，队友间的“语音”交流不可或缺。实时与队友流畅沟通战术，交流操作已成为电竞选手在比赛中取得好成绩的一大关键。随着移动设备性能大幅攀升，移动游戏也从场景简单的休闲类游戏发展为更追求操作和游戏体验的竞技类和大型MMO类等重度游戏，游戏中嵌入实时语音功能也已成为了标配，但在手游发展早期，多人实时语音往往是下面这样的：语音延迟语音不流畅（丢包）语音延迟、丢包带来的游戏体验可谓是非常差，还不如最初的打字、发信号。技术突破随着近几年互联网多媒体技术的快速发展，这两个问题已经得到了很好的解决。腾讯云游戏多媒体引擎（Game Multimedia Engine，简称GME），是一个专门针对游戏场景定制的，可覆盖休闲社交类、MOBA 类、MMORPG 等多种游戏类型，能提供包括多人实时语音、语音消息、语音转文本 3D位置语音、趣味变声、伴奏K歌等功能，满足多样化的游戏语音诉求。在游戏场景下可以实现超低时延、流畅优先的实时游戏语音自由对讲，让玩家体会对战类游戏的乐趣。一般情况下，游戏中场景比较复杂，实时语音互通控制在500ms以内就不会引起用户的不适感，而GME自研的技术能在复杂的游戏语音场景中将时延的时间控制在300ms以内，保证玩家流畅的通话体验，并通过先进的FEC前向纠错和智能的丢包重传和PLC丢包补偿技术，来取得开黑场景下通话延时和网络抗性的平衡，即使在网络损伤的情况下，也能有极佳的音质进行顺畅的沟通了。GME针对游戏场景的音频编解码器还进行深度优化，码率、延时、系统资源消耗等关键技术指标达到业界领先。在不同场景下GME可提供不同的音质体验和不同的抗网络损伤技术，实时语音音质在网络无损场景下的平均MOS分达到4.38（满分5分），平均延时低于200ms；通过先进的丢包恢复技术、丢包补偿算法以及优秀的网络抗性，即使在50%以上丢包、1000ms的网络抖动下，也能保持顺畅的沟通和很好的音质，力求给玩家带来最佳的游戏体验。此外，游戏语音的处理有特定的门槛，除了采集、处理、编码、传输、解码、渲染等各个环节本身需要的技术能力和经验之外，还需要很强的工程实力：解决几千种机型的适配和音频兼容性问题，以及海量高并发的处理能力。面对这些问题，GME团队在服务数个亿万用户量级产品的过程中已经积累了丰富经验。能力过硬，接入门槛较低，可满足多样化的游戏音频诉求的GME，从研发至今，不断发展完善，已为400多个产品提供音频技术支持。为产品提供技术保障的同时，也为用户带来更好的感官体验。了解更多腾讯云游戏多媒体引擎（Game Multimedia Engine，简称GME）请戳此处。问答游戏语音回调memberID不一致？相关阅读3行代码，为QQ轻游戏加上语音互动能力一个域名引发的血案……实时语音趣味变声，大叔变声“妙音娘子”Get一下【每日课程推荐】新加坡南洋理工大学博士，带你深度学习NLP技术