关于自然语言处理:初级人工智能训练师考试升级考试体系更完整

前言想晓得如何利用人工智能晋升服务性对话的效率?想要理解智能客服基本概念?不会对话机器人平台的操作? 人工智能训练师高级认证及其教学资料已由来也科技Chatbot学院全新降级上线! 考试简述高级考试定位根底人工智能利用,后续连接中级考试实操,课程更加易学、易用、体系化。 当初就开始迈出解脱低效对话工作的第一步吧! 拜访 https://laiye.com/academy/cha... 获取培训资料并进行认证 手机能不能考试?高级考试能够在手机上考,中级考试因为题目蕴含图片表格且要下载材料,倡议电脑考试~ 倒退历程从2017年起,来也科技即着手于人工智能训练师(简称训练师)的培训和认证工作,并通过培训内外部训练师进行长期教学验证(没错,产品起步的时候咱们就开始“授人以渔”了~),至今迭代了四次训练师培训体系。 职业:人工智能训练师别称:AI训练师、AI Trainer公布工夫:2020年2月25日新畛域新行业新职业人工智能训练师是近年随着AI技术广泛应用产生的新兴职业,他们的工作内容有解决方案设计、算法调优、数据标注等。经过培训考核和业务实际之后,来也科技造就的训练师曾经在中国电信、美团、中化团体、奇安信、惠氏、伊利、龙湖、北森、飞鹤、耐克、51talk、菲仕兰、中原生产金融、思必驰等各行各业的大中小企业以及守业型公司胜利待业,并在其公司内的AI体系建设中施展重要的骨干作用。 8月起,来也科技Chatbot学院降级上线了新版人工智能训练师高级认证,这是继6月上线训练师中级实操认证后的重磅动作。 考试特点本次改革整体依照分级而治的准则,上面给大家走漏一下出题理念哦~~ 简略题和根底题对话机器人产品的简略开启和应用,理解对话机器人畛域解决的重点数据起源和统计指标,把握根本的训练素材数据处理常识——对应L5级人工智能训练师要求(即《T/CCPITCSC 043-2020 人工智能训练师职业能力要求》,下同)。 中档题和提拔题能正确利用对话机器人联合业务实际,对信息进行根底剖析和分类,对简略的谬误案例给到正确的优化解决倡议——对应L4级人工智能训练师要求。 考试指标单选30道,每题2分,共60分;多选10道,每题4分,共40分;总分共计100分,考试工夫1小时,超时主动提交。 通过8月份的内测和公测,确认了考试具备良好的区分度,高级考试及格线为60分,80分以上为良好(证书上不体现~)。 考试费用与工夫培训手册、教学视频、考试认证、证书发放全免费! 全年7×24小时凋谢考试,每24小时能够加入3次,通过考试后不能从新进入。 证书发放通过考试后,在“认证考试→我的证书”页面下的入口进行证书申请~ https://academy.laiye.com/cha... 答题策略与技巧答题策略单选题每道题2分,抉择最合乎题意的一项,剩下的烦扰项不要看错啦~多选题每道题4分,至多有两个答案要选,漏选、错选均不得分。答题技巧查看Chatbot学院提供的教学视频、培训手册和吾来产品手册多相熟吾来的各项操作;多用用语文常识;既然考了,就要坚持下去;提交前查看,留神不要手抖错选;没通过能够再相熟下产品操作、产品手册,能够再考的~想来检测本人的训练师能力程度吗?来也科技Chatbot高级训练师重装上线,测测你能考多少分?https://laiye.com/academy/cha...

September 13, 2021 · 1 min · jiezi

关于自然语言处理:解读知识蒸馏模型TinyBert

摘要:本篇文章的重点在于改良信息瓶颈的优化机制,并且围绕着高纬空间中互信息难以估计,以及信息瓶颈优化机制中的衡量难题这两个点进行解说。本文分享自华为云社区《【云驻共创】美文赏析:大佬对变分蒸馏的跨模态行人重辨认的工作》,作者:启明。 论文解说:《Farewell to Mutual Information: Variational Distillation for CrossModal Person Re-identification》 论文概述本篇文章的重点在于改良信息瓶颈的优化机制,并且围绕着高纬空间中互信息难以估计,以及信息瓶颈优化机制中的衡量难题这两个点进行解说。 信息瓶颈钻研背景此报告一共分为3个局部,为了便于了解,咱们先介绍一下信息瓶颈的钻研背景。 就“信息瓶颈”这个概念而言,在2000年左右的时候才正式被学者提出,其现实状态下的指标,是取得一个最小充沛规范。意思就是,把所有那些对工作有帮忙的判断性信息全提取进去,同时又过滤掉冗余性的信息。从实际的角度来说,信息瓶颈的部署就是间接优化下图红色框出局部即可: 迄今为止,信息瓶颈作为一种信息论领导下的表征学习办法,曾经被广泛应用于多个畛域,包含计算机视觉、自然语言解决、神经科学等等,当然还有一些学者曾经把信息瓶颈用于揭开神经网络黑箱的问题上。 然而,互信息有3个不足之处: 1. 其有效性重大依赖互信息估算精度尽管信息瓶颈有着先进的构思和理念,然而它的有效性重大依赖于互信息的估算精度。依据当初大量的实践剖析,以及目前很多的工作在实践中的尝试,咱们能够晓得在高维空间中,算互信息其实是十分无力的。 从上图表达式上来看, v代表着察看量,大家能够把它间接了解成一个高维度的特色图; z代表是代表它的一个表征,能够把它了解成是一个通过信息瓶颈压缩失去的一个低纬度的表征。 当初咱们须要算它们两个之间的互信息。 实践上来说咱们须要晓得这三个散布才能够实现互信息的计算(如上图)。然而很惋惜的是,对于察看量其自身的潜在散布,咱们只能无限个数据点,而并不能通过这些无限个数据点去观测到其具体的潜在散布,更不用说空间变量z的相干信息了。 那么,如果咱们用一个代参的预计器在解空间去猜呢?也不是很可行。因为其可信度不是很高,而且去年ICLR(国内表征学习大会)上有很多篇工作曾经证实了,互信息预计器很大可能只是一个噱头。 2. 预测性能与简洁性之间难以衡量 另外一个比较严重的问题是,信息平台优化实质上是一种衡量。这意味着,这种机制会把表征的判断性和简洁性放到天平的两侧(如上图)。 想打消冗余信息,那么也会附带的造成局部断定性信息的损失;但如果你想保留更多的判断性信息,那么也会有相当局部的冗余信息跟着被保留下来。这样一来,就会使得信息瓶颈最开始定的指标成为不可能实现的指标。 或是咱们从优化指标上来看。假如咱们给一个十分大的,这意味着模型此时更偏向于做删减。不言而喻,压缩力度是提上来了,然而此时模型就没怎么保留断定性。 同样的,如果说当初给一个十分小的(假如是10^(-5)),那么相对来说模型就更偏向于实现第一项互信息给的指标。但此时模型就不论“去冗余”的事了。 所以咱们在选取的过程中,其实就是衡量两个指标在不同工作下的重要性,也就印证了文章结尾讲的问题,信息瓶颈的优化的实质是一种衡量。 3. 对多视图问题乏力除上述2个问题之外,咱们还能够发现,信息瓶颈尽管能够通过工作给定的标签,对工作所蕴含的信息进行二元化定义,也就是说咱们能够依据是否对工作有帮忙来定义判断性信息(红色局部)和冗余信息(蓝色局部)。 然而工作波及到多视图的数据的时候,信息瓶颈没有确切的根据从多视图的角度把信息再次写进去,结果就是使得它对视图变动比拟敏感,或者说,就是不足应答多视图问题的能力。 变分信息瓶颈工作介绍说完传统的信息瓶颈,咱们再引入一篇里程碑式的工作:《变分信息瓶颈》。此工作发表在2017年的ICLR下面,其一个突出贡献,是引入了“变分推断”(如下图):把互信息转化成了熵的模式。尽管这篇工作没有很好的解决咱们后面提到的问题,但这个思路简直启发了后续的所有相干工作。 把互信息转化到熵,是一个十分大的提高。然而还是有几点不足之处: 1. 表征判断性能与简洁性之间的trade-off没失去解决遗憾的是变分信息瓶颈,也没能解决优化机制中判断性与简洁性之间的衡量难题。被优化的天平仍然随着摆动。 2. 无奈保障变分上界的有效性第二个问题就是变分信息瓶颈优化的时候,其实是优化其找的一个上界,但上界的有效性是值得商讨的。因为它须要空间变量z的一个娇艳散布Q(z)去迫近一个潜在散布P(z)。然而,这在理论中这其实是很难保障的。 3. 波及重参数、重采样等简单操作第三点就是优化这一项变分推断的后果,会波及到很多简单的操作(重参数、重采样等这些不确定性很高的操作),会给训练过程减少肯定的稳定,使得训练可能不是很稳固,而且复杂度较高。 钻研办法下面说的几个问题,是变分信息瓶颈针对办法的通病,肯定水平上妨碍了信息瓶颈的工夫利用。那么,接下来解说一下相应的解决思路,从实质上解决后面提到的所有问题。 充分性首先须要引入“充分性”概念:z蕴含所有对于y的判断性信息。 它要求信息瓶颈的编码过程不容许有判断性信息的损失,也就是说v通过信息瓶颈达到z之后,只容许打消冗余信息,当然这是一个比拟理想化的要求(如上图)。 有了“充分性”概念之后,咱们把察看量和其表征之间的互信息进行拆分,能够失去蓝色的冗余信息和红色的判断性信息,再依据信息处理不等式能够失去上面这行的后果。此后果意义比拟大,它阐明咱们想要取得最小充沛规范,也就是最优规范,须要经验三个子过程。 第一个子过程,其实是在进步表征z所蕴含的判断性信息总量的下限。为什么这样说?因为z所蕴含的所有内容都来源于它的察看量。所以进步察看量,它本人的判断性信息总量的下限,也就是拉高了z的它本人的下限。 而第二个子过程就是让表征z去迫近本人的判断性下限。这两项其实对应了充分性的要求。 第三个子过程的条件互信息,如后面所说,它代表指标所蕴含的冗余信息,因而最小化这一项就对应了最简性的指标。此处,简略阐明一下“条件互信息”,它代表的是z中所蕴含的仅和v相干且与y无关的信息,简略来说,就是和工作没有关系的冗余信息。其实从后面的变分信息瓶颈能够看到第一个子过程,其实优化一个条件熵,也就是用察看量v初始的特色图和标签算一个穿插熵,而后进行优化。所以这一项它实质上和给定的工作是统一的,因而暂且不须要非凡解决。 至于另外两项的优化指标,他们实质上是等价的。而且值得注意的一点是这种等价关系,意味着晋升表征的判断性的过程中,也在打消冗余。把原来已经对抗的两个指标拉到了天平同一侧,间接就解脱了信息瓶颈原有的一个衡量难题,使得信息瓶颈随着最小充沛规范实践上是可行的。 定理一和引理一定理一:最小化I(v;y) − I(z;y) 等价于最小化 v,z 对于工作指标y条件熵的差值,即: minI(v;y)−I(z;y) ⇔ min H(y|z) − H(y|v), 其中条件熵定义为H(y|z):=−∫p(z)dz∫p(y|z)log p(y|z)dy . 引理一:当表征z对工作指标y做出的预测与其察看量 v的雷同时,表征 z对于工作指标 y具备充分性,即: 为了达到后面制订的指标,还须要防止高维空间中互信息的估算,因而文章中提出了十分具体的重点的定理和引理这两项内容。 ...

September 2, 2021 · 1 min · jiezi

关于自然语言处理:ChaosBlade从混沌工程实验工具到混沌工程平台

简介:ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已退出到 CNCF Sandbox 中。起初蕴含面向多环境、多语言的混沌工程试验工具 chaosblade,到当初倒退到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台反对试验工具托管和工具自动化部署,通过对立用户试验界面,将用户的精力聚焦在通过混沌工程解决云原生过程中高可用问题上。本文从混沌试验模型形象、混沌试验工具开源和混沌工程平台降级我的项目三阶段登程,具体介绍 ChaosBlade。作者 | 肖长军(穹谷) 桑杰 ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已退出到 CNCF Sandbox 中。起初蕴含面向多环境、多语言的混沌工程试验工具 chaosblade,到当初倒退到面向多集群、多环境、多语言的混沌工程平台 chaosblade-box,平台反对试验工具托管和工具自动化部署,通过对立用户试验界面,将用户的精力聚焦在通过混沌工程解决云原生过程中高可用问题上。本文从混沌试验模型形象、混沌试验工具开源和混沌工程平台降级我的项目三阶段登程,具体介绍 ChaosBlade。 在往年可信云测评中,阿里云故障演练平台以最高分首批通过可信云混沌工程平台能力要求最高等级-先进级认证。 混沌试验模型ChaosBlade 我的项目笼罩根底资源、应用服务、容器服务等混沌试验场景。在试验工具设计之初就思考了场景模型对立,便于场景扩大和积淀,也为平台托管试验工具实现对立场景调用提供模型根据。ChaosBlade 我的项目中所有的试验场景均遵循此试验模型设计,上面通过试验模型的推导、介绍、意义和具体的利用来具体介绍此模型。 1、试验模型的推导混沌试验次要蕴含故障模拟,咱们个别对故障的形容如下: 10.0.0.1 机器上挂载的 A 磁盘满造成了服务不可用;所有节点上的 B dubbo 服务因为执行迟缓造成上游 A dubbo 服务调用提早,从而造成用户拜访迟缓;Kubernetes A 集群中 B 节点上 CPU 所有核使用率满载,造成 A 集群中的 Pod 调度异样;Kubernetes C 集群中 D Pod 网络异样,造成 D 相干的 Service 拜访异样。通过上述,咱们能够应用以下句式来形容故障:因为某某机器(或集群中的资源,如 Node,Pod)上的哪个组件产生了什么故障,从而造成了相干影响。咱们也能够通过下图来看故障形容拆分: 能够通过这四局部来形容现有的故障场景,所有咱们形象出了一个故障场景模型,也称为混沌试验模型。 2、试验模型的介绍此试验模型详细描述如下: Scope: 试验施行范畴,指具体实施试验的机器、集群及其资源等。Target: 试验靶点,指试验产生的组件。如根底资源场景中的 CPU、网络、磁盘等,Java 场景中的利用组件如 Dubbo、Redis、RocketMQ、JVM 等,容器场景中的 Node、Pod、Container本身等。Matcher: 试验规定匹配器,依据所配置的 Target,定义相干的试验匹配规定,能够配置多个。因为每个 Target 可能有各自非凡的匹配条件,比方 RPC 畛域的 Dubbo、gRPC 能够依据服务提供者提供的服务和服务消费者调用的服务进行匹配,缓存畛域的 Redis,能够依据 set、get 操作进行匹配。还能够对 matcher 进行扩大,比方扩大试验场景执行策略,管制试验触发工夫。Action: 指试验模仿的具体场景,Target 不同,施行的场景也不一样,比方磁盘,能够演练磁盘满,磁盘 IO 读写高,磁盘硬件故障等。如果是利用,能够形象出提早、异样、返回指定值(错误码、大对象等)、参数篡改、反复调用等试验场景。如果是容器服务,能够模仿 Node、Pod、Container 资源异样或者其上的根底资源异样等。应用此模型能够很清晰表白出以下施行混沌试验须要明确的问题: ...

August 17, 2021 · 2 min · jiezi

关于自然语言处理:你需要知道的智能搜索应用于产业场景的七大问题

近日,虎博科技技术副总裁谭悦做客雷锋网AI金融评论公开课,解说了企业该当如何拥抱以NLP为代表的人工智能新基建,并介绍了NLP(Nature Language Processing,自然语言解决)技术的利用场景及代表性技术利用智能搜寻对企业晋升客户服务品质的价值后劲。以下是想借力AI、NLP(自然语言解决)晋升业务智能属性的从业者们不可不知的七大问题,看看是否正是你所困惑的。 问题1:对于企业级用户来说,智能搜寻可能解决什么痛点? 总结一句话:数据密集型企业和政务机构都须要智能搜寻。首先要晓得是什么企业,所处在什么行业,不同的公司痛点必定是不一样的。对自然语言解决来说,什么样的公司会有比拟大的痛点呢?首先它应该有比拟多的文字类的信息(这些信息最好是线上化的,如果非线上化的话,咱们也能够逐步地把它变成线上化,但这就须要一个预处理过程),并且须要有大量的一些人工来解决这些信息,原先解决这些信息或者获取这些信息的效率是比拟低的,当效率晋升当前能发明出极大的收益。比方金融机构中投资、投研就是十分典型的。 问题2:智能搜寻里如何使用常识图谱? 智能搜寻里咱们其实次要用了两类不同的技术,一个语义模型,一个常识图谱,两者相互配合。常识图谱其实呈现得十分早,很早的时候包含从谷歌大脑、百度知心,心愿把世界上次要的常识都通过一个图谱演绎,这个现实实现也是有很多艰难。这个世界下面的常识其实是十分庞杂的,热门的大家都晓得的有很多,然而有很多其实都暗藏的很深或者须要一些特地精通相熟某个畛域的人士才会晓得理解。所以要把凋谢域全副常识放在图谱外面是很难的。然而一些特定畛域的常识图谱是能够去构建的,比如说基于公司行业概念,基于供应链上下游,基于一些人物和实体关系的这些图谱,当初咱们无时无刻都在用到。咱们通过一些语义模型,从海量数据的统计意义上来构建对这个世界的认知。当常识图谱可能明确关联的时候最好,如果没有,那么通过语义模型来进入一个概率下面的关联,甚至能够用这些概率上的关联来帮忙逐步地构建和拓展常识图谱,所以这二者之间就能够相互配合。具体来讲,个别会在什么畛域用到呢?比方,底层的信息开掘、用户的了解、召回、排序,甚至做一些推演和比拟的时候,都能够用到这样的技术。 问题3:虎博搜寻的智能搜寻计划目前曾经输入了吗,在哪些机构用了,成果怎么样? 咱们第一个切入的场景是金融,曾经向很多出名机构输入了咱们的智能搜寻计划并达成单干。例如,咱们曾经与50%的国内头部券商达成单干,目前也开始笼罩到了大宗商品、交易商、保险、基金、代销、银行等客户。除此之外,咱们正在向更多的畛域扩大,比方政务、大数据中心、媒体、医药等。整体来看,我的项目在施行的时候并不是一次性地全副做完的,会依据不同的场景需要,分阶段进行。公司从去年初开始商业化,目前咱们很多客户都曾经进入到二期、三期的阶段了。 问题4:智能搜寻的思路和做智能营销的思路是不是差不多? 用户产品和商业产品是两条十分不一样的思路,对于用户产品也就是咱们说的智能搜寻来讲,最要害的优化指标,是能不能够比拟精确、疾速、全面的找到用户感兴趣的信息,所以它的评估指标是准确率、召回率、用户点击率、停留时间等等,当然如果有一些显式反馈的机制,如打叉敞开的这种机制的话当然也能够。对于智能营销来讲,它其实跟广告就很像了,它最终思考的是商业收益,也就是转化率,你点得再多,最初没人买单那是不行的。或者说买了单,然而你的投入产出比不行,那么营销策略就是有问题的。所以在这个过程当中,底层算法是有一些相似,但最终要优化的指标不一样,就决定了在这个产品当中使用算法的形式和优化算法的指标有所不同。 问题5:训练算法要怎么解决和客户单干的数据安全问题,尤其是金融行业? 第一,咱们提供私有化部署和定制化开发的空间。第二,为了能让上述过程更高效,咱们把很多性能变成工具化的,把很多算法变成有预训练的,这样能够用于金融机构的外部,对接到机构本人的数据中,在机构本人的零碎里进行更新,疾速地适配到那个环境外面去。 问题6:自然语言解决我的项目落地是私有云还是私有化多,如果是私有化的话应该怎么去迭代模型? 如果是从全行业来讲,其实私有云和私有化都有,具体到金融行业,私有化比拟多。私有云当初处在一个被逐步了解和承受的过程当中。一方面因为数据安全性,另外一方面某些外围业务从法律法规的要求上来讲也须要私有化。但如果是私有化,怎么去迭代模型?咱们的模型的迭代,曾经不肯定非要通过私有云的形式才可能提供,咱们有自动化的迭代模型工具,能够了解为只有有源源不断地把数据,咱们通过工具化的调参、优化就能够有一个模型更新进去。如果原来曾经有的一些技术,咱们能够先做齐全的重构当前,再到金融机构外部来进行测试和重新部署。 问题7:自然语言解决在风控畛域的落地场景有哪些? 传统的银行业务里有本人的风控模型的定义,次要是基于资金、交易、用户或者企业账户的信息。自然语言解决是新涌现出的,用于辅助风控的技术。当初很多危险的起源并不是来自于一欠款没还,或者生产陡增,亦或是有诉讼官司,更多的是来自于全网的另类数据,比如说企业的涉诉信息、自媒体评论等,甚至很多数据可能呈现在微博、知乎、公众号、贴吧甚至是天猫商品评论外面。利用自然语言解决技术能够对这些数据进行全面、零碎的剖析,以提前预判潜在危险,降级风控等级,这就是一个典型的利用场景。

August 16, 2021 · 1 min · jiezi

关于自然语言处理:NLP随笔二

当 AI 在某一个单点工作上的体现靠近或者超过人类的时候,就会给行业带来微小的商机。在视觉分类、检索、匹配、指标检测等各项任务上,随着相干算法越来越精确,业界也开始在大量商业场景中尝试这些技术 深度学习在计算机视觉、语音辨认等感知智能技术上率先取得成功并不是偶尔。深度学习秉承连贯主义学派的范式,相较传统统计机器学习技术的最大进化在于其利用了高于统计办法数个数量级的参数和极其简单的函数组合,通过引入各种非线性和多层级感知能力,形成了远强于统计机器学习模型的拟合能力。ResNet-152 的参数量曾经达到六千万的级别,GPT-2.0 的参数量达到了惊人的 15 亿。而其余上亿甚至数亿级别的网络更是不可胜数。如此简单的模型对数据的拟合能力达到了前所未有的程度,然而同时也极大进步了过拟合的危险。这对数据提出了极高的要求。训练数据的数量、维度、采样平衡度、单条数据自身的浓密度(非0、不稠密的水平),都须要达到极高的程度,能力将过拟合景象升高到可控范畴。 视觉信息(图像、视频)恰好是这样一类天然间断信号:一张图片通常就有数百万甚至上千万像素,而且每个像素上通常都有色彩,数据量大、数据的示意浓密、冗余度也高。往往在失落大量间接视觉信号的状况下,人还能迅速了解图片的语义信息,就是因为天然间断信号,如图像中的场景和物体往往具备视觉、构造和语义上的共性。一个 30MB 的位图图片能被压缩到 2MB 而让人眼根本无奈感知区别;一个 30MB 的 wave 音频文件被压缩到 3MB 的 MP3 还能根本放弃次要旋律和听感,都是因为这类天然间断信号中存在大量不易被人的感官所感知的冗余。 视觉信息这种的丰盛和冗余度,让深度神经网络得以从监督信号中一层层提炼、一层层感知,最终学会局部判断逻辑。深度神经网络在感知智能阶段中在视觉工作和语音工作上的胜利,离不开视觉、语音信号本身的这种数据特点 明天,属于感知智能的视觉和语音利用曾经全面开花,但属于认知智能的自然语言解决却倒退滞后。这种倒退状态与自然语言解决技术中的数据特色也有密不可分的关系。 绝对于图片、语音给出的间接信号,文字是一种高阶形象离散信号。较之图片中的一个像素,文本中一个单元信息密度更大、冗余度更低,往往组成句子的每一个单词、加上单词呈现的程序,能力正确表白出残缺的意思。如何利用单个文本元素(字/词)的意思,以及如何利用语句中的程序信息,是近年来自然语言解决和文本剖析技术的次要摸索脉络 2013 年,词的分布式向量示意(Distributed Representation)呈现之前,如何在计算机中高效示意单个字/词是难以逾越的第一个坎。在只能用One-hot向量来示意字/词的年代,两个近义词的示意之间的关系却齐全独立,语义类似度无奈计算;上示意一个字/词所需的上万维向量中只有一个维度为1,其余维度都为0,稠密度极高。面对这类信号,深度神经网络这类简单的模型所善于的化繁为简的形象、提炼、总结能力便大刀阔斧,因为输出信号曾经极简到了连最根底的自我示意都难以做到。 而分布式词向量将语言的特色示意向前推动了一大步。分布式词向量提出了一个正当的假如:两个词的类似度,能够由他们在多个句子中各自的上下文的类似度去度量,而上下文类似的两个词会在向量空间中由两个靠近的向量来示意。这种做法局部赋予了词向量“语义”,因而咱们不用再让机器去查百科全书通知咱们“苹果”的近义词是“梨子”,而是间接从大量的互联网语料中去学习,原来“苹果”的近义词也能够是“三星”、“华为”。因为人们经常会说“我购买了一个苹果手机”,也常说“我购买了一个三星手机”,模型会敏锐的学习到“苹果”和“三星”在大量语料中呈现时其上下文高度类似,因此认为两个词类似。分布式词向量让无语义、极稠密的 One-hot 向量死于非命,而为大家提供了嵌入语义信息、浓密的特色示意,这才使得深度神经网络在自然语言解决和文本剖析上的利用真正变得可能。 捕获语句中在独立的词汇合根底之上、词序列形成的句子构造信息也是自然语言解决和文本剖析中的一个次要方向。传统条件随机场(CRF)思考了前后相邻元素和以后元素之间的依赖;长短时记忆网络模型(LSTM)以一种衰减模式思考了以后元素之前的元素序列;seq2seq 通过注意力和编解码的机制使得解码时的以后元素不光能用上曾经解码结束的元素序列,还能用上编码前的序列的残缺信息;近期各类基于 Transformer 构造,如 ELMo 、BERT、GPT-2.0、XLNet,则利用两阶段(基于自编码的预训练加基于工作的调优)模式,可能以自监督的形式更好地利用大规模的无标注语料训练不同句子构造中词语之间的关系,并且冲破传统线性序列构造中存在的难以建设长距离、双向依赖关系的问题,学习到品质更高的两头语言模型,再通过调优就能在文本生成、浏览了解、文本分类、信息检索、序列标注等多个工作上获得以后最为当先的准确率。 为自然语言工作退出“常识”,也是另一个新兴重要摸索方向,这个方向则与常识图谱技术紧密结合 就像 BERT、GPT-2.0、XLNet 在两阶段范式上的必由之路,咱们也认为根底语言模型在不同工作上能够存在一些不变性,但在不同场景中肯定要做非凡语料与工作下的调优与适配 但认知智能在金融、公安、媒体等场景中的变动局部给 AI 厂商带来的挑战非常明显。一个算法往往在不同场景下要利用不同的标注语料去造成不同的模型,一个媒体场景的 10 类新闻分类模型,无奈给另一个媒体的 12 类分类体系应用

August 3, 2021 · 1 min · jiezi

关于自然语言处理:Dapr-在阿里云原生的实践

简介:Faas 场景下,比拟吸引用户的是老本和研发效率,老本次要通过按需分配和极致的弹性效率来达成。而利用开发者冀望通过 FaaS 提供多语言的编程环境,晋升研发效率,包含启动工夫、公布工夫、开发的效率。 作者|曹胜利 什么是Service Mesh?从 2010 年的时候,SOA 架构就曾经在中大型互联网公司中开始风行,阿里也在2012 年开源了 Dubbo 。而之后微服务架构开始风行,大量互联网和传统企业都投身到微服务的建设中。在国内逐步造成了Dubbo 和 Spring Cloud 两大微服务营垒。在2016 年的时候,微服务畛域一个更具备前沿性,更加合乎容器和 Kubernetes 的微服务计划正在孕育,这个技术被称为 Service Mesh。时至今日,Service Mesh 理念曾经失去了大范畴遍及,很多公司都在 Service Mesh 畛域有了落地。 Service Mesh 定义Service Mesh 是一个基础设施层,次要围绕服务间通信来进行。当初的云原生利用的服务拓扑构造非常复杂,Service Mesh 能够在这种简单拓扑构造中实现牢靠的申请传送。Service Mesh 是以 Sidecar 的形式运行,利用旁边会运行一个独立的 Service Mesh 过程,Service Mesh 负责近程服务的通信。军用三轮摩托车和 Service Mesh 十分相像,军用三轮摩托车上一个士兵负责开车,一个士兵负责对人发动射击。 Service Mesh 解决的痛点 传统的微服务架构大都以 RPC 通信框架为根底,在 RPC SDK 中提供了服务注册/发现,服务路由,负载平衡,全链路跟踪等能力。利用业务逻辑和 RPC SDK 在同一个过程中,这种形式给传统微服务架构带了很多挑战:中间件能力相干代码侵入到了业务代码中,耦合性很高;推动 RPC SDK 的降级老本十分高,进而也导致了 SDK 版本分化十分重大。同时这种形式对利用开发者的要求比拟高,须要有丰盛的服务治理的运维能力,有中间件的背景常识,应用中间件的门槛偏高。 通过 Service Mesh 形式将一些 RPC 的能力进行下沉,这样能够很好的实现关注点拆散、职责边界的明确。随着容器和 Kubernetes 技术的倒退,Service Mesh 曾经成为云原生的基础设施。 ...

August 3, 2021 · 4 min · jiezi

关于自然语言处理:NLP随笔一

20 世纪50 年代中期到80 年代初期的感知器,20世纪80 年代初期至21世纪初期的专家系统,以及最近十年的深度学习技术,别离是三次热潮的代表性产物 Gartner2018技术成熟度曲线,Gartner每年公布的技术趋势曲线,聚焦将来5到10年间,可能产生微小竞争力的新兴技术 人工智能技术远未达到媒体所宣传的神通广大,无所不能。从图1中的技术倒退现状也可一窥端倪。AlphaGo能够战败最好的人类棋手,但却不可能为你端一杯水。驰名机器人学者Hans Moravec早前说过:机器人感觉容易的,对于人类来讲将是十分难的;反之亦然。 人能够轻松做到听说读写,但对于简单计算很吃力;而机器人很难轻松做到用手抓取物体、以及走上坡路,但能够轻而易举地算出空间火箭的运行轨道。人类能够通过与日俱增的学习,轻松实现各种动作,但对于机器人来讲实现这些简略的动作难如登天。专家们称此实践为“莫拉维克悖论”(Moravec's Paradox)。机器学习专家、驰名的计算机科学和统计学家 Michael I. Jordan近日在《哈佛数据迷信评论》上发表文章,也认为当初被称为AI的许多畛域,实际上是机器学习,而真正的 AI 反动尚未到来。 业界统一认为,AI的三要素是算法,算力和数据 从计算,到感知,再到认知,是大多数人都认同的人工智能技术倒退门路。那么认知智能的倒退现状如何? 首先,让咱们看一下什么是认知智能。复旦大学肖仰华传授已经提到,所谓让机器具备认知智能是指让机器可能像人一样思考,而这种思考能力具体体现在机器可能了解数据、了解语言进而了解事实世界的能力,体现在机器可能解释数据、解释过程进而解释景象的能力,体现在推理、布局等等一系列人类所独有的认知能力上 对于看、听、说、动作而言,感知智能曾经能够达到十分好的成果。而对于推理、情感、联想等能力,还须要更强的认知能力的体现 虚构生命根本能力领域 虚构生命倒退阶段 虚构生命1.0,能够看做是聊天机器人的降级版本。本阶段最重要的特点是单点技术的整合,并能作为整体和人类进行交互。从性能上来看,依然是被动交互为主,但能够联合对用户的认知,进行用户画像和被动举荐。 咱们目前正在处于虚构生命的1.0阶段。在这个阶段,多轮对话、凋谢域对话、上下文了解、个性化问答、一致性和平安回复等依然是亟待解决的技术难题。同时,虚构生命也须要找到可落地的场景,做好特定畛域的技术冲破。 虚构生命2.0,是目前正在致力前行的方向,在这个阶段,多模态技术整合已齐全成熟,虚构生命状态更为多样性,具备基于海量数据的联结推理及联想,对自我和用户都有了全面的认知,并可疾速进行人格定制。实现这个阶段可能须要3-5年。 虚构生命3.0, 初步达到强人工智能,具备超过人类的综合感知能力,并领有全面的推理、联想和认知,具备自我意识,并能达到人类程度的天然交互。随着技术的提高,咱们期待在将来十年至三十年实现虚构生命的3.0。 语言是次要以发声为根底来传递信息的符号零碎,是人类重要的交际工具和存在形式之一。作用于人与人的关系时,是表白互相反馈的中介;作用于人和主观世界的关系时,是意识事物的工具;作用于文化时,是文化信息的载体(起源:维基百科)。语言与逻辑相干,而人类的思维逻辑最为欠缺 自底向上,自然语言解决须要通过对字、词、短语、句子、段落、篇章的剖析,使得计算机可能了解文本的意义 比方和机器人对话的过程中,对于音乐话题的了解,就须要用到命名实体辨认、实体链接等技术。举一个简略的例子,“我真的十分喜爱杰伦的双截棍”,就须要判断杰伦是一个人名,链接到知识库中“周杰伦”这样一个歌手实体,并且“双截棍”是一个歌名而不是一种器械。同时,还能够进行情感判断,是一个侧面的“喜爱”的情感。 传统的自然语言解决技术,还是以统计学和机器学习为主,同时须要用到大量的规定。近十年来,深度学习技术的衰亡,也带来了自然语言解决技术的冲破。这所有还须要从语言的示意开始说起。 家喻户晓,计算机善于解决符号,因而,自然语言须要被转化为一个机器敌对的模式,使得计算机可能疾速解决。一个很典型的示意办法是词汇的独热(one-hot)示意,也就是相当于每个词在词汇表里都有一个特定的地位。比如说有一个10000个词的词汇表,而“国王”是词汇表里的第500个词,那么“国王”就能够示意为一个一维向量,只有第500个地位是1,其余9999个地位都是0。但这种示意办法的问题很多,对语义相近但组成不同的词或句子如“国王”和“女王”,利用独热示意的向量内积,无奈精确的判断两者之间的类似度。 2013年,Tomas Mikolov等人在谷歌开发了一个基于神经网络的词嵌入(word embedding)学习办法Word2Vec,岂但大大缩短了词汇的示意向量的长度,而且可能更好的体现语义信息。通过这种嵌入办法能够很好的解决“国王”-“男人”=“女王”-“女人”这类问题。感兴趣的读者能够参考互联网上大量的对于词嵌入的材料。 计算机可能疾速解决自然语言之后,传统的机器学习办法也进一步被深度学习所颠覆。相干算法在近年来的迭代速度十分快。以语言模型(Language Model)预训练方法为例,代表性办法有Transformer,ELMo,Open AI GPT,BERT,GPT2以及最新的XLNet。其中,Transformer于2017年6月被提出。ELMo的发表工夫是2018年2月,刷新了过后所有的SOTA(State Of The Art)后果。 不到4个月,Open AI在6月,基于Transformer公布了GPT办法,刷新了9个SOTA后果。又过了4个月,横空出世的BERT又刷新了11个SOTA后果。2019年2月,Open AI公布的GPT2,蕴含15亿参数,刷新了11项工作的SOTA后果。而2019年6月,CMU 与谷歌大脑提出了全新 XLNet,在 20 个工作上超过了 BERT 的体现,并在 18 个工作上获得了以后最佳成果。 除了算法和算力的提高,还有一个重要的起因在于,以前的自然语言解决钻研,更多的是监督学习,须要大量的标注数据,老本高且品质难以管制,而以BERT为代表的深度学习办法,间接在无标注的文本上做出预训练模型。在人类历史上,无监督数据是海量的,也就代表着这些模型的晋升空间还有很大。2019年7月11日,Google AI发表论文,就利用了惊人的250亿平行句对的训练样本。其利用成果咱们也刮目相待。 尝试用技术模仿人类的实在对话,在凋谢畛域就是个伪命题。因为在人类的对话过程中,一句话中所表白出的信息,不只是文字自身,还包含世界观、情绪、环境、上下文、语音、表情、对话者之间的关系等。 比如说“今天天气不错”,在晚上拥挤的电梯中和共事说,在秋游的过程中和驴友说,走在大巷上的男女朋友之间说,在滂沱大雨中对伙伴说,很可能代表齐全不同的意思。在人类对话中须要思考到的因素包含:谈话者和听者的动态世界观、动静情绪、两者的关系,以及上下文和所处环境等 而且,以上这些都不是独立因素,整合起来,能力真正反映一句话或者一个词所蕴含的意思。这就是人类语言的微妙之处。同时,人类在交互过程中,并不是等对方说完一句话才进行信息处理,而是随着说出的每一个字,一直的进行脑补,在对方说完之前就很可能理解到其所有的信息。再进一步,人类有很强的纠错性能,在进行多轮交互的时候,可能依据对方的反馈,修改本人的了解,达到单方的信息同步。 在上一节中,咱们也提到,自然语言解决技术很难解决推理问题。而推理是认知智能的重要组成部分。比如说对于问题“姚明的老婆的女儿的国籍是什么?”,一个可行的解决方案,就是通过大规模百科知识图谱来进行推理查问。 常识图谱被认为是从感知智能通往认知智能的重要基石。一个很简略的起因就是,没有常识的机器人不可能实现认知智能。图灵奖获得者,常识工程创始人Edward Feigenbaum已经提到:“Knowledge is the power in AI system”。张钹院士也提到,“没有常识的AI不是真正的AI”。 ...

August 3, 2021 · 1 min · jiezi

关于自然语言处理:阿里集团业务驱动的升级Dubbo-30-的演进思路

简介:阿里云在 2020年底提出了“三位一体”理念,指标是心愿将“自研技术”、“开源我的项目”、“商业产品”造成对立的技术体系,令技术的价值能够达到最大化。Dubbo 3.0 作为三位一体架构的首推计划,在团体内被寄托了厚望。它完满交融了外部 HSF 的个性,人造领有高性能、高可用的外围能力,咱们冀望用它来解决外部落地问题,做到技术栈对立。本文将分享Dubbo 3.0的演进思路以及如何帮忙用户享受云原生带来的技术红利。作者 | 远云 三位一体2020年底,阿里云提出了“三位一体”的理念,指标是心愿将“自研技术”、“开源我的项目”、“商业产品”造成对立的技术体系,令技术的价值能够达到最大化。 阿里团体外部的 HSF 框架在经验了多年双十一流量洪峰的考验后,锤炼出了高性能和高可用的外围竞争力。而对于 Dubbo,作为国内外最受欢迎的服务治理框架之一,它的开源亲和性就不必再多说了。 Dubbo 3.0 作为三位一体架构的首推计划,在团体内被寄予厚望。它完满交融了外部 HSF 的个性,人造领有高性能、高可用的外围能力,咱们冀望用它来解决外部落地问题,做到技术栈对立。目前在考拉曾经大规模落地,将来也会在泛滥外围场景进行落地,并承载 618、双十一等简单的业务场景。 Dubbo 3.0 带来的益处 在具体阐明 Dubbo 3.0 的变动细节之前,先从两个方面说一说降级到了 Dubbo 3.0  能带来什么益处。 首先是,Dubbo 3.0 会着力晋升大规模集群实际中的性能与稳定性,通过优化数据存储形式来升高单机资源损耗,并基于此保障超大规模集群的程度扩容的状况下集群的稳定性。同时,Dubbo 3.0 提出了柔性集群的概念,可能在异构体系下无效保障和进步全链路总体的可靠性和资源的利用率。 第二点是 Dubbo 3.0 代表着 Dubbo 全面拥抱云原生的里程碑。以后 Dubbo 在国内外有着基数微小的用户群体,而随着云原生时代的到来,这些用户上云的需要越来越强烈。Dubbo 3.0 将提供一整套的解决方案、迁徙门路与最佳实际,来帮忙企业实现云原生转型,从而享受云原生带来的红利。 1、业务收益 那么站在业务应⽤的视角来看,如果降级到 Dubbo 3.0,能取得哪些具体的收益呢? 首先,在性能与资源利用率⽅面,Dubbo 3.0 能无效升高框架带来的额定资源耗费,从而⼤幅晋升资源利用率。 从单机视⻆,Dubbo 3.0 能节俭约 50% 的内存占⽤;从集群视角,Dubbo 3.0 能⽀持的集群实例规模以百万计,为将来更大规模的业务扩容打下基础;而 Dubbo 3.0 对 Reactive Stream 通信模型的反对,在⼀些业务场景下能带来整体吞吐量的⼤幅晋升。 其次,Dubbo 3.0 给业务架构降级带来了更多的可能性。最直观的就是通信协议的降级,给业务架构带来了更多抉择。 Dubbo 原来的协定其实在⼀定水平上解放了微服务接⼊⽅式。举个例子,挪动端、前端业务要接入 Dubbo 的后端服务,须要通过网关层的协定转换;再比方,Dubbo 只⽀持 request-response 模式的通信,这使得⼀些须要流式传输或反向通信的场景⽆法失去很好的反对。 最初,Dubbo 3.0 给业务侧的云原生降级带来了整体的解决方案。不论是底层基础设施降级带来的被动变动,还是业务为解决痛点问题进行的被动降级,当业务降级到云原生,Dubbo 3.0 通过给出云原生解决方案,能够帮忙业务产品疾速接入云原生。 Dubbo 3.0 概览 ...

July 29, 2021 · 3 min · jiezi

关于自然语言处理:更丰富的云原生应用治理能力让业务快速生长

简介:据 Gartner 的报告显示,到 2022 年将有 50% 的应用软件将容器化,2023 年高可控利用 PaaS 的市场规模将达到 332 亿元,年复合增长率约为 18.7%。企业数字化转型的路线上,踊跃拥抱云原生,减速业务零碎容器化与微服务化革新成为必然选择。为了更全面的为云化各阶段政企服务,阿里云混合云重磅推出:麻利版云原生PaaS场景。 据 Gartner 的报告显示,到 2022 年将有 50% 的应用软件将容器化,2023 年高可控利用 PaaS 的市场规模将达到 332 亿元,年复合增长率约为 18.7%。早在2019年,RightScale数据显示,在大型企业中 k8s 的使用率已达到了 60%,像 OpenShift、Cloud Foundry 和 Rancher 这类容器利用平台的使用率也别离达到了34%、21% 和11%。 企业数字化转型的路线上,踊跃拥抱云原生,减速业务零碎容器化与微服务化革新成为必然选择。 为了更全面的为云化各阶段政企服务,阿里云混合云重磅推出:麻利版云原生PaaS场景。 产品介绍 麻利版云原生PaaS场景,是一款基于Kubernetes的高效能企业级容器云平台,在异构的混合云基础设施上,提供资源优化调度和跨平台适配能力。用以打造满足规模、性能、可靠性、可观测性和业务连续性等要求的微服务和音讯利用零碎。旨在帮忙企业在建好云的根底上进一步实现管好云和用好云。 麻利版云原生PaaS场景 产品矩阵 产品性能 麻利版云原生PaaS场景的性能分为面向下层利用的开发运维治理和面向底层 IaaS 的平台运维治理两大部分。 【开发运维治理】 麻利版云原生PaaS场景,次要提供了像音讯和事务等中间件能力,服务治理和链路追踪等能力能够拓展到多语言畛域,Java 微服务方面,原生的 Spring Cloud 和 Dubbo 利用在不经批改的状况下即可取得诸如流量管控、离群摘除、服务契约、无损下线和服务鉴权等性能。利用在公布、启动和进行的过程中,能够进行分批和灰度等操作,且具备可视化的公布单和智能诊断能力。最初内置的流水线性能能够实现继续集成和继续交付的 DevOps 能力。 【平台运维治理】 麻利版云原生PaaS场景,将底层 IaaS 通过容器进行封装,反对创立客用集群和纳管已有集群,且能够反对集群级别的监控、弹性伸缩和故障隔离及灾备等。在整个零碎平台层面,麻利版云原生PaaS场景通过严格的性能、稳定性、安全性和可靠性测试,并具备高可用能力。同时为了满足企业级须要,还提供有诸如组织治理、租户治理、权限隔离和资源隔离等能力。 产品劣势 【轻量化】 在 EDAS、AECP 和 ARMS 的典型输入场景下,管控资源比麻利版v3.5 缩小了约 50%。 【高可用】 除了强壮的基础设施保障之外,外围组件具备严格的高可用能力,主动巡检、故障隔离和容灾备份等性能能够及时发现问题,并及时隔离相干故障设施及服务,在最极其的场景下,提供了从备份复原的能力。 【优体验】 作为一个残缺的生态场景,麻利版云原生PaaS场景中的许多产品都进行了深度集成,容器、利用、可观测、高可用和多语言等相干产品更是具备无缝的产品应用体验。 【完整性】 从芯片到硬件、从物理机到虚拟机、从操作系统到容器集群、从单体利用到微服务利用、从同步调用到异步音讯,麻利版云原生PaaS场景都能提供残缺的产品解决方案。 ...

July 28, 2021 · 1 min · jiezi

关于自然语言处理:Dubbo-跨语言调用神兽dubbogopixiu

简介:Pixiu 是基于 Dubbogo 的云原生、高性能、可扩大的微服务 API 网关。作为一款网关产品,Pixiu 帮忙用户轻松创立、公布、保护、监控和爱护任意规模的 API ,承受和解决成千上万个并发 API 调用,包含流量治理、 CORS 反对、受权和访问控制、限度、监控,以及 API 版本治理。Pixiu 是什么 在答复 Pixiu 是什么之前,咱们简略解释一下 Dubbo 是什么。Dubbo 是一个开源的高性能 RPC 框架,有着丰盛的服务治理能力以及优良的扩大能力。Dubbo 更扩大出 Dubbo-go,为用户提供了 Golang 的 Dubbo 解决方案,买通了两种语言之间的隔膜,使 Dubbo 更加贴近云原生。 Dubbo-go 作为 Golang 服务,实现与 Dubbo 服务之间的互相调用。然而,在日常应用场景中,用户往往有把 Dubbo 服务以 RESTful 格调向外裸露的需要同时也要兼顾外部 Dubbo 调用。为了解决这种场景,作为 Dubbo API 网关的 Pixiu (中文: 貔貅, 曾用名 dubbo-go-proxy) 便应运而生。之所以采纳 Pixiu 这个名称,是因为 Java 同类产品 Zuul 的意象是一个东方怪兽,Pixiu 作为一个国产产品,就用了咱们中国的一个相似的神兽貔貅作为项目名称。也同时表白了 Dubbo 社区心愿扩大出一整套云原生生态链的信心。 目前 Dubbo 多语言生态,倒退最好的天然是 Java,其次是 Golang,其余语言都差强人意。dubbo-go-pixiu 我的项目是一个基于 dubbo-go 倒退起来的我的项目,目前接口协议层反对的是七层的 HTTP 申请调用,打算在将来的 0.5 版本中反对 gRPC 申请调用,其另外一个使命是作为一种新的 dubbo 多语言解决方案。 ...

July 21, 2021 · 4 min · jiezi

关于自然语言处理:可用于飞书上的机器人上线啦

01 吾来机器人新增飞书渠道“吾来-渠道设置-飞书机器人”中增加相干参数即可,机器人的操作没有变动。 在飞书上要操作这些中央: 1.创立机器人利用 2.在飞书渠道配置相应配置 截止发文,尽管机器人能被增加到飞书群,可是还不能在群中回复,期待技术小哥的降级吧~~ 留神:如果想要获取员工部门、地点等信息作为属性须要在飞书上多选一些权限(目前曾经反对抉择的权限,如下图): 02 类似说法学习新增操作记录类似说法学习新增操作记录和导出。 03 工作机器人优化1.工作对话画布上所有单元跳转反对搜寻; 2.工作机器人新增老手疏导等其余若干体验优化 04 会话日志新增满意度评估导出的会话日志中,新增满意度详情,自主统计更不便。 PS:小编还是感觉问答满意度统计页面就很难看。 05 吾来反对UiBot账号登录吾来反对UiBot登录,以反对AI训练师中级考试上线。 本文由 来也科技 吾来对话机器人平台 公布

July 14, 2021 · 1 min · jiezi

关于自然语言处理:搜索运营有哪些玩法你知道吗

简介:大部分产品的搜寻都是技术同学在一直的优化迭代,很容易漠视能够直接触达业务侧的经营同学的作用和价值。那明天就和大家分享下经营同学在搜寻上有哪些玩法?阿里云凋谢搜寻作为一站式可视化搜寻开发平台,产品/经营同学能够在控制台参加哪些优化动作呢?浏览时长:5分钟 适读人群:搜寻经营岗位、产品岗位、及对搜寻技术感兴趣的人; 搜寻是每个产品必备的性能,也是业务增长最重要的一项,信息越丰盛的产品越会器重搜寻能力,并且搜寻场景下是用户“被动”产生内容,这就须要搜寻技术能够精准剖析召回,命中搜寻用意,从而能力达到业务转化的目标。 市面上大部分产品的搜寻都是技术同学在一直的优化迭代,很容易漠视能够直接触达业务侧的经营同学的作用和价值。那明天就和大家分享下经营同学在搜寻上有哪些玩法?阿里云凋谢搜寻作为一站式可视化搜寻开发平台,产品/经营同学能够在控制台参加哪些优化动作呢? 在搜寻上能够做哪些经营工作那?与产品技术协同,对搜寻指标负责,继续跟进搜寻能力迭代;通过剖析业务指标输入搜寻评测报告,制订优化解决方案,晋升产品能力和用户体验;从产品和经营层面做用户体验突破性摸索,联合搜寻疏导性能配合经营计划,晋升业务转化;依据法律法规,把控内容安全性,及时处理平台内不良信息内容;经营同学难点不足搜寻相干技术常识储备,技术理念、逻辑不清晰,不利于经营工作的发展和我的项目的推动;改写、分词、召回、排序在搜寻中如何运作,经营能够参加哪些优化?个性化搜寻能够有哪些玩法?如何优化搜寻进步用户商业变现?需要解决周期长,难以做到及时疾速响应,业务倒退缓慢;企业不具备欠缺的数据管理能力,经营不能实时查看搜寻业务指标数据做出相应经营剖析和经营决策;外围搜寻经营数据:搜寻,流量,行为,成交,用户剖析,Query剖析等;个性化搜寻疏导:下拉提醒、热词、底纹等数据分析;搜寻外围逻辑解读搜寻业务流程: 1.解读用户输出的信息查问语义了解性能形容:将用户输出的query“翻译”成零碎能够了解的意思,实现人与计算机之间的无效通信,并去剖析用户的搜寻用意,召回最相干的内容/商品,解决用户搜寻诉求。 查问语义了解中的每一个性能都将间接影响用户搜寻用意的剖析和召回成果,从而间接影响点击率,跳出率,转化率等业务指标。同时也须要经营,产品,技术各方联合本身产品状况一直优化摸索。 示例:搜寻“aj1北卡兰新款球鞋”计算机做了以下这些查问剖析解决 2.筛选用户用意相关性内容对用户的query进行解读之后,会失去一些标准化的词,这些词会对应相干的内容,对内容的筛选会波及到两个概念:召回率和准确率。 准确率指的是搜到内容中相干内容的比例;召回率指的是搜寻到内容中,真正被搜寻进去的比例。什么是召回? 通过用户查问的关键词进行分词,将分词后的词组通过查找倒排链表疾速定位到文档,这个过程称为召回; 当这两个指标的比例越靠近1,成果越好,然而有些状况下,准确率和召回率是一组互相矛盾的指标,比方只搜寻出一个搜寻后果,且是用户真正的用意,那准确率就达到了100%,然而召回率却很低。这两个概念在搜寻优化中是关键性指标,波及到更高级的搜寻机制。 留神:不是所有蕴含用户query关键词的后果都应该被召回。 3.对搜寻后果进行排序query查问剖析被召回后,把最合乎用户用意的内容/商品进行正当的排序,晋升点击率避免用户跳出。接下来介绍搜寻的排序规定。 粗排:对搜寻后果进行第一轮的海选,因为要遍历所有的文档,所以粗排要尽量简略(选取对文档最重要的几项内容,如新闻类能够选用文本色及时效性),依照表达式对文档进行算分,并依照算分后果进行排序。精排:对第一轮的粗排后果选取TOPN个依照精排进行第二轮更细节的分值计算,依照分值进行最终的排序,并返回给用户。排序表达式:用于管制搜寻后果文档排序的数学表达式,反对根本运算(算术运算、关系运算、逻辑运算、位运算、条件运算)、数学函数和排序特色等。使用排序表达式能够进行排序成果的深度调优。4.个性化搜寻周边性能:(经营划重点!!)4.1热搜底纹热搜底纹是一个残缺搜索引擎必备的基本功能,通常占据着搜寻框入口的重要地位,提供不可或缺的业务价值。处于搜索引擎整个工作流程的最上游,为搜寻优化起铺垫作用,能够大大降低query了解、排序、经营干涉等环节的调优难度,并且联合经营策略能够有比拟大的施展空间。 从用户的角度来看,热搜底纹个别能够满足如下的需要: 我想轻易逛逛,不晓得搜什么好,能不能给我举荐一些优质的查问词?我想晓得大家都搜了些什么,随大流不会错最好能联合我的趣味举荐query,也要有多样性,我既想看感兴趣的内容,又想摸索一些趣味之外的内容从运营者的角度,热搜和底纹能够提供这样的价值: 我想晓得哪些query被搜得最多,热门query是用户趣味的风向标,通过剖析热门query能够把握用户的趣味走向,对制订经营策略提供决策依据我想给用户举荐一些优质query,在用户有输出的状况下,下拉提醒疏导用户用意,然而在没有任何输出的时候,如何举荐优质query呢?如果给用户举荐热门query,不能总是固定给出最热的那几个query,须要思考到多样性,一方面兼顾用户体验,另一方面须要给局部次热门query曝光机会通过剖析用户的行为,联合用户的趣味来举荐query,既兼顾用户体验,又能够对症下药的晋升业务指标✅经营能够重点关注的业务指标: 热搜: 热搜PV:当日申请热搜(且返回胜利)的次数;热搜UV:当日申请过热搜的用户数;热搜UV-CTR:用户对热搜后果的点击状况;热搜PV-CTR:热搜的点击状况疏导搜寻PV-CTR:掂量热搜疏导搜寻的召回、排序成果;疏导搜寻GMV:掂量热搜疏导购买成果;疏导搜寻珍藏/评论/点赞转化率:掂量热搜疏导珍藏/评论/点赞成果;底纹: 底纹PV:当日申请底纹(且返回胜利)的次数;底纹UV:当日申请过底纹的用户数;底纹UV-CTR:用户对底纹后果的点击状况;底纹PV-CTR:底纹的点击状况;疏导搜寻PV-CTR:掂量底纹疏导搜寻的召回、排序成果;疏导搜寻GMV:掂量底纹疏导购买成果;疏导搜寻珍藏/评论/点赞转化率:掂量底纹疏导珍藏/评论/点赞成果;4.2下拉提醒下拉提醒是搜寻服务的根底性能,在用户输出查问词的过程中,智能举荐候选query,进步用户输出效率,帮忙用户尽快找到想要的内容。能够通过中文前缀,拼音全拼,拼音首字母简拼查问以及汉字加拼音,分词后前缀,中文同音别字等查问下拉提醒的候选query. ✅经营能够重点关注的下拉提醒业务指标: 下拉提醒PV:当日申请下拉提醒(且返回胜利)的次数;下拉提醒UV:当日申请过下拉提醒的用户数;下拉提醒PV-CTR:下拉提醒的点击状况,掂量下拉提醒召回、排序的成果;下拉提醒UV-CTR:用户对下拉提醒后果的点击状况,掂量下拉提醒召回、排序的成果;疏导搜寻GMV:下拉提醒疏导搜寻的成交金额;疏导搜寻珍藏/评论/点赞转化率:掂量下拉提醒疏导珍藏/评论/点赞成果;凋谢搜寻平台介绍凋谢搜寻(OpenSearch)阿里云是自主研发的大规模分布式搜索引擎搭建的一站式智能搜寻业务开发平台,无需开发,一键接入即可取得高质量搜寻服务,内置阿里系技术多年积淀的外围搜索引擎,行业前沿的搜寻能力和算法能力,并充沛凋谢反对外部调用客户本人的算法模型,满足各行业各场景的业务需要,与客户彼此成就、独特成长; 经营亮点及劣势:可视化控制台,模块清晰,对老手人员敌对,操作简略易上手,无需期待开发周期,不便技术以外的经营产品人员依据业务状况随时成果调优;业界当先技术打造独有的行业搜寻模板,一键配置,内置行业搜寻能力,无需开发训练即可具备行业属性的高质量搜寻能力;反对开发者的算法模型即时回流至线上,依据本身业务状况进行模型开发叠加在现有平台能力上;反对A/B Test,不便业务在全量应用前能够调配肯定比例的流量进行先验,防止盲用带来对线上业务的负面影响。反对云监控报警,通过云监控对利用的存储容量、计算资源、查问QPS等指标进行监控。帮忙监测利用的应用状况,并反对对监控项设置报警规定,时刻掌握业务动向。反对定制化搜寻服务无需组建技术团队解决业务难点,顶尖阿里技术、算法工程团队同学为您排忧解难;经营/产品可操作的菜单及性能利用治理相干1. 查看:利用列表,利用详情,利用规格,利用云监控; 2. 操作:秒级扩缩容,变规格,轻松应答大促等流动; 搜索算法核心1.查看:所有菜单均可查看 2.召回配置: a. 分词治理: i.测试分词成果 ii.增加、删除、批改自定义分词的分词词条; b.查问剖析: i. 搜寻测试 ii.配置查问剖析规定:改写策略、性能抉择 配置改写策略:可管制参加召回的term是以AND或OR关系蕴含在查问后果中。改写间接影响召回后果,可依据业务状况进行调整。 示例:如Query为:“耐克运动鞋”,分词后term为:“耐克/静止/鞋” 连接符为AND时:Query改写后果为(default:'耐克' AND default:'静止' AND default:'鞋')连接符为OR时:Query改写后果为(default:'耐克' OR default:'静止' OR default:'鞋')查问剖析性能抉择:抉择行业模板默认为全选状态。 c.词典治理: 增加、删除、批改各性能词典的干涉词条:拼写纠错、停用词、同义词、实体辨认、词权重、类目预测干涉 3.排序配置: a. 排序策略管理:依据业务需要配置排序表达式,优化排序成果 b. 搜寻测试:能够查看各函数算分后果 4.搜寻疏导性能: a. 下拉提醒: 依据不同行业数据特点,下拉提醒性能提供了相应优化模板。目前已反对通用、电商和内容行业模板; i.查看下拉提醒相干报表、成果预览 ii.抉择配置黑白名单 iii.个性化配置:高频搜索词,用户搜寻频率作为候选词排序根据,优先将满足举荐条件的用户搜寻频率较高的词作为下拉提醒候选query。历史搜索词,优先展现用户之前搜寻过的query。智能排序,依据点击、购买等用户行为信息智能排序候选query。 b. 热搜与底纹: i.查看热搜底纹相干报表、成果预览 ii.抉择配置黑白名单 iii.成果优化-行为数据:基于统计搜寻日志的热搜/底纹后果能够满足冷启动阶段的需要,在这个性能开始发挥作用后,倡议关联热搜/底纹的用户点击事件,零碎外部通过采集行为数据来进一步优化成果,采集了行为数据有如下几个收益: 能够统计失去各项指标,诸如疏导搜寻的pv、uv、无后果率等,用来掂量这个性能的应用成果,为后续的改良提供根据。能够剖析用户群的趣味走向,为制订经营策略提供根据。能够采纳智能化的伎俩来举荐query,通过用户的点击行为对数据进行标注,可能依据不同的优化指标来训练模型(默认按点击率优化),通过模型来举荐query,具备较强的泛化能力。能够做个性化的热搜词举荐,晓得了用户点过哪些query,就能够联合用户的偏好做出有针对性的举荐。 ...

July 12, 2021 · 1 min · jiezi

关于自然语言处理:做人工智能时代的先行者来也科技上线AI训练师中级考试

前言十四五期间,国家大力支持人工智能等前沿畛域倒退,开局之年,快来考一个人工智能训练师证书吧。 自来也科技成立起,公司就一直的应用人工智能技术帮忙公司业务的倒退,在外部进行数据标注工作,施行我的项目的过程中也在一直的造就客户侧AI训练师,并小范畴推出了吾来教学小程序进行教学和考试认证工作。 近日,Chatbot人工智能训练师认证(中级)已正式上线来也官网(https://academy.laiye.com/cha...)。 考试介绍Chatbot是重要的人机交互窗口,让机器人了解人类语言是新时代的思维挑战。除了认证之外,来也Chatbot学院还提供系统化的对话机器人教学视频和培训手册供大家学习。 不同于以往,本次考试侧重于考查考生的实际操作能力,在拟真环境中进行测验,实现后零碎主动测评。 考核采纳游戏化的模式,是关卡闯关模式,每关依据完成度和用例通过状况分为三个等级,一星即可通关,但也心愿大家能敢于谋求更高分数。 本次考试共分六关,别离重点考查了用户问题对应知识点的准确分辨,在实在语料环境下的疾速利用多模块多功能进行开掘和标注,简略工作多轮会话的搭建,能应答不按程序说出要害信息的工作对话,能够在工作过程中应答问答的工作会话以及在工作多轮对话中应用接口向其余零碎服务传递信息。 每关的评分标准如下: 关卡考试用例数⭐️⭐️⭐️⭐️⭐️⭐️第一关132110125130第二关100809095第三关100809095第四关100809095第五关100809095第六关50404548注意事项所有机器人回复的话术不能更改,须要应用题目文件中的话术,零碎主动评分。 只有自己来也学院账号进入能力参加考试!并取得价值数万元的30天专业版机器人搭建平台的性能体验权限! 大家能够在“来也学院”利用视频、文档进行学习,加入并通过考试。 价格参考来也私有云SaaS专业版版本历史成交价格。本文由 来也科技 吾来对话机器人平台 公布

July 9, 2021 · 1 min · jiezi

关于自然语言处理:2021第一季度云智能生态技术服务能力盘点

简介:为更好的让大家理解阿里云技术服务人才的能力,阿里云从技术服务培训认证的视角,继续就阿里云生态技术服务能力进行总结和盘点,便于各生态搭档、云计算技术服务者、开发者理解。2021年第一季度,咱们推出特别篇——浩鲸智能能力盘点。以下为报告全文供大家查阅。 将来,咱们将继续关注生态技术服务能力,增多视角和细化维度,定期提供各类报告供大家理解。 欢送各位提出宝贵意见倡议,一起共创精彩。2021年,云计算作为整个数字经济的基础设施,失去了前所未有的倒退契机,仍旧放弃着高速增长的态势。2021年第一季度阿里云生态技术服务赋能认证学员数量增速达53.62%,搭档增速达23.8%。 认证整体单方向深耕、多方向协调、高阶层升级趋势逐渐浮现,其中L4增长率高达57.14%。 第一季度持证排行榜浩鲸新智能稳居榜首,中软国内、国网信通亿力、信雅达新登排行榜。新增阿里云智能客服系列岗位热度攀升。单人最多持证数已由2020年的8个增长到10个,且实现多方向笼罩。 “态斗打算”公布三个月,已产生7名学分过万的同学,其中最高学分翁同学的学习历程,咱们来具体为大家进行解读。 一季度L3考试通过率显著晋升,通过率100%的搭档数量达27家,满分学员数量亦是可观。 作为阿里云生态内重要搭档,浩鲸智能的认证数量常居榜首,实现全方向能力笼罩,以训促建、以战促强,逐渐打造了一支来之即战的技术交付劲旅,本期盘点特别篇咱们来具体解构它的标杆化能力。     全文完,感激浏览!     更多对于阿里云技术服务认证信息请拜访:       https://www.aliyun.com/gts/partner/training 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 28, 2021 · 1 min · jiezi

关于自然语言处理:电商搜索能力解读实体识别NER

简介:搜寻是电商行业业务转化中最重要的性能,那你理解其中的技术实现原理吗?一起来理解基于多年淘系全量数据和知识库深刻优化的电商行业实体辨认的能力吧,在查问剖析和类目预测中能带来哪些优化成果那~实体辨认性能介绍实体辨认,全称命名实体辨认(Named Entity Recognition,简称NER),指对电商查问词中的具备特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类润饰、型号、样式等40品种别 。查问剖析依据辨认的后果,根据实体类型的权重对查问词进行改写,使得召回的文档合乎查问的用意。 <span class="lake-fontsize-11">类别</span><span class="lake-fontsize-11">一般词</span><span class="lake-fontsize-11">材质</span><span class="lake-fontsize-11">格调</span><span class="lake-fontsize-11">样式元素</span><span class="lake-fontsize-11">色彩</span><span class="lake-fontsize-11">品牌</span><span class="lake-fontsize-11">性能效用</span><span class="lake-fontsize-11">尺寸规格</span><span class="lake-fontsize-11">品质成色</span><span class="lake-fontsize-11">场景</span><span class="lake-fontsize-11">人群</span><span class="lake-fontsize-11">套装</span><span class="lake-fontsize-11">工夫节令</span><span class="lake-fontsize-11">型号</span><span class="lake-fontsize-11">新品</span><span class="lake-fontsize-11">系列</span><span class="lake-fontsize-11">营销服务</span><span class="lake-fontsize-11">地点地区</span><span class="lake-fontsize-11">人名</span><span class="lake-fontsize-11">娱乐书文曲</span><span class="lake-fontsize-11">机构实体</span><span class="lake-fontsize-11">影视名称</span><span class="lake-fontsize-11">游戏名称</span><span class="lake-fontsize-11">数字</span><span class="lake-fontsize-11">单位</span><span class="lake-fontsize-11">品类</span><span class="lake-fontsize-11">新词</span><span class="lake-fontsize-11">润饰</span><span class="lake-fontsize-11">专有名词</span><span class="lake-fontsize-11">品类修饰词</span><span class="lake-fontsize-11">符号</span><span class="lake-fontsize-11">前缀</span><span class="lake-fontsize-11">后缀</span><span class="lake-fontsize-11">赠送</span><span class="lake-fontsize-11">否定</span><span class="lake-fontsize-11">代理</span>## 凋谢搜寻实体辨认劣势基于多年淘系全量数据和知识库深刻优化电商行业实体辨认能力,解决品牌更新快歧义大,品类存在润饰关系,品牌品类搭配关系等问题。解决尤其在中文上因为不足人造分隔符,面临边界歧义、语义歧义、嵌套歧义等艰难。## 实体辨认在查问剖析中作用1.作用于query改写: 凋谢搜寻查问剖析能够改写两个query,第一个query更精准,第二个query缩小了参加召回的term,旨在当更准确的召回后果数有余时,用第二个query进行扩充召回。query改写次要依据实体的重要性,召回时保留重要性高的实体词,对重要性低的局部不影响召回,只影响算法排序。实现形式:   实体重要性目前分为高、中、低三档。其中“品牌、品类”是在低档,也就是最重要的;其次“格调、样式、色彩、节令、人群、地点…”处于中档;最初“尺寸、修饰词、影响服务、系列、单位…”处于低档,能够抛弃不参加召回。2.与类目预测一起应用 query中不同的实体对类目标影响是不一样的,因而,当原query没有类目预测的后果时,会依据肯定的规定,去掉和类目用意无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮忙.示例:“杨幂(人名)同款(后缀)秋季(工夫节令)修身(样式元素)连衣裙(品类)”丢词后的query依照优先级排序别离为:秋季修身连衣裙秋季连衣裙 修身连衣裙 连衣裙零碎会依照上述程序顺次查问类目预测的后果更多类目预测性能详介绍:https://help.aliyun.com/document\_detail/69036.html## 电商行业增强版实体辨认能力再降级凋谢搜寻打造独有的行业智能搜寻解决方案,推出电商行业增强版,其中在实体辨认能力上进行了再降级,使得实体打标成果更好,能够更精准的定位用户搜寻用意满足商品搜寻需要。* 现有框架知识库更新基于老模型链路从新构建全量知识库,F1 69 -> 74* 标注训练数据,应用神经网络模型标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78* 神经网络模型联合知识库技术创新GraphNER框架联合监督模型与知识库,F1 78 -> 82## 实体辨认干涉词典业务场景不同,实体辨认语义也是不同的,为了不便用户应用,凋谢搜寻提供实体辨认干涉词典,供用户自定义词的语义,目前实体辨认的干涉次要包含两个:一是对实体辨认后果自身的干涉,二是实体类型重要性的干涉。当实体辨认的后果不准时,应该通过实体辨认的干涉词典的配置来进行干涉。通过创立实体辨认干涉词典,并在查问剖析中实体辨认配置相应的干涉词典,就能够干涉实体辨认性能。 例如:业务非凡专有名词,须要进行实体辨认干涉。用户搜寻“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体辨认后果为:一般词,但理论业务上“小熊(bear)”是一家母婴品牌,这时能够应用干涉词典,设置为“品牌”,从而影响召回排序的成果。 ## 实际后的搜寻性能比照1. 搜寻“荷兰美素佳儿婴幼儿奶粉“分词成果 • Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉” • After: “荷兰(地点地区) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”2. 搜寻“冬季新款凉鞋男童” • Before:3个召回后果, • After:22个召回后果 **利用实体辨认性能:定位搜寻关键词 实体辨认:“冬季”工夫节令,“男童”人群;“新款"新品;;“凉鞋”品类;**Query1: “凉鞋”“冬季”“男童”;Query2:“凉鞋” *## 阿里云搜寻相干产品举荐凋谢搜寻(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜寻业务开发平台,目前为包含淘宝、天猫在内的阿里团体外围业务提供搜寻服务反对。通过内置各行业的查问语义了解、机器学习排序算法等能力,提供充沛凋谢的引擎能力,助力开发者疾速搭建更高性能、更高搜寻基线成果的智能搜寻服务理解产品详情:https://www.aliyun.com/product/opensearch理解更多电商行业搜寻解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch> 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 25, 2021 · 1 min · jiezi

关于自然语言处理:最实用NLP开源中文课百度NLP天团直播授课带你横扫主流技术及应用

没错,百度出NLP开源中文课了!顶配师资、模型全开源、配V100算力那种! 最实用NLP中文课来袭自然语言解决(下文简称NLP)是人工智能的要害钻研畛域之一,旨在教会计算机了解和生成语言。 为了进一步推动NLP技术的遍及和继续提高,推动产业降级,秉承开源凋谢的准则,百度⻜桨(PaddlePaddle)&⾃然语⾔解决部携⼿打造了这套面向NLP入门开发者的《基于深度学习的⾃然语⾔解决》打卡营课程。 本课程以实⽤为准则,笼罩了预训练、词法剖析、信息抽取等基础知识,以及情感剖析、问答、翻译、对话等NLP应⽤技术和零碎,并解说产业实际中的模型部署等。 此外,本次课程配套有残缺动⼿实际内容,实际局部提供了飞桨PaddleNLP文本畛域开发库、文心ERNIE开发套件和千⾔数据集,以期更好地帮忙各位同学学以致用。 “实际出真知”,课程配有丰盛的实际环节,每日公布实战作业,讲师现场coding+trick教训分享,公布多主题NLP比赛并提供赛前领导,更有开放性我的项目,比方:本人入手搭建一个NLP对话、翻译小零碎等,任你挑战! 要深信:"输入即是输出"。 另外,为了不便国内不同地区、不同硬件条件的同学上课,本课程全程收费、直播授课并配套在线实际环境(提供V100 GPU算力反对)。 内容详实、学以致用本次打卡营将围绕⽂本数据开展解说,从预训练模型、词法剖析等重要根底技术常识⼊⼿,逐渐开展对核⼼应⽤技术的解说,并对相干前沿⼯作加以疏导。 导论6月7日|走进自然语言解决 根底6月8日 | 前预训练时代的自监督学习6月9日 | 预训练语言模型及利用6月10日 | 词法剖析技术及其利用 了解6月11日|信息抽取技术及利用6月15日|情感剖析技术及利用 问答6月16日|检索式文本问答6月17日|结构化数据问答 翻译6月18日|文本翻译技术及利用6月21日|机器同传技术及利用 对话6月22日|工作式对话零碎6月23日|凋谢域对话零碎 产业实际6月24日|预训练模型产业实际课 结营6月25日|结业颁奖与凋谢题领导7月26日|凋谢题揭榜与学员分享 顶配师资,带你进击!本课程讲师团队由百度NLP、飞桨的资深工程师组成,他们有着丰盛的钻研和实践经验。本次课程他们将从各自的业余角度疏导学员学习和把握自然语言解决的基本概念、办法、原理和利用。 百度NLP团队是世界一流的NLP团队,以“了解语言、领有智能、扭转世界”为使命,研发自然语言解决和机器学习核心技术,打造当先的技术平台和产品,服务寰球用户和客户。百度NLP曾取得国家科技进步奖在内的20余个奖项、30多项国内比赛冠军,申请千余件发明专利、发表百余篇顶会论文,失去宽泛认可。 百度飞桨是中国首个开源凋谢、技术当先、性能齐备的产业级深度学习平台。本次课程就能够基于飞桨开源平台进行实际,所有实际的开源代码均可在PaddleNLP开源模型库和ERNIE开发套件开源版中找到。 总之,有这样一群人倾力讲授这场NLP开源课,冲了! 多重处分,等你来拿!证书+算力:顺利结业,即可取得百度官网颁发的结业证书+100小时Tesla V100 GPU算力卡; 奖学金:作业总成绩Top10取得500元奖学金、Top20取得200元奖学金、Top50取得100元奖学金; 丰富礼品:实现任意凋谢题或实现指定NLP较量并进入总榜前50,即可取得百度网盘超级会员月卡+100小时Tesla V100 GPU算力卡; 诚意+实力,一起致敬开源:优良原创代码按格局开源至Github,即可取得Cherry机械键盘。 【开课时间】6月7日-25日 早晨20:30-21:30!直播间等你! 【报名形式】扫码关注百度NLP公众号,回复【百度NLP】,报名课程。 【写在最初】 “种一棵树,最好的工夫是十年前,其次是当初。” ——Dambisa Moyo 在最好的工夫,百度全情投入,在NLP畛域种下的颗颗树苗未然枝繁叶茂;当初,咱们心愿通过教育帮忙有志NLP的你种下本人的技术树苗,携手共建Made in China的、生机盎然的技术生态。 百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

June 3, 2021 · 1 min · jiezi

关于自然语言处理:业界率先支持-MCPOVERXDS-协议Nacos-201-142-Release-正式发布

简介:Nacos 致力于帮忙您发现、配置和治理微服务。Nacos 提供了一组简略易用的个性集,帮忙您疾速实现动静服务发现、服务配置、服务元数据及流量治理。起源 | 阿里巴巴云原生公众号 Nacos 是阿里巴巴开源的服务发现与配置管理我的项目,本次同时公布两个版本: 公布 2.0.1 版本,次要致力于反对 MCP-OVER-XDS 协定,解决 Nacos 与 Istio 数据服务同步问题。公布 1.4.2 版本,极大加强 K8s 环境中 JRaft 集群 Leader 选举的稳定性。Nacos 2.0.12.0.1 次要变更为: 在 nacos-istio 插件及模块中,反对 MCP-OVER-XDS 协定,解决 Nacos 与 Istio 数据服务同步问题。加强了 Jraft 协定在 K8s 环境中的 Leader 选举的稳定性。修复了频繁抛出 Server is Down 谬误的问题。具体变更为: [#3484] Support ldap login.[#4856] Support mcp over xds.[#5137] Support service list add view subscriber.[#5367] Support client encryption plugin for nacos 2.0.[#5307] Push support config some parameters[#5334] Fix Server is Down problem in k8s environment.[#5361] Check isUseGrpcFeatures() when register instance using GRPC protocol.[#5486] Refactor Distro Config as singleton and replace GlobalConfig.[#5169] Fix instance beat run only by responsible server.[#5175] Fix publishConfig lost type.[#5178] Fix NPE when init server list failed.[#5182] Fix throw NoSuchFieldException in ConfigController when service connect to nacos.[#5204] Fix query error when pageNo is larger than service number.[#5268] Fix subscriber app unknown[#5327] Fix ThreadPool usage problem and add some monitor for distro.[#5384] Fix the problem of unable to shutdown NacosConfigService.[#5404] Fix frequently udp push for client 1.X.[#5419] Fix Nacos 2.0 client auth may invalid for non public namespace.[#5442] change state to UP when received status form old version server.[#5096] Add unit tests in nacos 2.0.[#5171][#5421][#5436][#5450][#5464] Fix IT for nacos 2.0.Nacos 1.4.2该版本优化了 JRaft 模块,与最新的 nacos-k8s 我的项目配合应用,极大加强集群选主的稳定性。另外,该版本了修复无关“Server is Down”问题的提醒及泛滥 1.4.1 版本中的 Bug。具体变更为: ...

May 21, 2021 · 3 min · jiezi

关于自然语言处理:知识库的分类梳理原则与实践经验

前言机器人知识库必须有良好的分类能力便于了解、学习与前期的保护。 如若工作面对的是一个分类蹩脚的知识库,这将是一个可怕的场景。拿到一个用户发问后,假如是人类来依据知识库里的知识点来答复问题。他会发现这么几件事,同一个问题可能会有多个知识点同时含有相似的问题,而且每个知识点的答案还都不太一样,在比拟的时候易发现知识点都在不同的分类上面,整体的分类逻辑也令人摸不着头脑。 勾销分类也是不可行的,知识库有20个知识点以上的时候,就必须要通过分类进行治理,能力无效梳理,否则,面对体量大的知识库,每一次整顿都是漫漫征途。不能设想每次工作都要分辨1个知识点与其余成千上万个知识点的关系。 所以,当知识点逐步变多后,咱们须要一些正当的形式来对知识点的分类进行组织和治理。知识点组织的构造梳理有助于在知识库搭建过程中,给知识库里的知识点一个不便演绎的方法论。 1.分类准则和零碎操作知识库分类是依照知识点的特点和依据业务零碎求解问题的须要将常识分为若干类,而每一类又分为若干子分类。个别子分类是母分类的根底,母分类是子分类的概括,子分类之间互不相容,知识库分类的划分遵循MECE的准则。 MECE分析法,全称 Mutually Exclusive Collectively Exhaustive,中文意思是“互相独立,齐全穷尽”。也就是对于一个重大的议题,可能做到不重叠、不脱漏的分类,而且可能借此无效把握问题的外围,并成为无效解决问题的办法。 在知识库界面左侧是机器人知识点分类页面,点击分类名称旁边的“+”符号,能够新建此分类的下一级分类,鼠标悬停在对应分类上时还会有“编辑”、“删除”按钮浮出。当鼠标变成小手“ ”形态,能够拖动以后分类,扭转其附属关系,留神不能拖动为其自身的下一级。 点击向右的小三角“ ▶ ”能够开展下一级分类,点击向下的小三角“ ▼ ”能够收起属于该分类下的所有分类。 PS:为保障分类随知识库导出和导入失常,请不要在知识点分类中应用“/”、“\”等符号。 2.分类办法简述1.分类纵向划分办法在知识库构建过程中次要依照最终用户参加工夫程序构建分类的办法叫知识库的纵向划分办法。 纵向划分目前看来是咱们搭建知识库的次要办法,在终端类公司,当曾经调配了繁多的业务线之后,在繁多知识库中,往往是依据最终用户的参加工夫进行划分。 生产产品类公司个别会依照售前,售起初辨别知识库,售前还可能细分用意为优惠、产品信息、物流抉择、领取方法等,售后分为物流状态、品质问题、包装问题等状况。当然,不同公司对物流等布局不完全一致,也有些公司是依据产品是否达到用户手中确定的售前售后,能够依据具体情况和理论进行微调。 服务类我的项目也可参照对应逻辑进行辨别,比方餐饮我的项目依照就餐前和就餐后,人事服务类能够依照员工入职、试用期、转岗、到职的流程进行辨别。 2.分类横向划分办法知识库的横向划分构造次要用在产品业务线较多的状况下,并且往往是针对次一级分类进行划分,比方公司售卖的不同产品,可能就属于孕期-产品分类-不同产品进行划分。 通常在具体的分类过程中,也会联合具体业务状况将纵向划分与横向划分联合起来进行梳理。不同公司的业务模式不同,须要依据本人的理论状况进行知识库构造的确定。 3.分类教训概述在实践中,咱们总结了如下的分类口诀,帮忙大家记忆: 一条主线,其余靠边;呈现反复,早做功夫。“一条主线”是说首先确认知识点是否以用户生命周期的场景开展,针对这类知识点,个别以最终用户参加的工夫程序作为惟一主线进行。 “其余靠边”指如果分类下知识点不是随着用户的生命周期变更的,如小区地点,小区周边这样的信息不会随着工夫变动而变动,此时这类知识点能够独自拿进去作为我的项目的根底信息。 “呈现反复,早做功夫”如果在不同阶段会呈现反复,有没有显著应归类的地位,咱们个别将知识点放在场景中最早发问的中央。 如果有并行的状况,比方信用卡办理的我的项目,线下办理为主线,同时有APP、微信、小程序、支付宝等渠道作为副线,须要明确副线的占比。如果副线中APP停办差别占比拟大,微信、小程序等渠道差别不大,有以下解决方案: 能够将APP渠道独自分类,在对应知识点下设计第二组答案,依据提问者带过去的标签,设计同一知识点依据属性实体等划分为不同答案组来进行个性化回复。 这个计划长处是能够间接依据用户发问的渠道做出最优的答复,然而须要APP渠道带属性接入或须要客户提供实体信息。具体操作能够查看《什么样的答复才足够共性?吾来个性化回复举手参评》。 4.知识库分类实际在实践中,依据知识库搭建是否有语料进行划分,咱们有“从小到大”和“从大到小”的梳理办法。 何为从大到小呢?何为从小到大呢?其实二者的外围问题在于是否有语料,前者应该为无历史语料的场景下应用,后者则为有历史语料的状况下应用的。 1 从大到小没有条件也要创造条件:业务框架没有历史的语料状况下,咱们广泛要依赖业务框架,那在没有业务框架状况下,首先要做的事件就是梳理业务框架,梳理好业务框架,往业务框架中一直地填充知识点及其类似问,用结构化的思维一直地界定知识库的边界,故为从大(业务框架)到小(知识点、类似问): 第一步:用户群体剖析 首先必不可少的是先确认机器人面对的用户群体有哪几类,别离是谁?先以外卖场景为例: 外卖行业智能客服的用户群体 第二步:用户行为剖析 把用户行为作为落脚点去剖析,如外卖行业的消费者,他的用户行为能够分为三大类:售前、售中、售后;那商家的用户行为能够分为3大类:未入驻商家、已入驻商家、商家账号登记;而骑手应该是:取餐、配送中、配送后;而后能够持续依据该逻辑裁减框架。 外卖行业智能客服的业务梳理大框架 可是当遇到业务场景之间无显著逻辑的时候应该怎么办呢? 第三步:产品功能分析 能够把现有产品的性能作为落脚点去剖析,以支付宝的市民核心页面的办事大厅为例,能够将页面上的一个个业务当作框架的枝干: 支付宝-市民核心-办事大厅页面 依据以上产品性能梳理进去以下业务框架: 市民核心办事大厅业务框架 当咱们梳理好业务框架,有了这么一棵树,接着就是要一直地往里面裁减知识点及其对应类似问,纳入对应的业务场景下;好比在树干(业务框架)上长出树枝(知识点),树枝上再一直地长出叶子(类似问)。 2 从小到大充分利用尚方宝剑:历史语料当有历史语料的状况下,咱们能够通过一个个的用户query去提取核心内容,依据核心内容反推业务框架,故为从小(一个个用户query)到大(业务框架)。 如以下用户query: 1.你们的蜂蜜产品有什么劣势? 2.蜂蜜枇杷露都有什么效用? 3.低血压能够吃哪款产品? 4.服用了蜂蜜枇杷露呈现头晕症状? 5.蜂蜜枇杷露为什么会有红色沉淀物? 通过用户query提取核心内容: 1.你们的蜂蜜产品有什么劣势? ->售前问题-品牌优势 2.蜂蜜枇杷露都有什么效用? ->售前问题-产品效用 3.低血压能够吃哪款产品? ->售前问题-症状保健 4.服用了蜂蜜枇杷露呈现头晕症状? ->售后问题-服用症状 ...

May 18, 2021 · 1 min · jiezi

关于自然语言处理:官宣恭喜-ChaosBlade-项目进入-CNCF-Sandbox

简介:阿里巴巴开源的混沌工程项目 ChaosBlade 通过 CNCF TOC 投票,顺利推动 CNCF Sandbox。CNCF 全称 Cloud Native Computing Foundation (云原生计算基金会) ,旨在为云原生软件构建可继续倒退的生态系统,服务于厂商中立的快速增长的开源我的项目,如 Kubernetes、Prometheus、Envoy 等。 起源 | 阿里巴巴云原生公众号 阿里巴巴开源的混沌工程项目 ChaosBlade 通过 CNCF TOC 投票,顺利推动 CNCF Sandbox。CNCF 全称 Cloud Native Computing Foundation (云原生计算基金会) ,旨在为云原生软件构建可继续倒退的生态系统,服务于厂商中立的快速增长的开源我的项目,如 Kubernetes、Prometheus、Envoy 等。 ChaosBlade github 地址: https://github.com/chaosblade-io/chaosblade 我的项目介绍 ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,蕴含混沌工程试验工具 chaosblade 和混沌工程平台 chaosblade-box,旨在通过混沌工程帮忙企业解决云原生过程中高可用问题。试验工具 chaosblade 反对 3 大零碎平台,4 种编程语言利用,共波及 200 多个试验场景,3000 多个试验参数,能够精细化地管制试验范畴。混沌工程平台 chaosblade-box 反对试验工具托管,除已托管 chaosblade 外,还反对 Litmuschaos 试验工具。已登记应用企业 40 多家,其中已在工商银行、中国移动、小米、京东等企业中落地应用。 外围能力ChaosBlade 具备以下性能特点: 丰盛的试验场景:蕴含根底资源(CPU、内存、网络、磁盘、过程、内核、文件等)、多语言应用服务(Java、C++、NodeJS、Golang 等)、Kubernetes 平台(笼罩 Container、Pod、Node 资源场景,蕴含上述试验场景)。多样化的执行形式:除了应用平台白屏化操作,还能够通过工具自带的 blade 工具或者 kubectl、编码的形式执行。便捷的场景扩大能力:所有的试验场景遵循混沌试验模型实现,并且不同档次场景对应不同的执行器,实现简略,易于扩大。试验工具自动化部署:无需手动部署试验工具,实现试验工具在主机或集群上自动化部署。反对开源试验工具托管:平台可托管业界支流的试验工具,如本身的 chaosblade 和内部的 litmuschaos 等。对立混沌试验用户界面:用户无需关怀不同工具的应用形式,在对立用户界面进行混沌试验。多维度试验形式:反对从主机到 Kubernetes 资源,再到利用维度进行试验编排。集成云原生生态:采纳 Helm 部署治理,集成 Prometheus 监控,反对云原生试验工具托管等。架构设计Chaosblade-box 架构如下: ...

May 17, 2021 · 1 min · jiezi

关于自然语言处理:搜索-电商行业模版驱动业务增长实践

简介:阿里巴巴技术专家介绍如何通过凋谢搜寻电商行业增强版,疾速构建更高水准的搜寻服务,带动业务指数级增长。讲师:徐希杰--阿里巴巴技术专家 视频地址:https://developer.aliyun.com/live/246673 电商行业模板介绍:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch 凋谢搜寻简介    凋谢搜寻是阿里团体搜寻业务中台AIOS体系打造的智能搜寻云平台。 目前阿里团体内500+业务接入,次要包含钉钉、盒马、菜鸟口碑等,整个集群在索引的文档数量曾经超过了600亿 ,日均的PV曾经超过了百亿。在双十一当天查问的QPS分值超过了百万,文档实时更新TPS峰值15万+ ,并且整个服务十分安稳,没有任何降级。在2014年凋谢搜寻正式通过阿里云进行商业化输入。 一站式智能搜寻业务开发平台 凋谢搜寻产品劣势: 相比于开源和自建的搜寻,在外围引擎下面更稳固,更高性能;达摩院多年在NLP畛域相干积攒,通过查问剖析和排序搜寻等模式凋谢,使用户在初始阶段就具备了一个高质量搜寻成果;搜寻疏导性能反对千人千面;强开放性,反对多种定制的伎俩,能够有内置的模型,也能够回流用户本人的模型。免运维,无需做运维操;AI.OS引擎零碎 阿里巴巴搜寻举荐事业部自研的AI.OS技术体系服务于阿里团体外部90%以上的搜寻业务,AI.OS零碎天生具备弹性扩缩容,故障疾速复原的能力,比自建或开源的零碎更加稳固、更加高效,可能反对海量的数据处理。 电商/O2O场景搜寻常见问题电商行业智能搜寻零碎query解决流程    用户在搜寻框中输出查问词,而后后端的零碎依据对它进行剖析,剖析的后果发送给搜索引擎,找到用户想要的商品做排序返回用户最想要的商品,最初将这些商品做一些人工干预,或者是间接最终返回的搜寻后果页给用户展现进去。 如何构建电商行业智能搜寻零碎如果咱们从零开始去构建一个电商行业的智能搜寻零碎,咱们须要解决哪些问题那? 商品如何建库? 如何精确的了解用户的查问用意?如何为用户提供个性化的搜寻体验?如何依据用户的查问返回最匹配的后果?常见的外围性能怎么构建?比方下拉提醒、热词、底纹等;相干技术人员问题;凋谢搜寻电商行业模板搜寻架构 商品建库电商行业模板在利用构造和索引构造下面为用户提供了一个默认的模板。 比如说将商品罕用的字段形象成了它的利用构造,并且依据搜寻积攒,为这些为电商搜寻利用创立的对应的,默认的索引构造,用户可能不须要有相干的畛域常识就能够创立出搜寻零碎利用,查问剖析和用用意了解方面,并且联合行业的特色做针对性的分词的优化,行业实体辨认的优化,同义词纠错的优化和类目预测的优化。 查问剖析链路 电商行业分词分词是影响搜寻成果的最根底的模块。凋谢搜寻集成了淘宝搜寻同款的电商分词器,训练语料来自淘宝搜寻多年积攒的百万级有标注的电商行业数据。 分词成果比照: 电商语义了解 命名实体辨认电商NER问题定义 对电商Query和题目进行实体词打标识别其中的品牌、品类、品类润饰、型号、样式等40品种别 ; 难点 品牌更新快歧义大;例:播(女装品牌)、老爸(食品品牌 品类存在润饰关系 ;例:华为手机(品类润饰)通明手机壳(品类) 解决思路 现有框架知识库更新基于老模型链路从新构建全量知识库,F1 69 -> 74 标注训练数据,应用神经网络模型标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78 神经网络模型联合知识库技术创新GraphNER框架联合监督模型与知识库,F1 78 -> 82 查问剖析行业增强版成果 query改写文本query针对查问词解决之后改写的query 个性化query在查问词改写根底之上引入个性化信息,比方u2i,i2i,u2s2等 向量query在查问词改写根底之上引入向量信息,须要对查问词进行向量化 多路召回技术 电商排序反对两轮排序机制,粗排和精排 粗排参加的文档数量比拟多,可能是几万到几十万量级,所以对排序的耗时要求比拟严格,从而导致它能应用的特色就比拟少。 精排参加的排序的数量比拟少,所以打分应用特色能够多一些。 定制排序-Cava脚本    Cava与排序表达式相比有更高的灵活性和开放性,不便用户自在的定制本人的排序规定,它是凋谢搜寻本人研发的一个类java 的语言,性能和C++相当,反对面向对象的程和即时编译;不同的数据类型反对类的定义,多种运算符和一些简略的控流程管制语句。    另外一个很重要的局部是在开发语言的根底之上,凋谢搜寻封装了通用的排序特色和为了不便用户开发排序新的排序特色,也封了一些框架类的相干特色。 通过这些特色,用户能够间接在脚本中援用,从而开发出本人新的排序脚本,大大简化了开发成本。 搜寻疏导性能   内置热搜、底纹、下拉提醒多样搜寻疏导算法模型,无需开发零碎每天主动训练模型,对用户搜寻用意起到重要的疏导作用,大大降低后续查问用意了解、相关性、排序、经营干涉等环节的调优难度,对晋升整体业务指标能够起到十分好的铺垫作用。 搜寻前疏导: 搜寻中疏导: ...

April 30, 2021 · 1 min · jiezi

关于自然语言处理:Service-Mesh-为什么从趋势走向无聊

简介:过来一年,阿里巴巴在 Service Mesh 的摸索路线上仍旧扎实前行,这种动摇并非只因深信 Service Mesh 将来肯定是云计算根底技术的要害组成部分,还因须要借这一技术趋势去偿还过来所积攒下来的技术债(“技术债”并非贬义词,是技术倒退的固有产物),基于当下的技术思潮和最佳实际面向未来做出技术的新价值和新体验。 作者 | 李云(至简) 起源 | 阿里巴巴云原生公众号 过来一年,阿里巴巴在 Service Mesh 的摸索路线上仍旧扎实前行,这种动摇并非只因深信 Service Mesh 将来肯定是云计算根底技术的要害组成部分,还因须要借这一技术趋势去偿还过来所积攒下来的技术债(“技术债”并非贬义词,是技术倒退的固有产物),基于当下的技术思潮和最佳实际面向未来做出技术的新价值和新体验。 每当咱们深刻摸索和实际一项新技术时,大多情景下会步入一段“无聊”期间,期间每天面对的并非技术之新如何诠释,而是如何先解决好技术债所带来的羁绊,以及求实地给业务发明新价值和新体验,通过携手业务共赢的形式推动新技术落地。本文总结了过来一年 Service Mesh 在阿里巴巴的建设成绩和播种的洞察。 兑现增量业务价值是倒退之本Serivce Mesh 作为一种平台型的新根底技术,倒退过程中肯定回避不了兑现(增量)价值这个关键问题。从技术的角度,很容易了解将框架思维下 SDK 中的易变内容下沉到 Service Mesh 中的 Sidecar 后,将促成中间件技术以业务无感的模式疾速演进和降级,以平台化和体系化的思维代替过来“山头林立”的框架思维去进一步摸索分布式应用构架问题的更优解,背地的价值并不容易被挑战。 从业务的角度,驳回新技术的要害是能解决当下的什么痛点、是否带来机器老本的显著升高、是否让稳定性有显著的晋升、运维和研发效率有否变得更高,这些收益被总称为业务价值——业务视角下所看到的收益。倒退 Service Mesh 很重要的一点是必须回归兑现(增量)业务价值,围绕一直兑现业务价值去欠缺新技术,否则很难继续拿到阶段性的成绩。对于从事 Service Mesh 这类新技术建设的团队来说,继续播种阶段性成绩对于维持团队士气致关重要,建设者会因为业务价值足够而能领会到“被须要”的感觉,进一步强化对本人工作价值的认可。 过来一年,咱们经验了从“先做大规模落再兑现业务价值”到“先兑现业务价值再做大规模”的倒退策略调整。在做大规模为先的阶段,落地 Service Mesh 被挑战的次要问题有三个:其一,增量业务价值有余,只是将 Java SDK 中已有的能力挪进了 Service Mesh;其二,资源开销不可漠视;其三,技术成熟度不够,没能让人看到工具化落地的问题定位与排错伎俩。当的确不能答复好这三个问题时,推动 Service Mesh 在外围利用上的大规模落地就变得十分艰难,即使有公司层面由上至下的助推也收效甚微。最终,不得不将倒退策略调整为兑现价值为先。 在兑现价值的路线上,恰好某些业务团队也从一开始挑战下面三个问题变成了积极思考如何借 Service Mesh 化这次机会让所在事业部的业务流量治理能力做一次重大降级。思路的转变很快让业务团队锚定了业务痛点,与 Service Mesh 共创出了新的解决方案,最终两个团队的单干关系从甲乙方变成了你中有我、我中有你的战友关系,大家一起抱团共赢。 回顾过去一年的经验,能失去的启发是: 无论什么新技术,先做出增量业务价值能力更好地落地推广。再先进的技术在没有兑现增量价值之前都只是个愿景,但愿景并不那么容易让人买单,技术落地仍然要尊重市场规律。此外,新技术的成熟须要工夫这是自然规律,技术成熟的过程中如果没有兑现增量业务价值,则没有业务甘心只成为纯正的小白鼠。根底技术的倒退不能只依附根底技术团队的力量,业务团队以踊跃的心态参加寻求解决业务痛点将成为强劲的新技术“催熟剂”。根底技术团队并没有业务体感,而业务团队的全情投入就能很好地补救这一短板,两者联结所造成的化学反应就能带来共赢的场面,单干关系也将升华至“战友级”。根底技术团队须要特地器重与业务团队单干,防止步入闭门造车的境况。无侵入计划是要害伎俩但并非终态在技术进化的过程中,咱们心愿尽可能做到兑现价值之时业务没有任何的革新老本,这一点能很好地了解为何 Istio 推出至今采纳了 iptables 做流量劫持。阿里巴巴在摸索的过程中深知无侵入计划的价值,早在外部落地时采纳的也是无侵入计划,过来一年更进了一步让无侵入计划反对流量透传性能。 去年初,阿里巴巴外部落地 Service Mesh 的技术计划并没有思考百分百做兼容。因为历史起因,Dubbo 的序列化协定存在 Hessian2、Java 和其余小众的抉择。思考到 Hessian2 是支流协定,所以 Service Mesh 只对这一协定进行了反对。在落地的过程中,只有被 mesh 化的利用须要调用应用了不反对序列化协定的利用,就会间接导致该利用无奈 Service Mesh 化。进一步,Service Mesh 的整体能力建设依赖这一技术点的冲破,通过上量取得更为宽泛的场景去兑现价值或为大规模落地打好根底。比方,运维面反对大规模就属于后者。另外,当所有利用都能 mesh 化时,最不济也能在应用了 Hessian2 序列化的链路上兑现价值,而不致于因为利用无奈 mesh 化而使得能兑现价值的链路变得更短(价值被弱化)。 ...

April 27, 2021 · 2 min · jiezi

关于自然语言处理:MATH-2109-–-Mathematical-Computing-Week-6

School of SciencesMATH 2109 – Mathematical Computing Week 6 – Hand in Lab Class –Due 5 : 00pm Friday 23rd April 2021. Write a function in an m-file for y = cos5(x) sin3(x) + 2 that will accept a row vector of xvalues as input and output a row vector of y values. Now generate a row vector of x values inthe interval [0, 7] (use 100 points) and input this into your function to find the correspondingy values. Plot the function using the plot() command. Also by looking up the xlabel()and ylabel() functions label the x and y axes.A sequence is given by a5 = 2, a6 = −4, and a7 = 1, and the recurrence relationan = 5 an−1 − 3 an−2 + 6 an−3an−2when n ≥ 8.Write a function in an m-file that has n as its only input, where n > 5, and returns the valuean. Put in a check that n ≥ 5 and exit with a printed error if this is not the case, assigningan the value NaN.Call your function in a main program, so that it prints, using fprintf, a table of values forn and f(n), for n = 5, 6, . . . 13. Your table should have headers.The symbolic toolbox allows us to integrate symbolic expressions using the following commands(as an example):f = @(x) cos(x). 5.*sin(x). 3syms x ;int(f(x),x)ans =(cos(x) 5(5cos(x) 2 - 7))/35Write a function call IntFunct in an m-file that takes as input a function of one variableand values of a and b for x. As outputs it returns the value of the definite integral over theinterval [a, b] and (only if asked for) additionally a symbolic expression for its derivative. Alsoinclude a check that not more than 2 outputs are requested and if they are, return a printederror message (of your making) and cease execution before Matlab complains. Test this bycalculating the integral of y = cos5(x) sin3(x) over [0, 2]. You need to pass the function fand the values a = 0 and b = 2 as parameters when you call the function from the commandwindow.[Hint: Use double(subs(Sym_expression, x, a)) to get a number after substituting. ]The intersection of a circular cylinder of unit radius, oriented around the xn axis, and thesphere centred at the point e1 = (1, 0, . . . , 0) correspond to the points (x1, x2, . . . , xn) (inn-dimensions) that satisfy the equations:Write a function area_approx = Monte_Carlo_Test(n,N) that inputs the dimension nand the number of random samples N in the following Monte-Carlo estimation of the volume1of the intersection. Generate N uniformly distributed random samples in the following ndimensional box that contains the region defined in (1):and count the number k, of the N, events that land inside the region defined in (1). Include this function as a sub-functions (place it atthe end of your work) and call it to print a table of the areas associated with the dimensionsn = 3, 4, 5, 6 using N = 106.[Hint: Watch the week 5 Wednesday Lectorial Collaborate Ultra recording.]NOTE : Note that M-File functions MUST NOT contain any fprintf() or disp() commands,or echo print any values inside the function (other than for error messages). The Function MUSTreturn a value or values, NOT just print them with a disp() command.You MUST include listings of your functions in your published output as follows. If your functionis contained in the M-file with name myfunction.m, just include the linetype myfunction.mat the point in your code where you want the listing of the function to appear.请加QQ:99515681 或邮箱:99515681@qq.com WX:codehelp

April 25, 2021 · 3 min · jiezi

关于自然语言处理:有道技术沙龙-AI-语音交互技术在语言学习场景的实践

通过数月的精心筹备有道技术沙龙行将正式启动!首先感激:思否、将门-TechBeat、掘金技术社区合作伙伴的鼎力帮忙 首期咱们将和大家聊聊语音交互技术的那些事儿明星爱豆的声音是如何生成的? 一根笔如何教会小朋友读绘本?选择题也能够用语音来答复吗?答案尽在 有道技术沙龙 第一期! 除了干货满满的技术分享当然不能少了福利吃好喝好必不可少还有精美伴手礼到场即送抽奖环节拼欧气抽严选好物前30位到场的早鸟同学还可兑换网易易间咖啡馆饮品一杯! 流动场地:网易易间咖啡厅 更重要的是:作为首期有道技术沙龙的听众有道将奉送 面试直通车 专属福利!跳过重重难关间接和终极 Boss 面对面! 流动信息:工夫:2021年3月27日 14:00-17:00 地点:网易北京研发核心-B1F 易间 【舒适提醒】疫情防控不能松散!到场需出示北京市衰弱码,以及报名手机号码接管的访客信息。 欢送扫描上方长图二维码或点击有道技术沙龙第一期-报名表报名! 有道技术沙龙等你来!如有疑难欢送增加有道小助手微信:ydtech01 相干岗位热招中!欢送投递简历! 语音合成算法专家语音辨认&书面语评测算法专家声学前端信号处理算法专家对话&语义了解算法专家语音引擎技术专家语音服务后盾技术专家详情点击:网易招聘

March 17, 2021 · 1 min · jiezi

关于自然语言处理:详解NLP和时序预测的相似性附赠AAAI21最佳论文INFORMER的详细解析

摘要:本文次要剖析自然语言解决和时序预测的相似性,并介绍Informer的翻新点。前言时序预测模型无外乎RNN(LSTM, GRU)以及当初十分火的Transformer。这些时序神经网络模型的次要利用都集中在自然语言解决下面(transformer就是为了NLP设计的)。在近些年来,RNN和Transformer逐步被利用于时序预测下面,并获得了很好的成果。2021年发表的Informer网络取得了AAAI best paper。本文次要剖析自然语言解决和时序预测的相似性,并介绍Informer的翻新点。 具体的本文介绍了 • 晚期机器翻译模型RNN-AutoEncoder的原理 • RNN-AutoEncoder升级版Transformer的原理 • 时序预测与机器翻译的异同以及时序预测算法的分类 • AAAI21最佳论文,时序预测模型INFORMER的翻新点剖析 RNN AutoEncoder晚期自然语言解决:RNN autoencoder Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” arXiv preprint arXiv:1409.3215 (2014). (google citation 14048) 这里以机器翻译为例子,介绍RNN autoencoder的原理。 输出句子通过分词,编码成数字,而后embedding成神经网络能够承受的向量。 在训练过程中,能够应用teacher forcing,即decoder的输出应用实在值,迫使在训练过程中,误差不会累加 在在线翻译过程中,encoder局部流程雷同,decoder局部,指标句子是一个单词一个单词生成的 晚期RNN auto encoder构造尽管相比于传统模型获得了巨大成功,但encoder,decoder之间的信息流传仅仅时由繁多的一个隐层链接实现的,这样势必会造成信息失落,因而,Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 (2014).(citation 16788)提出在输出和输入之间减少额定的attention链接,减少信息传递的鲁棒性以及体现输入句子中不同单词受输出句子单词影响的差异性。 ...

March 5, 2021 · 1 min · jiezi

关于自然语言处理:效度理论及分析方法

试卷剖析的定量指标,信度和效度是其中两个,它们是对试卷的整体做出评估。对试卷效度做出剖析,能够查看考试内容是否与教学大纲保持一致,有利于老师发现和改良教学中的薄弱环节。 效度定义指一个测验可能测量它所要测的属性的水平,及测验是否测到了它想要测到的货色。 分类1.内容效度指考试内容对于应测内容的代表性水平。 试卷的内容效度是一个主观性很强的内容,次要依附主管测评为主。 个别采纳逻辑分析法(专家评定)、统计分析法、相干法。 2.效标关联效度指试卷的测量后果和效度规范之间的统一水平,是以某一种测试分数与其校标分数之间的相关性来示意效度。 效标效度又能够分为预测效度和同时效度。 预测效度是试卷测量分数与未来的效标分数之间的关联水平。同时效度即同时在钻研对象中进行试卷和效度规范测量失去的后果之间的相干水平。 3.构造效度指考试分数可能阐明心理学实践的某种构造或特质的水平 构造效度次要分为测验外部寻找证据法、测验间寻找证据法、考查测验的实证效度法。其中,测验外部寻找证据法次要应用因子分析法。 影响试卷效度的因素试卷的组成: 试卷的选材与构思、试卷的长度、我的项目的难度、区分度以及试卷的编排形式等;测试的程序: 次要包含测试程序设计、测试手册的装备、试验程序的标准化、领导语、环境条件、时限等;效标的特色: 适当的效标是测验效度的前提条件,效标的信度、效标与测量效标之间的相干水平会影响测验效度;样本与被试的特点: 样本的代表性会影响效度,样本的异质性会进步效度系数,被试的趣味、动机、情绪和态度间接影响效度。 总结从下面能够晓得,内容效度、效标关联效度和构造效度是从不同的方面反映试卷的效度水平。因而,从评估试卷效度的整体上看,应从不同角度加以评估剖析。首先评估有哪些项目可作为试卷内容的实践根底(内容效度);其次定义反映内容总体的我的项目,再从中抽取具备代表性样本(构造效度);最初评估试卷测量后果与效度规范的相关性(效标关联效度)。 参考:基于效度实践的试卷品质分析方法试卷剖析算法的利用钻研

December 10, 2020 · 1 min · jiezi

关于自然语言处理:自适应学习

试题主动匹配知识点,并依据使用者的应用状况,为其推送相应的试题。 常识图谱什么是常识图谱常识图谱是一种结构化的语义网络,是用来示意实体与实体之间关联的结构化语义网络。在应用常识图谱的时候,会用图的模式来形容常识工程中常识实体的关系。其中节点示意实体,边用来示意实体之间的关系。在这里引入三元组“实体-关系-实体”或“实体-属性-属性值”进行常识示意, 每个实体可用一个全局惟一确定的ID标识, 属性-属性值形容常识实体的外在个性, 常识实体之间通过关系形成网状的知识结构。 所以在这里,笔者忽然对常识图谱产生一种相熟的感觉,没错,ER图!不难发现,这根咱们构建ER图所用到的元素基本一致。 下图为常识图谱的网络结构,其中Ei为常识实体,Ri,j示意实体之间的关系,ET示意实体的属性: 咱们也能够将实体的属性用外连一个圆的形式示意,比方: 常识图谱从逻辑上分为数据层和模式层,数据层上一常识以事实为单位贮存在数据库中,每条常识用一个SPO(Subject-Predicate-Object)三元组示意。模式层用于存储通过提炼的常识。 常识图谱的构建常识图谱的构建从原始数据登程,通过一些技术,将常识事实从原始数据中提取进去,再把常识元素放到知识库的数据层和模式层中。常识图谱的构建是一个迭代更新的过程 常识图谱包含自顶向下和自下而上两种构建形式 关联规定的开掘以搜索引擎为例,咱们在输出要搜寻的内容时,都会为咱们补全要搜寻的内容。它会找出互联网上经常一起呈现的词语对,而后为咱们进行推送补全。 利用到咱们的内容上,当有某个词语经常与某个知识点进行匹配,那么咱们就能够找出高频的进行举荐,那么在进行匹配的时候,就不须要扫描整个知识库,这将节俭很大一部分匹配工夫。 FP-Growth算法,将数据集存储在一个特定的称做FP树的构造之后发现频繁项集或者频繁项对,即常在一块呈现的元素项的汇合FP树。而后再对FP树进行开掘,找到咱们须要的关联信息。 文本分类机器学习中有监督(须要对数据进行已知分类的标记)的分类办法,基于提前定义好的文本类别,通过把文本数据作为分类的对象,将须要分类的文本划分至提前定义好的文本类别中。 该技术将会用于试题的知识点匹配。 聚类分析相较于文本分类,聚类分析是一种无监督(不须要对数据进行标记)的学习办法。它的原理是基于特定的数据集寻找该数据集中具备类似特色的数据,并把领有类似特色的数据划分为一组。 该技术会在剖析使用者的行为时应用。 试题主动匹配知识点思路剖析文本数据预处理——>文本特色的提取——>分类模型成果比对——>抉择分类模型: 文本预处理解决分词和停用词过滤。 分词,将长句或段落转换为多个简略词和标点示意。能够将中文间断字节流用离散单词流模式代替。即采纳特定词典的分词办法依照特定的分词算法进行分词。 停用词过滤解决。分词后的文本蕴含许多没有意义的单词,停用词过滤解决就是将一些齐全没有用或是没有意义然而呈现频率很高的单词去除。 文本特征提取TF-IDF:常用语数据挖掘的加权技术。在进行之前,须要将解决过的文本用计算机能辨认和解决的结构化模式示意,用向量空间模型VSM来示意。同时,将加权的文本特色忘性模式转换解决,记为:Ci=(Ci1,Ci2,Ci3...Cij...Cin),Cij示意第i个试题文本,第j个特征值的权重。 Cij = TFij x IDFj其中TFij示意第i个试题文本中,文本特色项j呈现的词频,IDFj示意整个文本特色集中特色项j呈现的次数,即逆向文档频率。 分类器分类生成矩阵示意试题和知识点之间的从属关系: 其中qkij示意试题Qi和知识点Kj之间是否具备从属关系,即是否属于知识点Kj。 总结初步对性能实现的根本过程,以及对实现过程中可能会用到的办法、算法做了整顿总结,还有很多细节的中央没有思考分明。整体上,实现将题目和知识点进行匹配,最要害的还是常识图谱的构建。 相干参考:https://blog.csdn.net/javastart/article/details/50521453基于常识图谱的自适应学习零碎的设计与实现基于常识图谱的自适应学习零碎的钻研与实现

November 25, 2020 · 1 min · jiezi

关于自然语言处理:知识图谱描边11从NER上手

本文概述:复现知乎-KG开源我的项目集中的BERT-NER-pytorch我的项目之后,进行的一些学习记录,对同样刚入行的小白来说有参考意义。 材料:对于BERT模型中的transformer介绍,必须分享的是Jay Alammar的动画图,看完后我捶胸顿首的为什么没有早早看到这样的国外佳作? 一、筹备工作:1、数据集数据集的组织形式、解决形式都是深度畛域的重头戏,能够说一个算法工程师80%的工夫都在和数据打交道。当初咱们来介绍一下数据集: 获取形式:间接用google扩大gitzip从git间接下载的,生数据只有3项,是其中train集里有45000个句子,test集是3442,咱们须要人为划分出val集。 生数据模式-相似上面这个样子,咱们来看一下msra_train_bio的前17行(一共176042行):中 B-ORG共 I-ORG中 I-ORG央 I-ORG致 O中 B-ORG国 I-ORG致 I-ORG公 I-ORG党 I-ORG十 I-ORG一 I-ORG大 I-ORG的 O贺 O词 O各 Otags(只有三种实体:机构,人,地位):OB-ORGI-PERB-PERI-LOCI-ORGB-LOCps:能够看到,采纳的是BIO标注法,咱们当然能够批改! 待会儿要划分数据集为(3个目录):DatasetNumbertraining set42000validation set3000test set3442失去三个目录????。 数据处理后的模式(各取前两条):sentences.txt文件: 如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。该 县 一 手 抓 农 业 技 术 推 广 , 一 手 抓 农 民 科 技 教 育 和 农 技 水 平 的 提 高 。而 创 新 的 关 键 就 是 知 识 和 信 息 的 生 产 、 传 播 、 使 用 。相应的,tags.txt文件: ...

November 9, 2020 · 3 min · jiezi

关于自然语言处理:JNPF零代码开发平台之快速开发web表单页面

JNPF是一款优良的软件平台产品,可视化开发环境,新增的零代码开发,操作相当简略,流程化的表单开发让业务人员也能参加其中,做到所见即所得,大大提高开发效率,能帮忙公司大幅节俭人力老本和工夫老本,同时又不失灵活性。实用于搭建 OA、ERP、CRM、HR、HIS等所有的企业信息管理系统(且实用于集团公司部署)。 创立web表单 表单设计是配置大量可复用控件,通过拖拽的控件主动生成可视化利用 列表设计是配置页面显示列、查问条件、列表分页、 按钮配置等设置 对WEB设计进行删除、编辑、查问、复制、刷新和状态管制等性能操作 在菜单治理外面增加这个web表单性能菜单,而后就能够间接看到本人设计的表单页面

November 5, 2020 · 1 min · jiezi

关于自然语言处理:来自复旦大学自然语言处理团队这个NLP工具包有何亮点

自然语言解决(NLP)是人工智能畛域中的一个重要方向。它钻研能实现人与计算机之间用自然语言进行无效通信的各种实践和办法。 在进行 NLP 开发的时候,NLP 工具包是不可短少的一部分,其中蕴含的数据集和预训练模型能够较大的晋升开发效率。 明天举荐的这个开源我的项目就是来自复旦大学的 NLP 团队,看看他们的 NLP 工具包有什么好玩的中央吧。 项目名称: fastNLP 我的项目作者: 复旦大学自然语言解决(NLP)团队 我的项目地址:https://gitee.com/fastnlp/fastNLP 我的项目简介fastNLP 是一款轻量级的自然语言解决(NLP)工具包,指标是疾速实现 NLP 工作以及构建简单模型。 我的项目个性对立的 Tabular 式数据容器,简化数据预处理过程;内置多种数据集的 Loader 和 Pipe,省去预处理代码;各种不便的 NLP 工具,例如 Embedding 加载(包含 ELMo和BERT)、两头数据 cache 等;局部数据集与预训练模型的主动下载;提供多种神经网络组件以及复现模型(涵盖中文分词、命名实体辨认、句法分析、文本分类、文本匹配、指代消解、摘要等工作);Trainer 提供多种内置 Callback 函数,不便试验记录、异样捕捉等。环境依赖numpy>=1.14.2torch>=1.0.0tqdm>=4.28.1nltk>=3.4.1requestsspacyprettytable>=0.7.2内置组件大部分用于的 NLP 工作神经网络都能够看做由词嵌入(embeddings)和两种模块:编码器(encoder)、解码器(decoder)组成。 以文本分类工作为例,下图展现了一个 BiLSTM+Attention 实现文本分类器的模型流程图: fastNLP 在 embeddings 模块中内置了几种不同的 embedding:动态 embedding(GloVe、word2vec)、上下文相干 embedding (ELMo、BERT)、字符 embedding(基于CNN或者LSTM的CharEmbedding) 与此同时,fastNLP 在 modules 模块中内置了两种模块的诸多组件,能够帮忙用户疾速搭建本人所需的网络。 两种模块的性能和常见组件如下: 我的项目构造 fastNLP 的大抵工作流程如上图所示,而我的项目构造如下: 如果你想要理解我的项目的更多信息,那么就点击前面的链接返回我的项目主页看看吧:https://gitee.com/fastnlp/fastNLP

November 5, 2020 · 1 min · jiezi

关于自然语言处理:NLP实操笔记基于机器学习的文本分类1文本表示

基于机器学习的文本分类知识点1.文本示意办法One-hot:这种示意办法无奈表白单词与单词之间的类似水平`measurements = [ {'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.},{'city': 'San Francisco', 'temperature': 18.},]from sklearn.feature_extraction import DictVectorizervec = DictVectorizer()vec.fit_transform(measurements).toarray()` Bag of Words:词袋示意,也称为计数向量示意(Count Vectors)。文档的向量示意能够间接用单词的向量进行求和失去。scikit-learn提供了从文本内容中提取数字特色的常见办法,即: tokenizing: 标记字符串并为每个可能的token提供整数id,例如应用空白和标点作为token分隔符;(分词标记)counting: 统计每个文档中呈现的token次数;(统计词频)normalizing: 通过缩小大多数样本/文档中都会呈现的一般性标记来进行标准化和加权。(标准化/归一化)在此计划中,特色和样本定义如下: 每个独立token呈现的频率(已标准化或未标准化)作为特色。给定文档的所有token频率的向量作为多元样本。 因而,文本语料库能够由矩阵示意,每一行代表一个文本,每一列代表一个token(例如一个单词)。 向量化:将文本汇合转换为数字特征向量的个别过程。这种办法(tokenizing,counting和normalizing)称为“词袋”或“n-gram”模型。 即只通过单词频率来形容文档,而齐全疏忽文档中单词的绝对地位信息。 John likes to watch movies. Mary likes too. -->> [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]John also likes to watch football games. -->> [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]具体实现:sklearn 1.CountVectorizer 2.TfidfVectorizer 3.HashingVectorizer ...

October 15, 2020 · 1 min · jiezi

关于自然语言处理:开源百度中文依存句法分析工具DDParser重磅开源欢迎大家体验测评

_欢送关注【百度NLP】官网公众号,及时获取自然语言解决畛域核心技术干货!! 浏览原文:https://mp.weixin.qq.com/s/HdI16Yr4Y1YnEamzsJ3WrQ_ 继百度词法剖析工具LAC 2.0开源之后,8月4日,百度NLP又重磅公布了中文依存句法分析工具—DDParser! 相较于目前的其余句法分析工具,DDParser基于大规模标注数据进行模型的训练,采取了更加简略易了解的标注关系,并且反对一键装置及调用,更加适宜开发者疾速学习及应用。 开源地址: https://github.com/baidu/DDParser DDParser是什么DDParser(Baidu Dependency Parser)是百度NLP基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮忙用户间接获取输出文本中的关联词对、长距离依赖词对等。 如图1所示,输出文本通过DDParser输入其对应的句法分析树,其中,两词之间的弧示意两个词具备依赖关系,由外围词指向依存词,弧上的标签示意依存词对外围词的关系。 图1 DDParser能做什么通过依存句法分析可间接获取输出文本中的关联词对、长距离依赖词对等,其对事件抽取、情感剖析、问答等工作均有帮忙。 如图1所示实例,在事件抽取工作中,咱们通过依存剖析后果可提取句子中所蕴含的各种粒度的事件,如“纳达尔击败梅德韦杰夫”、“纳达尔夺得冠军”、“纳达尔夺得2019年美网男单冠军”。 相应的,在问答工作中,咱们依据问题的句法树与答案所在文本的句法树进行基于树的构造匹配,可获取对应的答案。例如,问题“谁夺得了2019年美网男单冠军”,句法树见图2,其答案所在文本的句法树见图1,咱们通过两棵树的对应局部匹配,可得出答案为“纳达尔”。 图2 在情感剖析工作中,依存剖析可用于评估对象的情感极性判断。如图3所示,咱们依据依存剖析后果提取评估对象“羊肉串”的观点:“羊肉串咸”和“羊肉串不陈腐”,基于此来判断该评估对象的情感极性。 图3 利用依存剖析后果可获取词之间的依赖关系和关联门路,如图4所示实例。前半句中存在两条门路“打疫苗”和“在哪儿打”,后半句中存在两条门路“打疫苗”和“打在哪儿”,这些门路信息能够给类似度计算等其余工作提供更多特色。 图4 总而言之,依存剖析将句子示意为一棵树,提供了词之间的依赖关系和关联门路,其在句子序列根底上提供了更多的句子构造信息,可帮忙其余工作从句子构造角度获取所需信息。 DDParser的劣势基于大规模优质标注数据 DDParser训练数据近百万,蕴含搜寻query、网页文本、语音输入数据等,笼罩了新闻、论坛等多种场景。从利用的角度登程,为了不便用户疾速上手,DDParser共设计了14种依存关系,并着重凸显虚词间的关系,在随机数据上LAS可达到86.9%。 基于深度学习框架,不依赖简约的特色工程 首先,DDParser采纳bilinear attention mechanism对句子语义进行示意,代替简单的特色工程模式。其次,其输出层退出了词的char级别示意,缓解粒度不同带来的成果降落,网络结构如图5所示。 图5 调用便捷 DDParser反对Python一键装置,不便用户疾速应用。 DDParser与其余开源工具的成果比照DDParser在与训练数据同源散布的规范测试汇合上,LAS达到92.9%。同时,为了验证DDParser在中文句法分析的劣势,咱们抉择市面上关注度高的2款句法分析开源工具进行成果比照,评估形式为专家依据各工具依存关系定义人工标注。 经测试,在从搜寻、聊天、网页文本、语音输入等数据汇合中随机抽取形成的随机测试汇合上,DDParser成果达到了86.9%,成果优于同类工具,具体成果比照状况如表1所示。 表1 DDParser如何装置应用DDParser反对pip一键装置,兼容Windows、Linux和MacOS,调用办法如下所示: pip install ddparser from ddparser import DDParser ddp = DDParser() ddp.parse("百度是一家高科技公司") 具体装置办法参见GitHub的README文档中的疾速开始。 目前,DDParser曾经开源,点击链接即可跳转GitHub开源地址理解更多技术详情,欢送大家体验,并奉献你的star和Fork!!!如果您有任何意见或问题都能够提issue到Github,工具开发者将及时为您解答。 DDParser我的项目地址:https://github.com/baidu/DDParser 百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

August 7, 2020 · 1 min · jiezi

关于自然语言处理:transformerxl

地位编码相对地位vanilla Transformer中的相对地位编码,$$\begin{equation}PE(pos,2i)=\sin(pos/10000^{\frac{2i}{d_{model}}})\tag{1}\end{equation}$$$$\begin{equation}PE(pos,2i+1)=\cos(pos/10000^{\frac{2i}{d_{model}}})\tag{2}\end{equation}$$ def positional_embedding(pos_seq, inv_freq, bsz=None): sinusoid_inp = tf.einsum('i,j->ij', pos_seq, inv_freq) pos_emb = tf.concat([tf.sin(sinusoid_inp), tf.cos(sinusoid_inp)], -1) if bsz is not None: return tf.tile(pos_emb[:, None, :], [1, bsz, 1]) else: return pos_emb[:, None, :]pos_seq和inv_freq别离为 pos_seq = tf.range(klen - 1, -1, -1.0) inv_freq = 1 / (10000 ** (tf.range(0, d_model, 2.0) / d_model)) position embeding的实现略有些不同,sinusoid_inp的shape为[len_pos, d_model//2],len_pos为序列长度,d_model为embedding的维度。因而,理论失去的postition embedding,前d_model//2维采纳的是式(1),后d_model//2维采纳的是式(2)。 绝对地位$$\begin{equation}h_{t+1}=f(h_t,E_{s_{t+1}}+U_{1:L})\tag{3}\end{equation}$$$t+1$时刻的segment的hidden state,依赖于前一时刻segment的hidden state $h_t$,以及以后时刻输出序列$s_{t+1}$的word embedding $E_{s_{t+1}}$和相对地位编码$U_{1:L}$。显然,这样存在一个问题,即地位编码$U_{1:L}$对所有的segment都是一样的,对于输出$x_{t,j}$和$x_{t+1,j}$($j=1,\cdots,L$),模型无奈区别两者的地位embedding。为了解决这一问题,transformer-xl采纳绝对地位编码。在vanilla Transformer中,scaled dot-product attention的计算形式为$$\begin{equation}Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V\tag{4}\end{equation}$$应用绝度地位编码,计算query $q_i$和key $k_j$之间的attention score,$$\begin{equation}\begin{aligned}A_{i,j}^{abs}&=(E^T_{x_i}+U^T_i)W^T_q((E^T_{x_j}+U^T_j)W_k^T)^T\\&=(E^T_{x_i}+U^T_i)W^T_qW_k(E_{x_j}+U_j)\\&=\underbrace{E^T_{x_i}W^T_qW_kE_{x_j}}_{(a)}+\underbrace{E^T_{x_i}W^T_qW_kU_j}_{(b)}\\&+\underbrace{U^T_iW^T_qW_kE_{x_j}}_{(c)}+\underbrace{U^T_iW^T_qW_kU_j}_{(d)}\end{aligned}\tag{5}\end{equation}$$其中,$U_i$和$U_j$为相对地位编码。对式(xx)进行改良,引入绝对地位编码,$$\begin{equation}\begin{aligned}A_{i,j}^{rel}&=\underbrace{E^T_{x_i}W^T_qW_{k,E}E_{x_j}}_{(a)}+\underbrace{E^T_{x_i}W^T_qW_{k,R}R_{i-j}}_{(b)}\\&+\underbrace{u^TW_{k,E}E_{x_j}}_{(c)}+\underbrace{v^TW_{k,R}R_{i-j}}_{(d)}\end{aligned}\tag{6}\end{equation}$$次要有3点改良 ...

July 30, 2020 · 6 min · jiezi

关于自然语言处理:文心ERNIE3项能力助力快速定制企业级NLP模型EasyDL全新升级

欢送关注官网微信公众号【百度NLP】,及时获取更多自然语言解决畛域的技术干货! 浏览原文:https://mp.weixin.qq.com/s/hI... 近日,百度文心重磅公布三项性能,新增定制多标签文本分类、情感偏向剖析模型等性能,同时数据管理能力也进一步加强,更好地满足自然语言解决(NLP)畛域开发者需要,开发者可通过百度AI开发平台EasyDL进行应用。 文心(ERNIE)是依靠百度深度学习平台飞桨打造的语义了解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与利用能力。在2020世界人工智能大会,百度文心(ERNIE)荣获最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者)。 文心(ERNIE)官网地址:wenxin.baidu.com EasyDL是百度大脑面向企业开发者推出的零门槛AI开发平台,基于百度自主研发的深度学习平台飞桨,联合业界先进的工程服务技术打造,笼罩视觉与自然语言解决两大技术方向,反对一站式智能标注、模型训练、服务部署等全流程性能。应用EasyDL简略三步即可实现NLP工作配置与训练,性能优异。 面向零算法根底的开发者和业余算法工程师,EasyDL提供了经典版、专业版两种产品状态,凋谢不同档次的开发灵便度。在经典版与专业版中,NLP性能与应用场景存在区别,用户可依据需要灵便抉择。 经典版:适宜算法零根底或谋求高效率开发的用户,毋庸理解算法细节,最快5分钟上手。可疾速定制多种NLP模型,笼罩NLP根底工作和场景化工作。专业版:适宜NLP初学者和业余算法开发者,内置丰盛的NLP经典网络和预训练模型,可灵便脚本调参,只需大量数据可达到较优模型成果。文心三项能力在EasyDL中全新公布 文心私有云服务本次新增了多标签文本分类、情感偏向剖析等模型定制性能,并且丰盛了数据标注、数据管理能力,以更好地满足开发者需要。 新增定制化多标签文本分类性能 “多标签文本分类”指对一段文本同时标记多个标签,如:“将来的学和教正在产生颠覆,学生将会在家里学习,机器人将走上讲台。”可对应标签为“教育”、“科技”。该性能利用场景宽泛,如媒体场景中对新闻内容进行主动归类,在内容举荐场景中利用内容标签晋升召回,通过主动标签性能对常识文档进行多层级分类等。 目前,平台经典版和专业版均新增了这项性能,在“专业版”的工作配置过程中,开发者还可抉择ERNIE Tiny、ERNIE Large、ERNIE Base三种各有千秋的预训练模型。 新增定制化情感偏向剖析性能 “情感偏向剖析”指对一段文本进行“踊跃情感”或“消极情感”的判断,如“酒店地位很好,服务周到激情,下次肯定会再来”的用户评估,部署模型后可间接失去“Positive(踊跃情感)”的标签和99%的置信度。 该性能最常利用于用户评论剖析和舆情剖析,比方商品、店铺的口碑剖析,对事实性的新闻事件或互联网话题进行舆情剖析等,在汽车、餐饮、酒店等多个垂类上,剖析准确率可达到95%以上。 目前,该性能曾经上线平台经典版,后续平台将逐渐减少基于实体级和句子级的情感分类,力求笼罩更多的利用需要。 文本数据管理和数据标注性能全面降级 针对开发者数据管理和数据标注过程中的痛点,平台反对了更加灵便的数据格式,以后可反对zip、Excel、TXT三种文件格式进行上传。平台除了提供在线标注能力外,还提供了智能标注性能,大幅升高了开发者的标注老本,开发者可间接上传未标注数据体验该性能。 文本智能标注示意图 以上是本次降级带来的新增能力,点击“浏览原文”即可跳转EasyDL零门槛AI开发平台,体验文心的当先技术能力。 EasyDL零门槛AI开发平台: https://ai.baidu.com/easydl/ 文心(ERNIE)目前已宽泛服务于传媒、金融、医疗等多个行业,助力多家企业实现业务的智能化转型,向智能经济时代迈进。将来,文心(ERNIE)将持续推动技术创新、产品功能丰富与体验优化,让更多的企业级开发者方便快捷地利用前沿NLP技术,以弱小的文本智能助力各行各业。 业务单干: https://wenxin.baidu.com/apply 文心(ERNIE)QQ交换群: 1097307223 百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

July 28, 2020 · 1 min · jiezi

关于自然语言处理:如何才能更懂中文

6月初,百度NLP公布了升级版的中文词法剖析工具——LAC 2.0!LAC可实现中文分词、词性标注、专名辨认等性能,帮忙你更懂中文! 详情:https://mp.weixin.qq.com/s/ePYwprZd4NbvGkdtOgrI7w LAC 2.0通过精简模型参数,联合飞桨预测库的性能优化,效率和性能都失去极大晋升。同时,LAC 2.0反对Java、android、C++和Python语言,反对一键装置,开发者能够实现疾速调用和集成。 想理解LAC 2.0详情,立即上手可能是最好用的中文词法剖析工具?点击链接可跳转开源地址,您的 star 是对咱们最好的激励!开源地址:https://github.com/baidu/lac

July 20, 2020 · 1 min · jiezi

智能搜索模型预估框架Augur的建设与实践

在过来十年,机器学习在学术界获得了泛滥的冲破,在工业界也有很多利用落地。美团很早就开始摸索不同的机器学习模型在搜寻场景下的利用,从最开始的线性模型、树模型,再到近两年的深度神经网络、BERT、DQN等,并在实践中也获得了良好的成果与产出。 在美团搜寻AI化的过程中,比拟外围的两个组件是模型训练平台Poker和在线预估框架Augur。本文次要与大家探讨Augur的设计思路、成果,以及它的劣势与有余,最初也简略介绍了一下Poker平台的价值。心愿这些内容对大家有所帮忙或者启发。 1. 背景搜寻优化问题,是个典型的AI利用问题,而AI利用问题首先是个零碎问题。经验近10年的技术积攒和积淀,美团搜寻零碎架构从传统检索引擎降级转变为AI搜索引擎。以后,美团搜寻整体架构次要由搜寻数据平台、在线检索框架及云搜平台、在线AI服务及试验平台三大体系形成。在AI服务及试验平台中,模型训练平台Poker和在线预估框架Augur是搜寻AI化的外围组件,解决了模型从离线训练到在线服务的一系列零碎问题,极大地晋升了整个搜寻策略迭代效率、在线模型预估的性能以及排序稳定性,并助力商户、外卖、内容等外围搜寻场景业务指标的飞速晋升。 首先,让咱们看看在美团App内的一次残缺的搜寻行为次要波及哪些技术模块。如下图所示,从点击输入框到最终的后果展现,从热门举荐,到动静补全、最终的商户列表展现、举荐理由的展现等,每一个模块都要通过若干层的模型解决或者规定干涉,才会将最适宜用户(指标)的后果展现在大家的眼前。 为了保障良好的用户体验,技术团队对模型预估能力的要求变得越来越高,同时模型与特色的类型、数量及复杂度也在一劳永逸。算法团队如何尽量少地开发和部署上线,如何疾速进行模型特色的迭代?如何确保良好的预估性能?在线预估框架Augur应运而生。通过一段时间的实际,Augur也无效地满足了算法侧的需要,并成为美团搜寻与NLP部通用的解决方案。上面,咱们将从解读概念开始,而后再分享一下在施行过程中咱们团队的一些教训和思考。 2.形象过程:什么是模型预估其实,模型预估的逻辑绝对简略、清晰。然而如果要整个平台做得好用且高效,这就须要框架零碎和工具建设(个别是治理平台)两个层面的配合,须要兼顾需要、效率与性能。 那么,什么是模型预估呢?如果疏忽掉各种算法的细节,咱们能够认为模型是一个函数,有一批输出和输入,咱们提供将要预估文档的相干信息输出模型,并依据输入的值(即模型预估的值)对原有的文档进行排序或者其余解决。 纯正从一个工程人员视角来看: 模型能够简化为一个公式( 举例:f(x1,x2)= ax1 + bx2 +c ),训练模型是找出最合适的参数abc。所谓特色,是其中的自变量x1与x2,而模型预估,就是将给定的自变量x1与x2代入公式,求得一个解而已。(当然理论模型输入的后果可能会更加简单,包含输入矩阵、向量等等,这里只是简略的举例说明。) 所以在理论业务场景中,一个模型预估的过程能够分为两个简略的步骤:第一步,特色抽取(找出x1与x2);第二步,模型预估(执行公式 ƒ,取得最终的后果)。 模型预估很简略,从业务工程的视角来看,无论多简单,它只是一个计算分数的过程。对于整个运算的优化,无论是矩阵运算,还是底层的GPU卡的减速,业界和美团外部都有比拟好的实际。美团也提供了高性能的TF-Serving服务(参见《基于TensorFlow Serving的深度学习在线预估》一文)以及自研的MLX模型打分服务,都能够进行高性能的Batch打分。基于此,咱们针对不同的模型,采取不同的策略: 深度学习模型:特色多,计算简单,性能要求高;咱们将计算过程放到公司对立提供的TF-Serving/MLX预估服务上;线性模型、树模型:搜寻场景下应用的特色绝对较少,计算逻辑也绝对简略,咱们将在构建的预估框架外部再构建起高性能的本机求解逻辑,从而缩小RPC。 这一套逻辑很简略,构建起来也不简单,所以在建设初期,咱们疾速在主搜的外围业务逻辑中疾速实现了这一架构,如下图所示。这样的一个架构使得咱们能够在主搜的外围排序逻辑中,可能应用各类线性模型的预估,同时也能够借助公司的技术能力,进行深度模型的预估。对于特色抽取的局部,咱们也简略实现了一套规定,不便算法同学能够自行实现一些简略的逻辑。 3. 预估框架思路的扭转3.1 老框架的局限旧架构中模型预估与业务逻辑耦合的形式,在预估文档数和特色数量不大的时候能够提供较好的反对。然而,从2018年开始,搜寻业务瓶颈开始到来,点评事业部开始对整个搜寻零碎进行降级革新,并打造基于常识图谱的分层排序架构(详情能够参见点评搜寻智能核心在2019年初推出的实际文章《公众点评搜寻基于常识图谱的深度学习排序实际》)。这意味着:更多须要模型预估的文档,更多的特色,更深层次的模型,更多的模型解决层级,以及更多的业务。在这样的需要背景下,老框架开始呈现了一些局限性,次要包含以下三个层面: 性能瓶颈:核心层的模型预估的Size扩大到数千级别文档的时候,单机曾经难以承载;近百万个特征值的传输开销曾经难以承受。复用艰难:模型预估能力曾经成为一个通用的需要,单搜寻就有几十个场景都须要该能力;而老逻辑的业务耦合性让复用变得更加艰难。平台缺失:疾速的业务迭代下,须要有一个平台能够帮忙业务疾速地进行模型和特色的治理,包含但不限于配置、上线、灰度、验证等等。 3.2 新框架的边界跟所有新零碎的诞生故事一样,老零碎肯定会呈现问题。原有架构在少特色以及小模型下虽有劣势,但业务耦合,无奈横向扩大,也难以复用。针对需要和老框架的种种问题,咱们开始构建了新的高性能分布式模型预估框架Augur,该框架领导思路是: 业务解耦,设定框架边界:只做特色抽取和模型预估,对预估后果的解决等业务逻辑交给下层解决。无状态,且能够做到分布式模型预估,无压力反对数千级别文档数的深度模型预估。 架构上的扭转,让Augur具备了复用的根底能力,同时也领有了分布式预估的能力。惋惜,零碎架构设计中没有“银弹”:尽管零碎具备了良好的弹性,但为此咱们也付出了一些代价,咱们会在文末进行解释。 4.预估平台的构建过程框架思路只能解决“能用”的问题,平台则是为了“通用”与“好用”。一个优良的预估平台须要保障高性能,具备较为通用且接口丰盛的外围预估框架,以及产品级别的业务管理系统。为了可能真正地晋升预估能力和业务迭代的效率,平台须要答复以下几个问题: 如何解决特色和模型的高效迭代?如何解决批量预估的性能和资源问题?如何实现能力的疾速复用并可能保障业务的平安?上面,咱们将逐个给出答案。 4.1 构建预估内核:高效的特色和模型迭代4.1.1 Operator和Transformer 在搜寻场景下,特色抽取较为难做的起因次要包含以下几点: 起源多:商户、商品、交易、用户等数十个维度的数据,还有穿插维度。因为美团业务泛滥,难以通过对立的特色存储去构建,交易相干数据只能通过服务来获取。业务逻辑多:大多数据在不同的业务层会有复用,然而它们对特色的解决逻辑又有所不同。模型差别:同一个特色,在不同的模型下,会有不同的解决逻辑。比方,一个连续型特色的分桶计算逻辑一样,但“桶”却因模型而各不相同;对于离散特色的低频过滤也是如此。迭代快:特色的疾速迭代,要求特色有疾速在线上失效的能力,如果想要改变一个判断还须要写代码上线部署,无疑会拖慢了迭代的速度。模型如此,特色也是如此。针对特色的解决逻辑,咱们形象出两个概念: Operator:通用特色解决逻辑,依据性能的不同又能够分为两类: IO OP:用解决原始特色的获取,如从KV里获取数据,或者从对应的第三方服务中获取数据。内置批量接口,能够实现批量召回,缩小RPC。Calc OP:用于解决对获取到的原始特色做与模型无关的逻辑解决,如拆分、判空、组合。业务能够联合需要实现特色解决逻辑。通过IO、计算拆散,特色抽取执行阶段就能够进行IO异步、主动聚合RPC、并行计算的编排优化,从而达到晋升性能的目标。 Transformer:用于解决与模型相干的特色逻辑,如分桶、低频过滤等等。一个特色能够配置一个或者多个Transformer。Transformer也提供接口,业务方能够依据本人的需要定制逻辑。 离在线对立逻辑:Transformer是特色解决的模型相干逻辑,因而咱们将Transformer逻辑独自抽包,在咱们样本生产的过程中应用,保障离线样本生产与线上特色解决逻辑的一致性。 基于这两个概念,Augur中特色的解决流程如下所示: 首先,咱们会进行特色抽取 ,抽取完后,会对特色做一些通用的解决逻辑;而后,咱们会依据模型的需要进行二次变换,并将最终值输出到模型预估服务中。如下图所示: 4.1.2 特色计算DSL 有了Operator的概念,为了不便业务方进行高效的特色迭代,Augur设计了一套弱类型、易读的特色表达式语言,将特色看成一系列OP与其余特色的组合,并基于Bison&JFlex构建了高性能语法和词法解析引擎。咱们在解释执行阶段还做了一系列优化,包含并行计算、两头特色共享、异步IO,以及主动RPC聚合等等。 举个例子: // IO Feature: binaryBusinessTime; ReadKV 是一个 IO 类型的 OPReadKV('mtptpoionlinefeatureexp','_id',_id,'ba_search.platform_poi_business_hour_new.binarybusinesstime','STRING')// FeatureA : CtxDateInfo; ParseJSON 是一个 Calc 类型的 OPParseJSON(_ctx['dateInfo']);// FeatureB : isTodayWeekend 须要看 Json 这种的日期是否是周末, 便能够复用 CtxDateInfo 这个特色; IsWeekend 也是是一个 Calc 类型的 OPIsWeekend(CtxDateInfo['date'])在下面的例子中,ParseJSON与IsWeekend都是OP, CtxDateInfo与isTodayWeekend都是由其余特色以及OP组合而成的特色。通过这种形式,业务方依据本人的需要编写OP , 能够疾速复用已有的OP和特色,发明本人须要的新特色。而在实在的场景中,IO OP的数量绝对固定。所以通过一段时间的累计,OP的数量会趋于稳定,新特色只需基于已有的OP和特色组合即可实现,十分的高效。 ...

July 17, 2020 · 2 min · jiezi

十年育林百度NLP已枝繁叶茂

种一棵树,最好的工夫是十年前,其次是当初。 ——Dambisa Moyo 7 月 10 日,自然语言解决顶会 ACL 2020 落下帷幕。本次大会共收到 3429 篇论文投稿,其中 779 篇被接管,接管率为 22.7%,与去年持平,低于近年来大部分年份的接管率。 在这 779 篇论文中,有 185 篇来自中国大陆,占被接管论文总数的 23.7%,仅次于美国。此外,往年的最佳论文二作和最佳 demo 论文一作均为华人学生。 然而,很多人可能不晓得,2000 年 ACL 年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆;到了 2005 年,来自大陆的论文也只有三篇。 很多变动是过来十几年产生的,尤其是过来的十年。在这十年里,中国的 NLP 学界在 ACL 年会中的投稿数、被接管论文数逐年回升,同时,中国的 NLP 学者也实现了多个 “第一次” 的冲破: 2013 年,王海峰出任 ACL 五十年来首位华人主席;2014 年,吴华出任 ACL 程序委员会主席,成为中国企业首位 ACL 程序委员会主席;2015 年,ACL 年会首次在中国举办;大会上,哈工大教育部语言语音重点实验室主任李生传授取得 ACL 一生成就奖,成为首个取得该奖项的华人;2016 年,赵世奇入选 ACL 秘书长,成为首位入选该职位的亚洲人;2018 年,ACL 发表创立亚太区域分会(AACL)并打算在 2020 年举办首次会议,由王海峰负责开创主席;2020 年,百度领衔组织了 ACL 大会上首场同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation);…… ...

July 17, 2020 · 2 min · jiezi

百度AI闪耀ACL2020展现多项前沿技术举办首届机器同传研讨会

欢送关注【百度NLP】官网公众号,及时获取更多业界前沿技术! 近日,第58届国内计算语言学协会年会ACL 2020(The Association for Computational Linguistics)于线上开启。这次会议,百度共有11篇论文被录用,笼罩自然语言解决泛滥前沿钻研方向;百度联结谷歌、Facebook、清华大学等寰球顶尖机构,独特举办首届同声传译研讨会;在线上展台主题技术TALK环节,百度还就凋谢域人机对话技术、ERNIE核心技术等业内关注的话题开展分享,展示了中国企业在自然语言解决及人工智能畛域的技术创新与落地实际能力。 ACL成立于1962年,是自然语言解决畛域影响力最大、最具生机的国内学术组织之一。自成立之日起,致力于推动计算语言学及自然语言解决相干钻研的倒退和国内学术交流。百度的自然语言解决技术,在技术创新及利用上始终保持当先,始终被视为自然语言解决钻研界的“第一梯队”,此次在ACL 2020大会中的亮眼体现,正是源于百度在技术畛域的长期积攒。 百度11篇论文被收录,扎实AI技术彰显国内影响力 ACL2020共收录百度11篇论文 除了在国内AI学界的影响力外,ACL无论是审稿标准还是审稿品质,都是当今AI畛域国内顶级会议中公认的翘楚。 本届大会百度共有11篇论文被收录,笼罩了人机对话零碎、情感剖析/预训练示意学习、NLP文本生成与摘要、机器翻译/同声翻译、常识推理、AI辅助临床诊断等诸多自然语言解决界的前沿钻研方向,提出了包含端到端凋谢域生成模型PLATO、面向凋谢域对话的基于图谱的对话管理机制、情感常识加强的语言模型预训练方法、基于图示意的多文档生成式摘要办法GraphSum等诸多新框架、新算法、新数据,不仅极大晋升了相干畛域的钻研程度,也将推动人机交互、机器翻译、智慧医疗等场景的技术落地利用。 此次ACL 2020的审稿周期,从去年12月始终继续到往年4月,相比今年简直减少了一倍。会议投稿数量为3088篇,共有77篇论文被接管,包含571篇长论文和208篇短论文,接管率仅为25.2%。百度11篇论文被收录的问题,不仅意味着研究成果失去了国内学术界的认可,也证实了其钻研自身在试验严谨性、思路创新性等方面的实力。 领衔举办ACL 2020首届机器同传研讨会,百度技术当先性失去公认 同声传译以其高效的信息传递形式,广泛应用于国内会议、商务谈判、新闻公布、法律诉讼等多种跨语言交换场景。机器同传联合了机器翻译(Machine Translation)、语音辨认(Automatic Speech Recognition)和语音合成(Text-To-Speech)等人工智能技术,曾经成为重要的前沿钻研畛域。目前,机器同传还须要攻克高鲁棒性、高翻译品质、低延时的相干问题。 本次会议中,百度联结国内外顶尖企业和高校独特举办寰球首届同声传译研讨会,会集包含机器翻译、语音解决和人类口译畛域的钻研和从业人员,独特就机器同传架构、翻译模型、数据资源等问题开展研究。 百度技术委员会主席、百度自然语言解决首席科学家吴华受邀做线上报告 研讨会有多场高质量主题演讲,百度技术委员会主席、百度自然语言解决首席科学家吴华等国内外多名专家就机器同传钻研现状、面临挑战以及将来倒退进行探讨,加深了机器同传与口译两个畛域之间的交换,极大地推动了机器同传技术倒退以及机器和人工同传的协同单干。 在本次研讨会同期举办的国内首届同传评测较量中,百度行业首发业内最大规模面向实在场景的中英同传数据,涵盖信息技术、经济、文化、生物、艺术等多个畛域。同时,基于百度深度学习平台飞桨的一站式AI开发实训平台百度大脑AI Studio,百度为参赛选手提供在线编程环境、收费GPU算力、海量开源算法和凋谢数据,帮忙开发者疾速创立和部署模型。 展示多个技术亮点,百度线上展台主题技术TALK引关注 在本次大会的线上展台主题技术TALK环节,百度也展现出多个亮点,体现出百度当先的技术创新与落地实际能力,围绕ERNIE核心技术、凋谢域人机对话技术、智慧医疗、生物医药等业内关注的话题,百度献上了精彩的演讲。 在展台主题技术TALK环节,百度钻研人员做出主题为《ERNIE的技术原理、平台与利用》的分享。百度提出了常识加强的语义示意模型ERNIE及继续学习语义了解框架ERNIE 2.0,在16个中英文工作上超过国内最好成果,获得了SOTA的成果。去年12月,ERNIE在国内权威的通用语言了解评估基准GLUE上首次冲破90大关,超过人类三个点,获得寰球第一。往年3月,在寰球最大规模的国内语义评测SemEval上取得5项世界冠军。 近期,百度又相继公布了面向生成的预训练技术ERNIE-Gen和常识加强的视觉-语言预训练模型ERNIE-ViL。ERNIE-Gen首次提出基于多流机制生成残缺语义片段,在5个生成类工作上获得了SOTA成果。ERNIE-ViL首次将场景图常识融入多模态预训练, 刷新了5项多模态工作纪录,并登顶权威榜单VCR。在刚刚举办的世界人工智能大会上,百度文心(ERNIE)常识加强语义了解技术与平台取得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。 在《基于用意图谱的凋谢域对话生成框架》分享中,百度钻研人员介绍到,为了晋升多轮对话下的整体对话品质,提出基于用意图谱的对话生成框架,在该框架中引入显式的对话管理机制,以加强对多轮对话流的控制能力。在公开数据集上的试验结果表明,以上模型或零碎在主题连贯性、对话指标疏导成功率等要害多轮成果指标上显著超过基线模型。 同时,百度借助这次展台技术Talk公布了业界首个基于隐变量的大规模对话模型PLATO以及基于PLATO相干工作扩大降级的PLATO-2。该模型应用了最多16亿参数,公布了中英文版本。其中,英文成果超过了Google的Meena和Facebook AI Research的Blender,中文模型也远超过现有基线。 在主题为《基于计算语言学的新冠病毒剖析和疫苗设计算法》的分享中,针对新冠疫情,百度钻研人员把自然语言解决畛域的经典句法分析算法移植到核酸序列构造剖析,介绍了寰球首个线性工夫的RNA构造预测算法LinearFold,能够将新冠病毒基因组全序列构造剖析的工夫从55分钟升高到27秒。在此基础上,百度还研发出了寰球首个mRNA疫苗序列设计算法LinearDesign,能够设计出构造最稳固的疫苗序列。对于新冠S蛋白,该算法16分钟内就可设计出优化疫苗序列,解决了mRNA疫苗研发中的一个重大难题。目前,百度正在踊跃推动和中国疾控中心、各大疫苗公司和科研机构的单干。 在主题为《自然语言解决和常识图谱技术在临床辅助决策中的利用钻研》的演讲中,百度钻研人员分享了灵医智惠在临床辅助决策中利用。以百度世界领先的中文自然语言解决和常识图谱等技术为根底,灵医智惠打造了弱小的医疗认知计算能力,造成了医疗场景下的语言、常识和认知计算三位一体的临床辅助决策引擎。 近年来,中国AI企业、开发者及高校在国内AI顶会上的体现也愈发亮眼。ACL2020大会中,无论是论文入选量、领衔举办研讨会、同传较量,百度都展现出中国AI行业头雁的实力。百度NLP是百度AI技术和利用的萌芽终点和带动力量,始终聚焦外围前沿,继续引领技术创新,继续引领中国NLP技术倒退方向,不仅为此次大会交上了一份称心的答卷,也为中国AI崛起、走向世界倒退奉献了重要的力量。 举荐浏览 百度11篇论文被国内自然语言解决顶级会议ACL 2020录用 对话智能新高度:百度公布超大规模凋谢域对话生成网络PLATO-2 百度文心(ERNIE)荣获2020世界人工智能大会最高荣誉SAIL奖 百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

July 11, 2020 · 1 min · jiezi

百度文心ERNIE荣获2020世界人工智能大会最高荣誉SAIL奖

关注官网微信公众号【百度NLP】,及时获取更多自然语言解决畛域技术干货!7月9日,2020世界人工智能大会(WAIC)正式揭幕,大会颁布最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者),百度文心(ERNIE)常识加强语义了解技术与平台获奖,百度技术委员会主席吴华下台领奖。 百度文心(ERNIE)取得SAIL奖 百度技术委员会主席吴华(左四)领奖 SAIL奖是世界人工智能大会最高荣誉奖项,次要激励寰球范畴外在人工智能畛域做出的方向性技术冲破和利用翻新,正在或将要扭转将来生存的人工智能我的项目。本届SAIL奖共吸引来自中国、德国、美国、以色列、新加坡等多国的800个我的项目参加角逐,包含亚马逊、IBM、百度、腾讯、华为等头部企业我的项目,以及前沿的国内外科研翻新、场景利用类我的项目。 本次获奖,也是百度ERNIE首次以中文名“文心”亮相。“文心”出自中国南朝文学家刘勰的《文心雕龙·序志》,原指用雕镂龙纹那样精密的功夫钻研文字的外延和魅力,百度借此示意用心做语义了解的信心。 自然语言解决(NLP)被称为人工智能皇冠上的一颗明珠,自然语言了解是其重要钻研方向之一,在该畛域的技术冲破对于机器认知智能倒退至关重要。文心(ERNIE)则是一个获得世界级冲破的语义了解技术与平台,它依靠于百度的深度学习平台飞桨打造,将机器了解语言的程度晋升到一个新的高度,为计算机带来了认知智能畛域的微小跨域。 文心(ERNIE)的核心技术劣势在于,它开创性地将大数据预训练与多源丰盛常识相结合,通过继续学习技术,一直排汇海量文本数据中词汇、构造、语义等方面的新常识,实现模型成果一直进化,如同人类继续学习一样。这让它在16个中英文典型NLP工作上显著超过过后世界最好成果。 文心(ERNIE)在语言生成畛域也带来了冲破,提出了业界首个基于多流机制生成残缺语义片段的预训练语言生成技术ERNIE-GEN,该技术在各类语言生成工作上也显著超过国内最好成果。 更值得关注的是,文心(ERNIE)还在多模态语义了解畛域获得了冲破。家喻户晓,让机器像人一样通过语言、听觉、视觉等取得对真实世界的对立认知,是人工智能的外围挑战之一。近年来,基于视觉、语言等单模态的语义了解获得重大倒退,但更多的人工智能实在场景本质上同时波及多个模态的信息,这就须要在跨模态的语义了解技术上有更多冲破。2020年7月,文心(ERNIE)提出了业界首个基于场景图常识加强的多模态预训练模型ERNIE-ViL,在多项典型多模态工作上刷新世界最好成果,并登顶视觉常识推理权威榜单VCR。 自2019年3月诞生至今,文心(ERNIE)曾经实现了3次重要迭代,并在多个公开权威语义评测中取得了近十项世界冠军。早在2019年12月,文心(ERNIE)就在国内权威的通用语言了解评估基准GLUE上,首次冲破90分,超过人类程度3个百分点,刷新榜单得分并取得寰球第一。2020年3月,又在寰球最大规模之一的语义评测SemEval 2020上获得了5项世界冠军。2020年7月,文心(ERNIE)登顶视觉常识推理权威榜单VCR。文心(ERNIE)相干翻新成绩也被人工智能顶级学术会议AAAI 2020和IJCAI 2020收录,并被寰球顶级科技商业杂志《麻省理工科技评论》、德国光谱杂志,以及韩国AITimes、日本AI-SCHOLAR等多国权威科技媒体官网报道。此次取得SAIL奖,是对文心(ERNIE)技术创新和利用摸索的再一次必定。 文心(ERNIE)提出的语义了解钻研新思路,不仅在推动人工智能技术的倒退,也正在面向用户的理论产品中进行利用。目前,文心(ERNIE)曾经广泛应用于百度搜索引擎、信息流、智能音箱等几十个产品中,全面、大幅晋升产品的智能化体验。同时,文心(ERNIE)也通过百度大脑AI开放平台面向开发者和企业进行凋谢赋能,目前已广泛应用于金融、通信、教育、互联网等各行各业,推动产业智能化倒退。 文心ERNIE官网:https://wenxin.baidu.com/ 单干征询:ernie-business@baidu.com QQ交换群:1097307223 百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

July 10, 2020 · 1 min · jiezi

对话智能新高度百度发布超大规模开放域对话生成网络PLATO2

关注官网微信公众号【百度NLP】,及时获取更多自然语言解决畛域技术干货!近日,百度公布对话生成网络 PLATO-2,发表在凋谢域对话生成模型上迎来重要停顿。PLATO-2 承继 PLATO 隐变量进行回复多样化生成个性,模型参数高达 16 亿,涵盖中英文版本,可就凋谢域话题深度畅聊。试验结果显示,PLATO-2 中英文对话成果已超过谷歌 Meena、微软小冰和 Facebook Blender 等先进模型。 百度 NLP 于去年 10 月预颁布了通用畛域的对话生成预训练模型 PLATO,近期在 ACL 2020 上展现。最近,百度又新公布了超大规模模型 PLATO-2。 PLATO-2 承继了 PLATO 隐变量进行回复多样化生成的个性,模型参数规模回升到了 16 亿。PLATO-2 包含中英文版本,可能就凋谢域话题进行晦涩深刻的聊天。据公开数据,其成果超过了 Google 于往年 2 月份公布的 Meena (26 亿参数)和 Facebook AI Research 于往年 4 月份公布的 Blender (27 亿,最高 94 亿参数)的成果。在中文上更是达到了全新高度。 论文名称: PLATO-2:Towards Building an Open-Domain Chatbot via Curriculum Learning 论文地址: https://arxiv.org/abs/2006.16779 GitHub地址: https://github.com/PaddlePadd... 点击链接,查看PLATO-2中文对话成果演示_ https://mp.weixin.qq.com/s/X6... 引言传统对话零碎需要大量的人工编码,通常只能解决畛域内的问题。随着深度学习的遍及和一直倒退,端到端的凋谢域对话零碎成果也在稳步晋升。基于大量语料和超大规模模型的预训练凋谢域对话生成技术近些年获得了十分多的停顿。如微软公布的 DialoGPT, Google 公布的 Meena, Facebook 公布的 Blender 等,依靠数亿到数十亿级级别参数的 Transformer 模型,以及数亿到数十亿的语料训练模型,模型能模仿人产生和人类十分相近的对话。 ...

July 10, 2020 · 2 min · jiezi

吴恩达-最新自然语言处理

deeplearning.ai简介吴恩达以及deeplearning.ai系列的课后作业 自己借鉴了优良的博客并且简直全副手写代码 有问题的能够在github/tsuiraku@126.com分割我 Machine Learning机器学习 编程作业 Deep Learning深度学习 编程作业 TensorFlow in Practicetensorlow实际 编程作业 TensorFlow: Data and Deploymenttensorlow数据/部署 编程作业 Natural Language Processing自然语言解决 编程作业 代码点击这里心愿小伙伴们多多star

July 10, 2020 · 1 min · jiezi

ACL-2020论文分享-新任务融合多个对话类型的对话式推荐

欢迎关注【百度NLP】官方微信公众号,及时获取更多自然语言处理领域的技术干货! 点击链接阅读原文:https://mp.weixin.qq.com/s/f3dCOc4Mog9eZTl0k5YQew 本文对百度入选ACL 2020的论文《Towards Conversational Recommendation over Multi-Type Dialogs》进行解读,该论文提出了一个新对话任务:融合多个对话类型的对话式推荐。 本论文地址:https://arxiv.org/pdf/2005.03... 建议大家点击阅读以下文章,以更加了解人机对话技术: 《一文看懂人机对话》链接:https://mp.weixin.qq.com/s/fk...《直播回顾 | “听大咖讲论文” ACL 2020 百度论文分享会A场》链接 :https://mp.weixin.qq.com/s/w1... 《直播回顾 | “听大咖讲论文”ACL 2020百度论文分享会 B场》链接:https://mp.weixin.qq.com/s/9m... 动机人机对话是人工智能的一项基本挑战,涉及语言理解、对话控制和语言生成等关键技术,受到了学术界和工业界的广泛关注。 随着智能音箱的普及,对话式推荐变得越来越重要。对话式推荐指通过基于对话的人机交互形式实现高质量的自动推荐。前人工作大致可以分为两大类: 基于任务类对话的建模方式;基于更自由的开放域对话的建模方式。 前人工作通常集中于单一对话类型,没有考虑如何同时处理多个对话类型(闲聊/问答/任务/推荐)。但是在实际应用中,人机对话通常包含多个对话类型。 基于以上考虑,研究人员提出一个新对话任务:融合多个对话类型的对话式推荐。研究人员期望系统主动且自然地从任意类型对话(闲聊/问答等)引导到推荐目标上。如图1所示,给定一个起始对话(例如问答),系统可为推荐规划一个对话目标序列,然后基于该目标序列驱动自然的对话,最后完成目标实体的推荐。本论文中的任务设定与前人工作的区别在于: 论文中的对话包含多个对话类型;论文强调系统的主动对话能力,例如系统可主动规划一个对话目标序列,而该序列通常对用户是不可见的。 为辅助该任务的研究,研究人员构建了一个支持多对话类型的人-人对话推荐数据集(DuRecDial)。该数据集的特点包括: 每个对话session包含多个对话类型;包括丰富的交互逻辑;对话领域的多样性;为每个用户建立个性化的profile,支持个性化的推荐。【表1 】论文中数据集与相关数据集在如下维度的比较:session数量/utterance数量/对话类型/对话领域/是否支持用户个性化 在这个任务和数据集,研究人员尝试解决目前人机对话存在的一些问题: 自然的融合多种类型对话;机器根据用户长期偏好规划对话目标序列,并主动引领对话;包含丰富的对话逻辑,如用户转移话题,也可产生合理回复;充分利用之前对话,对话结束会根据用户反馈,实时更新用户Profile,更新的Profile会影响后续对话。 任务设置研究人员要求两人进行对话,其中一人扮演recommendation seeker(用户),另一个人扮演recommender(bot),要求recommender主动引导对话,然后基于用户profile推荐,而不是用户引导对话或寻求推荐。例如在用户关于『生死劫』的问答后,机器根据其长期偏好和知识图谱信息,规划对话目标序列(关于『周迅』的闲聊>>推荐电影『风声』),并自然地引导对话,当用户转移话题(更喜欢『刘若英』的电影),机器根据其profile,精准推荐『南京1937』,最终完成所有对话目标。对话结束后,用户profile会根据其反馈而更新,以便于提高后续对话的用户体验。 【图1】 融合多对话类型的对话式推荐样例 用户profile如图1左上部分所示,给机器提供的知识图谱信息是目标序列相关的子图信息。图1右侧为多类型对话中的对话式推荐示例,用户问答后,机器主动引导对话,自然流畅地实现对话目标的转移。 这个任务跟之前任务的不同主要包括:对话包含多个goal(目标),每个goal都包含goal type和goal topic;type决定对话类型,topic对type进一步细化,决定对话的具体内容。机器通过规划对话目标序列来主动引导对话,而用户不知道对话目标。 数据集建设现存对话数据集不适用于论文中的任务,因此研究人员通过人工标注的方式在明星、电影、音乐、新闻、美食、天气、POI等领域构建一个新的对话数据集(DuRecDial),用于融合多类型对话的对话式推荐的研究。数据集构建包括:构建领域级对话目标序列、构建用户Profile、知识挖掘、构建知识图谱、构建任务模板和语料众包标注。主要流程如下图所示: 【图2】 数据集建设的主要流程 1、构建领域级对话目标序列首先根据百度知识图谱,选取20个对聊天有价值的领域,然后分别组合成对话目标序列,再经过多人多次校验,过滤不容易组成目标序、加入目标序列会导致目标转移不自然、跟其他领域关联性较小的领域,剩下7个领域。然后枚举7个领域的目标序列,再经过多次人工校验和试标注,最终产生领域级对话目标序列候选集。 【图3】 领域级目标序列 2、构建用户Profile每个用户均有独一无二的profile,否则推荐就乱了。用户Profile包括两部分:姓名、性别、年龄、居住地、职业等基本信息;领域级偏好、实体级偏好等偏好信息。 基本信息的构建相对简单,但也比较细致。随机从『男、女』指定性别,从5个年龄段随机选择年龄,从55个热门城市随机分配一个居住地(居住地会影响接下来的天气、美食、POI数据的构建),然后根据性别随机生成姓名(姓名为2或3个字,不同性别候选字不同),根据年龄为用户分配职业状态,再根据职业状态分配几种聊天话题,聊天话题会影响对话的标注。 偏好包括:领域偏好(比如喜欢音乐,不喜欢新闻等)、实体偏好(比如喜欢歌曲A,而不喜欢歌曲B)。领域偏好根据目标序列包含的领域随机生成,再人工校验,并根据试标注不断完善;只有领域偏好,无法标注对话,因此需加入实体偏好,实体偏好根据知识图谱和领域偏好确定,然后人工校验。偏好的设定很关键,也是论文中任务和数据集主打的一个点。 需要强调的是,为更符合真实应用,用户知道自己的profile,机器只能通过和用户聊天获取profile。 3、知识挖掘研究人员首先根据用户居住的55个热门城市,从『2345天气』抓取2017年7月到2019年8月的历史天气。再根据天气和美食的关系,从『美团网』和『美食天下』抓取美食相关知识。再根据美食和居住城市,从『美团网』抓取POI(餐厅)相关知识。 然后,从『时光网』挖掘电影和电影明细相关的结构化和非结构化知识信息,如电影票房、导演、评论等。根据挖掘的这些静态知识进一步计算出动态知识以丰富知识内容,比如根据票房信息计算出电影之间的票房排行,根据评分信息离散化得到电影或人物的口碑信息等。 接着,从『网易云音乐』抓取2000个热门歌手及其热门歌曲。把歌手和电影明星取交集,再根据电影、音乐数量人工过滤(因为任务中,每个用户都跟机器有多个对话,需要推荐很多实体),最终确定明星候选集。然后多个新闻来源抓取明星新闻,再根据新闻数过滤,产生最终对话使用的明星集合。需要说明的是,研究人员使用电影和音乐评论当推荐理由,而网易云音乐评论质量较差,故从『百度百科』抓取音乐鉴赏补充评论。 最终所有数据都会清洗和过滤,经抽样评估,研究人员挖掘的知识准确率在98%以上。 4、构建知识图谱类似传统图谱构建,研究人员以挖据的三元组知识中的实体和值为节点,属性为边建立一阶图谱关系,除此之外,研究人员对有相同属性和值的两个实体建立二阶关系,如“红海行动”和“湄公河行动”的导演都是林超贤,这两个实体存在二阶关联关系。 5、构建任务模板任务模板用来明确双方聊什么、怎么聊,它包括:实体级的goal序列,以及每个goal的描述(实现该目标的一些具体要求)。首先,用户领域偏好和领域级目标序列取交集,产生特定用户的领域目标序列,再根据用户实体偏好,产生实体级goal序列。然后基于多种规则和人工标注,产生每个goal的描述。任务模板如下图所示: 【图4】 任务模板 至此,标注前的数据准备就结束了,研究人员的经验是这些准备很关键,甚至能决定数据集能不能标注。随标注的进行,这些数据准备还会不断完善。 6、语料众包标注不同于self-play一人扮演对话双方的标注方式,研究人员在众包平台(test.baidu.com)随机挑选两个标注人员模拟真实对话的双方标注每组对话数据。为保证至少有两个标注人员同时进入标注任务,研究人员安排多个外包团队进入标注平台。标注时,每组对话随机挑选两个标注人员标注,其中之一扮演机器角色主动引领对话进程完成设定的对话目标,另一标注人员扮演真实用户角色响应机器角色的对话。 需要说明的是,对任何数据集来说,质量都是很重要的,因此论文中有严格的数据质量控制流程。具体如下图:【图5】 数据质量控制流程 标注结束后,通过采样评估DuRecDial质量,完全符合要求的达90%左右,且不存在有严重问题的数据。DuRecDial跟现存数据集的对比,以及数据集统计,如下图所示:【图6】 跟现存数据集的对比及数据集统计 ...

June 30, 2020 · 1 min · jiezi