关于云原生:专访香侬科技致力于让世界听到中文NLP的声音

44次阅读

共计 3830 个字符,预计需要花费 10 分钟才能阅读完成。

像所有的创业者一样,香侬科技的初创团队襟怀幻想,期待有一天当人们提起香侬的时候,除了“信息论之父”,还能想起来有一家用技术在链接大千世界的科技公司——香侬科技。

新生的香侬科技抉择“长在云上”

香侬科技的 CTO 王思宽说起企业上云的历程,“在 2018 年的时候,咱们是一家初创公司,本人经营机房的老本太高了,咱们决定要选一家云厂商,当初看来,阿里云是一个最简略也最正确的抉择。”

从简略的云服务器弹性应用,到数据库服务,前面香侬又在 ECS 下面本人搭了 K8s。随着业务进一步倒退,阿里云的架构师提出了进一步升高 IT 运维老本的计划,香侬也间接采纳了阿里云的 AKS。

王思宽说,“从我角度上来看的话,阿里云的劣势还在于服务——响应十分及时,技术交换也比较完善,阿里云对于咱们的需要能很快给出答案;其次是云性能的学习反对很省心,随着云服务的一直降级欠缺,性能越来越弱小,对于企业方来说存在学习用云的工夫老本,阿里云丰盛的学习资源给了咱们很大的反对。”

启航于情怀,动摇于信奉

首次见到李纪为,是在人工智能小镇,香侬科技位于杭州的新办公区。说起他的标签,很多人可能会晓得“斯坦福计算机用时最短毕业博士”、“《麻省理工科技评论》35 岁以下科技翻新 35 人”、“《福布斯》30 位 30 岁以下精英”等等。然而,相比起炫酷的 title,他集体显得低调得多,比起一家企业的 CEO,更像是一个研究型学者。这位年老的创业者,是克劳德·香侬的直系弟子。2012 年李纪为从北京大学毕业,赴美学习生物工程,起初转向学习人工智能,并退学斯坦福大学,师从 Dan Jurafsky(斯坦福大学计算机系传授、语言系主任),而 Dan 正是香侬的学生。

潜心前沿 AI 技术,发明文字社会价值

2017 年底,李纪为回国,拉上了本人已经的同学,成立香侬科技,开始了 NLP(自然语言剖析)畛域的守业。

对于公司名字的由来,李纪为说,这来源于对信息论和其创始人香侬的信奉。读博期间,他曾认真拜读过香侬划时代的钻研论文「Prediction and entropy of printed English」,这是古代 NLP 很多实践的起源和根底。出于对这位 NLP 先导的崇拜,公司便由此命名了。

2018 年,香侬科技在阿里云实现上云第一站,用数字科技陪伴企业成长。

在整个人类历史上以语言文字模式记录和流传的常识占到常识总量的 80% 以上。就计算机利用而言,85% 左右都是用于语言文字的信息处理。自然语言解决,就是用计算机对自然语言的形、音、义等信息进行解决,对字、词、句、篇章进行输出、输入、辨认、剖析、了解、生成等的操作和加工。

自然语言解决在咱们生存中是怎么利用的呢?

其实,NLP 曾经在咱们的日常生活和工作中随处可见并施展着重要的作用。小到咱们罕用的翻译软件、搜索引擎、聊天机器人,都是通过 NLP 技术让机器去理解咱们的诉求,再通过运算解决,反馈给咱们想要的答案;大到在金融、司法、政务、工业、传媒等行业畛域,也在应用这项技术去解决纷繁复杂的文档文件,从海量文字中更便捷、疾速地取得精准信息。

那么,NLP 技术是怎么实现这些利用的呢?香侬科技创始人李纪为举了一个形象的比喻:就像是一位小学生通过学习基础知识和训练学习办法,达到了大学生的程度,把握了这些实践与操作技能后,投身到各行各业去工作。通过肯定工夫的工作实际与增强学习,他成长为某一垂直畛域的“小专家”,过硬的技术加之行业教训的积攒,便使他在所属行业中熟能生巧。用技术的思维来简略概括,就是用算法搭建起一个“大学生”模型,通过垂直畛域小样本数据的一直训练,便把握相干的常识和能力,成为高效、优质的生产工具。

李纪为用香侬旗下的智能写作产品——火龙果写作做了示范:一名网络小说作者实现根本的框架与后期内容铺垫后,零碎能够依据以后写作内容去了解和剖析文章类型和宗旨,主动举荐相干写作素材;小说实现后,还能够帮忙作者进行语法纠错、事实性核查、上下文一致性核查、标点格局查看等一百多种类型纠错核查,不放过任何过错;当创作陷入瓶颈时,可能依据以后内容,主动生成原创情节进行续写。除了文学创作以外,该产品也能够依据要害信息形容,辅助创作不同格调的文体,例如学术格调、公文格调、社交媒体格调等,俨然是一位文字写作的多面手。

据悉,火龙果写作已成为泛滥学生党、文字工作者的首选“智能助理”,仅用一年工夫,注册用户实现了 1500% 的高速增长。

近些年,自然语言解决倒退迅速。2017 年,谷歌提出了全新的自然语言解决模型架构——Transformer;2019 年至 2020 年,大规模预训练模型 BERT 与 GPT 相继被提出,大规模预训练模型构建于 Transformer 模型架构之上,可能利用海量的无标注语料实现预训练,从语料中建设对文本的感知并实现常识提取,在简直所有自然语言解决上游工作中获得显著的成果晋升。大规模预训练成为深度学习模型晋升成果的必要模块,也是以后 AI 畛域最为炽热的钻研对象。,但针对中文的自然语言解决钻研仍然单薄。

“相比于英文,中文语言的了解要简单得多。同样的一个字、一个词、一句话,表白的语境不同,表白的形式不同,都可能存在各种不同的含意,已经人工智能的自然语言解决算法都是利用东方的技术为模板,基于罗马字符的语言,而中文是象形文字,通过漫长的历史倒退,它每个字符的造型、读音、含意都可能蕴含着粗浅的意思”。“咱们之所以开始做这个事件,也是想既然在中国做这个事件,就要把中文畛域的钻研发扬光大!中文作为世界应用语言第二大的语种资源,它的前景必定是更广大的。”李纪为认为,NLP 是一个广大的市场和空间,须要更多的倒退和单干,能力把生态做起来,谈及将来打算,李纪为说,将来心愿能进一步推动“更懂中文”的新一代自然语言解决根底钻研,突破实践和实际之间的壁垒,持续在更多原创性、创新性、实用性问题中深耕、钻研,增强人才培养与产学研生态建设,对晋升中文自然语言解决钻研在国内话语体系中位置多做一些工作。

2018 年,新生的香侬科技抉择了“长在云上”。

香侬科技,提供以语言了解外围的产业 AI 技术

香侬科技正在做的事件——提供以语言了解外围的产业 AI 技术。见微数据、舆情监控零碎、智能文档解决平台、智能问答引擎、智能化数据治理平台在金融、司法、政务、新闻出版、教育各个行业遍地开花,面向企业、金融机构、政府等行业提供一站式舆情数据常识加工服务。

继续且大量的人工神经网络计算的深度学习场景,香侬应用了阿里云举荐的 GPU 实例及 AMD 实例。搭配对象存储 OSS,在数据层面相互买通,海量训练数据的低成本存储和拜访要求失去了满足;通过 EMR 服务进行数据的预处理,剖析效率失去了晋升;通过云监控服务进行 GPU 资源的监控与告警,整个过程更加平安稳固;通过 ECS、负载平衡、弹性伸缩、资源编排资源的反对,香侬科技疾速在云端搭建了残缺 AI 深度学习业务零碎。

从 2018 年到当初,香侬公布了 50 多篇顶会论文、70 多项外围专利;建模中文的独有特色,融入中文字形与拼音信息;提出基于机器浏览了解的实体关系联结抽取办法,获得世界最优后果;基于机器浏览了解的命名实体识别方法,大幅超过之前世界最优后果;基于大规模图神经网络的语义了解模型,联合图构造与预训练,大幅晋升模型语义理解能力。在自然语言解决、深度学习、常识图谱等畛域……香侬依靠多个自主知识产权当先技术,打造了以自然语言解决为外围的全流程智能计算平台。

2021 年 7 月,香侬科技为杭州市余杭区人大办开发了“余杭区人大倡议智能散发平台”,仅 0.35 秒就能够实现本来人工 3 分钟的信息处理工作,总用时从本来人工解决的 8 小时工作工夫缩短到 5 分钟,准确率达到了 90% 以上,极大进步了余杭区人大的议案解决效率和服务能力。

2022 年 1 月,香侬科技拿到了北京市专精特新资质。

香侬科技的将来之路

对于“下一代人工智能”

2018 年以来,随着深度学习的大范畴利用,对于“下一代人工智能”行将到来的探讨始终没有进行过。但在李纪为看来,这个探讨仿佛为时过早。“下一代是怎么定义的呢?”他提出了这样一个问题。

在他看来,目前咱们还是处在技术的“窄域时代”,人工智能在咱们规定的内容外面,进行皱缩、布局、与润色。然而将来的某一天,咱们终将会冲破窄域,进入“宽域时代”,是一个十分值得期待的现象。

翻新上云,助力中文 NLP 更强

从守业到明天,间隔香侬科技成立曾经四年整了,从三个人到几百人,李纪为坦言,最难的不是开始,而是当初和将来。从“一人吃饱,全家不饿”到仍在壮大的团队和客户数量,每一步走小了都是逆水行舟,走大了都是对将来和趋势的预判,危险与时机并存,肩扛所有员工和客户的信赖,责任重大。

这个“难”,是每一个创业者独特的心路历程。无论是“元宇宙”还是“下一代人工智能”,他们没有想那么多,抉择一个赛道既是趣味所在,也是看到它其中的商业能力。香侬更加在意的在本人的行业畛域里专门钻研一些最顶尖科技,靠团队的力量去钻研一代技术或者去推广一代技术,把最新钻研的成绩找到一个场景实现冲破,真正地造福社会。

谈起最后的守业抉择,用李纪为本人的话来说就是:本人的代码变成理论利用是每一个技术人的现实。“把钻研模型变成事实工具,迷信不是陈在纸上的,要有理论的过程利用。”

阿里云与香侬:数字科技陪伴企业成长

数字科技陪伴企业成长,从 2018 到 2022,阿里云底层技术与产品与香侬一路前行,当初,这条路还会持续走上来。

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0