关于数据分析:深入解读自然语言分析NLA技术的发展史

40次阅读

共计 2521 个字符,预计需要花费 7 分钟才能阅读完成。

一、什么是自然语言解决

自然语言解决(Natural Language Processing,简称 NLP)就是用计算机来解决、了解以及使用人类语言 (如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。因为自然语言是人类区别于其余动物的基本标记,没有语言,人类的思维也就无从谈起,所以 NLP 体现了人工智能的最高工作与境界。也就是说,只有当计算机具备了解决自然语言的能力时,机器才算实现了真正的智能。

从技术角度看,NLP 包含序列标注、分类工作、句子关系判断和生成式工作等。从利用角度看,NLP 具备宽泛的利用场景,例如:机器翻译、信息检索、信息抽取与过滤、文本分类与聚类、舆情剖析和观点开掘等等。它波及与语言解决相干的数据挖掘、机器学习、常识获取、常识工程、人工智能钻研和与语言计算相干的语言学钻研等。

NLP 的衰亡与机器翻译这一具体任务有着密切联系。“人工智能”被作为一个钻研问题正式提出来的时候,创始人把计算机国际象棋和机器翻译作为两个标志性的工作,认为只有国际象棋零碎可能战胜人类世界冠军,机器翻译零碎达到人类翻译程度,就能够宣告人工智能的胜利。四十年后的 1997 年,IBM 公司的深蓝超级计算机曾经可能战胜国际象棋世界冠军卡斯帕罗夫。而机器翻译到当初仍无奈与人类翻译程度相比,由此可见 NLP 有如许的简单和艰难!

二、自然语言解决的发展趋势

目前,人们次要通过两种思路来进行自然语言解决,一种是基于规定的理性主义,另外一种是基于统计的经验主义。理性主义办法认为,人类语言次要是由语言规定来产生和形容的,因而只有可能用适当的模式将人类语言规定示意进去,就可能了解人类语言,并实现语言之间的翻译等各种 NLP 工作。而经验主义办法则认为,从语言数据中获取语言统计常识,无效建设语言的统计模型。因而只有可能有足够多的用于统计的语言数据,就可能了解人类语言。然而,当面对现实世界充斥含糊与不确定性时,这两种办法都面临着各自无奈解决的问题。例如,人类语言尽管有肯定的规定,然而在实在应用中往往随同大量的乐音和不规范性。理性主义办法的一大弱点就是鲁棒性差,只有与规定稍有偏离便无奈解决。而对于经验主义办法而言,又不能有限地获取语言数据进行统计学习,因而也不可能完满地了解人类语言。二十世纪八十年代以来的趋势就是,基于语言规定的理性主义办法一直受到质疑,大规模语言数据处理成为目前和将来一段期间内 NLP 的次要钻研指标。统计学习办法越来越受到重视,自然语言解决中越来越多地应用机器主动学习的办法来获取语言常识。

随着 2013 年 word2vec 技术的发表,以神经网络为根底的深度学习技术开始在 NLP 中宽泛应用,深度学习的分布式语义示意和多层网络架构具备弱小的拟合和学习能力,显著晋升了 NLP 各种工作的性能,成为现阶段 NLP 的次要技术计划。

深度学习是纯数据驱动技术计划,须要从大规模标注数据中学习特定工作相干的简单模式。一方面,有些学者开始摸索面向大规模无标注文本数据的深度学习模型,如 ELMo,GPT、BERT 等,能够看做从大规模数据中学习常识的极致摸索;另一方面,现有深度学习技术尚未思考人类积攒的丰盛常识(包含语言常识、世界常识、常识常识、认知常识、行业常识等),如果将深度学习看做经验主义办法,将符号常识看做理性主义办法,那么如何充分发挥基于规定的理性主义办法和基于统计的经验主义办法的劣势,两者相互补充,更好、更快地进行自然语言解决,依然是咱们须要摸索的重要课题。

三、自然语言解决在 BI 的利用

2018 年,Gartner 在其公布的魔力象限报告中,明确指出增强型剖析性能是 BI 产品倒退的最重要、也是最显著的发展趋势之一,其起因并不难理解:“以后企业应用的数据的规模和复杂度曾经逐步超过人类能够解决的水平,动态报表、仪表板等传统工具曾经不能满足需要,而通过机器学习、人工智能等技术加强剖析,能够更好地解决这些数据。而如果利用自然语言解决、人工智能等技术的加强剖析就能够主动、疾速地对数据进行剖析,辅助剖析人员失去须要的数据洞察。”

作为间断多年入选“Gartner 加强剖析代表厂商”和“Gartner 中国人工智能守业公司代表厂商(2020)”的 Smartbi 正是看到了这些趋势,在 2018 年便开始自主研发加强剖析工具 Smartbi NLA,冀望通过引入自然语言解决、常识图谱、举荐算法和机器问答等人工智能技术,使得 Smartbi NLA 能够了解用户的数据分析需要,并帮忙其疾速实现剖析工作取得数据洞见。

Smartbi NLA 的交互式对话实际上是一种特定的语义剖析工作。在学术界,相似的工作最早能够追溯到 1970 年代提出的自然语言编程(Natural-language programming),是指将自然语言(钻研比拟多的是英语)翻译为特定的编程语言。在 1980 年代,人们又针对关系性数据库提出了自然语言数据库查问(Natural Language Database Query),也称为 Text2SQL、NL2SQL 等。它将用户的天然语句转为能够执行的 SQL 语句,从而罢黜业务用户学习 SQL 语言的懊恼,胜利将 NLP 利用于 BI 畛域。

Smartbi 正是利用了 NL2SQL 技术,将自然语言通过神经网络转化为计算机能够辨认的数据库查询语言。用户通过语音或者键盘输入后,“AI 智能小麦”会将输出的自然语言转为语言元模型的模式,通过小麦内置的常识抽取算法,通过深度学习模型将元模型转化为机器能够了解的数据库语言。最初通过 Smartbi 预置的查问引擎和图形引擎,疾速精确的找到用户想要的查问后果,主动生成图形输入,也能够在 Smartbi 中对查问后果进行组合和进一步剖析。

图:NL2SQL 模型原理示意图

Smartbi NLA 是时下前沿的数据分析工具,简化为搜索引擎,仅仅只有一个输入框,页面间接输出形容业务问题,工具主动把数据查问进去,免去学习操作的过程,特地适宜在展厅大屏、领导办公室大屏等场合应用,一经推出便广受客户欢送。

1、Smartbi 自然语言查问:临危受命

2、Smartbi 自然语言查问:熟能生巧

3、Smartbi 自然语言查问:堪当大任

4、Smartbi 自然语言查问:如影相随

正文完
 0