关于数据库:增强分析在百度统计的实践

39次阅读

共计 4162 个字符,预计需要花费 11 分钟才能阅读完成。

导读 :加强剖析是近年来新衰亡的一个方向,正成为数据和剖析技术的次要趋势。本文联合作者实践经验,介绍了对于加强剖析的了解和在理论工作中的开展点,包含基于自然语言的剖析接口、外围性能的智能助手、业务洞察及倡议,也心愿在这个方向上能和大家有更多探讨。

全文 4209 字,预计浏览工夫 11 分钟。

01 什么是加强剖析

出名调研机构 Gartner 公布的 2019 年十大数据和剖析技术趋势,着重提到了加强剖析(「Augmented Analysis」)。其实早在 2017 年,Gartner 就发表了题为「Augmented Analytics Is the Future of Data and Analytics」的报告。

依照 Gartner 的定义「Augmented analytics is the use of enabling technologies such as machine learning and AI to assist with data preparation, insight generation and insight explanation to augment how people explore and analyze data in analytics and BI platforms」,这是一种通过机器学习等技术帮忙普通用户更好的应用和摸索数据、更深刻的了解数据、进而晋升业务价值的新型剖析模式。这里的 ” 加强 ” 次要体现在两方面:

1. 技术层面,除了惯例的剖析领域外,引入机器学习和 AI 能力,渗透到数据筹备、数据交互、洞察获取、决策反对等一系列动作中,使得整个剖析过程更加精细化、自动化。

2. 业务层面,强调“剖析平民化”,升高数据分析门槛,使得从数据中取得剖析后果和洞察见解不再是专业人士的权力,一般业务人员也能够不便的参加进来。

△图 1

从目前支流的 BI 软件(比方 IBM Cognos Analytics、Microsoft Power BI、Oracle Analytics、Salesforce Einstein Discovery、Tableau、ThoughtSpot 等)倒退阶段也能够看出(图 2),加强剖析是商业智能剖析的进阶版本。相比于传统的 BI,加强剖析更强调易用性、可解释性、以及机器学习和 AI 技术的应用。

△图 2

那么,加强剖析具体是做什么事件,对业务能有哪些帮忙?Gartner 提出了数据筹备、开掘数据模式并建模、分享数据发现三个阶段的利用场景。在这里咱们以百度统计分析云为背景,介绍一下加强剖析在具体业务中的一些开展点,也心愿能和大家一起思考如何把加强剖析贯通到理论业务中。

02 基于自然语言的剖析接口

最常见的剖析接口有两种模式:图表交互和 SQL,前者面向一般剖析型用户,后者适宜有 SQL 教训的分析师。随着智能设施的遍及和对业务随时随地的查问需要,基于自然语言的剖析接口成为了一种须要的模式,比方用户能够用手机通过语音或文本输出来形容想要提出的问题,对于非专业剖析用户(比方销售和经营)更是如此。

依据发问和答复,剖析接口分为两局部:自然语言发问(NLQ)和自然语言答复(NLG),这里咱们的探讨侧重于发问这块。因为剖析零碎的底层往往是 SQL 查问接口,所以问题定义就变成如何从自然语言到 SQL。业界在这方面曾经有些工作,比拟典型的有谷歌 Analyza 零碎(图 3),Salesforce 的 Seq2SQL model(图 4)。Analyza 零碎由 Metadata store、Parser、Conversation Handler、Answering Engine 几局部组成,整体上是一个规定零碎,没有引入机器学习的起因在于过后不足足够的训练集,以及对准确性要求十分高。

△图 3

Salesforce 提出了一个端到端的 Seq2SQL model,其中把指标序列合成为 Aggregation、SELECT、WHERE 三局部,模型构造如图 4。同时,Salesforce 还公布了 WikiSQL 数据集作为英文 NLP2SQL 的 benchmark。

△图 4

从整体上来讲基于自然语言剖析接口的技术实现能够拆解为三局部:自然语言了解、业务知识库、查问翻译。在自然语言了解方面,百度提供了 UNIT 平台,交融了 NLP 相干技术,可能帮忙疾速接入问答零碎。

业务知识库次要包含三局部:

1. 预约义的事件及属性「predefined event/property」,以及自定义的事件及属性「customized event/property」,在百度统计业务里,预约义的内容包含固定的流量和访客相干维度,自定义内容是客户依据本身须要定义的事件,比方 ” 登录 ”、” 注册 ”。

2. 扩大常识,次要是依据上下位关系对事件属性实体进行扩大。

3. 同义词,包含通用同义词和业务同义词,其中通用同义词能够复用现有的训练后果,业务同义词须要联合业务场景进行构建,比方在业务文本语料上通过 word2vec 从新训练。

根本的实现框架如图 5 所示,UNIT 模型负责 NLQ 解析,语义 Parser 把词槽后果翻译成两头后果,To-SQL 模块把两头后果转换成可执行 SQL 交给底层查问零碎执行,知识库跟 UNIT 模型、语义 Parser、To-SQL 都有交互。其中,两头后果层定义了一套标准,使得语义后果放弃了对底层 SQL 的独立。

例如,用户在 2020.8.10 发问 ” 过来 7 天哪个起源的用户数最多?”,翻译出的两头后果如下:

{
 "order_by": [{
  "type": "metric",
  "value": "uv",
  "desc": 1
 }],
 "st": "20200804",
 "limit": 10,
 "et": "20200810",
 "where": [],
 "select": [{
  "type": "dim",
  "event": "","value":"from_type"
 },
 {
  "type": "metric",
  "event": "","value":"uv"
 }]
}

△图 5

因为底层查问及后果返回都复用了现有剖析零碎,后果展现还是能够采纳用户相熟的图表模式。当然如果从简略概要角度来讲,也能够联合 NLG 建设起自然语言概述性后果。

03 外围性能的智能助手

在数据分析系统中,外围性能往往具备肯定的应用门槛,如何帮忙用户更不便的应用外围性能,是加强剖析要解决的问题,在产品层面通常以智能助手的模式落地。因为零碎性能各有不同,这一块在实现上也是各有差别。咱们通过把外围性能的输入形象为指标事件,概括了整个解决逻辑,如图 6 所示,将业务内容(包含业务指标、文本内容、业务标签等)和对应的用户行为交融起来,抽取特色,联合已有标注集建设起模型,产出候选事件后进行排序输入到业务端。

△图 6

这里以百度统计分析云的埋点助手性能为例,剖析云提供了 JS API 和可视化圈选两种设置自定义事件的形式,特地是可视化圈选能够间接从页面中所见即所得的选出指标事件。那么在业务上要圈出哪些值得关注的指标事件呢?为了更好的帮忙客户来了解这一点,剖析云提供了 AI 举荐事件的能力。通过对用户点击行为建模,找出跟业务相干的自定义事件给客户参考,如图 7 所示。

△图 7

04 业务洞察及倡议

如何给出业务洞察及倡议,也是加强剖析重点关注的点。这里业务洞察要解决的问题次要有两种类型:1)用户对问题有明确需要,至多是有肯定感知的,比方流量产生降落想要晓得背地的起因,或者影响营收的关键因素是什么、其中哪些是趋势变好的因素。2)用户并不明确要解决的问题,须要通过数据驱动形式发现一些有用的论断,比方用户想要对网站构造进行优化,但并不分明具体问题在哪里、潜在优化点在哪。

图 8 是 ThoughtSpot SpotIQ 的一个产品示例,用户输出关怀的内容,零碎从多个维度开展剖析给出相关联的 insight。

△图 8

为了从数据驱动角度登程给出业务洞察,这里咱们列举几种典型的从剖析型业务点到对应技术点的开展模式(如图 9),其中业务点形象为业务指标、业务项、业务行为等几类。

△图 9

通过这些罕用的数据挖掘伎俩,能够对业务指标及行为给出数据层面的后果,但这里的难点在于如何将这样的数据后果转换为业务论断,特地是有可解释性、对业务有指导意义的论断。咱们晓得,单纯的依赖 ” 数据共现 ” 失去的后果,可能只是一种偶合或表象,如果不能落到业务逻辑上,那么这种数据景象并不具备实际意义。

一个有用的技术是构建业务知识构造,将业务实体间的关系束缚在业务逻辑范畴内。如图 10 所示,在百度统计的渠道起源范畴内,咱们能够构建这样的关系构造,只有相互间有业务含意的节点才会被连接起来,比方 ” 间接拜访 ” 不会跟 ” 搜索词 ” 有间接分割。这样一方面能够 ” 疏远 ” 没有关系或关系较远的节点,另一方面也能够在现有数据后果根底上沿着关系边进行推理或扩大。从更深层的角度来看,这是在加强剖析背景下,把统计学习和符号主义联合起来应用。

△图 10

05 总结

基于自然语言的剖析接口、外围性能的智能助手、业务洞察及倡议,是咱们认为加强剖析在理论业务中的三个次要方面。目前加强剖析还处于起步阶段,能够预感,随着企业积攒越来越多的数据资产,其作用也会越来越突出。作为一个新兴方向,无论是技术实现还是业务场景,都还有很多值得探讨的中央。

——————————END——————————

参考文献:

[1]www.gartner.com/en/information-technology/glossary/augmented-analytics

[2]Augmented Analytics Is the Future of Data and Analytics

[3]Analyza: Exploring Data with Conversation

[4]Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning

[5]ThoughtSpot SpotIQ AI-Driven Analytics Whitepaper

举荐浏览:

基于 TLS 1.3 的百度平安通信协议 bdtls 介绍

百度用户产品流批一体的实时数仓实际

如何治理资源节约?百度云原生老本优化最佳实际

面向大数据存算拆散场景的数据湖减速计划

百度 APP Android 包体积优化实际(三)资源优化

ffplay 视频播放原理剖析

AI+BI+ 可视化,Sugar BI 架构深度分析

正文完
 0