关于大数据:火山引擎工具技术分享用-AI-完成数据挖掘零门槛完成-SQL-撰写

3次阅读

共计 2514 个字符,预计需要花费 7 分钟才能阅读完成。

文 / DataWind 团队封声

在应用 BI 工具的时候,常常遇到的问题是:“不会 SQL 怎么生产加工数据、不会算法可不可以做开掘剖析?”而业余算法团队在做数据挖掘时,数据分析及可视化也会出现绝对割裂的景象。

流程化实现算法建模和数据分析工作,也是一个提效的好方法。同时,对于业余数仓团队来说,雷同主题的数据内容面临“反复建设,应用和治理时绝对扩散”的问题——到底有没有方法在一个工作里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输出从新参加数据建设?

DataWind 可视化建模能力来了

由火山引擎推出的 BI 平台 DataWind 智能数据洞察,推出了全新进阶性能——可视化建模。

用户可通过可视化拖、拉、连线操作,将简单的数据加工建模过程简化成清晰易懂的画布流程,各类用户依照所想即所得的思路实现数据生产加工,从而升高数据生产获取的门槛。

画布中反对同时构建多组画布流程,一图实现多数据建模工作的构建,进步数据建设的效率,升高工作治理老本;另外,画布中集成封装了超过 40 种数据荡涤、特色工程算子,笼罩初阶到高阶的数据生产能力,无需 Coding 实现简单的数据能力。

零门槛的 SQL 工具

数据的生产加工是获取及剖析数据的第一步。

对于非技术使用者来说,SQL 语法存在肯定应用门槛,同时本地文件无奈定时更新,导致看板每次都须要手动重做。获取数据所需的技术人力往往须要排期,数据的获取时效及满足度大大打折,因而应用零代码的数据建设工具变得尤为重要。

下方列举两个典型场景,零门槛实现数据处理在工作中是如何利用的。

【场景 1】所想即所得,可视化实现数据处理过程

在产品经营迭代急需不同数据的及时输出反馈时,能够形象数据的处理过程,通过可视化建模利落算子构建数据处理过程。如要获取依照日期、城市粒度的订单数及订单金额,并获取每日 Top10 耗费金额数据的城市数据,操作如下:

【场景 2】多表疾速联合,轻松解决多数据关联计算

在数据处理过程中,有多个数据源须要进行组合应用,惯例通过 Excel 须要把握高阶 Vlookup 等算法有些难度,且耗时长。同时数据量较大时,电脑性能可能没方法实现数据的组合计算。

如有两份数据量比拟大的订单数据和一份客户属性信息表,须要依据账单金额和老本金额计算利润金额,而后依照利润奉献高下取 Top100 的用户订单信息。

AI 数据挖掘,不再高不可及

当根底的数据荡涤曾经没方法满足数据建设和数据分析,须要 AI 算法加持去开掘数据更多暗藏的价值时。算法团队同学可能苦于无奈很好与可视化图表联动应用,没方法生产好的数据疾速被利用;而普通用户可能间接被 AI 代码的高门槛间接压灭了这个算法的苗头——提需要又怕需要太浅、价值无奈很好评估输入,此时算法开掘成为了一种奢望。

DataWind 的可视化建模封装了超过 30 类常见的 AI 算子能力,用户仅需理解算法的作用能够通过配置化的形式配置算法算子的输出和训练指标即可实现模型训练,依据配置的其余数据内容疾速失去预测后果。

特色工程算子(13)

机器学习算子(22)

自然语言解决算子(3)

AI 算子参数配置

AI 模型训练成果

下方将以两个典型场景为例,看不写 Python 如何实现数据挖掘。

【初阶】不会 Python 也可做数据挖掘

用户日常工作根本不波及写 Python,但存在做数据挖掘的需要场景。他须要基于存量高动向客户样本做客户动向度开掘。此时可通过可视化建模构建数据挖掘流程:
1. 拖入样本数据和全副数据作为数据
2. 输出拖入分类算法,如 XGB 算法用于模型训练
3. 拖入预测算子,搭建模型与全副数据的关系进行预测
4. 理论数据和预测后果联合输入数据集,从而剖析全副用户数据的动向散布

【高阶】不写 Python 也可构建简单算法模型

用户须要依据现有数据,构建一个用户回购模型。在模型搭建中须要通过数据荡涤、格局转换之后采纳梯度晋升树构建预测模型,此时能够依据可视化建模构建回购模型流程:

1. 合并行:将 n 个算子 (图中的长方形) 输入数据表依据统一的表头合并成一张总的数据表,用户销售数据没有增删新属性时此处不必改变。
2. 缺失值替换:属性列存在空值 (null) 时, 会影响后续模型计算, 应用替换缺失值算子能够将空值替换为指定默认值,用户销售数据没有增删新属性时此处不必改变。
3.one-hot 编码: 文本类型的属性无奈间接被模型训练应用,须要 one_hot 编码成数字向量例如:

4. 梯度晋升树:负责拟合训练数据,输入一个能够用于预测的模型(图中没有标注的参数不须要保护人员批改):

5. 聚合_1:去除预测数据中的反复项,取最大概率。
6. 提取字段:提取必要的 label 和概率值输入。

多场景、多任务建设,治理不再扩散

作为数据分析师,日常也会有很多构建数据集、搭建数据看板的工作。但通常从数仓获取的底表会是一张宽表,在此基础之上,依据不同的场景需要搭建不同的数据集工作。

在后续的应用时,经常会遇到相似的的数据集越来越多,但具体逻辑又无奈很好的比照确认。此时,如果所有数据集逻辑在一个数据集外面配置生成,每个数据集通过工作流程就能够判断和定义利用就好了。

针对这一场景,DataWind 的可视化建模能力也能够很好的实现。可视化建模性能反对繁多数据集同时被多种逻辑解决加工生成多个数据集。以解决订单数据和用户数据为例:
1. 有用户想看订单的统计数据,那么能够搭建订单统计数据集的数据处理流程;
2. 有用户就想看明细数据,然而须要对明细字段进行加工荡涤,这时能够构建订单明细表数据集的解决流程;
3. 有些用户又想联合用户属性去统计用户的订单散布,那么构建多表关联联合指标聚合生成实现用户订单统计数据集;
4. 同样逻辑能够生成多表关联下的用户订单明细数据集。
5. 由此,通过一个工作、两个数据输出实现了 4 个数据集的生成,4 个数据集能够构建一个数据主题域,后续相干数据应用均可从此工作输入的数据集进行应用。

对于咱们

火山引擎智能数据洞察 DataWind

火山引擎智能数据洞察 DataWind 是一款反对大数据明细级别自助剖析的增强型 ABI 平台。从数据接入、数据整合,到查问、剖析,最终以数据门户、数字大屏、治理驾驶舱的可视化状态出现给业务用户,让数据施展价值。

点击立刻体验 DataWind!

正文完
 0