关于数据集:揭秘JVS智能BI数据集管理让你的数据处理更高效

数据集是JVS-智能BI中承载数据、应用数据、治理数据的根底,同样也是构建数据分析的根底。能够艰深地将其了解为数据库中的一般的表,它来源于智能的ETL数据加工工具,能够将数据集进行剖析图表、统计报表、数字大屏、数据服务等制作。 数据集治理与界面介绍在整体的数仓架构中,数据集是在线加工的规范数据状态,数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程,建模实现后,可通过手动数据执行或者周期性的数据执行,造成规范的数据集(通用),如下图所示 实现从业务数据抽取到数据统计分析库中,在界面上实现数据加工的过程。 数据集的创立选中对应要增加数据集的目录,点击“+”新增目录菜单、数据集,这里间接抉择数据集时,须要抉择新建在哪个目录下,如下图所示,当然也能够间接在目录菜单上点击“+”按钮,间接创立数据集 零碎进入新增数据集的界面,须要填写数据集根本的信息,对数据集进行设计 数据集的状态治理数据集的状态是用于管制在数据利用中的可见性,状态为启用时数据集为可用状态。 在启用状态下,数据设计不可批改,通过点击禁用/启用按钮批改状态 数据集信息预览数据信息预览包含数据加工的过程输入的后果等等,如下图所示: 数据集的设计点击数据集设计按钮(在禁用的状态下,数据集能力进入设计状态) 进入到数据集的设计界面,其中包含根本信息配置、界面化的数据设计、周期性执行设置等具体对数据集的配置管理 设计器界面介绍根本信息页 数据设计页左上角能够设置数据集名称,左侧是零碎提供的多种数据处理节点,主界面为数据配置画布,左侧的数据处理节点能够拖拽至画布,点击节点,下侧弹出对应的节点配置界面,后续章节将具体介绍设计器的具体操作应用形式 ①:输入输出的根底算子,用户数据引入数据加工流程和实现后输入规范的数据后果②:各种数据加工算子(后续章节将具体介绍)③:数据加工流程配置的画布,反对拖拽式的算子链接配置④:算子,点击画布中的算子时,零碎将展现算子的配置与预览后果(建模后果)的界面⑤:建模状态标记,绿色标记示意本节点实现模型构建,红色警示标记示意本环节还未实现建模,须要触发主动建模⑥:在点击算子后会弹出本界面,界面上包含配置与预览建模后果数据 执行设置界面本界面是提供对本数据集实现建模后,周期性或者定时触发实现数据分析后果的构建,如下图所示: ①:点击执行设置页面②:开启定时开关后,零碎依照后续的配置能够实现定制周期性的配置③:录入负责人信息④:录入负责人邮箱信息⑤:设置定时工作开始工夫⑥:能够设置自定义的corn表达式⑦:能够疾速的设置周期性执行的形式,包含依照小时、天...... 等多种形式周期化执行 血统视图血统视图用于本数据集的上下游数据关联援用具体情况,如下图所示 执行日志执行日志会记录本数据集执行的历史记录,执行具体的状况,如下图所示 点击具体日志时,零碎会把过后执行的具体过程都展现进去 权限配置次要用于对本数据集所波及的人员进行受权配置,如下图所示,具体的配置介绍查看相干章节 在线demo:http://bi.bctools.cngitee地址:https://gitee.com/software-minister/jvs-bi

February 19, 2024 · 1 min · jiezi

关于数据集:系统数据集如何添加参数

通过sql语句增加查问条件将条件的问号改成#{参数名},如下图:增加参数,如下图:注:不传默认值显示为空,如不增加默认值显示全副数据需增加空时显示全副数据,如下:select * from 表 where (字段=条件 or 条件='')

November 3, 2022 · 1 min · jiezi

关于数据集:赋高频词

有好心人统计出了宋诗的高频词,竟然能够赋诗一首: 世间 赋高频词作者:全宋词万里归来梅花落平生相逢是春风世间何处明月夜不见青山故人来 来啊,你也能够写诗啦

February 25, 2022 · 1 min · jiezi

机器学习数据科学和数据挖掘中的数据集类型

作者:Tarun Gupta翻译:疯狂的技术宅 https://towardsdatascience.co... 未经允许严禁转载 数据集有三个一般特征,即:维度,稀疏度,和分辨率。接下来我们将讨论它们究竟是什么意思。 什么是维度?→数据集的维度是数据集中对象所具有的属性的数量。 在特定数据集中,如果存在大量属性(也称为高维度),则可能很难分析这样的数据集。当遇到这个问题时,它被称为维度的诅咒。 为了理解维度的诅咒到底是什么,我们首先需要了解数据的另外两个特征。 什么是稀疏?→对于某些数据集,例如具有非对称特征的数据集,其对象的大多数属性值为 0;在通常情况下,只有不到 1% 的条目是非零的,这样的数据称为稀疏数据或者可以说数据集具有稀疏性。 什么是分辨率?→数据中的模式取决于分辨率级别。如果分辨率太细,则模式可能会不可见或有可能被埋没在噪声中;如果分辨率太粗糙,模式可能会消失。例如大气压力变化反映了风暴和其他天气系统的运动。在几个月的时间里,这种现象是无法察觉的。 现在,回到维度的诅咒,这意味着随着数据集维度(数据集中的属性数量)的增加,许多类型的数据分析变得困难。具体而言,随着维数的增加,数据在其占据的空间中变得越来越稀疏。对于分类,这可能意味着没有足够的数据对象来允许创建可靠的分类模型。 最后,来看数据集的类型,我们将它们定义为三个类别,即记录数据,基于图的数据和有序数据。 记录数据 →数据挖掘工作的大部分假定数据是记录(数据对象)的集合。 →记录数据的最基本形式是在记录或数据字段之间没有明确的关系,并且每个记录(对象)都具有相同的属性集。记录数据通常存储在文件或关系数据库中。 记录数据有一些具有某些特征属性的变体,。 交易或市场篮子数据:这是一种特殊类型的记录数据,其中每个记录包含一组项目。例如在超市或杂货店购物。对于任何特定客户,记录将包含客户购买的一组物品。这种类型的数据称为市场篮子数据。交易数据是一组项目集合,但它可以被视为一组记录,其字段是非对称属性。通常属性是二进制的,表示是否购买了商品。数据矩阵:如果数据集中的数据对象都具有相同的固定数值属性集,那么数据对象可以被认为是多维空间中的点(向量),其中每个维度表示描述对象的不同属性。一组这样的数据对象可以被解释为 m×n 矩阵,其中有 n 行 m 列,每行一个对象,每列一个属性。可以用标准矩阵运算来转换和操纵数据。因此数据矩阵是大多数统计数据的标准数据格式。稀疏数据矩阵:稀疏数据矩阵(有时也称为文档 - 数据矩阵)是数据矩阵的一种特殊情况,其中属性是相同的类型,而且是不对称的;即,只有非零值才很重要。基于图的数据 这可以进一步分为几种类型: 对象间关系的数据:数据对象映射到图的节点,而对象之间的关系由对象和链接属性之间的链接表示,例如方向和权重。比如互联网上的网页,其中包含文本和其指向他页面的链接。为了处理搜索查询,Web 搜索引擎爬取并处理网页来提取其内容。具有图对象的数据:如果对象具有结构,即对象中包含具有关系的子对象,则此类对象通常表示为图。例如,化学化合物的结构可以用图表示,其中节点是原子,节点之间的链接是化学键。有序数据 对于某些类型的数据,属性具有涉及时间或空间顺序的关系。正如你在上图中所看到的,它可以分为四种类型: 顺序数据:也称为时间数据,可以被认为是记录数据的扩展,其中每个记录都有一个与之相关的时间。比如零售交易数据集,该数据集还存储交易发生的时间序列数据:序列数据由数据集组成,该数据集是单个实体的序列,例如单词或字母序列。它与顺序数据非常相似,只是没有时间戳;相反,有序序列中存在位置。例如,植物和动物的遗传信息可以用基因的核苷酸序列的形式表示。时间序列数据:时间序列数据是一种特殊类型的有序数据,其中每个记录是一个时间序列,即随时间进行的一系列测量。例如,财务数据集可能包含各种股票的每日价格的时间序列的对象。空间数据:某些对象具有空间属性,例如位置或区域,还有其他类型的属性。空间数据的例子是针对各种地理位置收集的天气数据(降水,温度,压力)。本文首发微信公众号:硬核智能

September 7, 2019 · 1 min · jiezi

应用结构:可编程数据网关

前言访问多个异构数据源是大型企业应用软件非常常见的需求,人们也开发出了很多办法试图解决这个困难问题,但是这些办法往往都只是对某一种特定的场景,一直都没有异构特别理想的通用解决方案。今天,我们借鉴网络路由技术的思路,提出了一种全新的基于集算器的可编程数据网关解决方案,相对完美低解决了这个问题。解决方案相关方案下载:集算器之可编程数据网关.pdf

March 11, 2019 · 1 min · jiezi