关于数据管理:Ventana-Research|是时候把指标中台纳入企业数据架构了

近日,Kyligence 秋季线上论坛胜利举办,来自当先的市场钻研和咨询机构 Ventana Research 的 David Menninger 发表了主题为 Add a Metrics Store to Your Information Architecture《把指标中台纳入企业数据架构》的演讲,心愿对大家有所启发。 以下为演讲实录 大家好,我是来自 Ventana Research 的 David Menninger,有 30 多年数据分析的从业经验,非常高兴可能与在座诸位分享咱们钻研的成绩,帮忙大家及时把握最新的技术动静。 明天我想从上面这张图开始我的分享。大家能够回忆下,目前在企业里,指标治理、剖析策略和数据策略之间的分割真的严密吗?很多企业关注数据策略、数据模型、DataOps 等,然而却很少真正聚焦指标及治理。接下来,我将从数据和指标之间的关系开始,分享什么是指标中台、以及企业为什么须要指标中台。 1. 钻研背景作为一家独立的剖析机构,Ventana 在进行调研时收集了来自数千家企业组织的反馈及其各种技术的应用状况。明天援用的各项信息次要来自于咱们的剖析和各项数据基准、数据治理基准。咱们心愿这次钻研能尽量全面地代表各类机构,所以也收集了来自不同规模、不同地区的各类公司的信息。 指标无处不在,如大家相熟的总销售额、员工平均收入、资源利用率等都是指标。相较数据而言,指标被赋予了业务价值,是量化的度量,企业能够通过指标来掂量和评估某项正在进行中的工作进度。 有些指标能够基于原始数据取得,但大多数须要基于不同数据的组合,比方通过数学公式对数据进行计算,其中有些计算可能相当简单,甚至须要基于数据进行预测。例如在房地产行业,你可能须要预测一座大楼的入住和出租率,针对每个单元的入住和出租率,再对利率和培修费用进行假如,而后将其代入一系列的公式,得出该出租物业的预期盈利状况。 指标自身蕴含了数据计算的含意,同时也将指标和数值分割了起来。比方在还没有定义相干指标的状况下,数字 7 自身并不具备非凡意义。然而当咱们退出指标和定义后,数字 7 就有了意义,咱们能够判断 7 是好还是坏。如下图所示,如果它在绿色区域,那就是体现还不错;但如果在黄色、橙色或红色区域,那可能就有待改良。为了确保指标和指标能在组织内共享,以及了解指标和指标的关系,指标和指标的定义就尤为要害。 那么新的问题来了,企业该如何存储这些指标? 很多企业会把指标存储在数据平台上,比方关系型或非关系型数据库。如果是关系型数据库,确实能够实现在组织内宽泛拜访,不过应用的表达式将受限于 SQL,或者说简单的指标计算只能在数据库之外实现。如果企业用的是非 SQL 数据库,的确能够更轻松地批改业务模型,但所用的表达式语言就会比拟难与组织共享。 当然,也有一部分公司会将大部分指标存储在 BI 工具内,BI 工具反对较丰盛的表达式,然而这些表达式又只能在这些 BI 工具外部应用,很难与其余工具共享,如果企业应用多种 BI 工具,共享就更难了。当然,也能够选用数据工程工具,把这些表达式写进数据管道中,计算实现后,组织内成员就能够拜访。但这也意味着要提前进行预计算和存储,当用户拜访的时候,这些数据很可能曾经过期了,甚至还可能造成数据库的“爆炸”。 另外一个选项是应用计算引擎、语义层、其余 OLAP 技术。这些解决方案确实反对企业内的共享,并且还提供了一个通用的形象层。美中不足的是,这些计划不足目录治理和合作性能,但对于企业而言,这些能力又十分要害。 近几年,有一些当先企业开始思考选用指标中台。指标中台是对计算引擎的进一步拓展,减少了目录、治理、合作、API 等能力,稍后我也会提到 API 为什么很重要。那到底什么是指标中台?大家能够把指标中台了解成是一个指标的集市,它存储了之前提到的各项规定、定义,如何进行计算,以及对齐指标相干的各项指标。构建指标中台的目标就是为了能轻松在组织内分享这些指标,并相互协作。 2. 什么是指标中台指标中台蕴含计算引擎,能够帮忙企业计算这些指标背地的各种数据,同时提供一个可供拜访指标的形式,比方各种 BI 工具等。除了指标、计算表达式,指标中台还应蕴含由指标引擎带来的目录信息。 指标中台可能帮忙业务人员找到相干数据和指标。不过,随着各类剖析利用变得越来越简单,某些剖析可能要被嵌入到某些利用中,而后再被进一步嵌入到其余流程中。咱们须要通过 API 实现这些嵌入,以便实现流程的自动化,不再须要人工参加,因而 API 曾经成为满足这些需要的必要条件。 ...

September 27, 2022 · 1 min · jiezi

关于数据管理:Kyligence-入选-Gartner-指标中台创新洞察报告

往年 9月,寰球权威的技术钻研与征询公司 Gartner 公布《指标中台翻新洞察报告》(Innovation Insight: Metrics Stores)。Kyligence 凭借在指标中台方面的翻新技术产品和成功实践积攒,胜利入选指标中台代表厂商。 随着数字化转型的深刻,越来越多企业在数据分析治理、指标治理等方面遇到了不少痛点: 不同企业和部门对其指标定义和计算逻辑都存在轻微不同,这导致企业上下游之间很难对齐用于决策的指标口径;数据分析团队扩散在公司各部门,往往采纳多种剖析工具,因为指标的计算管道被嵌入在不同的工具中,因而无奈跟踪指标血统;CRM 和 ERP 等业务利用对剖析洞察的需要日益增长,但如果没有自动化流程,为这些利用提取指标不仅要花费大量工夫,还会造成重复性的开发投入,老本居高不下。Gartner 在此次报告中倡议,企业能够思考在现有架构之上应用指标中台,对业务指标进行治理,从而为业务决策和治理提供繁多、可信的数据源。作为数据仓库和上游剖析工具之间的独立层,越来越多企业抉择指标中台来实现指标构建和散发能力的去中心化和民主化: 独立的指标层为业务指标打造繁多、可信数据源,推动指标的标准化、积淀可复用指标,实现指标“一次定义,屡次复用”,晋升业务用户合作的效率;通过 API 对接不同工具,并将其纳入指标中台来治理指标的生命周期,改良对剖析目录的治理;以轻量化 BI 的形式存储指标、推送指标,帮忙一线业务人员实现疾速的数据洞察。多年来,Kyligence 服务了金融、批发、互联网等行业的当先企业,积攒了丰盛的指标中台建设和实践经验。往年,Kyligence 推出了一站式云端指标中台 Kyligence Zen,为更多企业提供整合的、轻量级的、开箱即用的指标中台服务,助力业务用户聚焦指标及治理,实现疾速的数据洞察和口头决策。 Kyligence Zen 架构图 目前,Kyligence Zen 以指标治理、指标目录、指标自动化、API 集成四大外围能力,帮忙企业解决在指标治理、剖析和利用方面的痛点。 Kyligence Zen(预览版)现已开启试用,欢迎您点击 链接 申请试用。 对于 Kyligence上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 加强的高性能剖析引擎、对立 SQL 服务接口、业务语义层等性能,Kyligence 提供老本最优的多维数据分析能力,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲。 Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发等行业客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等寰球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成寰球合作伙伴关系。目前公司曾经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

September 22, 2022 · 1 min · jiezi

关于数据管理:如何避免数据湖变成数据沼泽

本文转载自 www.dbta.com,作者李栋 往年,Gartner 公布了《剖析查问减速的市场疏导报告》(Market Guide for Analytics Query Accelerators),指出企业在享受数据湖带来灵活性的同时,也接受着因数据应用和数据管理凌乱带来的不利影响。Kyligence 智能多维数据库产品及解决方案曾经助力多家企业无效解决这一难题。 1. 数据湖带来的治理难题数据湖采纳“读时模式”(schema-on-read)的数据存储构造,在存储 PB 级数据和撑持业务利用方面具备弱小的能力。然而,任何事物都有两面性。作为一种语义灵便的数据存储形式,数据湖在数据治理方面不免有所欠缺,如果治理不善就会变成凌乱的数据沼泽。 1.1 数据信赖的挑战 翻新的数据洞察个别来自多个数据主题的交融剖析。传统的数据分析模式往往依赖数据工程师开发 ETL 取数,以满足特定场景的剖析需要。在这种状况下,即便数据分析师心愿可能灵便地摸索更多数据,但因为很难把握这些数据的生成逻辑,只能审慎地抉择,免得复用其余部门或业务上的数据。 1.2 宽表爆炸的挑战 长此以往,数据孤岛更加重大,数据湖上的表日渐增多。例如,一家领有 5700+ 张源表的互联网公司可在数据湖上生成近百万张宽表和聚合表。宽表爆炸逐步成为数据团队的一大挑战,他们不仅要确保数据的品质及一致性,还要应答数据爆炸式增长所带来的老本继续上行的压力。 1.3 老本过高的挑战 在数据湖上寄存数以百万计的表,除了会占用大量的计算资源和存储资源,还需投入相当多的人力进行开发和保护。而这些投入带来的回报,如每张表的理论使用量、单次查问的老本等都将难以计算。 为了应答上述挑战,不少企业尝试将数据仓库技术引入数据湖,并构建湖仓一体(Lakehouse)的架构,数据仓库技术对数据品质和规范有严格的要求,有助于补救数据湖在数据治理方面的有余。 2. 多维数据库的劣势自上世纪 60 年代问世以来,多维数据库技术曾经渐趋成熟 [1]。多维数据库是关系模型的一种变体,采纳多维数据模型来整顿数据并表白数据之间的关系 [2]。多维数据库是当今被宽泛认可的联机剖析解决(OLAP)技术,广泛应用于数据仓库中的数据集市层。 数据是两维的,业务是多维的。与传统的关系型数据库应用“表”作为数据库要害实体不同,多维数据库依据表之间的关系定义多维数据模型,并以“多维模型”作为数据库的要害实体。多维模型蕴含业务维度和度量(而非列和行),构建对立的语义层,为业务指标提供繁多的数据源。基于标准化的语义定义,业务用户能够全面拉齐对业务数据的了解,有助于解决数据应用中互不信赖的痛点。 从存储的角度来看,多维数据库将以 OLAP Cube(多维立方体)的模式保留数据。OLAP Cube 会基于维度的多种组合进行聚合计算并保留计算结果,减速多维分析。数据工程师只需筹备待剖析的事实表和维度表,并将表接入多维星型或雪花模型,不再须要为每个数据利用或 BI 报表开发宽表。得益于此,数据工程师还能够通过治理 OLAP Cube 中的聚合索引来妥善治理存储的数据,让数据存储变得颠三倒四。 随着越来越多的企业上云,IT 团队正致力于寻求更无效的办法,以更低的老本满足更多的数据量和剖析需要。对云上资源而言,相较于计算和网络资源,存储资源的价格更加低廉,多维数据库采纳预计算技术构建 OLAP Cube,正是应用更为便宜的存储来节俭计算和网络资源的耗费。尤其是对于自助式 BI 剖析、数据服务 API 等利用场景,多维数据库将比关系型 MPP 数据库具备更高的 ROI。 除此之外,多维数据库中存储了易于业务用户了解的维度和度量信息。无论业务用户,还是数据分析师,都可能通过对立语义层自助地找到任何想要的数据。与此同时,数据工程师能够轻松地治理数据湖,将热门数据模型疾速辨认为最有价值的数据。 3. Kyligence 智能多维数据库Kyligence 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。Apache Kylin 是开源 OLAP 的领导者,是第一个由中国团队奉献到 Apache 软件基金会(ASF)的顶级开源我的项目,已被寰球超过 1500 多家公司作为外围大数据分析平台应用,点击「浏览原文」即可理解更多 Kyligence 客户案例。 ...

August 19, 2022 · 1 min · jiezi

关于数据管理:MDM-Master-Data-Management

Source: https://learn.ibm.com/course/... What is Master data Many entities can be mastered (as shown in the graphic), but many come together as the more generic “domains”: Party (customer, prospect, employee, supplier, agent, .etc.), Account (arrangement, contract, agreement, reward program, financial account, transaction, etc.) and Product (product, service, subscription, product bundle, Ts & Cs, Item/SKU, etc.). What is MDMMDM is: A Discipline that provides a consistent understanding of master data entities, and their relationshipsA set of Technologies that provides mechanisms for consistent use of master data across the organization, prescribed by governance policiesA set of IT Practices and Processes designed to accommodate, control and manage change in your master data assetsExample:To MDM, a rock is bumpy, gray and white, translucent, weighs 3 oz, has a diameter of 1 ½ inches and is made of quartz. ...

June 30, 2022 · 4 min · jiezi

关于数据管理:DataPipeline让数据生产力的历史进程再前进一步

明论资本对话DataPipeline:让数据生产力的历史进程,再前进一步。 当下,数据所引发的生产因素改革,正在重塑着咱们的需要、生产、供给和生产,扭转着社会的组织运行形式。对于企业来讲,其竞争的实质是在“外部环境、生产环境、供应链协同等”简单且不确定性强的市场环境下资源配置效率的竞争。数据,作为企业资源的具体表现形式和重要载体,其治理效力的高下间接决定了企业的生存能力。 随着数据技术的更新迭代和市场需求的疾速降级,数据管理在内外部作用下逐步被赋予新的责任。在技术侧,数据源的架构在变得繁多和简单,数据利用也逐步变得更加垂直和场景化,这也倒逼了古代数据架构飞速发展。在业务侧,其被要求答复:如何疾速感知市场变动、辨认潜在客户需要,如何加强决策准确性、实时性,如何构建能改革业务的数据驱动的利用等。数据管理,曾经从一项技术管理工作降级为系统工程。DataOps这样的新型数据管理办法,恰逢其时地走到台前,补救形象的“采、存、管、用”发力有余的问题。 一千个人眼中有一千种对数据管理的“设想”。明天,咱们邀请到DataPipeline的创始人兼CEO陈诚,走近DataPipeline,看这家专一于下一代数据基础设施的公司是如何帮忙企业实现基于DataOps理念的“全链路”数据管理。 * 行业变革,数据管理识变应变求变 “面对不确定性新常态,对于各行各业的企业管理者来说,如何高效地利用手头的数据,实时、准确地感知和洞察业务变动,更好地进步企业的经营效率、寻找业务的增长点是每个企业都须要面对的必修课。” ——DataPipeline创始人兼CEO陈诚 明论:在大数据行业飞速发展的明天,数据管理的重要性是各行业管理者的共识。从您的察看来看,在过来的 20 年工夫里,数据管理产生了什么变动? 陈诚:随着新的业务状态一直呈现,各行业的客户行为也产生着突飞猛进的变动,例如服务的场景化社交化、营销渠道的线上线下一体化等,这对传统的经营模式带来了微小的挑战。企业的推广获客老本、营销流量老本和签单老本越来越高,流量精准度和转化率有余,利润缓缓地被吞噬。如何高效地利用手头的数据,实时、准确地洞察业务变动,更好地进步企业的经营效率,寻找在“感知、决策、执行”上的新发力点是每个企业都须要面对的必修课。 同时,大量行业都非数字原生,其经验了漫长的业务电子化和经营线上化的信息化及数字化过程,且均围绕其各个业务板块的业务流程进行,数据逐步浸透至企业设计、生产、治理、服务和经营等的全流程。这人造地导致数据起源多样,数据结构简单,零碎之间互相割裂,数据难以互联互通,数据孤岛大量存在。 在数据根底层,业务状态的丰盛带来繁多的数据品种,例如撑持外围零碎的新型的NewSQL TP,各类支持系统、各经营类利用的场景化和SaaS化,也包含了各类IOT设施和工业协定的显著增多。同时,数据传输层相应呈现各类相匹配的数据获取形式。业务利用与数据利用的下层散布也产生了很大变动。除了传统的BI利用外,当初还呈现了更为简单且智能的嵌入式BI和加强BI。对于面向数据业务的利用,有各类基于营销、客户服务、产品迭代、风险管理等不同场景的数据驱动型利用的落地,而构建这些利用不只须要简略的业务逻辑梳理,而是须要对实体数据的探查和推演。 技术场景的疾速分化产生大量不同个性的存储与计算引擎、信创大势下优良国产根底软件涌现、业务导向下数据结构的疾速迭代、网络技术革新带来的丰盛数据源,凋敝的技术生态也在召唤更翻新的数据管理形式。 业务全场景翻新、数据量爆炸式增长且浸透度高、数据时效性需要减少、数据采集/获取/利用的复杂度晋升、异构数据技术引擎的涌现与驱动,这几个因素的加权将带来必然的数据管理理念与实际的改革。 抉择DataOps,数据生产力历史进程再前进一步“「连贯所有数据、利用和设施」是DataPipeline的使命,这个看似直白的指标,在以终为始的倒推中,开展了一张越来越纷杂的产品能力拼图。这是一个构建围绕‘流程+工具+组织’的DataOps时代,DataOps让咱们有了能力建设的‘上帝视角’。” ——DataPipeline创始人兼CEO陈诚 明论:围绕数据管理产生的这些变动,请谈谈这对于企业来说意味着什么? 陈诚:为了应答业务与数据需要的一直变动,企业外部治理理念、治理角色、管理工具也面临巨大变化。 从上世纪90年代开始,建设以行业畛域模型为主的数据仓库、数据集市以反对确定性高的报表类需要,这是数据管理的摸索期,企业经营治理刚刚开始尝试向业务为外围、数据为辅助的方向倒退。数据管理重点体现在强主题域建模、对动态元数据及主数据的治理、长周期的数据治理,参加的人员仅限于建模工程师、ETL工程师、报表工程师这种业余数据岗位。 2010年左右开始,因为互联网公司的崛起、互联网数据的爆炸,开始有了更大量的数据、更加简单和多样的数据源,以及一些特定场景的数据驱动的利用,数据的流转、存储以及治理等问题变得更加简单。在这个期间,企业关注重点转移到建设大数据平台、数据湖、数据中台、数据资产目录。从肯定水平上来说,大数据平台的初衷是心愿去颠覆数仓的,但这件事件并没有产生,企业发现这是两类需要,两种workload,都有实用的场景,多种治理状态的共生是必要的。 DataOps这一理念在 2014 年被提出,于2018年被Gartner首次纳入数据管理技术成熟度曲线中,并放弃增长态势,到2021年 DataOps 已由技术萌芽期(Innovation Trigger)爬坡靠近至高峰期(Peak of Inflated Expectations)。DataOps给数据管理提供了一条“流程+工具+组织”的落地实际新范式。DataOps理念的指标是使得企业能够通过对数据链路继续构建,像交付利用一样疾速、灵便地交付数据,并在过程中治理好数据链路的可观测性,让数据业务人员更容易地发现数据、平安地应用数据,最终达到升高TCO,进步ROI,帮忙各行各业的企业实现数字化和智能化转型的长期战略目标。 明论:DataOps的数据管理理念具体有什么特点呢? 陈诚:如何通过加强多方角色协同与麻利开发水平等,使得数据从生产端到生产端的的各个环节不要脱节,使数据管理成为一个有机整体,是将来数据管理的重要方向。DataOps是这一理念的典型代表,它有几个要害的数据管理理念变动: 第一个是数据逻辑的叠加。业务利用以流程逻辑为外围,通过麻利开发、继续集成和继续交付(CI/CD)、自动化测试和代码推广、重用和自动化等的研发能力,就能够适应广泛的迭代应用需要。而数据利用必须要思考两种逻辑,即业务逻辑和数据逻辑的叠加,很难单用业务逻辑解决,并且数据逻辑变动快得多。因而除了要把握应用逻辑的迭代办法外,还须要一套全新的对于数据逻辑迭代的办法,其中应该包含数据利用中对于业务逻辑和数据逻辑的整体考量,从而做到像交付利用一样交付数据。 第二个是数据模型的后置 。在满足绝对确定的数据仓库反对的BI/报表类需要时,这是强主题域模型驱动的,即客户对于将来这个数据需要的满足有深刻的具象化了解。因而须要依据数据模型构建ETL,使得数据在流转过程中变成满足需要的状态。然而,随着数据驱动的产品/服务/营销类数据利用越来越多,传统的主题域模型不再能提供足够的灵便度,因而,越来越多的企业不再做强建模ETL,而是转向了对于数据湖/大数据平台的建设,先将数据汇聚,并将transformation/业务建模的工作后置,造成ELT,以求更加灵便的应答疾速迭代的数据利用需要。 第三个是多种模式的涌现。随着数据利用的场景、品种、时效性要求变的越来越多,整体数据链路中的各类模式在疾速丰盛。具体表现在数据起源的多模式(业务数据库的实时CDC数据、客户端用户行为埋点数据、内部零碎API数据、工业设施数据等),数据利用的多模式(统计分析、异样检测、事件营销、量化风控等),以及必然带来的数据处理形式的多模式(数据仓库架构、大数据平台架构、通过流式计算引擎架构等) 。同时企业也意识到,基于大数据平台、流式计算引擎的数据处理模式和数仓的数据处理模式并不是代替和颠覆的关系,而是在可见的将来,会独特且长期的存在于企业的数据架构当中,并一直引入和集成更新、更加场景化的解决模式,以应答疾速变动的市场需求。在这一过程中,如何治理、保护、监控不同的数据链路和解决逻辑,是企业必须要解决的问题。 第四个是合作和自助的数据发现。在数据管理晚期,大家治理的是动态的元数据和主数据,起初开始提出数据资产目录,目前又减少了“合作和自助的数据发现”。这意味着数据管理从以前的只有数据科学家参加的数据管理,到组织里所有的人都自主参加进来,以更好地发现数据资产的变动。此外,DataOps在外部麻利合作上也有了更高的要求,要求数据流水线上各部门的人员都能麻利合作。最初,随着数据量的迅速减少,平安也成为一个重要议题。行业法律法规和企业外部风控的不断加强,都对数据安全的治理提出了更高的要求。 DataOps时代的数据工具有四个外围组件。首先是数据交融平台,这外面包含多元异构的数据流转、实时ELT、Reverse ETL等数据链路管理,第二个是贯通整个数据链路的可观测性平台,第三个是撑持数据链路继续交付的数据发现平台。第四个是保障继续交付合规平安的数据安全平台。这四个外围组件就是DataPipeline搭建的DataOps基础设施。 * 以基于DataOps理念的数据基础设施角逐世界舞台 “DataPipeline在做的是基于DataOps理念的下一代数据基础设施。目前国内还没有围绕DataOps建设古代数据管理全矩阵产品的公司,DataPipeline是第一家。咱们曾经把竞争范畴放到了世界数据管理畛域的舞台。” ——DataPipeline创始人兼CEO陈诚 明论:DataPipeline始终保持用产品化的形式解决问题,然而很多人感觉在中国非凡的商业环境下不同行业不同规模的企业面临的问题都很不一样,你是怎么看的? 陈诚:DataPipeline在做的是面向数据管理新范式的DataOps基础设施,是世界古代数据架构外围组件厂商。咱们围绕数据链路的开发与治理,提供合乎本地需要的古代数据架构外围组件,同时具备世界的能力、布局面向世界的产品。 DataPipeline要做的不仅是中国市场的No.1,也要做世界数据管理畛域最先进的公司。目前,国内软件业存在的一些短板还亟需补齐,这突出反映在软件核心技术、软件应用生态方面,国家也正在从软件大国向软件强国迈进。过来二三十年里,外围数据基础设施曾经逐渐解脱出被国外厂商把控的状态,从数据基础设施到应用软件的国产化代替将继续走高,中间件和数据库的国产化率甚至可达一半左右。DataPipeline,也在通过标准化产品服务千行百业数据翻新,这是“解答时代命题”的必然责任。 对于标准化产品,咱们必须要做到的是对产品的形象提取,否则的话就只是一个服务型的公司。在设计标准化产品时,咱们要做的不是解决某一个客户的具体需要,而是比对大量客户需要,用宏观形象的思路把这些需要做整合,设计构建一个灵便、可配置的产品构造。咱们设计的出发点是以形象的角度来思考问题,而不是只解决繁多的具象化问题。也就是说咱们在打磨产品的时候,须要比着需要的下限去工作,而不是需要的上限。尽管对于咱们来说,产品化意味着更多的工夫和老本投入,但这是建设一个数据基础设施厂商的必经之路。DataPipeline提供标准化的产品,以及能够交付合作伙伴开发的Paas平台,应用对立的可视化治理、反对云化和私有化、上线迅速、不便易用。咱们认为只有这样的产品,才可能满足不同客户疾速部署的须要。 明论:具体在面对各种不同的客户时,DataPipeline是如何通过标准化的产品解决他们不同业务需要的? 陈诚:不同类型的客户对数据使用的水平和场景会有不同。首先,以金融、电信为代表的行业较早享受到了“数据红利”,其数据管理志愿及根底能力突出。其次,数据痛点比拟明确且经营状况良好的企业,更能快适应DataOps大潮,比方金融、能源、电信行业和一些头部的世界五百强企业。这些客户自身IT程度高,数据价值密度高,盈利能力强。他们对DataOps的数据管理理念有着很高的认可度和需要,也是目前国内DataOps实际的领军企业。 咱们和某股份制商业银行的单干就是一个典型的例子。银行业能够说是对数据管理要求最高且场景最为简单的客户了,该银行是国内第一批发展数据仓库建设的商业银行,自身曾经构建了很强的批处理能力,在晚期的银行业中其数据架构上处于领先水平。随着实时反欺诈/反洗钱、数据驱动营销、服务和风控的需要一直减少,这对数据管理提出了从批量降级到实时的要求,以及对数据探查和推演的要求。DataPipeline为该客户提供了从单零碎实时到多零碎汇聚,从营销场景试点到经营决策大规模推广的多维度反对。与此同时,客户外部的数据组织架构与流程也产生了变动,各类角色参加宽泛,数据价值极大化开释,对员工能力晋升和组织稳定性也带来微小帮忙。 制造业,我国经济稳固倒退的“压舱石“,其数据管理翻新必要性曾经成为产业共识。但制造业是一个流程长、门类繁多、利用场景简单的行业,且受限于国内工业程度倒退的在先背景,该畛域的的数据管理面临较大挑战。该状态下,制造业反倒对DataOps的翻新理念需要迫切度越来越高。这些企业往往在数据管理职责散布上比拟扩散,各单元主体在接入数据类型数量、数据实时性和数据安全上有各自的差异化要求。DataPipeline服务过的某出名民营汽车企业,在十几年前曾经是行业领先地位,管理体系和IT架构在那时候逐渐建设成熟。但为应答汽车行业的继续变动,该公司在原有主营业务之外,逐渐减少了对翻新业务和翻新技术的摸索。翻新与危险并存,这对整个组织的同步和响应提出了更高的要求。客户须要将散布于工厂大脑测试零碎、新能源零碎、智能营销零碎、团体关系型数据库系统、用户满意度评估零碎等各类零碎的数据高效实时地提供到经营治理、业务剖析、物流优化等平台,以晋升生产经营及企业治理的效率及品质。在过来的两年多工夫里,DataPipeline将该客户全渠道数据买通,实现数据对经营、治理、翻新的赋能。并且,该客户旗下的汽车、生产金融业务子公司也纷纷和咱们发展单干。相应地,在公司组织上,客户的精益治理和组织外部合作上也产生了很大变动,前端业务部门、后盾反对部门、生产与研发部门造成了有机联动。 除以上举例的两个企业客户之外,像证券、保险、运营商、石油石化这类数据根底较好的行业情况与银行类客户治理个性趋同,更加看中数据继续交付过程中外围能力的继续增强。医疗、教育、环保等畛域的客户与制造业的企业客户服务教训相通,都会面临要搭建更长链条、能够满足业务与数据都端到端的IT基础设施。当然,咱们还服务一些头部的互联网、批发行业客户,他们的业务及信息化程度都比拟高,对数据管理产品的利用能力也很强,然而有着齐全不同于以上谈到的银行与制作等行业的数据特点。总之,咱们通过服务对数据管理有不同个性的行业中的典型客户,一直考核和打磨咱们的产品,欠缺咱们的各项能力,使得咱们的产品能满足各种数据管理的需要。 明论:DataPipeline的倒退方向是什么? 陈诚:随着实践经验的一直拓宽与深刻,咱们将进一步夯实多模式、自动化、自适应的数据链路管理。在此基础上,咱们也会和客户一道构建具备自动化数据链路运维及经营能力的端到端数据可观测性、满足体系运维与品质经营的可观测性要求。当然,咱们也将持续摸索基于算法的智能化数据发现和数据安全产品,帮忙客户获取数据探查、动静元数据管理、数据风险管理等能力。 过来六年,DataPipeline一直深耕全链路数据管理体系,凭借在DataOps畛域的深刻理解、策略前瞻和丰盛实际,现已造成“数据链路+数据可观测性+数据发现+数据安全”的一站式DataOps产品矩阵,笼罩了围绕“数据链路开发、治理、与平安”的一整套外围组件。该产品矩阵可使企业的端到端数据工作流自动化,改善客户在数据交付方面的体验,从而驱动其更被动的商业决策和更高效的智能化产品及服务。咱们会在DataOps这条数据管理翻新之路上一以贯之。 5月以来,咱们又陆续落定了与多家顶尖金融机构和重点畛域客户的单干。咱们十分兴奋地看到各类型的企业都在构建品种繁多、影响行业的数据利用,这一趋势使得咱们的客户遍布金融、电信、能源、制作、地产、批发、互联网、医疗、教育、环保等各行各业。为了可能更好地为各行业、各规模的客户提供翻新的企业级软件,咱们会继续通过建设笼罩数据全链路、高度标准化的产品矩阵,在DataOps理念领导下,保持技术驱动、深耕企业服务。咱们会持续以“连贯所有数据、利用和设施”为使命,帮忙更多各行各业不同需要的企业实现数字化和智能化转型的战略目标。

June 2, 2022 · 1 min · jiezi

关于数据管理:格物钛成为FinOps云成本优化产业标准生态联盟首批会员

Gartner 钻研显示:在过往,企业上云会节俭 14% 的老本,然而在 2020 年,因为不足老本优化伎俩,80% 企业的云资源老本大幅超出预算;同时,45% 的企业因为不足优化措施,在间接迁徙上云的过程中,会超买 55% 的资源,并且在上云的前 18 个月内会多花 70% 的费用。 于是,FinOps的概念应运而生。FinOps 是“Finance”和“DevOps”的综合,意为“云财务管理”,旨在通过云平台、最佳实际和文化的联合,进步组织理解云老本和进行业务衡量的能力。 近日,中国产业互联网倒退联盟、FinOps 基金会亚太区、腾讯云容器核心、格物钛智能科技等 40 家企业事业单位联结发动成立 FinOps 产业规范工作组,将致力于钻研和制订云财务管理相干规范体系, 促成企业更加高效正当地洽购和应用云服务,升高企业数字化转型过程中的心智累赘。格物钛智能科技成为FinOps产业规范生态联盟首批会员。 过来一年,寰球企业级的数据增长了42%,在所有可用数据当中,只有32%失去了无效利用。大多企业面对日益收缩的数据规模大刀阔斧,特地是图片、视频、语音等非结构化数据,他们只是用文件夹的模式把数据堆砌在本地磁盘或者云对象存储上,局部会采纳分布式文件系统和传统数据库联结存储和治理的形式,须要数据时依赖大量人工操作,不仅费时费力、更是让老本高企。 格物钛新一代数据平台帮忙企业用更低成本,换得更大规模、更高弹性的数据管理。不仅解决了治理非结构化数据及其元数据、语义数据时面临的诸多痛点,而且通过翻新技术架构设计,从根本上晋升组织可用数据的规模和复杂度,让企业在云端能够更快、更经济地获取、治理和查问数据。存算拆散的底层架构,让数据的存储老本可升高10倍;颠覆文件夹式的治理构造,并在数据层面实现无需复制即可随时调用,开释更多老本空间。 随着终端全方位感知物理世界和云的遍及,企业利用非结构化数据的场景将更为宽泛。格物钛将持续在云老本优化的路线上一直摸索,在产品上精益翻新,让企业更经济更高效地开释非结构化数据价值。 欢送拜访格物钛官网

March 30, 2022 · 1 min · jiezi

关于数据管理:格物钛智能科技CEO崔运凯数据价值跃迁洞见下一代变革力量

近日“东数西算”工程正式全面启动,数据因素的战略性位置被一起推向新高潮,如何更好地开释数据价值成为各界关注的重要议题。 “数据正在产生代际跃迁,而中国大部分企业还未沉睡。”作为数据新基建畛域的专家,格物钛智能科技创始人兼CEO崔运凯指出,随着数字化转型的深刻,非结构化数据的治理和应用将是下个时代外围命题,企业须要新一代数据平台去应答行将暴发的改革与挑战。 从结构化数据到非结构化数据 据IDC预测,寰球数据圈将从2018年的33ZB增至2025年的175ZB,中国将以27.8%的占比成最大数据圈。将来5年内,这些数据的80%是以图片、视频、语音等模式存在的非结构化数据,并将以每年60%的增速继续扩张上来。 相较于曾经被市场充沛无效应用的结构化数据,非结构化数据具备体量更大、类型更丰盛、信息维度更多、价值更低等特点,因其挑战难度大被称为“商业世界的白鲸”,带来工夫人力老本高、多维多模态数据价值开掘、平安稳固合规性等泛滥问题。 目前企业对非结构化的治理绝对原始和落后,大部分企业还停留在用传统文件夹式治理的阶段,钻研表明,他们80%的空间存储着反复的数据,工程师60%的工作工夫在进行数据搜寻,40%的数据处理工夫花在了把数据从硬盘读到内存和从内存写到硬盘上。 在格物钛近期的一项调研中,面对规模海量扩散、形式多样、关系简单且呈指数级增长的非结构化数据,近95%的AI开发者示意非结构化数据管理正面临微小挑战,治理不足卓有成效的工具,企业也面临更重大的老本压力和数据品质隐患。 数据平台的演进改革 作为新型数据基础设施建设者,格物钛智能科技看到了一个面向非结构化数据的平台级机会,信心成为这场改革的技术先锋和领头羊,开创性地为翻新企业和开发团队提供新一代数据平台反对,解决非结构化数据难发现、难治理、难利用等痛点。 要看清格物钛数据平台在当下和将来的战略意义,须要回到上一代针对结构化数据的数据平台中去了解。上一代数据平台是汇聚传统SQL数据库数据反对检索和剖析的平台,数据平台最早的状态,是操作者手动将各部门导出的Excel进行汇总,从而在更欠缺的Excel表格中开展数据分析,以辅助决策者得出最终决策。这种数据管理存在着独属其本身的局限,只能存在单机的内存中,无奈反对长时间的运作治理。 随着美国2000年前后互联网泡沫的发酵,数据库技术开始变得越来越风行,衍生出一系列软件帮忙公司各个部门更好地治理外部数据,比方HR零碎、ERP、CRM等等,逐步取代通过Excel表格记录的模式。 之后商业环境更加简单,企业在SQL数据库里积攒的数据量越来越多,须要一个平台把这些数据都会集起来,因而数据平台衰亡,Snowflake、Databricks、Elastic等公司和相干产品在2012年相继诞生。 10年后的明天这所有产生了天翻地覆的变动,基于更大规模、更大价值的非结构化数据生态将呈现更大规模的非结构化数据平台。矛头初露的格物钛或将带来革命性力量。 塑造改革新权势 格物钛数据平台,依靠自研高效数据引擎,驱动海量简单数据的灵便存取用,让AI开发和数据分析更好更快,助推AI工程化和数据资产化实际。此平台反对多维度的非结构化数据,同时可与不同的利用集成,贯通数据全生命周期,也能将数据因素价值使用到各行各业中去。 崔运凯介绍,格物钛可能帮忙企业晋升数据迁徙和数据管理两大能力。在数据迁徙上,格物钛提供更好的工具让数据流转更快,比方数据检索、可视化、版本治理、自动化等等。以主动驾驶为例,格物钛曾经帮忙局部企业实现了模型迭代效率晋升50%。与特斯拉主动训练框架“Data Engine”流程相似,从每个车端数据的收集到上云之后的所有流程,在格物钛数据平台都能够实现。通过数据采集、标注、模型部署等环节,在测试过程中辨认出长尾状况、独自测试,未通过的数据会被送到数据容器中,对数据进行增强、从新标签、训练生成模型……如此重复直至笼罩所有场景,在大量训练数据的喂养下,主动驾驶可能变得越来越聪慧。 在数据管理方面,自研数据引擎是格物钛的技术外围,有三大系统性劣势——存算拆散的架构、多维度的高效数据检索、工作流自动化,就像汽车引擎一样给数据提供能源,让它可能更好地应答海量和复杂度挑战,实现更低成本、更大规模。崔运凯以某奢华品牌车企为例,解释了如何实现多场景的简单数据管理,该企业在整车生产和用户服务的过程中产生了大量非结构化数据,但没有做任何应用或剖析,只是存储在云端造成了大量节约,格物钛帮忙该企业把所有场景数据进行交融,买通结构化和非结构化数据,实现跨部门、跨业务的数据分析和利用,最终继续带来业务价值,如汽车保险、品质管控、面向未来的产品研发等等。 “10年前,网景的创始人Marc Andreson说‘软件在吞噬世界’,而10年后的明天,我想帮他补充下半句,那就是‘数据在吞噬软件’。”崔运凯认为,寰球目前正处于非结构化数据暴发的前夕,随着终端全方位感知物理世界和云的遍及,将来非结构化数据潜能会进一步被开释,利用非结构化数据的各类场景也将更为宽泛。许多谋求继续倒退的企业,将更多高科技与智能AI退出本人的产品及策略中,他们将在格物钛的帮忙下实现跨越性的数据驱动和增值。 更多信息请拜访格物钛官网

March 1, 2022 · 1 min · jiezi

关于数据管理:DataPipeline官宣前Teradata中国区金融行业总经理黄海硕出任DataPipeline高级销售副总裁

2022年开年,DataPipeline正式官宣,公司迎来一位重量级高管:前Teradata中国区金融行业总经理黄海硕出任DataPipeline高级销售副总裁。 黄海硕,前Teradata中国区金融行业总经理,参加过简直所有Teradata金融数据仓库我的项目销售管理工作,在Teradata工作十年。他还曾先后任职寰球最大的信息技术和业务解决方案公司IBM、寰球最大的企业级软件公司甲骨文的寰球征询服务部、数据分析事业部等重要部门近十年工夫。他亲历了中国IT行业从1994年以来倒退的全副过程,是中国第一代IT行业优良职业经理人,也是相对的“IT老兵”。2021年9月,黄海硕正式出任DataPipeline高级销售副总裁。 我曾看过一段黄海硕学生早在2013年IBM技术峰会上,和《大数据时代》的作者维克托•迈尔-舍恩伯格的座谈发言视频,议题无关大数据和风细雨之势下的沉着思考,发言内容至今看来都对大数据技术倒退有一些别样的启发。 想到视频中他敏锐、自信而健谈的画面,我在心中暗暗期待接下来与他的会面。这不仅出于对一个资深领域专家的膜拜与好奇,另外也替一众职业经理生涯多年的人提问,他的经验会给予怎么不同的职业门路样板?他目前抉择的DataPipeline这家公司,到底有着怎么的吸引力? 远征者,抉择长期主义“每个人的寻梦过程都是以‘老手的运气’为开始,又总是以‘对远征者的考验’收尾。”在沟通采访问题的时候,黄海硕学生发来这样一句选自保罗·戈埃《牧羊少年奇幻之旅》的话,他说兴许能够用来总结从业36年的心路历程。 他的职业经验,简直见证了中国整个IT行业倒退的历史。1985年大学毕业就退出国家某部委从事进出口相干工作,从个别业务员做到北美区项目经理,为国家出口创汇作出重要奉献。这大大锤炼了其沟通会谈、销售能力,为今后的工作打下了坚实基础。随后,他退出某综合IT企业出任副总裁,分管中国人民保险公司(PICC)、中国人寿、新华保险、泰康人寿等大客户的IT系统集成业务。过后,金融IT业也仅刚过起步阶段,压力与挫折是常态。他说:“兴许是职业生涯最后几年造就的习惯,我会把一件事放在长期主义的角度看,金融IT业值得长线抉择。” 起初,黄海硕学生退出NCR (中国)Teradata事业部,从行业总监做起,参加过简直所有Teradata金融数据仓库我的项目销售管理工作,其中尤其以银行、证券行业客户为重,后升任金融行业总经理。之后的几年间,他先后任职寰球最大的信息技术和业务解决方案公司IBM、寰球最大的企业级软件公司甲骨文的寰球征询服务部、数据分析事业部等重要部门,波及Netezza、Oracle等产品相干业务工作,始终和数据行业打交道,曾治理中国银行、中国农业银行、光大银行、民生银行、中国人寿、中国证券注销结算公司、国家税务总局等客户我的项目。至此,他为金融IT业整整服务了近30年工夫,见证了该行业从起步到飞跃发展的整个时代。 从专员做到资深经理人,稳固的高支出、受人尊重的社会位置没有让他止步不前,他在这时说,“哪有什么功成名就可言,对远征者的考验还未进行。” 看准实时数据管理赛道,拥抱变动一个有着IT行业近30年从业教训的资深经理人被问及,为何会抉择一家年老的数据中间件公司,黄海硕学生谈道: “首先当然是看好这个行业与公司的前景。随着数据仓库、数据中台等各类技术‘引擎’的倒退和实时营销、智慧风控等利用侧需要的催化,实时数据管理成为至关重要的一环。 DataPipeline是一家中国本地公司,当初整个IT行业的倒退,本地的公司曾经逐渐走上支流航道。一是因为当初大环境利于外乡企业翻新;第二,中国当初也有很多技术、科研与治理人才涌现。 中国企业在多年IT信息化的过程中,曾经积攒了大量的数据,各行业都面临高压力的竞争态势,企业开始从粗放转向精细化经营、不仅提质更要提速,这对IT技术提出了更贴近业务的诉求。同时,丰盛业务利用催生了数据集市、数据仓库等多种类型的管理工具。该背景下,“多元异构、时效性强”的实时数据管理产品这一类创新型、交融型基础设施能力将成为每个企业的必备项,这将是一个十分大的市场。良好的气象、肥沃的土壤,加上好的种子,就能够生根发芽。对我而言,这当然是一个很好的机会。” “判断一个成长型的公司是否有机会胜利,最重要的是这家公司是否可能真正为客户带来价值。近30年的从业教训通知我,咱们是和客户一起成长的。咱们的产品成就了客户,客户也带动了咱们的成长。在过来的几十年,中国的企业不非常信赖国内的软件产品,而当初,像DataPipeline这样一家领有残缺自主知识产权的IT企业,在六年工夫内,已服务多家银行、保险、证券、电信、能源、制作、批发等业务水平与信息化程度较高的行业客户,失去包含中国民生银行、中国人寿(海内)、中国石油、吉利控股集团、威立雅、星巴克在内的诸多世界500强企业的青眼。这样的问题十分值得必定。” DataPipeline,打造数据翻新生产力作为一家国内最早布局实时数据管理的企业,DataPipeline提出“聚焦数据价值开释链路中最后一公里”、“ DataOps是逾越业务与技术、数据与场景、规模与品质等数据驱动商业改革鸿沟的无效门路。”等理念,晋升了各类IT角色的数据管理效率、高效开释数据价值。 目前,DataPipeline已买通“实时数据交融-服务-品质”全流程能力,构建起业内最欠缺的实时数据管理产品矩阵,造成了全链路实时数据资产治理业务体系。 自从入职DataPipeline,在“连贯所有数据、利用和设施”的使命和“成为中国的世界级数据中间件厂商”愿景的背地,黄海硕学生触动更深的是“深挖根源”“言出必果”等企业文化在产品利用、客户服务以及公司外部常识体系建设等的细节投射,也是公司三位合伙人在日常管理工作的理念投射。同时,他也在Forecast、Commitment、过程治理等方面给公司带来新的销售理念,并保障这些源于国外老牌企业的成熟教训能够在DataPipeline落地开花。 “好的销售是具备极大调度能力的,既有指挥千军万马的气魄,又要有躬身入局三思后行的粗疏。情商、诚恳、资源管理、工夫治理、自我管理,这都是作为一名优良销售人员必备的素养。” 对于黄海硕学生的退出,DataPipeline创始人兼CEO陈诚示意:“IBM、甲骨文、NCR是世界领先的产品创新型公司,作为在这些公司有着极丰盛销售治理教训的IT老兵,黄海硕学生的退出对DataPipeline来说意义粗浅。在数据翻新的改革中,咱们所做的事很纯正,打造具备世界级水准的实时数据管理产品,这须要一流的治理团队和产研团队去实现。联合DataPipeline在该赛道的精益且久远的布局及黄海硕学生面向金融等行业对客户的深刻洞察,置信数年内,DataPipeline将降级成为数据中间件畛域具备世界影响力的企业。” 在采访的最初,我问到黄海硕学生对于在DataPipeline工作的期待。“销售既是一门学科,又是一门艺术。包含DataPipeline在内的几十年的工作生涯中,我见过许多十分有人格魅力的共事和客户,他们是我职业倒退的不竭能源。我也在为本人IT职业生涯的一个完满收官而冲刺。”黄海硕学生如是说。

January 29, 2022 · 1 min · jiezi

关于数据管理:DataPipeline与腾讯云数据库TDSQL完成产品兼容性互认证持续建设共赢生态

近日,DataPipeline与腾讯云数据库TDSQL顺利完成产品兼容性互认证。单方联结测试结果表明:DataPipeline实时数据交融平台与腾讯云数据库TDSQL兼容良好,性能卓越,零碎运行稳固,可顺利部署并对外提供服务。将来,DataPipeline将继续建设共赢生态,为银行、保险、证券、电信、能源等各行业提供平安可信的实时数据管理产品,助力各企业组织的数智化转型。 产品认证证书 腾讯云TDSQL(Tencent Distributed MySQL)是一款分布式架构的金融级数据库产品,具备强统一高可用、分布式程度扩大、高性能、企业级平安等个性。目前 TDSQL 曾经为超过500+的政企和金融机构提供数据库的私有云及公有云服务,客户笼罩银行、保险、证券、互联网金融、计费、第三方领取、物联网、互联网+、政务等畛域。截至2021年底,外围零碎采纳腾讯云TDSQL的金融行业企业曾经超过20家,尤其在银行传统外围零碎畛域,腾讯云TDSQL位居国内数据库第一营垒。 致力于“成为中国的世界级数据中间件厂商”,DataPipeline 实时数据交融产品通过自主研发的一系列实时数据技术帮助用户无代码工作、业务导向构建数据链路,通过可视化图形配置界面在极短时间内实现实时数据管道连贯,反对多类数据库的实时增量数据捕捉,基于异构语义映射实现异构数据实时交融,帮忙用户晋升数据流转时效性,升高异构数据交融老本。 目前,DataPipeline实时数据交融产品已服务中国民生银行、中国人寿(海内)、山东城商行联盟、黑龙江省农村信用社、财通证券、国盛证券、山西证券、恒泰证券、财通证券资管、吉致汽车金融、长城汽车金融、尚诚生产金融等金融行业用户。 中国信通院公布的《2021寰球数字经济白皮书》显示,中国数字经济已达5.4万亿美元,总量跃居世界第二。以后,我国数字经济正在进入疾速倒退新阶段,新业态新模式蓬勃发展。 值得注意的是,数字经济的良性倒退始终离不开欠缺的数字经济基础设施建设。而中间件与数据库,作为IT根底软件的重要组成部分,是数据价值的外围载体,亦是构筑数字经济基础设施的重要基石。同为深耕金融行业的成熟产品,DataPipeline实时数据交融平台与腾讯云TDSQL实现产品兼容性互认证,一方面进一步适配了用户的多层次产品应用场景,联袂为用户的数据安全可信保驾护航;另一方面,DataPipeline与腾讯云TDSQL携手丰盛了根底软件产业生态,为我国数字经济的衰弱倒退贡献力量。 在信息技术利用翻新与数字经济倒退需要的双重驱动下,DataPipeline始终秉持凋谢连贯的产业生态策略,与生态搭档共建共赢。目前,除腾讯云TDSQL外,DataPipeline还实现了与华为GaussDB、OceanBase、海量数据库、TiDB、巨杉SequoiaDB、中国电信TeleDB/TelePG、HashData等若干国内支流数据库的适配。将来,DataPipeline将持续做好产品与技术自主翻新,与各畛域合作伙伴一起优势互补,为减速推动国内数字经济良性倒退一直致力。

January 27, 2022 · 1 min · jiezi

关于数据管理:DataPipeline荣登金猿奖年度榜单最具投资价值企业

近日,由国内出名大数据产业翻新服务媒体数据猿与上海大数据联盟独特推出的《2021大数据产业最具投资价值企业》榜单公布,DataPipeline凭借持重的产品体现、引领性的技术实力、百余家付费用户的实战经验及远超同行的增长速度从数百家企业中怀才不遇,荣登年度榜单。 作为实时数据管理畛域最早批布局者,DataPipeline自成立以来,通过外围产品DataPipeline实时数据交融平台及自主研发的一系列实时数据技术,助力企业与组织实现数字化翻新。DataPipeline面向银行、保险、证券、电信、能源、制作、批发等业务水平与信息化程度较高的行业客户,现已失去包含中国民生银行、中国人寿(海内)、中国石油、吉利控股集团、威立雅、星巴克在内的诸多世界500强企业的青眼。截至2021年5月,公司已取得来自金沙江创投、经纬中国、百度风投、峰瑞资本、清流资本共计四轮的投资。 01勤于思,产品技术攻坚迭代DataPipeline企业级实时数据交融平台,通过基于日志的增量数据获取等多种实时数据技术,帮助客户构建以业务指标为导向的数据链路。平台不仅反对数据迁徙、利用数据集成、主数据管理、业务剖析、ETL和数据品质等数据利用场景的数据获取与集成,同时它还提供将实时数据加载到ODS或者数据仓库中,帮忙企业加强业务敏捷性和要害报表时效性的卓越能力。除了撑持传统数据利用场景,DataPipeline实时数据交融产品还能够间接将数据散发到Apache Kafka、Hive及HDFS等大数据平台,撑持企业的事件驱动营销、大数据分析及业务数据交换等各类场景。 DataPipeline将技术视为翻新和倒退的源能源,因而对于技术,公司不满足于现状,而是致力于冲破翻新、引领将来。DataPipeline外围产品企业级数据交融平台在零碎稳定性、可管理性、扩展性、灵活性方面通过了重复验证,在零碎性能指标、架构设计的专业性与技术先进性上均失去了客户的认可,产品实力体现为:基于日志的实时增量数据获取技术保障实时数据全面、精确;应用分层治理、按需服务的配置型平台来晋升 IT 麻利开发效率;通过高容错的分布式系统和卓越的性能来升高危险;应用专业化商业套件来升高根底平台研发老本。平台齐全满足金融等行业高性能、高可用、高稳固、高可控等的能力诉求。 02敏于行,实时数据管理实战派面对不同行业的实时数据利用需要,DataPipeline企业级实时数据交融平台都能以专业化产品升高企业搭建根底平台的研发老本与运维老本,晋升数据利用的效力,满足客户的业务需要,高效解决企业数据管理中“最后一公里”的问题。因而产品失去客户的颇高认可。 抉择DataPipeline数见科技作为合作伙伴共同完成实时数据同步管道组件的施行,次要起因为:一是,目前金融行业进入了一个基础设施疾速迭代的期间,民生银行也正在踊跃验证引入各类开源和商业化根底组件满足数据方面需要,DataPipeline数见科技是一家专一于提供企业级异构数据交融解决方案的公司,可能继续跟进行业内计算资源、操作系统、数据库、中间件等方面的变动,继续对合作伙伴的需要进行反对;二是,DataPipeline企业级实时数据交融平台的性能和性能,可能很好地满足民生银行以后在实时数据预处理和同步方面需要,产品除了反对丰盛的数据源,在工作的资源管制、状态监控、异样解决和复原等方面设计正当,易于与行内已有数据管理和集中监控系统集成。以DataPipeline产品为根底,绝对基于开源组件自研的计划能够减速我的项目施行、降低成本。 大数据管理部技术专家钟行中国民生银行DataPipeline助力山东省城商行联盟构建的企业级数据库准实时数据采集零碎对于推动其实现数字化转型、数据规范化和集约化治理、赋能企业经营及加强其长久外围竞争力具备重要意义。DataPipeline可实现数据的秒级实时采集,产品具备对立易用的人性化操作界面,丰盛的配置策略可实现对资源的高效充分利用,产品同时具备标准化遵循与前瞻性判断前提下的凋谢可扩展性,当然最重要的是其金融级的稳固高容错能力。——【山东城商行联盟】外围运维组技术专家倪俊甜 现在,数字化转型曾经成为油气行业降低成本、更快更好地做出决策、提高效率的重要抓手之一。DataPipeline企业级实时数据交融平台的胜利上线,为勘探开发幻想云平台提供了核心技术反对。平台在异构数据库的反对方面体现尤为突出,兼容咱们数十种数据库治理技术,实现了勘探开发数据的对立采集、集中管理与共享利用,极大地晋升了咱们数据工程师和勘探开发生产科研工作效率,为中石油打造国内一流能源企业奠定了松软的根底。将来单方将在更多场景进行摸索,推动更多实时利用落地。——中国石油 销售易携手DataPipeline合力构建的实时数据交融平台,实现了实时数据的采集、交融与同步,平台具备多种数据源的便捷接入能力,在异构数据实时同步的准确性、零碎的稳定性、易用性、安全性方面很好地满足了需要。——【销售易】研发高级副总裁刘志强 03精于业,对赛道继续专一若干年前,一个来自谷歌、Yelp、亚马逊、IBM、甲骨文、中科院等国内外知名企业人员组成的团队抉择了数据中间件——这一勇敢者的赛道。目前,DataPipeline已成为赛道中规模最大、笼罩优质客户最广的头部企业之一,将来也将判若两人保持技术驱动、深耕企业服务,减速构建中国的世界级数据中间件产品。 企业数据的实时高效交融、随需服务及精确剖析是企业提高效率和竞争力的要害。以CEO陈诚为外围的DataPipeline团队,具备一流的技术背景,以及一流的用户口碑,产品和服务备受市场好评,为寰球各行业企业信息化转型提供了必要的基础设施及构建竞争壁垒的价值。在将来的To B 市场中,DataPipeline将无疑是这个畛域的佼佼者。——【金沙江创投】主管合伙人张予彤 咱们十分看好数据时代下,一流产品守业公司的商业机会。DataPipeline有着一流技术背景,以及一流的客户口碑,取得了民生银行、中国人寿(海内)、中国石油、金风科技、星巴克等相当多金融、能源、批发等行业的标杆客户,客户数和支出都在高速健康成长,咱们十分看好公司的前景。——【经纬中国】合伙人熊飞 “交融”的表象是数据流转,基本是价值在企业外部传导的过程,助力数据交融与共享的“链路构建”是企业数字化转型的必经之路。将来,DataPipeline将持续保持技术驱动、深耕企业服务,以全面的实时数据管理产品助力企业在新的竞争中取得先机,实现翻新倒退。

January 27, 2022 · 1 min · jiezi

关于数据管理:吉利集团携手DataPipeline两周年让实时数据管理平台厚起来

1月12日,国务院印发《“十四五”数字经济倒退布局》(以下简称:布局)。布局指出,“要秉持‘保持利用牵引、数据赋能’的根本准则,反对有条件的大型企业打造一体化数字平台,强化全流程数据贯通,放慢全价值链业务协同。” 数据因素价值和智能交融基础设施在布局中屡次被重点提及,成为数字经济深入倒退的外围引擎。 显然,深谙其中之道的吉利团体未然在该方面走在相对的前列。1月6日,吉利汽车控股有限公司(HK.0175)颁布:间断五年蝉联中国品牌乘用车年度销量冠军,吉利汽车2021年总销量132.8万辆。这与其保持以数据驱动智能决策能力,晋升企业整体运行效率和产业链上下游协同效率密不可分。 DataPipeline有幸与吉利团体独特携手走过2周年,以实时数据交融平台能力为推动吉利团体数据流动性治理、加强其长久外围竞争力奉献价值。 吉利控股集团始建于1986年,2021年《财产》世界五百强排名第239位,这是其间断第十年位列《财产》世界500强,是其中惟一上榜的中国民营汽车集团,也是英国品牌评估机构Brand Finance公布的寰球汽车品牌组合价值TOP10中惟一的中国汽车集团。公司业务涵盖乘用车、商用车、出行服务、数字科技、金融服务等。 近年来,面对寰球疫情的影响以及汽车产业的粗浅改革,吉利团体在确保主营业务高质量持重倒退的同时,积极探索翻新技术,开辟硬核科技生态。以上,对数据资产的流动性治理提出了十分高的要求。 早在2019年初,吉利团体就与DataPipeline达成单干,启动以DataPipeline企业级实时数据交融平台为外围的实时数据管理体系。随着吉利团体数据利用的深刻,各业务单元一直提出更简单的实时数据加工需要,新需要应用场景继续扩大、交付效率继续放慢。鉴于过来两年高效稳固的产品体验,吉利团体在2022新的一年抉择持续扩充与DataPipeline的单干规模。 客户须要将散布于工厂大脑测试零碎、新能源零碎、智能营销零碎、团体关系型数据库系统、用户满意度评估零碎等的数据高效提供到数据管理、实时剖析、物流优化等平台,以晋升生产经营及企业治理的效率及品质。采纳基于日志的增量数据获取等技术,DataPipeline为吉利团体智能制作、智慧营销、客户服务等实时利用场景提供各类数据管理技术秒级提早的实时数据采集与散发,买通了Oracle 11G、Oracle 12C、SQL Server、MySQL 5.7、Hive等数据库治理技术。 DataPipeline帮助吉利团体从平台、数据、利用三个方面打造企业级实时数据管理核心,买通数据资产价值链,建设起高效可视化的实时数据管理体系。 实时数据交融平台治理架构 在批流一体、多元异构的产品力根底上,DataPipeline实时数据交融产品采纳全页面化配置,其分层治理、按需服务的平台个性,可晋升IT麻利开发效率,轻松实现零代码交付。这为数据利用提供更多的自主性,使用户能够将数据获取的范畴、数据工作的生命周期、系统资源投入的多寡等权限更多地交给理论应用数据的业务部门及利用开发人,从而在业务需要变动时从容应对,减速达成数字化转型指标。同时,平台所有组件均反对高可用,容器化部署,平滑、灵便的动静扩缩容,容许将不同的计算工作重散布到不同的节点下来,而不障碍其它局部的运行,保证数据节点的平安稳定性、业务连续性。 “技术始终是吉利的第一属性。”吉利汽车集团CEO淦家阅在2021年10月“智能吉利2025”策略公布流动中示意。这与DataPipeline“保持技术驱动”的企业文化高度符合。将来,单方也将持续摸索各类实时数据利用场景,把实时数据管理平台做“厚”做强,以数据流促成生产、调配、流通、生产各个环节高效贯通,推动数据技术产品、利用范式、商业模式和体制机制协同翻新。

January 27, 2022 · 1 min · jiezi

关于数据管理:DataPipeline携手世界五百强地产企业提升数据流动性释放新动能

别问时代与谁同行,至多它从不为开通人而停。 这是某世界五百强地产企业2021年初召开年度工作会议的“开卷语”。数字经济时代下,施展数据创新能力、赋能业务倒退,也是该地产领军企业锐意进取的重点所在。客户抉择与DataPipeline独特构建实时数据交融平台,转变传统的经营理念和治理形式、高效灵便地应答疾速变动的外部环境,携手两周年交出称心答卷。 该世界五百强地产企业创立近30年,业务遍布全国100余个城市,涵盖地产开发、商业经营、租赁住房等多个主航道业务。公司间断9年获“中国房地产开发企业综合实力10强”,并入选2021年《财产》世界500强。 在商业地产方向,该客户聚焦几大外围品牌实现全国一二线市场布局。截至2021年,其已停业商场达超过60座,整体出租率98%,单干品牌与商户超5,000家。这几大外围品牌,作为与超1200万会员产生情感链接的欢畅入口,该如何在数字化加持下,让逛街成为一种更加沉迷多元的场景体验?客户亟需将入驻商家、客流、会员与积分、物业工单、停车、监管等企业内外线上全渠道数据的买通,从而实现团体的商业资产经营智慧决策。其对数据实时性要求日益增高,原有按天进行批量数据同步的形式已无奈满足业务经营和经营治理需要,全方位的实时数据管理成为其关注的重点。 实时数据交融平台架构图 该世界五百强地产企业抉择DataPipeline企业级实时数据交融平台来进行实时数据的对立高效治理: 实时解析日志解决实时增量需要 买通MySQL、MS SQL Server、Kafka等数据管理技术,在增量的辨认上让用户彻底不必关怀 EL 的局部,分心在 T 和数据的治理上。 自适应的 schema change 当数据结构常常变动时,须要人员保护,沟通和施行工夫较长。自适应的 schema change 能够高效解决这些问题。 麻利运维,高效治理 通过可视化治理页面和配置式构建数据链路,可定时申请,对立监控数据流、数据节点、系统资源等,晋升数据链路管理能力,实现数据不统一的及时修复,升高运维难度。 该兼容与凋谢的数据交融平台,实现物业、商家、用户与公共服务全过程数字买通,助力打造智慧化空间。同时,该平台通过数据更好地连贯消费者与商业,为其业态预判、营销投放等地产业态场景提供高效的翻新基础设施底座能力撑持,让客户把更多经验投入到商业我的项目的麻利洞察和被动决策中去。 地产从高速增长到高质量增长,向科技要红利,寻找下一个十年持续增长的第二曲线成为房企共识。2020年,在疫情对线下实体的强烈冲击下,该客户仍然实现了10余座商场如期停业的问题。这背地离不开其对于科技翻新的深度实际。 将来,DataPipeline将与地产行业各企业更加紧密配合,以实时数据管理能力晋升数据流动性、开释新动能,助力其数字化转型降级更上新台阶。

January 18, 2022 · 1 min · jiezi

关于数据管理:让美势不可挡DataPipeline助力全球知名化妆品企业数字化营销再提速

近日,DataPipeline帮助某寰球出名化妆品企业构建的企业级实时数据交融平台正式投入使用。该项目标施行对于推动客户实现数字化转型、数据规范化和集约化治理、赋能企业经营及加强其长久外围竞争力具备重要意义。 该寰球出名化妆品企业1963年诞生,通过近60年的倒退,在五大洲的近40个国家和地区开展业务,领有数百万名独立销售队伍,以翻新前沿的护肤、彩妆及营养品而享誉寰球,年销售额达数十亿美元。自1995年进入中国,该客户逐渐实现了全国性的业务布局,并在浙江省杭州市建设了美国以外惟一的海内生产核心。公司中国区已领有3个子品牌、200多款产品,其倒退曾经超过了其所有寰球市场,跻身中国化妆品品牌市场份额头部公司之列。 近两年,面对疫情、国产化妆品崛起、更加善变的生产群体以及一直回升的综合老本等挑战,客户中国区营收却在逆势增长,这与其保持数字化转型策略密不可分。为了应答挑战,公司中国区通过布局线上业务、倒退数字化工具等一整套解决方案使其在化妆品市场怀才不遇。其中,IT零碎满足业务端取数的实时性和丰富性等能力要求日益增长。为了高效反对营销、营运等业务部门的360度用户画像剖析、实时营销、全渠道营销、个性化营销、美容参谋治理、销售报告等实时数据利用场景,公司须要实现营销零碎、美容参谋零碎等零碎产生的数十亿条数据的整合,其中包含了MySQL、SQL Server、AWS Redshift内的多种数据库治理技术。 实时数据交融我的项目架构图 该客户中国区大数据部门负责人示意: “ 在上线DataPipeline实时数据交融平台之前,销售报告须要数周的筹备工夫,而当初只需几分钟即可实现,并且保障最新的数据出现。其次,通过DataPipeline平台,咱们的分析师不再须要破费大量工夫来关注数据的时效性和准确性,而是能够把经验放在更多有价值的洞察剖析上。具体实例,公司分析师通过实时数据分析发现某款产品在特定区域最受欢迎,通过高频的产品组合优化,公司均匀订单价进步了15%。最初,因为DataPipeline的实时同步数据效率高,管理层通过按需实时取数,能够灵便应用数据分析做出理智的战略决策。DataPipeline企业级实时数据交融平台实现了企业级实时数据的采集、交融与同步,为公司中国区的生产效率、经营治理都提供了极大地帮忙。” DataPipeline 实时数据交融产品通过多种实时数据技术,反对宽泛的数据节点类型,帮助客户构建以业务指标为导向的数据链路,按需疾速定制、部署、执行数据工作,以反对从传统数据处理到实时数据利用的各类场景。 DataPipeline企业级实时数据交融平台 ▶ 数据全面精确 对支流关系型数据库、大数据平台及国产数据库反对继续投入。采纳基于日志的增量数据获取技术(Log-based change data capture),为各类数据翻新利用、数据中台、主数据管理、数据仓库、大数据平台,提供实时、精确的数据变动。▶ 治理麻利智能 产品形象为“数据节点、数据链路、交融工作及系统资源四个根本逻辑”,无代码工作、业务导向构建,实时数据需要的研发交付工夫从2周缩小为5分钟。零碎提供限度配置与策略配置两大类十余种高级配置,以轻松应答简单的实时数据运行时场景需要。▶ 链路稳固高容错 所有组件均反对高可用,容器化部署,平滑、灵便的动静扩缩容。通过分布式引擎保障整个零碎的可用性和数据完整性,另外针对同城、异地灾备环境,数据容灾和利用容灾的不同要求给出切实计划。将来,随着该客户新的产品线拓展、绿色生产及可继续化发展等要害畛域中的一直摸索与实际,实时数据交融的价值将进一步凸显。DataPipeline作为业余企业级软件服务商,将与客户严密单干,以高效实时数据管理能力晋升企业经营和管理效率。 点我理解DataPipeline更多信息并收费试用

December 19, 2021 · 1 min · jiezi

关于数据管理:开箱即用用这个模板快速统筹企业车辆安排

简介: 【开箱即用的模板应用系列教程】将会手把手教给大家如何疾速启用钉钉宜搭提供各类模板。明天第三讲,介绍《车辆管理系统》的模板启用。1. 应用场景车辆管理系统次要为企业兼顾车辆的安顿,从而合理配置资源; 接下来就让咱们一起来学习模板核心的车辆管理系统吧; 宜搭车辆管理次要实现的性能如下图所示: 2. 启用模板2.1 咱们先点击链接关上模板页面https://www.aliwork.com/newApp.html#/template/TPL\_AL33PAPO4ALE3MDHF1VV?\_k=y554ko 2.2 启用模板 2.3 启用之后,零碎会主动跳转到该模板利用的后盾编辑页面进入之后能够看到右边是分组治理,右上角有个上线,能够先点击上线,不然有些利用是无奈失常应用的 3. 利用表单阐明该利用大多表单只展现了数据管理页,其余表单页面都是暗藏的,能够本人自定义暗藏还是显示,门路:鼠标移到表单上,有个设置按钮,点击显示或暗藏 3.1 根底信息(分组)(1)车队信息(数据管理页面)点击新增即会跳转到车队信息-新增(表单页面)表单,去提交新的数据,(以下表单均如此); 该车队信息页面能够去查问新增车队的信息 (2)油卡信息(数据管理页面) 能够查问油卡以及所属车队油卡等信息 (3)车辆信息(数据管理页面)能够查看车辆信息或者新增车辆 (4)车辆配件信息(数据管理页面)能够查看车辆配件信息或者新增配件信息 (5)驾驶员信息(数据管理页面)能够查看驾驶员或者新增驾驶员信息 3.2 用车治理(分组)(1)用车申请(数据管理页面)须要应用车辆人员提供相干信息申请车型,相干审批人批准后进行车辆调配 (2)还车注销(数据管理页面)偿还车辆时须要注销的信息以及新增偿还记录等 (3)车辆费用(数据管理页面)查看车辆费用信息或者新增车辆费用信息 3.3 加油治理(分组)(1)油卡充值(数据管理页面)充值油卡的相干信息和新增油卡的相干信息 (2)汽车加油注销(数据管理页面)查问或新增加油汽车以及工夫 3.4 维保治理(分组)(1)车辆维保申请(数据管理页面)查问或新增车辆培修爱护等信息 (2)维保取车注销(数据管理页面)查问或新增曾经培修过的车辆信息,查看培修的车辆费用信息 3.5 年检保险(分组)(1)车辆年检注销(数据管理页)查问或者新增车辆每年的查看的注销信息 (2)车辆保险注销(数据管理页)查问或新增车辆保险的注销 3.6 违章事变(分组)(1)车辆事变注销(数据管理页)查问或者新增事变车辆的注销信息 (2)车辆违章注销(数据管理页)查问或新增违章车辆的注销信息 3.7 车辆报表展现车辆类型以及车队的信息 3.8 驾驶员信息展现驾驶员信息 3.9 统计报表(分组)对车辆信息的统计、对驾驶员出车状况的统计、对部门出车的统计、对违章车辆的统计、对事变车辆的统计 欢送钉钉扫码关注“宜搭”服务窗 理解更多宜搭产品培训、最新性能和客户案例 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

July 28, 2021 · 1 min · jiezi

关于数据管理:开箱即用用模板快速生成客户意见反馈表

简介:【开箱即用的模板应用系列教程】将会手把手教给大家如何疾速启用钉钉宜搭提供各类模板。明天第二讲,介绍《客户意见反馈表》的模板启用。 【开箱即用的模板应用系列教程】将会手把手教给大家如何疾速启用钉钉宜搭提供各类模板。明天第1讲,介绍《客户意见反馈表》的模板启用。 在日常业务经营中,咱们常常须要和客户互动沟通的环节,晚期,企业通常会注意下一个邮件地址:让用户通过Email的形式来反馈本人的意见建议。当初通过钉钉宜搭的《客户意见反馈表》模板,咱们能够疾速上线一个利用,收集客户意见,还能通过数据看板来进行意见剖析。明天就让咱们一起来学一下,如何启用这个模板,上线企业专属的客户意见反馈表吧!_(__开箱即用_《客户意见反馈表__》点击即可) 启用模板1、咱们先点击链接关上模板页面https://www.aliwork.com/newApp.html?spm=a1z8c1.13664159.0.0.1a3a6ddbgAuyUw#/template/TPL\_TN6O2YC6Z0Y2MLU1XW4P?\_k=12c9zf 2. 启用创立利用名称,点击确定,进入利用首页。 配置阐明1. 新建一个自定义页面能够抉择须要的模板或者跳过间接进入编辑页面(我这里抉择工作模板1为例) (1)增加容器、布局容器等组件进入编辑页面能够把不须要的组件都删掉,先拖拽一个容器,再拖拽一个布局容器,在布局容器里再拖拽一个分组组件,能够批改分组题目。再分组组件里再放一个容器,容器里放入两个链接块,每个链接块里再各自放入一个容器,容器外面能够放图片和文本。通过左上角的纲要树能够查看页面布局状态,左边的款式能够设置宽高以及居中等属性。 (2)设置文本想要设置文本跟图片有距离,须要设置文本的 margin 属性 (3)通过自定义页面去跳转到其余表单页面找到纲要树外面的链接块,找到左边的属性,抉择内部链接,设置链接地址,这里的地址就是须要跳转的页面的地址,复制的是这里的地址 这个时候,咱们能够通过首页的设置里的分享,去开启一个免登拜访的性能,这样就实现了访客也能够参加到这个反馈意见当中。 可参考利用分享的文档:https://www.yuque.com/yida/support/sstrtz 2. 创立一个报表页面(1)首先拖拽一个日期筛选组件,设置数据集,值,以及默认值 (2)再去拖拽一个筛选组件,设置筛选组件的数据集和值 (3)接着在上面页面中放入分栏组件,在分栏组件里放入表格和新饼图两个组件,能够使查看更不便报表页面的纲要树在右侧,间接查看或者选中更便捷 (4)选中表格组件,设置抉择数据集,把收集到的数据和表格去联动起来,通过条件筛选来展现数据 (5)饼状图同样如此,设置绝对应的条件展现进去,最初点击保留 通过这样简略的批改,一个简略的HR服务中心就能够快捷上线了。去PC端点击开启《客户意见反馈表__》模板体验一下吧! 附录:利用中的表单阐明1. 首页(自定义页面)该页面是自定义页面,展现了该利用模板的客户意见治理,别离是意见反馈、数据分析 2. 意见反馈(表单页面) 3. 意见反馈治理页面(数据管理页) 4. 统计(报表页面) 欢送钉钉扫码关注“宜搭”服务窗 理解更多宜搭产品培训、最新性能和客户案例 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

July 7, 2021 · 1 min · jiezi

关于数据管理:开箱即用用模板快速上线一个HR-服务中心

简介: 【开箱即用的模板应用系列教程】将会手把手教给大家如何疾速启用钉钉宜搭提供各类模板。明天第一讲,介绍《HR 服务中心》的模板启用。 【开箱即用的模板应用系列教程】将会手把手教给大家如何疾速启用钉钉宜搭提供各类模板。明天第1讲,介绍《HR 服务中心》的模板启用。 HR服务场景是大多数企业在治理中遇到的高频场景,钉钉宜搭提供了一个收费的《HR 服务中心》模板。明天就让咱们一起来学一下,如何启用这个模板,疾速上线企业专属的HR 服务中心吧。_(__开箱即用_《__HR 服务中心__》点击即可) 性能场景介绍钉钉宜搭的《HR 服务中心》次要实现的性能如下图所示: 从性能图咱们能够看到,《__HR 服务中心__》提供了包含办公地址保护、员工信息保护、工单类、档户类、证实类等员工自助服务; 启用模板1、咱们先点击链接关上模板页面https://www.aliwork.com/newApp.html#/template/TPL\_UFJEF7C73C0FX1KPL2IB?\_k=skcmp7 2、启用 启用之后,零碎会主动跳转到该模板利用的后盾编辑页面 批改表单内容1. 怎么批改表单中一些开具条件及阐明呢(1)可依据各地不同进行批改,并且须要批改展现的图文组件链接 门路:表单 >> 右侧编辑 >> 点击该阐明组件(图文组件)>> 设置高级内容如图所示: (2)进入设置高级内容页面,如下图抉择其中一项,并配置超链接 (3)批改链接以及显示内容 2. 更新表单信息员工信息更新之后能够通过配置业务关联规定来对信息表进行更新 门路:信息更新表单 >> 流程 >> 设置 >> 节点提交规定 >> 新建 >> 关联操作 通过这样简略的批改,一个简略的HR服务中心就能够快捷上线了。点击开启《HR 服务中心》模板体验一下吧! 附录:利用中的表单阐明在《HR 服务中心》中咱们有丰盛的利用表单,上面做简略的表单阐明: 1. 办公信息(分组)(1)办公地址(表单页面) 蕴含办公点名称,地址以及联系电话,其中地址为地址组件 (2)办公地址治理页面(数据管理页) 2. 员工信息(分组)(1)信息录入(表单页面) (2)信息录入治理页面(数据管理页) (3)信息更新(流程页面) 3. 工单类(分组)(1)征询业务注销(流程页面) 社保公积金可间接关联底表社保公积金分类表 (2)社保公积金分类(表单页面) ...

July 5, 2021 · 1 min · jiezi

关于数据管理:数据管理业务数据清洗落地实现方案

一、业务背景在零碎业务开发的过程中,都会面临这样一个问题:面对业务的疾速扩大,很多版本在过后没有工夫去全局思考,导致很多业务数据存储和治理并不标准,例如常见的问题: 地址采取输出的形式,而非三级联动;没有对立治理数据字典获取接口;数据存储的地位和结构设计不合理;不同服务的数据库之间存在同步通道;而剖析业务通常都是要面对全局数据,如果呈现大量的上述情况,就会导致数据在应用的时候难度十分大,随之也会带来很多问题:数据扩散不标准,导致响应性能差,稳定性低,同时进步治理老本。 当随着业务倒退,数据的积淀越来越多,应用的难度就会陡增,会导致在数据分析之前,须要大量工夫去荡涤数据。 二、数据荡涤概述1、根本计划 核心思想: 读-洗-写入业务库继续服务;读-洗-写入档案数据资产库;业务数据荡涤实质上了解起来并不难,即读取待荡涤的数据源,通过荡涤服务规范化解决后,再把数据放到指定的数据源,然而实际操作起来相对叫人眼花撩到。 2、容器迁徙数据存储的形式自身就是多种抉择,荡涤数据要面对的第一个问题就是:数据容器的迁徙; 读数据源:文件、缓存、数据库等;长期容器:荡涤过程存储节点数据;写数据源:荡涤后数据注入的容器;所以荡涤数据的第一步就是明确整个流程下要适配多少数据源,做好服务的根底功能设计与架构,这是撑持荡涤服务的根底; 3、结构化治理读取的荡涤数据可能并不是基于库表治理的结构化数据,或者在数据处理过程中在两头长期容器存储时,为了不便下次操作取到数据,都须要对数据做简略的构造治理; 例如:通常读取文件的服务性能是很差,当数据读取之后在荡涤的过程中,一旦流程中断,可能须要对数据从新读取,此时如果再次读取文件是不合理的,文件中数据一旦读取进去,应该转换成简略的构造存储在长期容器中,不便再次获取,防止重温解决文件的IO流; 常见数据结构治理的几个业务场景: 数据容器更换,须要重组构造;脏数据结构删除或者多字段合并;文件数据(Json、Xml等)转构造;留神:这里的构造治理可能不是单纯的库表构造,也可能是基于库表存储的JSON构造或者其余,次要为了不便荡涤流程的应用,以至最终数据的写入。 4、标准化内容标准化内容则是数据荡涤服务中的一些基本准则,或者一些业务中的标准,这块齐全依据需要来确定,也波及到荡涤数据的一些根本办法; 于业务自身的需要而言,可能常见几个荡涤策略如下: 基于字典对立治理:例如常见的地址输出,如果值浦东新区XX路XX区,这样要荡涤为上海市-浦东新区-XX路XX区,省市区这种地区必定是要基于字典形式治理的表,事实上在零碎中很多字段属性都是要基于字典去治理值的边界和标准,这样解决之后有利于数据的应用、搜寻、剖析等;数据分析档案化:例如在某个业务模块须要用户实名认证,如果认证胜利,基于手机号+身份证所读取到的用户信息则是变动极小,特地是基于身份证号合成进去的相干数据,这些数据则能够作为用户档案数据,做数据资产化治理;业务数据结构重组:通常剖析都会基于全局数据来解决,这就波及到数据分分合合的治理,这样可能须要对局部数据结构做搬运,或者不同业务场景下的数据结构做合并,这样整体剖析,更容易捕捉有价值的信息数据;然对于数据荡涤自身来说,也是有一些根本策略: 数据根底构造的增、删、合并等;数据类型的转变,或者长度解决;数据分析中数值转换、缺失数据补救或抛弃;数据值自身的规范化解决,修复等;对立字符串、日期、工夫戳等格局;在数据荡涤的策略中并没有一个标准化的标准,这齐全取决数据荡涤后的业务需要,例如数据品质差,重大缺失的话可能间接抛弃,也可能基于多种策略做补救,这齐全取决于后果数据的利用场景。 三、服务架构1、根底设计 通常在数据荡涤的服务中,会围绕数据的读-洗-写根本链路来做架构,各个场景自身并没有过于简单的逻辑: 数据源读取 数据源读取两面对两个关键问题之一:适配,不同的存储形式,要开发不同的读取机制; 数据库:MySQL、Oracle等;文件型:XML、CSV、Excel等;中间件:Redis、ES索引等;另一个关键问题就是数据读取规定:波及读取速度,大小,先后等; 如果数据文件过大可能要做切割;数据间如果存在时序性,要分先后读取;依据荡涤服务解决能力,测评读取大小;2、服务间交互事实上服务间如何交互,如何治理数据在整个荡涤链路上的流动规定,须要依据不同服务角色的吞吐量去考量,根本交互逻辑为两个:直调、异步; 直调:如果各服务节点解决能力雷同,采纳直调形式即可,这种形式流程比较简单,并且能够第一工夫捕捉异样,做相应的弥补解决,但实际上荡涤服务要解决的规定十分多,天然要耗时很多;异步:每个服务间做解耦,通过异步的形式推动各个节点服务执行,例如数据读取之后,异步调用荡涤服务,当数据荡涤实现后,在异步调用数据写入服务,同时告诉数据读服务再次读取数据,这样各个服务的资源有开释的空隙,升高服务压力,为了提高效率能够在不同服务做一些预处理,这样的流程设计尽管更正当,然而复杂度偏高。数据的荡涤是一个粗疏且消耗精力的活,要依据不同需要,对服务做继续优化和通用性能的积淀。 3、流程化治理对数据荡涤链路做一个流程治理非常有必要,通常要从两个方面思考:节点状态、节点数据; 荡涤节点:这是重点记录的节点,如果荡涤规定过多,分批解决的话,对于每个要害流程解决胜利后的数据和状态做记录尤其重要; 读写节点:依据数据源类型选择性存储,例如文件类型; 转发节点:记录转发状态,常见胜利或者失败状态; 对于要害节点后果记录,能够在荡涤链路失败的时候疾速执行重试机制,哪个节点出现异常,能够疾速构建从新执行的数据,例如读取文件A的数据,然而荡涤过程失败,那么能够基于读节点的数据记录疾速重试; 如果数据量过大,能够对解决胜利的数据进行周期性删除,或者间接在数据写胜利之后间接告诉删除,升高保护荡涤链路自身对资源的适度占用。 4、工具化积淀在数据荡涤的链路中,能够对一些工具型代码做继续积淀和扩大: 数据源适配,罕用库和文件类型;文件切割,对大文件的解决;非结构化数据转结构化表数据;数据类型转换和校验机制;并发模式设计,多线程解决;荡涤规定策略配置,字典数据管理;数据荡涤的业务和规定很难一概而论,然而对荡涤服务的架构设计,和链路中工具的封装积淀是很有必要的,从而能够集中工夫和精力解决业务自身,这样面对不同的业务场景,能够更加的疾速和高效。 5、链路测试数据荡涤的链路是比拟长的,所以对链路的测试很有必要,基本上从两个极其状况测试即可: 缺失:非必要数据之外全副缺失;残缺:所有数据属性的值全存在;这两个场景为了验证荡涤链路的可用性和准确性,升高异样产生的可能性。 浏览标签 【Java根底】【设计模式】【构造与算法】【Linux零碎】【数据库】 【分布式架构】【微服务】【大数据组件】【SpringBoot进阶】【Spring&Boot根底】 【数据分析】【技术导图】【 职场】

June 9, 2021 · 1 min · jiezi

关于数据管理:COSBrowser-iOS-版-如何不打开-App-查看监控数据

您是否有遇到这样的场景?当须要实时查看存储监控数据、查看某个存储桶的对象数量,又或者想理解某一个存储类型文件的下载量在以后与前一天的比照状况,是上涨了还是降落了,这时您是否也在经验频繁的关上敞开 App?如果说咱们把须要查看的数据间接放到桌面上,解锁手机屏幕就能够间接看到咱们想要的,是不是很不便呢? 正如题目所形容的那样,明天咱们要介绍的就是在装置了 iOS 版 COSBrowser App 后如何实现在不关上 App 的状况下,即时查看咱们的监控数据,并且通过配置展现咱们想要的数据类型。 上面咱们来介绍明天的配角——COSBrowser iOS 桌面小组件,上面对立简称为小组件。 小组件无需独自下载安装,COSBrowser App 装置胜利后,就能够间接应用;当不须要应用时也能即时删除,无任何残留。 iOS 零碎版本要求:反对iOS14及以上。当然最不便的还是反对实时查看监控数据,再也不须要频繁的关上敞开 App,即可间接查看整体的监控数据,例如对象数量、存储量、本月总流量、本月总申请数等;数据范畴也能够指定某一个特定的存储桶,也能够抉择某一种存储类型的数据进行跟踪监控;目前存储类型反对规范存储、低频存储、规范存储(多 AZ)、低频存储(多 AZ)、归档存储。 应用小组件还有一个益处:就是如果在某一段时间内比较忙遗记了查看存储数量,错过了一些异常情况,没有及时处理;那么桌面小组件能够不便操作,每当滑到小组件即可查看。 说了这么多,是不是曾经急不可待的想理解小组件具体怎么用?接下来听我细细道来它的增加删除用法以及配置数据办法。 如何增加小组件下载并装置好 iOS COSBrowser App 后,长按界面任意处至界面抖动,点击界面上方的加(+)号。找到 COSBrowser 并点击。抉择您喜爱的尺寸后,点击底部的增加小组件按钮。增加实现后,成果如下。删除小组件如果看小组件看累了,不想看它了;或者日常生活中不须要频繁的查看监控数据,想把它删掉。那么长按小组件,点击移除小组件,即可删除。 通过以上简略的几步即可实现小组件的增加。此时滑动到小组件窗口即可体验不关上 App,就能在桌面间接查看监控数据了。 或者您还想问,如果我想查看某一个存储桶的监控数据,或者查看其余存储类型的数据?这些都该怎么操作呢? 那么接下来我将向您持续论述小组件的数据设置,来配置您想关注的存储桶和存储类型。 如何设置小组件数据配置小组件数据须要关上主 App。 1. 进入小组件设置页面点击我的 > 设置 > 小组件配置。 2. 抉择存储桶如果未抉择存储桶,则显示以后账号所有存储桶的概览数据;如果抉择,则显示已抉择存储桶的概览数据。 3. 抉择数据类型小组件默认显示规范存储的监控数据,您能够手动设置其余数据类型,包含规范存储、低频存储、规范存储(多 AZ)、低频存储(多 AZ)、归档存储。 4. 重置如果你配置了存储桶或者数据类型后,又想看总体监控数据,这个时候就能够点击重置,重置以后小组件数据配置,即显示以后用户所有存储桶的规范存储监控数据。 结语iOS 小组件能够方便快捷地查看实时监控数据,也是为了更好的应用 COSBrowser App 而生的,COSBrowser 挪动端、桌面端还有更多更好用的性能,欢送应用和体验 COSBrowser 系列产品。

June 1, 2021 · 1 min · jiezi

关于数据管理:COSBrowser-移动端随时随地查看管理数据

外出身边没有电脑,须要查看治理数据怎么办?呈现紧急情况,须要疾速进行某个 bucket 对外拜访,怎么办?个人用户仅作为网盘应用,须要不便轻量的管理工具,怎么办?不必焦急,COSBrowser 挪动端帮您解决这些问题,让您随时随地查看治理您的数据~ COSBrowser 挪动端提供了 iOS 和 Android 平台的应用程序,提供了挪动场景的数据查看治理能力,让您更方便快捷,随时随地的查看治理您的数据。 COSBrowser 不仅可满足随时随地、疾速不便查看治理 COS 数据的需要,甚至还提供了相册备份、文件预览、文件夹分享等轻网盘性能。 查看用量与正告作为数据管理员,可能须要定期查看数据用量,时刻关注相干告警。以往这种操作都是须要在工位上关上电脑进行查看,然而当初有了 COSBrowser 挪动端,您能够随时随地关上手机进行查看,比方上下班路上、等电梯排队时、吃早餐的时候等碎片工夫。这大大提高了这种高频短时操作的灵活性,真的是方便快捷,十分香! COSBrowser 提供了多模式、丰盛的数据用量展现,包含整体用量总览、各个 bucket 用量展现、各存储类型的对象数量、月流量、月申请数、告警数等,并应用图表展现的形式,几乎直观明了,如下所示: 紧急启停有时候可能会呈现紧急情况,比方 某个 bucket 呈现故障,须要马上暂停拜访。这个状况可能呈现在:深更半夜,伸手不见拇指、休假游览没带电脑、甚至作为伴郎正在加入他人的婚礼(哈哈)....... 是不是很解体,这时候 COSBrowser 挪动端闪亮退场,只须要拿出你的手机,轻松点几下,就能够解决问题。 进行某个 bucket 的对外拜访,能够把 bucket 的公共权限改为“公有读写”即可(针对某个文件对象的暂停也是同理),如下图: 找到要进行的 bucket,点击更多操作,抉择权限治理,将公共权限设置为公有读写。 轻网盘性能对于集体普通用户,可能只是想有一个相似网盘(不限速,嘿嘿...)的性能,只是想备份手机相册、存储一些罕用文件或者特地喜爱的电影等,不须要太多简单的性能。这个状况 COSBrowser 挪动端就非常适合了,咱们施展了手机端的特点,提供了相册备份、图片视频甚至文档的浏览、上传下载本地文件的性能,哦 对了,咱们还提供了文件夹分享的性能,您能够将精彩的照片或者其余文件分享给您的家人。 1、相册备份 2、文件预览图片和视频的预览 文档预览 3、文件夹分享找到您要分享的文件夹,点击更多按钮,点击分享操作。 在分享设置弹窗中能够设置文件夹的读写权限和提取码,而后生成二维码或者链接,发送给您要分享的人。 接收者通过分享的链接或者二维码可间接在浏览器中关上,也能够通过 COSBrowser 挪动端 App 扫一扫二维码,而后输出提取码,便能够进入分享文件夹,进行文件查看或者文件治理。 具体操作请参见:COSBrowser 文件夹分享——多端文件实时共享。 结语以上举例仅为抛砖引玉,COSBrowser 挪动端 App 还有更多丰盛的性能,期待您发现更多的应用场景和玩法。 COSBrowser 挪动端为挪动场景的数据管理提供了可能,比方公交地铁、机场火车站、出差、休假旅行、紧急事务等场景,也为轻数据需要的个人用户提供了轻量、简捷不便的数据管理工具。 COSBrowser 挪动端旨在为用户提供随时随地便捷的云数据管理工具,欢送大家分享 COSBrowser 的应用体验和心得。 ...

May 18, 2021 · 1 min · jiezi

关于数据管理:数据管理流程基础入门简介

一、根底思维数据在当初互联网的行业中能够说是最外围的话题,数据的价值曾经被称为资产了,大部分的互联网利用都会源源不断的产生各种数据,如何治理和应用这些数据,让这些看似平时的数据产生更大的价值,始终是热门的摸索畛域。比方常见的风控、营销、推广等各种业务,都须要依赖大量的用户行为数据作为依赖,能力精准的对相干流程做出分析判断。 数据管理是一项简单而且宏大的工程,须要付出的工夫和老本十分高,通常的说法就是对用户无效的数据进行采集,存储,剖析,组建业务模型,二次业务利用,以此让数据施展更大的价值。 在企业思考做数据积淀治理时候,通常这里有一个根底的思考,数据量是否宏大,搭建起的数据管理体系能带来的收益是否能笼罩老本;对于企业来说,很多事件做起来都是对的,然而不肯定是对本身倒退是无益的;如果基于数据管理,能带来更多业务收益,那这个宏大的工程天然值得投入。 二、业务与数据这里再从理论流程来看这个问题,通常一个我的项目在开发初期时候,为节约老本都会采取疾速迭代的形式,基于产品设计和用户应用剖析,一直疾速降级,在这一过程中也是数据一直积攒的过程,一个方向清晰的产品倒退的根本过程:产品外围性能实现,丰盛和优化流程,产品剖析的数据报告。这是一个我的项目开发的根本初期流程,如果产品没有胜利,过程到这就根本完结,老本不会过高,当然如果产品胜利了,那后续产品的倒退方向怎么确定,就是另一个大的话题。 通常会从两个方面思考稳固产品的后续方向:1.借鉴市面上相似产品,去剖析胜利的起因;2.基于现有的业务流程产生的数据,判断产品的亮点和糟点;通常依据产品现有数据做剖析是最常见的操作,在理论互联网产品中,就有活脱脱的案例: 媒体类APP会依据用户浏览行为举荐信息,你感兴趣的内容会一直推送;电商类APP会依据节令或日期或搜寻行为,举荐特定的商品,进步成交量;社交类APP会依据多个纬度的应用数据做相应的广告植入,精准散发; 以上这些理论的案例,都是在互联网产品中很常见的操作,都是基于产品业务流程,一直积攒数据,而后针对本身数据的积淀,做二次数据分析,再次利用到业务层产生十分高的价值。 三、自动化流程数据管理的流程须要自动化,这个是最根底的操作,如果基于数据的流程不能主动,那就齐全没有必要,例如数据残缺的周期从业务数据产生,剖析积淀,可视化剖析,二次利用,这里流程只有自动化治理能力源源不断的提供稳固的服务。数据管理中的一个外围因素就是效率,谋求效率就要依赖主动的流程,拿一个简略的案例来说:今天天气很冷,用户浏览防寒商品,如果产品不疾速响应,做好相干剖析和举荐服务,那过了明天很可能用户曾经没有购买志愿,或者曾经在其余平台下单了,大部分用户的行为都是有时效性存在的,这对于交易类产品尤其重要。而对于社交类或者信息流的产品,用户的行为画像至关重要,基于主动的行为剖析,源源不断的丰盛用户的行为画像,以此更加精准的判断用户心理,进步产品的粘性。 所以数据管理的最终产品状态,工具智能化剖析,流程自动化治理,疾速判断用户行为,精准响应,这能力最大施展业务数据的价值。 四、服务降级任何一款产品,如果源源不断的用户注册应用,产生大量的数据,都很容易倒退成为一款超级利用,或者生态平台。撑持这些业务的都是依附用户和用户数据。例如社交产品提供精准的营销服务平台;金融产品提供风控剖析;电商产品提供生产能力剖析;这些服务都是基于用户海量宏大行为数据,做的剖析揣测,一旦这些生态关系造成,产品必然会倒退成为平台。同样的数据,能够提供屡次服务是数据管理的一个特点,例如某平台晓得用户精准的购买动向,那这个数据能服务多少商家,则就看这个平台有多少单干的商家,这就是一条用户剖析数据产生的屡次业务收益。 所以很多景象级的产品,都是先有本人的数据管理体系,起初服务本人业务线,而后顺利倒退为平台,凋谢服务能力,获取更多的客户或者用户,而后一直的优化和服务能力降级,进入良好的倒退循环。 五、源代码地址GitHub·地址https://github.com/cicadasmileGitEE·地址https://gitee.com/cicadasmile举荐浏览:编程体系整顿 序号项目名称GitHub地址GitEE地址举荐指数01Java形容设计模式,算法,数据结构GitHub·点这里GitEE·点这里☆☆☆☆☆02Java根底、并发、面向对象、Web开发GitHub·点这里GitEE·点这里☆☆☆☆03SpringCloud微服务根底组件案例详解GitHub·点这里GitEE·点这里☆☆☆04SpringCloud微服务架构实战综合案例GitHub·点这里GitEE·点这里☆☆☆☆☆05SpringBoot框架根底利用入门到进阶GitHub·点这里GitEE·点这里☆☆☆☆06SpringBoot框架整合开发罕用中间件GitHub·点这里GitEE·点这里☆☆☆☆☆07数据管理、分布式、架构设计根底案例GitHub·点这里GitEE·点这里☆☆☆☆☆08大数据系列、存储、组件、计算等框架GitHub·点这里GitEE·点这里☆☆☆☆☆

December 8, 2020 · 1 min · jiezi

关于数据管理:DataPipeline-合伙人-CPO-陈雷企业实时数据管理问题与实践-附PPT下载

陈雷 | DataPipeline 合伙人 & CPO,曾任 IBM 大中华区认知物联网实验室服务部首席数据科学家、资深参谋经理。十五年数据迷信畛域与金融畛域教训。综合交通大数据利用技术国家工程实验室产业翻新部主任,中国电子学会区块链专委会委员。 DataPipeline是一家数据畛域的独立软件提供商。已胜利服务了包含但不限于星巴克、百胜中国、民生银行、中国人寿等重点畛域的近百家客户。 10 月 20 日,IT 桔子邀请到DataPipeline合伙人 & CPO 陈雷先生,面向 IT 桔子用户带来 “企业实时数据管理问题与实际” 为主题的分享,以下为本次流动的干货观点。(文末附 PPT 下载地址) 为什么要构建实时数据平台2000 年左右甚至更高一些,咱们的交易系统和剖析零碎是不分家的。随着业务需要的一直晋升,对7*24 小时联机交易的要求,交易系统服务压力越来越大。为了防止剖析零碎影响交易系统,逐步从业务零碎中拆散出了剖析零碎,OLTP(联机事务处理)和 OLAP(联机剖析解决) 两类零碎概念就此产生。同时产生了两个概念,一个是ODS(把交易系统里的全副原始数据复制一份进去,而后在ODS上做各种加工、解决与剖析);另外一个Data Mart(数据集市,依照业务理论需要要把要剖析的局部数据从交易系统中取出来做整顿)。 ODS 和数据集市都是基于外围业务零碎/交易系统的数据模型和数据标准的,随着业务的一直倒退,交易系统也要一直进行迭代,而当交易系统升级换代的时候,ODS 和数据集市都要被颠覆重建。面对昂扬的建设费用和激烈的零碎震荡,大家发现建设一个绝对独立而全面的数据仓库是一个十分无效的解决形式。 随着存储和计算资源的老本越来越低,计算能力和计算要求都在一直的倒退,是否还须要一个中心化的数据仓库的质疑甚嚣尘上。因为数据仓库通常采纳T+1批量加载数据的形式解决数据,时效性不够高,很难满足业务上越来越高的时效性要求,除此之外,大量的内部数据无奈整合,大数据平台随之应运而生。随着各行业数据量高速增长,逐步造成数据湖的概念。数据能够先进到数据湖,按需取用。 随着技术演进,数据仓库、数据集市、ODS、大数据平台和数据湖等都归类到了非实时数据处理剖析零碎外面。近几年,因为业务对时效性的要求越来越高,分布式计算、流计算衰亡,实时数据交融逐步被推动起来。以后获取数据模式,要求在不影响业务零碎失常运行的状况下实现实时、精确、全面的数据获取。能够在同一个平台上对数据进行加工、交融以及计算,而后推送到上游的实时利用零碎。 以上内容就是为什么要构建一个实时数据平台的倒退理念。 实时数据畛域三大常见问题2000 年左右,一家大型企业所利用数据库类型比拟少,从品牌角度讲,Oracle、IBM DB2、Sybase、MS SQL Server 是利用比拟多的,但哪怕是多个品牌,也基本上都是关系型数据库。而数据技术倒退到明天,从寰球范畴来看,能归类到数据库的技术品牌有 200 余种,包含传统的关系型的数据库、时序数据库、图数据库、搜索引擎、音讯队列、大数据平台与对象存储等,支流的数据库就有40多种。 随着业务的一直倒退,为了应答不同的利用场景,交易系统、账务零碎、管理系统等会采纳不同的数据库技术,无形中构建了大量的技术壁垒。而数据自身在一个企业域内都是举世无双的,是须要互相交融的。在一直倒退的数据技术和每种技术的差异性逐渐增大的过程中,如何可能突破技术壁垒,让数据不会因为技术栈的抉择而妨碍其价值开释,是明天摆在咱们背后的一个次要问题。无论是技术人员还是互联网从业者,都能显著感觉到用户的交互工夫越来越短,注意力经济越来越凸显,谁能抓住用户注意力谁就能取得相应的流量和回报。在这个过程中如何可能在较短的交互工夫里抓住用户的注意力,整个实时数据链路买通至关重要。然而这又跟理论的研发治理、IT 的数据管理有人造的一些矛盾。研发治理须要进行开发、测试、上线等整套流程,而业务则要求数据要有更高的敏捷性。少数的IT管理系统对麻利的业务场景的撑持、数据交融或者底层的数据集成反而成为了妨碍。一个端到端的实时链路,个别的交付周期以月为单位。同时,十几种甚至几十种数据技术混合应用,存储于其间的数据如何可能疾速的构建链路?可能把增量数据、全量数据进行无效的交融,成为了IT部门外围要解决的问题。 把不同的技术壁垒买通之后,紧接着须要构建数据交融平台。实时数据链路兼具着业务经营和后盾业务剖析、治理的作用,须要具备十分高的稳定性、容错性来应对外部组织构造的变动和外部对平台的要求。当数据交融自身非集中式时,肯定会受到数据链路、上游零碎、上游零碎的影响。上游零碎是重要水平更高的业务零碎。上游数据结构的变动以及数据的大规模解决不会过多顾及上游数据链路的理论状况。例如上游一个简略的更新操作,对上游零碎可能造成百万、千万级别的增量数据。上游零碎的稳定性不仅仅源于本身的稳定性,更多是通过一些预设规定无效地应答上游零碎带给它的影响。当上下游零碎都稳固了,运行在底层的零碎,如网络环境、存储环境、CPU 内存等环境也会影响到整个零碎运行的稳定性。此时,就须要思考跨网传输/大规模的数据链路如何屏蔽以上不稳固因素。 总结,企业在施行数据管理过程中碰到的三项次要问题。第一个问题,当越来越多的数据库技术利用在企业外部,呈现了大量的技术壁垒,咱们如何突破这些技术壁垒,把数据做无效交融驱动业务的倒退。第二个问题,业务部门对数据处理的时效性要求变得越来越高,但数据处理实时利用的构建过程仍然须要一个迷信谨严的构建逻辑,业务部门对数据时效性的要求和IT部门构建高质量数据链路的效率之间的均衡。最初,实时数据链路构建起来后,因为其兼具业务经营和治理反对的要求,所以稳定性和容错性的要求很高,而这个过程中又受上下游零碎及零碎环境的制约,如何保障高效稳固的运行,保障高容错性应答各种突发状况。 实时数据管理的次要问题及应答之法下图展现的是一个规范的金融行业企业级实时数据平台的整体架构。它的上游是存储于不同的数据库技术或内部数据节点的数据,DataPipeline 能够通过不同的技术栈把这些数据交融到平台外面来,而后再推送到上游的各类业务零碎中。 多元异构的增量数据精确获取近二十年来,数据源类型产生了巨大变化。晚期整合的数据大部分都是业务零碎数据,企业域内的数据会比拟多。而当初,须要整合的数据不仅减少了大量的非结构化数据,而且大量来源于内部。 除了业务零碎数据,还有客户行为数据、电子设备、APP、摄像头、传感器等的客户端数据也会进入到实时数据链路,而且这一类实时数据的剖析价值十分高。 现在每家企业都会关注其整个产业链的上下游。大量合作伙伴,除了在生意层面的单干,还有IT零碎之间的单干。这就要求实时数据处理平台,可能应对外部业务零碎的实时增量和全量数据的交融。 企业还在采集大量的内部数据,例如天气数据、资讯数据等,这些数据如何无效地进入到企业域内进行整合,进入实时数据链路如何发挥作用,也是一个企业在构建实时数据平台须要关注、解决的问题。 每一项数据源采纳的数据库技术/数据处理技术可能都不尽相同,因而波及到多源异构数据处理问题。如何在不影响零碎失常运行的前提下获取全域实时数据。这里咱们就要谈到 Log Base Change Data Capture 概念,它是 DataPipeline 自主研发的基于日志增量数据获取技术。咱们当初也在与 IBM 单干,集成 IBM InfoSphereData Replication 的产品来采集包含大型机、中型机(AS400 零碎)的数据库日志。针对支流的MySQL、MS SQL Server 等数据库都能够应用日志解析的形式获取数据。当然,基于日志的实时增量获取也不是繁多的品种,例如MS SQL Server 有两种实时增量获取模式:CT 模式和 CDC 模式。 ...

November 16, 2020 · 1 min · jiezi

Docker学习之数据管理5

容器内部以及容器之间的数据管理是怎么样进行的? 其实在 Docker 内部以及容器之间管理数据,在容器中管理数据主要有两种方式: 数据卷(Volumes)挂载主机目录 (Bind mounts)数据卷数据卷是一个可供一个或多个容器使用的特殊目录,它绕过 UFS,可以提供很多有用的特性: 数据卷可以在容器之间共享和重用对数据卷的修改会立马生效对数据卷的更新,不会影响镜像数据卷默认会一直存在,即使容器被删除注意: 数据卷 的使用,类似于 Linux 下对目录或文件进行 mount,镜像中的被指定为挂载点的目录中的文件会隐藏掉,能显示看的是挂载的 数据卷 。 既然数据卷可以对容器的数据进行管理,那么该怎么去创建和使用数据卷呢? 数据卷操作创建数据卷可以通过命令docker volume create 数据卷的名称来创建一个数据卷,如: 从上图中可以看出我们创建的数据卷my-vol已经存在了。然后可以通过docker volume create 数据卷的名称来查看具体的某个数据卷的信息,如: 启动一个挂载数据卷的容器在用 docker run 命令的时候,使用 --mount 标记来将 数据卷 挂载到容器里。在一次 docker run 中可以挂载多个 数据卷 。下面创建一个名为 web 的容器,并加载一个 数据卷 到容器的 /webapp 目录。 docker run -d -P \--name web \# -v my-vol:/wepapp \--mount source=my-vol,target=/webapp \training/webapp \python app.py查看数据卷的具体信息在主机里使用以下命令可以查看 web 容器的信息 $ docker inspect web数据卷 信息在 "Mounts" Key 下面 ...

June 20, 2019 · 1 min · jiezi

一次开发、多端分发,阿里巴巴发布AliOS车载小程序

4月16日上海国际车展首日,阿里巴巴小程序有了新动态:正在研发基于AliOS的车载小程序。作为阿里巴巴小程序在车载场景的重要延伸,AliOS车载小程序和支付宝、高德等小程序一样,将采用统一的开发框架和开放标准,依托于小程序云的一站式云服务,可进行统一的应用发布、资源管理和数据管理,大幅降低小程序开发者的运营和维护成本。基于算法和庞大的生态服务体系,AliOS车载小程序自带场景智能感知的基因。得到车主授权后,车载小程序可以围绕行车场景,实现上车前、行车中、下车后自然串联的智能化场景服务。譬如,你可以在车上通过触控、语音、手势等多模态交互方式,咨询附近的推荐餐厅,小程序会基于你的喜好作出推荐,还可以预约排号;到达餐厅附近,系统会自动唤醒小程序,为你找到停车场;下车后,车载小程序会无缝连接到手机小程序端,你可以在手机上查看预约餐厅的楼层位置、出示预约信息等。此前在2019阿里云峰会·北京上,阿里云、支付宝、淘宝、钉钉、高德等联合发布“阿里巴巴小程序繁星计划”,用20亿元补贴扶持200万以上小程序开发者、100万以上商家。此次AliOS车载小程序的发布,将为阿里巴巴小程序再增车载新场景。打造一个以用户为中心的小程序生态服务体系,实现支付宝、淘宝、高德、UC、AliOS等多端服务场景的打通,一次开发、多端分发,为用户提供从出行到生活的一站式服务。此次车展上,AliOS还展出AI HUD、AI驾驶舱等最新技术。作为国内最大的互联网汽车操作系统,AliOS正在构建一个可持续发展的整合平台,通过对新交互、新科技的探索,创造具有便捷、愉悦、个性的互联网汽车产品。更多关于阿里巴巴小程序繁星计划的内容请访问专题页:https://yq.aliyun.com/activity/820本文作者:阿里云头条阅读原文本文为云栖社区原创内容,未经允许不得转载。

April 16, 2019 · 1 min · jiezi

基于MaxCompute的数仓数据质量管理

声明本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。参考文献《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。背景及目的数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。数据质量保障原则评估数据质量的好坏不同行业甚至不同企业有不同标准,在此我们主要从四个方面进行评估,即完整性、准确性、一致性和及时性。完整性。完整性是指数据的记录和信息是否完整,是否存在缺失情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,可以说,完整性是数据质量最基础的保障。如某个相对稳定的业务数据量每天的都有100万条记录,某天突然下降1万条,那么可能就是记录缺失。而对于记录中某个字段信息缺失,如某科高考成绩表中一个考卷分数要对应一个准考证号,这个字段的空值数就该为0,一旦大于0,说明该信息缺失了。准确性。准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。比如成绩单中分数出现负数,比如订单没有买家信息等,这些都是有问题的。确保记录的准确性也是抱着数据质量必不可少的一个原则。一致性。一致性一般体现在跨度很大的数据仓库体现中。 比如公司中有很多业务数仓分支,对于同一份数据必须保证一致性。例如用户ID,从在线业务库加工到数据仓库,再到各个数据应用节点,必须都是同一种类型、长度保持一致。因此在《MaxCompute数仓建设规范指南》中有了“公共层”的加工,确保数据的一致性。及时性。保障数据的及时产出,体现数据的价值。如决策的分析师一般都希望当天可以看到前一天的数据而不是要等三五天才能看到某一个数据分析结果,否则就失去了数据及时性的价值,使得数据分析工作变得毫无意义。数据质量管理流程要做数据质量管理,制定满足以上数据质量原则集基础上的质量管理规范,需要考虑几方面:什么数据需要做质量管理。什么环节进行数据质量管理。数据质量管理具体怎么做。数据质量定义定义哪些数据需要做质量管理一般可以通过数据资产等级划分和元数据的应用链路分析得出。根据应用的影响程度,确定数据资产等级;根据数据链路血缘,将数据资产等级上推至各数据生产加工的各个环节,确定链路上所涉及的数据的资产等级和在各个加工环节上根据资产等级的不同所采取的不同处理方式。数据资产等级定义对于数据的资产等级,在质量管理方向,可以从数据质量“不满足四个原则”情况下对业务的影响性质,比如可以划分为5个等级的性质,即毁灭性质、全局性质、局部性质、一般性质、未知性质,不同性质的重要性一次降低,具体定义如下:毁灭性质,即数据一旦出错,将会引起重大资产损失,面临重大收益损失等。全局性质,即数据直接或间接用于企业级业务和效果评估、重要决策等。局部性质,即数据直接或间接用于某些业务线的运营、报告等,若出现问题会给业务线造成影响或者造成工作效率损失。一般性质,即数据主要用于日常数据分析,出现问题带来的影响极小。未知性质,即无法明确数据的应用场景。如table的label等级,资产等级可以用Asset进行标记:毁灭性质-A1,全局性质-A2,局部性质-A3,一般性质-A4,未知性质-Ax。重要程度为:A1>A2>A3>A4>Ax。若一份数据出现在多个应用场景汇总则遵循就高原则。数据资产等级落地方法定义划分好数据资产等级后,接下来就考虑怎么落地,对数仓中庞大的数据量进行资产等级打标。可以从数据流转链路着手。MaxCompute进行数据加工基本基本流程:数据从业务系统上产生,通过同步工具(DataWorks的数据集成或阿里云DTS)进入数据数仓系统(MaxCompute),数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后,再通过同步工具输出到数据产品中进行消费。整个流程数据都是以存放在表的形式体现,流转链路大致如下图:从数据流转链路上,整理哪些表是被哪些应用业务产品消费,通过给这些应用业务产品划分数据资产等级,再结合数据的上下游血缘,将整个链路打上某一类资产等级的标签。如,一个A2等级的的数据应用产品,对应导入这个数据产品的table即数仓(MaxCompute)的导出表Table1、Table2、Table3,几个表都打上A2-xxx数据产品标记,根据血缘往上追溯,将这几个表的上有都打上A2的标记,一直标记到源数据业务系统。通过如上方式完成数据资产等级的确认,给不同的数据定义不同的重要程度。知道了数据的重要等级针对不同的等级,采取不同的保障措施,接下来我们介绍在基于MaxCompute的数据仓库中针对不同等级的数据的保障方法。数据加工过程卡点校验在线系统卡点校验在线系统数据加工过程卡点校验,主要是指在业务系统的数据生成过程中进行的卡点校验。在线业务系统产生的数据也是数据仓库的数据来源,然而在线业务系统普遍都是复杂多变,且每次变更不可避免会带来数据的变化,数仓需要适应多变的业务发展,及时做到数据的准确性。因此,在线业务的变更如何高效的通知到基于MaxCompute的离线数据仓库,也是需要考虑的问题。这里我们介绍两个方法拱参考:工具和人员双管齐下。纪要在工具上自动捕捉每一次业务的变化,同时也要求开发人员在意识上自动进行业务变更通知。工具——发布平台。在业务进行重大变更时,订阅这个发布过程,通知到离线开发人员,使其知晓此次变更内容。当业务系统足够繁杂,日常发布变更频繁的情况下,若每次变更都通知离线业务,势必会造成不必要的浪费,同时也影响业务迭代效率。此时,可以通过数据资产等级的标识,对业务进行打标后,针对高等级的数据资产,整理出什么变更会影响数据的加工,如相关财务报表,如果业务系统的改造影响到财务报表的计算,使得约定好的计算口径被业务系统发布变更修改了,这种情况必须要告知离线业务,而离线开发人员也必须主动关注这类发布变更通知。注意:这里指的发布平台非阿里云提供发布平台,只是一种统称,指各个企业自己在线业务的相关发布平台。工具——数据库的变化感知。随着业务的发展,业务数据库(MaxCompute数仓的数据源)不可避免会出现数据库扩容或者DDL变更,这些变更都要主动通知到离线开发人员。基于MaxCompute的数据仓库在进行离线数据抽取时,通过DataWorks的数据集成工具,可能会限制某个业务数据库表,如果该数据库表发生扩容或者迁移等,数据集成工具感知不到,会可能导致数据抽取错漏,而一旦错漏,会影响下游一系列依赖该表的应用,因此建议业务数据库也需要有库表变更通知。工具只是一种辅助手段,操作工具的人员才是核心。数据资产等级的上下游打通,同样也将这个过程给到在线开发人员,使其知晓哪些是重要的核心数据资产,提高在线开发人员的数据风险意识。通过培训等方式将离线数据的诉求、离线数据的加工过程、数据产品的应用方式告诉在线业务开发人员,让其了解数据的重要性,了解数据的价值,同时也告知出错后果。让在线开发人员在完成业务目标时,也要考虑数据的目标,做到业务端和数据端一致。离线系统卡点校验首先我们再次认识MaxCompute进行数据加工的基本流程:数据从业务系统上产生,通过同步工具(DataWorks的数据集成或阿里云DTS)进入数仓系统(MaxCompute),数据在数仓中进行清洗、加工、整合、算法、模型等一系列运算后,再通过同步工具输出到数据产品中进行消费。整个流程中,有了数据加工,才有了数据仓库模型和数据仓库代码的建设,如何保障数据加工过程中的质量是离线数据仓库保障数据质量的一个重要环节。MaxCompute进行数据加工,可以通过DataWorks、也可以通过MaxCompute studio、或者直接通过MaxCompute SDK提交各种任务进行加工。无论用什么工具,都会经历代码开发->测试、发布->运维、变更 的过程,可以对这个过程每个环节进行卡点校验。代码提交的卡点校验。即在sql提交前进行相关规则校验。这个校验目前公共云没有直接可用的工具辅助,有能力的用户可以自己开发相关的工具。规则分类如:代码规范类规则,如表命名规范、生命周期设置、表注释等。代码质量类规则,如分母为0提醒、NULL值参与计算影响结果提醒、插入字段顺序错误等。代码性能类规则,如分区裁剪失效、扫描大表提醒、重复计算检测等。任务发布上线时的卡点校验。为了保障线上数据的准确性,每一次变更都需要测试后再发布到线上生产环境,且生产环境测试通过后才算发布成功。任务变更或者数据重跑,在离线数据加工过程中不可避免都会出现的操作。针对这个操作,在进行更新前,需要通知下游,将变更原因、变更逻辑、变更时间等信息表明,下游对此次变更没有异议后再按照约定时间执行发布变更,将变更对下游的影响降到最低。数据风险点监控前一章节主要介绍通过数据加工过程的卡点校验保障在线数据和离线数据的一致性问题,本章节主要通过对数据风险点的监控来介绍如何保障数据的准确性。在线数据风险点监控在线业务系统的数据生成过程需要保证数据质量,主要根据业务规则对数据进行监控。MaxCompute本身没有配套的工具,需用户自己实现,在此只能给出一些建议拱参考。如针对数据库表的记录进行规则校验,制定一些监控规则,在业务系统中,每个业务过程进行数据落库时对数据进行校验。监控规则如交易系统中,订单拍下时间、订单完结时间、订单支付金额、订单状态流转都配置校验规则,订单拍下时间不会大于当天时间,也不会小于业务系统上线时间,一旦出现异常校验就不通过。当业务繁杂且规则繁多,规则配置等运行成本高时,同样根据数据资产等级进行监控。离线数据风险点监控本小节将介绍基于MaxCompute的数据仓库建设过程中离线数据的风险点监控,主要报对数据准确性和数据产出及时性的监控。数据准确性数据准确性是数据质量的关键,因此数据准确成为数据直连的重中之重,是所有离线系统加工时的第一保障要素,在此我们主要介绍通过DataWorks的数据质量工具——DQC来保障MaxCompute离线数据的准确性。注意,要用DQC,必须是使用DataWorks进行任务调度执行。我们先来认识DQC工具架构:DQC以数据集(DataSet)为监控对象,当离线MaxCompute数据发生变化时,DQC会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,DQC提供了历史校验结果的管理,以便对数据质量分析和定级。由上图我们看出DQC主要是通过配置数据质量校验规则,自动在数据处理过程中进行数据质量监控。DQC能监控数据质量并报警,本身不对数据产出进行处理,需要报警接收人判断并决定如何处理。DQC数据监控规则有强规则和弱规则之分。强规则,一旦触发报警就会阻断任务的执行(将任务置为失败状态,使下游任务不会被触发执行);弱规则,只告警不会阻断任务的执行。DQC根据阿里内部的经验,提供了一些常用的规则模板,包括:表行数较N天前波动率、表空间大小较N天前波动率、字段最大/最小/平均值相比N天前波动率、字段空值/唯一个数等等,更多请参考DataWorks用户手册中数据质量模块介绍。DQC的工作流程如下图所示:由此看出DQC的检查其实也是运行SQL任务,只是这个任务是嵌套在主任务中,若检查的太多也会影响整体的任务执行性能,因此哪些数据需要配置DQC规则,应该配置什么规则,也要根据数据资产等级来确定。如A1、A2类数据监控率要达到90%以上,规则类需要3种以上,而不重要的数据资产不做强要求。类似的规则都是有离线开发人员进行配置来确保数据准确性,当然不同的业务会有业务规则的约束,这些规则来源于数据产品或者消费的业务需求,有消费节点进行配置,然后上推到离线系统的起点进行监控,做到规则影响最小化。数据的及时性在确保数据准确性的前提下,需要进一步让数据能够及时的提供服务,否则数据的价值将大幅降低,甚至无价值,所以确保数据及时性也是保障数据质量重中之重的一环。基于MaxCompute的离线任务,如常见的以天作为时间间隔,对于天任务,一些重要的业务会对数据产出有时间要求,比如一些决策报表要求9:00或更早必须产出。为确保数据完整性,天任务一般都是0点开始执行,计算刚过去的一天的数据,这些任务大多在夜里运行,要确保数据按时产出,需要考虑任务的优先执行(当Project里任务很多而资源有限的时候不得不考虑)和任务执行失败或时长过长时的告警问题。这里说的重要业务的“重要性”同样是前面所说的数据资产等级的划分,等级越高保障优先级越高。任务优先级。MaxCompute平台上任务优先级都是一样,无法配置。因此要对MaxCompute的任务实现“优先级”功能,只能从调度平台入手,优先调度下发重要的任务。DataWorks平台的调度任务,当对应的Project是使用预付费资源(预购固定的计算资源仅供当前项目使用)时,可以通过“智能监控”工具进行优先级设置。DataWorks的调度是一个树形结构,当配置了叶子节点的优先级,这个优先级会传递到所有的上游节点,而叶子节点往往就是服务业务的消费节点。因此在优先级的设置上,先确定业务的资产等级,等级越高的业务对应的消费节点优先级配置越高,优先调度从而优先占用计算资源,确保高等级业务准时产出。当DataWorks的节点任务所属的Project使用的是MaxCompute的后付费资源(计算按量付费,无固定资源使用),智能监控配置的优先级无效,因此,需要评估是否要购买预付费资源,同时对任务进行优化,减少不必要的资源浪费,力争在有限的资源下更高效的完成计算。任务报警。任务报警和优先级类似,通过DataWorks的“智能监控”工具进行配置,只需要配置叶子节点即可向上游传递。任务执行过程中出错或者可能出现延迟都是不可避免的,为了保障最重要数据(资产等级高)产出,我们需要“出错”立即处理、“可能”延迟必须知晓并介入。DataWorks—智能监控。MaxCompute的离线任务,通过DataWorks进行离线任务调度时,DataWorks提供智能监控工具,对调度任务进行监控告警。智能监控是DataWorks任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间,报警方式以及报警对象。智能监控旨在:降低您的配置成本。杜绝无效报警。自动覆盖所有重要任务(数量已经多到您自己无法梳理)。数据质量衡量前面章节给出了保障基于MaxCompute的数据仓库数据质量的方案,但是这些方案是否真的合适,或者哪些点需要改进,这些需制定一套指标进行度量。比如:频繁的接到DataWorks的智能监控发出的告警;每一个数据质量事件发生,必须分析有原因、处理过程、后续同类事件预防方案;严重的数据质量事件升级为故障,并对故障进行定义、等级划分、处理、review。相关工具链接DataWorks-数据质量管理工具,文档,工具界面。DataWorks—智能监控工具,文档,工具界面。本文作者:海清阅读原文本文为云栖社区原创内容,未经允许不得转载。

April 12, 2019 · 1 min · jiezi

阿里小程序云应用上线了,有哪些看点?

3月21日,在2019阿里云峰会·北京上,阿里巴巴旗下的阿里云、支付宝、淘宝、钉钉、高德等联合发布“阿里巴巴小程序繁星计划”:提供20亿元补贴,扶持200万+小程序开发者、100万+商家。凡入选“超星”的小程序,入驻支付宝、淘宝、钉钉、高德后还能得到流量重点支持。阿里云近期发布小程序云应用,提供一站式云服务,为开发者提供稳定和便捷的后端云服务,包括 Serverless 开发套件、应用托管服务、函数计算等。开发者可在这些小程序端上进行统一的应用发布、资源管理、数据管理。接下来,我带大家来了解一下小程序云应用的具体内容:小程序云应用限量免费申请入口云应用产品架构产品价值通过一站式的资源编排、应用托管、DevOps 的能力降低企业和个人对小程序后端的开发成本。产品特色直接搭建和初始化好运行环境。支持 Node.js、Spring Boot 等主流框架应用托管。一站式的发布、运维、监控操作。方案优势资源编排通过对 ECS、RDS、SLB、EIP 等资源进行编排,帮助用户根据自身的业务情况提供不同规格配置自动搭建好符合业务场景的最优运行环境,低成本、高效率。应用托管为开发者提供主流应用框架的运行环境,直接上传 Node.js、Spring Boot、Java Web 部署包发布,开箱即用,极大的降低了前后端开发者对云服务的开发成本。一站式 DevOps支持开发者一站完成测试环境、生产环境的版本发布、扩容、资源监控等操作。无需运维即可高效进行线上服务的自动扩容、业务指标监控等。产品操作指引查看详情:https://yq.aliyun.com/activity/820?utm_content=g_1000051340扶持计划 - 云应用篇扶持计划说明:https://help.aliyun.com/document_detail/113009.html申请入口:https://yq.aliyun.com/activity/820?utm_content=g_1000051340本文作者:管理贝贝 阅读原文本文为云栖社区原创内容,未经允许不得转载。

April 10, 2019 · 1 min · jiezi

刚刚,阿里宣布开源Flutter应用框架Fish Redux!

3月5日,闲鱼宣布在GitHub上开源Fish Redux,Fish Redux是一个基于 Redux 数据管理的组装式 flutter 应用框架, 特别适用于构建中大型的复杂应用,它最显著的特征是 函数式的编程模型、可预测的状态管理、可插拔的组件体系、最佳的性能表现。下文中,我们将详细介绍Fish Redux的特点和使用过程,以下内容来自InfoQ独家对闲鱼Flutter团队的采访和Fish Redux的开源文档。开源背景在闲鱼接入Flutter之初,由于我们的落地的方案希望是从最复杂的几个主链路进行尝试来验证flutter完备性的,而我们的详情整体来讲业务比较复杂,主要体现在两个方面:页面需要集中状态管理,也就是说页面的不同组件共享一个数据来源,数据来源变化需要通知页面所有组件。页面的UI展现形式比较多(如普通详情、闲鱼币详情、社区详情、拍卖详情等),工作量大,所以UI组件需要尽可能复用,也就是说需要比较好的进行组件化切分。在我们尝试使用市面上已有的框架(google提供的redux以及bloc)的时候发现,没有任何一个框架可以既解决集中状态管理,又能解决UI的组件化的,因为本身这两个问题有一定的矛盾性(集中vs分治)。因此我们希望有一套框架能解决我们的问题,fish redux应运而生。fish redux本身是经过比较多次的迭代的,目前大家看到的版本经过了3次比较大的迭代,实际上也是经过了团队比较多的讨论和思考。第一个版本是基于社区内的flutter_redux进行的改造,核心是提供了UI代码的组件化,当然问题也非常明显,针对复杂的详情和发布业务,往往业务逻辑很多,无法做到逻辑代码的组件化。第二个版本针对第一个版本的问题,做出了比较重大的修改,解决了UI代码和逻辑代码的分治问题,但同时,按照redux的标准,打破了redux的原则,对于精益求精的闲鱼团队来讲,不能接受;因此,在第三个版本进行重构时,我们确立了整体的架构原则与分层要求,一方面按照reduxjs的代码进行了flutter侧的redux实现,将redux的原则完整保留下来。另一方面针对组件化的问题,提供了redux之上的component的封装,并创新的通过这一层的架构设计提供了业务代码分治的能力。至此,我们完成了fish redux的基本设计,但在后续的应用中,发现了业务组装以后的代码性能问题,针对该问题,我们再次提供了对应的adapter能力,保障了在长列表场景下的big cell问题。目前,fish redux已经在线上稳定运行超过3个月以上,未来,期待fish redux给社区带来更多的输入。Fish Redux技术解析分层架构图架构图:主体自底而上,分两层,每一层用来解决不通层面的问题和矛盾,下面依次来展开。ReduxRedux 是来自前端社区的一个数据管理框架,对 Native开发同学来说可能会有一点陌生,我们做一个简单的介绍。Redux 是做什么的?Redux 是一个用来做可预测易调试的数据管理的框架。所有对数据的增删改查等操作都由 Redux 来集中负责。Redux 是怎么设计和实现的?Redux 是一个函数式的数据管理的框架。传统 OOP 做数据管理,往往是定义一些 Bean,每一个 Bean 对外暴露一些 Public-API 用来操作内部数据(充血模型)。函数式的做法是更上一个抽象的纬度,对数据的定义是一些 Struct(贫血模型),而操作数据的方法都统一到具有相同函数签名 (T, Action) => T 的 Reducer 中。FP:Struct(贫血模型) + Reducer = OOP:Bean(充血模型)同时 Redux 加上了 FP 中常用的 Middleware(AOP) 模式和 Subscribe 机制,给框架带了极高的灵活性和扩展性。贫血模型、充血模型请参考:https://en.wikipedia.org/wiki/Plain_old_Java_objectRedux 的缺点Redux 核心仅仅关心数据管理,不关心具体什么场景来使用它,这是它的优点同时也是它的缺点。在我们实际使用 Redux 中面临两个具体问题:Redux 的集中和 Component 的分治之间的矛盾;Redux 的 Reducer 需要一层层手动组装,带来的繁琐性和易错性。Fish Redux 的改良Fish Redux 通过 Redux 做集中化的可观察的数据管理。然不仅于此,对于传统 Redux 在使用层面上的缺点,在面向端侧 flutter 页面纬度开发的场景中,我们通过更好更高的抽象,做了改良。一个组件需要定义一个数据(Struct)和一个 Reducer。同时组件之间存在着父依赖子的关系。通过这层依赖关系,我们解决了【集中】和【分治】之间的矛盾,同时对 Reducer 的手动层层 Combine 变成由框架自动完成,大大简化了使用 Redux 的困难。我们得到了理想的集中的效果和分治的代码。对社区标准的 followState、Action、Reducer、Store、Middleware 以上概念和社区的 ReduxJS 是完全一致的。我们将原汁原味地保留所有的 Redux 的优势。如果想对 Redux 有更近一步的理解,请参考:https://github.com/reduxjs/reduxComponent组件是对局部的展示和功能的封装。 基于 Redux 的原则,我们对功能细分为修改数据的功能(Reducer)和非修改数据的功能(副作用 Effect)。于是我们得到了,View、 Effect、Reducer 三部分,称之为组件的三要素,分别负责了组件的展示、非修改数据的行为、修改数据的行为。这是一种面向当下,也面向未来的拆分。在面向当下的 Redux 看来,是数据管理和其他。在面向未来的 UI-Automation 看来是 UI 表达和其他。UI 的表达对程序员而言即将进入黑盒时代,研发工程师们会把更多的精力放在非修改数据的行为、修改数据的行为上。组件是对视图的分治,也是对数据的分治。通过逐层分治,我们将复杂的页面和数据切分为相互独立的小模块。这将利于团队内的协作开发。关于 ViewView 仅仅是一个函数签名: (T,Dispatch,ViewService) => Widget它主要包含三方面的信息视图是完全由数据驱动。视图产生的事件/回调,通过 Dispatch 发出“意图”,不做具体的实现。需要用到的组件依赖等,通过 ViewService 标准化调用。比如一个典型的符合 View 签名的函数。关于 EffectEffect 是对非修改数据行为的标准定义,它是一个函数签名: (Context, Action) => Object它主要包含四方面的信息接收来自 View 的“意图”,也包括对应的生命周期的回调,然后做出具体的执行。它的处理可能是一个异步函数,数据可能在过程中被修改,所以我们不崇尚持有数据,而通过上下文来获取最新数据。它不修改数据, 如果修要,应该发一个 Action 到 Reducer 里去处理。它的返回值仅限于 bool or Future, 对应支持同步函数和协程的处理流程。比如良好的协程的支持:关于 ReducerReducer 是一个完全符合 Redux 规范的函数签名:(T,Action) => T一些符合签名的 Reducer:同时我们以显式配置的方式来完成大组件所依赖的小组件、适配器的注册,这份依赖配置称之为 Dependencies。所以有这样的公式 Component = View + Effect(可选) + Reducer(可选) + Dependencies(可选)。一个典型的组装:通过 Component 的抽象,我们得到了完整的分治,多纬度的复用,更好的解耦。AdapterAdapter 也是对局部的展示和功能的封装。它为 ListView 高性能场景而生,它是 Component 实现上的一种变化。它的目标是解决 Component 模型在 flutter-ListView 的场景下的 3 个问题:1)将一个"Big-Cell"放在 Component 里,无法享受 ListView 代码的性能优化;2)Component 无法区分 appear|disappear 和 init|dispose ;3)Effect 的生命周期和 View 的耦合,在 ListView 的场景下不符合直观的预期。概括的讲,我们想要一个逻辑上的 ScrollView,性能上的 ListView ,这样的一种局部展示和功能封装的抽象。做出这样独立一层的抽象是我们看实际的效果,我们对页面不使用框架Component,使用框架 Component+Adapter 的性能基线对比。Reducer is long-lived, Effect is medium-lived, View is short-lived.我们通过不断的测试做对比,以某 Android机为例:使用框架前 我们的详情页面的 FPS,基线在 52FPS;使用框架, 仅使用 Component 抽象下,FPS 下降到 40, 遭遇“Big-Cell”的陷阱;使用框架,同时使用 Adapter 抽象后,FPS 提升到 53,回到基线以上,有小幅度的提升。Directory推荐的目录结构会是这样sample_page– action.dart– page.dart– view.dart– effect.dart– reducer.dart– state.dartcomponentssample_component– action.dart– component.dart– view.dart– effect.dart– reducer.dart– state.dart上层负责组装,下层负责实现, 同时会有一个插件提供, 便于我们快速填写。以闲鱼的详情场景为例的组装:组件和组件之间,组件和容器之间都完全的独立。Communication Mechanism组件|适配器内通信组件|适配器间内通信简单的描述:采用的是带有一段优先处理的广播, self-first-broadcast。发出的 Action,自己优先处理,否则广播给其他组件和 Redux 处理。最终我们通过一个简单而直观的 dispatch 完成了组件内,组件间(父到子,子到父,兄弟间等)的所有的通信诉求。Refresh Mechanism数据刷新局部数据修改,自动层层触发上层数据的浅拷贝,对上层业务代码是透明的。层层的数据的拷贝:一方面是对 Redux 数据修改的严格的 follow。另一方面也是对数据驱动展示的严格的 follow。视图刷新扁平化通知到所有组件,组件通过 shouldUpdate 确定自己是否需要刷新。Fish Redux的优点数据的集中管理通过 Redux 做集中化的可观察的数据管理。我们将原汁原味地保留所有的 Redux 的优势,同时在 Reducer 的合并上,变成由框架代理自动完成,大大简化了使用 Redux 的繁琐度。组件的分治管理组件既是对视图的分治,也是对数据的分治。通过逐层分治,我们将复杂的页面和数据切分为相互独立的小模块。这将利于团队内的协作开发。View、Reducer、Effect 隔离将组件拆分成三个无状态的互不依赖的函数。因为是无状态的函数,它更易于编写、调试、测试、维护。同时它带来了更多的组合、复用和创新的可能。声明式配置组装组件、适配器通过自由的声明式配置组装来完成。包括它的 View、Reducer、Effect 以及它所依赖的子项。良好的扩展性核心框架保持自己的核心的三层关注点,不做核心关注点以外的事情,同时对上层保持了灵活的扩展性。框架甚至没有任何的一行的打印的代码,但我们可通过标准的 Middleware 来观察到数据的流动,组件的变化。在框架的核心三层外,也可以通过 dart 的语言特性 为 Component 或者 Adapter 添加 mixin,来灵活的组合式地增强他们的上层使用上的定制和能力。框架和其他中间件的打通,诸如自动曝光、高可用等,各中间件和框架之间都是透明的,由上层自由组装。精小、简单、完备它非常小,仅仅包含 1000 多行代码;它使用简单,完成几个小的函数,完成组装,即可运行;它是完备的。关于未来开源之后,闲鱼打算通过以下方式来维护Fish Redux:通过后续的一系列的对外宣传,吸引更多的开发者加入或者使用。目前Flutter生态里,应用框架还是空白,有机会成为事实标准;配合后续的一系列的闲鱼Flutter移动中间件矩阵做开源;进一步提供,一系列的配套的开发辅助调试工具,提升上层Flutter开发效率和体验。Fish Redux 目前已在阿里巴巴闲鱼技术团队内多场景,深入应用。最后 Talk is cheap, Show me the code,我们今天正式在GitHub上开源,更多内容,请到GitHub了解。GitHub地址:https://github.com/alibaba/fish-redux本文作者:闲鱼技术-吉丰阅读原文本文为云栖社区原创内容,未经允许不得转载。 ...

March 7, 2019 · 2 min · jiezi

2亿用户背后的Flutter应用框架Fish Redux

背景在闲鱼深度使用 Flutter 开发过程中,我们遇到了业务代码耦合严重,代码可维护性糟糕,如入泥泞。对于闲鱼这样的负责业务场景,我们需要一个统一的应用框架来摆脱当下的开发困境,而这也是 Flutter 领域空缺的一块处女地。Fish Redux 是为解决上面问题上层应用框架,它是一个基于 Redux 数据管理的组装式 flutter 应用框架, 特别适用于构建中大型的复杂应用。它的最大特点是配置式组装, 一方面将一个大的页面,对视图和数据层层拆解为互相独立的 Component|Adapter,上层负责组装,下层负责实现,另一方面将 Component|Adapter 拆分为 View,Reducer,Effect 等相互独立的上下文无关函数。所以它会非常干净,易编写、易维护、易协作。Fish Redux 的灵感主要来自于 Redux、React、Elm、Dva 这样的优秀框架,而 Fish Redux 站在巨人的肩膀上,将集中,分治,复用,隔离做的更进一步。分层架构图架构图,主体自底而上,分三层,每一层用来解决不通层面的问题和矛盾,下面依次来展开。ReduxRedux 是来自前端社区的一个数据管理框架, 对 Native 开发同学来说可能会有一点陌生,我们做一个简单的介绍。Redux 做什么的?Redux 是一个用来做可预测易调试的数据管理的框架。所有对数据的增删改查等操作都由 Redux 来集中负责。Redux 是怎么设计和实现的?Redux 是一个函数式的数据管理的框架。传统 OOP 做数据管理,往往是定义一些 Bean,每一个 Bean 对外暴露一些 Public-API 用来操作内部数据(充血模型)。函数式的做法是更上一个抽象的纬度,对数据的定义是一些 Struct(贫血模型),而操作数据的方法都统一到具有相同函数签名 (T, Action) => T 的 Reducer 中。FP:Struct(贫血模型) + Reducer = OOP:Bean(充血模型)同时 Redux 加上了 FP 中常用的 Middleware(AOP) 模式和 Subscribe 机制,给框架带了极高的灵活性和扩展性。贫血模型、充血模型 参考:https://en.wikipedia.org/wiki/Plain_old_Java_objectRedux 的缺点Redux 核心仅仅关心数据管理,不关心具体什么场景来使用它,这是它的优点同时也是它的缺点。在我们实际使用 Redux 中面临两个具体问题Redux 的集中和 Component 的分治之间的矛盾。Redux 的 Reducer 需要一层层手动组装,带来的繁琐性和易错性。Fish Redux 的改良Fish Redux 通过 Redux 做集中化的可观察的数据管理。然不仅于此,对于传统 Redux 在使用层面上的缺点,在面向端侧 flutter 页面纬度开发的场景中,我们通过更好更高的抽象,做了改良。一个组件需要定义一个数据(Struct)和一个 Reducer。同时组件之间存在着父依赖子的关系。通过这层依赖关系,我们解决了【集中】和【分治】之间的矛盾,同时对 Reducer 的手动层层 Combine 变成由框架自动完成,大大简化了使用 Redux 的困难。我们得到了理想的集中的效果和分治的代码。对社区标准的 followState、Action、Reducer、Store、Middleware 以上概念和社区的 ReduxJS 是完全一致的。我们将原汁原味地保留所有的 Redux 的优势。如果想对 Redux 有更近一步的理解,请参考 https://github.com/reduxjs/reduxComponent组件是对局部的展示和功能的封装。 基于 Redux 的原则,我们对功能细分为修改数据的功能(Reducer)和非修改数据的功能(副作用 Effect)。于是我们得到了,View、 Effect、Reducer 三部分,称之为组件的三要素,分别负责了组件的展示、非修改数据的行为、修改数据的行为。这是一种面向当下,也面向未来的拆分。在面向当下的 Redux 看来,是数据管理和其他。在面向未来的 UI-Automation 看来是 UI 表达和其他。UI 的表达对程序员而言即将进入黑盒时代,研发工程师们会把更多的精力放在非修改数据的行为、修改数据的行为上。组件是对视图的分治,也是对数据的分治。通过逐层分治,我们将复杂的页面和数据切分为相互独立的小模块。这将利于团队内的协作开发。关于 ViewView 仅仅是一个函数签名: (T,Dispatch,ViewService) => Widget它主要包含三方面的信息视图是完全由数据驱动。视图产生的事件/回调,通过 Dispatch 发出“意图”,不做具体的实现。需要用到的组件依赖等,通过 ViewService 标准化调用。比如一个典型的符合 View 签名的函数关于 EffectEffect 是对非修改数据行为的标准定义,它是一个函数签名: (Context, Action) => Object它主要包含四方面的信息接收来自 View 的“意图”,也包括对应的生命周期的回调,然后做出具体的执行。它的处理可能是一个异步函数,数据可能在过程中被修改,所以我们不崇尚持有数据,而通过上下文来获取最新数据。它不修改数据, 如果修要,应该发一个 Action 到 Reducer 里去处理。它的返回值仅限于 bool or Future, 对应支持同步函数和协程的处理流程。比如:良好的协程的支持关于 ReducerReducer 是一个完全符合 Redux 规范的函数签名:(T,Action) => T一些符合签名的 Reducer同时我们以显式配置的方式来完成大组件所依赖的小组件、适配器的注册,这份依赖配置称之为 Dependencies。所以有这样的公式 Component = View + Effect(可选) + Reducer(可选) + Dependencies(可选)。一个典型的组装通过 Component 的抽象,我们得到了完整的分治,多纬度的复用,更好的解耦。AdapterAdapter 也是对局部的展示和功能的封装。它为 ListView 高性能场景而生,它是 Component 实现上的一种变化。它的目标是解决 Component 模型在 flutter-ListView 的场景下的 3 个问题1)将一个"Big-Cell"放在 Component 里,无法享受 ListView 代码的性能优化。2)Component 无法区分 appear|disappear 和 init|dispose 。3)Effect 的生命周期和 View 的耦合,在 ListView 的场景下不符合直观的预期。概括的讲,我们想要一个逻辑上的 ScrollView,性能上的 ListView ,这样的一种局部展示和功能封装的抽象。做出这样独立一层的抽象是,我们看实际的效果, 我们对页面不使用框架,使用框架 Component,使用框架 Component+Adapter 的性能基线对比Reducer is long-lived, Effect is medium-lived, View is short-lived.我们通过不断的测试做对比,以某 android 机为例:使用框架前 我们的详情页面的 FPS,基线在 52FPS。使用框架, 仅使用 Component 抽象下,FPS 下降到 40, 遭遇“Big-Cell”的陷阱。使用框架,同时使用 Adapter 抽象后,FPS 提升到 53,回到基线以上,有小幅度的提升。Directory推荐的目录结构会是这样sample_page– action.dart– page.dart– view.dart– effect.dart– reducer.dart– state.dartcomponentssample_component– action.dart– component.dart– view.dart– effect.dart– reducer.dart– state.dart上层负责组装,下层负责实现, 同时会有一个插件提供, 便于我们快速填写。以闲鱼的详情场景为例的组装:组件和组件之间,组件和容器之间都完全的独立。Communication Mechanism组件|适配器内通信组件|适配器间内通信简单的描述:采用的是带有一段优先处理的广播, self-first-broadcast。发出的 Action,自己优先处理,否则广播给其他组件和 Redux 处理。最终我们通过一个简单而直观的 dispatch 完成了组件内,组件间(父到子,子到父,兄弟间等)的所有的通信诉求。Refresh Mechanism数据刷新局部数据修改,自动层层触发上层数据的浅拷贝,对上层业务代码是透明的。层层的数据的拷贝一方面是对 Redux 数据修改的严格的 follow。另一方面也是对数据驱动展示的严格的 follow。视图刷新扁平化通知到所有组件,组件通过 shouldUpdate 确定自己是否需要刷新优点数据的集中管理通过 Redux 做集中化的可观察的数据管理。我们将原汁原味地保留所有的 Redux 的优势,同时在 Reducer 的合并上,变成由框架代理自动完成,大大简化了使用 Redux 的繁琐度。组件的分治管理组件既是对视图的分治,也是对数据的分治。通过逐层分治,我们将复杂的页面和数据切分为相互独立的小模块。这将利于团队内的协作开发。View、Reducer、Effect 隔离将组件拆分成三个无状态的互不依赖的函数。因为是无状态的函数,它更易于编写、调试、测试、维护。同时它带来了更多的组合、复用和创新的可能。声明式配置组装组件、适配器通过自由的声明式配置组装来完成。包括它的 View、Reducer、Effect 以及它所依赖的子项。良好的扩展性核心框架保持自己的核心的三层关注点,不做核心关注点以外的事情,同时对上层保持了灵活的扩展性。框架甚至没有任何的一行的打印的代码,但我们可通过标准的 Middleware 来观察到数据的流动,组件的变化。在框架的核心三层外,也可以通过 dart 的语言特性 为 Component 或者 Adapter 添加 mixin,来灵活的组合式地增强他们的上层使用上的定制和能力。框架和其他中间件的打通,诸如自动曝光、高可用等,各中间件和框架之间都是透明的,由上层自由组装。精小、简单、完备它非常小,仅仅包含 1000 多行代码。它使用简单,完成几个小的函数,完成组装,即可运行。它是完备的。Fish Redux 目前已在阿里巴巴闲鱼技术团队内多场景,深入应用。本文作者:闲鱼技术-吉丰阅读原文本文为云栖社区原创内容,未经允许不得转载。 ...

January 18, 2019 · 2 min · jiezi