关于数据:集简云-×-浙江诺盾-无代码集成有成财务与简道云让财务数据数智化流转率

<article class=“article fmt article-content”><p>客户介绍</p><p>浙江诺盾消防科技有限公司,始建于1998年。公司领有消防设施工程业余承包壹级资质、劳务分包资质、消防技术服务资质等,立足绍兴、南京、苏州等长三角地区,辐射全国,业余为地铁、隧道、储能等行业提供消防安全系统集成计划,领有集成、销售、制作、施工等全方位、一体化解决消防安全问题能力。</p><p>超过25年业余制作教训及劣势生产资源,联合外围团队业余研发能力和丰盛技术服务教训,令诺盾系企业在火灾探测及灭火零碎、手持式灭火器、压力容器及防灾成套设备等方面,具备成熟制作能力和业余集成能力,已倒退成为国内消防行业的标杆企。<br/>遇到的问题</p><p>随着企业规模的扩充和业务的复杂化,传统的财务管理形式经常面临效率低下和数据处理不准确的问题,也使公司在日常经营中越发感触到传统财务管理模式的局限性和效率瓶颈。</p><p>公司外部应用多个零碎来应答不同的财务场景:例如有成财务,钉钉智能薪酬以及简道云,用来同步相干存储相干财务数据以做后续财务剖析。</p><p>然而零碎之间的不互通,导致行政团队须要用传统的人工形式操作,每天的报销审批以及每月的薪资数据须要从有成财务和智能薪酬零碎中手动导出,再手动录入简道云做老本剖析和财务汇报。</p><p>痛点一:财务人员须要消耗大量工夫在数据导入导出、公式计算和图表制作上。这一过程更是繁琐且易出错。</p><p>痛点二:因为分子公司泛滥,数据量一直增长,这种人工操作的形式更是显得力不从心,尤其是对于月度或年度的财务报告无奈满足企业领导层对于数据分析的需要。</p><p>在数字化浪潮的推动下,诺盾也在积极探索“通过缩小人工染指,简化操作,将财务流程自动化的形式,以便领导层可能及时做出更为理智的决策“的计划。</p><p>集简云&解决方案</p><p>为解决上述问题,公司抉择了集简云。集简云软件连接器,无需开发能够将财务ERP、OA、电商、CRM等800+SaaS软件系统疾速建设连贯,让数据在零碎间无效传递,助力企业实现数据驱动业务、业务交融场景的服务闭环。</p><p>面对该公司的问题,集简云提供了一套全面的解决方案。通过集简云,公司的有成财务、钉钉智能薪酬和简道云胜利买通,实现了数据的互通和共享。</p><p>实现场景一:有成财务员工报销、付款审批等单据同步到简道云。</p><p>当分子公司员工在有成财务提交的报销或付款审批通过后,主动将单据数据同步到简道云中,不便后续做老本剖析。</p><p>实现场景二:钉钉智能薪酬工资数据同步到简道云。</p><p>当分子公司每月员工薪资发放后,主动将工资数据同步到简道云做后续的数据分析。</p><p>价值与反馈</p><p>通过测试到正式投入使用自动化流程,一个月的工夫已让公司领导对集简云的服务给予了高度的评估和认可。</p><p>财务团队不再须要消耗大量工夫手动导入导出数据,自动化流程缩小了人工操作的工夫和老本,同时升高了因手动谬误导致的财务危险。后续只需在简道云拉取规范公式即可主动疾速进行数据分析,当初,领导层可能基于及时、精确的数据进行剖析,疾速做出理智的决策,大大提高了企业的响应速度和市场竞争力。</p><p>集简云的自动化流程不仅晋升了企业的经营效率,也带来了更好的员工体验和行政治理的便捷性。这一翻新技术的引入,是企业数字化转型过程中的一大步,对企业的长期倒退和市场竞争力有着踊跃的推动作用。</p></article>

February 29, 2024 · 1 min · jiezi

关于数据:漫谈数据分布可视化分析

作者 | FesianXu 导读在理论工作中,咱们常常会遇到一堆数据,对数据的无效剖析至为要害,而数据的散布就是一种十分重要的数据属性,须要通过适合的可视化伎俩进行剖析。本文参考[1],基于seaborn库介绍一些罕用的数据分布可视化办法。 全文8720字,预计浏览工夫22分钟 数据的散布,咱们能够了解为是“数据的形态”。一个“完满”的数据分布,会将数据所有可能的数据点都囊括其中,因而数据的散布表征了不同数据之间的本质区别。然而现实生活的数据不可能对所有可能的数据点都进行遍历(因为通常会有有限个数据点),因而咱们通常都是在某个采样的子集中,尝试对数据本原的散布进行剖析。常见的数据分布可视化办法有以下几种: 1.直方图(Histogram) 2.条件直方图(Conditional Histogram) 3.核密度估计图(Kernel Density Estimation,KDE) 4.累积散布函数图(Empirical Cumulative Distribution Function, ECDF) 5.箱型图(boxplot) 6.提琴图(violin plot) 7.二元直方图(bivariate histogram) 8.联结概率分布曲线(Joint Distribution Plot) 9.边缘概率分布曲线(Marginal Distribution Plot) 如Fig 1.所示,咱们以penguins数据集为例子别离进行介绍 △Fig 1. penguins数据集,一共有344条数据,每条数据有7个维度的属性。 01 单变量直方图单变量直方图(univariate histogram)是一种单变量的散布可视化办法,将所有数据点进行分桶,而后统计落在某个桶里的数据点的频次,以柱形图的模式将每个桶的频次绘制进去。如Fig 1.1所示,咱们对penguins数据中的flipper_length_mm属性进行直方图绘制。 import seaborn as snsdata = sns.load_dataset("penguins", data_home="./data/seaborn-data")# 能够筛选不同的分桶数量bins,或者每个桶的宽度ret = sns.displot(data, x='flipper_length_mm', bins=20)ret = sns.displot(data, x='flipper_length_mm', bins=50)ret = sns.displot(data, x='flipper_length_mm', binwidth=5)△Fig 1.1 对penguins数据的flipper_length_mm属性进行绘制直方图,从左到右,别离是(a)分桶数是20,(b)分桶数50,(c)分桶宽度是5。 咱们发现,选取不同的分桶数量和分桶宽度对于整个散布可视化后果影响很大。分桶越多,散布越粗疏,但也越容易被某些噪声影响咱们剖析整体散布趋势,个别在理论中咱们通常会选取多个分桶数进行尝试。原始的直方图统计的是分桶中的数据频次,不同数据的总数不同因而频次并不可比,通常能够思考进行归一化解决。如Fig 1.2所示,通常有两种类型的归一化:密度归一化,概率归一化。密度归一化指的是所有柱形面积和为1,概率归一化指的是所有柱形的高度和为1。密度归一化的状况下,因为纵坐标的数值会受到横坐标数值尺度的影响,通常是不可比,而概率归一化不须要思考横坐标的数值尺度,因而通常是可比的。 ret = sns.displot(data, x='flipper_length_mm', bins=20, stat='density') # 密度归一模式的归一化ret = sns.displot(data, x='flipper_length_mm', bins=20, stat='probability') # 概率归一模式的归一化△Fig 1.2 (a) 密度归一模式的归一化; (b)概率归一模式的归一化。 ...

February 22, 2024 · 3 min · jiezi

关于数据:华为云ROMA-Connect行业生态联盟成立携手共建行业软件合作新生态

9月22日,在上海举办的华为全联接大会2023大会上,华为云ROMA Connect联结多家生态搭档,成立华为云ROMA Connect行业生态联盟,携手共建企业应用集成平台和行业软件单干新生态,致力于为客户数字化转型提供更业余的联结解决方案,突破工夫、空间、凋谢鸿沟,联接企业当初与将来。 华为云ROMA Connect行业生态联盟成立典礼 加入华为云ROMA Connect行业生态联盟成立典礼的搭档企业是:中软国内有限公司、软通能源信息技术(团体)股份有限公司、用友网络科技股份有限公司、金蝶软件(中国)有限公司、浙江讯盟科技有限公司、上海恒时计算机信息技术有限公司、江苏金智教育信息股份有限公司、广州市玄武无线科技股份有限公司、深圳竹云科技股份有限公司。 携手搭档,共建企业应用集成平台与行业软件单干新生态 华为云PaaS服务产品部副部长张甲磊、华为云利用集成域总监吴建林、华为云ROMA Connect产品专家马兵东,以及联盟各成员搭档领导缺席公布典礼。张甲磊示意,华为云ROMA Connect曾经在九大行业落地,助力政企数字化转型,华为凭借ROMA Connect间断两年进入Gartner iPaaS魔力象限,也是进入此魔力象限的惟一亚洲厂商。ROMA Connect保持凋谢的集成和被集成生态策略,预集成丰盛的行业软件,凋谢行业资产市场,致力于建设面向千行万业的丰盛的预集成解决方案,升高客户开箱即用门槛。成立行业生态联盟旨在倒退ROMA Connect四类合作伙伴,包含数字化转型征询与系统集成搭档、软件搭档、服务搭档、学习和赋能搭档四类合作伙伴,携手共建企业应用集成平台和行业软件单干新生态,为客户数字化转型提供更业余的联结解决方案。 上海恒时计算机信息技术有限公司市场部经营经理杨亮介绍,作为华为云合作伙伴,在与ROMA Connect多年单干中积淀了丰盛的实践经验,也取得了华为云利用集成能力标签认证,将来心愿携手华为云与行业内搭档,积淀更多行业利用集成资产、最佳实际和解决方案,开启辉煌新篇章,共建行业生态。 江苏金智教育信息股份有限公司CMO焦娆介绍了与华为云ROMA Connect的单干成绩。在智慧校园解决方案中,金智教育联结ROMA Connect构建高校智能数据基座枢纽,突破业务和数据壁垒,推动利用零碎交融,晋升体验和效率。目前,金智教育协同华为云ROMA Connect曾经服务全国10余所高校,全面联接高校中的人、事、物,实现业务全联接、高智能、超平安。将来,金智教育将联结华为云,以继续的行业实际,助力高校数字化转型。                 以后行业软件市场面临诸多挑战 多利用协同是常态,利用集成定制多造成的业务融入难反复造轮子,难以积淀可复用能力造成的能力复用难获客老本高、业务拓展难度大造成的商业拓展难ROMA Connect 与行业搭档共建生态,单干共赢 华为云ROMA Connect作为新一代iPaaS全域交融智能集成平台,融入了低代码技术和组装式交付理念,提供了一体化的集成解决方案,帮忙企业疾速、高效、低成本的连贯利用和数据,买通数据孤岛;连贯IT与OT,打消物联网数据鸿沟;连贯多云,买通企业能力边界;买通企业与生态,协同价值链;构建业务敏捷性,驱动数字化转型。 华为云ROMA Connect联结搭档,构建行业解决方案,助力各个行业上云、用云,向数字化、智能化转型。 数字化转型征询与系统集成搭档:为客户提供数字化转型征询和施行,基于ROMA Connect丰盛的预集成能力和弱小的扩大能力,为客户量身定制专属解决方案。 学习和赋能搭档:为客户、搭档、开发者提供企业数字化转型和企业集成布局、企业集成架构赋能和培训服务。 服务搭档:为客户提供基于ROMA Connect的上云解决方案,布局、施行遗留零碎上云计划,“立而不破”数字化转型。 软件搭档:与ROMA Connect产品预集成、互认证,联结公布行业数字化转型解决方案。   面向未来,华为云ROMA Connect会联结更多合作伙伴,在全域交融集成、组装式交付、智能集成和自动化等畛域继续翻新,为开发者带来更智能、更高效、更灵便的集成体验,助力客户打造数字化“信息枢纽”基础设施,实现企业应用现代化。 辨认下方二维码 理解ROMA Connect https://www.huaweicloud.com/product/roma.html

September 25, 2023 · 1 min · jiezi

关于数据:成功入选-2023-谷歌出海创业加速器Tapdata-乘势远航

9月6日,2023 Google 开发者大会的收官之行于上海拉开帷幕。会间,官网正式颁布了最新一期谷歌出海守业加速器入营名单,Tapdata 胜利入选:长期以来,Google 开发者大会为开发者提供了一个举世无双的学习和单干机会,这是一场汇聚寰球创新者的团聚,激励翻新思维。从中可能深刻理解最新的技术趋势、工具和平台,与行业内顶尖专家互动,分享教训,建立联系,从而一直进步本身的技术能力和翻新后劲。 除了为开发者摸索技术提供帮忙,谷歌还大力支持守业企业在出海舞台上发光发热。谷歌出海守业加速器便是谷歌为出海守业企业量身定制的我的项目。 外部环境的诸多不确定性背后,出海企业的时机与挑战并存,正在踊跃寻求更广大的的倒退空间。 而作为中国出海初创企业 “同行者”,谷歌出海守业加速器依靠 Google for Startups Accelerator 守业课程体系,谷歌出海守业加速器为入营企业提供三个月的收费守业反对,为企业量身定制课程,同时提供大咖导师团一对一实战辅导等多元化的赋能反对,旨在助力优良的中国守业企业打造内功、夯实根底、归集资源、制胜海内。 大会上,2022 年加速器校友亲临现场,从本身视角登程进行分享,让参会者充沛理解到谷歌赋能中国的开发者和初创生态的理论动作。 与此同时,2023 谷歌出海加速器也在本次大会期间正式开营,胜利入营的企业将一起加入前期为期三个月的出海守业培训。 开营日现场,Tapdata 创始人兼 CEO 唐建法(TJ),与同期入选的多家出海团队搭档互动交换,分享了 Tapdata 的产品布局与出海构想。充分利用谷歌出海守业加速器提供的各项资源,以及守业企业的生机与灵便劣势,Tapdata 将与大家一起扬帆海内,决胜千里。 日趋成熟稳固的国内版本,与行将减速启航的海内策略齐头并进,Tapdata 将为寰球用户带来高质量的实时数据服务。 对于 Tapdata Tapdata Inc.「深圳钛铂数据有限公司」,成立于2019年9月,外围员工来自 MongoDB、Oracle、百度、阿里、腾讯等,研发人员占比超90%,至今已获五源资本等多家头部风投数千万美元融资。已服务周生生、中国移动、中国联通、南方电网、中国一汽、富邦银行、罗辑思维等数十家行业标杆企业。Tapdata 保持“凋谢+开源”策略,推出 Tapdata Cloud,将无代码数据实时同步的能力以 SaaS 的模式收费凋谢,目前已积攒 12,000+ 注册用户,笼罩电商、金融、制作等多个行业。此外,Tapdata 社区版也已公布,正在面向开发者逐渐共享其外围性能。 Tapdata 是一个以低提早数据挪动为外围劣势构建的古代数据平台,反对将企业外围数据实时集中到地方化数据平台,并通过 API 或反向同步形式, 为上游的交互式利用、微服务或交互式剖析提供陈腐实时的数据。典型用例包含数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 解决。 产品劣势: 开箱即用与低代码可视化操作内置 100+ 数据连接器,稳固的实时采集和传输能力秒级响应的数据实时计算能力稳固易用的数据实时服务能力【相干浏览】 Tapdata Connector 实用指南:云原生数仓场景之数据实时同步到 DatabendTapdata Connector 实用指南:如何将 CRM 数据从 Salesforce 实时同步到 MongoDB 等其余库Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouseTapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery

September 21, 2023 · 1 min · jiezi

关于数据:一次元数据空间内存溢出的排查记录-京东云技术团队

在利用中,咱们应用的 SpringData ES的 ElasticsearchRestTemplate来做查问,应用形式不对,导致每次ES查问时都新实例化了一个查问对象,会加载相干类到元数据中。最终长时间运行后元数据呈现内存溢出; 问题起因:类加载过多,导致元数据OOM。非类实例多或者大对象问题; 排查形式: 查看JVM运行状况,发现元数据满导致内存溢出; 导出内存快照,通过OQL疾速定位肇事者; 排查对应类的应用场景和加载场景(重点序列化反射场景); 起源06-15 下午正摩肩擦掌的备战着早晨8点。收到预发机器的一个GC次数报警。 【正告】UMP JVM监控【正告】异步(async采集点:async.jvm.info(别名:jvm监控)15:42:40至15:42:50【xx.xx.xx.xxx(10174422426)(未知分组)】,JVM监控FullGC次数=2次[偏差0%],超过1次FullGC次数>=2次【工夫】2023-06-15 15:42:50【类型】UMP JVM监控第一工夫惊讶了下。该利用次要作用是接MQ音讯和定时工作,同时工作和MQ都和线上做了隔离,也没有收到大流量的告警。 先看了下对应JVM监控: 只看下面都狐疑是监控异样(之前用文件采集的时候有遇到过,看CPU的确有稳定。但堆根本无涨幅,狐疑非堆。) 问题排查定位剖析既然狐疑非堆,咱们先通过 jstat来看看状况 S0 S1 E O M CCS YGC YGCT FGC FGCT GCT 0.00 0.00 0.89 3.67 97.49 97.96 854 23.720 958 615.300 639.020 0.00 0.00 0.89 3.67 97.49 97.96 854 23.720 958 615.300 639.020 0.00 0.00 0.89 3.67 97.49 97.96 854 23.720 958 615.300 639.020 0.00 0.00 0.89 3.67 97.49 97.96 854 23.720 958 615.300 639.020 0.00 0.00 0.89 3.67 97.49 97.96 854 23.720 958 615.300 639.020M列代表了metaspace的使用率,以后曾经 97.49% 进一步印证了咱们的猜想。 ...

July 11, 2023 · 4 min · jiezi

关于数据:一文拆解复杂软件的无代码配置逻辑

最近教研组的小伙伴们收到了一些用户在试用smardaten过程中的困惑。为了解答大家的疑难,明天特地邀请了教研组的美女小姐姐,以一个比较简单易了解的场景“疫情填报”,来拆解一下smardaten如何撑持利用的搭建逻辑,以及smardaten作为企业级无代码与轻量级无代码的配置逻辑差别。课程链接在此奉上!:https://s3.smardaten.com/app/page/view?id=25b6f4b6-46c5-5855-...简略的来看,基于smardaten的配置过程能够分成两条线,最初进行合并。第一条线,以页面为核心,配置原型①定软件首页菜单、页面布局;搭建系列页面构造;②搭建系列页面框架,包含表单页、详情页、列表页、剖析页;③细化页面内容,插入各类企业级组件,设置组件款式,如名称、款式、占位。——这样就疾速实现了界面原型,能够拿去给用户确认需要了(零碎贴心的提供了一键补充演示数据,以假乱真!)第二条线,以数据为核心,进行数据筹备①搭建数据库构造,并在smardaten引入各类数据源;②通过组件实现数据计算、数据交换,做好数据筹备,期待调用;③构建数据分析图表组件、数据服务API,期待调用。——就这样疾速实现了软件所需的数据资源配置开发。最初,两条线合并为一条①在页面中,对组件进行数据资产绑定,并进行平安、权限等设置;②在页面中,设计页面交互动作、操作形式、逻辑管制。——这样就将一个软件原型转变为实在零碎啦~不管如许简单的软件系统,都是由以上几个步骤来实现的哦!共性与差别通过下面的合成,大家能够看到:smardaten作为“企业级无代码”与“一般轻量级低代码”搭建逻辑有些共性,即都是以页面为外围,先建设主菜单,通过前端元素串起来数据资产、页面逻辑、业务流、权限等多个应用软件因素。但smardaten为了适配较为简单的软件场景而生,与轻量级无代码相比,外围在两个方面进行了底层强化:               ① 数据能力有独自的底座撑持,并残缺笼罩了从“数据源-数据图书馆-交换机-分析仪-大屏-数据服务”等,使得数据资源唾手可得,随时期待软件开发人员的取用——如同地方厨房里的油盐酱醋,期待大厨!② 以“逻辑管制+服务编排”的组合利用来实现简单逻辑:如“逻辑管制”实现取值判断、条件分支、页面跳转等前台页面操作;“服务编排”实现变量计算、数据操作、Restful调用、缓存操作、循环断定等后盾数据库操作——成为解决简单逻辑的哼哈二将!解读就到这里,上面到你了快来试试吧!  SaaS版本 更快应用、沉迷体验数睿数据官网www.smardaten.com,右上角点击“试用环境”进入。SaaS版本为用户提供永恒收费体验,具备企业级无代码根底性能,满足无代码学习、数据管理、数据分析与可视化、利用搭建等场景。无论是有技术根底的还是业务部门无代码,体验者都能够上手体检。

June 30, 2023 · 1 min · jiezi

关于数据:Xline-v041-一个用于元数据管理的分布式KV存储

Xline是什么?咱们为什么要做Xline?Xline是一个基于Curp协定的,用于治理元数据的分布式KV存储。 现有的分布式KV存储大多采纳Raft共识协定,须要两次RTT能力实现一次申请。当部署在单个数据中心时,节点之间的提早较低,因而不会对性能产生大的影响。 然而,当跨数据中心部署时,节点之间的提早可能是几十或几百毫秒,此时 Raft 协定将成为性能瓶颈。Curp 协定就是为了解决这个问题而设计的。它能够在命令不抵触的状况下缩小一个RTT,从而进步性能。因而, Xline旨在实现高性能的数据拜访和跨数据中心场景下的强一致性。 V0.4.1版本有什么新性能?v0.4.1新版本性能、修复问题以及重构如下: 性能 减少察看进度告诉机制(issue#309),在pr#278 中解决。修复谬误 修复一个BUG #285,即在集成测试中,cmd_worker会呈现panic,在pr #286中解决。修复一个BUG #291,即集成测试案例 "test\_kv\_authorization "在某些状况下会阻塞,在pr #292中解决。修复一个bug #252,即通过发送SIGINT信号终止xline客户端后,xline客户端的工作会出现异常,在pr #255中解决。修复bug #284和#303,即集成测试用例 "test\_lock\_timeout "会呈现panic,并且锁的验证测试会阻塞,在pr #312中解决。重构 重构\`XlineServer\`,将一些微小的构造和办法分解成小的构造和办法,进步可读性(issue#293),在pr #294中解决。重构curp疾速读取实现(issue#270),在pr #297中解决。改良 "RocksSnapshot "的读写逻辑(issue#263),在pr#264中解决。重构watch服务器的实现(issue#253),在pr#262、#268、#278中解决。重构kv服务器的实现(issue#250),在pr #260中解决。重构lease服务器的实现(issue#251),在pr #276中解决。应用更好的办法来生成stream(issue#248),在pr #249中解决。欢送参加到Xline我的项目中咱们欢送任何对于Xline的踊跃奉献。目前在GitHub上有些工作并不需要深刻理解Curp协定或Xline这个我的项目,只须要理解API和Rust语言即可。即便您现处于入门阶段,并想要在开源我的项目中应用Rust语言,社区也会提供领导和帮忙,来疏导您更好地参加我的项目。 目前Xline提供 如下4个 good first issue : Improve the readability of boot up errors in Xline #330[Bug]: Wrong version from help #327[Refactor]: Merge entries and batch_index #256Use a unique propose id #219Xline的建设须要每一位对此感兴趣且违心付出的你们的参加,咱们期待你们的退出。 相干链接 · GitHub : https://github.com/datenlord/Xline · Curp相干论文 : ...

June 24, 2023 · 1 min · jiezi

关于数据:阿里云Alex-Chen数据就像浩瀚的宇宙

每天,咱们都会遇到一些没有答案的问题,比方:宇宙中有多少颗行星? 这个问题没有最终答案,毕竟,仅仅是咱们所在的银河系就有60 亿颗类地行星。而在阿里云智能资深产品总监、阿里云存储产品负责人 Alex Chen看来,明天人类生产生存中所产生的数据就像浩瀚的宇宙:数据量大,且一直收缩;暗藏着诸多难以预感的危险;同样受到引力的解放。而每一家企业都像一艘宇宙飞船,当飞翔在浩瀚的宇宙中时,须要卓有成效的措施去应答一直疾速收缩的数据、屏蔽各种危险和抗衡各种劫难、解脱数据引力解放实现宇宙速度以及发现数据内暗藏的价值。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1243185?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 19, 2023 · 1 min · jiezi

关于数据:坚持伙伴优先共创数据存储新生态

独特减速数智时代新过程面向千亿的市场空间,阿里云提出商业打算优先、理论奉献优先、能力匹配优先、商机报备优先和客户反对优先的“五项优先”准则,作为搭档优先的要害保障,让搭档释怀单干。 为了贯彻此条策略,阿里云智能资深产品总监 Alex Chen、阿里云智能资深经营专家蔡亮伟代表阿里云存储团队诚邀神州数码、袋鼠云、映云科技、数变科技、重庆典名、创云科技等 6 家有过深度单干的搭档进行深度交谈,充沛理解搭档的业务现状与理论需要,独特切磋将来的倒退方向与时机。阿里云与各合作伙伴明确了将来的倒退方向,从销售到研发、从产品到解决方案,阿里云将会利用自身最大限度的资源,为单方将来的独特倒退提供反对。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1205547?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 15, 2023 · 1 min · jiezi

关于数据:Maxcompute数据上云一致性比对

我写过很多如何去对数、如何批量对数的技术文档,最近我的项目遇到这个问题,我才发现在官网博客上还没有公布过这个课题的文章。这就像灯下黑,太长用到的知识点,反而没有意识到其重要性。注:这里对数的场景就是指在阿里云平台应用dataworks等大数据开发工具集成业务零碎数据库(oracle等)数据上云到maxcompute的场景,所以,示例的SQL也是针对maxcompute。先说说个别业务上怎么对数的,咱们做了一个报表,出了一个数据“某个产品卖了30个”。这个不只是在大数据平台上有这个数据,在业务零碎也有这个数据,这些统计动作在业务零碎通过程序和人工也会有一份,个别做好报表后会先对这个数据。所以,第一线反馈回来的数据就是这个汇总数据不统一的问题。然而这个后果是十分概括的,因为就像我感觉这个月工资少发了5毛一样,如果我不看我的工资条我其实不晓得本人是不是少发了。工资条不只是一个汇总数据,外面有我税前工资、奖金(浮动)、社保、扣税等一系列的明细数据,这些数据让我去判断我是不是少了5毛,而加工过的数据是简单的。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1204686?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 15, 2023 · 1 min · jiezi

关于数据:领域建模之数据模型设计方法论-京东云技术团队

本文通过理论业务需要场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于领导理论开发中如何进行业务模型向数据模型转化形象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者能够播种到业务模型向数据模型形象可参考的一种方法论,并针对前期业务需要变动,尽可能升高模型调整或者模型推a倒重建的危险。本文能够重点关注建模施行流程,针对本人理论业务场景,一直形象优化本人的数据模型。 一、背景从研发人员的角度登程,技术更多的是为业务赋能,同时研发人员也能够通过业务模型设计来晋升本人的技术,他们更多的是技术控,谋求领有更多的技术栈。不过明天不探讨具体的技术,筹备换一种思维模式来分享下本人在业务开发中的一些教训,并结合实际案例来论述针对业务场景进行数据建模的方法论。 开发人员在日常工作中,参加PRD评审、听产品经理讲述用户故事、提出各种需要。评审完结,个别会一股脑投入到设计开发,而数据库表设计就是其中不可或缺的一个过程。对于相熟的业务模块,通过对需要剖析,能够轻而易举的实现数据表设计,但对于非熟悉业务畛域,可能会通过多轮PRD剖析,整顿一套数据表构造根底,而后对其追加字段,就实现了根底的数据模型设计。而在这个过程中,往往会感觉没有能够参考的实践,有时候甚至对设计的数据库表产生狐疑,一直思考此设计是否合乎业务、表结构设计前期是否具备通用性、表之间关系是否失当可扩大等等。明天来谈些在理论业务开发中,针对数据建模的一些思考。 一个好的方法论肯定是通知你当你面对一个全新的业务场景或未知领域的时候,如何去独立剖析和解决问题。 二、名词畛域:能够了解为传统软件需要剖析中的业务场景对应的业务域,比方常见的电商、物流、运输等畛域。 子域:畛域的局部业务域,比方电商的局部订单、领取、库存等子域。 建模:业务域的映射和形象。 三、思考面向对象分析的设计思维模式: 图1. 用户角度到开发角度思考 四、方法论4.1  施行步骤辨认对象;组织对象;定义对象模型间关系;欠缺模型细节(属性、状态);畛域模型到数据模型映射;4.2 CASE实际(社区团购--预排线调度建模案例)(1)PRD需要形容 预排线零碎从OFC零碎获取团单数据:截单之前每天下午OFC推送一份当天须要预排线的数据进去,这些数据包含每个曾经成团的团单(生产单)和截止到以后工夫团单的商品数据,这外面蕴含当天曾经勾销的团单(即所有的商品数量都是0)。同时在截单之后,OFC会把截单后的团单数据再推送一次,外面蕴含当天曾经勾销的团单(所有的商品数量都是0); 团单数据创立、更新、删除:如果下发的生产单号在预排线零碎不存在,则创立团单信息;如果下发的生产单号在预排线零碎存在,则更新上面单商品的数量、团单的收件地址、经纬度、团长ID、姓名、电话等信息;如果有新增的商品则增加团单下的商品数据;如果更新的团单数量,其上面所有商品的个数都为0,代表这个团单曾经被勾销,则逻辑删除这个团单,同时勾销这个团单和对应线路的绑定关系;更新的商品数量都是更新的商品的以后数量,不会更新调度时的数量和理论的数量。 (2)辨认对象 Note: 复用或者批改已有模型(比方:运输需要、打算、询价单、对账单、财务账单等);行业、公司内概念列表(比方:社区团购、分拣、调度、询价、计费等);名词。辨认出的对象: OFC 团单 单 预排线数据 生产单 商品 商品数量 预排线零碎 团单收件地址 经纬度 团长ID 姓名 电话 线路 商品以后数量 调度时的数量 理论数量 (3)组织对象 Note: 一词多用、反复、歧义:归结为一个对象模型;复数:students --> student 归结为一个对象模型;属性:能够归结为对象模型的特色,不独自降级为一个对象,但非凡场景下,比方文章的分类能够为文章的一个属性,然而当分类又有子属性时,比方有子属性标签,这时能够把分类独自降级为对象模型。相似设计数据库表,是设计为字段还是新设计一张表一样。剖析对象: OFC :零碎团单:生产单 单 团单收件地址 经纬度 团长ID 姓名 电话预排线:预排线零碎,预排线模型 线路商品:商品 商品数量 商品以后数量 调度时的数量 理论数量(4)定义对象模型关系 Note: 外键关系:一对一、一对多、多对多,关系传递剖析关系: "同时勾销这个团单和对应线路的绑定关系" -----> 预排线包含多个团单,预排线 VS 团单= one vs many"如果有新增的商品则增加团单下的商品数据" -----> 团单下有多个商品,团单 VS 商品 = one vs many ...

June 13, 2023 · 1 min · jiezi

关于数据:得物数据研发优化策略

1.前言在离线数据研发中,随着业务的疾速倒退以及业务复杂度的一直进步,数据量的一直增长,尤其得物这种业务的高速增长,必然带来数据逻辑复杂度的晋升,数据量越大,复杂度越高,对工作的性能的要求就越高,因而,工作性能的优化就成了大家必然的话题,在离线数仓招聘中,这简直成了必考题目。 大数据畛域,为了进步超大数据量的计算性能,几代人一直在致力,一直榨取着计算机的CPU、内存、磁盘每一个模块的性能,从晚期的纵向扩大(晋升计算机性能,如IBM、ORACLE 晚期推崇的服务器到小型机到大型机的演进)到目前的大规模横向扩大(分布式集群模式),都是旨在晋升大数据的性能。 本文重点从在分布式计算模式下,如何来优化工作,大家耳熟能详的常见优化如:mapjoin skewjoin distribute by 等就不多做赘述,本文次要摸索技巧、策略及办法。 2.工作优化策略2.1 优化方向 补充阐明:目前得物大数据在阿里云的dataworks 环境下,集群层面做了比拟多的工作,IO、网络、机架感应等临时无需过多关注,如有自建集群时,可重点关注,咱们重点关注JOIN  和REDUCE 层面,优化细节也重点基于这两个方向做细节开展。 2.2 优化伎俩对于优化伎俩优化办法,咱们大多数习惯性从技术手段登程,更多的从算子、逻辑兼容等来解决,然而在某些业务场景下,如埋点日志,数据量个别比拟大,这种状况无论技术手段如何干涉,都无奈解决存储和计算带来的资源耗费,这时候如果要晋升SLA,就得从业务场景登程,做好业务的分类分级以及外围数据分流,因而,本文的优化伎俩会从技术手段和业务伎俩两方面开展。 技术手段聚焦于技术手段来解决工作,加入上述单点工作优化方向,次要是SQL 逻辑、模型标准、算子优化及可能存在的集群优化 业务伎俩聚焦于业务个性、业务逻辑来进行解决,基于不同的业务个性及重要水平,从生产、采集、模型、数据生产全链路进行梳理和架构优化,同时造成一套数据链路上的告诉及束缚机制,防止上游变更带来的上游数据故障及复原问题。 3.优化实际案例优化策略中,定义好优化方向、优化伎俩,接下来,咱们选取一些比拟无效的积淀进去的计划,开展讲讲如何来做工作优化。 前文讲述,目前的得物的数据平台个性(dataworks),咱们在IO、网络、RPC 通信机制等临时涉入不深,且对于面向业务的数据研发来言,大部分人不会过多关注底层的实现原理,暂不做过多深入探讨。 咱们基于下面方向中的技术手段讲述几个日常常见的优化案例 3.1 数据重散发(Distribute &Rand)3.1.1 数据重散发的要点日常数据研发中,最常见的且应用较多的就是数据歪斜或数据量带来的数据重散发(打散或随机),对于数据的重散发,次要分以下几点: 优化小文件数据歪斜排序&随机小文件过多带来的MAP 端资源损耗和数据歪斜是咱们日常开发过程中最为常见的性能问题,而这两点大多跟rand()随机数有肯定的关系,通过数据散发和打散和躲避掉大部分此场景下的问题。 数据重散发个别代码操作如下所示 select c1,c2... from tablename distribute by c1[,...]select c1,c2... from tablename distribute by rand([,seed])[,...]对于rand() 咱们要留神几点,可让咱们在优化工作时,知其然,更知其所以然。 rand() 随机数的生成法则跟数学概率有莫大的关系,尤其在算法中,会被经常性问到,给定随机生成的N个数,结构等概率事件的发生器,跑题了,持续说回在hive 或odps 场景下,rand() 函数是随机生成的0-1 的double 类型的数字。rand(int seed) 函数能够依据种子参数,结构一个稳固的随机值,加上种子参数,失去的后果是绝对稳固的,尤其在解决小文件过程中,这一步很重要。Hive 和odps 场景中,随机函数多与pmod()、mod()、floor()、ceil() 等函数联合应用,能够依据不同的业务场景,来结构任意范畴内的随机整数,比方在解决数据重散发解决数据歪斜的问题时,同时放心影响这种重散发带来过多的小文件,随机数能够这样来取  floor(rand())*N/ceil(rand())+1,取1-N 之间的整数。比方在流量数据外面,因为大量空值时,联合rand函数,解决数据歪斜问题: select * from a left join b on a.order_id = nvl(b.order_id ,concat('hive',rand()))--b中的order_id 存在大量空值 的时候3.1.2 数据重散发的作用对于数据重散发,咱们次要是用来对解决数据后果进行小文件合并以及对数据处理中的歪斜问题进行优化。在大多数的解决中,咱们习惯于应用Distribute by Rand() *N 的形式,其实这个形式可能存在问题,在解决相似问题时候,咱们能够抉择基于seed种子的Rand函数,来维持随机数的稳定性。这里须要通晓,distribute by 实际上做了一次shuffle的散发,默认是依照给定key进行的hash操作(能够了解为一次repartion从新分区),这外面是能够进行定制分区逻辑的,能够通过重写hive当中partition的接口,实现不同策略的重散发。 ...

June 1, 2023 · 2 min · jiezi

关于数据:导入导出-Postcat-格式文件打通数据不再难

Postcat 有多达 30 款反对数据迁徙、主题、API 平安等方面的插件。 导入 Postcat 插件应用导入性能有多个入口,你能够在 API 分组处点击加号导入 API: 也能够在点击设置,而后抉择导入选项 导出 Postcat 插件反对导出 Postcat JSON 文件。 应用进入空间页面,能够看到导出性能,点击该区域关上相应弹窗,即可看到已装置的导出类插件的关键字。 导出胜利后能够看到提醒胜利的音讯,示意导出过程无异样。 如果导出异样,会弹出失败音讯,请分割 Postcat 开发者帮助排查。 如果你日常会用到 api 管理工具的话,无妨看看我目前参加的这个开源我的项目,Postcat 开源的 API 管理工具,纯国产,收费的,主打插件生态,适宜中小团队以及集体开发者应用,有 API 相干的外围性能。 目前在 Github 上 3.6 k star,如果你感觉这个我的项目还不错的话,无妨点个 star 反对一下~ Github: https://github.com/Postcatlab/postcat Postcat 外围性能: API 文档治理:可视化 API 设计,生成 API 文档API 测试:主动生成测试参数,主动生成测试用例,可视化数据编辑插件拓展:泛滥插件扩大产品性能,打造属于你和团队的 API 开发平台Mock:依据文档主动生成 Mock,或创立自定义 Mock 满足简单场景团队合作:既能实现 API 分享也能能够创立云空间独特合作Postcat 劣势: 免登录即可测试:省去繁琐的验证登录的操作界面简洁:没有冗余的性能与简单选项收费:中小团队以及集体应用丰盛的插件:反对数据迁徙、主题、API 平安等高达 30 款插件国产:能更好的了解国内用户的需要,与开发团队沟通无障碍欠缺的用户文档:跟着操作就能疾速上手多提 Issue !多反馈! 在应用过程中有任何疑难,能够进群交换,也能够在线提 Issue(强烈推荐这种开源的形式),提问题自身就曾经在奉献社区了:https://github.com/Postcatlab/postcat/issues

May 22, 2023 · 1 min · jiezi

关于数据:2023数字中国建设峰会百度点石获开放群岛开源社区优秀共建单位

4月29日,作为第六届数字中国建设峰会重要组成部分,数字中国建设成绩展览会同期论坛“2023数字中国建设与数据可信流通论坛”在福州海峡国内会展中心召开。论坛由国内首个致力于构建可信数据因素流通体系的凋谢群岛(Open Islands)开源社区主办,论坛同步举办凋谢群岛开源社区颁奖仪式。与会,百度点石取得凋谢群岛(Open Islands)开源社区2022-2023年度优良共建单位。激活数据因素潜能、开释因素价值是建设数字中国的重要动作。随着国家出台多份促成数据策略落地的重要政策,数据因素市场进入高速倒退阶段。本届论坛以“数智交融·聚势共创”为主题,邀请来自数字经济倒退、数字技术、数据流通领域的产学研用各界专家,围绕数据可信流通前沿技术及价值开释实际、公共数据凋谢共享与交融利用、数据因素如何驱动数字经济倒退等议题进行深度交换和探讨。论坛期间举办了多个重磅签约典礼,公布多项数据畛域重要研究成果及优良案例,并策动相干奖项评比,旨在表彰过来一年里在在数据流通领域相干钻研和实际中获得显著成绩、为建设开源社区作出贡献的机构或单位,建立行业标杆。HIGHFLIP是由百度点石在“隐衷计算开源协同打算”中发动的隐衷计算互联互通框架,用于解决联邦学习平台之间互通的一个顶层通信协议,聚焦解决异构平台间的联通问题,也能够让联邦学习平台间的能力互相进行叠加,实现互通有无和能力扩大的需要。HIGHFLIP隐衷计算互联互通框架通过将顶层接口标准化,应用标准化作业和标准化模型让异构平台无差别应用,赋予隐衷计算在不同平台进行切换的能力,达到与不同远端联通的成果。并具备弱侵入式、易于适配、灵便自在的三大特点,让不同隐衷计算平台协力实现同一项计算工作,实现数据因素的多对多“网状”流通,平安可控地开释数据因素价值。目前,已通过Apache 2.0受权协定对外开源、提供应用,同时百度点石产品实现全面兼容HIGHFLIP。百度点石隐衷计算平台依靠自2018年以来的技术钻研及实践经验积淀,将平安多方计算、联邦学习、秘密计算、平安数据沙箱等一系列隐衷计算引擎优化整合,打造了笼罩数据全生命周期的数据安全与隐衷爱护解决方案。将来,百度点石期待携手更多平台一起,推动互联互通标准化、规模化的利用和落地,携手共建隐衷计算技术平台开源凋谢的技术生态。只有技术生态更加欠缺,根底制度建设方、技术提供方、场景利用刚才能造成良性流动的单干模式,独特推动技术、利用向好倒退。

May 22, 2023 · 1 min · jiezi

关于数据:得物社区亿级ES数据搜索性能调优实践

1.背景2020年以来内容标注后果搜寻就是社区中后盾业务的外围高频应用场景之一,为了撑持简单的后盾搜寻,咱们将社区内容的要害信息额定存了一份到Elasticsearch中作为二级索引应用。随着标注业务的细分、迭代和工夫的推移,这个索引的文档数和搜寻的RT开始逐渐回升。上面是这个索引以后的监控状况。 本文介绍社区利用IndexSorting,将亿级文档搜寻性能由最开始2000ms优化到50ms的过程。如果大家遇到类似的问题和场景,置信看完之后肯定可能一行代码成吨收益。 2.摸索过程2.1 初步优化最开始需要很简略,只须要取最新公布的动静分页展现。这时候实现也是简略粗犷,满足性能即可。查问语句如下: {"track_total_hits": true,"sort": [{"publish_time": {"order": "desc"}}],"size": 10}因为首页加载时没加任何筛选条件,于是变成了从亿级内容库中找出最新公布的10条内容。 针对这个查问很容易发现问题呈现在大后果集的排序,要解决问题,天然的想到了两条门路: 去掉sort放大后果集通过用户诉求和开发成本的衡量后,过后决定“先扛住,再优化”:在用户关上首页的时候,默认减少“公布工夫在最近一周内”的筛选条件,这时语句变成了: {"track_total_hits": true,"query": {"bool": {"filter": [{"range": {"publish_time": {"gte": 1678550400,"lt": 1679155200}}}]}},"sort": [{"publish_time": {"order": "desc"}}],"size": 10}这个改变上线后,成果能够说是空谷传声,首页加载速度立马降到了200ms以内,均匀RT60ms。这次改变也为咱们减小了来自业务的压力,为后续的优化争取了不少调研的工夫。 尽管搜寻首页的加载速度显著快了,然而并没有理论解决基本问题——ES大后果集指定字段排序还是很慢。对业务来说,后果页上的一些边界性能的体验仍旧不能尽如人意,比方导出、全量动静的搜寻等等。这一点从监控上也可能较显著的看出:慢查问还是存在,并且还随同着大量的接口超时。 诚实说这个期间咱们对于ES的理解还比拟根底,只能说会用、晓得分片、倒排索引、相关性打分,而后就没有了。总之咱们有了方向,开始奋起直追。 2.2 粗疏打磨2.2.1 常识积攒带着之前遗留的问题,咱们开始开始从新登程,从头学习ES。要优化搜寻性能,首先咱们要晓得的是搜寻是怎么做的。上面咱们就以一个最简略的搜寻为例,拆解一下整个搜寻申请的过程。 (1)搜寻申请{"track_total_hits":false,"query": {"bool": {"filter": [{"term": {"category_id.keyword": "xxxxxxxx"}}]}},"size": 10}准确查问category_id为"xxxxxxxx"的文档,取10条数据,不须要排序,不须要总数总流程分3步: 客户端发动申请到Node1Node1作为协调节点,将申请转发到索引的每个主分片或副分片中,每个分片在本地执行查问。每个节点返回各自的数据,协调节点汇总后返回给客户端如图能够大抵描述这个过程: 咱们晓得ES是依赖Lucene提供的能力,真正的搜寻产生在Lucene中,还须要持续理解Lucene中的搜寻过程。 (2)LuceneLucene中蕴含了四种根本数据类型,别离是: Index:索引,由很多的Document组成。Document:由很多的Field组成,是Index和Search的最小单位。Field:由很多的Term组成,包含Field Name和Field Value。Term:由很多的字节组成。个别将Text类型的Field Value分词之后的每个最小单元叫做Term。在介绍Lucene index的搜寻过程之前,这里先说一下组成Lucene index的最小数据存储单元——Segment。 Lucene index由许许多多的Segment组成,每一个Segment外面蕴含着文档的Term字典、Term字典的倒排表、文档的列式存储DocValues以及正排索引。它可能独立的间接对外提供搜寻性能,简直是一个放大版的Lucene index。 (3)Term字典和倒排表 上图是Term字典和其倒排表的大抵样子当然这里还有些重要数据结构,比方: FST:term索引,在内存中构建。能够疾速实现单Term、Term范畴、Term前缀和通配符查问。BKD-Tree:用于数值类型(包含空间点)的疾速查找。SkipList:倒排表的数据结构这外面的细节比拟多,感兴趣的能够独自理解,这里不影响咱们的整体搜寻流程,不过多赘述。有了Term字典和倒排表咱们就能间接拿到搜寻条件匹配的后果集了,接下来只须要通过docID去正排索引中取回整个doc而后返回就完事儿了。这是ES的根本盘实践上不会慢,咱们猜想慢查问产生在排序上。那给申请加一个排序会产生什么呢?比方: {"track_total_hits":false,"query": {"bool": {"filter": [{"term": {"category_id.keyword": "xxxxxxxx"}}]}},"sort": [{"publish_time": {"order": "desc"}}],"size": 10}通过倒排表拿到的docId是无序的,当初指定了排序字段,最简略间接的方法是全副取出来,而后排序取前10条。这样诚然能实现成果,然而效率却是可想而知。那么Lucene是怎么解决的呢? (4)DocValues倒排索引可能解决从词到文档的疾速映射,但须要对检索后果进行分类、排序、数学计算等聚合操作时须要文档号到值的疾速映射。而正排索引又过于臃肿宏大,怎么办呢? 这时候各位大佬可能就间接想到了列式存储,没有错,Lucene就引入了基于docId的列式存储构造——DocValues 文档号列值列值映射02023-01-13212023-01-12122023-03-133比方上表中的DocValues=[2023-01-13, 2023-01-12,2023-03-13] 如果列值是字符串,Lucene会把原来的字符串值依照字典排序生成数字ID,这样的预处理能进一步放慢排序速度。于是咱们失去了DocValues=[2, 1, 3] ...

May 19, 2023 · 1 min · jiezi

关于数据:杉岩数据加入龙蜥社区携手打造坚实数据存储底座

近日,深圳市杉岩数据技术有限公司(以下简称“杉岩数据”)签订了 CLA(Contributor License Agreement,贡献者许可协定),正式退出龙蜥社区(OpenAnolis)。 杉岩数据是中国软件定义存储市场领导厂商,提供大数据智能存储产品和解决方案的国家高新技术企业、国家级专精特新“小伟人”企业,以新一代智能分布式存储技术为外围,致力于打造云计算、人工智能、物联网等畛域的数据存储基石,全面满足客户数据存储、治理和利用需要。 杉岩数据对象存储在中国区域的市场份额位居前三强,并已列入 Gartner 中国区首份软件定义存储市场剖析报告的业余厂商名录。杉岩数据聚焦软件定义存储技术的研发与利用,推出存储产品海量对象存储(SandStone MOS)、对立存储平台(SandStone USP)、云原生文件存储(SandStone CNFS)、多集群管理系统(SandStone CMS),数据服务产品 iDataFusion、iDataExplorer、iDataCook 等,现已服务 1000 多家客户,总交付存储容量超过 5500PB,为用户提供一站式数据存储产品及解决方案。 杉岩数据董事长兼 CEO 陈坚示意:“杉岩数据作为国内软件定义存储业余厂商,始终专一于大数据智能存储、治理和应用领域的技术创新。龙蜥社区是国内当先的操作系统开源社区,退出龙蜥社区后,杉岩数据将积极参与社区生态建设,携手社区合作伙伴和开发者,打造松软的数据存储底座,为核心技术的翻新做出奉献,独特助力千行百业数字化建设。” 龙蜥社区理事杨继国示意:“杉岩数据踊跃推动信息技术利用翻新,让海量数据存得下、管得好、用得爽。将来,龙蜥社区将联结杉岩数据,为社区宽广用户提供平安、牢靠、智能的大数据存储产品。” 截至目前,已有 300+ 家企业签订 CLA 协定退出龙蜥社区,包含平安厂商格尔软件、海泰方圆,数据库厂商南大通用、巨杉数据库,中间件厂商西方通、中创中间件、宝兰德等,欢送更多企业退出。 龙腾打算 2.0 可参看:首批招募 50 家!「龙腾社区生态倒退打算」正式公布 —— 完 —— 为给大家提供更好的内容和服务,龙蜥社区诚挚地邀请大家参加问卷调研,请扫描下方二维码或点此链接填写,咱们将筛选出优质反馈,送出龙蜥周边!

May 12, 2023 · 1 min · jiezi

关于数据:Xline-v040-一个用于元数据管理的分布式KV存储

Xline是什么?咱们为什么要做Xline?Xline是一个基于Curp协定的,用于治理元数据的分布式KV存储。现有的分布式KV存储大多采纳Raft共识协定,须要两次RTT能力实现一次申请。当部署在单个数据中心时,节点之间的提早较低,因而不会对性能产生大的影响。 然而,当跨数据中心部署时,节点之间的提早可能是几十或几百毫秒,此时 Raft 协定将成为性能瓶颈。Curp 协定就是为了解决这个问题而设计的。它能够在命令不抵触的状况下缩小一个RTT,从而进步性能。因而,Xline旨在实现高性能的数据拜访和跨数据中心场景下的强一致性。 V0.4.0版本有什么新性能?基于此前v0.3.0中对于“建设在内存根底上的性能测试是否具备说服力”的质疑,咱们在v0.4.0中对于Xline从新进行了基准测试。新版本特点、修复问题以及基准测试如下: 特点:通过引入批处理机制进步网络带宽利用率;为CURP共识协定实现快照性能;实现快照相干API,且与etcdctl兼容。其余etcdctl保护中的API会在将来实现。修复bug:修改了在某些并发状况下命令会不按程序执行的问题(问题#197),在pr#195中解决。修改在基准测试过程中gc工作会panic的问题(问题#206),在pr#210中解决。修改在某些状况下锁性能工作不失常的问题(问题#209),在pr#212中解决。修改一些并发的投放申请会失去谬误订正的问题(问题#209),在pr#238中解决。基准测试:因为咱们在v0.3.0中为Xline实现了持久性性能,咱们在这个版本中对Xline从新进行了测试。基准测试报告能够在咱们的README文件中的 Performance Comparison 局部查看。 欢送参加到Xline我的项目中咱们欢送任何对于Xline的踊跃奉献。目前在GitHub上有些工作并不需要深刻理解Curp协定或Xline这个我的项目,只须要理解API和Rust语言即可。即便您现处于入门阶段,并想要在开源我的项目中应用Rust语言,社区也会提供领导和帮忙,来疏导您更好地参加我的项目。目前Xline提供如下两个first-good issue供您参考: pr 256(https://github.com/datenlord/Xline/issues/256)pr 219(https://github.com/datenlord/Xline/issues/219)Xline的建设须要每一位对此感兴趣且违心付出的你们的参加,咱们期待你们的退出。相干链接GitHub: https://github.com/datenlord/XlineCurp相干论文:https://www.usenix.org/system/files/nsdi19-park.pdfCurp相干文章: https://medium.com/@datenlord/curp-revisit-the-consensus-prot...Xline官网:www.xline.cloud往期举荐1. DatenLord | Xline Geo-distributed KV Storage 精彩回顾 l Rust唠嗑室:Xline跨数据中心一致性治理 达坦科技(DatenLord)专一下一代云计算——“天空计算”的基础设施技术,致力于拓宽云计算的边界。达坦科技打造的新一代开源跨云存储平台DatenLord,通过软硬件深度交融的形式买通云云壁垒,实现无限度跨云存储、跨云联通,建设海量异地、异构数据的对立存储拜访机制,为云上利用提供高性能平安存储反对。以满足不同行业客户对海量数据跨云、跨数据中心高性能拜访的需要。 公众号:达坦科技DatenLord 知乎账号:达坦科技DatenLord B站:https://space.bilibili.com/2017027518

May 12, 2023 · 1 min · jiezi

关于数据:为什么datawork-数据开发页面展示不出来

如果在DataWorks数据开发页面中无奈失常显示数据,请查看以下几个方面: 网络连接:请确保您的网络连接失常,并且可能失常拜访DataWorks平台。如果您的网络连接不稳固或者存在问题,可能会导致数据无奈失常显示。浏览器兼容性:请确保您所应用的浏览器与DataWorks平台兼容。倡议应用Chrome、Firefox、Safari等支流浏览器,并确保浏览器版本为最新版本。我的项目权限:请确保您有拜访所需我的项目的权限。如果您没有相应的我的项目权限,可能会导致数据无奈失常显示。残缺内容请点击下方链接查看: https://developer.aliyun.com/ask/497845?utm_content=g_1000371336 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

May 8, 2023 · 1 min · jiezi

关于数据:PolarDBX-数据节点备库重搭

本文次要介绍PolarDB-X中DN(数据节点)备库重搭的背景,以及polardbx-operator上是如何实现DN备库重搭的。 背景在一个一主多从的高可用零碎中,往往存在一个主节点负责对外提供服务,另外一个或者多个备节点,向主节点实时同步数据,当主节点产生异样时,会有一个备节点立马切换为主节点,持续对外提供服务,此时对业务来说,仅仅是产生一次连贯闪断,重试便能复原。备节点越多,则这个零碎变得齐全不可服务的几率就越小,因而咱们须要有足够多的备节点来保障高可用性,当备节点产生异样时,咱们须要及时进行重建,上述重建操作,咱们称之为备库重搭。 一个残缺的PolarDB-X实例,由计算节点、存储节点、元数据节点、日志节点组成,其中计算节点和日志节点为无状态部署,当迁徙节点的时候不须要迁徙数据,只须要给配置、给资源便能失常拉起,而存储节点和元数据服务节点是有状态部署,当备节点不可用时,咱们须要迁徙数据来复原节点(在本文咱们统称为DN备库重搭)。 存储节点和元数据服务节点是XDB实例(基于mysql进行了革新和降级) 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1173876?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

May 5, 2023 · 1 min · jiezi

关于数据:数据中心厂商超云加入龙蜥社区多款服务器完成与龙蜥操作系统适配

近日,长城超云(北京)科技有限公司(以下简称“超云”)签订了 CLA(Contributor License Agreement,贡献者许可协定) ,正式退出龙蜥社区(OpenAnolis)。 超云是由 CEC 中国电子、云基地产业基金联结注资成立的国家高新技术企业,其专一于云基础架构、云零碎、云服务三大产业布局,现已造成了笼罩 X86 服务器、整机、超交融、分布式存储等产品畛域的欠缺业务体系,是国内业余的数据中心产品及服务提供商。 目前超云已实现 R2216 A13、R5215 G12、R5210 G12、R7410 G11 等多款服务器与龙蜥操作系统(Anolis OS)的兼容性认证。同时作为社区合作伙伴,超云也会持续踊跃推动与龙蜥社区在市场流动、产品兼容认证、行业解决方案等方面的联动,共建社区凋敝生态。 (图/超云与龙蜥操作系统适配证书) 对于超云退出龙蜥社区,超云服务器事业部总经理田锋示意:“作为领有自主知识产权的民族企业,将来,超云将携手龙蜥社区合作伙伴,紧跟行业前沿技术倒退路线,利用自身产品研发劣势,联合客户理论利用场景,打造优质的软硬件一体化解决方案,共创数字化倒退开源新基建,构建凋谢共赢的云端生态,助力各行各业实现数字化降级转型。” 龙蜥社区理事彭志航示意:“超云是国内业余的数据中心产品及服务提供商,旨在为客户提供平安、可信的软硬件一体化解决方案。超云多款服务器已实现与龙蜥操作系统的兼容性认证,意味着在龙蜥产品适配方面注入了新的产业影响力。期待将来和超云的更多深度单干。” 截至目前,已有 300+ 家企业签订 CLA 协定退出龙蜥社区,包含平安厂商格尔软件、海泰方圆,数据库厂商南大通用、巨杉数据库,中间件厂商西方通、中创中间件、宝兰德等,欢送更多企业退出。 龙腾打算 2.0 可参看:首批招募 50 家!「龙腾社区生态倒退打算」正式公布 —— 完 ——

April 20, 2023 · 1 min · jiezi

关于数据:任务运维-怎么补数据这有一篇实践案例

在工作运维同学的日常工作中,常常须要应用补数据性能,例如当一个新的数据开发工作提交上线后,须要将历史的数据也能写入对应的工夫分区;或者当发现某个工作产出数据有误时,须要从新刷新数据,这时候也会须要用到补数据性能。 通过本篇文章,你可能播种: 理解补数据的场景和流程;把握补数据的步骤和内容,体验Easydata补数据的产品性能。01实际内容1.1 场景阐明假如你是一名勤勤恳恳的数据开发兼运维同学,明天早上如平常一样登陆平台查看工作运维状况,忽然收到来自数据分析师的一条信息,对方示意明天有一个重要报表忽然没有产出数据,须要你帮忙紧急排查问题。 你连忙定位到具体任务,再依据血统定位上游工作,通过一番排查与操作,发现原来是ods层的有一个开发同学对表进行了变更,原先依赖的ods表曾经不再产出,于是你尽管埋怨上游开发的粗枝大叶,但依然吭哧吭哧认真地把所有相干上游工作代码改好并从新提交上线。但你的工作不仅是把上游工作的代码编辑实现,你还须要把昨天的数据恢复正常,于是你在运维核心的工作详情页面,点击了“补数据”按钮…… 1.2 实操阶段(1)创立补数据工作 进入工作运维核心,补数据入口有三处:别离是工作列表的右侧操作栏,能够反对单个工作补数据;工作列表的左上操作按钮,能够反对批量补数据;以及工作详情页右上角反对单个工作补数据。 本次实际带大家体验批量补数据的性能,点击工作列表,点击上方“批量补数据”按钮,即可进入批量补数据页面: 上游工作抉择实现后,进入配置补数据设置的页面,配置项都已零碎默认填充,本次试验须要体验告诉性能,因而请确保告诉条件的三个勾选项均已被勾选、告诉对象为实验者自己,告诉形式需至多勾选邮件、POPO之一。 (2)查看补数据工作详情 点击创立补数据工作后,页面主动返回补数据实例运维列表,用户能够查看补数据工作停顿、对补数据工作进行暂停、终止等操作: (3)补数据工作运维 让咱们回到本次实际场景中。 你创立完补数据工作后,终于舒了一口气,想着终于找到了问题,还算是有惊无险,然而万万没想到紧接着就收到了来自运维核心的报警信息: 你连忙点击链接,回到工作运维核心,链接主动跳转到了失败实例的详情页面,原来是最上游的工作呈现了问题。于是你点击节点状态旁边的“放大镜”图标,进入智能诊断页面 在智能诊断页面显示,Hive语法错误,须要查看代码。 于是你来到离线开发,从新查看代码,发现是在刚刚改代码的时候,不小心写错了一个字段,你这才想起来,刚刚批改代码的时候,匆匆忙忙之中遗记先在开发模式试运行,居然没有测试就间接就把代码提交到了线上!你连忙把代码从新改好,并测试了节点,在测试通过后将工作从新提交上线。 你的工作还没有实现。批改完代码后,最初还须要回到运维核心,将刚刚失败的补数据实例重跑。 (4)补数据工作实现告诉 点击运行后,实例开始重跑。在期待几分钟后,终于,零碎再次发来告诉,宣告这次数据补救口头圆满结束,撒花~ 02小结“补数据”是工作运维核心非常重要的性能。目前产品可能反对单个工作补数据与批量补数据,因为有些工作的上下游链路十分复杂,为不便用户疾速抉择须要补数据的工作和节点,产品也反对流程视图的补数据性能。感兴趣的同学欢送理解产品~ *本文基于Easydata-V7.0版本,工作运维核心V1.8.2.1版本进行编写。点击试用Easydata产品 作者简介 露亚,网易数帆Easydata-工作运维核心产品经理。

March 31, 2023 · 1 min · jiezi

关于数据:读书笔记之数据密集型应用的可靠性

宇宙之一粟读书笔记之《数据密集型利用零碎设计》,本笔记的内容来自《数据密集型利用零碎设计》,该书豆瓣评分高达 9.7。 什么是数据密集型利用数据密集型利用,英文名 Data-Intensive Application。 数据密集型利用(data-intensive applications) 正在通过应用这些技术提高来推动可能性的边界。一个利用被称为 数据密集型 的,如果 数据是其次要挑战(数据量,数据复杂度或数据变动速度)—— 与之绝对的是 计算密集型,即处理器速度是其瓶颈。数据密集型计算是一类并行计算应用程序,应用数据并行办法解决大量数据。 在大多数软件系统中很重要的三个问题是: 可靠性:即便面对意外状况如硬件、软件故障、人为失误等,零碎也应正确工作,尽管零碎的性能可能有所升高,但还是能执行正确的性能。 可扩展性:随着零碎规模的增长(数据,流量量或复杂性),应有正当的办法来匹配该增长。 可维护性:随着工夫的推移,许多新的人员参加到零碎的开发与运维,人们应该可能仍然无效保护该零碎。 数据密集型利用个性为了实现数据密集型计算的高性能,有必要最大水平地缩小数据的挪动。这能够通过 reduce 算法在数据寓居的节点上执行算法来缩小零碎开销并进步性能。 数据密集型计算零碎采纳独立于机器的办法,其中运行时系统控制程序的调度、执行、负载平衡、通信和挪动。 数据密集型计算十分关注数据的可靠性和可用性。传统的大规模零碎可能容易受到硬件故障、通信谬误和软件谬误的影响,而数据密集型计算旨在克服这些挑战。 数据密集型计算是为可扩展性而设计的,因而它能够包容任何数量的数据,因而能够满足工夫要害要求。硬件和软件架构的可扩展性是数据密集型计算的最大劣势之一。 可靠性软件的典型的可靠性包含: 应用程序执行用户所冀望的性能能够容忍用户呈现谬误或不正确的软件应用办法性能可能应答典型场景、正当负载压力和数据量零碎可避免任何未经受权的拜访和滥用故障通常被定义为组件偏离其失常规格, 而生效象征零碎作为一个整体进行, 无奈向用户提供所需的服务。 况且不太可能将故障概率升高到零, 因而通常设计容错机制来防止从故障引发零碎生效。 硬件谬误硬件谬误总是很容易想到:硬盘解体、内存故障、停电甚至是人为拔掉网线。 一般来说,解决硬件故障的规范办法是为硬件组件增加冗余,以便如果硬件产生故障,则随时能够更换。例如: 对磁盘的 RAID 配置服务器装备双电源热插拔 CPU数据中心增加备用电源、发电机等随着数据量和应用程序的计算需要的减少,人们偏差于应用软件故障容错技术来容忍硬件谬误。这些软件容忍零碎的一个长处是:对于单个服务器零碎,如果须要重新启动机器(例如,利用操作系统安全补丁),则须要打算停机工夫。然而,对于能够忍耐机器故障的零碎,能够一次修补一个节点而后重启(无需停机整个零碎 - 滚动降级)。 这种形式使得零碎更具备操作便利性。 软件谬误与硬件谬误相比,软件谬误之间更加具备关联性。这意味着,一个节点中的故障导致系统呈现更多的故障。牵一发而动全身,例如: 因为软件谬误,导致当输出特定值时应用服务器总是解体一个利用过程应用了某个共享资源如 CPU、内存、磁盘或网络带宽,但却可怜失控跑飞了零碎依赖于某些服务,但该服务忽然变慢。甚至无响应或者开始返回异样的响应级联故障,其中某个组件的小故障触发另一个组件故障,进而引发更多的零碎问题解决办法(软件故障有时没有疾速的解决办法,只能多思考软件设计的细节): 认真查看依赖的假如条件与零碎之间交互进行全面的测试,测试覆盖率争取达到 100%过程隔离,容许过程解体并主动重启监控并剖析生产环节的种种数据人为谬误设计和构建软件系统总是由人实现的,但人类是不牢靠的。只管人类不牢靠,咱们如何使零碎牢靠?通过多种办法的组合,例如: 奇妙的软件设计:通过精心设计的形象,API 和治理界面来最大水平地限度谬误机会的形式设计零碎。开发、测试、生产环境拆散:拆散最容易出错的中央、容易引发故障的接口。提供一个功能齐全但非生产用的沙箱环境(测试零碎),使人们能够释怀的尝试 、 体验, 包含导入实在的数据, 万一呈现问题, 不会影响实在用户。充沛的测试:从单元测试到全系统集成测试、手动测试到自动测试。疾速的复原机制:当呈现人为失误,能够疾速回复,以最大水平缩小故障的影响。例如:疾速回滚配置改变,滚动公布新代码,提供校验数据的工作设置具体而清晰的监控子系统:包含性能指标和错误率总结可靠性不单单是针对核电站和地面交管软件之类的零碎很重要,日常的很多利用也须要牢靠的工作。商业软件的谬误可能会导致效率降落,甚至带来法律危险,电子商务网站故障比方呈现超卖,既影响网站营收,带来巨大损失。 总之,开发和软件设计人员应该秉持对用户负责的态度,设计一个牢靠的利用十分要害。 但有时也会呈现其它的状况,就义一些可靠性来升高开发成本或经营开销,对此,须要衡量。

March 29, 2023 · 1 min · jiezi

关于数据:AIGC来了你的版权还安全吗

引言人工智能生成内容(AIGC)是热度居高不下,据Gartner预计,到2025年,AIGC将占寰球所有生成数据的10%,以ChatGPT、Stable Diffusion为代表的景象级利用受到强势追捧,AIGC毫无疑问是强有力的生产工具,那如果人类作为创作者被工具剽窃时可能无效出击吗?无奈确权和版权争议将是AIGC必将面对的格林克里奇困境。 ChatGPT、Stable Diffusion、Midjourney 一个一个们带着脑子向咱们走来了,这些全世界范畴内出圈的新晋顶流,写代码、做高数、写论文、攒软文、肝漫画样样精通……然而也劝大家别太爱了,不可否认AIGC很大水平上解放了多个行业的生产力,放慢了信息化建设的脚步,同时AIGC的版权问题也成为争议焦点。22年11月份AI编程辅助工具GitHub Copilot被个体诉讼告上了法庭,AIGC的合法性也被推到了风口浪尖,诉讼被告宣称微软、GitHub和OpenAI进犯了其版权,23年1月寰球出名图片提供商华盖创意(Getty Images)起诉热门人工智能(AI)绘画工具Stable Diffusion的开发者Stability AI,称其进犯了版权,火鸡打工人的辛苦成绩都成为AIGC的收费饲料。 那在人类创意工作者这样被AI侵权危险状况微小的状况下,该如何爱护本人的版权?首先咱们须要理解AIGC都可能在哪些场景下有侵权偏向。 危险场景场景1:被扒去做训练数据 目前AI次要靠机器模仿或学习人类发明的素材,一个被广泛认可的观点是,AIGC的底层逻辑是模拟学习, AIGC作品的产出须要大量人类创意作品的投喂,AIGC的作品在格调和细节上和原作品会存在诸多类似点,被投喂的作品中不可避免地包含受版权保护的作品。置信这种状况下创作者们都心愿能辨别出AIGC作品并保障本人原创者的版权。 场景2:原创内容洗稿搬运 短视频时代为了赚取流量,各种洗稿搬运行为不足为奇,大家在不同的短视频平台甚至同一个平台可能常常会刷到同一个内容,不同的模板,甚至只是换了个平台抹除了原创作者和平台的水印。谋求时效性的流量时代人工洗稿剪辑效率显然太低了,这时候须要活用AIGC操作一通,换一个滤镜、扭转剪辑程序、新加个BGM生成新的视频再次公布,视频平台的查重技术难以检测,也就很难判断原作,进行处罚。至于水印logo,那也是经典课题了,在最粗犷的时代间接裁剪,有了AIGC之后更不便了,首先应用AI logo辨认出视频、图像中的字幕、台标、水印等特定元素,接着应用AI Inpaintng抹除掉此元素区域并剖析左近图像特色进行一个无痕修复的动作。 数据万象版权保护神器针对AIGC可能侵权的场景,数据万象为创作者们筹备了以下神器爱护版权: 神器1:数字水印(盲水印) 数字水印能够将一些用户自定义信息间接嵌入到多媒体载体(视频、图片、文本等)中,与AIGC作品作出无效辨别,嵌入后载体的水印信息不被用户感知,不影响载体观感与品质,只有生产方通过专门的检测器能力还原水印信息,能够无效验明数据真实性、准确性、合法性。 因为水印肉眼不可见的个性,显性水印抹除攻打无奈对数字水印失效,且生成规定难以破译,第三方攻打难以破解或移除数据万象生成的盲水印。 数字水印嵌入-追溯流程 数据万象数字水印具备以下作用:一、数据水印能够在数据透露后追踪溯源一旦产生数据泄露,可精准溯源到操作数据用户身份、作业及泄露范畴和渠道。二、数据水印能够使数据所有权有据可查通过数据水印系统对数据资产中注入水印,能够很好的实现数据的版权保护,防止因版权问题陷入漫长的纠纷和诉讼。三、个性化水印反对亿级用户水印信息惟一反对用户增加个性化水印信息,达到亿级别用户水印信息个性化溯源的指标 数据万象的数字水印能力也通过了ChinaDRM认证,抗转码、压缩、摄屏、裁剪等攻打。 在chatgpt和数字水印一直倒退过程中,数字水印可能成为ChatGPT和火鸡打工人之间的制衡者,能够辅助甄别AI产物也能爱护内容创作者的版权,实现对人工智能的无效监管。 可返回“COS控制台》智能工具箱》图片水印“,“COS控制台》智能工具箱》数字水印“进行体验。 神器2:满屏平铺水印 AI Inpaintng须要辨认出水印依据水印四周元素进行修复,简略的固定logo很容易被革除修复,而半透明的大面积的水印,能够大幅晋升修复难度,在大面积擦除水印后很难呈现无痕成果。 数据万象提供图片、文档斜向与横向平铺水印能力,反对调整透明度。 可返回“COS控制台》智能工具箱》图片水印“,“COS控制台》智能工具箱》文档解决“进行体验。

March 23, 2023 · 1 min · jiezi

关于数据:数据万象带你玩转视图场景第二期数字水印大揭秘

“ 引言:自1983年,国内消费者联盟组织确定每年的3月15日为“国内消费者权益日”,转瞬往年曾经是第38个消费者权益日了, 315不只是爱护消费者的合法权益,同时也一直推动爱护企业甚至集体知识产权,随着AI技术进一步倒退、互联网内容监管力度增强、上游利用场景进一步丰盛,行业市场规模将迎来大规模持续增长。” 版权保护现状中国版权保护核心提到“新时代新征程,版权是文化的内核,创意的化身“,2019年我国版权产业行业增加值达7.32万亿元,占国内生产总值(GDP)的比重为7.39%,可见版权保护的重要性。随着数字化水平的疾速进步和智能技术的迅速倒退,内容生成(AIGC)逐步倒退为内容产业的重要方向和应答社会治理、经济倒退等数字化挑战的重要伎俩,也滋润了宽泛的用户生成内容(UGC)。 2022年,国家版权局、国家互联网信息办公室、工业和信息化部、公安部联结组织发展打击网络侵权盗版“剑网2022”专项口头,聚焦网络重点畛域,加大打击网络侵权盗版力度,查处了一批网络侵权盗版大要案件。数据万象泛互行业用户占比超60%,咱们也关注到大量客户的PGC、UGC内容面临着AI洗稿、抹除水印此类的侵权危险。 侵权样例-更换剪辑形式(洗稿) 侵权样例-抹水印 简略的固定logo很容易被革除修复,通过扭转剪辑手法、转码或是随便更换滤镜后,短视频平台可能也无奈判重,原创内容剽窃防不甚防,此状况下,数据万象提供自研的数字水印技术以帮忙广大客户进行图文作品、音视频内容确权、盗版追溯。 为何抉择数据万象的数字水印服务一、常见的数字水印技术 数字水印能够将一些用户自定义信息间接嵌入到多媒体载体(视频、图片、文本等)中,嵌入后载体的水印信息不被用户感知,不影响载体观感与品质,只有生产方通过专门的检测器能力还原水印信息,能够无效验明数据真实性、准确性、合法性,数字水印技术能够从不同的角度进行划分。1、按水印的个性能够将数字水印分为鲁棒数字水印和软弱数字水印两类;2、按水印附载的媒体,能够将数字水印划分为图像水印、音频水印、视频水印、文本水印以及用于三维网格模型的网格水印等;3、按数字水印的编码方式,能够将其划分为时(空)域数字水印、频域数字水印、时/频域数字水印和工夫/尺度域数字水印,时(空)域数字水印是间接在信号空间上叠加水印信息,而频域数字水印、时/频域数字水印和工夫/尺度域数字水印则别离是在DCT变换域、时/ 频变换域和小波变换域上暗藏水印。 二、数据万象数字水印劣势 因为数字水印肉眼不可见的个性,显性水印抹除攻打无奈对数字水印失效,且生成规定难以破译,第三方攻打难以破解或移除数据万象生成的盲水印。数字水印嵌入-追溯流程 数据万象数字水印具备以下作用: 数据水印能够在数据透露后追踪溯源一旦产生数据泄露,可精准溯源到操作数据用户身份、作业及泄露范畴和渠道; 数据水印能够使数据所有权有据可查通过数据水印系统对数据资产中注入水印,能够很好的实现数据的版权保护,防止因版权问题陷入漫长的纠纷和诉讼; 个性化水印反对亿级用户水印信息惟一反对用户增加个性化水印信息,达到亿级别用户水印信息个性化溯源的指标。 数据万象的数字水印能力也通过了ChinaDRM认证,在同类产品中,画质体现最优:SSIM Y:0.994320 (22.456442) U:0.987847 (19.153283) V:0.996277 (24.290690) All:0.993567 (21.916046) VMAF score: 98.089561 各攻击方式测试后果若想深刻理解,可返回“COS控制台>智能工具箱>图片水印“、“COS控制台>智能工具箱>数字水印“进行体验。 https://cloud.tencent.com/act/pro/ciExhibition?from=15022&tab...

March 23, 2023 · 1 min · jiezi

关于数据:数据万象带你玩转视图场景第一期avif图片压缩详解

前言随着硬件的倒退,不论是手机还是业余摄像设施拍出的图片轻易可能就有几M,甚至几十M,并且当初咱们处于随处可及的信息陆地里,海量的图片带来了存储问题、带宽问题、加载时延问题等等。对图片信息进行无效的压缩解决无疑会极大的升高存储老本、流量压力,并且还能显著晋升页面加载速度。图片压缩指在图片品质放弃不变的状况,尽可能的减小图片大小,以达到节俭图片存储空间、缩小图片拜访流量、晋升图片访问速度的成果。数据万象(Cloud Infinite,CI) 产品推出了 AVIF 压缩性能,可将图片转换为 avif 格局,avif 是基于 av1 的一种全新图片格式,在2020年2月由 Netflix 首次公布于众,目前已反对 Chrome、Firefox 等浏览器。 AVIF技术原理AVIF(AV1 image format)压缩格局,是采纳 AV1 帧内编码的一种图像编码格局,是目前最新的图片压缩格局。AV1 是由凋谢媒体联盟(AOMedia)的成员独特推动研发的一个规范。而 AVIF 则是基于 AV1 编码产生的具备更高压缩能力、保留更佳画面细节的图形压缩格局,相比于其余格局,其帧内编码具备十分多的改良优化: 更灵便的编码树划分:引入更大的编码/变换块单元,编码单元尺寸可达128x128,划分形式更加灵便,多达10种。 更精密的帧内预测模式:56种角度模式,intra copy 调色板模式、帧内预测滤波CFL等使得帧内预测更为准确。 更先进的滤波技术:基于方向束缚的加强滤波(CDEF),环路还原滤波(restoration)等无效改善了图像品质。 TXAV1图片编码器数据万象所应用的 AVIF 压缩能力,底层编解码所应用的是腾讯自研的 AV1 编解码器——TXAV1 编码器。在2021年MSU较量中,对于 AV1 的较量指标,TXAV1 加入了29项,获得了28项当先,取得综合最佳。 腾讯作为AOM联盟的成员之一,始终致力于技术研发上的深耕,TXAV1 中蕴含了很多腾讯自研技术: 1、外围数据架构设计AVIF的划分模式非常复杂,可能性十分多。为了更好的获取数据、缩小反复计算和数据的拷贝,设计了一套以treeNode(不便获取节点属性信息, 防止反复计算),IdenticalCU(利用雷同Cu计算结果,缩小计算量),和SwapBuffer(通过内存交替应用,缩小拷贝和重算)为外围的数据架构。在算法和输入码流不变的状况下,为AVIF编码提速20%以上。 2、帧内疾速CU,TU决策算法设计 以周边块的信息,包含划分尝试,划分模式,失真代价等,提前决策以后块是否持续划分。以以后块的CU/TU或子CU/TU的信息为参考, 提前终止以后划分。 3、帧内模式算法设计 采纳多级帧内预测算法,通过简略估算,初步筛选出几个重要候选,而后做残缺变换,再依据模式和代价补做角度和滤波,大幅减速帧内编码效率。 4、滤波疾速算法AV1中deblock,cdef,restoration等滤波耗时很高,通过对图像内容及参考图像的滤波应用状况剖析,对以后帧的滤波进行搜寻范畴的放大或跳过解决, 从而大帧提前滤波的处理速度。 5、编码后处理滤波按行并行处理在图片上能够提速50%。AV1的后处理滤波包含deblock,cdef,restoration等,deblock和cdef滤波的参数导出过程均依赖整帧的数据,这与HEVC规范中的基于块导出参数的过程有很大不同,不利于按行级并行处理;在TXAV1针对图片的优化中实现了基于局部图像进行参数导出,并针对图片优化了参数导出算法。 6、编码intra block copy优化,提速240%intra block copy对一些游戏或者文字较多的图片收益很大,但intra block copy在搜寻最优匹配块的过程中通常应用hash搜寻,而对图片生成hash的过程耗时很长。因而在TXAV1的优化中,应用了网格静止搜索算法替换原有的hash搜寻,并针对图片优化了网格搜索算法,最终优化后绝对原有算法提速240%,压缩性能仅损失2.9%。在大幅减速的同时,保留了intra block copy大部分性能。 数据万象产出的AVIF图片成果比照1、AVIF 图片视觉比照以上面一张图作为例子阐明 AVIF 图片的劣势,放弃图片分辨率不变,将图片别离转成 JPG,WebP,AVIF 格局。 从下面四张图能够看到,在通过压缩后,图片原有尺寸均不变的状况下,JPG格局的图片画质绝对较差,屋宇前面的云层变成大片的显著的色块色条;webp尽管没有呈现色块,但整体色彩和原图相比有显著失真;avif格局的图形显示仍旧平滑,体积也很小,成果显著优于JPG和WEBP。此时的AVIF相比无损PNG有约42倍的压缩性能,仍保留了原图数据的大部分细节,堪称完满。阐明了avif有着更高的压缩效率,很好的保真成果。 2、AVIF 图片品质数据比照通过大量图片样本测试,不同的压缩品质比拟图片压缩前后的文件大小、 PSNR、SSIM,将 AVIF 与最为常见的图片格式 JPG、WebP 、PNG 进行了比照,从以下的实测数据能够看出,AVIF 在压缩方面具备相对的劣势。AVIF 图片绝对 WebP 图片大小均匀减小30%多,绝对 JPG 图片大小均匀减小50%多,绝对 PNG 图片均匀缩小90%左右。 ...

March 23, 2023 · 1 min · jiezi

关于数据:2023爱分析医院供应商协同系统市场厂商评估报告隆道

  目录 1.钻研范畴定义2.供应商协同零碎市场剖析3.厂商评估:隆道4.入选证书 1.钻研范畴定义 钻研范畴随同国家医疗数字化相干政策的密集出台、以及医院临床业务的迫切需要,全国各地掀起了智慧医院建设热潮。政策方面,国家在科技策略、建设落地层面均对医院智慧化建设做出了相应的布局布局,自2021年以来,国家卫健委等部门出台《公立医院高质量倒退促成口头(2021-2025年)》、《公立医院经营治理信息化性能指引》、《对于印发公立医院高质量倒退评估指标(试行)的告诉》等一系列政策,将信息化作为医院基本建设的优先畛域,增强电子病历、智慧服务、智慧治理“三位一体”的智慧医院信息系统建设,一直晋升公立医院高质量倒退新效力。需要方面,医院临床业务对数字化需要旺盛,放慢建设智慧医院成为医疗机构进步工作效率、诊疗程度、经营效率的强有力伎俩。整体来看,智慧医院建设曾经成为公立医院高质量倒退的“硬指标”。依据国家卫健委的定义,智慧医院涵盖三大维度:面向医务人员的“智慧医疗”、面向患者的“智慧服务”以及面向医院治理的“智慧治理”。爱剖析认为,智慧医院是以患者为核心,利用人工智能等技术,通过对医疗服务水平、医疗服务环境、医院治理流程、医疗数据挖掘与利用等全方位优化,构建智慧化医院服务生态体系,晋升整体医疗服务效率、患者就医体验与医院管理水平。基于此,爱剖析将于2023年Q2公布《2023爱剖析·智慧医院厂商全景报告》,旨在为医院厂商选型提供参考领导。在报告中,爱剖析将智慧医院市场划分为智慧医疗、智慧服务、智慧治理三类,包含临床决策支持系统/CDSS、AI医学影像辅助诊断软件、互联网医院、慢病治理平台、DRGs零碎、供应商协同零碎、人力资源管理系统、医院隐衷计算平台等市场。 图 1:  智慧医院市场全景地图 医疗物资治理是医院经营体系中的重要组成部分,增强物资供应链精细化治理已成为推动智慧医院建设的重要抓手之一。随同SPD供应链管理模式的衰亡,大部分医院曾经搭建笼罩院内物流全过程的物资管理系统,实现对医疗物资在各科室间调配、耗费的精密治理,然而医院与内部供应商之间仍存在洽购全流程业务高效协同的挑战、医院物资科室与其余部门之间存在洽购需要高效合作的难点。对此,搭建供应商协同零碎,整合供应链资源,赋能洽购需要、供应商资质、订单执行、收发货、财务结算等全流程协同治理,越来越成为医院的新抉择。因而,基于深刻的调研,爱剖析遴选出具备成熟解决方案和落地能力的厂商,用以反对医院在做供应商协同零碎选型时的参考。同时,在该市场下,爱剖析重点对隆道进行了能力评估。 2.供应商协同零碎市场剖析 市场定义:供应商协同零碎,是指面向医院和重要供应商建设供给业务合作的数字化平台,通过医院与供应商之间的订单、收货、对账、开票等全流程业务高效协同,突破采供单方的流程壁垒和信息壁垒,从而晋升供应链整体协同作业效率,升高医院的洽购老本。甲方终端用户:医院物资科室、临床科室、财务科室等甲方外围需要:近年来,增强供应商协同治理已成为医院进步精细化管理水平、实现高质量倒退的重要伎俩之一。首先,医院物资洽购品类繁冗,波及与大量供应商的信息交互,传统医院洽购面临的业务动作线下操作、采供信息传递不及时、供应商治理艰难等问题亟待解决;其次,随同国家医疗改革一直深入,以及药品耗材“零加成”、两票制等政策的推广,围绕医疗医治的老本一直回升,晋升供应链的流程效率和老本管制变得更为迫切;第三,传统SPD模式下,大部分医院曾经搭建笼罩院内物流全过程的物资管理系统,实现对医疗物资的精细化治理,然而短少与院外供应商的无效连贯,无奈驱动采供高效协同。因而,医院须要搭建供应商协同零碎,通过洽购全流程治理协同,实现外部物资科室、临床科室、财务科室等全副门合作,内部供应商准入、寻源、订单执行、结算全过程协同,进步采供协同效率,升高医院洽购老本。具体来看,医院对供应商协同零碎的外围需要如下:图 2:  医院对供应商协同零碎的外围需要 洽购流程线上化、规范化治理,实现全过程数据留痕和在线流转。医院物资洽购波及多家供应商、数千多耗材,传统洽购执行多借助电话、邮件、微信等工具来实现,在治理上存在资质证书审核治理艰难、订单信息传递效率低下、供给状态无奈及时跟踪等问题,业务流程上存在洽购多环节难以标准化、数据信息无奈留存等问题。因而,医院须要构建线上化、规范化的洽购业务流程,实现洽购全流程实时数据留存、共享。例如,在洽购需要提报环节,通过对立洽购需要填写格局和规范、标准洽购需要审批流程,进步医院物资科室和各部门的需要沟通效率。洽购流程自动化执行,进步洽购执行速度和效率。传统洽购模式下,医院物资科室洽购人员通常须要手动创立洽购订单、开票申请等业务流程,且流程审批往往在简单的层次结构中耗费大量工夫。因而,医院须要自动化执行洽购业务流程,打消流程中的多余环节,进步整个洽购供应链的执行效率。 例如,订单自动化是指洽购订单经审批通过后主动转为订单并下发供应商;对账自动化是指零碎可能依照医院的治理要求,主动按时生成、核验对账单据,并提供对账后果;结算自动化是指对账实现后可自主发动开票申请给供应商,供应商录入发票信息后主动匹配三单后果。 买通内外部信息系统,实现医院洽购执行全流程与供应商线上高效协同。局部医院曾经具备肯定的洽购信息化根底,但洽购零碎多与内外部信息系统处于互相割裂状态,难以真正实现医院与供应商之间的洽购业务协同。因而,医院须要通过供应商协同零碎与内外部零碎的数据连通,突破采供单方的流程壁垒,建设从洽购需要到寻源、订单、送收货、质检、财务对账、供应商评估一站式治理协同机制,增强医院外部、医院与供应商之间的沟通协同,实现高效协同洽购治理。 例如,通过供应商协同零碎,供应商可自助上传营业执照、资质证书等信息,医院方进行线上审核,并反对到期主动揭示;零碎也反对医院物资科室采购员将洽购订单主动同步给供应商,供应商可实时接管和确认订单,及时跟进医院采购计划。图 3:  医院供应商协同内容 厂商能力要求:为满足医院上述外围需要,厂商需具备以下能力 具备医院供应商治理know-how,可能提供功能模块残缺、业务逻辑迷信的供应商协同产品。厂商须要基于对医院供应链治理的深刻理解,将洽购治理教训、客户服务实际与产品研发相交融,通过对医院洽购业务流程、作业规范的具体梳理和从新定义,将简单的洽购治理流程标准化、规范化,构建笼罩从洽购需要、订单执行到财务结算的全流程采供协同产品模块,助力实现全链路在线与多端实时协同,进步医院洽购管理效率。可能提供洽购流程RPA和自动化性能,撑持自动化洽购执行。针对采供协同作业场景,厂商需可能提供丰盛的RPA引擎规定,包含主动需要分派、主动转单、数字化三单匹配、主动结算对账等,且反对依据医院理论需要对自动化流程进行规定配置,从而实现洽购业务流程的自动化、标准化。弱小的系统集成能力,可能将供应商协同零碎与内外部信息系统疾速买通。厂商需具备突出的内外零碎连贯能力,对内可能基于集成平台的可配置能力,将供应商协同零碎与医院HRP中的物资管理系统、合同管理系统、财务管理系统,HIS中的药品管理系统等进行无缝对接;对外基于规范API接口能力,疾速连贯各类电商平台及供应商,并集成电子合同、电子发票、企业征信等第三方利用。 入选规范: 合乎市场定义中的厂商能力要求;2022年该市场付费客户数量≥3家;2022年该市场合同支出≥300万元。厂商全景地图:爱剖析基于对医院和典型厂商的调研以及桌面钻研,遴选出在供应商协同零碎市场中具备成熟解决方案和落地能力的入选厂商。 3.厂商评估:隆道   厂商介绍:北京隆道网络科技有限公司(以下简称“隆道公司”),成立于2017年,是一家集数字供应链征询、布局、研发和施行于一体的业余服务商,致力于用数字技术服务洽购和供应链,全方位晋升企业洽购效率、升高洽购老本、优化治理流程。目前,隆道曾经为医疗医药、能源化工、食品、纺织、电子电气、汽车等30多个行业、20余万家企业及政府用户提供洽购供应链全流程数字化产品及服务。产品服务介绍:作为国内当先的数字化洽购与供应链治理服务商,隆道公司领有“企业洽购”、“政府洽购”、“商城交易”和“供应商服务”四大产品体系。每一产品体系均可依据客户需要实现与内、内部零碎利用集成互联,可能帮忙医院实现洽购需要、采购计划、定价、合同、订单、审批等洽购全流程高效业务协同,全方位晋升采供单方协同作业效率。厂商评估: 综合来看,隆道公司在粗浅行业know-how、一站式数字化供应商协同解决方案、疾速系统集成能力、先进技术架构及灵便部署施行方面具备突出劣势。基于粗浅的供应链治理know-how,隆道可能提供一站式、全方位的征询、平台化及零碎定制开发等服务。隆道外围团队成员领有20多年的洽购和供应链治理数字化转型钻研和施行教训,可能将行业认知、业务教训与供应链业务流程深度交融,面向医院提供业余咨询服务、残缺供应商协同产品性能、个性化零碎定制等综合一站式解决方案,满足不同医院在零碎建设和增值服务方面的差异化需要。图 4: 隆道一站式供应商协同服务体系 首先,隆道立足全局经营视角,为医院提供业余的供应链数字化转型布局咨询服务。基于对供应链畛域的充沛钻研和独到认知,隆道始终保持整体性和系统性的思路,面向医院提供数字化洽购与供应链治理策略征询、运行诊断、建设布局和系统实施咨询服务,以及以授课形式分享供应链常识、数字化转型胜利案例和实操教训。例如,针对零碎规划设计服务,隆道会帮忙医院梳理流程、优化流程并从新定义流程,包含制订信息格式和载体的统一标准、作业标准规范等,确保洽购全流程合规作业、依规协同。其次,隆道可提供欠缺的供应商协同产品功能模块,高度适配医院采供协同业务场景。隆道通过系统性、深刻的需要调研,对医院供应链上各个业务环节、场景进行属性剖析、共性因素提炼及形象,把握各个节点的作业形式,固化造成规范化、标准化的洽购操作流程,进而打造出笼罩医院全品类、全流程的供应商协同零碎。该零碎包含洽购寻源体系、价格体系、采后协同、供应商体系等功能模块,可能撑持医院实现洽购需要、合同、订单、审批等洽购全链路业务的内外协同。最初,隆道可能提供高效牢靠的零碎定制服务,满足大型医院个性化业务需要。不同等级、不同规模体量的医院,其对供应商协同的性能需要存在较大差别,尤其是针对实力较强、业务板块跨度大的医院,通用功能模块难以满足其作业需要。隆道可能基于医院业务特点和倒退需要,进行量身定制供应商协同零碎和利用性能。隆道具备疾速系统集成能力,可能实现供应商协同零碎与内、内部信息系统的智能互联。依靠丰盛的数据接口性能,隆道供应商协同零碎对内可能与医院HIS零碎、HRP零碎、OA零碎等进行无缝对接,反对医院外部各个科室之间实现洽购需要、订单合同、发货入库、财务对账等信息实时共享,医院与供应商之间实现采购计划、订单、收发货、结算对账、供应商评估等洽购全流程业务协同。对外可能与第三方利用平台买通,实现跨平台数据共享和业务协同,包含京东、药械网、贝登医疗等电商平台,天眼查、启信宝等供应商信息平台等。以四川大学华西二院我的项目为例,隆道将采供协同平台与医院物资管理系统、合同管理系统、OA、企业微信等进行对接,突破了各个系统的数据孤岛,实现了线上全流程供应商协同及留痕追溯。积木式微服务架构易扩大,灵便满足不同医院差异化需要。隆道独创“服务平台化、产品利用化”的设计和研发理念,采纳基于Spring Cloud的微服务分布式架构体系,将性能利用在技术平台上进行封装和重构,反对医院按需配置功能模块、业务流程及业务规定,构建实用于本身的数字化采供协同体系;并且供应商协同零碎具备充沛的可拓展性,可能基于医院需要变动,继续进行降级迭代或开发新性能。同时,隆道可提供SaaS、本地化等多种部署形式,灵便满足不同医院需要。典型客户:四川省人民医院、重庆医科大学从属儿童医院、四川大学华西第二医院  4.入选证书    

March 16, 2023 · 1 min · jiezi

关于数据:聚焦企业数据生命周期全链路-火山引擎数智平台-VeDI-发布数据智能知识图谱

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群近日,火山引擎数智平台(VeDI)正式公布《数据智能常识图谱》(以下简称「图谱」),内容笼罩了包含数据存储计算、数据分析减速、数据研发治理、数据洞察剖析,数据辅助决策、数据赋能营销等企业数据全生命周期的治理与利用。 更强劲的数据基座能力随着企业数字化转型的需要更加强烈,数据存储计算作为转型最底层的基座也更加受到关注。 过来,传统湖仓一体时常产生数据源数据入湖时效性差、多源数据管理难等问题;而在批流一体方面,因为批流存储引擎不对立导致批流工作离开解决、数据存储节约,以及繁多 Flink 实现简单的业务逻辑,运维和回溯老本低等问题也令企业头痛不已。 为了帮忙企业更好解决这些问题,火山引擎 VeDI 推出了湖仓一体剖析服务 LAS,为企业提供源自字节跳动最佳实际的一站式 EB 级海量数据存储计算和交互剖析能力。 此外,针对企业面临的:自建开源大数据平台常见的组件繁多且演进迅速、建设应用老本高、运维监控门槛低等问题。云原生开源大数据平台 E-MapReduce(简称 EMR)还能提供 100%开源兼容的大数据生态组件和丰盛的运维管控能力,配合智能化的冷热数据分层存储和 Stateless 瞬态集群能力,帮忙企业在大数据基建畛域进一步降本提效。 思考到局部企业对数据实时剖析的减速需要,火山引擎 VeDI 还推出云原生数据仓库ByteHouse。2017 年,字节跳动大规模启用ClickHouse,并领有着大规模ClickHouse集群。 在继续应用过程中,字节跳动应答了诸多挑战并将每一次教训加以积淀,在 2021年8月正式公布 ByteHouse,并通过火山引擎对外服务。 从架构上来看,火山引擎ByteHouse与其余同类型产品相比,采纳了自研的高可用引擎,反对数据实时更新、删除,新增了自研的查问优化器,并且在集群的运维和多表关联的场景都做了相应的加强;另一方面,全自研的查问优化能力,让 ByteHouse能够保障用户在简单查问的场景下具备更高的查问效力,这对器重实时数仓能力的用户来说,尤为重要。 比方,丰盛的表引擎不仅能帮忙企业用户实现数据的疾速写入去重、更新、删除与剖析,还能反对高效不便的运维形式,实现高性能更灵便的实时查问。 当海量数据存储上云,如何让数据变得更有价值?这时候就须要对数据进行研发治理。对大多数企业来说,数据的研发和治理向来是“老、大、难”问题,需要响应慢、资源老本高、数据品质差、资产治理难、平安无保障,每一项都在阻挡让数据成为企业可用资源。 火山引擎VeDI旗下大数据研发治理套件DataLeap聚焦企业数据研发治理两个环节,提供全链路解决方案。首先,DataLeap可能为企业提供基于字节大数据研发流程积淀的DataOps麻利研发流程、海量工作秒级调度能力和开源计算引擎的拓展能力;其次,在数据治理上,提供了分布式自治、全链路治理等服务; 最初,在数据资产建设上,具备数据资产疾速接入及主动构建全链路血统等技术能力。多个环节问题,一套解决流程,让企业得以真正实现“数据资产”积攒。 更多维的数据利用场景除了数据引擎能力之外,本次图谱还颁布了火山引擎数智平台 VeDI 聚焦企业具体数据利用场景的多项能力与产品。 如,在辅助业务科学决策方面,历经字节跳动外部多业务、多场景验证的 A/B 测试能力曾经通过火山引擎 DataTester 产品化输入。 DataTester 可能深度耦合举荐、广告、搜寻、UI、产品性能等多种业务场景需要,通过疾速、简洁、智能化的试验配置,为业务增长、转化、产品迭代、策略优化、经营提效等各个环节提供迷信的决策依据。 企业应用 DataTester 就可轻松根据业务需要开启 A/B 试验,可能通过更轻量的投入在理论业务场景中验证不同决策的可靠性,以此得出最优决策,帮忙企业以继续小跑姿势实现业务增长。 此外,在智能洞察方面,火山引擎VeDI增长剖析DataFinder可能基于埋点技术帮忙企业洞察用户在包含 APP、小程序、商城等在内的门路旅程,同时可前置设置异样数据告警线,以帮忙企业能即时发现问题。 与此同时,通过DataFinder回流的数据还能接入到智能数据洞察 DataWind 中,后者是反对千亿级别数据自助剖析的一站式数据分析与合作平台,提供 AI 与 BI 能力交融建模,帮忙企业实现更精细化地数据深钻和剖析,并反对多种报表模式展示。 而在智能营销场景中上,火山引擎VeDI推出的客户数据平台VeCDP,能够帮忙企业更好地找准指标市场,同时还能基于指标市场属性反向推导营销内容定制,以保障能把“适合的内容触达适合的人”,进一步提高营销转化; 值得一提的是,在营销触达环节,增长营销平台GMP可能根据企业的具体业务需要, 通过全终端触点触达、智能策略、算法举荐、流动残缺流程治理帮忙企业实现降本增效以及业务持续增长。 现在,《数据智能常识图谱》涵盖的火山引擎数智平台 VeDI 系列能力都曾经以产品化模式融入在企业数智化降级实际中。 截至2023年2月,包含陕西游览团体、海王团体、Levi's、凯叔讲故事 APP、峰米科技、杭州银行等文旅、医药制作、批发、互联网、金融等多个行业在内的几百家企业,都已应用火山引擎数智平台VeDI的产品,并在多个数智化场景中取得实效。 点击跳转 火山引擎数智平台VeDI 理解更多

March 13, 2023 · 1 min · jiezi

关于数据:Eolink-X-深数交-共建数据要素新生态

近日,Eolink 旗下 API 凋谢与交易平台  APISpace 入选深圳数据交易所数据交易商名录,成为其数据因素合作伙伴。 深圳数据交易所(深数交)其前身为深圳数据交易有限公司,于2022年11月15日正式揭牌成立,深数交以建设国家级数据交易所为指标,从合规保障、流通撑持、供需连接、生态倒退四个方面,打造笼罩数据交易全链条的服务能力,构建数据因素跨域、跨境流通的全国性交易平台。 去年 5月,在深数交的牵头下,中国首个致力于构建可信数据因素流通体系的开源社区-凋谢群岛(Openlslands)正式成立, 社区秉承 “翻新协同,凋谢共赢” 价值观,致力于突破数据因素流通的孤岛效应,实现数字经济的技术普惠,成为寰球当先的可信数据因素流通开源技术社区。社区目前已有110家参与方,成立10个社区工作组、31个非凡兴趣小组,围绕技术开源协同、行业标准制订、数据因素场景落地等指标,发展隐衷计算、大数据、区块链、人工智能等前沿技术摸索和落地, Eolink 作为 API 治理与凋谢畛域惟一力量有幸参加其中。 数字经济时代,数据成为重要的生产因素,被誉为“新黄金、新石油”,大数据逐步成为数字经济倒退的外围资源,数据的重要性日益凸显,2021年我国数字经济规模达到 45.5万亿元占 GDP 比重达 39.8%;此外相干统计表明,2021年寰球应用的公共和公有 API 的总数正在靠近 2亿,预计到2031年这一数字可能会达到数十亿。 “如果说数据是新石油,那么 API 将成为新塑料”  —— 寰球当先的利用交付网络(ADN)畛域的厂商 F5lnc 的技术专家如是说。API 是许多数字平台的重要支柱,与大数据等因素一起独特为我国驱动新一轮经济增长的新动能。 Eolink 是国内最早的 API 治理平台,致力于为宽广开发者用户提供寰球当先的 API 设计、研发治理、测试、监控、凋谢以及交易的全生命周期治理解决方案,截至目前 Eolink 累计托管 API 接口超过1亿个,寰球沉闷开发者用户超过 50万。Eolink 旗下业余的凋谢与交易平台 APISpace 汇聚了超过1000个各场景 API 接口,可实现一分钟疾速接入,目前 APISpace 已为爱普生、普华永道、三一重工、清华大学等泛滥国内外知名企业和组织提供过接口服务,平台接口月均调用超过 100亿次! 依靠 Eolink 的劣势,将来 APISpace 将与深数交及各大合作伙伴一起,独特推动数据的资源化、价值化、市场化,独特打造寰球当先的数字经济翻新生态,为我国企业的产业互联网化实现继续赋能。

March 9, 2023 · 1 min · jiezi

关于数据:数据测试实践从一个bug开始的大数据引擎兼容性探索

作者:京东批发 李晓洁咱们经常遗记,蠢才也取决于其所能把握的数据,即便阿基米德也无奈设计出爱迪生的创造。——Ernest Dimnet在大数据时代,精准而无效的数据对于每个致力于长期倒退的组织来说都是重要资产之一,而数据测试更是不可或缺的一部分。数据测试不仅关注数据加工的代码逻辑,还要思考大数据执行引擎带来的影响,因为各种引擎框架将对同一份数据产生不同的计算或检索后果。本文将从一个年度账单bug引入,解说在数据测试实际中对大数据执行引擎兼容性差别的摸索。 一、需要内容京东-我的京东-年度账单是一年一次,以用户视角对在平台一年的生产状况进行总结。账单从购物,权利,服务等方面切入,帮忙用户开掘在自我难以认知的数据角度,通过这种形式让用户从账单中挖掘感动心田的立意,并被动进行分享和流传。本次,我京年度账单以“2022购物印象”为主题,通过不同的数据维度组成村落故事线,用户以虚构人物形象贯通始终,用户浏览完故事线后,可生成购物印象。 年度账单其中一个报表为用户年度购买的小家电品类。该报表应用年度账单汇总表中的小家电品类汇合字段,计算了2022年度某用户全年最初购买的两款小家电所在的品类。本文bug分享将围绕这个字段开展。 二、 缺点形容缺点形容:在APP层用户年度账单汇总模型app\_my\_jd\_user\_bill\_year\_sum中,对于小家电品类汇合字段,APP表后果与手动计算结果不统一。 以用户'Mercury'、'乐乐1024'、'生机少年'的购买数据为例,上游ADM层以array<string>类型存储用户每月购买的小家电相干品类,如下图所示: • 依据小家电品类汇合字段定义,APP层应取这三个用户全年最初购买的2个品类,即'Mercury'在2022年11月购买的VR头戴显示器、电炒锅,'乐乐1024'在2022年10月购买的冲牙器、空气净化器,'生机少年'在2022年10月购买的VR头戴显示器、电炒锅。因而,经手动计算,APP层正确计算结果应为: • 而APP层年度账单汇总表中的小家电汇合品类如下,后果谬误,不合乎预期后果。 三、 缺点排查过程1. 执行引擎兼容差别测试排查中,首先发现了Hive和Spark引擎之间的语法兼容差别。 • 当应用APP层脚本中小家电品类汇合口径构建SQL,手动对上游表执行查问时发现,Hive引擎失去的汇合有序,执行后果正确: • 应用Spark引擎执行查问时,汇合乱序,执行后果谬误: 2. 脚本梳理缺点起因为汇合乱序导致的取数谬误。每个用户在上游ADM存在12个数组对应12个月购买小家电品类的汇合,须要汇合函数(collect)将12个月分组数据倒序排序,会合成1个列表,而后取列表前两个元素。 HQL提供两种分组聚合函数:collect_list()和collect_set(),区别在于collect_set()会对列表元素去重。因为用户不同月购买的品类汇合可能反复,因而脚本应用了collect_set()。 然而collect_set()将导致汇合乱序,汇合中元素不再按月份倒序排列,取出List[0]和List[1]不是用户全年最初购买的两个小家电品类。 SELECT user_pin, small_electrical_appliance_list, concat_ws('|', small_electrical_appliance_list[0], small_electrical_appliance_list[1]) AS small_electrical_applianceFROM( SELECT user_pin, collect_set(concat_ws(',', small_electrical_appliance_list_split)) AS small_electrical_appliance_list FROM( SELECT dt, user_pin, small_electrical_appliance_list, concat_ws(',', small_electrical_appliance_list) AS small_electrical_appliance FROM adm_my_jd_user_bill_month WHERE dt >= '2022-01' AND dt <= '2022-12' ORDER BY dt DESC) tmp lateral VIEW explode(SPLIT(small_electrical_appliance, ',')) tmp AS small_electrical_appliance_list_split GROUP BY user_log_acct ) 3. 论断• 计算脚本逻辑谬误,不应应用collect_set()聚合分组。 ...

March 7, 2023 · 1 min · jiezi

关于数据:2023爱分析一体化HR-SaaS市场厂商评估报告北森

  目录1.钻研范畴定义 一体化HR SaaS市场剖析3.厂商评估:北森4.入选证书1.钻研范畴定义钻研范畴随同数字化转型走向深刻,企业人力资源数字化也进入疾速倒退阶段,人力资源的价值也失去了从新扫视和定义。政策层面,《十四五布局和2035年近景指标大纲》、《“十四五”国家信息化布局》等一系列政策文件相继颁布,国家及各部委都在激励企业人力资源数字化“上云”倒退,推动人力资源管理数字化继续降级。同时,受疫情因素影响,近程办公、线上招聘、视频面试、线上培训等新型办公模式相继涌现,减速了企业人力资源数字化过程。并且,面对内部复杂多变的商业环境,传统的人力资源管理曾经无奈疾速、敏捷地适应企业的策略倒退需要,企业亟需借助数字化技术手段打造柔性麻利组织,以疾速响应市场环境变动、无效解决企业经营难题。人力资源数字化,是指充分利用数字技术,对企业员工招聘、根底人事、人才倒退、组织倒退等各个方面进行全方位、立体式的改革,实现翻新管理工具、优化业务流程、晋升组织效力和管理效率、推动业绩增长。具体来看,人力资源数字化包含一体化HR SaaS、灵便用工一体化、劳动力治理一体化、Core HR等数字化产品,以及社保治理、HRO、HR治理征询等数字化服务。一体化HR SaaS是企业人力资源管理的将来趋势。传统的企业人力资源管理体系次要是部署e-HR软件及单模块产品,在理论应用中逐步呈现多个零碎独立运行、可拓展性差、员工体验差等痛点,导致企业面临策略落地艰难、组织敏捷性差、难以撑持业务决策等治理难题。在此背景下,随着人力资源管理需要的变动,企业对一体化HR SaaS产品模式的呼声日渐低落,相应驱动人力资源数字化由部分利用转向全面拓展、模块割裂转向一体化场景及数据买通、HR视角转向业人协同。通过搭建以PaaS平台为撑持的一体化HR SaaS产品体系,企业可能整合人力资源相干的全副模块,实现人才治理全业务流程、数据的高效贯通,满足全方位的数字化治理需要。因而,基于深刻的调研,爱剖析遴选出具备成熟解决方案和落地能力的厂商,用以反对企业在做一体化HR SaaS产品选型时的参考。同时,在该市场下,爱剖析重点对北森进行了能力评估。图 1:  人力资源数字化市场全景地图 一体化HR SaaS市场剖析市场定义:一体化HR SaaS,是指面向HR部门、业务部门等要害角色,提供外围人事、招聘治理、企业培训、人才倒退、绩效治理等产品模块,通过人力资源管理全业务流程、场景数据的无缝对接、主动流转,帮忙企业实现全流程数字化治理,大幅晋升管理效率、组织效力及业务敏捷性。甲方终端用户:HR部门、业务部门及管理层、IT部门甲方外围需要:人力资源一体化治理已成大势所趋,随着企业的治理需要逐步从业务流程买通、数据决策智能化降级到业人协同,人力资源管理体系也将从安装版信息化、产品一体化向业人一体化转变。图 2:  人力资源数字化的进阶之路 在人力资源数字化倒退初期,大部分企业联合本身业务需要,从多家厂商分批洽购繁多模块零碎,在理论使用中日渐暴露出业务流程断点、数据无奈对立、员工体验不佳等问题。对此,企业通过产品模块、业务场景的全面买通,可能实现对员工全生命周期的一站式服务和一体化的全景数据分析决策。随同人力资源管理职能向业务部门转移、HR管理体系的不断完善以及头部厂商业人一体化产品的呈现,企业对人力资源管理撑持企业策略、业务指标实现的需要愈发强烈。因而,强化数字化工具对业务部门的赋能,逐步成为大型头部企业从人才胜利走向业务胜利的必然选择。具体来看,企业对一体化HR SaaS的外围需要如下:图 3:  企业对一体化HR SaaS的外围需要 企业须要构建性能残缺、业务流程联通、灵活性高的人力资源管理体系,实现一站式员工全生命周期闭环治理。一方面,大中型企业晚期通过部署e-HR软件,用以撑持组织人事管理、考勤治理及薪酬治理,后又逐渐引入招聘治理、人才测评、企业培训等单模块产品。但各个系统之间互相割裂、集成艰难,只能满足人力资源部门的繁多场景需要,无奈实现人力资源业务流程的联动,难以驱动高效的人力资源管理工作。因而,企业须要围绕员工从招募、入职到到职的全生命周期阶段,构建性能残缺的人力资源管理体系,通过一体化场景、业务买通,推动人力资源管理全业务流程实现闭环。 另一方面,本地部署的e-HR软件更新迭代周期漫长,标准化的产品通常无奈灵便满足大中型企业多样化的需要,企业须要通过人力资源管理模块的麻利迭代,来应答疾速变动的商业环境。 企业须要通过全量数据治理,构建员工标签和剖析指标体系,赋能企业组织管理决策智能化。传统人力资源体系下,不同HR零碎的断点难买通,数据被保留在不同的模块中,未能充分发挥数据对企业组织倒退、人才治理的效用价值。因而,企业须要将不同业务场景中的HR数据进行无缝对接、主动流转,造成残缺的人力资源管理数据链,打造员工标签和剖析指标体系,实现数据驱动人力资源管理决策,驱动人效晋升。 具体而言,一方面,企业须要造成招聘、薪酬、考勤、绩效等员工多维度数据资产积淀,通过构建欠缺的数据标签和画像体系,实现基于员工的全场景数据分析,最大化人才价值,继续晋升组织效益。例如,企业能够从能力、教训、共性、专长等多维度对员工打标签,全面地分类定义人才,实现人才的精准辨认、准确搜寻和甄选使用。另一方面,在达成业务部门KPI及HR管理决策过程中,企业须要引入行业Benchmark数据,对各业务流程节点上的指标数据进行诊断剖析,动静优化业务。例如,企业能够依据行业均匀邀约到面率数据,判断本身邀约到面程度的高下,进而洞察关键问题,优化招聘业务流程。 企业须要为业务部门提供人力资源数字化赋能工具,撑持高效业务决策与指标达成。过来人力资源数字化只是从HR部门的视角登程,并未联合企业策略业务布局及业务倒退状况,业务部门始终游离于人力资源数字化场景之外。而在理论工作中,业务部门承当了大量人力资源管理工作,但短少相应的治理抓手。因而,企业业务部门须要借助人力资源数字化工具来撑持疾速的商业决策,保障业务指标高效达成。例如,通过All in one的招聘工作台,业务经理可能主导实现人才搜寻、预约面试、把控招聘进度和品质等人力资源工作,实现业人协同。 厂商能力要求:为满足甲方客户上述外围需要,厂商需具备以下能力: 厂商需可能提供一体化HR SaaS管理工具,实现人力资源全流程的对立治理。厂商需可能提供笼罩人力资源管理全流程的一体化HR SaaS产品,包含外围人事、招聘治理、企业培训、人才倒退、绩效治理等全模块性能,帮忙企业实现人力资源的对立治理,促成人才管理效率晋升。厂商需具备弱小的数据治理与剖析能力,以数据决策反对企业人力资源管理。首先,厂商需可能基于丰盛的API接口,将HR零碎、ERP等业务零碎、第三方招聘平台等内部系统集成买通,通过对立数据口径和字段,造成人力资源管理数据闭环。 其次,厂商需可能整合简历、测评、绩效、薪酬、降职等HR场景数据,以及业绩、老本、我的项目等业务数据,利用AI技术构建智能化、多维度的人才标签体系,实现对人才的全方位洞察,帮忙企业解决在业务开辟、组织调整、人才倒退降职等业务场景中的精准识人难题。最初,厂商可能基于代表性强、样本量足够大的企业数据,构建出针对特定行业的Benchmark指标数据库,例如邀约到面率、岗位薪资程度、退职时长等,帮忙企业诊断各业务流程中的潜在问题,进而优化管理决策。 厂商需可能面向多业务角色提供相适配的人力资源数字化工具,助力企业走向业务胜利。厂商需可能面向高管、业务经理、HRBP等不同的业务角色,提供管理层驾驶层、业务领导工作台、HRBP工作台等人力资源数字化工具,帮忙企业实现业务与人力之间的高效协同,驱动业务部门KPI指标疾速达成。 例如,通过搭建管理层驾驶舱,CEO及高管可能实时把握企业人员总量、人才画像、组织效力、用人策略等人力资源数据,麻利响应业务需要变动,疾速做出决策。 厂商需具备弱小的PaaS平台能力,撑持企业定制利用的疾速开发。厂商需具备弱小的PaaS平台撑持能力,可能基于粗浅的行业know-how,将各类人力资源管理场景、业务流程积淀到零碎中造成内置模块,以标准化产品满足行业共性需要。同时,通过低代码开发平台满足大中型企业灵便配置的定制化需要,疾速应答企业一直变动的业务诉求。 入选规范: 合乎市场定义中的厂商能力要求;2022年该市场付费客户数量≥50个;2022年该市场合同支出≥4000万元。 厂商全景地图:爱剖析基于对甲方企业和典型厂商的调研以及桌面钻研,遴选出在一体化HR SaaS市场中具备成熟解决方案和落地能力的入选厂商。 3.厂商评估:北森  厂商介绍:北森云计算股份有限公司(简称“北森”)品牌成立于2002年,是中国最大的云端人力资源管理(HCM)解决方案提供商(灼识数据),致力为中国企业提供人力资源管理场景中所须要的技术和产品,包含HR软件、人才治理技术、员工服务生态、低代码平台的端到端整体解决方案。产品服务介绍:北森一体化HR SaaS解决方案,是以PaaS平台为撑持,围绕员工全生命周期,提供招聘治理、人才测评、外围人力、绩效治理、继任倒退、学习成长、人力剖析等全场景模块,帮忙企业疾速晋升人力资源管理效率、人才治理能力,实现智慧决策。厂商评估: 综合来看,北森在“业人一体化”理念践行、数据治理与剖析能力、PaaS平台能力、客户胜利方面具备突出的劣势。率先提出“业人一体化”理念,助力企业从人才胜利走向业务胜利。北森在人力资源管理畛域深耕20年,基于对人力资源职能向业务转移的前瞻洞察,率先在2022年提出“业人一体化”的产品与服务理念。“业人一体化”强调以业务指标为外围导向,利用数字化工具赋能业务部门,如高管、业务经理、HRBP等要害角色,实现人力资源与业务经营之间的深度交融,帮忙企业实现业务胜利。例如针对CEO/高管做业务决策短少数据撑持的痛点,北森推出了CEO驾驶舱,从人力布局、组织效力、组织评估、人才总量、人才地图等多维度,实时展示企业人力资源数据全貌,以实现疾速业务决策制定。针对连接业务和人力的要害角色HRBP,北森打造了HRBP专属工作台,反对在对立平台内实现所有人力资源管理工作,囊括员工指标绩效落地跟踪、员工关心治理、招聘停顿、数据分析报表等,无效晋升HRBP的工作效率。针对一些垂直行业,如连锁零售店长、制作产线经理等角色,北森也推出了相应的一揽子新个性,例如店长工作台,笼罩招聘、人事、排班、培训、薪酬、假勤、跨门店协同、数据看板等诸多门店特色的人力资源管理模块。 图 4:  北森业人一体化模型 具备较强的数据治理与剖析能力,打造以“人”为核心的数据资产积淀。北森具备业余、弱小的数据治理与剖析能力,推出了国内PA(人力剖析)产品和首个数字人才产品。以数字人才为例,依靠于一体化HR SaaS,北森可能整合简历数据、测评数据、绩效数据、薪酬数据等HR全场景数据,并利用评估技术、AI技术等实现智能人才标签体系建设,造成以“人”为核心的公司人才全景档案,从而撑持企业高管在业务开辟、组织调整时准确搜寻、洞察要害人才,疾速进行人才的排兵布阵。北森的数据能力也在客户端失去展示。如北森为某乳制品头部企业打造了NIU-TALENTS智慧人才零碎,从6大类22个细项构建人才标签体系,搭建残缺的人才全景档案,并反对依照“能力+教训+后劲+绩效”等综合维度进行人才搜寻,以及依照人才规范项进行人才PK,最终无效晋升该客户人才盘点规范的灵便度、人才补给与调配的效率。当先的PaaS平台能力,全力撑持下层多场景利用疾速迭代及灵便定制开发。一方面,北森在PaaS平台建设方面具备很强的门路劣势和技术壁垒。区别于业内大部分厂商先做SaaS再形象PaaS平台的技术门路,北森自2011年起动摇推广PaaS+SaaS产品开发模式,投入大量研发人力,将业务场景高度形象的业务架构与高可用高扩展性的技术架构进行对立。通过多年的继续迭代开发与性能翻新,北森鲁班PaaS平台曾经造成开箱即用的“零代码”配置能力,灵便高效的“低代码”开发能力和通过凋谢API进行的“全代码”托管能力3大外围劣势,成为国内最早的、产品成熟度最高、客户教训积攒最丰盛的HR PaaS平台,可能全力撑持下层一体化HR SaaS产品的疾速迭代。另一方面,北森自2020年起通过“森云打算”向客户凋谢PaaS平台能力,客户能够基于PaaS平台灵便自主进行个性化利用开发,目前北森鲁班PaaS平台曾经有超过100家企业开发出300+利用。例如,依靠于北森鲁班PaaS平台,某大型IT服务商曾经实现5期基于HR SaaS的利用拓展开发,包含人力资源入职、试用期治理、合同治理、人事调动治理等多方面个性化需要,均匀单个我的项目只需2-3周即可实现上线,显著晋升了产品开发效率。欠缺的服务保障体系,领有丰盛的大中型企业客户成功实践积淀。北森最早在2012年组建CSM团队,通过多年倒退曾经造成欠缺的客户胜利服务体系和方法论。北森客户胜利团队包含施行交付团队、客户胜利经理团队、客户胜利共享服务中心、客服核心以及客户胜利反对核心,可能为客户提供从业务布局、业务解决方案、零碎搭建、继续经营到价值晋升的端到端服务。截至目前,北森在互联网、制造业、批发连锁等行业积攒了丰盛的大中型企业客户成功实践案例,曾经为复星医药、神州数码、绿城中国等超过6000家企业提供人力资源数字化解决方案,其中包含70%的《财产》中国500强企业。图 5:  北森客户胜利服务体系形成 典型客户:复星医药、神州数码、绿城中国、蒙牛乳业、哈啰出行  4.入选证书  

March 6, 2023 · 1 min · jiezi

关于数据:与流程挖掘布道者熵评科技孙一鸣博士共话流程挖掘市场的起源与前景-爱分析访谈

调研:李进宝 陈元新撰写:李进宝 陈元新随着数字化转型继续深刻,国内企业流程开掘需要初露端倪。流程开掘是指通过采集和剖析企业数据,以可视化流程图还原企业理论产生的业务流程,进而评估流程运行状况、诊断流程运行问题、发现流程改良机会,实现流程继续优化和监控。作为一项发祥于欧洲的新兴技术,流程开掘是否在国内市场充分发挥价值?中国企业数字化能力参差不齐,流程开掘厂商应如何应答?一批流程开掘厂商锋芒毕露,厂商可继续倒退的要害胜利因素有哪些呢?带着这些问题,爱剖析与熵评科技联结创始人兼首席科学家孙一鸣博士进行一场深度对话。孙博士领有七年海内流程开掘从业教训,曾负责德勤寰球流程仿生核心首席科学家,在寰球主导多个流程开掘胜利案例,为德勤流程开掘即服务(PMaaS,Process-Mining-as-a-Service)商业模式奠定坚实基础。在对话中,孙博士就集体流程开掘从业经验、PMaaS商业模式、国内外流程开掘市场洞察以及熵评科技流程开掘产品等四个方面进行交换。孙博士认为流程开掘在欧洲获得的成绩能够在中国复现,在头部企业获得的成绩能够在腰部企业复现,流程开掘行业潜在市场需求微小,随同国内相似数字中国政策利好,数字流程市场的暴发速度将比料想的更快。我的项目教训、产品性能和技术底座是流程开掘厂商的外围竞争力。 01 从德勤寰球流程仿生核心首席科学家到熵评科技联结创始人我的项目交付教训是流程开掘守业的必备条件。只有了解流程开掘行业的方方面面,能力清晰定位本人的公司,理解客户须要什么、合作伙伴须要什么,从而实现单干共赢。这是我守业的根基所在。 爱剖析:您从2016年开始从事流程开掘,到当初曾经7年工夫,什么契机促使您抉择了这个方向?什么样的能源让您保持这个方向? 孙一鸣:我进入流程开掘行业其实是因缘际会。2012年到2016年期间,我在德国卡尔斯鲁厄理工学院攻读博士,在2015年初的一次工业和学术界交流会上,我意识了西门子团体流程开掘我的项目负责人Oliver Salzmann学生,从他那里第一次听到流程开掘的概念。2016年年初,Oliver去了德勤成为了德勤危险征询合伙人,期间咱们又屡次交换了无关流程开掘的话题,他邀请我一起欠缺商业流程开掘技术,把流程开掘推广更多的企业中去。过后咱们聊的很多想法和打算都对我很有吸引力,于是我决定在2016年初退出德勤,开始了我的流程开掘职业生涯。 至于我保持在这个行业内的能源,我感觉次要是因为流程开掘带给了我很多的成就感。咱们做流程开掘我的项目在欧美接触了很多的企业,他们之前也在进步流程透明度,和流程优化方面做了十分多的致力,但成果并不怎么好。当咱们应用流程开掘帮他们重现了整个端到端流程图,领导他们应用流程图进行流程剖析,发现了流程的冗余和瓶颈的时候,他们常常会呈现那种两眼放光,十分兴奋的时刻,就如同是发现自己之前想做然而没有方法实现的很多想法又从新变得有可能了,在这种状况下客户会很天然地给出十分踊跃的侧面反馈。正是这种继续一直的正反馈动摇了我深耕流程开掘行业的信念,也让我更加确信,流程开掘是客户真正须要的技术,可能给他们带来实实在在的价值。 爱剖析:您曾在德勤开办流程仿生核心,并领导德勤在多个国家的本地流程开掘服务团队建设工作,您能分享这段经验吗? 孙一鸣:德勤流程仿生核心是寰球支流征询公司中第一个流程开掘业余服务中心。过后流程开掘业内最大的几个落地我的项目都由德勤流程仿生核心施行,客户包含西门子团体、博世团体、罗氏制药等,我参加了其中十分多我的项目的设计和最终交付落地。同时,我也负责流程仿生核心和学术界的交换,先后主导了德勤和德国亚琛工大、波兹坦大学还有弗劳恩霍夫研究所的一系列流程开掘钻研我的项目。2018年,我代表德勤,和流程开掘之父Wil van der Aalst传授联结申请了德国教育部BMBF钻研基金。2019年,咱们也和德国亚琛工大独特推动举办了第一届国内流程开掘学术会议ICPM,起初也间接促成了IEEE流程开掘工作组成立。很多从学术界进入流程开掘业界的共事都受到了咱们工作的影响。业内同行常把德勤流程仿生核心比喻为流程开掘行业的“黄埔军校”。 2018年初,德勤向寰球服务网络推广流程开掘,我参加了流程仿生核心扩散到寰球的全过程。2018年5月,我回到上海,给德勤中国的共事们做流程开掘培训,帮忙他们建设德勤中国流程仿生核心,起初我又去英国、法国、瑞士、印度、美国等十余个国家,造就当地流程开掘交付团队。 图 1:德勤流程开掘考核体系制定者和负责人孙一鸣博士向德勤中国考核通过成员颁发证书 爱剖析:您的职业经验对熵评科技这家新锐企业而言有哪些价值? 孙一鸣:首先,这些我的项目让我真正深刻了解了流程开掘这个行业,给了我十分十分多的案例积攒,让我晓得怎么去解决各种不同的状况,晓得流程开掘能够从什么样的角度去帮忙客户,这些都是可能真正给客户带来价值的中央。 其次,我的职业经验对熵评科技产品设计和研发也很有帮忙。我此前参加我的项目交付时常常遇到这种状况:咱们或者客户方有很多更无效剖析数据的想法,但流程开掘工具中不足将这些想法落地的性能。当初我有了本人的流程开掘工具,能够把很多之前的想法和难以实现的客户需要都整合进去,让产品更加贴合客户要求,这也是咱们在设计熵评科技产品时的要害理念之一。在流程开掘工具性能日益趋同时,咱们会基于更多客户实在需要,在产品中退出许多翻新性能,走出一条差异化路线,帮忙咱们在同类产品竞争中怀才不遇。 爱剖析:请您介绍熵评科技的创始人团队? 孙一鸣:咱们创始人团队共有五位,之前专一于不同畛域,但从业教训都很丰盛,是一支优势互补、有强劲战斗力的团队。咱们的CEO是一位间断创业者,有15年数据处理行业教训,在惠普工作7年,期间负责日志解决和剖析,一个胜利守业团队领导者所需的素质在他身上都能看见。CTO此前供职于微软、阿里云等国内外一线大厂,在大数据平台架构和企业级实时数仓畛域经验丰富,是国内顶尖大数据技术专家。CMO此前负责爱立信技术咨询业务东北亚区负责人、文思海辉销售VP,是业内顶尖的超大企业营销专家。CPO先后供职于华为、京东等一线大厂,有17年产品IPD流程治理教训,能确保熵评科技各种新鲜的产品功能设计落地。我本人则有7年流程开掘行业教训和上百个我的项目交付教训。 图 2:在2019年6月24日第一届国内流程开掘大会上,孙一鸣博士代表德勤发表主题演讲 02 初创≠高级,熵评科技已建设清晰的商业化门路为了让客户应用流程开掘时实现业务收益最大化,熵评科技率先在国内流程开掘行业推广了“流程开掘即服务”(PMaaS)理念,力求把流程开掘做成赋能式、场景化服务,让客户间接从服务中失去价值。爱剖析:熵评科技如何切入国内流程开掘市场?请介绍产品商业化门路。孙一鸣:熵评科技的市场切入点是怎么让客户在应用流程开掘时实现业务收益最大化。咱们心愿把客户行业Know-how、业务流程Know-how和流程开掘技术联合起来。基于此,咱们率先在国内流程开掘行业提出“流程开掘即服务”理念,即把流程开掘以赋能式、场景化服务的形式提供给客户。具体而言,熵评科技会为征询合作伙伴提供高质量流程开掘产品,并以过往案例教训为根底,赋能合作伙伴流程开掘技术。征询合作伙伴将本身行业Know-how、征询教训与流程开掘技术能力联合,为终端客户提供流程征询和流程开掘服务。确定这一策略后,熵评科技从2022年底开始大力发展征询合作伙伴,截至目前曾经同超过15家大型征询公司签订单干协定,并开展具体单干。与此同时,熵评科技也会保留一支直销团队,专门为行业标杆大客户或与熵评科技共同开发产品的合作伙伴提供服务。爱剖析:流程开掘产品的外围客群有哪些特色?孙一鸣:现阶段,咱们的外围客户年收入至多在亿元以上, 10亿以上的也较为常见。从行业角度看,客户次要散布在制造业、金融服务业和物流运输业,这些行业对流程品质和效率要求较高,同时有很多监管合规方面的要求。通常来说,企业心愿优化那些长链路、高复杂性,且较为重要的流程,比方洽购、销售、生产制作等外围业务流程。爱剖析:您有丰盛的海内工作教训和资源,熵评科技是否思考倒退海内业务?孙一鸣:拓展海内市场是咱们成立之初就有的想法。一方面,海内市场绝对成熟,需要稳固、客单价较高,无需破费太多精力教育市场,流程开掘我的项目施行起来简略间接。付出同样的老本,海内市场收益更大。另一方面,我集体在海内有7年流程开掘从业经验,在德勤工作了5年,又开办了本人的流程开掘征询公司,服务了很多国内企业。我在海内积攒了大量客户资源,再加上德勤流程仿生核心的圈子,让我同欧洲许多征询公司有着良好的关系。咱们会争取早日在欧洲站稳脚跟,成为一家国际化流程开掘厂商。 03 流程开掘行业潜在市场需求微小,随同国内相似数字中国政策利好,数字流程市场的暴发速度将比料想的更快国内流程开掘市场还处于晚期阶段,各行业头部企业都对流程开掘有所理解,并开始尝试流程开掘技术,但大部分企业还在张望。客户对流程开掘的需要包含流程细节透明化、流程运行可监控,并在此基础上实现降本增效。思考到国内整体市场潜力,随同国内相似数字中国政策利好,数字流程市场的暴发速度将比料想的更快。 爱剖析:国内流程开掘市场处于什么倒退阶段? 孙一鸣:我在国外工作期间,对国内市场始终保持关注。2018年,我作为技术顾问,同德勤中国的流程开掘团队独特发展了国内首个流程开掘我的项目,为一家国内当先的手机厂商提供流程优化服务,后续也参加了很多国内其余我的项目,次要服务制造业和工业互联网畛域的客户。我认为,国内流程开掘市场还处于晚期阶段,总体落后五六年,目前各行各业都开始接触,理解流程开掘。然而目前因为国内商业流程开掘具备理论产品和交付教训的人才匮乏,我的项目教训较少,这对流程开掘在国内的疾速倒退是一个挑战。 爱剖析:有观点认为,国内企业数字化水平广泛较低,短少规范流程,因而流程开掘对国内企业成果无限。您如何对待? 孙一鸣:国内企业的数字化水平差别较大,这导致客户需要不尽相同,在肯定水平上晋升了流程开掘难度。但“成果无限”的说法并不精确。熵评科技在过来一年里接触大量国内企业,咱们发现这些企业均匀数字化程度尽管低于欧美企业,但差距并不大。国内很多优良企业的数字化程度和对流程的关注水平不在欧美同类企业之下,有些甚至超过国外同行。 此外,国家鼎力提倡企业数字化转型,推动“数字中国”建设,使得国内企业数字化水平迅速进步。实现数字化后,企业天然会衍生出应用流程开掘工具进一步优化流程的需要。思考到国内整体市场潜力,随同国内相似数字中国政策利好,数字流程市场的暴发速度将比料想的更快。 爱剖析:国内客户对流程开掘次要有哪些需要? 孙一鸣:首先,客户的根底需要是流程细节透明化,即理解流程在事实中如何执行,并保障流程运行可监控。其次,客户心愿在流程透明化的根底上,应用流程开掘技术降低成本。比方通过打造标准化流程来进步流程效率、通过流程剖析解决外部沟通合作问题、缩小流程吞吐工夫、升高流程中要害节点错误率和返工率等。最初,还有很多企业期待流程开掘不仅能节流,还要能开源,比方通过剖析客户旅程来进步客户转化率。 流程挖掘的应用不是一次性的,否则就成了简略的流程诊断。流程开掘必须继续应用,须要定期做数据更新,理解之前的流程改良措施是否无效。咱们的CMO有一个很形象的比喻,流程就像耳机线,每次把它整顿好放到兜里,过一段时间又乱了,必须拿进去重新整理。流程会依据内部因素的变动,人造偏离原来的轨道,所以客户须要一直监控、改正、优化流程。 04 独创的前台性能和底层框架,熵评科技打造流程开掘产品差异化劣势我的项目教训是流程开掘产品实现前台性能差异化的前提条件,数据处理速度是流程监控的必要保障。熵评科技将来将在放弃产品外围性能的根底上,打造一站式流程治理和优化平台,并将流程开掘和人工智能技术联合,进步产品智能化程度和异构数据自动化解决能力。爱剖析:请您介绍熵评科技的流程开掘产品性能。孙一鸣:咱们的流程开掘有十分齐备的性能,其中有些性能甚至是独创的,这是咱们长期在流程开掘施行中和客户交换的后果。举个例子,我之前给一家国内顶级医药企业做我的项目时,对方向咱们展现一张他们本人外部应用的图表,直观地比拟这家企业在寰球各个国家某一段子流程的标准化水平。对方心愿用流程开掘画一张相似的图,然而很遗憾,过后市面上所有流程开掘工具在技术上都实现不了。当初,我有机会设计本人的工具,就把整张图背地的数据处理逻辑放在了熵评科技的工具里,并增加了相应组件。相似的创新型性能还有很多,都是咱们长期在行业内积攒的后果,是咱们在同质化竞争中胜出的关键因素之一。爱剖析:除性能外,熵评科技的流程开掘产品还有哪些竞争劣势?孙一鸣:咱们在产品性能上还有很多差异化劣势,最直观的应属性能,次要体现在两个方面。一是后盾大数据处理架构,咱们基于目前寰球生态最为齐备的Spark架构,从源代码级别进行了优化,同时搭载咱们自研的PQL/SQL混合算子、智能PQL解析优化和向量化引擎,构建出了一个十分弱小的分布式计算平台。整个平台既有Spark弱小的生态加持,又在多项自研技术,尤其是向量化引擎的反对下,保障了咱们性能上的当先。更重要的是,咱们所能反对的流程开掘数据模型非常灵活,在晋升了多表互连模型性能的根底上,完满反对多流程事件表(Multi-eventlog)和面向对象的流程开掘(OCPM)等当今行业内最先进的流程开掘技术计划。能够说整个架构十分具备技术前瞻性和创新性。第二点,就是咱们熵评科技独有的流程开掘技术框架(Process Mining Framework),实质上是解决如何高效施行和保护流程开掘我的项目的问题。业内专家都分明,流程开掘我的项目施行过程中,百分之七八十的工夫破费在数据清理和流程建模上,而流程开掘技术框架解决的就是这个问题。我之前曾参加过德国某汽车电子供应商的流程开掘我的项目。他们在本地建设了宏大的地方数据池,向流程开掘工具导入数据后进行数据模型更新。最开始,他们的要求是每小时更新一次,但咱们发现他们最大的一个数据模型,繁多年份的事件数量就超过了10亿,每次数据模型更新工夫远高于1小时,每天更新一次数据尚且难以实现,更不用说每小时更新了。受此启发,我在后续的我的项目中设计出了整套流程开掘技术框架,并一直加以欠缺和优化。整个框架用模块化思维,清晰定义数据清理步骤,环环相扣。同时应用很多可配置参数,将简单的流程建模逻辑变得更加灵便可控,不便前期保护和批改。最初,咱们在框架里内置了很多计算逻辑和算法,解决实时数据流程模型的增量更新问题,大大提高了流程建模效率,也给用户带来了应用上的不便。爱剖析:联合您对流程开掘市场的判断,熵评科技在将来的产品策略是什么?孙一鸣:整体上说分为横向和纵向两方面。横向是在保障产品外围性能根底上,涵盖更多客户须要的流程设计和预测能力,打造一站式流程治理和优化平台。纵向上,咱们的指标是将流程开掘和人工智能技术联合,进步产品智能化程度和异构数据自动化解决能力,使用户更加高效地找挖掘流程价值,同时通过产品智能化程度进步,一直升高应用门槛,让更多企业可能应用流程开掘,也是咱们的愿景之一。最初呢,我也是心愿把我过往的商业流程开掘畛域的赋能教训与更多的国内合作伙伴共享,也欢送各类感兴趣的公司和集体找到咱们熵评,独特推动国内流程开掘市场的衰弱倒退。

March 6, 2023 · 1 min · jiezi

关于数据:英方软件加入龙蜥社区联手夯实数字基础设施坚实底座

近日, 上海英方软件股份有限公司(以下简称“英方软件”)签订了 CLA(Contributor License Agreement,贡献者许可协定),正式退出龙蜥社区(OpenAnolis)。 英方软件是一家专一于数据复制的根底软件企业,致力于动静文件字节级复制、数据库语义级复制、卷层块级复制及其他信息化技术的研发与推广。基于核心技术,结构了“容灾+备份+云灾备+大数据”四大数据复制产品系列,领有 27 款标准化产品,可疾速交付各类用户。产品广泛应用于灾备、数据保护、云数据管理等畛域,帮忙各类用户突破数据孤岛,实现数据互联互通,为数字经济的倒退保驾护航。英方软件围绕客户需要继续翻新,与合作伙伴凋谢单干,在金融、医疗、教育、运营商、能源、制作和互联网等畛域构筑了多层次、多策略、全域、全生态的数据管理计划。 英方软件市场部总监黄亮示意:“将来,英方软件将踊跃投身社区生态建设,充分发挥英方在数据复制畛域的劣势,携手龙蜥社区在多场景、多需要、异构根底环境下,满足用户多层次、多策略、多样性的需要。围绕数据这个新型生产因素所笼罩的利用场景,为用户提供数据安全、混合云灾备、数据库同步、数据迁徙、数据正本治理、大数据收集与散发等产品计划,夯实数字基础设施松软底座。” 龙蜥社区理事史广安示意:“英方软件在数字方向始终秉承着数字化理念,以数据复制技术为外围,为泛滥行业客户提供牢靠的数据服务。置信英方软件退出龙蜥社区后,将携手社区,独特促成更多企业的数字化转型过程。” 截至目前,已有 300+ 家企业签订 CLA 协定退出龙蜥社区,包含平安厂商格尔软件、海泰方圆,数据库厂商南大通用、巨杉数据库,中间件厂商西方通、中创中间件、宝兰德等,欢送更多企业退出。 龙腾打算 2.0 可参看:首批招募 50 家!「龙腾社区生态倒退打算」正式公布 —— 完 ——

February 24, 2023 · 1 min · jiezi

关于数据:金融消费品与零售国防军工3大行业智能决策如何落地实施

February 17, 2023 · 0 min · jiezi

关于数据:2023爱分析-数据科学与机器学习平台厂商全景报告-爱分析报告

    报告编委黄勇爱剖析合伙人&首席分析师孟晨静爱剖析分析师   目录 钻研范畴定义厂商全景地图市场剖析与厂商评估入选厂商列表1.    钻研范畴定义 钻研范畴经济新常态下,如何对海量数据进行剖析开掘以撑持麻利决策、适应市场的疾速变动,正成为企业数字化转型的要害。机器学习算法能辨认数据模型,基于法则实现学习、推理和决策,正宽泛的利用在金融、消费品与批发、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设施监管、智能排产、流程优化等。企业传统的机器学习尽管能无效撑持业务决策,但因为重大依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的妨碍。数据迷信与机器学习平台是指笼罩数据采集、数据摸索、数据处理、特色工程、模型构建、模型训练、模型部署与公布、模型治理与经营等建模全流程的平台,提供一站式建模服务,能显著晋升建模效率、升高建模门槛。数据迷信与机器学习平台能反对并赋能企业各业务场景实现智能决策,帮忙企业打造数据驱动型组织。本报告对数据迷信与机器学习平台市场进行重点钻研,面向金融、消费品与批发、制作与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据部门、业务部门负责人,通过对业务场景的需要定义和代表厂商的能力评估,为企业数据迷信与机器学习平台的建设布局、厂商选型提供参考。厂商入选规范本次入选报告的厂商需同时合乎以下条件: 厂商的产品服务满足市场剖析的厂商能力要求;近一年厂商具备肯定数量以上的付费客户(参考第3章市场剖析局部);近一年厂商在特定市场的支出达到指标要求(参考第3章市场剖析局部)。  2.    厂商全景地图爱剖析基于对甲方企业和典型厂商的调研以及桌面钻研,遴选出在数据迷信与机器学习市场中具备成熟解决方案和落地能力的入选厂商。 3.    市场剖析与厂商评估     爱剖析对本次数据迷信与机器学习平台我的项目的市场剖析如下。同时,针对参加此次报告的局部代表厂商,爱剖析撰写了厂商能力评估。数据迷信与机器学习平台市场定义:数据迷信与机器学习平台是指笼罩数据采集、数据摸索、数据处理、特色工程、模型构建、模型训练、模型部署与公布、模型治理与经营等建模全流程的平台,提供一站式建模服务,能显著晋升建模效率、升高建模门槛。甲方终端用户:金融、消费品与批发、制作与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商的数据科学家、风控建模人员、营销建模人员、业务剖析人员、模型利用人员甲方外围需要:企业对机器学习的利用越来越宽泛。一方面,数据量的激增、算法的冲破以及CPU、GPU、DPU等多种算力技术的倒退,为以机器学习为根底的数据挖掘、计算机视觉、自然语言解决、生物特色辨认等技术在企业的利用奠定了技术根底;另一方面,市场环境的疾速变动对企业决策敏捷性要求加强,不仅推动企业将机器学习模型利用到营销、广告、风控、生产等更多业务场景,也对模型精度、模型开发敏捷性以及模型利用广度提出更高要求。然而,机器学习技术门槛高、建模周期长,难以满足企业通过基于机器学习模型晋升经营效率的需要。数据迷信与机器学习平台具备工具丰盛集成、建模效率晋升以及模型资产复用等特点,能充沛满足企业对智能利用的需要,正成为企业智能化基础设施的必要形成。不同企业对数据迷信与机器学习平台的需要不同,其差别取决于企业本身机器学习建模能力和对算法的需要。1、对于金融、消费品与批发、制作与能源、政府与公共服务等行业企业除大型金融机构外,传统企业广泛不具备机器学习建模能力。大型金融机构数据迷信团队人才欠缺,对机器学习算法的摸索和利用更前沿,如将机器学习模型利用在精准营销、智能风控、产品研发、客户体验治理等多个场景中。但更多的传统企业面临IT人才缺失、尚未开始智能化利用或处于部分试验的初期阶段。传统企业对数据迷信与机器学习平台的需要次要体现在以下四个方面:1)升高机器学习建模门槛,使非专业建模人员也能把握机器学习建模技术,赋能业务。传统机器学习建模技术门槛高,须要组建专门的数据迷信团队,包含数据工程师、数据科学家、开发工程师等,人力老本昂扬。传统企业心愿能升高机器学习建模门槛,如平台能实现数据主动解决、主动特色工程、图形化建模或主动建模等性能,使非专业的业务人员也能疾速发展建模工作,宽泛赋能业务,实现普惠AI。2)提供定制化算法、模型部署和经营服务,疾速发明业务价值。传统行业多具备行业个性,行业垂直场景下的模型开发耗时耗力,而且传统企业对AI智能利用的摸索尚处于初期,更偏向“小步快跑”,因而购买定制化算法能节约人力、实现疾速产出以及验证AI智能利用成果。企业须要厂商提供定制化算法服务、模型在硬件平台和操作系统平台的部署服务以及模型经营服务。3)缩短建模周期,进步业务麻利响应度。以金融行业为例,金融企业的产品、服务、风控模型均需随着客户行为扭转而继续迭代更新。但传统的机器学习建模周期长达数月,无奈麻利响应业务需要。企业须要数据迷信与机器学习平台内置丰盛的行业算法、模型模板、案例等,供建模人员间接调用,减速模型训练;或是提供一键部署性能,实现模型在生产环境的疾速部署。4)提供咨询服务,晋升模型品质。对于具备肯定机器学习建模能力的金融机构,须要厂商提供建模征询反对,帮助企业实现数据筹备、模型训练、模型部署等环节,晋升模型品质。2、对于人工智能软件与服务提供商对于中小企业或是刚开始试点智能利用的企业,相较于数据迷信与机器学习平台须要的组织、人才、流程上的改革与反对,洽购实用于特定场景的AI智能利用是性价比更高、更迅捷的解决方案。人工智能软件与服务商如算法服务商、ISV即面向此类需要,提供模型和智能应用服务。以算法服务商为例,只管具备业余的数据迷信团队,但中小型企业的算法需要多样且个性化,如尽管都是AI视觉算法,智慧城市、智慧工业下的利用场景如安全帽辨认、产品瑕疵辨认的模型却截然不同,须要基于业务数据集、业务思路别离进行训练。这使得算法服务商经常面临严格的算法交付周期和算法精度要求。具体而言,人工智能软件与服务提供商对数据迷信与机器学习平台的外围需要次要体现在以下四个方面:1)进步机器学习建模效率。软件开发公司、算法提供商面临严格的交付周期,但在传统AI利用开发方式下,数据接入、数据处理、模型训练等一系列建模流程都须要人工操作,建模周期长。其中数据接入环节因开源算法工具对不同类型的数据兼容性较差,需人工将原始数据转化为开源算法所反对的数据类型;数据标注环节往往通过人工实现,并且局部畛域的标注过程重大依赖专业知识,整体数据筹备将消耗数周工夫;模型部署中对模型的集成、监控和更新须要大量的调研和施行工作,单个模型部署到上线须要3-5个月。企业须要欠缺的数据迷信工具和建模性能,反对实现数据采集、数据筹备、特色工程、模型训练、模型部署等建模全流程,进步建模效率。2)满足数据科学家简单场景建模需要。平台需反对数据科学家在简单场景下进行灵便建模,如提供丰盛的算法,预置支流机器学习框架,反对NoteBook建模形式,以及反对数据科学家在模型训练中手动调参等。3)对模型开发资源和计算资源进行对立治理,反对计算资源弹性扩容,减速建模计算性能。传统开发模式中反复建设重大,如各我的项目数据筹备、特色工程、模型训练等各自研发,造成模型开发治理资源、计算资源节约,难以适应大规模智能利用开发需要。另外,机器学习模型训练过程中消耗大量计算资源,而一旦完结训练,计算资源又处于闲置状态。企业须要实现计算资源弹性扩容,满足模型开发不同阶段的计算需要。4)为多角色的数据迷信团队提供合作平台。机器学习建模过程须要数据工程师、数据科学家、数据分析师等多角色独特合作实现,存在重复沟通、合作流程不明确等问题,带来重复性工作。厂商能力要求:为满足金融、消费品与批发、制作与能源、政府与公共服务等行业企业,以及人工智能软件与服务提供商等甲方客户的外围需要,厂商需具备以下能力:1、厂商应具备欠缺的机器学习模型开发性能,提供包含数据采集、数据筹备、特色工程、模型训练、模型部署等性能在内的一站式端到端数据迷信与机器学习平台。1)数据采集方面,平台应具备整合多源异构数据的能力,反对实时接入结构化数据和非结构化数据(如表格、图片、工夫序列数据、语音和文本等),并具备根本的ETL能力、数据实时更新和同步能力。2)数据筹备方面,平台应提供丰盛的数据荡涤、数据摸索工具。其中数据荡涤环节,应能反对进行数据交融、数据缺失解决、数据分类、数据标注、数据异样解决、数据平滑以及整合非结构化数据和结构化数据等数据荡涤工作,缩小人工干预。数据摸索环节,厂商需具备单变量和多变量统计、聚类分析、天文定位图、类似度度量等剖析能力。3)模型训练环节,针对非专业建模人员,平台应提供简便易用的建模工具,升高机器学习建模门槛。如平台可通过建模全流程可视化升高用户应用门槛,尤其在模型构建环节,应反对以利落拽的形式实现建模。针对业余建模人员,平台应具备较高的灵活性和开放性,提供支流开源算法和建模工具。如为业余的数据科学家提供自在灵便的NoteBook建模形式,并预置支流机器学习框架R、TensorFlow、Pytorch、Spark等,以及丰盛的机器学习算法。4)模型部署环节,平台应反对模型一键部署,使建模人员可疾速将模型从开发环境部署到生产环境中,并提供API接口供业务人员调用。此外,平台还应提供模型版本治理和模型监控性能,实时监测模型性能,保障模型品质。5)资源管理方面,平台需能对CPU、GPU资源进行治理和整合,以容器化形式对算力虚拟化,实现弹性扩容、性能减速等性能,且不同部门和我的项目之间可共享集群资源。6)平台应具备AutoML能力,包含提供数据主动荡涤、智能标注、主动特色工程和主动模型训练等性能,进步建模效率。其中特色工程环节,数据迷信与机器学习平台应能实现自动化特色构建、特征选择、特色降维和特色编码;模型训练环节,平台应反对自动化模型抉择、自动化调参、自动化超参数搜寻、模型主动验证等,缩小模型训练工夫老本和人力老本。7)此外,平台还应反对多角色的数据迷信团队合作,协同数据工程师、数据科学家、业务人员等不同角色在建模工作流程中的模型注解、探讨、答疑、评论等,使建模过程可追溯、模型可复用,缩小重复性工作。2、厂商需具备垂直行业Know-how能力,为企业提供征询和施行部署服务。厂商的业余服务能力体现在三个方面:一方面,基于丰盛的垂直行业常识和教训积攒,厂商能为用户提供行业场景相干的算法、模型模板,或是将行业教训与模型算法相结合,造成诸如精准营销、智能举荐、反欺诈、设施预警等智能业务模型,供用户间接调用;另一方面,厂商能提供建模咨询服务,通过数据迷信专家团队布局无效的模型利用到特定业务的经营计划,帮助用户实现数据筹备、模型训练、模型部署、模型经营等工作,以及将企业既有的数据集教训、特色工程教训、模型教训等提炼造成数字资产,内嵌到平台中。此外,厂商应具备较强的施行部署能力,包含提供定制化模型算法在硬件平台和操作系统平台的部署服务、以及数据迷信与机器学习平台的部署服务。入选规范:1.合乎市场定义中的厂商能力要求;2.2021Q3至2022Q2该市场付费客户数量≥10个;3.2021Q3至2022Q2该市场合同支出≥1000万元;代表厂商评估: 百分点科技厂商介绍:北京百分点科技集团股份有限公司(简称“百分点科技”)成立于2009年,是当先的数据迷信根底平台及数据智能利用提供商,围绕智慧政务、公共安全、数字产业三大业务板块,为国内外企业和政府客户提供端到端数智化解决方案。产品服务介绍:百分点数据迷信根底平台围绕数据价值增值过程,提供数据交融治理、数据建模与常识生产、常识利用三大工具集,笼罩从数据集成、数据治理、数据建模、数据分析到数据服务的残缺数据价值链条。其中数据建模环节,内置机器学习平台,能一站式、可视化地实现数据筹备、特色工程、模型开发与训练、模型部署与公布、模型治理等机器学习建模全流程,帮忙企业疾速构建数据分析、语义剖析、语音剖析以及视觉剖析利用。厂商评估: 百分点机器学习平台能实现一站式、可视化机器学习建模全流程治理,具备高效的数据预处理、丰盛的模型服务能力。此外,百分点科技具备欠缺的数据建模上下游数据迷信工具,能帮忙用户实现“数据——常识——利用”闭环,并在智慧公安、应急治理、客户体验治理等畛域积淀丰盛行业教训,能为用户提供端到端解决方案。 具备便捷、高效的数据预处理能力。百分点机器学习平台封装了大量预处理算法组件反对对数据的提取、荡涤、转化、组合、去重等多种解决操作,尤其分布式数据处理组件,可大幅晋升数据预处理速度。此外,百分点机器学习平台还提供文本标注、语音标注、图像标注、视频标注四种标注类型,反对多模态信息抽取和交融。建模全流程可视化,显著升高用户应用门槛。百分点机器学习平台提供从数据接入、数据预处理、特色工程、模型训练、模型评估、模型治理及公布的全流程可视化操作。其中在建模环节,机器学习平台封装大量机器学习算法组件并反对可视化参数配置,用户可零代码操作,通过简略拖拽和连线对算法组件进行组合,进而构建简单的机器学习框架,以及通过调节、配置参数实现模型创立。在模型训练及评估环节,平台反对模型评估指标以图、表的模式展示,用户可动静查看评估指标,实时掌控模型优度状况。在模型公布后,反对对公布上线的工作进行可视化实时监控,帮忙建模人员轻松实现智能监控、定时任务调度。提供丰盛的模型服务,简化模型工程化事项。在模型公布方面,提供一键部署性能,主动调配集群资源,实现大数据环境下机器学习模型的稳固运行。模型治理方面,反对模型详细信息查看、多版本比照以及模型复用。此外,百分点科技还提供模型的下发、上报、订阅及评论性能,反对模型的共享和评估,如在全国公安机关警务督察信息研判零碎案例中,零碎能够将模型下发到省级、市级警务督察部门,并且反对基层干警对模型进行修改或评估,以实现模型疾速分享和反馈。具备欠缺的数据建模上下游数据迷信工具,为用户实现“数据——常识——利用”闭环。百分点数据迷信根底平台中,数据建模的上游工具包含数据集成、数据治理、数据开发等多种数据交融治理工具,能进步用户数据治理能力、积淀数据资产。上游工具包含常识生产工具,如指标体系、标签体系、常识图谱构建,基于数据建模帮忙企业实现常识生产;以及常识利用工具,如商业智能剖析、常识交融剖析、畛域常识治理等,将常识进一步利用到业务场景中,晋升企业经营效率。在智慧公安、应急治理、客户体验治理畛域提供端到端解决方案,赋能业务场景利用。百分点科技成立于2009年,在智慧公安、应急治理、客户体验治理等畛域积淀了大量畛域know-how和我的项目教训,能为政府单位用户以及工业、批发快消等行业企业用户提供端到端的解决方案,包含我的项目征询、我的项目开发、我的项目经营、我的项目服务等。在服务用户的过程中,百分点科技我的项目团队蕴含数据科学家、数据工程师、业务专家等,协同用户一起将数据、模型和工具融入智慧统计、数字营商、经营剖析、营销洞察等业务场景中,真正实现业务价值。此外,百分点科技也将行业教训与模型算法相结合,造成销量预测、库存预警、指挥调度、监测预警、危险预测等丰盛的智能业务模型,供用户间接调用。 典型客户:中旅中免、应急管理部、北京市公安局、北京市统计局  入选厂商列表

February 14, 2023 · 1 min · jiezi

关于数据:2022爱分析-DataOps厂商全景报告-爱分析报告

报告编委李喆爱剖析合伙人&首席分析师廖耘加爱剖析分析师   目录 1. 钻研范畴定义 市场洞察厂商全景地图市场剖析与厂商评估入选厂商列表1.    钻研范畴定义钻研范畴在后疫情时代,以数据分析为代表的数据生产场景日益丰盛,数据驱动业务增长成为市场共识,数据开发治理越来越受到企业决策者器重。以后,各类管理信息系统、协同办公零碎的利用,物联网和边缘设施的遍及,都让企业端数据采集和剖析的场景变得越来越多,数据驱动的场景从以后集中在前端的营销、销售环节,正在向后端供应链的全场景延长,从与生产互联网严密相干的批发电商向金融、教育、医疗、工业等全行业笼罩,数据生产场景的丰盛和剖析需要的快速增长导致数据利用开发需要迅速减少。金融、批发等行业头部企业纷纷成立独立的数据管理部门,在数据开发与治理方面的投入明显增加。建设银行、民生银行、兴业银行等金融机构通过新建数据管理部门来施行大数据策略,疾速开释数据生产力,实现数据资产的集中管理,汇集数据人才,深度开掘与共享数据资源,从而利用数据驱动全方位反对业务倒退。只管对数据的需要和投入一直增大,但在理论治理和利用时企业仍面临诸多挑战:企业外部数据管理的合作老本越来越高。一方面,数据分析工具多元化导致数据用户角色更简单,企业内当初设置了如数据工程师、数据管理员、报表开发人员、运维工程师等多个职位,反而容易造成职责边界穿插含糊,合作艰难。另一方面,IT部门、数据部门和业务部门之间难以建设起严密的交融关系,数据部门绝对弱势,难以推动业务部门被动用数,整体数据利用效率较低。单个环节的自动化无奈解决全局问题。只管企业在数据开发、数据治理等单个环节洽购了相干的工具或平台,实现了部分的自动化,然而仅仅能解决外表问题,无奈真正解决全局需要。难以建设笼罩所有业务的标准对立、集成互联的数据根底,从根本上打消数据孤岛,实现企业级数据集成整合、全面共享利用,晋升企业大数据能力。数据利用开发需要增长与数据用户角色的简单以致企业数据开发、数据运维工作量以及数据利用交付协调难度大大增加。因而,企业须要一套全新解决方案,真正实现数据驱动业务增长。DataOps以其能服务于业务部门、大数据部门,提供敏态数据开发反对,优化数据生产者和数据消费者合作效率,成为解决以上问题的最佳计划。在此背景下,为企业引入DataOps过程中提供全面的布局、建设和产品选型参考,爱剖析调研并撰写了《2022年爱剖析DataOps厂商全景报告》。DataOps市场定义图 1:  数据全生命周期 数据全生命周期包含三个阶段:首先,由业务部门在业务运行过程中产生原始数据;其次,大数据部门(IT部门)对原始数据进行数据加工;最初,加工后的数据再次回到业务部门实现数据生产。因而,在数据全生命周期中外围环节基本上由大数据部门(IT部门)实现。大数据部门(IT部门)职责包含两方面:1)数据资产对立治理;2)反对业务部门的敏稳双态数据生产需要。DataOps外围是面向于大数据部门的第二项职责,既满足业务部门稳态的数据生产需要,如数据报表、数据可视化、自助式剖析等;也要满足业务部门敏态的数据生产需要,如机器学习建模、智能举荐等,敏态需要迭代速度更快,其中波及到很多摸索式需要。DataOps市场定义:服务于业务部门(业务部门ITBP)和大数据部门,满足敏稳双态数据生产需要,晋升数据加工环节效率的征询、工具和服务。图 2:  DataOps市场全景地图 基于数据全生命周期三大阶段,进一步将数据加工环节拆分为数据采集(数据同步)、数据开发、数据服务(数据虚拟化)和数据品质晋升;将数据生产环节拆分为数据分析和数据利用。并依据每一阶段存在的业务需要,映射出对应的细分市场。本次报告,爱剖析认为DataOps全景图次要笼罩数据加工环节,具体来说,与数据采集、数据同步对应的是“麻利数据管道”市场;与数据开发对应的是“一站式数据开发治理平台”市场;与数据服务对应的是“数据服务平台”市场、“智能数据资产目录”市场和“指标中台”市场;与数据品质晋升对应的是“数据可观测性平台”市场和“数据治理”市场。爱剖析认为,甲方企业真正要实现DataOps,必须具备残缺的数据能力,建设一整套面向业务需要的数据开发管理机制,仅仅具备单点能力是远远不够的。因而,上述对DataOps市场划分,次要是思考到市场倒退现状、甲方企业建设停顿和厂商能力,并不意味着具备单点能力就能够实现DataOps。爱剖析综合思考市场关注度、甲方需要和理论落地停顿等因素,选取以下3个特定市场进行重点剖析,别离是“一站式数据开发治理平台”、“麻利数据管道”和“智能数据资产目录”。本报告面向金融、制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP),通过对各特定市场的需要定义和代表厂商能力解读,为企业数字化转型布局与厂商选型提供参考。厂商入选规范本次入选报告的厂商需同时合乎以下条件: 厂商的产品服务满足各市场剖析的厂商能力要求;厂商具备肯定数量以上的付费客户(参考第4章各市场剖析局部);厂商在特定市场的营业支出达到指标要求(参考第4章各市场剖析局部)。 市场洞察1.DataOps市场规模超180亿元爱剖析推算,2022年中国DataOps市场规模为185.1亿元人民币,同比增速为13.0%。思考到大部分DataOps我的项目甲方还是大型企业,立项和交付受疫情影响很大,2022年增速较2021年显著放缓,但预计2023年会40%以上的增速,市场进入疾速倒退阶段。图 3:  中国DataOps市场规模预测 DataOps市场由软件产品和服务组成,现阶段整个市场并未造成统一标准和标准,绝大多数DataOps我的项目都是基于甲方企业本身需要进行落地,因而,软件产品占比30%左右,大量我的项目还是以服务为主。大部分DataOps我的项目是厂商提供外围产品组件,基于理论甲方需要,造成DataOps解决方案。DataOps市场甲方以金融、制作、能源、消费品与批发等行业为主,次要是以集团型甲方企业和行业头部甲方企业为主,但两者对DataOps的需要略有不同。集团型甲方企业在理论发展数据管理工作时,曾经粗浅意识到数据管理与数据服务的挑战,正在寻求新的数据管理解决方案。行业头部甲方企业在数字化转型、数据能力建设处于行业前列,数据部门本身有很强烈的翻新和摸索志愿,违心尝试更多新的技术计划。2.DataOps是实现数据驱动业务的要害基础设施DataOps概念一经呈现,就会一直跟数据中台进行比拟。爱剖析认为,数据中台承载了企业实现数字化转型的久远愿景,DataOps解决了数据驱动业务的理论问题。2019年至今,数据中台始终备受诟病,建设预期与理论后果之间的微小落差是大量数据中台我的项目失败的重要起因之一。很多数据中台我的项目需要来自企业决策者,并非技术部门或数据部门,数据中台往往承载了企业决策者实现数字化转型的美妙预期,不过数字化转型并非欲速不达,企业在数字化转型中遇到的挑战也不可能齐全依附技术平台来解决。数据中台建设尽管呈现很多负面新闻,但继续数年的数据中台建设对整个数据智能市场倒退还是起到了重要推动作用。第一,数据中台在理论企业业务发展中还是施展了价值,数据驱动业务、数据驱动决策的理念深入人心,越来越多的企业决策者和业务人员器重数据的价值,将数据分析作为一项重要工具。第二, “数据对立治理与共享服务”等理念被大量企业的技术部门和数据部门所承受,越来越多的企业用这套理念来建设本身的数据开发与治理能力。DataOps的需要少数来自于技术部门或数据部门负责人,解决的是企业发展数据开发管理工作的挑战。当越来越多的业务部门关注数据,基于数据分析来实现业务增长,对企业的技术部门或数据部门而言,最大的挑战是如何基于无限资源,最大化地满足多个业务部门的数据生产需要。一味地减少人力和估算,并不能从根本上解决这一问题。以某头部互联网公司为例,其数据开发治理团队一度减少到千人规模,但仍然无奈满足各个业务部门提出的数据需要。技术部门的挑战肯定要通过新的数据开发治理服务规范、流程和合作机制来解决,能力满足企业日益增长的数据生产需要。爱剖析认为,实现数据驱动业务在技术架构翻新的同时,还须要关注数据与业务之间的合作机制、流程和规范翻新,后者是实现数据驱动业务的要害,DataOps重点在解决这一问题。3.DataOps考验厂商的产品架构能力与数据湖仓引擎、实时计算引擎不同,DataOps并非技术架构翻新,而是产品架构翻新。性能是DataOps我的项目建设的重要指标,但并非最外围指标。大部分DataOps建设面临的问题是,如何实现技术、数据和业务的交融,同时满足三方的需要。第一,利用开发与数据开发交融。以后大部分企业的利用开发与数据开发还是离开,但越来越多利用都是数字化利用,基于数据驱动的利用,数据开发与利用开发出现交融态势,如何在满足IT运维、平安等前提下,晋升数据开发的效率是一大挑战,特地是集团型企业少数都有很强的合规要求。第二,业务深度参加数据开发工作。以后业务和数据之间的合作并不严密,自助式剖析等数据分析工具衰亡,让业务部门具备自助式数据分析和治理的能力,但大部分数据开发工作业务部门仍然没方法深度参加,会导致很多数据开发工作并不能满足业务需要,特地是在当下业务疾速迭代的背景下。基于上述挑战能够看出,每个甲方企业在落地DataOps我的项目时,肯定存在十分大的差异化,但背地要解决的实质问题会十分相似。对于DataOps厂商而言,须要从数据开发治理的全局登程,以终为始,在设计产品架构时要思考到企业残缺需要,才可能应答不同DataOps我的项目的差异化甲方需要。  厂商全景地图爱剖析基于对甲方企业和典型厂商的调研以及桌面钻研,遴选出在DataOps市场中具备成熟解决方案和落地能力的入选厂商。 市场剖析与厂商评估爱剖析对本次DataOps我的项目重点钻研的特定市场定义如下。同时,针对参加此次报告的局部代表厂商,爱剖析撰写了厂商能力评估。4.1  一站式数据开发治理平台市场定义:一站式数据开发治理平台,是指针对整个数据加工链路进行数据的监控、治理和运维,实现数据品质继续晋升。甲方终端用户:金融、制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT部门负责人甲方外围需要:对甲方而言,外围是建设一套面向未来数据开发的机制,晋升面向业务视角的数据开发能力,而不仅仅是实现数据整合。过往,甲方更多是将数据整合和治理作为企业的阶段性指标和我的项目来实现,对数据如何利用、如何在业务场景中施展价值关注度有余。在实际过程中,投入大量资源和人力,实现数据整合之后,“取数难”、“用数难”、数据品质低等问题仍然存在,甲方还是无奈施展数据的价值。因而,甲方真正须要具备的是一套残缺的数据开发治理的能力,蕴含但不限于对立开发治理平台、面向业务需要的开发治理流程与机制等。1)梳理流程,建设对立的开发管理机制。在甲方现有流程中,利用开发和数据开发往往是离开进行,但思考到越来越多数字化利用是基于数据驱动这一趋势下,企业须要思考将二者交融。过来建设的数据中台只管肯定水平上可能反对报表、自助式剖析等利用,但本质上仍未能满足撑持整个数据开发管理体系,无奈满足越来越多基于数据驱动的利用需要,特地是以机器学习建模为代表的摸索式利用。随着企业数字化转型水平加深,数据管理和利用需要越来越迫切,很多甲方成立专门的数据部门解决数据相干的问题,并与IT部门和业务部门厘清职责边界,建设起协作关系,数据部门与IT部门、业务部门如何进行合作,外部须要达成共识并建设合作机制。数据开发和治理的建设并非欲速不达,而是一个长期的工程。在理论建设中,既要思考长期方向与指标,与整个公司策略方向相适配,又要设置阶段性指标,让高层和相干部门感触到落地成果。因而,甲方须要明确数据开发和治理的实现门路,并设置阶段性指标。对于金融等强监管行业,整个机制还须要合乎监管要求。自数据安全法、个保法等法律法规出台以来,监管机构对数据安全审查增强,企业在数据开发和治理过程中要留神合规问题,审慎应用数据,晋升数据治理程度。 2)搭建功能丰富、具备扩展性的开发治理平台。 通过多年信息化和数字化建设,绝大多数甲方曾经具备肯定数据根底,以MPP、Hadoop为代表的技术架构,以大数据平台为外围的数据开发和治理工具,因而,一站式数据开发治理平台须要兼容现有的数据基础设施。同时,随着业务的倒退,将来产生越来越多的翻新业务场景,平台须要有充沛的扩展性以应答多元的需要,可能反对各类型业务场景发展。平台须要围绕整个数据开发治理的需要,提供丰盛的性能,并具备自动化开发能力。企业须要在这一平台上实现所有类型数据的开发和治理,笼罩数据加工全链路的监控、治理、运维等需要,具备对全域数据治理的能力。同时,为应答越来越多且时效性越来越强的开发工作,还须要利用自动化工具晋升效率。 厂商能力要求: 厂商须要具备征询能力和胜利实践经验,能提供成熟的方法论。不仅提供数据平台的产品,还可能基于可复用的成功经验,针对客户的业务需要和外部建设现状领导施行落地;须要具备布局能力,可能设计一套实用于将来几年的框架,帮忙数据部门、IT部门、业务部门可能达成共识,通过帮忙客户梳理流程,基于数据产品调整组织架构并优化合作形式,提供残缺的咨询服务;此外,还须要为客户提供倡议,帮忙甲方设置实现门路,并制订阶段性指标。产品须要有较强的架构能力和可扩展性。须要具备解耦能力,采纳模块化形式构建,可能独自拆分功能模块按需提供。在扩展性方面,须要可能适配企业内的其余生态,反对多种接口协议,已封测及对接多种软件或硬件接口调用等形式,可能疾速满足企业将来的翻新利用。产品须要具备丰盛的性能,可能笼罩数据加工的全流程,包含数据开发、数据治理、数据资产和运维监控等各个方面,可能提供多人可合作的我的项目空间治理,具备继续集成和公布的能力。 入选规范:1.合乎一站式数据开发治理平台市场剖析的厂商能力要求;2.累计在该市场服务客户数10家及以上;3.累计在该市场支出5000万及以上;代表厂商评估: 火山引擎厂商介绍:北京火山引擎科技有限公司(以下简称“火山引擎”),是字节跳动旗下的云服务平台,将字节跳动疾速倒退过程中积攒的增长办法、技术能力和工具凋谢给内部企业,提供云根底、视频与内容散发、大数据、人工智能、开发与运维等服务,帮忙企业在数字化降级中实现持续增长。产品服务介绍:火山引擎数智平台(Volcengine Data Intelligence,英文简称VeDI),基于字节跳动数据平台多年的“数据驱动”实践经验,会集端到端的数智产品、场景化的行业解决方案和业余的数智转型征询。其中大数据研发治理套件DataLeap是一站式大数据研发治理套件解决方案,提供数据集成、开发、运维、治理、资产治理等能力。以独立部署形式,通过数据治理的思维,综合使用数据管理制度、人员组织、技术办法和流程规范等伎俩,帮忙企业对数据资产在可用性、完整性和平安上实现全面无效的治理,赋能企业基于数据驱动下的业务翻新。目前,已服务几百家来自汽车、批发、互联网、金融、文旅等行业的知名企业。 厂商评估: 整体来看,火山引擎基于数智平台和一站式大数据研发治理套件打造的数据驱动治理解决方案,在产品性能、产品架构与理念、落地实践经验、体系机制四方面具备劣势。1)功能丰富易用,提供一站式数据研发全链路管理。DataLeap为企业提供基于DataOps麻利研发流程、海量工作秒级调度能力和开源计算引擎的拓展能力,笼罩数据研发与运维、数据治理、数据资产和平安合规等各个方面,赋能业务团队进行数据自治。具体来说,在全场景数据整合环节,DataLeap反对20+多源异构数据集成,涵盖常见的业务存储系统,反对全量、增量、实时的数据同步;在全链路的数据研发环节,DataLeap反对多引擎(批、流、OLAP),麻利开发CI/C,对开发、测试、公布、运维等研发全链路进行治理;在数据治理环节,DataLeap汇合了基线监控、数据品质、SLA治理等能力,提供事先预警、事中解决、预先复盘及举荐优化的性能;在数据资产建设方面,DataLeap具备数据资产疾速接入及主动构建全链路血统等技术。2)技术架构先进,交融分布式数据治理理念,可能应答高并发、大批量数据处理需要。火山引擎创新性提出分布式数据治理的理念,并落地于DataLeap产品中。DataLeap采纳了标准化、组件化的解耦架构,各个模块均可独立应用分布式治理模式,建设周期较短,适配能力强;企业用户不仅能实现各级业务及集体的自驱治理,还能充沛依据业务阶段来制订治理的内容,让数据治理对业务的冲击和影响能够尽可能最小化;业余的治理常识能够积淀下来,实现产品化协同,并联合智能化举荐性能,为企业晋升执行效率。DataLeap通过对引擎和架构的优化,晋升了产品性能、扩展性和实时性,以应答业务多样性和复杂度带来的宏大数据处理作业量要求。为满足时效性的需要,火山引擎通过自研的散布式调度零碎,实现了秒级调度能力。同时提供了工作的分级打标机制,通过多种工作资源管制形式,实现资源最正当的调配。还能够依据工作的历史状况,对不合理的工作配置,提出配置优化的告警倡议。3)数据技术能力均来自于字节跳动外部多年实践经验的积攒与积淀。VeDI及DataLeap积淀了字节跳动各业务线的数据治理教训和规定,适宜多种类型客户在业务的不同阶段应用。字节跳动依据外部业务的痛点和需要,从2014年开始研发并逐渐迭代出一套可能开掘剖析海量数据、无效赋能业务的数据平台。利用这一平台麻利反对外部今日头条、抖音、西瓜视频、朝夕光年等各大业务线后,对大数据的架构、产品、治理、平安隐衷、组织设计等方面积攒了丰盛实际,开始对外To B输入和商业化。目前,火山引擎曾经积淀了残缺的行业Know-How,可能基于各局部产品组合和调用为客户提供端到端解决方案,并以整体VeDI的形式出现。4)引入BP机制,帮忙客户建设体系化的数据治理办法。火山引擎为客户引入字节成熟的数据BP模式,从组织层面配合数据产品实现数据治理落地,切实把握业务的痛点,让数据工具和平台真正用起来。数据BP,即“数据业务搭档”,实质是将具备数据业余能力的人才回升至业务线。数据BP的职责是在一线配合数据分析师充沛满足数据需要,同时保障数据治理工作的有序落地。心愿在数据治理成绩推动到肯定水平之后,为企业进一步摸索数据赋能业务倒退的办法。火山引擎还会派专家团队驻场,近距离参加企业的数据治理工作中。对企业的理论状况进行具体问题剖析后,在数据指标治理、业务数据治理、埋点数据治理、数据底座管理体系四大方向上,给出倡议并帮助企业进行体系化建设,为企业跨职能的数据治理实际提供长期稳固抓手。典型客户:失去代表厂商评估: 科杰科技厂商介绍:科杰科技是一家数据能力构建商,核心技术团队领有丰盛的头部互联网企业云数据平台搭建及经营教训,致力于将成熟齐备的数据底座产品与多业态简单场景的最佳实际有机交融,为企业提供数据治理、开发开掘、运维一体化的整套计划,助力企业疾速构建数据能力,实现高度规范化、麻利化的数据工作协同与数据利用翻新。现已服务百余家 政府单位及金融、能源、汽车、批发等行业头部企业。产品服务介绍:科杰科技外围产品湖仓一体数据智能平台 Keen Data Lakehouse是基于云原生技术自主研发的数据底座产品,产品设计内置12大功能模块,在实现多云资源对立纳管、弹性扩大和灵便调度的根底上,满足数据对立采集、存储、开发、治理和服务的需要,具备高性能高稳定性的个性。其中数据开发治理平台Keen BDP、数据同步零碎Keen Dsync、实时计算平台Keen Stream、数据规范产品Keen DSM、数据品质产品Keen DQM、主数据管理平台Keen MDM、数据资产目录Keen Asset、数据服务平台Keen DAAS、数据标签平台Keen TAG功能模块与一站式数据开发治理平台间接相干。 厂商评估: 整体来看,科杰科技造成了“当先的大数据技术+全域数据资产治理+大数据工作方法论”三位一体的解决方案,在产品、技术、行业Know-How和咨询服务方面具备劣势。1)产品性能全,产品架构能力强。 基于过往实际,科杰科技笼罩数据开发治理的全生命周期,产品功能丰富。科杰科技将DataOps的实践融入产品设计中,反对DataOps继续集成、继续开发、继续经营方法论的最佳实际。科杰产品矩阵笼罩数据集成、数据转换、数据开发、智能工作依赖、智能血统解析、主动积淀数据资产的全生命周期,在贯通全流程工程化能力的同时提供全局对立数据规范、数据品质、主数据管理、元数据管理以及数据安全的全方面数据治理能力,是数据治理与数据工程相交融的增强型大数据平台产品,提供一站式数据源到数据洞察剖析和数据编织能力,为企业数字化转型提供数据底座能力。科杰科技对重点性能进行产品化、模块化封装,整个平台采取松耦合架构,可能独立交付部署。Keen Data Lakehouse整体采纳松耦合构造搭建而成,产品具备高度自主性和灵活性。科杰科技针对重点性能进行产品化、模块化封装,每个模块都可能与企业内信息系统进行对接,反对独立交付和部署利用。因而可能面向多业态、简单的业务场景,以乐高式的产品组合形式搭建,反对大型组织全角色精细化业务发展,继续高效地发明高质量、可复用的数据资产。 2)底层技术架构当先,撑持团体企业多源异构数据对立纳管。 Keen Data Lakehouse采纳了当先的湖仓一体、新一代技术架构。这一架构兼具数据仓库的高性能、强治理能力和数据湖的灵活性,具备批流一体、存算拆散、数据编织、ACID事务性等特点,买通企业的数据孤岛和数据烟囱,提供一个对立可共享的数据底座。通过将生产过程中大量结构化和非结构化的离线、实时数据抽取到数据仓库,实现多源多态数据汇聚,为后续数据标准化、资产化、平安治理等需要提供了根底条件。科杰科技通过多模数据对立解决技术,实现企业数据在数据湖和数据仓库之上的无缝调度和治理,防止大数据平台、云数仓、剖析型数据库等现有数据资产的迁徙。既能利用企业已有建设成绩提供包容性撑持,对历史数据、实时数据进行存储、计算和查问,放弃现有业务的连续性;又能以逻辑对立的数据资产和合作形式进行开发,面向未来数据工作放弃开放性,为技术部门与业务部门的高效合作奠定了根底。 3)行业落地经验丰富,对团体企业的数据资产对立治理和高效合作形式有深刻理解。 科杰科技的外围研发成员具备互联网大厂背景和十多年大数据实战经验,曾亲身经历大型企业的大数据部门组建、数据中台我的项目的建设,对于大型企业的团体、分公司、不同业务条线之间数据权限、数据安全、数据应用和存储压力问题理解深刻,可能依据不同企业的组织架构、业务流程等特点,提出适宜的解决方案。基于多年实践经验,科杰科技总结造成一套规范欠缺的企业级数据底座落地施行流程,联合Keen Data Lakehouse产品矩阵,可能大大晋升我的项目施行效率。目前,已在金融、新批发、能源、工业互联网、汽车、通信等行业胜利落地,并打造了具备针对性的多个行业解决方案。 4)具备咨询服务能力,能为企业继续构建大数据能力提供倡议。 科杰科技可能为客户提供后期的数字化咨询服务,依据企业现状给出问题诊断和建设门路,帮忙企业外部的IT技术部门、数据部门和业务部门达成共识、明确指标、梳理流程、制订规定,真正实现数据驱动业务、数据驱动治理,推动一站式数据开发治理平台我的项目真正实现落地。 典型客户:一汽、中石化、永旺、中金公司、银华基金 4.2  麻利数据管道市场定义:基于ETL、ELT、CDC、Kafka等形式,从多种数据源采集原始数据,通过数据转换,存储至数据湖(数据仓库)中,实现数据集成和标准化。甲方终端用户:制作、汽车、消费品批发、能源等行业的大数据部门负责人、IT部门负责人和业务部门(业务部门ITBP)甲方外围需要:甲方的指标是更加麻利、自动化地搭建数据管道,并对数据管道进行对立治理和编排。随着数字化转型的深刻和数据生产需要的减少,甲方外部的IT环境和数据环境越来越简单,数据集成工具越来越多,彼此难以交融,互相割裂运行,对运维和治理提出了很高的挑战。与此同时,数据管道的重要度越来越高,特地在业务部门对数据分析需要日益增长的趋势之下,越来越多的数据管道建设需要来自于业务部门。因而,数据管道逐渐从整个大数据平台独立进去,作为一个独立我的项目进行建设、运维和治理。以新生产、新能源为代表的行业,IT部门规模不大,但业务部门有很强烈的数据分析需要,麻利、轻量、自助式数据管道建设需要日益加强。1)数据类型和利用场景越来越多,对数据管道建设提出了更高要求。 传统企业面临的数据利用场景也更加多元,如BI报表、实时决策、基于机器学习的预测性剖析等;同时,数据体量和多样性也在快速增长,随着物联网利用的落地,时序、GIS、图像、视频、文本等新兴数据类型大规模涌现。因而须要反对离线和在线场景,结构化、半结构化、非结构化等数据类型的数据采集。 2)业务疾速迭代,麻利搭建和自动化运维治理是数据管道建设的必备能力。 ...

February 14, 2023 · 1 min · jiezi

关于数据:数据同步gossip协议原理与应用场景介绍

作者:京东物流 冯鸿儒 1 简介Gossip是一种p2p的分布式协定。它的外围是在去中心化构造下,通过将信息局部传递,达到全集群的状态信息流传,流传的工夫收敛在O(Log(N))以内,其中N是节点的数量。基于gossip协定,能够构建出状态统一的各种解决方案。 一些常见的分布式协定如二阶段提交协定和 Raft 算法,你发现它们都须要全副节点或者大多数节点失常运行,能力稳固运行。而Gossip即便只有一个节点可用也能提供服务。 1.1 实用场景实用于AP 场景的数据一致性解决:分布式数据库中节点同步数据应用(如Apache Cassandra、Redis Cluster); 其余场景如信息扩散、集群成员身份确认、故障探测等(如Consul)。 1.2 劣势学习老本:实现简略扩展性:容许节点的任意减少和缩小,新增节点的状态 最终会与其余节点统一。容错:任意节点的宕机和重启都不会影响 Gossip 音讯的流传,具备人造的分布式系统容错个性。能够在肯定水平上防止网络宰割带来的问题。去中心化:无需核心节点,所有节点都是对等的,任意节点无需晓得整个网络情况,只有网络连通,任意节点可把音讯散播到全网。性能:指数级一致性收敛。音讯会以“一传十的指数级速度”在网络中流传,因而零碎状态的不统一能够在很快的工夫内收敛到统一。音讯传播速度达到了 logN。 Gossip协定的最大的益处是,即便集群节点的数量减少,每个节点的负载也不会减少很多,简直是恒定的。如Consul治理的集群规模能横向扩大到数千个节点。1.3 劣势音讯提早:节点随机向少数几个节点发送音讯,音讯最终是通过多个轮次的散播而达到全网;不可避免的造成音讯提早。音讯冗余:节点定期随机抉择四周节点发送音讯,而收到音讯的节点也会反复该步骤;不可避免的引起同一节点音讯屡次接管,减少音讯解决压力。2 细节介绍2.1 传播方式Gossip 协定的音讯传播方式次要有两种:Anti-Entropy(反熵流传)和 Rumor-Mongering(流言流传)。 2.1.1 反熵流传定义:反熵(指打消不同节点中数据的差别,晋升节点间数据的类似度,升高熵值)。反熵流传:以固定的概率流传所有的数据,可用来防止因为UDP数据包失落或者新节点的退出而导致的集群元数据不统一问题。过程:集群中的节点,每隔段时间就随机抉择某个其余节点,而后通过互相交换本人的所有数据来打消两者之间的差别,实现数据的最终一致性。实用场景:执行反熵时,相干的节点都是已知的,而且节点数量不能太多,如果是一个动态变化或节点数比拟多的分布式环境(比方在 DevOps 环境中检测节点故障,并动静保护集群节点状态),这时反熵就不实用了。毛病:音讯数量十分宏大,且无限度;通常只用于新退出节点的数据初始化。能够通过引入校验和(Checksum)等机制,升高须要比照的数据量和通信音讯等。 2.1.2 流言流传定义:当一个节点有了新数据后,这个节点变成沉闷状态,并周期性地分割其余节点向其发送新数据,直到所有的节点都存储了该新数据。过程:音讯只蕴含最新 update,流言音讯在某个工夫点之后会被标记为 removed,并且不再被流传。当一个新节点A连贯到Gossip集群内的某个节点B时,A节点会将本人的信息发送给B节点,而后B节点会在集群中随机选取几个未被传染的节点,向他们播送A节点的信息(首次传染),集群中的其余节点收到A节点的信息后,又会像B节点那样播送A节点的信息给其余未被传染的节点(二次传染)。直至屡次传染后,集群所有节点都收到了A节点的信息,同步实现。实用场景:适宜动态变化的分布式系统。毛病:零碎有肯定的概率会不统一,通常用于节点间数据增量同步。 2.2 通信形式Gossip 协定最终目标是将数据散发到网络中的每一个节点。依据不同的具体利用场景,网络中两个节点之间存在三种通信形式:推送模式、拉取模式、Push/Pull。 Push: 节点 A 将数据 (key,value,version) 及对应的版本号推送给 B 节点,B 节点更新 A 中比本人新的数据Pull:A 仅将数据 key, version 推送给 B,B 将本地比 A 新的数据(Key, value, version)推送给 A,A 更新本地Push/Pull:与 Pull 相似,只是多了一步,A 再将本地比 B 新的数据推送给 B,B 则更新本地如果把两个节点数据同步一次定义为一个周期,则在一个周期内,Push 需通信 1 次,Pull 需 2 次,Push/Pull 则需 3 次。尽管音讯数减少了,但从成果上来讲,Push/Pull 最好,实践上一个周期内能够使两个节点完全一致。直观上,Push/Pull 的收敛速度也是最快的。 ...

February 10, 2023 · 1 min · jiezi

关于数据:数据治理数据集成的关键技术

数据集成是把不同起源、格局、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。 数据集成的外围工作是要将相互关联的异构数据源集成到一起,使用户可能以通明的形式拜访这些数据资源。 数据集成的目标是指保护数据源整体上的数据一致性,解决企业“信息孤岛”的问题,进步信息共享和利用的效率。 01 点对点数据集成点多点集成是最早呈现的利用集成模式,采纳点对点的形式开发接口程序,把须要进行信息替换的零碎一对一地集成起来,从而实现整合利用的指标。 点对点的连贯形式在连贯对象比拟少的时候,的确是一种简略和高效的连贯形式,具备开发周期短、技术难度低的劣势。但其最大的问题是,当连贯对象多的时候,连贯门路会以指数形式剧增,效率和保护老本是最大的问题。 当须要连贯的利用零碎越来越多时,点对点集成形式将把整个企业信息系统接口变成无奈治理的“凌乱的线团”。 点对点的集成架构不能集中管理和监控接口服务,仅反对一对一的数据交换,如果替换协定不统一,开发则十分艰难。即,如果沟通的语言、文字、格局、办法等有差别,则每一个连贯方都要同时反对和保护多种连贯形式。 点对点的集成是紧耦合的,当一个连贯变动时,所有与其相干的接口程序都须要从新开发或调试。 基于以上几点,在多点互连的状况下,点对点连贯形式老本高,可用性和可维护性低。显然,这不是一个好的连贯形式。 02 总线式数据集成总线式数据集成是通过在中间件上定义和执行集成规定,其拓扑构造不再是点对点集成造成的无规则网状,而次要是核心辐射型的(Hub型)星型构造或总线结构。 总线结构通过与点对点集成架构相比,采纳总线架构能够显著缩小编写的专用集成代码量,晋升了集成接口的可管理性。不同连贯对象如果连贯形式有差别,能够通过总线齐全屏蔽掉,做到对连贯对象通明,无需各个连贯对象关怀。通过总线结构,把原来简单的网状结构变成简略的星形构造,极大进步了硬件的可靠性和可用性。 总线式数据集成的一代  电子数据交换零碎(EDI) EDI不是用户之间简略的数据交换,EDI用户须要依照国内通用的音讯格局发送信息,接管方也须要按国内对立规定的语法规定,对音讯进行解决,并引起其余相干零碎的EDI综合解决。标准化得EDI格局转换保障了不同国家、不同地区、不同企业的各种商业文件(如单证、回执、载货清单、验收告诉、进口许可证、原产地证等)得以无障碍电子化替换,促成了国际贸易的倒退。 总线式数据集成二代  企业服务总线(ESB) ESB的应用标记着企业的利用集成进入了SOA时代(SOA是一种面向服务的集成架构)。SOA架构的其次要特色是基于一系列Web规范或标准来开发接口程序,包含UDDI、SOAP、WSDL、XML,并采纳反对这些标准的中间件产品作为集成平台,从而实现了一种凋谢而富裕弹性的利用集成形式。 ESB是对web服务(WebService)的注册、编排和治理。 WebService是一种跨编程语言、跨操作系统平台的近程调用技术,是web的一种规范。能够了解为:WebService是一个应用程序向外界裸露了一个能通过Web调用的API接口,咱们把调用这个WebService的应用程序称作客户端,把提供这个WebService的应用程序称作服务端。客户端进行服务的近程调用前,须要晓得服务的地址与服务有什么办法能够调用。 因而,WebService服务端通过一个文件(WSDL)来阐明本人家里有啥服务能够对外调用,服务是什么,服务中有哪些办法,办法输出的参数是什么,返回值是什么,服务的网络地址是什么,通过什么形式来调用等。 WSDL是一个基于XML的语言,用于形容WebService及其函数、参数和返回值,它是WebService客户端和服务器端都能了解的规范格局。 03 离线批量数据集成在传统数据集成的语境下,离线批量数据集成,通常是指基于ETL工具的离线数据集成,ETL即数据的提取(Extract)、转换(Transform)和加载(Load)。 ETL是数据仓库的外围和灵魂,可能依照对立的规定集成并进步数据的价值,是负责实现数据从数据源向指标数据仓库转化的过程,是施行数据仓库的重要步骤。 在数据仓库、数据湖、数据资产治理等我的项目中,ETL都是最外围的内容。ETL通过ETL作业流(工作)从一个或多个数据源中抽取数据,而后将其复制到数据仓库。抽取类型有全量抽取、增量抽取、准实时抽取、文件提取等形式。针对不同的数据提取场景设计不同的数据抽取类型。在数据抽取过程中,须要将不合乎规定的数据过滤掉,并依照肯定的业务规定或数据颗粒度转换成数据仓库可用的数据,这个过程就是数据的荡涤和转换。最初,就是调用数据库的服务将数据装载至数据库中。 ETL的实现有多种办法,罕用的有三种: 第一种是借助ETL工具: 例如:Informatic、IBM CDC、talend、kettle、Nifi等,借助工具能够疾速的建设起ETL工程,屏蔽了简单的编码工作,进步了速度,升高了难度,然而短少灵活性。 第二种是SQL编码实现: SQL的办法长处是灵便,进步ETL运行效率,然而编码简单,对技术要求比拟高。 第三种是ETL工具和SQL组合实现: 综合了后面二种的长处,会极大地提高ETL的开发速度和效率。 04 流式数据集成流式数据集成也叫流式数据实时数据处理,通常是采纳Flume、Kafka等流式数据处理工具对NoSQL数据库进行实时监控和复制,而后依据业务场景做对应的解决(例如去重、去噪、两头计算等),之后再写入到对应的数据存储中。 这个过程相似传统的ETL,但它是流式的解决形式,而非定时的批处理Job,NoSQL数据库采集工具均采纳分布式架构,能满足每秒数百MB的日志数据采集和传输需要。 Kafka 就是一个可能解决实时的流式数据的一个新型ETL解决方案。 Kafka 可能通过 Kafka Connect API 实现流数据管道的构建,也就是 ETL 中的 E和L。Connect API 利用了 Kafka 的可扩展性,kafka connect是围绕kafka构建的一个可伸缩,牢靠的数据流通道,通过kafka connect能够疾速实现大量数据进出kafka从而和其余源数据源或者指标数据源进行交互结构一个低提早的数据通道。 流解决和转换能够通过 Kafka Streams API 来实现,也就是构建了ETL中的T,Kafka Streams用于在Kafka上构建高可分布式、拓展性,容错的应用程序。它建设在流解决的一系列重要性能根底之上,比方正确区分事件事件和解决工夫,解决早退数据以及高效的应用程序状态治理。 Kafka Streams蕴含了ConsumerAPI 和ProducerAPI的性能,加强了对数据流的解决能力。应用 Kafka 作为流解决平台可能打消为每个指标 sink、数据存储或零碎创立定制化(很可能是反复的)抽取、转换和加载组件的需要。来自数据源的数据通过抽取后能够作为结构化的事件放到平台中,而后能够通过流解决进行数据的转换。 05 网络数据集成网络数据集成也叫网络数据采集,指通过网络爬虫或网站公开 API 等形式从网站上获取数据信息的过程。 网页爬虫,即一种依照肯定的规定,主动地抓取互联网信息的程序或者脚本,个别分为通用网络爬虫和聚焦网络爬虫两种。网页爬虫从一个或若干初始网页的URL开始,取得初始网页上的URL,在抓取网页的过程中,一直从当前页面上抽取新的URL放入队列,直到满足零碎的肯定进行条件。 聚焦爬虫的工作流程较为简单,须要依据肯定的网页剖析算法过滤与主题无关的链接,保留有用的链接并将其放入期待抓取的URL队列。 网页爬虫反对文本文件、图片、音频、视频等非结构化数据、半结构化数据从网页中提取进去,存储在本地的存储系统中。 ...

January 12, 2023 · 1 min · jiezi

关于数据:数据治理数据质量管理策略

数据品质治理蕴含正确定义数据规范,并采纳正确的技术、投入正当的资源来治理数据品质。数据品质管理策略和技术的利用是一个比拟宽泛的领域,它能够作用于数据品质治理的事先、事中、预先三个阶段。 数据品质治理应秉持预防为主的理念,保持将“以预控为外围,以满足业务需要为指标”作为工作的基本出发点和落脚点,增强数据品质治理的事先预防、事中管制、预先补救的各种措施,以实现企业数据品质的继续晋升,如下图所示。 01 数据品质管理策略之事先预防东汉史学家荀悦在《申鉴·杂言上》中提到对皇帝进献忠告的三种办法,也称进忠有三术:“一曰防,二曰救,三曰戒。先其未然谓之防,发而止之谓之救,行而责之谓之戒。防为上,救次之,戒为下。” 事先预防即防患于未然,是数据品质治理的上上之策。数据品质治理的事先预防能够从组织人员、标准规范、制度流程三个方面动手。 一、增强组织建设企业须要建设一种文化,以让更多的人意识到数据品质的重要性,这离不开组织机制的保障。建设数据品质治理的组织体系,明确角色职责并为每个角色配置适当技能的人员,以及增强对相干人员的培训和造就,这是保证数据品质的无效形式。 1、组织角色设置 企业在施行数据品质治理时,应思考在数据治理整体的组织框架下设置相干的数据品质治理角色,并确定他们在数据品质治理中的职责分工。常见的组织角色及其职责如下。 ●  数据治理委员会:为数据品质定下基调,制订无关数据基础架构和流程的决策。数据治理委员会定期散会以新的数据品质指标,推动测量并剖析各个业务部门内数据品质的状态。 ● 数据分析师:负责数据问题的根因剖析,以便为数据品质解决方案的制订提供决策依据。 ● 数据管理员:负责将数据作为公司资产进行治理,保障数据品质,例如定期数据清理、删除反复数据或解决其余数据问题。 2、增强人员培训 数据不精确的次要起因是人为因素,增强对相干人员的培训,晋升人员的数据品质意识,可能无效缩小数据品质问题的产生。 数据品质治理培训是一个双赢的过程。 对于员工来说,通过培训,本人不仅可能意识到数据品质对业务和治理的重要性,还能学习到数据管理实践、技术、工具等常识和技能,确保上游业务人员晓得他们的数据对上游业务和应用程序的影响,让本人在工作中尽可能不犯错、少犯错,进步本人的业务解决效率和品质。 对于企业来说,通过培训,能够使数据规范失去宣贯,晋升员工的数据思维和对数据的认识水平,建设起企业的数据文化,以撑持企业数据治理的长治久安。 此外,企业应激励员工加入业余资格认证的培训,这样可能让相干人员更加系统性地学习数据治理常识体系,晋升数据管理的业余能力。 二、落实数据规范数据规范的无效执行和落地是数据品质治理的必要条件。数据规范包含数据模型规范、主数据和参考数据规范、指标数据规范等。 1、数据模型规范 数据模型规范数对数据模型中的业务定义、业务规定、数据关系、数据品质规定等进行对立定义,以及通过元数据管理工具对这些规范和规定进行对立治理。在数据品质治理过程中,能够将这些规范映射到业务流程中,并将数据规范作为数据品质评估的根据,实现数据品质的稽查核验,使得数据的品质校验有据可依,有法可循。 2、主数据和参考数据规范 主数据和参考数据规范蕴含主数据和参考数据的分类规范、编码标准、模型规范,它们是主数据和参考数据在各部门、各业务零碎之间进行共享的保障。如果主数据和参考数据规范无奈无效执行,就会重大影响主数据的品质,带来主数据的不统一、不残缺、不惟一等问题,进而影响业务协同和决策反对。 3、指标数据规范 指标数据是在业务数据根底上依照肯定业务规定加工汇总的数据,指标数据规范次要涵盖业务属性、技术属性、治理属性三个方面。指标数据规范对立了剖析指标的统计口径、统计维度、计算方法的根底,不仅是各业务部门共识的根底,也是数据仓库、BI我的项目的次要建设内容,为数据仓库的数据品质稽查提供根据。 三、制度流程保障1、数据品质治理流程数据品质治理是一个闭环治理流程,包含业务需要定义、数据品质测量、根本原因剖析、施行改良计划、控制数据品质,如下图所示。 1、业务需要定义 笔者的一贯主张是:企业不会为了治理数据而治理数据,背地都是为了实现业务和治理的指标,而数据品质治理的目标就是更好地实现业务的冀望。 第一 将企业的业务指标对应到数据品质管理策略和打算中。 第二 让业务人员深度参加甚至主导数据品质治理,作为数据次要用户的业务部门能够更好地定义数据品质参数。 第三 将业务问题定义分明,这样能力剖析出数据数量问题的根本原因,进而制订出更正当的解决方案。 2、数据品质测量 数据品质测量是围绕业务需要设计数据评估维度和指标,利用数据品质管理工具实现对相干数据源的数据品质状况的评估,并依据测量后果归类数据问题、剖析引起数据问题的起因。 第一 数据品质测量以数据品质问题对业务的影响剖析为领导,清晰定义出待测量数据的范畴和优先级等重要参数。 第二 采纳自上而下和自下而上相结合的策略辨认数据中的异样问题。自上而下的办法是以业务指标为出发点,看待测量的数据源进行评估和掂量;自下而上的办法是基于数据概要剖析,辨认数据源问题并将其映射到对业务指标的潜在影响上。 第三 造成数据治理评估报告,通过该报告分明列出数据品质的测量后果。 3、根本原因剖析 产生数据品质问题的起因有很多,然而有些起因仅是表象,并不是根本原因。要做好数据品质治理,应抓住影响数据品质的关键因素,设置品质治理点或品质控制点,从数据的源头抓起,从根本上解决数据品质问题。 4、施行改良计划 没有一种通用的计划来保障企业每个业务每类数据的准确性和完整性。企业须要联合产生数据问题的根本原因以及数据对业务的影响水平,来定义数据品质规定和数据质量指标,造成一个合乎企业业务需要的、举世无双的数据品质改良计划,并立刻付诸行动。 5、控制数据品质 数据品质管制是在企业的数据环境中设置一道数据品质“防火墙”,以预防不良数据的产生。数据品质“防火墙”就是依据数据问题的根因剖析和问题解决策略,在产生数据问题的入口设置的数据问题测量和监控程序,在数据环境的源头或者上游进行的数据问题防治,从而防止不良数据向上游流传并净化后续的存储,进而影响业务。 2、数据品质管理制度数据品质管理制度设置考核KPI,通过专项考核计分的形式对企业各业务域、各部门的数据品质治理状况进行评估。以数据品质的评估后果为根据,将问题数据归结到相应的分类,并按所在分类的权值进行量化。总结产生数据品质问题的法则,利用数据品质管理工具定期对数据品质进行监控和测量,及时发现存在的数据品质问题,并督促落实改过。 数据品质管理制度的作用在于束缚各方增强数据品质意识,督促各方在日常工作中器重数据品质,在发现问题时可能追根溯源、被动解决。  02 数据品质管理策略之事中管制 数据品质治理的事中管制是指在数据的保护和应用过程中监控和治理数据品质。通过建设数据品质的流程化管制体系,对数据的创立、变更、采集、荡涤、转换、装载、剖析等各个环节的数据品质进行管制。 一、增强数据源头的管制“问渠那得清如许,为有源头活水来。”理解数据的起源对于企业的数据品质至关重要,从数据的源头管制好数据品质,让数据“规范化输出、标准化输入”是解决企业数据品质问题的关键所在。企业能够思考从以下几个方面做好源头数据品质的治理。 1、保护好数据字典 数据字典是记录规范数据、确保数据品质的重要工具。数据会随着工夫累积,如果数据积攒在电子表格等非正式数据系统中,那么这些贵重的数据就可能会存在肯定的危险,例如可能会随着要害员工的到职而失落。通过建设企业级数据字典对企业的要害数据进行无效标识,并清晰、精确地对每个数据元素进行定义,能够打消不同部门、不同人员对数据可能的误会,并让企业在IT我的项目上节俭大量工夫和老本。 2、自动化数据输出 数据品质差的一个根本原因是人为因素,手动输出数据,很难防止数据谬误。因而,企业应该思考自动化输出数据,以缩小人为谬误。一个计划,只有零碎能够主动执行某些操作就值得施行,例如,依据关键字主动匹配客户信息并主动带入表单。 3、自动化数据校验 对于疾病,预防比医治更容易,数据治理也一样。咱们能够通过预设的数据品质规定对输出的数据进行自动化校验,对于不合乎品质规定的数据进行揭示或回绝保留。数据品质校验规定包含但不限于以下几类。 ● 数据类型正确性:数字、整数、文本、日期、参照、附件等。 ● 数据去重校验:齐全反复的数据项、疑似反复的数据项等。 ● 数据域值范畴:最大值、最小值、可承受的值、不可承受的值。 ● 数据分类规定:用来确定数据属于某个分类的规定,确保正确归类。 ● 单位是否正确:确保应用正确的计量单位。 4、人工干预审核 数据品质审核是从源头上控制数据品质的重要伎俩,采纳流程驱动的数据管理模式,控制数据的新增和变更,每个操作都须要人工进行审核,只有审核通过数据能力失效。例如:供应商主数据产生新增或变更,就能够采纳人工审核的形式来控制数据品质。 ...

January 10, 2023 · 1 min · jiezi

关于数据:为什么说-数据服务是数据中台的标配

 有人认为,多维的数据分类体系曾经够用了,标签就是一个“鸡肋”;也有人认为标签体系有有利于大数据的萃取和剖析,提供画像能力,实现精准举荐,必须是数据中台的标配。 如果“标签体系”确有争议的话,那么明天介绍的这个性能肯定没有争议,它相对是数据中台的真正标配,它就是——数据服务。 01 什么是数据服务?数据服务的类别相当宽泛,有提供数据传输能力的叫做数据传输服务,有提供数据存储能力的叫做数据存储服务,有执行各种类型剖析的叫做数据分析服务,还有提供数据安全治理的叫做数据安全服务等等。 这些都叫数据服务,但这些数据服务强调的是能力,更精确的定义是“Data as a Service——数据即服务”,但这不是咱们明天要讲的数据中台的数据服务! 数据中台的数据服务到底是什么? 我的了解:不同零碎之间应用服务的形式进行交互,数据服务为数据和利用之间建设了一座“沟通的桥梁”,这座桥梁的存在模式是API。 能够把它设想成一个电源插座,例如,只须要你的吹风机有一个匹配的插头,并将其插入,电流就会流向你的吹风机,就像数据流向你的数据利用一样。 02 数据中台为什么须要数据服务?网上的很多文章中,喜爱将数据中台用“厨师做菜”来形象比喻。厨师做菜个别有几个步骤:买菜、洗菜择菜、制订菜单、炒菜。这几个步骤在数据中台的数据加工流程中被称为:数据采集、数据荡涤、数据建模、数据分析/数据利用。 数据采集 跟厨师做菜一样,巧妇难为无米之炊,须要做几道好菜,首先得有原材料,那么数据采集/数据接入就是买菜的过程。 数据荡涤 买回来菜须要摘洗洁净,能力下锅,数据荡涤就是摘菜洗菜的过程,是须要把脏数据荡涤掉。 数据建模 菜摘洗好了,但炒什么菜要须要依据客人下的菜单来做。数据建模就像对为客人制订菜单一样,例如:客人喜爱什么菜?鱼香肉丝还是宫保鸡丁,口味是甜一点,辣一点还是油腻一点等问题都要形容分明并传递给“厨师”。数据建模就是将数据消费者的需要转化为计算机可能了解的语言。 数据分析/数据利用 依据客人的“菜单”要求,炒菜装盘。 好了,看到这里有人不禁要问:说了这么多,数据服务在哪里?数据中台到底为什么须要数据服务? 在这个“厨师做菜”的过程中,有一个不能疏忽的角色,不晓得你有没有发现,这个角色就是“服务员”。他的工作是帮忙客户点菜,并将炒好的菜端到客人的桌上。而数据中台的“服务员”就是数据服务,英文名字:OneService。 设想一下,你正坐在餐厅的一张桌子旁,那里有可供选择的菜单。但如果没有服务员,就会短少的是将你的菜单传播给厨房并将你的食物送回餐桌的关键环节。这就是“服务员”(数据服务)的用武之地,承受数据消费者的申请,并通知零碎做什么,将做好的数据服务以API的形式提供给数据消费者。 另外,在整个过程中,数据服务还有一个作用,它屏蔽了底层数据的技术细节,数据消费者不须要关怀“这些数据来自哪里,哪个库,哪张表,数据库类型是什么等”问题,只须要关怀“这些数据是否满足我的须要”就行了。 就如同你去餐厅吃饭,不必关怀菜是从哪买回来的,谁是配菜的,谁是炒菜的等这些问题一样,只须要关怀这个菜合不合你的口味就行了。 03 数据服务能解决哪些问题?在传统的数据集成计划中,往往须要将数据从一个零碎导出/导入,或复制到另一个零碎当中。随着企业数据利用规模的不断扩大,须要在几十个甚至上百个零碎中进行数据集成,传统的数据集成形式难度越来越大,裸露的问题也越来越多。 1、数据“搬家”造成的数据不统一问题 传统数据集成须要将数据从一个零碎复制到另一个零碎中,过程中因为网络、接口、程序、工作以及其余的一些不确定因素都会导致数据在“搬家”的过程中“失落”,从而造成数据不统一问题。 而通过数据中台提供的数据API交付数据,大部分状况下不须要数据“落地”,强调使用权而不是拥有权,这样就大大减少了数据在流向上游零碎过程中造成不统一问题。 2、数据接入多样,集成效率低 数据中台会依据企业数据的类型、数据量大小、数据的利用需要等,设计相应的不同数据接入和存储计划。例如:通过MySQL、Oracle接入数据量绝对较小的数据,通过Greenplum接入数据量大且须要多维分析的数据,通过Hbase接入大量的keyValue数据,以及通过ES建设数据索引晋升数据的查问效率等等。这种状况下,如果按每种数据接入形式裸露数据的话,无疑是一个非常复杂事件。 而通过数据中台将各类型数据封装为对立的数据API,对外提供接口,可能屏蔽数据接入多样性带来的数据集成简单、效率低下等问题。 3、数据被哪些利用拜访了无奈监控 传统的数据我的项目中,即应用了元数据这样的工具,也无奈实现数据的采集、汇总、荡涤、解决、利用的全链路血统剖析。尤其是数据平台到数据利用的链路简直全副是割裂的,数据平台通过导出/导入或数据复制的形式为数据利用提供数据,数据一旦进入到上游零碎中,数据平台就无奈监控其应用状况了。 而数据中台提供的对立数据服务API,为数据利用和数据中台搭建了一座桥梁。数据API只有通过受权能力被拜访,在给数据利用受权以及应用程序拜访数据API的时候,能够“标签”的模式,将数据拜访链路告诉给元数据中心,从而买通了数据中台到数据利用的链路,造成了数据的全生命周期血统。 4、上游数据变更,影响上游数据利用 在很多数据我的项目中,还有一种状况比拟常见:数据利用间接调用数据平台的数据库来拜访数据。这就会导致,一旦上游数据产生变更就会对上游的数据利用造成较大影响。 而数据中台提供对立的数据API供数据利用调用,实现了数据中台与数据利用的解耦。在数据服务外部建设与与各数据源建设映射,上游数据产生变更,只须要调整数据服务的映射即可,不会对数据利用的应用造成影响。 04 数据服务应具备哪些性能?在数据中台架构中数据服务层位于数据中台下层,连贯数据消费层,将已整合的数据以服务的模式提供给数据消费者,以取得更好的性能和体验。数据服务层具备的性能如下: 跨源数据服务 数据中台接入数据的多样性,决定了数据中台的技术架构须要由多个大数据组件组成,例如:Hive、HBASE、GP、ES、Redis、MySQL、Oracle等等,而业务上对数据的应用可能是跨多个数据库的。数据服务层提供的跨源数据服务,屏蔽了底层数据源的技术差别,能够从不同数据源提取数据,并依照业务须要进行编排,造成对立API进行对外共享。 主题数据服务 依照不同的业务主题,组织造成对立的数据API。数据中台继承了数据仓库面向主题的思维,将位于不同数据两头存储的同一业务主题的数据整合到一起,屏蔽多数据源与多物理表,造成规范的数据服务供内部应用。例如:销售主题,须要将企业的零售、批发、线上、线下、代理等等各个渠道的销售数据会集起来。 一站式查问 数据服务最终将用户拜访的API 转化为底层对各种数据源的拜访,实现对数据中台数据的一站式查问,提供数据检索、联机剖析、实时查问等,晋升数据查问的效率。 全链路买通 数据和利用的拆散会导致数据血统无奈残缺追溯,数据服务不仅提供了连贯数据和利用能力,还通过服务受权以及拜访监控等性能,将数据API的拜访状况实时写入元数据中心,造成残缺的数据血统。 订阅交付能力 订阅交付能力:数据API构建实现,并不需要数据消费者反复构建集成通道,而是通过受权“订阅”的形式,让数据消费者通过接口疾速应用数据。 API网关服务 API网关服务应用云原生技术提供了服务API的对立治理和监控能力,包含:服务注册、服务主动发现、认证受权、流量管制、超时熔断、安全控制、监控剖析等。 05 数据中台的数据服务该如何构建? 颗粒度问题 服务拆分的越细则复用性越好,但如果只思考服务重用,大量的细颗粒度服务将很难治理并且势必会对整体性能带来影响。服务的设计须要从业务需要、治理难以水平、性能个性等方面综合考量。 标准化问题 服务的开发采纳Restful API技术,该技术具备构造清晰、易于了解、不便扩大等特点,且接口标准规范,不管前端利用是java、.net、C#还是PHP都可能调用。就像设计一个插座,肯定要具备普适性,这样不管你的吹风机插头是美标的、欧标的还是国标均的都可能适配。 DataOps DataOps是将DevOps的理念延长到数据世界,提供了一种数据服务的继续经营形式。通过API网关进行服务的注册和治理,实现数据服务的动静发现、主动部署、自动化监控。依据服务的运行监控数据对数据服务的进行无效治理,包含数据服务的迭代优化、服务编排、自动测试、服务下架等。 写在最初数据服务层(OneService)扭转了传统的数据集成和交付形式,所有整合到数据中台的数据都通过数据服务提供,数据服务对外裸露的不是数据而是接口,数据消费者不必间接获取数据,而是通过接口服务获取。 数据服务不是简略的对外裸露一个API就行了, 从性能层面 数据服务还包含了跨数据源服务、主题数据服务、一站式查问服务、订阅式交付、全链路买通等能力; 在技术层面 数据服务采纳了云原生技术,具备了服务的动静发现、主动部署、主动监控、服务治理等能力。

January 5, 2023 · 1 min · jiezi

关于数据:数据无序增长的终结者数据模型虚拟化

1. 业务麻利 or 数据有序的二选一窘境随着业务数据化的日益深刻和大量数据工具的利用,数据驱动型企业收集数据变得更容易、存储数据变得更便宜、剖析数据变得更简略,间接催生了业务麻利自助用数在企业外部的衰亡。但由此带来的数据无序增长间接导致了数据架构不可挽回地滑向腐烂深渊,大量的反复数据以及数不尽的数据烟囱成为数据“不好找、不敢用、危险大、老本高”的首恶。 业务麻利和数据有序代表了数据驱动型业务的两个根本性诉求,即数据需要的交付效率和品质,两者不可偏废,然而现实情况是两者往往无奈兼得。咱们通常认为数据架构腐坏是研发人员和研发标准的治理问题,招聘优良的数据架构师,洽购或研发优良的元数据管理平台和指标治理平台,重构一份好的中间层数据,并设定一系列数据研发标准和治理制度就可能轻松解决。然而实际上尽管这些措施短期有肯定成果,然而随着业务的迅捷倒退,往往老中间层还未齐全迁徙下线,新中间层就曾经开始腐烂。 2. 无序增长的到底是什么数据?在对多家数据驱动型企业的数据状况进行深入分析后,咱们发现,这些快速增长的数据大多集中在轻粒度汇总层和应用层,这些数据因为离业务理论利用很近,大多需要各异,且数据随着业务变动而很快无人问津,这些表通常须要思考业务应用的敌对性和查问性能,因而往往以大宽表以及不同粒度、不同周期的汇总表模式呈现。具体而言,分成以下几类: 1、同一逻辑模型拆分存储:因为数据起源不同、研发者不同、生产端对于数据产出工夫的要求不同等起因,将本来面向生产侧应该归属一个概念模型的字段拆分到了不同表中去实现。比拟典型的有: 维度模型场景: 研发会员维表,因为数据起源不同、研发者不同、上游数据产出时效不同等起因,将会员根本信息、会员账号信息、资产标签信息、拜访标签信息别离放在不同表中。 汇总模型场景: 研发会员粒度指标,因为数据起源不同、研发者不同、上游数据产出时效不同等起因,将1天交易相干指标、n天交易相干指标(n天表往往基于1天表加工)、1天流量拜访相干指标、n天流量拜访相干指标别离放在不同表中。 这种形式下,因为不足一个对立可执行的拆分标准和规范,数据生产者往往会基于短期业务需要,随便拆分或拼装物理模型、各自按需建设,造成了大量类似表。 而对于数据消费者来说,要想找到或找全的本人须要的数据,须要一张张去查找和了解大量类似物理表,这就导致了沟通和了解老本成倍回升。 2、冗余维度属性的宽表:为了生产方应用数据时防止 join 从而进步查问效率、以及让数据消费者应用便捷无需查找关联维表等,常常会将关联维度的信息间接进化(冗余)到事实表、汇总表或其它维度表中,造成一张面向场景需要的对立的业务表, 例如下方场景: 这种形式看上去很好地解决了上游查问性能以及业务生产的敌对性问题,然而因为不同团队有着不同的业务指标和业务思路,且业务往往处在一直变动之中,因而所需剖析的维度属性各有不同。而把所有新增的维度都拼接到同一张宽表上来显然是不事实的(这样会大幅拖慢数据产出时效),因而个别数据生产者会抉择依据各自所需来构建本人的小宽表,随着业务倒退,小宽表又缓缓变成了大宽表,又须要做进一步拆分,由此引发了宽表爆炸问题。 3、不同统计粒度的汇总表:当中间层的轻粒度汇总表(维度多,数据量靠近明细)提供接给BI和业务人员做OLAP剖析或报表构建时,往往须要按生产场景所应用的维度进行上卷生成重粒度的汇总表或利用表(维度较少,数据量少)再交付进来,否则表的查问性能满足不了业务冀望。例如下方场景: 因为生产侧需要的差异性,这些汇总表或利用表往往须要定制化研发,这就会导致大量不同粒度的汇总表被生产,同时与维度冗余问题互相叠加,更进一步放大了数据无序增长的问题。与此同时,一旦波及某个指标的口径批改或数据勘误,那么须要放弃起源轻粒度表数据和上游重粒度和利用表数据的一致性,保护老本大的同时,极易产生脱漏,引发数据不统一问题。 综上,咱们不难发现,为了解决数据生产的查问性能、产出时效等问题,咱们在ETL端定制了大量物理模型,而在业务疾速倒退变动的明天,这种以物理模型为交付物的数据需要交付形式,在生产效率和保护老本上曾经变得难以为继,是数据无序增长的要害症结,是诱发数据研发效率低下、大量数据二义性、企业老本高的实质起因。 因而咱们对数据模型的虚拟化技术进行了大量摸索,尝试通过数据模型虚拟化技术,实现逻辑数据模型与物理模型既对立、又解耦,从而彻底根治数据无序增长的问题。 3. 数据模型虚拟化如何解决这些问题?3.1 什么是数据模型的虚拟化虚拟化是一种设计思路,它尽可能对使用者屏蔽物理运行细节,将原先须要使用者给出的指令,由机器通过失当的规定和算法进行自动化实现。下图为虚拟化的概念表白: 虚拟化实质就是在绝大部分场景中让用户能够按业务自身的需要去操作,而不须要为物理引擎的个性去做额定的优化操作。 例如在进行汽车驾驶的时候,驾驶员在绝大部分场景中只关怀要后退还是倒退,以及所需的速度和加速度。而具体的档位和离合器其实与驾驶需要无关,它们仅仅是传动优化的外部物理细节。因而主动变速箱诞生进去屏蔽了这些物理细节,让驾驶效率的晋升和驾驶门槛的升高有了质的变动。 在大数据畛域,数据虚拟化技术并不是一个新的概念。Gartner将数据虚拟化定义为了一种先进的数据集成技术,它将不同起源不同格局的数据对立治理起来,让用户能够通过SQL、Python等脚本灵便地对这些数据进行拜访甚至联邦查问。 Aloudata AIR Engine(以下简称AIR Engine)蕴含上述数据集成虚拟化的能力,并在此之上定义了数据模型虚拟化的概念。数据模型虚拟化与数据集成虚拟化齐全不同,它专一于让用户能够间接按概念模型对理论研发的模型进行定义,AIR Engine会按肯定的规定和算法对虚构数据模型进行适合的物化链路编排,以满足生产端对产出时效、查问速度以及老本的要求。同时用户定义的虚构数据模型能够间接交付给上游应用,AIR Engine会主动翻译为最为高效的物理打算去执行。 在咱们摸索数据研发生产提效的过程中,可能还会遇到DBT、MetricFlow、DAX等数据语义层工具。它们专一于在各自的畛域中形象出一种畛域特定语言(DSL),让使用者能够在此畛域更加高效的进行工作,并将此DSL主动翻译为SQL去上层引擎执行。尽管语义层工具和AIR Engine都有查问翻译的流程,且都能让数据研发和生产提效,但他们并不属于同一个层面。语义层工具专一与特定畛域的语法形象和执行优化,是数据消费者和数据模型的连接者。AIR Engine则专一于逻辑概念数据模型和物理实现数据模型之间的连接和执行优化。 咱们认为数据集成虚拟化、数据模型虚拟化、畛域语义层三种技术的无效联合,会是将来的大数据技术栈的架构趋势。 本文重点讲述的AIR Engine数据虚拟化技术的整体设计思路如下图所示(蕴含数据集成虚拟化和数据模型虚拟化能力): 物理数据源层:企业的数据存储系统,能够为TP数据库、AP数据库、文件系统、对象存储等。物理数据模型层:AIR Engine将异构物理数据源中的table、view、file映射为对立的表格局数据模型,并进行对立的元数据管理。AIR Engine通过物理数据模型,对使用者屏蔽了底层数据源信息和存储格局等细节。虚构数据模型层:用户能够基于物理数据模型和存量的虚构数据模型,定义新的虚构数据模型。用户能够齐全按理论业务诉求进行虚构数据模型的定义即可,而无需关注大部分场景下的作业运维、性能优化和老本治理。3.2 数据模型虚拟化如何优化大数据系统的效率、老本和品质1、让模型无需拆分 虚构数据模型的研发思路与物理模型研发齐全不同,研发者无需思考概念模型拆分,能够自在按字段进行概念数据模型的逻辑定义,让生产端以残缺的数据模型进行应用。例如下图所示: 与间接将dim_user定义为传统视图再给上游应用的差异是,若将dim_user定义为视图,那么其逻辑必然为dim_user_info、dim_user_account、dim_user_asset_tag、dim_user_visit_tag几张表的关联查问。那么对视图的查问就相当于对其计算逻辑的查问,即便只查1~2个字段也会对所有底表进行关联,大数据场景计算效率十分差。 若按上图通过虚构模型来实现dim_user,当用户只查问dim_user的user_id、name、city字段时,AIR Engine虚拟化引擎会间接翻译为对dim_user_info的查问而不会进行关联查问。 另外上游难以进行字段级别的产出信息监听。例如上游有个邮件冀望在is_high_consume字段产出新分区后就收回,那么无论是大宽表还是视图的dim_user实现模式都无奈提供此元数据。而虚构模型则能够提供字段级别的分区更新元数据。 以上两点是虚构数据模型能够任意宽的根底。 2、让维度属性无需冗余 通过对虚构模型设置关联,造成雪花模型,当生产端在拜访某个虚构模型时还能够间接拜访其关联模型的属性。咱们将虚构模型及其关联模型的所有属性所造成的超大宽表命名为全息虚构模型(Holographic Virtual Data Model)。下图为一个全息虚构模型的案例: 当用户查问全息模型的字段时,虚拟化引擎会主动开展为对应的join查问。例如: 同时虚拟化引擎还会依据上游的查问状况按需将关联属性冗余到dws_trade_buyer_merchant虚构表的物化视图存储中,防止底层进行join,达到晋升查问时效的成果。 通过全息模型,咱们能够让研发者无需进行维度进化,即可让生产端达到面向一张残缺大宽表进行应用的成果。 3、让轻粒度表能够间接面向生产 虚拟化引擎会依据虚构模型上游的查问需要,按需主动构建减速物化数据。它实质是通过物化视图来实现的,当适合的物化视图构建实现后,对虚构模型进行特定维度组合的查问就会命中具体的物化视图。 让虚构模型本身就能够满足业务所预期的查问时效,而不须要从新研发(让企业的元数据资产平台上多出一系列让人困惑的表和指标),同时当查问需要变动后,也会自适应调整或回收物化数据,降低成本。 4、智能数据优化和保护 数据模型虚拟化引擎在大部分场景中能够代持此类优化工作。它很像一个自动挡变速箱,在汽车驾驶中,人进行速度管制,主动变速箱按各种参数和内置策略进行适合的发动机传动管制,同时驾驶员还能够设置经济优先还是能源优先的驾驶感触,主动变速箱依据不同驾驶需要,灵便进行变速策略的优化。 数据模型虚拟化引擎也一样,用户定义完虚构数据模型的业务逻辑后,引擎不会间接将其物化,而是按生产端对模型字段的产出工夫和查问速度的要求,剖析全局数据的查问状况,选择性按全局最优的策略进行物化编排(通过物化视图实现),并继续HBO优化。 物化指标是在满足生产端性能要求的前提下,尽可能节俭计算存储老本。最终可能有的模型不会物化、有的模型只物化局部字段、有些模型会将公共逻辑抽取进去物化、有的模型不仅物化本身还会进行聚合cube的构建。例如下图: 4. 总结以基于性能和时效需要定制物理表来交付数据的形式,曾经无奈适应疾速变动的业务, 成为数据无序增长的要害症结。数据模型的虚拟化技术能够让数据生产者更好地专一于业务逻辑的形象和设计,而将性能、时效优化以及保持数据一致性等工作交给零碎实现;让BI和业务人员能基于更残缺、更丰盛、无二义性的数据模型进行剖析和看数;让企业数据架构可能有序演进、可继续倒退。 Aloudata AIR Engine作为数据模型虚拟化技术和Data Fabric理念的先行者, 会 继续在业务场景适配性、自适应物化数据编排、数据查问性能等方面进行钻研和实际,目前曾经在多家头部金融机构和互联网公司失去深度利用。后续文章会继续介绍AIR Engine数据模型虚拟化技术的局部实现原理和最佳实际,请大家关注“Aloudata技术团队”公众号。 ...

December 30, 2022 · 1 min · jiezi

关于数据:浅谈权限系统在多利熊业务应用

作者 | 百度智能小程序团队 导读 本文首先引入多利熊业务介绍,引出多利熊业务建设权限零碎的痛点,接着别离从权限零碎模型、权限零碎设计以及多利熊业务业务利用方面具体探讨了具体的计划和设计,最初对权限零碎设计思考,对数据维度建设抛砖引玉,让大家一起思考解决方案。 全文5212字,预计浏览工夫14分钟。 01 业务介绍多利熊,是百度旗下的本地生存服务平台。多利熊旨在为用户提供特高价优惠的品质服务,基于百度的AI和双引擎能力,以扭转市场格局之势迅速推动,为本地商家提供丰盛的营销渠道,信心成为本地生存市场的重塑性力量。 多利熊笼罩餐饮、酒店、景区、休闲娱乐、丽人等泛滥品类。用户能够花更少的钱享受多利熊甄选的本地生活品质服务。成为多利熊分销达人,自购更省钱,分享直卖可赚取佣金,锁粉政策可让达人长期赚取用户自行下单佣金,倒退上游达人组建团队更可赚取团队佣金。 多利熊架构是如何撑持起整个业务生态运行,如下图所示:如图所示,多利熊整个业务架构分位三层。包含:生态场景层、平台撑持层、根底建设层。 多利熊生态场景:多利熊除了在百度的双引擎、百家号、私域中进行散发外,还扩大到了微信生态圈,建设了多利熊微信小程序,用于在微信生态的散发,通过微信群、微信分享、微信达人引流。除了自建外,也通过单干形式引入第三方服务商、自研商家、本地生存服务平台,从而打造多元化、多类型的本地生存服务生态圈。多利熊平台撑持:多利熊建设了大量平台,包含:商户平台、经营平台、审核平台、小编平台、散发平台、干涉平台、品质平台等等。通过丰盛的平台,升高经营老本、晋升商家接入效率,从而更好的撑持业务的高速倒退,疾速迭代。多利熊根底建设:多利熊的根底建设层,通过集成小程序及百度中台的泛滥积淀零碎,迅速撑持业务疾速迭代。包含:小程序自研的服务化治理计划:天路、天眼、BRCC;小程序积淀的数据多维度剖析报表和稳定性建设监控和治理伎俩;以及百度丰盛的中台零碎:交易中台、营销中台、互动中台、审核中台等等。从图中能够看到,整个多利熊业务架构中,平台角色泛滥,权限零碎面临十分多的挑战。 平台泛滥,各个平台的账号零碎也会存在差异性。权限零碎如何反对各平台的隔离设置,保障平台数据的合规性和安全性?多个平台中存在泛滥业务角色、角色存在上下级关系,大家须要协同工作。权限零碎如何反对高效的配置,保障多角色协同、高效、便当操作?多个平台基于不同语言开发。权限零碎如何保障接入的便捷性?具体咱们是如何建设,解决这些问题的呢?上面将具体介绍下。 02 权限零碎介绍2.1 权限零碎模型RBAC(role-based access control ):基于角色的权限访问控制。 RBAC是一种围绕角色和权限定义的访问控制机制,在RBAC中,权限与角色相关联,用户通过成为适当角色的成员而失去这些角色的权限。这就极大地简化了权限的治理。在一个组织中,角色是为了实现各种工作而发明,用户则根据它的责任和资格来被指派相应的角色,用户能够很容易地从一个角色被指派到另一个角色。角色可依新的需要和零碎的合并而赋予新的权限,而权限也可依据须要而从某角色中回收。角色与角色的关系能够建设起来以囊括更宽泛的客观情况。 RBAC四个外围组成部分: S(Subject):主体,一名使用者或主动代理人R(Role):角色信息,被定义为一个受权等级的工作职位或职称SE(Session):会话级别的身份权限表白,S,R或P之间的映射关系P(Permissions):权限, 一种存取资源的形式RBAC 定义了三个次要规定: 角色调配:只有当主体抉择或调配了角色时,主体能力行使权限角色受权:主体的流动角色必须为主体受权。应用下面的规定 1,此规定确保用户只能承当他们被受权的角色权限受权:只有为主体的流动角色受权了权限,主体能力行使权限。对于规定 1 和 2,此规定确保用户只能行使他们被受权的权限RBAC的四个模型: Flat RBAC:根本的 RBAC 模型,根本的概念是 用户被调配给角色,权限也被调配给角色,用户通过角色获取对应的权限Hierarchical RBAC:角色被组织成分层构造,其中“较高”层级的角色从的“较低”层级的角色继承所有权限Constrained RBAC:向角色增加职责拆散 (SOD) 的施行Symmetric RBAC:增加了权限角色审查的要求,相似于 Flat RBAC 中形容的用户角色审查四种模型的等级和性能形容: Flat RBAC模型构造: Hierarchical RBAC模型构造: Constrained RBAC模型构造: 动态职责拆散: 互斥角色:同一个用户在两个互斥角色中只能抉择一个基数束缚:一个用户领有的角色是无限的,一个角色领有的许可也是无限的先决条件束缚:用户想要取得高级角色,首先必须领有低级角色 动静职责拆散: 会话和角色之间的束缚,能够动静的束缚用户领有的角色,如一个用户能够领有两个角色,然而运行时只能激活一个角色。 Symmetric RBAC模型构造: 2.2 权限零碎设计RBAC模型如何在咱们的理论场景中选型和革新是一件深刻思考的事件。首先咱们要基于咱们的业务场景圈定权限系统核心性能。 咱们做的是本地服务tob业务,所以对于商家咱们会有商家平台,除了商家的治理平台之外,咱们还须要对于o端建设平台进行治理,以及咱们开发同学的干涉平台等,这些平台都须要权限管控。每个零碎都有各自的页面,每个页面都有本人的性能实现,大到页面权限的管控,小到按钮的管控,在将来的业务倒退中都是咱们权限零碎所须要思考的。所以咱们的权限治理相对来说工作也是比拟沉重的。 针对咱们以上的业务场景和需要状态,咱们首先敲定了权限零碎的外围职责: 页面菜单权限的管控性能组权限管控按钮性能权限管控反对多业务线咱们基于Flat RBAC设计了如下的RBAC模型: 基于咱们设计的RBAC模型,持续细节的考量 反对多业务线接入和业务线业务隔离须要反对菜单权限、性能组权限、按钮权限的管控首先考量业务线反对问题,对于这个事件咱们应用了独自的表来表白产品线信息,在设计user,role 和 func 表,都须要与业务线信息表关联。 ...

December 29, 2022 · 1 min · jiezi

关于数据:小数据治理靠人工大数据治理靠智能

什么是小数据治理谈小数据治理,首先说一说什么是小数据。在百度百科上咱们能够查到小数据的定义是:“小数据(small data),或称个体材料,是指须要新的利用形式能力体现出具备高价值的个体的、高效率的、个性化的信息资产。”小数据,并不是指数据量小,而是围绕集体为核心全方位的数据,及其配套的收集、解决、剖析和对外交互。在笔者看来,小数据是绝对大数据而言的,在大数据的概念没有呈现之前,数据就是数据,没有什么大小之分,但因为利用场合、存储形式、解决形式的不同却分出大小,就有了所谓的大数据、小数据。从狭义上来讲,大数据通常指的是大量结构化数据与非结构化数据的集合体,而小数据通常指的是结构化数据。 小数据治理范畴包含:主数据管理、数据规范治理、数据品质治理、元数据管理。小数据的治理讲求的是:有序、量化、精准,小数据的所有工作都是围绕这个指标而发展的。而在小数据治理畛域,主数据管理的利用非常典型。尽管说小数据不等于是主数据,但主数据却是一种典型的小数据。主数据治理在小数据治理畛域是具备肯定的代表性的,完全符合小数据治理的“有序、量化、精准”三大指标。 什么是大数据治理对于“大数据”咱们都晓得他的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。因为这“4V”特点的存在,导致大数据的解决和利用模式,与传统的结构化数据不同。正如钻研机构Gartner给出的定义:“大数据”是须要新解决模式能力具备更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。 大数据治理从概念上来说与数据治理没有差异,大数据治理也蕴含元数据管理、数据品质治理、数据安全治理、数据规范治理、数据全生命周期治理等畛域。但从实质上而言,因为大数据的4V特点,传统的数据治理模式和技术并不齐全适配大数据治理。 首先 传统数据治理重点是建设数据规范,而后在数据的全生命周期过程中来执行数据规范,从而晋升数据品质。而大数据治理,数据起源多样化、数据结构多样化,数据传输存储模式的多样化……,这导致从一开始咱们就很难为其定义数据规范。甚至有些数据都不晓得他当初有什么价值,对于小数据治理如果数据定义、数据价值说不清楚的话,是没有必要纳入数据治理范畴的。但大数据治理就是在这大量的看起来没有关系的数据中找关系,没有价值的数据中开掘价值,这就是大数据治理的魅力所在。 其次 传统的小数据治理更多的是侧重于样本数据的治理,数据库的模式是Schema on Write,即在数据治理之前要先定义好数据的Schema,包含了数据库的表、视图、存储过程、索引等,以及每个数据库条目对应的映射关系等,其采集、解决的过程是基于定义的Schema进行执行的。而大数据治理关注的全量数据,数据库模式是Schema on Read的模式,即在采集各类数据时不须要定义各种数据库对象,整个采集存储过程没有波及到任何转置,原始数据没有因为须要结构化或匹配差别零碎而受到毁坏。 写时模型,作用于数据源到数据汇聚存储之间,典型应用就是传统数据库,数据在入库的时候须要事后设置schema。 读时模型,作用于数据汇聚存储到数据分析之间,数据先存储,而后在须要剖析的时候再为数据设置schema。 小数据与大数据的区别1、大数据重预测,小数据重决定。大数据的剖析形式是自下而上的常识发现和预测过程,通过在一堆横七竖八的数据中找到其背地的法则,所以大数据是从不确定性中找确定性。小数据分析通常会采纳统计学办法,剖析形式是自上而下。 2、大数据重感知,小数据重精准。大数据能够做整体上的感知,影响的范畴更广,比方舆情监测、流感监测、网络营销、智慧城市等利用。小数据通常更关注数据的真实性和代表性,小数据更聚焦。大数据往往蕴含了泛滥真假难辨的数据,而小数据通常对于数据起源有严格的甄别,所以小数据更精准。 3、大数据重相干,小数据重因果。大数据通常更重视是什么而不纠结于为什么,通过相关性来给出问题的解决方案。小数据是后果导向,更重视景象背地的外在机理,更关注于为什么。 4、大数据重预测,小数据重决定。大数据的剖析形式是自下而上的常识发现和预测过程,通过在一堆横七竖八的数据中找到其背地的法则,所以大数据是从不确定性中找确定性。小数据分析通常会采纳统计学办法,剖析形式是自上而下。 5、大数据重群体,小数据重个体。大数据的利用通常更重视群体性行为的剖析后果,比方网络生产的大数据分析等,小数据往往更重视于个体的行为剖析后果,个性化是小数据的重要特点。 数据表示的是过来,但表白的是将来。尽快大数据与小数据从数据处理和利用的角度有着很大的区别,然而对于大数据和小数据并不是“非黑即白”,而在咱们的理论利用过程中两者是相辅相成的。咱们利用数据不仅须要全量数据,也须要样本数据;不仅要理解相关性,更要明确因果关系;不仅要预感将来,更要量化自我。这就迫使咱们从更宽泛的角度了解小数据,梳理小数据与大数据的分野,从而将相干思路投射、印证于小数据,考查其外围特点和利用特质。 小数据治理靠“人工”小数据的治理十五字方针:理数据、建规范、接数据、抓经营、重实效。 理数据小数据治理谋求的量化、精准,是以数据梳理为切入点,摸清楚数据问题的“病因、病理”,而后“隔靴搔痒”。理数据通常采纳自上而下的办法,从数据问题后果登程,剖析数据问题产生的起因。通过数据梳理和溯源、辨认要害数据资产,厘清数据资产散布状况、数据品质状况、数据管理状况、数据量及存量、数据应用状况等。 建规范规范体系的建设是须要结合实际的业务利用及治理需要,建设各业余数据定义和应用的标准及规范,并逐渐验证规范设计的合理性和可用性。规范体系蕴含三个方面:一是制订数据规范,定义数据库表的Schema规范,数据分类、数据编码的规范。二是制订数据管理规范,明确数据管理组织、明确数据管理权责,定义数据治理和应用流程,制订数据管理制度和考核办法。三是制订数据交换规范,数据采集、存储、加工、应用的技术标准、接口标准等。 接服务搭建数据治理平台,根据设计的数据规范和数据结构,联合以后利用零碎的应用状况,抉择适合的利用零碎,并配置相应的信息化基础设施资源,进行数据源的接入。根据已定义的数据规范、数据品质束缚、数据接口标准执行,该过程中须要大量的人工干预以实现数据标准化、数据荡涤、新旧编码体系的映射等工作,造成一个标准化的数据环境。 抓经营在数据的产生和应用过程中,须要依据业务和治理的理论状况对数据规范、数据管理制度进行继续的迭代优化,确保数据标准化的落地,和在在长期运行过程中的数据品质,避免数据品质的劣化。建体系容易、执行难,长期有效的保持经营才是数据治理胜利之本。这个过程,也是造就数据治理人才、建设数据文化的过程。一旦数据治理造成一种文化,当人人都以数据谈话、以数据思考、以数据决策的时候,就标记着数据治理的胜利,也标记着以数据为驱动的数字化时代降临。 重实效依据一直变动的治理需要和利用需要,适时的调整现有数据管理流动以及布局将来流动的框架,以适应一直变动的利用需要。数据治理不是为治理数据而治理数据,而是为了更好的服务于业务和治理。数据治理要有肯定的前瞻性,既要满足以后企业的业务和治理需要,也应满足企业将来的倒退需要。 对于小数据治理实质上是对利益相关者的沟通和协调,用于确保治理和爱护重要的要害数据。它波及到集体,办法和翻新的简化协调,其程序使其可能实现企业的数据价值。可见,小数据的治理更多的是人的因素,所以咱们说:小数据治理靠“人工”。 大数据治理靠“智能”大数据治理的六字方针:采、存、管、看、找、用。 采。很多数据价值的发现是来自对多源、异构数据的关联和对关联在一起的数据分析。将多个不同的数据集交融在一起,能够使数据更丰盛,使大数据分析、预测更精确。然而,因为不足对立的数据规范设计,多源数据抽取和交融面临的艰难是微小的,人工智能技术的利用就显得非常重要。在数据实体辨认方面,利用自然语言解决和数据提取技术,从非结构化的文本中辨认实体和实体之间的关联关系。例如:基于正则表达式的数据提取,将事后定义的正则表达式与文本匹配,把合乎正则的数据定位进去。基于机器学习模型进行文本辨认,事后将一部分文本进行实体标注,产生一系列分词,而后利用这个模型对其余文档进行实体命名辨认和标注。在这个过程中指代消解是自然语言解决中和实体辨认关联的一个重要问题,比方:某医生,除了其姓名、职务、业余外,在文本中可能还会应用某医生、某大夫、某专家等代称,如果文本中还波及其余人物,也用了相干的代称,那么把这些代称利用到正确的命名实体上就是指代打消。 存。与传统的小数据治理不同,大数据环境下数据倒退呈多样化,传统数据治理强调的建指标、建体系,仿佛很难适应大数据的多变。前文咱们说过大数据的数据库模式是读时模式(Schema on Read),在数据采集、存储过程中并不关注数据的Schema (即数据结构),而是在数据分析的时候再为数据设置Schema,这就导致为大数据建设对立的Schema规范是行不通的。在大数据治理过程中,强调的是数据的关联性,数据规范是被弱化的。 管。这部分笔者认为与传统的小数据治理没有太大差异,外围是建设数据治理体系和长效运行机制。 看。传统数据治理从理数据、建规范到接数据、抓经营的整个过程中,都是技术+治理独特推动的。也有人说,数据治理太过技术化,做完当前领导看不到成果。大数据治理是不仅让大数据能被管起来,还能被看到。在大数据治理我的项目建设过程中,利用数据可视化技术,将底层的数据以可视化的形式展现进去,让用户可能看到,在肯定水平上也标记着我的项目的胜利。大数据治理中可视化利用包含:数据资产地图、数据热度剖析、数据血统剖析、数据品质问题剖析等。 找。在业务场景或业务环节中如果可能精确、高效的找到想要的数据?是大数据治理须要钻研的一个课题。一般来说通过技术元数据查找相应的数据是比拟容易实现的,然而数据治理指标是为业务服务的,业务人员对技术元数据并不分明、也不相熟,如何让业务人员像用搜索引擎一样可能找到本人想要的数据,这就须要建设业务元数据和技术元数据的匹配。而在大数据环境下,业务元数据和技术元数据的匹配关系显然不是通过“人工”的形式能够实现的,这就须要借助人工智能技术。在“找”数据的利用中,常识图谱的利用无疑是一种最佳解决方案。常识图谱通过从各种结构化数据、半结构化数据(形如HTML表格、文本文档中)抽取相干实体的属性-值对来丰盛实体的形容,造成实体-属性-值,和实体-关系-实体的图谱形容,从而实现数据的疾速定位和精准查问。 用。大数据治理对大数据采、存、管、用的规范化治理,是要让数据不仅可能“管得住”、“找失去”,还要让数据可能“用得好”。事实上,大数据的治理素来与大数据的利用相伴相生的,来到利用搞大数据治理是行不通。智能数据服务就是一个集治理与利用为一体的数据服务模式,通过数据服务的模式对外提供数据。也就是说,通过数据接口你就可能找到想要的数据,将数据接口嵌入到各个想要的业务零碎中,遇到数据品质问题的时候也能间接定位到问题所在,而不再是等进入到数据治理零碎里能力断定出血缘关系。 总结在不久的未来,大数据、小数据的界线或将被打消,取而代之的是“全域数据”。大数据、小数据都是从技术层面对数据的形容或表白,而全域数据是从业务角度进行定义和形容。对于每个企业的全域数据覆盖范围是不一样的,全域数据涵盖了企业相干的内外部数据,与企业的业务和商业性质非亲非故。将来的数据治理会造成基于小数据治理体系和大数据治理技术,在数据中台落地的数据治理新模式。比方,将来智能交通畛域,将有可能用全量实时的数据,来感知城市每辆车所在的具体位置、每个红绿灯路口的车辆信息,并对这些状况进行全局调控,从而大幅晋升城市交通经营效率。而实现这一目标,离不开对数据的开掘和剖析,以及人工智能的深度学习。

December 28, 2022 · 1 min · jiezi

关于数据:主数据的3大特征4个超越和3个二八原则

导读:主数据(Master Data)是具备共享性的根底数据,能够在企业内逾越各个业务部门被重复使用的,因而通常长期存在且利用于多个零碎。因为主数据是企业基准数据,数据起源繁多、精确、权威,具备较高的业务价值,因而是企业执行业务操作和决策分析的数据规范。 不论是大数据还是小数据,继续地晋升数据品质才是企业数据治理之道! 主数据具备3个次要特色 1、高价值:主数据是所有业务解决都离不开的实体数据,与大数据相比价值密度十分高。 2、高共享:主数据是跨部门、跨零碎高度共享的数据。 3、绝对稳固:与交易数据相比主数据是绝对稳固的,变动频率较低。变动频率较低并不意味着变化无穷,例如:客商更名会引起客商主数据的变动、人员调动会引起人员主数据的变动等等。 主数据的4个超过 1、超过业务主数据是逾越了业务界线,在多个业务畛域中被宽泛应用的数据,其外围属性也是来自业务。例如:物料主数据,它有本身的天然属性,如:规格、材质,也有业务赋予的外围属性,如:设计参数、工艺参数、洽购、库存要求、计量要求、财务要求等。同时,主数据也要服务于业务,堪称是———从业务中来到业务中去。 2、超过部门主数据是组织范畴内共享的、跨部门的数据,不归属某一特定的部门,是企业的外围数据资产。 3、超过零碎主数据是多个零碎之间的共享数据,是利用零碎建设的根底,同时也是数据分析系统重要的剖析对象。 4、超过技术主数据是要解决不同异构零碎之间的外围数据共享问题,从来不会局限于一种特定的技术。在不同环境、不同场景下,主数据的技术是能够灵便应答的。主数据的集成架构是多样的,如:总线型构造、星型构造、端到端构造;集成技术也是多样的,如:webservice、REST、ETL、MQ、kafka等;不论是架构还是技术,没有最好的只有更适合的。企业在做技术选型的时候,要充分考虑企业的外围业务需要和将来的倒退要求去构建本身的主数据技术体系。 企业主数据管理的常见问题● 数据入口多,反复录入、一物多码、多码一物 ● 数据分类、数据编码不对立、不统一 ● 要害数据项为空或填写谬误、填写不标准 ● 领导不器重,没有相应的治理方法,主数据的品质不高 ● 存在数据孤岛,异构零碎数据没有买通 一、主数据的问题80%是治理问题很多企业的信息部门都很困惑,主数据管理工作就是典型的钱少、活多、看不见成果、领导不器重、还常常挨领导骂,干的很苦逼。岂不知,主数据的问题80%都是治理问题。高层领导不关注、没有业余的主数据管理团队、没有标准的主数据管理制度和流程,数据规范和技术标准缺失、数据管理器重水平有余,数据保护随便无查看机制、没有定期的数据质量检验和荡涤 ……,这都是造成主数据品质不高的重要因素。主数据是超过业务、超过部门的数据,要想将主数据做好,须要各层级领导足够器重、全员参加,同时,构筑起主数据管理的根底能力,包含:组织、流程、 规范和工具。 在主数据管理根底能力中,组织、流程、 规范的建设80%决定了主数据我的项目的成败和建设成果。 二、主数据施行80%靠企业本身企业在施行主数据我的项目的时候,都心愿找到最业余的主数据团队、最弱小的主数据产品。然而延聘同样的团队,采纳同样的产品,有的企业的建设成果显著,有的企业建设成果却差强人意,这是为什么?存在这种状况,很多一部分起因是企业太过依赖于内部力量,而对外部能力建设器重有余。 主数据建设是一个继续经营、一直优化的过程,依附内部资源,不能保障主数据品质的继续优化。没有相应的组织体系、制度文化和技术体系撑持,将重大影响主数据我的项目的建设成果。同时,数据的整顿、荡涤、编码等工作,都是必须要企业本人来做的,内部资源能反对更多的是教训和办法。 所以,打铁还需本身硬,企业本身须要具备数据思维,领导要对主数据管理足够器重,建设起本身的主数据管理能力。同时,借鉴内部先进的办法、技术和教训,是我的项目胜利的重要保障。这就是我的第二个观点,主数据管理80%靠企业本身。 三、主数据成果80%靠经营客户经常困惑“我的钱也花了,管理体系也建设了,我的项目也算施行胜利了,可为什么还是见不到成果”。存在这种纳闷很失常,起因有两个方面:一方面,主数据从自身个性和利用架构上是偏底层的,与剖析型数据不同,主数据可视化能力弱,它是服务于数据分析,却经常被忽视。另一方面,主数据主数据管理工作是一个须要继续迭代、继续经营的过程,主数据价值会在经营过程中缓缓体现进去。主数据管理切勿谋求一步都到位,应该循序渐进、继续晋升。 主数据我的项目的施行可能帮忙企业初步建设起主数据的管理体系,包含:治理组织、制度和流程、数据规范、技术规范以及初始的主数据代码库等。但最好继续的经营工作,是施展主数据价值的要害。有些我的项目施行过程很胜利,但零碎运行一段时间,比方半年、一年后,忽然发现,主数据的品质曾经回到了“解放前”。呈现这种状况的次要起因是主数据管理相干制度和规范没有贯彻到位,没有定期进行数据质量检查和荡涤。所以,施行主数据我的项目,只是数据治理的一个开始,企业要放弃高质量的数据,必须继续的经营和一直的优化。

December 26, 2022 · 1 min · jiezi

关于数据:数据治理八大优势和四大挑战

数据治理是互联网治理的延长和倒退,随同互联网日益融入经济和社会倒退,互联网治理的重心已从域名、IP地址、自治零碎、协定参数等互联网自身的治理逐渐过渡至下层传输数据的治理。 做好数据治理是国家和组织在数字经济新阶段和数字文化新时代中所必然面临的要害课题。到2035年,我国要根本实现国家治理体系和治理能力现代化,参加国内经济单干和竞争新劣势要失去明显增强。数据治理作为国家治理体系的重要组成部分,作为国内单干与竞争中的外围议题,将施展越来越重要的作用。 以后,国内外在数据治理的实践、技术、规定和利用等方面筹备有余,实际中遇到越来越多的问题。本文将站在中长期倒退的视角,总结以后及将来一段时间内数据治理倒退的八大趋势,以及在根底制度、关键技术、市场产业和国内社会等层面面临的四大挑战,以期为各方钻研和探讨欠缺数据治理体系以及相干重大议题提供无益撑持。 数据治理的八大劣势01 数据治理成为国家治理外围议题数字化已成为国家治理现代化的根底,数据治理将在国家治理现代化过程中施展更加要害的作用。新冠肺炎疫情期间,运营商数据在疫情防控和停工复产过程中起到了重要作用,衰弱码、行程卡成为每位市民的标配,极大地晋升了政府的治理效率。 02 数据治理成为国内竞合优先议题国际竞争是综合国力的较量,依赖于科学技术、专业人才以及各类资源。随着数字经济成为各国经济增长的加速器和新引擎,数据逐步被各国作为战略性资源储备12,对倒退数字经济的外围资源——数据的治理逐步浮上台面,数据治理能力将成为国际竞争与单干中掂量一国竞争力的要害指标。 03 数据治理参加主体更加宽泛平衡企业是晚期数据治理最次要的参加主体,随着数据问题逐步受到更多关注、数据利益波及范畴不断扩大,数据治理的参加主体也变得更加宽泛,政府、国内组织、行业组织、企业和集体等参加和奉献水平也将趋于平衡。特地是随着全社会数据权力意识的低落,集体的作用越发凸显。 04 数据治理政府企业协同疾速深入政企协同是实现数据治理的重要推动力。一方面,企业向政府报送的数据,可能反对政府部门更好地施展经济社会治理的职能。另一方面,政府所把握的公共数据,又能够通过向企业等进行凋谢,从而开掘和发明出更大的价值。我国政企数据合作将进一步走向深刻化、法治化、多赢化。 05 数据治理将更加场景化和智能化经济社会倒退越来越多依赖于数据,数据治理的重要性一直浮现。同时,外部环境和具体利用场景也在间接或间接地副作用于数据治理,两者间相互作用将影响数据治理往更加场景化和智能化的方向倒退。 06 数据治理带来组织机构重大改革组织机构围绕数据进行改革已成为这个时代的重要特色,各地大数据局、大数据中心等机构的设立,以及首席数据官等制度的推广是最显明的体现。政府组织、工业组织和商业组织等均将依靠于信息技术或围绕数据对组织职能或业务进行降级或变革以提质增效。 07 数据治理将会催生新的商业模式互联网从学术研究走向民用、商用,“收费”和“开源”始终是其发展壮大过程中的鲜明特征,通过长期的摸索和实际,次要造成了广告、增值服务、实物/虚构商品售卖、平台佣金、金融服务等盈利模式。用户及其数据在这些盈利模式中表演了要害角色,也将推动模式一直变革。 08 数据治理推动智慧社会更快到来建设智慧社会是建设创新型国家的重要一环,是满足人民日益增长的美好生活须要的重要根底。智慧社会外延丰盛、覆盖面广,是一项简单的系统工程。随着数字政府、数字经济和数字社会等倒退,数字化对社会产生了踊跃影响,数据治理将推动智慧社会更快到来。 数据治理面临的四大挑战挑战1:根底制度层面,数据权属、数据分类分级等外围问题尚未获得冲破1、数据权属问题探讨处于非常发散的状态 2、数据权属不明影响市场主体的数据开发利用积极性 挑战2:关键技术层面,数据的标识确权、认证受权、平安替换等技术亟待冲破1、数据标识确权难 2、数据追踪溯源难 3、数据流动管控难 4、数据安全替换难 挑战3:数据产业层面,数据流通和数据竞争问题影响市场构建1、数据流通受制于平安技术不成熟、主体能力参差不齐等因素 2、数据竞争的外围问题争议一直 挑战4:国内社会层面,数据治理出现危险全球化、平安政治化、规定碎片化和强弱循环博弈1、数据危险全球化 2、数据安全政治化 3、数据规定碎片化 4、数字倒退强循环与弱循环生态间的互联互通挑战数据治理

December 23, 2022 · 1 min · jiezi

关于数据:数据治理数据集成架构的演进

纵览企业信息化建设的历史,咱们能够发现:企业应用集成技术是随同着企业信息系统的倒退而产生和演变的。企业的价值取向是推动利用集成技术倒退的原动力,而通过利用集成技术所实现的价值反过来也驱动着公司的竞争劣势的晋升。随着新技术的倒退和企业业务需要的变动,数据集成架构也跟着产生着变迁。数据集成架构的倒退能够分为四个阶段:点对点集成,EDI星型集成,SOA集成,互联网集成,如下图所示: 点对点集成架构点对点集成是最早呈现的利用集成模式,采纳点对点的形式开发接口程序,把须要进行信息替换的零碎一对一地集成起来,从而实现整合利用的指标。点对点的连贯形式在连贯对象比拟少的时候,的确是一种简略和高效的连贯形式,具备开发周期短、技术难度低的劣势。但其最大的问题是,当连贯对象多的时候,连贯门路会以指数形式剧增。 连贯门路数与连贯对象数之间的关系是:连贯门路数=(连贯对象数 ×(连贯对象数-1))÷ 2 点对点的集成有着显著的缺点: ● 当须要连贯的利用零碎越来越多时,点对点集成形式将把整个企业信息系统接口变成无奈治理的“凌乱的线团”。 ● 点对点的集成架构不能集中管理和监控接口服务,仅反对一对一的数据交换,如果替换协定不统一,开发则十分艰难。即,如果沟通的语言、文字、格局、办法等有差别,则每一个连贯方都要同时反对和保护多种连贯形式。 ● 点对点的集成是紧耦合的,当一个连贯变动时,所有与其相干的接口程序都须要从新开发或调试。 基于以上几点,在多点互连的状况下,点对点连贯形式老本高,可用性和可维护性低,显然不是一个好的连贯形式。 总线集成架构随着利用集成技术的倒退,基于EDI(电子数据交换零碎)的中间件形式逐步取代了点对点的集成模式。基于EDI中间件的集成规定在中间件上进行定义和执行,其拓扑构造不再是点对点集成造成的无规则网状,而次要是核心辐射型的(Hub型)星型构造或总线结构。因为信息系统的规范不统一,星型架构采纳适配器的形式与利用零碎进行对接,每个适配器实用于一种类型的数据源。 总线结构通过与点对点集成架构相比,采纳总线架构能够显著缩小编写的专用集成代码量,晋升了集成接口的可管理性。不同连贯对象如果连贯形式有差别,能够通过总线齐全屏蔽掉,做到对连贯对象通明,无需各个连贯对象关怀。 总线的连贯形式最早在许多硬件设计上失去宽泛的应用。如解决芯片的数据总线,网络节点的交换机,大型计算机系统处理器与外围存储设备连贯的集线器等。通过总线结构,把原来简单的网状结构变成简略的星形构造,极大进步了硬件的可靠性和可用性。 但因为规范的匮乏,总线集成架构的缺点逐步裸露进去。各厂商的中间件多采纳其专有协定或接口标准,凋谢水平非常低,一经采纳,信息系统降级、欠缺的老本很高,周期很长,间接导致了企业治理流程受到零碎固化,呈现企业治理随着信息化利用的深入反而治理流程被动僵化。 这是因为多个异构零碎通过EDI互相关联,单个零碎的欠缺或降级受到关联系统的牵制,后果是信息集成度越高,系统升级和数据保护越艰难,从而间接导致治理改良的艰难、经营效率升高和老本的回升,企业信息化的自由度就大大受限,同时也会付出更高的技术老本;因为受中间件具体产品性能的限度,在发展业务流程集成时,因为集成逻辑须要在中间件上通过变成实现定义与执行,具备较高的技术难度和复杂度,很难实现较简单的流程集成,因此也就不能迅速满足业务变动提出的信息系统调整的需要。 SOA型集成架构随着Web服务标准的日渐成熟,Web技术被利用于企业外部的利用集成,一种面向服务的集成架构(Service Oriented Architecture,简称:SOA)成为了企业应用集成的支流。SOA架构的其次要特色是基于一系列Web规范或标准来开发接口程序,包含UDDI、SOAP、WSDL、XML,并采纳反对这些标准的中间件产品作为集成平台,从而实现了一种凋谢而富裕弹性的利用集成形式。SOA是一种开发思维,是一种松耦合的框架,其次要特点是: ● SOA是实现IT和业务同步的先进可行技术,它将企业应用中离散的业务性能提取进去,并将其组织成可互动的,基于规范的服务。 ● SOA以提供服务的形式向企业提供了灵便、快捷的零碎整合抉择,它将模块化和便携化的服务在复合利用中组合和重用,以更为疾速的满足业务需要。 ● SOA自身装备的残缺、成熟的平安治理保障体系满足了客户进行松耦合集成施行时所提出的平安需要。 在面向服务的集成架构中,ESB(企业服务总线)扮演着重要的角色,甚至有人认为ESB是SOA架构落地的根底。ESB是一个具备标准接口、实现了互连、通信、服务路由。它提供音讯驱动、事件驱动和文本导向的解决模式,反对基于内容的服务路由。SOA架构将各利用零碎上的各种服务连贯到服务总线上,反对分布式的存储及分布式的解决、异步解决。为信息系统的真正松耦合提供了架构保障。简化了企业整个信息系统的复杂性,进步了信息系统架构的灵活性,升高企业外部信息共享的老本。 第一 ESB是一个服务管理中心,服务的生产方无需关系服务理论的生产方,包含生产方的服务名称、物理地位、传输协定和接口定义等,这些都是由ESB平台进行包装和地方的公布式定义。 第二 ESB是服务的中介平台,提供服务的可靠性保障,负载平衡,流量管制,缓存,事务管制,加密传输,反对服务的监控、异样解决、服务调用及音讯数据记录,零碎及服务的状态监控等。 第三 ESB是一个转换和解耦的平台,反对协定转换,如WebService,Http,JMS等;反对音讯转换,如音讯的转换 、过滤、填充等;反对音讯路由,如同步/异步、公布/订阅、基于内容路由、分支与聚合等。 最初 ESB是一个服务编排和重组的平台,反对按业务的要求将多个服务编排为一个新的服务,正是ESB的这种灵便的服务编排性能,使得ESB具备了随需应变的能力。 ESB将多个业务子系统的公共调用局部抽离整合为一个共用零碎,缩小了调用链路的复杂性,其服务编排能力减少业务的随需应变的灵活性。然而ESB实质上是一个总线型或星型的构造,所有服务的对接须要依赖于这个“中心化”的总线。一旦ESB在数据量过大时候会成为性能瓶颈,或者ESB宕机会导致多个零碎无奈失常提供服务。 微服务集成架构互联网是IT业的重大革命性翻新,随着挪动互联、互联网的倒退,为放慢web和挪动利用的开发过程,呈现了一种“去中心化的”新型的架构——微服务架构。微服务架构强调“业务需要彻底的组件化及服务化”,这将成为企业IT架构的倒退方向。原单个业务零碎会被拆分为多个能够独立开发、设计、部署运行的小利用,这些小利用间通过服务化实现交互和集成。 微服务呈现后人们总会拿它与SOA比拟,甚至有的人认为微服务架构将取代SOA,这样的观点仿佛有些偏激。微服务与SOA中的服务最大的区别是它能够独立部署、独立运行,不依赖与其余服务,并且是一个分布式架构。每个微服务各自为政,做好本人的事件,即便本人出问题也只会影响有间接调用的服务,灵便弹性扩缩容。微服务架构与SOA相比具备更好的可靠性,呈现单点故障不会对其余微服务造成影响。严格意义上说,SOA是面向集成的架构是面向零碎级、面向集成的,而微服务是面向服务,通过一系列涣散耦合的服务去实现满足业务需要的利用,目标是缩短简单利用从开发到部署的工夫。 SOA重视服务的重用,但微服务实质是对服务的重写,只管微服务也须要集成。微服务通常由重写一个模块开始,企业向微服务迁徙的时候通常从耦合度最低的模块或对扩展性要求最高的模块开始,把它们一个一个剥离进去用麻利办法、微服务技术进行重写,而后独自布署。 微服务集成架构晋升了全局稳定性。因为每个服务负责的性能繁多,各服务的资源需要也绝对更低。从而能够抉择将服务扩散的部署到多台中低配的服务器上,而不是一台高配的机器上。如果某个机器上的服务故障,譬如说内存透露,故障只会影响该机器上的某一个或几个服务,对全局影响不大。 微服务的集成次要波及以下四个层面的集成: 接口集成 接口集成是服务之间集成的最常见伎俩,通常基于业务逻辑的须要进行集成。RPC、REST、消息传递和服务总线都能够归为这种集成形式。微服务应用REST API和轻量级音讯零碎实现系统集成。其中,音讯零碎仅提供牢靠的异步音讯传输通道,而不参加音讯路由、编排、转换等环节,也不在音讯零碎中蕴含业务逻辑。 数据集成 数据集成同样能够用于微服务之间的交互,联邦数据库是一个抉择,但也能够通过数据复制的形式实现数据集成。 界面集成 因为微服务是一个可能独立运行的整体,有些微服务会蕴含一些UI界面,这也意味着微服务之间也能够通过UI界面进行集成。 内部集成 这里把内部集成独自剥离进去的起因在于事实中很多服务之间的集成需要来自于与内部服务的依赖和整合,而在集成形式上也能够综合采纳接口集成、数据集成和UI集成。 在数字化、智能化时代,数据成为企业的重要基础设施,无论是技术还是利用都将围绕数据进行。正当地利用数据将为企业发明极大的价值,而在这一过程中,数据集成技术将为更好地利用数据提供撑持。

December 22, 2022 · 1 min · jiezi

关于数据:集团型企业主数据管理框架方法

“三分技术,七分治理,十二分数据”是企业在大数据时代下信息化建设的指导思想。随着企业信息化程度的进步,信息系统数量越来越多,各零碎之间须要深度集成,实现信息数据的疾速共享。因为各信息系统数据规范根本都是各自保护,存在信息孤岛,分类规范不标准,导致数据不统一,无奈整合。主数据管理正是为解决各零碎数据孤岛,建设数据标准化而产生的,通过主数据建设能够建设根底数据标准规范,进步数据品质,为企业统计分析提供根底数据撑持。 本文重点论述企业构建规范化、标准化主数据管理体系的残缺过程,通过企业经营和生产治理的实际,挖掘主数据管理的外围价值,为石化企业实现主数据管理赋能数字化转型,提供相干参考及借鉴意义。 主数据概述主数据(Master Data,MD)在企业中次要是用来形容企业的外围业务实体,是在企业跨部门、跨零碎中被反复、屡次应用的数据,具备唯一性、一致性、稳定性等特色。 主数据管理(Master Data Management,MDM)是通过一些规范、规定和技术,来治理企业外围根底数据,以便更好地为业务服务。主数据管理的要害流动包含制订主数据标准规范、搭建主数据管理平台、制订主数据集成架构、开发主数据集成接口、制订数据荡涤计划、设计主数据管控体系等。 企业通过主数据管理平台实现主数据全生命周期的对立治理,使得各部门、各零碎都能够应用惟一的、精确的、统一的主数据;通过主数据管理平台的集成接口,为各零碎提供高效统一的主数据,从而升高企业根底数据保护老本,保障根底数据的一致性,进步企业数据品质。 团体主数据管理痛点团体企业主数据管理通常面临5点痛点: 1、各类业务数据无奈互联互通,导致业务之间关联性差 2、各级业务工作须要应用多种数据时,无奈同时从多个零碎获取数据,跨部门、跨零碎数据共享难度大; 3、无奈把握实时数据,短少数据全生命周期的跨部门协同,信息资源利用效率低; 4、没有对立的数据管理平台和数据高效追溯伎俩,数据全生命周期治理流程不残缺,普遍存在信息孤岛、零碎壁垒、分类规范不标准等问题,导致数据规范不统一,无奈无效整合企业外围数据; 5、数据起源不对立、数据反复录入,导致数据品质差,难以实现数据的深度利用,从而难以实现业务模式翻新和经营风险管制。 企业须要无效施行主数据管理,制订对立的数据规范,将整个数据全生命周期治理流程买通,能力实现数据“好找、好用、实时和共享”,实现数据上传下达的实时性、有效性和准确性。 主数据管理解决方案Part.1主数据治理体系框架企业发展主数据治理流动,首先须要建设对立的主数据治理体系,次要从数据规范、主数据代码库、主数据管理平台、主数据运维体系、指标零碎代码转换这5个方面来建设治理体系框架。其中,首要的就是对立主数据规范,而后基于该规范建设主数据代码库,设计主数据运维体系保障主数据常态化运行,最终所有的主数据治理成绩都必须通过主数据管理平台进行落地。 Part.2主数据管理施行办法1、制订主数据规范制订主数据规范,首先须要对业务部门和信息系统进行具体的需要调研,次要包含梳理辨认主数据范畴,辨认企业主数据管理现状,基于企业主数据管理现状和企业诉求,制订正当的主数据规范。主数据规范内容次要包含主数据代码体系、数据模型属性、数据编码规定等。数据分类规范是数据标准化的根底,建设正当的数据分类规范有利于保障主数据管理我的项目的胜利施行。 对立主数据规范是信息系统之间数据共享的根底,科学性、简略性、可扩展性是规范制订不可或缺的准则,一方面要思考企业存量零碎的治理需要;另一方面也要思考将来新增零碎的需要。 2、建设主数据代码库主数据规范制订实现当前,须要荡涤企业历史根底数据,制订正当的荡涤计划和荡涤打算,将各信息系统的历史数据荡涤成规范的主数据代码,从而建设企业主数据代码库。企业须要依照公布的主数据规范和标准,将现有信息系统的通用根底、人员、组织机构、会计科目、银行账号、固定资产与设施、客户供应商等外围主数据的代码、分类及名称进行标准整顿,整顿范畴次要蕴含名称是否符合规范、分类是否正当、数据是否残缺、编码是否反复、数据是否惟一等,通过数据荡涤最终建设规范主数据代码库。 3、搭建主数据管理平台首先,从业务和技术2条线,对企业各职能部门和次要信息系统进行主数据管理调研,梳理出企业对主数据管理的目前现状和业务需要,同时对标本行业的龙头企业,借鉴其先进的主数据管理性能,最终造成企业主数据管理平台需要说明书。通过搭建企业级主数据管理平台,为企业提供规范的主数据管理性能。同时,基于客户个性化定制开发需要,实现企业主数据管理定制化性能的开发。 而后,设计主数据集成架构和接口,各零碎依照对立的主数据规范进行集成接口的开发。 最初,组织各零碎进行联调测试,测试通过后组织要害用户进行培训,为零碎上线提供保障。 搭建主数据管理平台,需采纳规范成熟的技术,并且须要具备较强的可扩展性。平台需反对各类支流关系型数据库连贯,反对SOA、WebServices、Restful、XML、Json等业界支流集成和接口服务规范。零碎架构必须具备较强的前瞻性和可扩展性,以适应一直倒退的业务需要,采纳柔性化设计,将零碎性能与用户岗位彼此独立开来,将技术体系和业务解决拆散,为零碎扩大提供根底,以模块间低内聚性为准则,便于主数据管理平台的保护和扩大。 为了能无效地进行数据会集和散发,主数据管理平台提供数据集成性能的同时,还须要能实现平台与各个业务零碎之间的适当解耦,使得业务零碎的变动不会影响到数据全生命周期治理,有利于各业务零碎的裁减、降级和变更等。 4、设计主数据运维体系设计主数据运维体系,次要是为了在主数据管理我的项目建设实现当前,通过组织、制度、流程来保障主数据管理的常态化运行。治理流程上,要做到主数据的全生命周期治理,在建设各种流程的根底上,设置对应的治理角色和职责,并落实数据的归口治理部门。 主数据管理尽管制订了数据规范,也与各零碎进行了接口集成,但如果不足监控机制,各系统对主数据的利用水平将不得而知,容易呈现主数据利用不充沛的景象。因而,须要针对主数据的利用推广状况建设监控机制,确保主数据管理标准严格执行。设计主数据数据品质及监控治理等相干性能,通过开发对照工具,与指标零碎主数据相干属性周期性进行比对,找出差别点,确保数据的一致性;同时建设主数据数据品质评估和剖析体系,对主数据代码利用进行评估和剖析,确定主数据管理策略,缩小指标零碎自编码数量,进步主数据品质。 5、指标零碎代码转换指标零碎代码转换的次要目标是为了在各业务零碎推广主数据规范,主数据贯标次要有2个准则: (1)对于企业的新建零碎,能够间接采纳主数据规范; (2)对于企业已建零碎,须要首先剖析零碎利用主数据规范的危险,属于可间接替换成主数据规范代码的,采纳间接贯标形式,其余不能采纳间接替换成主数据规范代码的,采纳映射贯标的形式。其中,采纳映射贯标的零碎,所有规范不对立的代码仅限于外部零碎流转,与其余零碎交互时需转换成主数据规范代码。指标零碎代码转换的成果间接关系到企业根底数据品质的高下,通过指标零碎代码转换实现主数据规范在各业务零碎全笼罩,无效解决企业数据孤岛问题,进步企业的主数据管控能力。 总结(1)主数据具备很高的业务价值,企业通过建设主数据规范并固化到信息系统进行管制,搭建主数据管理平台,对主数据品质进行继续剖析和晋升,进而晋升整体数据品质,从而为企业的精细化治理奠定数据根底。 (2)主数据是企业数据治理的重要抓手,通过主数据管理平台建设,实现根底数据的权威性、唯一性、准确性,实现利用零碎与主数据管理平台的数据集成,达到数据同源、标准共享、利用对立、服务集中的指标,最终无效赋能企业数字化转型。

December 22, 2022 · 1 min · jiezi

关于数据:数据治理体系建设与数据资产路线图规划

企业须要转变对数据资产价值的认知,在企业经营及治理中建设数据资产价值体系。在数字化业务畛域中,须要思考将数据权属定义至指定的部门及岗位,将数据资产的价值纳入到整体经营及考核中,真正做到将数字资产的价值嵌入到每一个数字化流程。 企业在建设数据资产管理体系后,须要进一步开掘及施展数据资产价值。不仅是常见的数据决策分析,还须要体现在数字化业务的各个环节。从生产驱动价值转变为数据驱动价值,数据价值将让传统制作企业转变成数据服务型企业。 数据治理 依靠企业数据管理实际,造成企业数据策略、治理组织人才、标准流程,为数据驱动业务经营提供根底保障。 对立数据资产 蕴含数据资产目录、数据规范、企业级数据模型、数据分布、数据地图等。从数据产生、入湖、联接、利用整个生命周期提供设计领导。 数据经营 提供数据经营机制与职责、建设经营指标体系(如数据服务建设周期、数据需要响应周期等),保障数据管理工作继续良性运行。 数据意识能力:转变对数据资产的认知和意识目前,我国只有少部分企业器重大数据在决策方面的利用,少数企业管理人员还未真正意识到大数据的价值。 在海量的数据中,只有挖掘出与进步企业利润相关性比拟大的因素,就可在肯定水平上为企业决策治理提供策略反对。这就要求企业的管理者要有敏锐的洞察力,这对治理决策者的思维形式提出了一种新的挑战。如何让企业,尤其是管理层意识到数据的重要性成为了首当其冲的指标。 1、贯彻数据意识数据治理外表上是技术,理论波及到的是治理、制度、理念等的更新,须要企业统筹规划和协调,将数据意识贯通高低每个人、每个业务。 2、队伍建设/建设数据管理部门通过企业一把手带头、同时信息化部门被动联结业务部门造成一个“联邦制”的数据治理机制,单方通过精诚合作,最终造成合力,在保障数据治理无效推动的同时,晋升信息化人员的业务理解能力,进步业务部处人员的信息化素养。 3、关注所有人员的技能和工作数据的宽泛水平决定了任何人都无奈独自解决它们。让整个企业领有数据管理意识的第一指标是让人们不在畏惧数字。领导层必须进一步关注人员的技能和工作,其中包含: 制订数据治理准则以增强数据透明度。 突破妨碍合作和数据优化的组织和数据孤岛。 使用理智的改革治理办法做宣传,以压服大家承受数据文化。 4、将数据管理融入文化提供员工培训,令其对数据产生好感。 通过强有力的用例向企业证实咱们能从数据中获取洞察和成绩。 在训练营发展数据培训。 资产化能力:数据资产治理路线图布局策略1.企业数据资产利用场景布局与全方面数据体验通过数据利用现状调研及利用场景设计,构建企业实时在线经营平台,撑持全方位触达用户的数据驱动业务经营。 2. 数据治理体系建设(1)数据治理体系布局初步计划数据管控蕴含构建数据管理框架,数据管控流动、治理角色和职责。 首先构建数据管理框架,明确数据管理的外围职责,建设数据组织。 数据组织建设的定位:实体化的数据管理业余组织,负责构建并治理数据管理体系,通过继续改良数据管理,实现“清洁数据成就卓越经营,智慧数据驱动无效增长”。 倡议数据组织的外围职责聚焦如下四个方面:数据架构建设、改革管控机制、数据品质治理、数据质量指标纳入数据责任人的绩效考核。 数据组织做好数据管控的次要口头步骤: (2)数据资产梳理数据架构(Data Architecture):企业级数据架构是以结构化的形式形容在业务运作和管理决策中所须要的各类数据及其关系的一套整体组件标准。 数据架构包含数据资产目录、数据规范、企业级数据模型和数据分布四个组件。 (3)施行元数据管理元数据是“数据的数据”,次要形容数据属性的信息,用来反对如批示存储地位、历史数据、资源查找、文件记录等性能。如同给数据建设档案,通过减少对数据的各种属性形容,反对相干扩大治理。 而元数据管理是数据资产治理的重要根底,是为取得高质量的、整合的元数据而进行的布局、施行与管制行为。元数据管理次要工作包含标准元数据的产生、领导元数据的采集、管控元数据的注册等。 ● 标准元数据的产生:定义元数据分类和元数据实体,明确元数据设计准则、标准和办法,领导元数据管理平台和元数据设计工具的选型与建设,撑持数据和IT人员进行元数据的设计、治理及利用。 ● 领导元数据的采集:定义元数据采集过程中应遵循的规范与接口,对立元数据的采集模式,保障高效、精确的元数据采集。 ● 管控元数据的注册:通过元数据资产治理及规范的元数据注册标准和对立的元数据注册办法,实现业务元数据和技术元数据的连贯,使业务人员能看懂数据、了解数据,并通过数据底座实现数据的共享与生产。 (4)数据安全治理数据安全治理是指对数据设定安全等级,建设欠缺的体系化的安全策略措施,全方位进行平安管控,通过多种手段确保数据资产在“存、管、用”等各个环节中的平安,做到“事先可管、事中可控、预先可查”。 数据安全治理的要害工作包含了解数据安全相干法律法规要求、定义数据平安规范、划分数据安全等级、定义业务敏感数据对象、定义数据安全策略、定义数据安全控制及措施、数据安全审计、数据安全应急预案和数据安全教育培训等。 大数据安全体系为大数据安全的总体管控架构,包含管控框架、技术架构及经营机制。其次要作用为企业建设大数据安全的管控能力,并可用于平安能力评估,制订平安体系建设布局及路线图。 参照《数据安全能力成熟度模型》,以及《公安部信息安全等级爱护2.0》满足等保三级要求,从数据采集、传输、存储、应用、替换以及销毁等各个阶段所面临的平安危险进行综合布局。 数据利用的技术能力数据集成、数据治理、服务开发、数据服务、可视化工具,从而实现数据从采集、存储、治理、计算、剖析利用和数据交互的性能。 1、数据集成数据集成用来实现数据入湖动作,不是简略的数据搬家,而是依照肯定的方法论进行数据备份。数据入湖的前提条件是满足6项数据规范,包含:明确数据责任人、公布数据规范、定义数据密级、明确数据源、数据品质评估、元数据注册。此规范由数据代表在入湖前实现梳理并在数据治理平台上进行资产注册。 技术上要反对多种异构数据源高效入湖。 数据使能平台架构示意: 2、 数据治理数据治理是对数据资产的治理行使权力和管制的流动汇合(布局、监控和执行),职能是领导其余数据管理职能如何执行。 数据治理次要指标是实现:统一的信息架构与规范、惟一可信的数据源、牢靠的内部数据、数据架构与IT握手、跨畛域数据汇聚与整合、报告/指标数据可服务化、业务监测过程数据可视化、可治理。 数据治理框架制订如下: 3、数据服务化建设对立的数据凋谢服务平台,对公司外部提供数据开发与服务撑持,对社会和企业提供对立的对外数据凋谢服务,提供数据服务权限治理,隐衷治理、数据服务开发与API封装,以及API应用统计等能力,使得数据价值得以充沛开释。 示例:零编码实现多数据源API接口公布,反对数据出湖,服务下层利用。 4、数据资产开发数据的真正含意是数据价值的发现与利用,因而如何让采集的海量数据被利用起来体现价值是布局中须要思考的一个要害因素。为此须要构建丰盛的数据开发工具、模型与组件,交互式剖析工具、数据分析开掘平台与工具、数据标注与标签治理等工具。 同时须要提供一系列数据分析与人工智能算法与模型库,包含罕用的分类、聚类、回归、关系剖析等机器学习算法,以及基于深度学习的模式识别、图像和视频计算机视觉解决、语音和文本自然语言解决等算法与模型库。 并在此基础上将随同着利用开发过程中呈现的通用工具组件,如表单自动识别与信息填充、人脸识别等作为公共服务组件公布,一起来保障下层利用的疾速开发。 5、数据可视化数据可视化的广泛应用有助于数据价值出现,便于业务和管理人员应用,帮忙业务剖析推动决策。 布局建设倡议1、建设布局根据企业倒退策略与业务倒退须要,以数字化转型为领导,制订企业数据管理总体规划,明确数据管理策略和指标,优化数据管理体系,制订数据品质评估模型,辨认数据使能平台建设需要与计划,领导企业数字化建设过程。 ...

December 19, 2022 · 1 min · jiezi

关于数据:全面便捷的数据管理能力助力数据运营降本增效

对于任何企业来说,销售和供应链总是天平秤座的两端。 如何搁置两个砝码是对企业治理能力的极大考验。明天,让咱们来谈谈供应链治理的例子来探讨一下对于报表工具而言,怎么样能力让客户全面、便捷的全局治理数据接入。背景:有序的供应链能够保障短缺的供给,进步卖方的交货效率,节省时间和老本,进步客户体验。供应链能力较弱,会影响后续的洽购决策、产品销售和用户体验,造成一系列问题。 随着互联网的疾速倒退,供应链治理在古代企业的倒退中施展着越来越重要的作用,数据分析作为一种十分重要的操作伎俩,须要利用于市场营销治理、供应链治理等环节。 案例:在供应链治理中,有大量的进度追踪表,追洽购、追入库、追生产、物流、回款等各个环节。这些进度追踪表有三个特点:1.有大量明细数据2.在明细数据上有计算字段。3.基于明细数据做些汇总剖析、透视表剖析。通常须要“明细表+加工表+统计表”的三表模式联结进行剖析业务需要。 剖析痛点:最大的痛点是获取具体数据,进度跟踪表须要每天更新。每天上班前,报表制作人都会去各种各样的中央IT下载零碎中的数据,而后复制到Excel效率低,容易出错。为什么不连贯数据库?间接从数据库中获取数据,必然会进步工作效率。但Excel的数据库性能十分难用,微软并没有把各家数据库的驱动集成到office安装包中,所以当你想连贯数据库时,会弹出提醒窗口—“此连贯须要装置一个或多个其余组件能力应用”。或者99%的用户会在这个时候放弃。 装置驱动后,接下来就要输出用户、明码、SQL语句,普通用户一脸懵逼,对于企业IT管理员更是平安调整,把所有的数据库信息暴露无遗。 电子表格Excel插件,大幅升高数据库门槛,可视化全局治理让您治理数据更高效!电子表格的设计器采纳准B/S架构基于Office/WPS的插件仅4MB,领有B/S的各种劣势,登录后即可应用,无需裸露数据库账号密码(在服务器的管理员已全局配置好) 开发方式:【真Excel】借助Excel本来的能力渲染动静的数据查问后果,形式新鲜独特采纳Excel插件+BI性能组合服务,让IT管理员对立控制数据连贯,普通用户在Excel数据库的使用方便,大大爱护数据库应用的安全性。 可控的公布共享,便捷平安应用电子表格设计器(插件)制作报表后,能够公布到服务器,不便团队共享查看。另外,提供报表门户性能,集中管理各类资源反对挪动App和Web端拜访,随时随地剖析与决策反对多维度、多样化、多权限的分享形式,提供便捷的同时保障资源平安

December 16, 2022 · 1 min · jiezi

关于数据:数据治理聊聊数据血缘

数据血缘关系,从概念来讲很好了解,即数据的全生命周期中,数据与数据之间会造成多种多样的关系,这些关系与人类的血缘关系相似,所以被称作数据的血缘关系。 从技术角度来讲,数据a通过ETL解决生成了数据b,那么,咱们会说,数据a与数据b具备血缘关系。不过与人类的血缘关系略有不同,数据血缘关系还具备一些个性化的特色。 ● 归属性 数据是被特定组织或集体领有所有权的,领有数据的组织或集体具备数据的使用权,实现营销、危险管制等目标。 ● 多源性 这个个性与人类的血缘关系有实质上的差别,同一个数据能够有多个起源(即多个父亲),起源包含,数据是由多个数据加工生成,或者由多种加工形式或加工步骤生成。 ● 可追溯 数据的血缘关系体现了数据的全生命周期,从数据生成到废除的整个过程,均可追溯。 ● 层次性 数据的血缘关系是具备层级关系的,就如同传统关系型数据库中,用户是级别最高的,之后顺次是数据库、表、字段,他们自上而下,一个用户领有多个数据库,一个数据库中存储着多张表,而一张表中有多个字段。它们有机地联合在一起,造成残缺的数据血缘关系。 如下图中某学校学生管理系统后盾数据库的ER图示例,学生的学号、姓名、性别、出生日期、年级、班级等字段组成了学生信息表,学生信息表、老师信息表、选课表之间通过一个或多个关联字段组成了整个学生管理系统后盾的数据库。 不论是结构化数据,还是非结构化数据,都具备数据血缘关系,他们的血缘关系或简略间接,或盘根错节,都是能够通过迷信的办法追溯的。 以某银行财务指标为例,利息净收入的计算公式为利息收入减去利息支出,而利息收入又能够拆分为对客业务利息收入、资本市场业务利息收入和其余业务利息收入,对客业务利息收入又能够细分为信贷业务利息收入和其余业务利息收入,信贷业务利息收入还能够细分为多个业务条线和业务板块的利息收入。 如此细分上来,始终能够从财务指标追溯到原始业务数据,如,客户加权均匀贷款利率和新发放贷款余额。如果利息净收入指标发现数据品质问题,其根因能够通过下图高深莫测发现。 数据血统追溯不只体现在指标计算上,同样能够利用到数据集的血统剖析上。不论是数据字段、数据表,还是数据库,都有可能与其余数据集存在着血缘关系,剖析血缘关系对数据品质晋升有帮忙的同时,对数据价值评估、数据品质评估以及后续对数据生命周期治理也有较大的帮忙和进步。 从数据价值评估角度来看 通过对数据血缘关系的梳理,咱们不难发现,数据的拥有者和使用者,简略地来看,在数据拥有者较少且使用者(数据需求方)较多时,数据的价值较高。在数据流转中,对最终目标数据影响较大的数据源价值绝对较高。同样,更新、变动频率较高的数据源,个别状况下,也在指标数据的计算、汇总中施展着更高的作用,那能够判断为这部分数据源具备较高的价值。 从数据品质评估角度来看 从数据品质评估角度来看,清晰的数据源和加工解决办法,能够明确每个节点数据品质的好坏。 从数据生命周期治理角度来看 数据的血缘关系有助于咱们判断数据的生命周期,是数据的归档和销毁操作的参考。 思考到数据血统的重要性和个性,以一般来讲,咱们在血统剖析时,会关注利用(零碎)级、程序级、字段级三个档次间数据间的关系。比拟常见的是,数据通过零碎间的接口进行替换和传输。 例如下图,银行业务零碎中的数据,由对立数据交换平台进行流转分发给传统关系型数据库和非关系型大数据平台,数据仓库和大数据平台汇总后,交换各个利用集市剖析应用。其中波及大量的数据处理和数据交换工作: 在剖析其中的血缘关系时,次要思考以下几个方面: 1.全面性 如上图所示,数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程,即便归档的数据也有可能通过其余形式影响零碎的后果或流转到其余零碎中。为了确保数据流跟踪的连贯性,必须将整个零碎集作为剖析的对象。 2.动态分析法 本办法的劣势是,防止受人为因素的影响,精度不受文档形容的具体水平、测试案例和抽样数据的影响,本办法基于编译原理,通过对源代码进行扫描和语法分析,以及对程序逻辑波及的门路进行动态剖析和列举,实现对数据流转的主观反映。 3.接触感化式分析法 通过对数据传输和映射相干的程序命令进行筛选,获取要害信息,进行深度剖析。 4.逻辑时序性分析法 为防止冗余信息的烦扰,依据程序处理流程,将与数据库、文件、通信接口数据字段没有间接关系的传递和映射的间接过程和程序中间变量,转换为数据库、文件、通信接口数据字段之间的间接传递和映射。 5.及时性 为了确保数据字段关联关系信息的可用性和及时性,必须确保查问版本更新与数据字段关联信息的同步,在整个零碎范畴内做到“所见即所得”。 一般来说,数据血统的用处次要体现以下几个方面: 合规需要,这是监管部门的需要,为了监管合规,数据流动的各点和起源,都是重点须要监管的。 影响剖析和品质问题剖析,这个数据开发部们的外围需要,随着数据利用越来越多,数据的流动链越来越长,一个源头的外围业务的改变,上游各剖析利用必须放弃同步,没有影响剖析,就会各个数据服务造成异样拜访的状况。 数据安全和隐衷,这个是数据合规部门的需要,哪些数据是须要脱敏的,这个要放弃全流通所有域的管控。 迁徙我的项目,这个呈现在特定老我的项目终止须要新我的项目接管的状况下,没有数据流动映射表,就会大量花工夫去整顿,也很难保障迁徙的完整性和正确性。 自服务剖析,数据分析团队为了确定数据可信水平,那么数据的起源是数据可信的重要依据。 数据血统零碎的构建和保护是一个较重的系统工程,其是数据治理工作中的流沙之地,不小心会陷入这个坑之中,尤其是技术完满人格类型的负责人,这是因为数据血统的工作须要思考的因素很多。 为了最大水平升高我的项目失败的危险,咱们须要思考数据血统的服务用户对象,确定业务方面和技术方面的血统优先,须要思考到细节水平,覆盖率,变动频率,同时还要思考人员流动,组织部门,技术架构等状况,制订最适宜咱们本人的策略。 数据血统的收集办法次要有以下几种: 01 主动解析 主动解析以后次要的收集办法,具体就是解析SQL语句,存储过程,ETL过程等文件。因为简单代码和应用环境等起因,依据国内厂商的教训,主动解析能够笼罩到企业数据的70-95%,目前无奈做到100%,因而患有技术洁癖的负责人容易犯下这个谬误,即谋求极高的覆盖率。 02 零碎跟踪 这个办法就是通过数据加工流动过程中,加工主体工具负责发送数据映射,这样做的极大益处是收集精准,及时,细粒度可反对,不过限度就是不是每个工具都能够集成。这种办法个别鉴于对立的加工平台,比方Informatica能够治理本人的全数据血统周期。 03 机器学习办法 这个办法是基于数据集之间的依赖关系,计算数据的类似度。这个办法的益处是对工具和业务没有依赖,毛病准确率须要人工确认,个别能够做到3-8的数据能够剖析发现。 04 手工的收集 在整个我的项目中,个别有5%是须要手工来做的。 目前的数据血统大多是基于技术的梳理,个别服务技术人员的需要。随着数据服务走向前台,服务业务剖析和CDO的业务数据血统,目前曾经有相干产品,通过数据的语义剖析,将技术元数据映射到业务元数据上,将血统以业务流程形式公布共享进去,辅助商务决策,这是将来的倒退方向之一。

December 14, 2022 · 1 min · jiezi

关于数据:数据治理数据标准建设方法和流程

引言:数据规范就是通过制订一套由管理制度、管控流程、技术工具独特组成的体系,来对数据定义、分类、格局、编码等标准化治理。艰深地讲,对企业来说,数据规范就是对数据类型、长度、归属部门等定义一套对立的标准,以保障不同业务零碎之间能够做到对同样的数据了解对立和应用对立。 一、什么是数据规范?数据规范依据不同的数据域分为根底、剖析类和专有类三类,其中:❖根底类数标是企业日常业务发展过程中所产生的具备独特业务特色的基础性数据,如客户、产品、财务等。纪念日是每年的3月5日。❖剖析类数标是为满足公司外部治理须要及内部监管要求,在基础性数据根底上按肯定统计、剖析规定加工后的数据。❖专有类数标是公司架构下子公司在业务经营及治理剖析中所波及的特有数据。其中,针对根底类数标,能够看一下金融行业常常用的数据规范十大主题模型。该模型是以主题组织数据,包含客户、资产、机构、产品等主题。 那么针对某个数据主题,数据规范到底由那几局部组成呢? 个别数据规范会包含:主题定义、信息项、规范代码三个文档,其中:❖规范主题定义文档:次要是记录数据规范的定义、分类,用于标准和辨认数据的主题归属。❖规范信息项文档:记录数据主题的信息项业务属性(分类、业务含意、业务逻辑)和技术属性(类型、长度、默认规定)。❖规范代码文档:记录信息项固定码值的编码、分类、应用规定等。 信息项文档是数据规范的外围。内容包含分类、业务形容和技术形容,个别由信息大类、信息小类、信息项、信息项形容、信息类别、长度共6项组成。当然这些内容也能够调整,例如信息大类、小类,能够合并,或者拆除更多层级。 信息大、小类是对信息项的惯例分类例如:客户信息大类包含根本信息、分割信息、关联信息、财务信息、危险信息、评估信息、往来信息七大类;信息小类,包含:客户编号、名称、证件、地址、评级信息、模型评分、等级、停办业务等。 信息项是用来形容一个事物的最根本元素示意一个事物的辨认、限度、数量、分类、状态,或者事物间的关系,例如客户信息的名称、年龄、性别等。 信息项形容是刻画或者标准信息项的具体业务形容及界定 信息类别是依据业务需要,定义相应的信息项在数据库中所须要的技术格局例如:编号、标记、代码、金额、日期、数值、文本等。 长度是信息项的数据长度,供各零碎建设参考应用 二、为什么须要数据规范?大部分企业的零碎建设都是根据业务需要来的,没有一个整体的布局,没有思考是否与其它零碎的性能或数据存在反复的问题,而且各个系统由不同的厂商和产品搭建,所以不同零碎之间数据的不一致性难以避免,也造成多种数据问题: 1.数据共享难以实现数据存储构造不统一,调用多零碎的数据时,因为某些数据在不同零碎中数据存储构造不同,导致数据无奈间接关联,影响不同零碎之间的数据共享。 2.数据同名不同义导致谬误数据定义不统一,不同系统对数据的命名、业务含意、取值范畴等定义不同,比方同名不同义、同义不同名等。 3.沟通成本增加数据了解不统一,不同人员对数据的了解不统一,导致在数据应用时节约很多工夫来进行沟通。 4.数据来源不明数据起源不统一,数据存在多个起源,在应用数据时,不分明应该取哪个零碎的数据。 简略来说,企业下分支各自都有本人的信息管理系统,别离治理本人的业务状态,当总公司要进行数据整合的时候,几个零碎的信息都会进行存在一张信息表中,其实这个就是在建设数据规范。 那么要建设一个数据管理平台,对立存储各个分支全副的替换信息时,信息表该如何创立?这就须要创立信息规范来整合企业外部不同部门业务零碎产生的信息。 数据标准化的过程其实就是在数据管理平台实现数据规范,并将各个系统产生的数据通过荡涤、转换加载到整合平台的数据模型中,实现数据标准化的过程。 所以,数据治理的第一步就是要梳理分明企业领有哪些数据,并整合数据。而构建数据整合平台则必须要建设一套数据规范和数据模型,实现数据的标准化。 三、数据规范分类个别可从三个维度去对数据规范进行分类:数据结构、数据内容起源、技术业务。 1.从数据结构角度进行的数据规范分类● 结构化数据规范是针对结构化数据制订的规范,通常包含:信息项分类、类型、长度、定义、值域等。●非结构化数据规范是针对非结构化数据制订的规范,通常包含:文件名称、格局、分辨率等。 2.从数据内容起源进行的数据规范分类● 根底类数据规范是指业务零碎间接产生的明细数据和相干代码数据,保障业务流动相干数据的一致性和准确性。●派生类数据规范是指根底类数据依据治理经营的需要加工计算而派生进去的数据,例如:统计指标、实体标签等。 3.从技术业务角度进行的数据规范分类● 业务数据规范是指为实现业务沟通而制订的规范,通常包含:业务定义和治理部门,业务主题等。●技术数据规范是指从信息技术的角度对数据规范的对立标准和定义,通常包含:数据类型、字段长度、精度、数据格式等。 四、数据规范建设办法和流程数据规范施行过程包含数据规范布局、数据规范现状调研、规范设计、规范的施行映射、规范执行以及在应用过程中保护加强等过程。 次要内容包含:数据规范的范畴有哪些,数据规范目前情况是怎么的,数据规范如何进行设计,数据规范施行映射应该如何去做,数据规范执行应该如何发展,如何对数据规范进行保护并欠缺等。 1.数据规范布局须要思考业务打算、利用范畴、数据中体、服务对象、优先策略等。在发展数据规范布局时能够采纳引进业界施行教训,依据业务的优先程序和施行难易水平,布局规范的框架体系以及施行门路的形式发展施行工作。 2.数据规范现状调研须要思考现有定义、应用习惯、问题梳理、现状剖析、参考文档等。能够通过考察问卷、安顿现场访谈、收集文档资料等伎俩,针对不同的业务零碎选用适合的调研形式,对现有定义、应用习惯、数据分布、数据流向、业务规定、服务部门等发展相干调研工作。 3.数据规范设计对数据规范的主题、信息大类、信息小类、信息项、数据类型、数据长度、数据定义、数据规定等进行规划设计。在方法论领导下,实现数据规范设计和定义工作,包含数据业务形容定义(业务属性)、类型长度定义(技术属性)、其余规范信息定义。 4.数据规范施行映射要明确须要映射内容的零碎范畴、应用领域、数据库表、数据字典、数据字段等。将已定义的数据规范与业务零碎、业务利用进行映射,表明规范和现状的关系以及可能影响到的利用。 5.数据规范执行要充分考虑业务需要和施行难易水平上确定执行准则,最大水平上联合指标和现状,针对不同类型零碎制订相应策略,并设定正当阶段性指标。执行倡议可从业务流程、业务零碎、治理利用及数据平台等各方面提出数据规范执行的倡议。 6.数据规范保护加强须要进行规范公布、管理机制、工作流程、配置工具等方面。联合数据管理需要和机制,组建组织机构,培训、造就管理员,负责相应工作,建设配套规章制度,利用管理工具保护更新规范并监控其执行状况。 五、建设数据规范有哪些益处?上述问题,任何一个的呈现都会让人头痛不已,然而通过数据规范的建设,却能够无效打消数据跨零碎的非一致性,从本源上解决数据定义和应用的不统一问题,为企业数据建设带来诸多益处:❖数据规范的对立制订与治理,可保证数据定义和应用的一致性,促成企业级繁多数据视图的造成,促成信息资源共享。❖通过评估已有零碎规范建设状况,可及时发现现有零碎规范问题,撑持零碎革新,缩小数据转换,促成系统集成,进步数据品质。❖数据规范可作为新建零碎参考根据,为企业零碎建设整体规划打好根底,缩小零碎建设工作量,保障新建零碎齐全符合标准。 同时,数据规范建设也为企业各类人员提供了强有力的撑持:❖对业务人员而言,数据规范建设可晋升业务规范性,保障人员对数据业务含意了解统一,撑持业务数据分析、开掘及信息共享。❖对技术人员而言,有数据规范作为撑持,可晋升系统实施工作效率,保障系统建设符合规范,同时升高出错率,晋升数据品质。❖对管理人员而言,数据规范建设可提供更加残缺、精确的数据,更好的撑持经营决策、精细化治理。 总结数据规范治理是企业数据治理的根底,没有标准化,更加谈不上数据品质。在失去规范评估后果后,须要依据后果的反馈对系统数据进行整改。 因为理论业务场景或其余因素的制约,数据整改并不是一次性的,而是要通过屡次迭代,一直整改,从而失去合乎企业预期的数据服务。企业也是在一直倒退的,在这个过程中,零碎数据也是在一直变更的。因而,数据整改也是随着企业的倒退而一直适应和倒退。

November 29, 2022 · 1 min · jiezi

关于数据:从传统数据治理转向主动数据治理

对于数据驱动的企业,数据治理已不再是一种抉择——而是必需品。企业越来越依赖数据治理来治理数据的策略、数据合规性和数据品质。因为这些起因,企业的数据治理办法至关重要。领导者必须思考哪种类型的治理最适宜业务需要和指标,企业在数据治理办法方面有选择权。常见的传统数据治理(或称被动数据治理)次要通过危险的视角来感知数据,从而数据的合规性危险以及对数据品质进行预警。为了升高数据应用的危险,这种办法强制规定了数据的应用规定,包含谁能够做什么而不能做什么。企业调配了新角色,而很少思考以后谁在做什么。这种形式,传统数据治理疏忽了一个简略的事实,而使其数据治理打算失败,那就是——他们曾经在治理数据,而最佳的治理应是交融在日常的流程中!相比之下,被动数据治理是在人类行为中施行数据治理工作的新模式。人工智能和机器学习将这些口头具体化为一个所有人都能够看到的共享过程。没有强加于人的构造。相同,构造是从以后行为中浮现进去的,而工作流程不间断。通过这种形式,通过积极主动的治理,速度更快、响应更麻利。这就是为什么许多企业正在从被动转向被动数据治理打算。 数据民主化数据民主化是使信息系统的一般非技术用户能够拜访数字信息的过程,而无需 IT 参加。它是自助剖析的根底,这种办法容许这些非技术用户(即:业务线人员)收集和剖析数据,而无需寻求数据管理员、系统管理员或 IT 人员的帮忙。被动数据治理优先思考数据民主化这种办法不是将数据锁定在须要它的人之外,而是欢送更多用户应用数据——但减少了领导应用的“护栏”,即:对产品的能力要求较高。例如:自动化预警、主动SQL和品质标记是“护栏性能”的典型用例。它们能够避免人们谬误地应用数据,并领导合规应用,从而升高违规危险。监管压力越来越大欧盟的 GDPR、美国的 CCPA、中国的数据安全法、个人信息保护法要求正确合规的应用数据,并对违规者处以巨额罚款。企业必须恪守合规和隐衷准则,否则将面临巨额罚款。然而,这些法规一直变动,新的更新须要一直地应用新的应用模式。传统的数据治理不具备疾速适应新法规的灵活性在一直变动的世界中,被动数据治理会实时调整,以促成信息流向须要的人。数据民主化是踊跃治理的要害支柱,因为它使人们可能拜访最佳数据,并邀请他们无所畏惧地应用它。 传统数据治理的常见陷阱传统的数据治理是一种数据优先的治理办法。这种传统办法不足响应数据用户需要的流动性——或者在新法规呈现时适应新法规的灵活性。传统数据治理办法概述了用户角色、创立数据规范、调配责任并创立企业范畴的数据策略。因为它强调对数据的管制,这种办法威逼数据文化的状况并不少见。 这种对数据管制的传统形式减弱了团队合作。事实上,这种传统的治理模式制订了僵化的政策,经常疏远甚至吓倒数据工作者。在应用任何特定数据集之前,人们必须参考文档。相似一揽子的政策会产生额定的工作,从而升高整体效率。人们被要求恪守简单的规定,“否则” …… 在这种恐怖的氛围中,人们做出“战斗或逃跑”的反馈并不常见。许多人没有遵循简单的数据集应用规定,而是齐全放弃了该数据。其他人可能会在数据管理和应用方面变得平易近人。许多人将传统办法称为“命令和管制”格调,是有起因的。 随着数据治理成为一种累赘,数据分析师的工作效率会降落,这通常会导致数据品质降落。然而,施行正确的治理模型能够在反对企业倒退方面施展重要作用。如果分析师和其余数据用户失去与他们一起工作的治理策略的反对,则能够在收集、存储和剖析的整个周期内保持数据品质。 为什么要从传统数据治理转向被动数据治理?什么决定了被动/传统模型与被动治理模型的好坏?需要因业务而异。有一点是必定的:传统办法是一种宽泛的、孤立的办法,不会将数据用户带入波及治理的畛域。 数据不是变化无穷的,它必须在一个间断的过程中进行改良。同样,无效的数据治理必须随着工夫的推移进行调整和改良。明天的数据治理必须采纳麻利的 DevOps 思维并建设在机器学习的根底上,这样随着工夫的推移,它会以更少的致力变得更好。 被动数据治理通过在应用点显示策略和护栏来取得成功。这种非侵入性办法意味着人们在解决数据时理解治理最佳实际。此外,机器学习检测人类行为模式,这些模式表明工作中的数据治理过程。管理员会留神这种模式,他们能够反过来揭示他们的团队,因为他们正式制订了一个曾经在实践中的流程。 通过将数据用户纳入决策制定,整体购买减少,这导致治理人员和前端用户之间增强单干。这容许一组自适应策略,能够随着业务需要的变动而继续优化。实际上,从传统数据治理到被动数据治理的转变将您的治理办法从被动变为被动。 被动治理是一种“秀而不说”的办法。人们在应用数据时天生就在治理数据;然而,它没有正式化。灵便的模型应用数据目录来标准这些流程,而不会影响数据用户的工作流程。通过关注人的行为而不是数据,能够齐全打消数据流转循环中的谬误。 随着数据用户遵循工作流程中的指南,安全性和隐衷性的改良也会减少。被动数据治理反对迭代过程,以便数据用户和管理者制订推动公司指标并牢记员工利益的政策。 被动数据治理有什么不同,有哪些特点?1、被动发现和治理数据策略通过盘点、分类和治理数据和常识,被动数据治理为企业数据资产提供了无可比拟的可见性。与耗时的自上而下的孤立办法相比,被动数据治理使企业可能将其治理工作集中在最要害的数据资产上,以便对业务产生最大的影响。 2、施行策略、工作流程和治理被动数据治理反对对数据治理策略、工作流和规范的麻利批准和沟通。通过提供剖析和仪表板来监控和跟踪策展进度,被动数据治理使治理团队可能优先思考他们的工作。 3、踊跃吸引一线用户被动数据治理没有限度业务线用户应用数据,而是将治理、合作和通信性能间接放入他们的日常工作流程中,以激励精确、合规的数据驱动决策。 4、自动化数据治理流程被动数据治理平台将机器学习和众包相结合,以自动化和减速数据管理、数据分类、业务词汇表和数据品质文档。 5、建设对数据的信赖被动数据治理平台对数据质量指标、形容和仪表板进行编目,并在生产和剖析点实时向消费者展现数据品质信息。借助触手可及的数据分析信息,数据消费者能够看到无关数据的重要特色、统计数据和数字图表,从而使他们可能自信地疾速采取行动。 6、被动升高危险被动数据治理平台提供数据血统可帮忙用户理解数据的起源、使用者以及应用形式。而且,通过影响剖析报告,用户能够全面理解变更的上游影响——帮忙被动升高危险。 如何从传统数据治理转向被动数据治理尽管能够分明地看到被动数据治理模型的大量机会,但扭转现有流程并不总是那么容易。以下是减速您的企业向被动数据治理过渡的一些情谊提醒:● 施行数据目录以轻松组织并为员工解决的数据增加上下文,数据目录使您的员工能够轻松查找、了解和信赖数据。● 提供尽可能多的信息以使数据更易于信赖。● 应用数据目录为您的数据分析师和科学家腾出工夫,从而加重耗时的工作,例如:无休止的数据争执,让人们有更多工夫进行剖析和迷信解决。● 通过正式化元数据责任来进步数据品质。因为,数据不会自行治理。延聘业务专家和技术专家● 延聘业务专家和技术专家。让他们参加提供与您的新过渡相一致的数据文化。向所有团队廓清指标是进步对数据的信赖,这将进步您对彼此的信赖。 写在最初的话扭转企业的数据治理模型不仅仅是扭转数据处理形式。事实上,您对数据作为资产的态度,以及您对应用它的人的认识,都呈现在您的数据治理办法中。您是否置信您的员工会做正确的事件(在领导下)?您是否置信您企业中的人们想要对数据做正确的事件? 如果是这样,那么被动数据治理就适宜您。这种办法通过民主化拜访来优先思考数据用户和数据之间的关系。数据民主化,本着社区合作的精力,欢送人们应用数据。它向他们展现了如何在合规的框架内智能地解决数据。它将信赖置于恐怖之上。 如果做得好,踊跃的数据治理能够加强数据文化。在您的企业,曾经有人具备施行和传播这些变动的能力。一种踊跃的办法将激活这些人,并正式确定围绕数据的责任,让所有人都能看到。 随着社会越来越依赖数据,数据的采集量将持续增长。 为了跟上步调,咱们必须迅速行动! 咱们必须使数据拜访民主化! 咱们必须放弃踊跃的态度!

November 28, 2022 · 1 min · jiezi

关于数据:数据治理的核心框架和六大思维

数据成为新的生产力,必将引发数据生产关系的改革,而数据治理体系就代表着新的生产关系。近日公布的《广东省数据因素市场化配置改革实践钻研报告》(下称《报告》),提出数据治理以数据为对象,在确保数据安全的前提下,建立健全规定体系,理顺各方参与者在数据流通的各个环节的权责关系,造成多方参与者良性互动、共建共治共享的数据流通模式,从而最大限度地开释数据价值,推动数据因素治理体系和治理能力现代化。 Part .1 搭建数据治理的外围框架数据治理的外围框架从价值指标到条件环境是一个自上而下的推导过程,数据价值开释为数据治理提供了近景和方向,数据资产位置确立提供了要害根底,多元协同治理提供了能源,数据凋谢共享提供了实现门路,而平台技术保障提供了保障。从而,整个过程造成逻辑闭环,形成了数据治理的外围框架,保障了数据治理体系不断完善,实现迭代倒退。 第一、数据治理的指标是保障数据及其利用过程中的经营合规、危险可控和价值实现,通过数据治理体系标准数据治理流程,保证数据治理的合规经营,促成对数据的深度开掘和无效利用,从而将数据中暗藏的微小价值释放出来。 第二、数据治理的要害根底是确立数据的资产位置,明确数据权属的主体资格,明确规定数据的收集、应用、管理权限,明确各类经营者收集数据的非法路径,均衡数据利用与数据保护。 第三、数据治理的外围能源在于建立健全规定体系,通过数据安全、有序地流通,推动资本、人才、技术等因素的一直重组和优化,造成多方参与者良性互动、共建共治共享的数据流通模式。 第四、数据治理的行为抉择在于让数据动起来、用起来,通过数据的共享、凋谢、经营、开发、交易等多元化形式,促成数据的交融碰撞和高效流通,激活数据因素潜能,实现数据因素价值充沛开释。 第五、数据治理的条件环境以国家、企业和集体信息安全为前提,通过数据的分类分级管控,严格的权限管理机制、欠缺的组织架构和监督评估体系,防备化解数据危机。 Part . 2 明确数据治理的六大思维数据治理涵盖数字世界和物理世界,构建数据治理体系必须要有正确的方法论来予以领导。《报告》对数据治理基本思路进行演绎,提出“战略思维”“精准思维”“零碎思维”“辩证思维”“翻新思维”“底线思维”六大思维形式,造成数据治理的思维视角。 ❖ 战略思维是顶层,聚焦构建数据治理的生态体系; ❖ 零碎思维是主体,聚焦协同治理体制机制; ❖ 辩证思维和翻新思维是支柱,别离聚焦数据因素市场个别法则和前沿技术、先进文化; ❖ 精准思维是切入点,聚焦数据资源品质治理; ❖ 底线思维是根底,聚焦爱护国家平安和民众权利。 1. 战略思维数据治理波及政治、经济、社会、技术、文化等方方面面,具备非常复杂、广阔的视域。应从寰球倒退策略层面登程,立足经济社会倒退基本和寰球数字化改革大局,着眼数字经济时代的久远倒退,欠缺相干战略规划、政策规定与法律体系,构建数据治理生态体系,造成公共价值指标共同体。 2. 精准思维数据只有流动起来能力发明价值,数据治理须要促成数据在不同主体之间有序流动,而数据流通的前提,须要建设对立标准的数据规范,并建设在数据品质牢靠的根底上。低质量甚至谬误的数据,会影响数据流通,并最终影响价值的开掘。 3. 零碎思维数据治理过程中,该当从整体性、系统性着手,突破部门壁垒,搭建凋谢共享平台,买通国家、行业、组织等多层次,整合政府、企业、集体等多利益相干方的力量,从政策、规范、技术、利用等多维度进行综合考量,构建共建、共享、共治的数据治理环境。4. 辩证思维数据治理是无效的切入点,要从辩证法和认识论的角度动手,深刻理解数据资源的粗浅外延、网络空间的外在实质,辨析虚拟空间与事实社会、平安爱护与凋谢利用的辩证统一关系,演绎和总结数据治理的个别法则,推动数据由资源向因素转化,最大水平上开掘数据价值。 5. 翻新思维被动把握数据资产、数据经纪人、数字人等各种新概念、新理念、新利用、新需要,勇于探索使用新机制、新技术、新伎俩来防备和化解面临的新危险,聚焦治理形式、协调机制、组织文化等方面改革翻新,踊跃推动数据治理体系建设。 6. 底线思维数据是集体和企业的重要资产,是国家重要的策略资源,成为数字经济倒退的重要驱动力。要重视防危险,做好危险评估,致力排除危险因素,增强后行先试、迷信求证,健全监管体系,进步监管能力,筑牢安全网。

November 25, 2022 · 1 min · jiezi

关于数据:主数据的定义与识别

契机在为某客户提供咨询服务的过程中,客户提出了心愿将肯定业务范围内共用的数据进行抽离与积淀,使该局部的数据标准化、共享化。有教训的同学会比拟敏锐的捕捉到客户遇见了”数据孤岛“问题。这类问题在90%的企业中,都是绕不开的一座大山,或早或晚。它与其余两座大山-业务孤岛、组织孤岛独特”助力“企业实现“信息孤岛”。通过与Account Owner以及客户的一些简略沟通后,发现企业曾经基于“数据中台”的概念实际了一些浅层数据治理工作。“数据中台”同样可能实现数据标准化与共享化,但其实现的数据共享化实质是“数据价值”的共享,即通过若干数据挖掘伎俩将数据价值提炼,为业务提供价值共享服务。而客户关注的,是针对“数据状态“进行治理和生产的能力的共享。这里也就引出了”主数据“的概念。 当咱们在聊主数据时候,聊的是什么?我尝试和敌人们探讨过“主数据“是什么。- 根底数据、共享数据集、MDM零碎、ETL等词汇层出不穷。收敛一下,这些词汇都形容了主数据的某一个性或技术手段。看看一些规范是如何形容它的。 《DMBOK2.0》 Master Data is “the data that provides the context for business activity data in the form of common and abstract concepts that relate to the activity. It includes the details (definitions and identifiers) of internal and external objects involved in business transactions, such as customers, products, employees, vendors, and controlled domains (code values)” (DAMA, 2009)《数据资产治理实际白皮书(5.0版)》 主数据(Master Data)是指用来形容企业外围业务实体的数据,是逾越各个业务部门和 零碎的、高价值的根底数据。《华为数据之道》 主数据是参加业务事件的主体或资源,是具备高业务价值的跨流程和跨零碎重复使用的数据。可见,“主数据”是在形容一种非凡的数据资产汇合。 如何定义想定义某个概念,咱们须要先摸索该概念之所以须要被利用的驱动因素,通过驱动因素辨认概念所具备的行为,从而进行定义。 驱动因素满足组织的数据需要:多个组织多个业务畛域须要拜访雷同数据集,并且他们都置信这些数据集是高价值的、最新的、统一的。治理数据品质:因为数据的不统一、品质问题和差别,导致决策谬误和丢失机会。升高数据集成老本:因为没有指标数据集,新数据源集成进一个很简单的环境中老本会高很多,这减少了因对要害实体的定义和辨认形式的变动而产生的额定老本。升高危险:同样在简单集成环境中,没有一份繁多的稳固的要害数据,可能会导致各数据源信息传递的过程中产生信息失落或信息失真等问题,从而减少业务危险。定义主数据主数据是在企业中被多个组织多个业务畛域共享的;繁多可信的;高价值的;绝对稳固不会常常产生变更的数据汇合。如何辨认企业中的数据状况可能异样简单,这外面有因为业务简单导致的数据类型多的状况,也有因为业务量级导致的数据量级大的状况。量级大以致数据处理技术简单,类型多以致数据常识负载大。 辨认主数据,咱们须要将关注点放在如何在大量的数据常识中找到主数据对应的常识。 关注点拆散,咱们先将企业的数据做一个竖向与横向的拆散。 竖向拆散的是企业数据分类,横向拆散的是企业数据分级。 ...

November 20, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第10期

01概述 2022.9.22共发现匿名网络资讯信息127,092条;最近7天共发现匿名网络资讯信息1,046,995条,增长114%;最近30天共发现匿名网络资讯信息3,291,264条。 D&D评论:昨天监测到美国多所学校的学生数据泄露,过来几年内,黑客仿佛“盯上了”美国的学校,始终把学校视为惯例攻打指标。他们窃取个人信息,再把数据打包发售。但学校素来没有明确的法律规定,在黑客窃取学生信息后该如何解决。这些数据可用于社会工程、、网络钓鱼、欺骗,甚至巧取豪夺,通常被认为是极其敏感的信息。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. OJR高中学生数据泄露 波及国家/组织:美国/Owen J. Roberts High School售卖人:mud样例数据:小局部数据量:1,832条详情:Owen J. Roberts高中的整个学生目录已被导出,而后当初正在泄露。这是通过侵入老师的帐户来实现的。泄露信息:全名、被告人、S、年龄、性别、年级、次要监护人全名、电话号码。泄露日期:2022 年 9 月 22 日。价格:无 2.2. 韩国3240万+具体数据库波及国家/组织:韩国售卖人:zerocool55样例数据:大量样例数据量:8.1G详情:数据蕴含了43个站点(公司、医院、度假村等)的总计3240万数据。数据文件类型:CSV、XLSX、TXT、SQL。数据内容:姓名、SSN、电子邮件、城市、电话、Gendar、出生日期价格:无 2.3. 夏洛茨维尔市公立学区数据泄露波及国家/组织:美国/Charlottesville City Public Schools售卖人:mud样例数据:残缺数据量:5,981条详情:洛茨维尔市公立学校的整个学生/教职员工名录泄露信息:全名、电子邮件地址、(局部)电话号码(有时)、问题/工作、毕业年份、学生证号码、学校。泄露日期:2022年 9 月 22 日。价格:收费 2.4. 韩国某签证网站用户数据32万条波及国家/组织:韩国售卖人:匿名样例数据:大量样例数据量:323,188条详情:韩国某签证网站用户数据32万条,都是一些出国的有钱人,前几天(2022年9月20号左右)刚转进去的新数据,蕴含了从2015年到2022年9月的所有数据。数据字段:增加工夫、姓名、出生日期、地址、地址1、地址2、邮箱、电话号码1、电话号码2。价格:420美元 2.5.【7万】Gmail账号密码收费提供波及国家/组织:美国/google售卖人:The_Hexxx样例数据:残缺数据量:71,000条详情:残缺的账号密码价格:收费 03国内情报监测到近期我国台湾省的公民数据泄露频繁。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第9期

2022.9.21共发现匿名网络资讯信息89,537条;最近7天共发现匿名网络资讯信息982,116条,增长79%;最近30天共发现匿名网络资讯信息3,171,925条。 D&D评论:印度尼西亚议会在这个东南亚国家遇到几起违规事件后的几个月,提出了一项数据隐衷法作为其第一项动议。9月20日,印尼通过了曾经审议了一年多的集体数据保护法案,成为东南亚地区继新加坡、马来西亚、泰国和菲律宾之后第五个对集体数据保护进行专门立法的国家。有了这项法律,数据处理人员可能会因为泄露或滥用私人信息而被判处长达5年的监禁。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. 2K.COM数据库泄露波及国家/组织:美国/2k售卖人:slideywidey样例数据:小局部数据量:4,000,000条详情:销售2k.com 反对的数据库。这是 2K 游戏反对的数据库,它包含 id、用户名、电子邮件、zendesk_email、real_name、平台。它包含 400 万多行。 不包含明码。价格:5000美元 2.2.伊朗法医钻研核心数据库泄露波及国家/组织:伊朗售卖人:Th3Gh0st样例数据:大量样例数据量:100 M详情:伊朗法医钻研核心被黑,泄露的数据库:100 Mb SQL。价格:无 2.3. SERASA EXPERIAN上千万的邮件数据泄露波及国家/组织:巴西售卖人:bash样例数据:大量样例数据量:158,020,691条详情:样例数据约占电子邮件总数(158,020,691)的6.3%(10,000,000)。攻击者标识目前有两个表能够进行关联查问,表名:dbo.CONTATOS\dbo.EMAIL_NEW。价格:无 2.4. 26M印度尼西亚共和国国家警察数据波及国家/组织:印尼售卖人:MEKI样例数据:大量样例数据量:26M详情:蕴含所有印度尼西亚国家警察的重要文件,包含整个印度尼西亚的警察成员数据。价格:无 2.5. app.wasapbro.net 20万数据泄露波及国家/组织:印尼/wasapbro.net售卖人:02ST样例数据:大量数据量:500,000条详情:File informationCompressed file size............... 300MBOriginal file size............... 680MBFormat file................... JSONTotal data.................. +200kCompromised data.......... account_id,author_id,date,with_chat价格:无 03国内情报监测到近期局部灰色娱乐网站用户信息泄露,呐喊宽广网友爱护好本人的隐衷信息。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第8期

01概述 2022.9.20共发现匿名网络资讯信息279,736条;最近7天共发现匿名网络资讯信息1,000,360条,增长21%;最近30天共发现匿名网络资讯信息3,090,597条。 D&D评论:近期美国、印度、俄罗斯的数据泄露趋势回升。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. 42k Airtel Paybank 去哈希波及国家/组织:印度/Airtel Paybank售卖人:0x1ucif3r样例数据:残缺数据量:42,000条详情:印度领取银行AirtelPayments Bank,泄露数据字段:账号、邮箱、明码。价格:收费 2.2.5000万-领有挪动和设施ID的美国消费者信息波及国家/组织:美国售卖人:BoredApe样例数据:大量样例数据量:50,000,000条详情:User_ID,User_Email,User_Name,User_Surname,User_City,User_State,User_Zip_Code,User_Mobile_Number,User_Device_ID价格:无 2.3. 盗用迪士尼+ 117个帐户波及国家/组织:美国/迪士尼售卖人:coc69样例数据:残缺数据数据量:117条详情:本数据是收费提供得117个迪士尼账号密码,有效期应该不长。价格:收费 2.4. Gemini.com数据库5.7m波及国家/组织:Gemini.com售卖人:ZachXBTSucks样例数据:大量样例数据量:5.7M详情:Gemini是一个优雅的加密产品,泄露的数据:电子邮件地址、电话号码。价格:收费 2.5. 印度paytm用户数据800万xlsx格局波及国家/组织:印度/paytm售卖人:GDlzj021216样例数据:大量数据量:8,000,000条详情:印度paytm用户数据800万xlsx格局,字段:名字,电话,邮箱,证件等,具体看图。价格:35美元 03国内情报近期是开学季,监测到的各类注销信息很多,心愿学校能够爱护好学生及家长的隐衷信息。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第7期

01概述 2022.9.19共发现匿名网络资讯信息169,942条;最近7天共发现匿名网络资讯信息763,609条,增长-11%;最近30天共发现匿名网络资讯信息2,895,057条。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. x100 POF USA ACCOUNTS波及国家/组织:美国售卖人:Franc0样例数据:残缺数据量:100条详情:数据字段:姓名、电话、邮箱、明码。价格:收费 2.2.ny-cosplay.com 5.61TB付费内容泄露波及国家/组织:美国/ny-cosplay.com售卖人:w0ngh4x0r样例数据:有数据量:5.61TB详情:有残缺的下载链接。价格:收费 2.3. 20万条美国购物用户账户明码数据波及国家/组织:美国售卖人:gongming样例数据:有数据量:20万条详情:20万条美国购物用户账户明码数据,有大量截图样例。价格:18美元 2.4. Qraved 数据库 - 泄露波及国家/组织:印尼售卖人:PieWithNothing样例数据:残缺数据量:1,000,000万详情:大概在2021 年 7 月,印度尼西亚餐厅网站Qraved遭逢数据泄露,影响了 100 万会员。这次攻打导致数据泄露,包含全名、电子邮件地址、出生日期、电话号码和存储为 MD5 哈希值的明码。泄露的数据:全名、电子邮件地址、出生日期、电话号码、明码。价格:收费 2.5. 50万账号密码泄露 COMBOLIST、 NETFLIX、 MINECRAFT、 VPN、 SPOTIFY、 DATING波及国家/组织:美国/ COMBOLIST、 NETFLIX、 MINECRAFT、 SPOTIFY、 DATING售卖人:ShadowDance01样例数据:残缺数据量:500,000条详情:数据字段:邮箱,明码,有残缺的数据能够下载。价格:无 03国内情报监测到近日线下生产记录、物业出入注销数据频繁泄露,接触数据的人永远是最难防备的破绽。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第6期

01概述 2022.9.18共发现匿名网络资讯信息70,859条;最近7天共发现匿名网络资讯信息626,636条,增长-32%;最近30天共发现匿名网络资讯信息2,752,512条。 D&D评论:最近几日流出的美国数据增多,少数是收费提供下载,但单次泄露数据量不大。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. 印度工人140万数据库(2022.9)姓名+电话+银行波及国家/组织:印度售卖人:b1ey44gool样例数据:有数据量:1,400,000条详情:数据字段:姓名、电话、银行。价格:0.01BTC 2.2.来自 FLORIDA.GOV 的 20M+ 佛罗里达州公民数据库波及国家/组织:美国/FLORIDA.GOV售卖人:0ctalypsu样例数据:有数据量:20,826,172条详情:Total........................ 20,826,172Breach date.................. Sept, 2022Format....................... CSVCompromised data............. DOB, SSN, Full Name, Birthplace, Gender, Age, Address, Age etcCountry...................... FloridaFile sharing................. Anonfiles.com价格:1000美元 2.3. 巴西会计公司Balan-Set FULL Database | 超过700家客户波及国家/组织:巴西售卖人:elvisec样例数据:有数据量:2.8GB详情:黑客取得了https://balan-set.com的残缺数据库,这是一家巴西会计公司,领有来自巴西各地的 700 多家客户。包含的内容(请记住,客户都是巴西公司,而不是随机用户): 1,288 个客户电子邮件地址749 个客户电话号码14,023 个街道地址24,049 个员工姓名15,526 个卡号信息19,663 个员工出生日期71 个不同巴西公司的明文管理员明码对于公司员工的更多随机信息(兵役、驾照、教育、出世中央等)很多人的很多人。价格:无2.4. 150K [USA] UHQ 邮箱和明码泄露波及国家/组织:美国售卖人:The_Hexxx样例数据:残缺数据量:150,293条详情:泄露字段包含邮箱和明码,有残缺的数据能够下载。价格:无 2.5. 75k [USA EU MIX] 美国某游戏商城账号密码波及国家/组织:美国售卖人:Tifoyune样例数据:残缺数据量:75,959条详情:数据字段:邮箱,明码,有残缺的数据能够下载。价格:无 03国内情报监测到国内近日呈现了一批学生和家长的数据以及物业数据,大多数均已线下表格模式泄露。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第5期

01概述 2022.9.17共发现匿名网络资讯信息157,427条;最近7天共发现匿名网络资讯信息488,414条,增长-42%;最近30天共发现匿名网络资讯信息2,688,556条。 91年前的明天,日军炮轰北大营制作了震惊中外的九一八事变。防空警报倏然拉响,九一八事变成为中国人民抗日战争的终点,并揭开了世界反法西斯战争的尾声。厌战必亡,忘战必危,又到9月18日,全国多地都将拉响防空警报、敲响警世钟警报,为历史而鸣,莫忘落后就要挨打,这是令咱们刻骨铭心的教训。 02国内热点本章仅选取五个日本数据泄露事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. 日本公民信息19977条波及国家/组织:日本售卖人:匿名样例数据:有数据量:19,977条详情:数据字段:姓名、姓名、出生日期、性別、地址、座机电话、手机号码、邮箱、邮箱2、毕业学校、学历。数据为excel格局,数据一共有19977条,座机号码有5100条。价格:15美元 2.2. at-cad.com 泄露 2 万日本人个人信息波及国家/组织:日本/at-cad.com售卖人:TakahiroKarasawa样例数据:有数据量:200,000条详情:泄露的数据内容:姓名、发音、出生日期、性别、地址、家庭电话号码、手机号码、电子邮件地址、手机电子邮件地址、就读学校、上次教育泄露日期:2022 年 8 月 11 日。价格:无 2.3. 400 万个日本社交平台应用程序数据库波及国家/组织:日本售卖人:zerotrustrobot样例数据:有数据量:2,088,887条/706.4MB详情:包含姓名、明码、电子邮件等。价格:无 2.4. 日本影像店用户数据77万条波及国家/组织:日本/DiskUnion售卖人:kulss1111样例数据:有数据量:770,000条详情:2022年6月日本唱片连锁店和音乐分销商DiskUnion数据泄露,数据蕴含70.2万用户内容以明文模式存储的电子邮件地址、全名、家庭住址、电话号码和明码。价格:200美元 2.5. 日本购物网站数据70万条含姓名邮箱电话波及国家/组织:日本售卖人:匿名样例数据:大量样例数据量:701,039条详情:新数据日本音乐唱片网站数据70万条含姓名邮箱电话701039条,数据最新为2022年6月24号,新数据先到先得。数据字段:明码,姓氏,名字,姓氏(片假名),名字(片假名),邮编,省,城市,地址1,地址2,电话号码,邮箱。(有的字段里无信息)。价格:800美元 03国内情报监测到昨日波及国内到日、到美留学生数据贩卖情报有所增加。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第4期

01概述 2022.9.15共发现匿名网络资讯信息62,213条;最近7天共发现匿名网络资讯信息488,414条,增长-11%;最近30天共发现匿名网络资讯信息2,390,134条。 D&D评论:国内方面,近期印度尼西亚依然是数据泄露重灾区,另外最近俄罗斯泄露的数据增多,国内方面,近期医疗行业和生物/医药工程方面泄露的数据较多。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. hr.com 200万数据泄露 波及国家/组织:hr.com人力资源售卖人:dior样例数据:有数据量:2,070,000条详情:电子邮件、名字、姓氏、邮编、城市、街道、手机、家庭电话、职务。价格:1700美元 2.2. 美国房主信息泄露波及国家/组织:美国售卖人:Breacheduserpro样例数据:有数据量:153,000,000条/189GB详情:FirstName,LastName,AddressLine1,City,State,PostalCode,AddressHouseNumber,AddressStreetName,AddressLine2,UrbanizationName,StateName,CountryCode,Latitude,Longitude,AddressTypeCode,CarrierRoute,CensusKey,CensusBlock,CensusTract,PlaceCode,etc...。价格:3000美元 2.3. 俄罗斯小额贷款(2百万记录)波及国家/组织:俄罗斯售卖人:Romulus样例数据:有数据量:2,088,887条/706.4MB详情:createdOn、firstName、middleName、secondName、mobilePhone、email、birthDate、maritalStatus、kidsNumber、education、company、jobTitle、snils、documentSeries ,documentNumber,departmentCode,issuedOn,issuedBy,expiresOn。createdOn 从 09.09.2019 到 03.09.2022 不等(数据库蕴含过来三年的数据)。价格:2比特币(以后约4万美元) 2.4. 澳大利亚政府 NDIS (国家残疾保险打算)波及国家/组织:澳大利亚售卖人:Addka72424样例数据:有数据量:12000条详情:2022年5月,澳大利亚政府 NDIS(国家残疾保险打算)的客户管理系统遭逢数据泄露,随后被公布到在线黑客论坛。CTARS 云平台被护理提供者用来记录无关 NDIS 参与者的信息,并且通常蕴含敏感的医疗信息。受影响的数据包含超过 12,000 个独特的电子邮件地址、理论地址、姓名、出生日期、电话号码以及与患者情况和医治相干的数据。受损数据:出生日期、电子邮件地址、性别、姓名、明码、集体衰弱数据、电话号码、理论地址、称说、用户名。价格:无 2.5. MEDWIN出版商数据库波及国家/组织:MEDWIN出版商售卖人:Juelol样例数据:有数据量:1.6GB详情:MEDWIN PUBLISHER DATABASE for sale, 1.6 GB database includes emails:names:Telephone numbers etc.价格:无 03国内情报监测到昨日国内泄露数据,波及医院、医生、生物/医药工程、学校,等数据。

October 26, 2022 · 1 min · jiezi

关于数据:00SECDD数据泄露报警日报第3期

01概述2022.9.14共发现匿名网络资讯信息107,781条;最近7天共发现匿名网络资讯信息547,741条,增长-30%;最近30天共发现匿名网络资讯信息2,335,751条。 D&D评论:国内方面,近期对亚洲攻打和开释数据泄露的信息有所增加,次要包含印度尼西亚、马来西亚、日本、越南、泰国、中国等,此外发现有攻击者批量发售数据(波及约1200个数据库,其中含数十个国内数据库,请关注)。 02国内热点本章仅随机选取五个境外事件或波及到其余国家和驰名海内机构的事件。以下为监测到的情报数据,D&D零碎不做真实性判断与检测。 2.1. 从2021年1月到6月,1200个数据库受到毁坏波及国家/组织:泛滥国家售卖人:Mastiff样例数据:有数据量:1200个数据库/10GB详情:我留神到人们试图公布我的凋谢数据汇合,但提交了一个蕴含 670 个数据库的旧版本。我不再从事这个我的项目,但我正在为那些可能依然感兴趣的人公布数据。凋谢数据是我在 2021 年 1 月至 2021年 6 月期间入侵的 1200 个数据库的汇合。超过 10 GB 的数据。价格:收费 2.2. 460万越南银行全格局数据波及国家/组织:越南银行售卖人:gongming样例数据:有数据量:460万详情:460万越南银行全格局数据,信息蕴含custName、Citizent、ID、Birth、City、Address、Mobile、Balance。价格:18美元 2.3. 66GB 印度尼西亚通信和信息技术部波及国家/组织:印度尼西亚售卖人:toshikana样例数据:有数据量:66GB详情:众神花园口头,这个帖子是基于2个喝醉的人的意见,这是针对印度尼西亚所有部门的,写的可能有很多谬误。咱们作为toshikana的官员发言,此时咱们不反对任何反动,也不参加任何反动,咱们忠于团体和国家。价格:无 2.4. 印度尼西亚1.25GB数据库波及国家/组织:印度尼西亚售卖人:dirzam样例数据:有数据量:1.25GB详情:[INDONESIA] KEMENKUMHAM.GO.ID 1.25GB DUMP DB FREE。价格:收费 2.5.2600万泰国公民数据波及国家/组织:泰国售卖人:johnhana样例数据:有数据量:2620万公民数据详情:Id,Name,Phone_no,Address,Id_Card,M_S,Birth,Gender价格:无 03国内情报监测到昨日国内泄露数据,波及银行、股民信息、学生和家长信息、某些省份数据等。

October 26, 2022 · 1 min · jiezi

关于数据:领军EASM国内发展-零零信安入选Gartner-2022推荐厂商

近日,国内出名调研机构Gartner正式公布了《Hype Cycle for Security in China 2022》报告,报告联合中国平安市场本身特点,最新平安技术的翻新落地,给予中国企业建设平安提供选型参考。作为国内首家、也是目前惟一以内部攻击面治理(EASM)技术作为外围方向的代表厂商,北京零零信安科技有限公司入选报道,被列为攻击面治理(ASM)举荐厂商。 Gartner在报告中指出,随着法律法规的减速欠缺,以及数字化过程一直提速,网络安全对于中国企业而言从未如此重要,爱护企业的数字资产平安已成为一项要害工作。Gartner认为,中国外乡的平安翻新,将更加适宜外乡企业的平安策略和安全控制。 Gartner此前公布2022年七大平安趋势时将“攻击面扩张”列为首要危险,这是基于技术利用和混合办公等趋势的察看。Gartner认为,网络架构和相干攻击面越来越广,越来越简单,组织必须超过传统的安全监控、检测和响应办法,以治理更宽泛的平安威逼。ASM就是为了解决这一危险的全新技术创新。 报告连续此前对ASM次要能力的定义,它蕴含:网络资产攻打外表治理(CAASM)、内部攻打外表治理(EASM)和数字危险爱护服务(DRPS)。报告认为,其中每一项技术点都针对平安团队的具体指标,即从外部和内部IT资产到第三方资产、“影子IT”零碎取得更好的可见性、治理和管制,“影子IT”零碎和数字危险。 组织的数字资产能够是外部的和内部的,并且两者都形成了数字危险。零零信安所处EASM技术赛道,即以内部攻击者视角来扫视企业本身的危险裸露面。随同着零零信安EASM的落地利用,将帮忙企业继续评估内部危险,并提供晚期威逼预警,从而为企业缩小攻击面提供无力抓手。EASM产品和服务的利用,也被视为主动防御理念的落地实际。 此次报告还提及了一些新的驱动力察看,这强调了ASM在当下和将来利用的后劲。如报告认同ASM在“进攻演习”当中的高价值作用,从而提前梳理本身薄弱环节。同时,随着智能制作、智能医疗和智能城市的倒退,报告认为ASM须要从纯IT场景扩大到各种类型的网络物理资产和新兴技术畛域。 报告还强调,ASM不仅是一个数据平台,它也是一个能够无效地标准化和整合组织的资产信息和数字危险的剖析和合作资源。从ASM中取得的可见性须要进一步的解释和相干剖析,以做出基于危险的决策,并爱护组织免受威逼。Gartner的这一解释,定义了技术实际的进一步价值。 多项产品和服务落地公布 零零信安领军EASM国内倒退 作为国内EASM赛道的领军企业,零零信安以大数据平面攻防、以攻促防、主动防御、力求获得空谷传声成果的理念,为客户提供基于攻击者视角的内部攻击面治理技术产品和服务,其能力笼罩企业信息系统(IP设施、子域名、敏感目录、组件、云端、影子资产、边缘资产)、挪动利用、M&A和供应链、破绽和口令、文档和代码泄露、邮箱和人员列表、企业VIP和管理员、全网情报等危险敞口。 零零信安目前已将EASM实现了产品服务化落地,零零信安旗下国内首个在线EASM平台0.zone公布以来,注册用户已超过5万,随着企业越加器重网络安全与数据安全的建设工作,越来越多的企事业单位的平安运维人员正在应用零零信安内部攻击面治理技术建设本身的网络安全与数据安全。 该平台能够专一于为甲乙方企业提供00SEC-E&E内部攻击面数据服务。指标是在平安治理、攻打检测、破绽治理三个场景下,为SOAR、SOC、SIEM、MDR、平安运维(服务);IDS、IPS、NDR、XDR、蜜罐、 CTI、应急响应团队(服务);破绽管理系统、扫描器、 CAASM、BAS、危险评估(服务)、浸透测试团队(服务);等产品和服务提供根底数据能力,让国内所有平安产品具备内部攻击面/裸露面检测能力。 零零信安还在前不久全新公布了两款EASM细分能力产品,其中00SEC-D&D数据泄露报警零碎将为监管侧、企业用户提供全网数据泄露可视性,该零碎可对数千个泄露源进行7*24小时监控,通过对海量数据汇聚和数据智能剖析,让客户第一工夫获取是否存在数据泄露的状况产生,从而为前期的研判、应急提供撑持。 另外一款EASM细分能力产品00SEC-O&S数据泄露预警系统则能够从内部视角精准洞悉企业全面的数据泄露危险面,残缺笼罩客户继续倒退的数字脚印,从而为企业进行提前的技术干涉提供线索撑持,防止进一步的数据泄露事件产生。 《Hype Cycle for Security in China 2022》报告对用户选购ASM服务时提供了一些倡议,其中强调了平安团队正在治理着不同的平台,而ASM技术是否以最佳实际从而实现平安解决方案的扩大,以及能力的集成,Gartner认为这是其技术利用的价值体现,并认为这十分重要。显然,想要实现上述指标,将齐全取决于相干ASM厂商的技术成熟度,以及其最终落地产品的生态容纳度。显然,这也是零零信安可能入选举荐的重要理由。

October 26, 2022 · 1 min · jiezi

关于数据:零零信安以外部攻击面管理开启数据安全新视角

某平安机构针对寰球400余名业余平安管理人员的一次调研显示,他们所在组织在过来的一年工夫里有80%曾遭逢重大安全事件,当面临这些安全事件时,他们最放心的是因事件造成的在线业务停摆和数据泄露。其中前者体现是间接的,业务停了必然带来经济损失,后者就没有那么容易了,这取决于数据的重要性。 这次调研中有着超过1/4的受访人员明确示意放心组织存在数据泄露,但他们苦于没有把握明确的证据来证实本身的放心。出于对数据泄露的放心是全方位的,比方有一部分参加调研的企业正在踊跃拥抱云原生架构,而平安管理人员尚未齐全相熟对应的平安动作。同时传统的IT架构面临的危险也没有齐全解决。 就在前不久,零零信安公布新品“00SEC-D&D 数据泄露报警零碎”,该新品从内部攻击面治理视角解决了组织本身难以发现是否存在数据泄露的难堪现状,明天咱们将视角转到产品自身,来看一下它在具体部署时的应用价值。 以EASM视角第一工夫报警数据泄露 零零信安00SEC-D&D 数据泄露报警系统核心性能是单一化的,仅限于从内部攻击面治理视角提供组织的数据泄露报警工作,该零碎通过对数千个泄露源进行 7*24 小时监控,通过智能数据分析,提供组织外部各级敏感数据全网泄露可视,让企业用户第一工夫获知是否存在数据泄露的状况产生,从而为企业用户争取最佳应急工夫。 出于种种原因,组织无奈零碎发展对全网范畴内的可能存在的数据泄露监测工作,借助该零碎的被动查问性能,组织能够精准取得基于自定义的外部敏感数据的全网泄露状况,并且零碎每日一直会集全网最新海量数据泄露信息,从而满足产品利用时效性。有了该零碎的帮忙,无论泄露数据暗藏在寰球任何网络,用户均可平安地且第一工夫同步获悉相干信息,为组织争取最佳应急工夫。 因为该零碎波及多版本部署,如对应企业用户、监管单位、行业用户等不同的利用需要,所以该零碎所提供的具体权限各不相同,如企业用户只能查问本身的数据泄露状况,对于监管单位而言,在其本身权限范畴内零碎权限也将适当凋谢。这一功能化的能力由零碎定制场景化智能标签筛选来实现,此外零碎还具备高级查问性能。 出于合规因素考量,该零碎自身所获取的泄露数据报警信息并不波及具体的泄露数据,零碎仅通过智能数据分析提供数据泄露的对应关联信息。但其关联信息仍能够进一步为应急提供肯定的技术撑持,辅助企业更好地制订应急策略,比方提供具体的泄露数据交易信息等。 该零碎在产品架构设计上共分为采集层、引擎层、数据层、展现层,架构设计上不同层级各司其职,并通过一直地降级继续晋升产品利用体验。零碎在技术方面难点是解决了全网数据的智能剖析与关联展现,在D&D引擎主动解决零碎、D&D智能数据荡涤零碎、D&D数据泄露可视零碎的合作配合下,可精确捕捉“报警信息”。 零零信安00SEC-D&D数据泄露报警零碎作为EASM延长利用,其除了能够第一工夫监测寰球各级网络中的数据泄露情报,零碎还提供了丰盛的威逼情报订阅服务,组织可应用该服务,第一工夫捕捉可能威逼企业业务零碎的攻打情报,从而提前化解可能存在的网络攻击威逼。  00SEC-D&D产品利用场景/以“空谷传声”理念服务客户00SEC-D&D数据泄露报警零碎遵循零零信安“空谷传声”理念,零碎独立于业务零碎之外独立运行,即采即用,且提供多种部署和单干模式:硬件、软件、SaaS服务、数据订阅、共建平台、OEM等。该零碎在具体部署利用时,咱们分享了以下几种场景:01企业应用场景● 相干场景:企业一旦产生数据泄露会对本身的名誉、客户满意度、市场占有量、股价以及企业合规等产生负面影响。企业除了须要对本身在线业务数据、外部商业秘密、员工数据等可能呈现的泄露状况进行监控,对于数据泄露事发后如何评估影响面、筹备应急策略也成为企业面临的一大考验。如:某主营物流/订餐软件企业发现外部数据接口裸露,存在未受权拜访记录,除紧急排查外,还需通过数据泄露预警系统时刻监控全网是否存在数据售卖情报信息。一旦发现交易情报则及时通告、报警解决,以便将损失升高至最小范畴。● 解决方案:企业业务数据或用户数据、员工数据泄露会引发一系列安全事件,将面临下级监管部门通报、巨额罚款的危险。00SEC-D&D 数据泄露报警零碎的危险舆情预警性能不仅可能为企业提供 0day、勒索蠕虫、免杀病毒、定向攻打情报等预警信息;还能为企业第一工夫发现全网售卖相干信息,帮助企业及时报警、上报无关单位,及时告诉受影响用户采取措施等,辅助企业更好地制订应急策略。02政府监管场景● 相干场景:省市监管部门监控信息通常不足无效工具,尤其对于在寰球网络立功生态系统的监控工作执行上会绝对艰难且效率难以进步。波及辖区内企业/组织机构数据上云后的泄露状况,如:某市某单位T级数据泄露事件,被数十万美元被售卖;某企业/机构千万量级身份证、手机号、行程等数据泄露;包含辖区内波及医疗、出行、快递、酒店等行业企业的公民个人信息泄露、被贩卖等都在无关部门管辖范畴内。● 解决方案:省市监管部门对于网络立功生态系统的监控、对辖区内单位机构和企业等数据泄露情报的采集与剖析工作,是影响辖区治安和反诈工作的重要影响因素。零零信安00SEC-D&D数据泄露报警零碎可依据关键词从全网提取被泄露信息、攻打情报、跟踪交易信息,帮忙监管部门发现网络交易情报(如辖区内相干企业/单位泄露数据、知识产权交易、攻打情报等)信息、告诉涉事单位/企业及时应急与整改。03行业监管场景● 相干场景:行业监管对其下属单位具备监督与管辖责任,随着数字时代的降临,监管单位对于行业内的数据安全监管工作也面临着微小挑战。针对金融债券、电信通信等行业可能呈现的数据泄露状况,以及后续可能面临的大数据钓鱼欺诈等影响,监管部门都须要对其进行长期监控、应急处理以及施行严格处罚。比方2021年境外黑客在某匿名论坛上发帖,以8.8BTC价格售卖国内某银行1679万笔数据。相干银行紧急排查后及时发表声明称“确认与该行实在客户信息不符。该行不存在黑客入侵,不存在客户信息透露,已就此报案。”● 解决方案:00SEC-D&D数据泄露报警零碎可为行业监管单位及时发现匿名论坛中售卖的企事业单位业务数据、商业秘密等情报信息,第一工夫收回告警告诉,为监管单位/企业部门争取应急工夫。同时也可为行业监管提供本行业或其余任何维度的数据泄露动静,配合相干部门严厉打击伪造贩卖公民信息、歹意辟谣扰乱金融秩序等的不法行为。04窃密/科研单位利用场景● 相干场景:窃密/科研单位把握着大量机密信息与研究成果,一旦呈现防护机制生效的状况容易泄露大量信息,难以辨认且难以追究。如科研设计部门寄存高级秘密的利用零碎/设施可能受到内外部攻击者入侵,窃取机密信息,或是其承接的窃密我的项目外泄,并通过隐秘渠道进行售卖,获取巨额利润。再比方高校同时把握着泛滥师生集体数据,一旦遭逢数据泄露容易使人员陷入电信欺骗、套路贷等陷阱当中。● 解决方案:局部窃密/科研单位平安建设绝对单薄,不足无效跟踪查问的机制,容易导致各种泄密行为无奈辨认,同时也不能为采取肯定的平安治理措施提供根据。一些边界网络不可避免会呈现疏漏,具备不良希图的境外权势也可能趁机通过薄弱点入侵外部零碎、窃取机密信息。00SEC-D&D数据泄露报警零碎可针对窃密/科研单位文档图纸、人员信息等泄露情报进行准确跟踪,一旦呈现泄露情报即刻告警告诉,为相干单位争取最佳应急工夫、及时溯源等。

October 26, 2022 · 1 min · jiezi

关于数据:技思广益-腾讯技术人原创集双周优秀作品回顾vol03

【技思广益 · 腾讯技术人原创集】是腾讯云开发者社区为腾讯技术人与宽泛开发者打造的分享交换窗口。栏目邀约腾讯技术人分享原创的技术积淀,与宽泛开发者互启迪共成长。 第3期热门作品曾经诞生啦,欢送社区开发者交换!❤️ 腾讯后盾开发工程师 jhonye 《 大数据架构系列:如何了解湖仓一体 》这十多年大数据技术蓬勃发展,从市场的体现来看基于大数据的数据存储和计算是十分有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止以后449亿美元),另一家以湖仓一体为方向公司Databricks估值或达380亿美元;各大伺机而动的云厂商也纷纷推出本人的数据湖、云数据仓库、湖仓一体产品...... 腾讯云存储团队《 GooseFS 在云端数据湖存储上的降本增效实际 》基于云端对象存储的大数据和数据湖存算拆散场景曾经被宽泛铺开,计算节点的独立扩缩容极大地优化了零碎的整体运行和保护老本,云端对象存储的有限容量与高吞吐也保障了计算工作的高效和稳固。然而,云端存算拆散架构也面临数据本地性、网络吞吐与带宽老本等问题。因而,腾讯云对象存储研发团队进一步演进了近客户侧的减速存储系统 GooseFS 用以解决上述问题。本文将通过一个独特新鲜的客户实际来着重介绍应用 GooseFS 对有大数据/数据湖业务平台的降本增效。本文次要手动合成步骤对多个类型的资源打标签。 腾讯前端开发工程师 ronixiao 《 工具主动生成 自动化测试脚本 》在小程序端应用自动化测试脚本,无非都是加载页面,获取节点,获取事件,获取值,获取data等操作在断言时,也是千篇一律的拿值比拟,自己感觉写一万行也是工作量的事,对本身也没有晋升,也浪费时间。 但自动化在一些场合还是特地有用,批改公共组件办法,减少新的函数,尤其是与原来的逻辑存在交加的状况下,会呈现漏掉查看的问题,导致模块报错呈现白屏,展现不全等问题,在自动化测试交互上,能够防止一些常见容易忘记查看的问题点。 腾讯云原生架构师 imroc 《 【腾讯云原生】在 TKE 上装置 KubeSphere 的踩坑与注意事项 》本文次要介绍在腾讯云容器服务上如何装置KubeSphere及其踩坑与注意事项,心愿能够给对此方面感兴趣的开发者们一些教训和帮忙。 腾讯科技高级工程师 卡卡罗特杨 《 一种加密框架的技术实现 》对互联网公司来说,数据安全始终是极为器重和敏感的话题。波及客户平安数据或者一些商业性敏感数据,如身份证号、手机号、卡号、客户号等个人信息如果被泄露进来,就会引发重大的数据安全危险。 在实在业务场景中,相干业务开发团队往往须要针对公司安全部门需要,自行履行并保护一套加解密零碎,自行保护的加解密零碎往往又面临着重构或批改危险。 因而心愿实现一个通用的敏感数据处理框架,如何在不批改业务逻辑、业务SQL的状况下,透明化、平安低危险地实现无缝进行数据加解密革新。 腾讯后盾开发工程师 刘波《 深入浅出带你走进Redis! 》本文次要讲述Redis的基础知识和常识性内容,帮忙大家理解和相熟Redis;后续通过浏览源码、实际Redis后会总结相干的知识点,再持续分享给大家。 腾讯前端开发工程师 HullQin 《 不必React Vue,只用原生JS,如何开发单页面利用? 》作者本年度在社区公布过文章《咱们用48h,单干发明了一款Web游戏:Dice Crush,加入国内赛事》,介绍了咱们一起做的游戏。本次文章将分享的具体技术计划,正是我开发上述游戏时用到的:不必React Vue,只用原生JS,如何开发单页面利用?欢送围观交换~ 腾讯后盾开发工程师 Luoyger 《 Go栈内存治理 》GO栈基础知识:分段栈、连续性、栈治理......一文带你疾速学习。 腾讯科技高级工程师 卡卡罗特杨 《 一种海量数据安全分类分级架构的实现 》数据分类分级很简单,这种复杂性有业务层面,也有架构层面。本文重点在于述说架构层面的问题。这些问题有些能够提前规划设计,比方存储选型、通用扫描能力等。也有些须要在落地过程中继续优化,比方海量数据辨认,除了对服务自身性能优化,也要对资源老本综合思考。 架构没有好坏之分,只有适合一说。本文所讲述是基于集体在落地过程遇到问题的经验总结。因而重复斟酌,认真梳理写下本文,也是对作者自己工作的一个阶段总结。 腾讯后盾开发工程师 valineliu 《 图说Kafka基本概念 》应用kafka能够对系统解耦、流量削峰、缓冲,能够实现零碎间的异步通信等。在流动追踪、消息传递、度量指标、日志记录和流式解决等场景中非常适合应用kafka。这篇文章次要介绍下kafka中的基本概念。 ...

September 23, 2022 · 1 min · jiezi

关于数据:数据异构方式

数据异构形式何谓数据异构,上周交易部门商品的共事过去做分享,又看到这个词,他的PPT外面是 数据库异构。其实咱们以前做的事件,也是可能称之为数据异构。比如咱们将DB外面的数据持久化到Redis外面去,就是一种数据异构的形式。 如果要下个定义的话:把数据按需(数据结构、存取形式、存取形式)异地构建存储。 常见利用场景分库分表中有一个最为常见的场景,为了晋升数据库的查问能力,咱们都会对数据库做分库分表操作。比如订单库,开始的时候咱们是按照订单ID维度去分库分表,那么起初的业务需要想按照商家维度去查问,比如我想查问某一个商家下的所有订单,就非常麻烦。 数据异构总结起来大概有以下几种场景1:数据库镜像2:数据库实时备份3:多级索引4:search build(比如分库分表后的多维度数据查问)5:业务cache刷新6:价格、库存变动等重要业务消息 数据异构方向在日常业务开发中大抵可能分为以上几种数据去向,DB-DB这种形式,一般常见于分库分表后,聚合查问的时候,比如咱们按照订单ID去分库分表,那么这个时候咱们要按照用户ID去查问,查问这个用户上面的订单就非常不便利了,当然可能使用对立加到内存中去,但这样不太好。 所以咱们就可能用数据库异构的形式,从新按照用户ID的维度来分一个表,像在下面常见利用场景中介绍的那样。把数据异构到redis、elasticserach、slor中去要解决的问题跟按照多维度来查问的需要差不多。这些存储天生都有聚合的功能。当然同时也可能提高查问性能,应答大访问量,比如redis这种抗量银弹。 数据异构的罕用方法1. 完整克隆这个很简略就是将数据库A,全副拷贝一份到数据库B,这样的使用场景是离线统计跑工作脚本的时候可能。缺点也很突出,不适用于持续增长的数据。 2. 标记同步这个是业务场景比较简略的时候,现实情况下数据不会发生改变,比如日志数据,这个时候可能去标记,比如工夫戳,这样当发生故障的时候还可能回溯到上一次同步点,开始从新同步数据。 3. binlog形式通过实时的订阅MySQL的binlog日志,生产到这些日志后,从新构建数据结构插入一个新的数据库或者是其余存储比如es、slor等等。订阅binlog日志可能比较好的能保证数据的一致性。 4. MQ形式业务数据写入DB的同时,也发送MQ一份,也就是业务外面实现双写。这种形式比较简略,但也很难保证数据一致性,对简略的业务场景可能采纳这种形式。 binlog形式binglog是数据的日志记录形式,每次对数据的操作都会有binlog日志。现在开源的订阅binlog日志的组件,比如使用比较广泛的canal,它是阿里开源的基于mysql数据库binlog的增量订阅和生产组件。 因为cannal服务器目前读取的binlog事件只保存在内存中,并且只有一个canal客户端可能进行生产。所以如果需要多个生产客户端,可能引入activemq或者kafka。如上图绿色虚线框部分。 咱们还需要确保全量对比来保证数据的一致性(canal+mq的重试机制基本可能保障写入异构库之后的数据一致性),这个时候可能有一个全量同步WORKER程序来保障,如上图深绿色部分。 canal的工作原理 先来看下mysql主备(主从)复制原理 mysql主备(主从)复制原理,从下层来看,复制分成三步: 1:master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events,可能通过show binlog events进行查看);2:slave将master的binary log events拷贝到它的中继日志(relay log);3:slave重做中继日志中的事件,将改变反映它自己的数据。cannal实现原理绝对比较简单 1:canal模拟mysql slave的交互协定,伪装自己为mysql slave,向mysql master发送dump协 议2:mysql master收到dump请求,开始推送binary log给slave(也就是canal)3:canal解析binary log对象(原始为byte流)咱们在部署canal server的时候要部署多台,来保障高可用。然而canal的原理,是只有一台服务器在跑处理,其它的服务器作为热备。canal server的高可用是通过zookeeper来保护的。 注意点确认MySQL开启binlog,使用show variables like 'log_bin'; 查看ON为已开启确认目标库可能产生binlog,show master status 注意Binlog_Do_DB,Binlog_Ignore_DB参数确认binlog格局为ROW,使用show variables like 'binlog_format'; 非ROW模式登录MySQL执行 set global binlog_format=ROW; flush logs; 或者通过更改MySQL配置文件并重启MySQL失效。为保障binlake服务可能获取Binlog,需增加授权,执行 GRANT SELECT, REPLICATION SLAVE, `REPLICATION CLIENT ON *.* TO 'admin'@'%' identified by 'admin'; FLUSH PRIVILEGES; ...

September 15, 2022 · 1 min · jiezi

关于数据:前后端数据接口协作提效实践

作者 | YP 导读:在大部分场景中,前后端能够在开发前约定好数据接口,单方可能围绕约定并行地实现开发和自测 。然而在大型零碎中一些后端模块有时并非直连前端,在它们之间可能蕴含一些其它模块的处理过程,为了保证数据真实有效,前端须要搭建整套环境来调试渲染成果,导致效率和研发体验一直劣化。本文次要介绍百度商业前端团队联合接口平台和数据中转能力优化前后端合作效率的尝试,无效的晋升了团队合作效力。 全文2533字,预计浏览工夫7分钟。 一、实际计划咱们的实际次要分为两大阶段: 1. 合作提效; 2. 品质保障&体验优化。 其中合作提效包含根底能力建设和合作模式降级落地;品质保障&研发体验是在合作提效的根底上,对业务品质保障和极其场景所遇到的问题提出的一些解决方案。 二、数据中转能力咱们团队所保护的后端模块是一个BFF层,负责适配上游和前端模块的数据,和前端业务联系十分严密。然而因为该层和前端之间还蕴含了一些策略和聚合的解决逻辑,大家在开发自测过程中没方法间接应用桩数据来预览成果,前端为了调试性能只能保护多套环境,除去环境搭建自身须要耗费大把工夫之外,模块连通性排查、资源协调,环境更新都会影响前端的工作效率。 为了缩小保护环境带来的精力耗费,咱们在实际初期尝试过屡次环境治理优化,成果都不是很现实,一方面无限的环境资源始终没方法很好地满足频繁迭代的须要,另一方面环境提供方也疲于应答各种各样的问题,所以咱们就想能不能不再保护线下环境,而是将开发测试的工作转移到线上环境下来进行,也就是让后端可能同时解决线上和线下数据申请,使前端在连接线上环境时看到线下数据的渲染后果。 基于这个思路,咱们在后端隔离出一套旁支逻辑定时地从Redis拉取线下物料数据和对应的设施信息,其中设施信息是某台手机或者某个浏览器惟一id,当这些设施所对应的申请达到时,后端就把它当作一个非凡申请替换原有申请成线下数据,接着持续之后的处理过程,前端只须要将数据和设施信息写入到Redis就能接管到线下数据的处理结果,这样前端就像在应用一套始终保持最新版本的常驻环境,不会再被各种各样的环境保护问题耗费精力,单方都能在合作过程中更关注业务逻辑自身。 三、降级合作模式借助数据中转能力,咱们胜利解决了环境保护艰难的问题,大幅地晋升了联调阶段的效率,但其实咱们在开发阶段的合作依然存在着一些问题。在能力建设初期咱们只反对了申请数据的替换,前端没方法在后端代码上线之前开始开发,这样串行的合作模式显然是有问题的,所以咱们就想能不能基于数据中转能力扩大出一套惯例的桩服务。 为了实现桩服务,咱们在须要作为桩输入给前端的数据上增加了非凡标识,当后端辨认到携带非凡标识的数据申请时就会跳过后续的解决逻辑,间接返回后果给上游模块。这种替换返回的模式可能让后端在开发前就将线下桩数据交付给前端应用,使前后端可能并行合作。 为了缩小学习和操作老本,咱们将以上所介绍的能力封装成平台提供给团队应用,后端能够依照我的项目为维度编辑和交付数据,前端能够拿这些数据去和设施做连贯,而后间接在app上刷新就能够看到成果。 四、数据分级为了革新前后端合作模式,咱们在开发过程中应用的其实都是桩数据,这样可能会导致数据和最初实在逻辑所输入的后果存在差别,这些差别可能会裸露到线上影响业务性能,所以如果短少无效的措施去束缚数据应用的话,那么品质危险会变得难以管制。 为此,咱们将数据的应用依据规定和利用场景划分成三种类型:手动生成、线下后端生成、线上后端生成。 能够看到,数据的束缚规定随着我的项目的推动是逐渐收紧的。在开发后期后端能应用编辑生成出的桩数据疾速交付给前端,让前端实现单模块开发自测;在联调阶段,咱们的数据是由后端所开发实现的代码逻辑生成而来的,因为这部分数据须要保障肯定真实性,所以不再反对编辑,这样数据就可能匹配上后端行将上线的逻辑;而在后端上线实现之后,前端可能从线上检索系统采集到实在物料数据,通过扫码等形式进行成果预览,这样同时从数据和代码逻辑两方面保障了真实性。 通过上述对数据分级的布局,咱们保障了合作过程在高效并行运行的同时,始终遵循一套流程规范,可能无效地保障了业务的交付品质。 五、优化平台体验通过后面三个步骤的优化,咱们在大部分的我的项目中曾经能让前后端解耦合作,然而在一些简单我的项目中这套流程反而会升高工作效率,这是因为简单我的项目往往须要笼罩的性能点更多,数据组合也相应的更多,咱们发现局部我的项目所须要的数据条数甚至超过两百条,这样后端就要破费大量的工夫和精力去录入和编辑数据,在这种极其需要下数据筹备工夫就成为了效率瓶颈,使得研发体验急剧下降。 为了解决这个问题,咱们围绕“片段”概念反对了对数据批量编辑的性能,能够让后端在编辑数据的过程中,将编辑的操作以“片段”的模式保留下来,每一个“片段”蕴含编辑的地位和值,这些“片段”能够持续利用到多个数据上,这样编辑工作就从屡次变成一次,大大减少了反复工作量。 同时,因为前端须要频繁对同一个性能进行例如版本兼容、题目长度兼容等细分状况的验证,为了更好的反对这种需要,咱们反对了“片段”的版本的性能,也就是在放弃“片段”操作地位不变的前提下,为“片段”赋予不同的值,前端能够通过切换“片段”的不同版本,疾速拿到同个性能下携带不同细节的数据去疾速地验证一些兼容成果。 六、总结前后端数据接口合作降级使咱们的团队可能更稳固高效地实现产品迭代,团队的我的项目的均匀交付工夫缩小了50%以上,目前曾经有上千次的业务我的项目基于这套计划实现了开发测试和线上回归工作。咱们也在继续一直地摸索在如产品视觉验收、销售问题验证等其它方面落地的可能性,心愿能在更多的场景下晋升团队的合作效力。 ——————END—————— 举荐浏览: 前端的状态治理与工夫旅行:San实际篇 百度App 低端机优化-启动性能优化(概述篇) 面向大规模数据的云端治理,百度桑田存储产品解析 加强剖析在百度统计的实际 基于 TLS 1.3的百度平安通信协议 bdtls 介绍 百度用户产品流批一体的实时数仓实际 如何治理资源节约?百度云原生老本优化最佳实际

August 30, 2022 · 1 min · jiezi

关于数据:你的数据是如何泄露的企业和个人应该这样做……

置身互联网时代,咱们享受信息化时代带来便当的同时,个人信息泄露事件也层出不穷:WPS被爆会删除用户本地文件、学习通疑似泄露1亿多条用户信息、滴滴适度收集1.07亿条乘客人脸识别信息……近年来,数据泄露事件始终属于头条新闻,它也是最常见且代价最高的网络安全事件之一。那么这些信息是如何泄露的呢?咱们如何躲避危险呢? 数据泄露的次要起因黑客攻击此类攻打大多数产生在企业中,黑客出于经济利益或者政治流动,利用恶意软件和电脑病毒等伎俩窃取信息,以达到攻打目标。Verizon公布的《2022年数据泄露调查报告》(DBIR)指出,目前有四个次要路径会威逼到数据信息:凭证窃取、网络钓鱼、破绽利用和僵尸网络。 “内鬼”泄密公司内部人员因安全意识有余导致泄密,或者前员工无意曝光公司重要数据。 违规收集软件或者平台会适度索权,超限收集(索要地位信息、麦克风和摄像头、个人信息、通讯录、相册信息等),若勾销抉择,则导致软件无奈应用。 系统漏洞黑客提前理解指标机的破绽,利用零碎上存在的破绽进入零碎并窃取登录凭证后动员网络攻击。 平安倡议在此,绒绒为大家提供一些相干平安倡议,以躲避数据泄露的危险: 企业外部要求内部人员遵守职业道德,建设防备机制,为员工定时进行平安培训;防止应用默认明码,倡议设置长度在 10 位以上,由大小写字母、数字、特殊符号组合的合乎复杂性要求的高强度明码,并定期更换,避免出现多个明码复用、无明码、弱口令情况呈现,借此成为攻击者横向攻打的跳板;企业终端全面部署安全软件,并通过查看零碎和其余平安服务日志,排查企业内可能存在的平安问题。个人用户可抉择注册两个手机号:集体手机号(用于工作、私人分割,绑定罕用账号)和备用手机号 (绑定不罕用账号,登录机场酒店wifi等),并应用两种不同的明码,防止因明码泄露导致信息被盗取;设置高强度明码,并定期更换,杜绝一码多用,防止通过第三方平台登录,升高明码泄露的危险;不要扫未知的二维码,审慎点击短信链接;装置杀毒软件,定期对电脑进行查杀;在社交平台上填写信息时,防止应用实在姓名;不要随便点击浏览未知网站或下载未知起源的应用程序。近年来,我国已相继出台了《网络安全法》、《数据安全法》以及《个人信息保护法》等法律法规,将数据安全提到了新高度,这也进一步标准了企业的衰弱经营,这更体现了国家在数据安全治理方面的态度和信心。最初,若个人信息产生泄露,并因而造成损失,请及时求助警方

August 11, 2022 · 1 min · jiezi

关于数据:数据治理走出数据孤岛

数据已成为数字经济的重要生产因素,这意味着,整合更多数据、领有更强的数据分析和解决能力,以数据资产化、数据服务化、数据知识化驱动业务,将是组织取得外围竞争力的要害。 然而,在构建数据驱动型组织的路线上,数据孤岛已成为开释数据价值的要害阻碍,次要体现在数据整合与治理、组织经营、数字翻新等各个层面。 数据孤岛”是什么企业倒退到肯定阶段,必然会追随时代倒退进行信息化建设。而信息化建设的不均衡,催生了“数据孤岛”景象的产生。 企业外部通常存在多个事业部,每个事业部都有各自的数据,事业部之间的数据往往都各自存储,各自定义,造成不同的子系统。而子系统之间并未建设无效的数据交换服务,各业务零碎数据形容规范不一,造成重大的数据不统一。各个子系统内所存储占有的数据,就像一个个孤岛,难以和企业外部的其余数据进行连贯互动。 这样的状况就被称为“数据孤岛”景象。简略来说,就是企业外部的数据间不足关联性,彼此无奈兼容。 组织中所有流动都会产生数据,但这些海量的数据因为组织策略、架构设置、数字化建设等起因,扩散存储在组织的各个部门、业务零碎、利用之中,彼此无奈互联互通、共享,也无奈被利用,造成了一个又一个孤立的数据岛屿。 数据孤岛作为数字化转型的负面产物,已成为一种普遍现象,Forrester调研发现,82%的企业都受到数据孤岛的妨碍。 “数据孤岛”的危害企业内不同部门数据的“各自为政”,大大制约着企业治理和业务的顺畅发展:1、数据反复:因为数据流通不畅,企业各部门在收集数据时会产生反复行为,造成了数据的反复、冗余、有效等状况,升高了数据的品质和准确度。 2、谬误决策:数据的不精确、不及时,往往导致企业决策谬误或决策缓慢,从而影响企业的口碑和在市场中的竞争位置。 3、合作不良:企业外部数据孤岛景象的显著,会在很大水平上使得企业各个部门、团队之间,因难以获取工作须要的数据,而关系紧张、合作不良。 4、效率低下:因为不同部门对数据的了解和定义不同,企业外部的沟通成本上升。同时,各部门对数据的反复治理,造成了工夫和金钱的节约、工作效率的低下。 5、客户体验差:企业内各部门领有的数据不一,容易造成客户端到端的体验混淆,总体评估低。 为何会产生“数据孤岛”景象?1、以性能为规范的部门划分导致数据孤岛。企业各部门之间绝对独立,数据各自保存存储,对数据的认知角度也截然不同,最终导致数据之间难以互通,造成孤岛。也因而集团化的企业更容易产生数据孤岛的景象。 2、短少企业内信息化建设的策略和规范,如果不能做到信息系统建设的对立,由不同部门,不同公司来建设的话,必须有一个规范可能使得日后的互通比拟容易实现。 3、不同类型、不同版本的信息化管理系统导致数据孤岛。人事部门用OA零碎,生产部门用ERP零碎,销售部门用CRM零碎,甚至一个人事部门应用一家考勤软件的同时,却在同时应用另一家的报销软件,结果就是一家企业的数据互通越来越难。 企业如何走出数据孤岛?对于事物各个局部之间的关系对整体倒退的影响,哲学上也曾给出过确定的解答:“当事物的各局部以有序、正当、优化的构造造成整体时,整体的性能将大于各局部性能之和;当各局部以无序、欠佳的构造造成整体时,各局部原有的性能得不到施展,力量减弱、甚至互相对消,使整体性能小于各局部之和。” 因而,从短暂倒退来看,企业应该彻底解决数据孤岛景象,让各部门的信息数据以正当有序的形式互相连通影响,从而推动企业的倒退提高。 为了解决数据孤岛的问题,企业进行了很多尝试。很多企业开始无意识地通过调整数据交换架构来改善数据品质,以突破“数据孤岛”、实现业务零碎间数据的顺畅流动。 然而,实际表明,企业网状的数据交换架构和以主数据治理(治理)平台为核心的数据交换架构都无奈彻底地解决数据孤岛问题。企业须要既能解决数据的交互流动,又能控制数据品质,并且是管制全副静态数据(主数据+业务场景数据等)的品质的解决方案。 通过多年的实际钻研发现,基于静态数据核心的数据交换架构,能够实现这一诉求。构建基于静态数据核心的数据治理平台,并以其为核心构建雪花状数据交换架构,如图1所示: 该架构的外围是企业基于数据治理平台的静态数据核心,企业所有业务零碎的数据流动都要通过该核心的直达,数据从各业务零碎采集过去而后散发进来,同时该静态数据核心对经其中转的数据会进行规范化和标准化,确保数据品质,实现数据从源头到指标生产零碎的真正流动,从根本上彻底买通企业内的数据孤岛。 该架构中的静态数据核心对静态数据的全方位治理能够很好地躲避主数据动态性的问题,并且能够通过静态数据核心实现由企业顶层通览全局静态数据。 该架构对数据品质的管制十分全面,静态数据核心对静态数据的全方位治理能够解决蕴含主数据及业务场景数据的品质问题。 该架构可能提供多种技术模式的数据交换接口,通过即插即用的形式能够随时挂接新的业务零碎,实现新的数据交互和流动。 另外,数据的源头(指数据最后的产生地点,个别指某业务零碎)是数据流动的终点,也是数据交换架构的外围点,针对数据的源头的抉择更是买通数据孤岛的关键点,也决定了整个数据交换架构的布局。 为了更好地诠释该数据交换架构针对企业数据管理的适用性,上面具体阐明一下不同类型数据源头的地位:物资数据的源头肯定是静态数据核心(数据治理平台);客户数据的源头能够是CRM(如有)也能够是静态数据核心(数据治理平台),供应商数据的源头能够是SRM(如有)也能够是静态数据核心(数据治理平台)等,具体起因如表1所示。 基于数据中台的数据孤岛解决方案部门A为了解决一些大数据问题,洽购了厂商X的大数据解决方案,装置了一个大数据平台,导入本人的数据并开发了一些大数据利用,运行得挺不错。这个时候,部门B也须要解决一些大数据问题,于是试图洽购厂商Y提供的大数据解决方案,但Y的大数据平台和X的有一些版本、组件上的差别,所以须要对X的大数据平台进行革新。 问题是,这个工作由谁来实现,由谁负责革新后的大数据平台的运维?有可能厂商Y的大数据利用也须要做些革新,这可行吗?部门A的利用曾经运行得很好了,部门B的利用会不会对部门A的利用造成影响(包含性能和数据安全的影响)?如果影响了,谁来负责?比较简单且疾速奏效的办法是间接装置厂商Y提供的端到端的解决方案。照此上来,每个解决方案都会装置一个新的大数据系统。 还有一个问题是,厂商X和厂商Y底层的数据结构可能不是对外公开的,因此它们各自解决本人的问题,尽管开始互不烦扰,然而起初就造成了数据孤岛和烟囱。这个时候,因为各个子系统的数据规范不一、数据格式不同,各部门之间数据无奈互联互通,很难依据数据做出全局决策。 解决下面的问题,正是数据中台方法论和架构的工作。TotalPlatform保障所有数据利用的对立治理,OneID、OneModel确保各子系统中数据的互联互通,OneService负责数据能力的共享,TotalInsight确保全局数据经营的高效和价值量化。 1)全局的数据治理 必须有全局的数据治理零碎来治理所有子系统的数据,确保它们能互联互通。例如,OneID要求所有对于用户的数据都必须应用同一个ID,OneModel要求所有数据仓库的模型都必须合乎同样的规范。然而这里要指出,解决数据孤岛和利用孤岛的问题,除了技术计划以外,明确责权利也很重要。呈现孤岛的起因之一就是各部门的责权利不清晰。如何在应用数据中台解决孤岛问题的同时保障责权利的清晰,是一个十分重要的问题,咱们将在第6章中详细描述。 2)数据能力的复用和共享在进行全局的数据治理的同时,治理的后果必须能为公司发明价值。这个时候就相似于OneService的性能,既要求能进行全局的数据能力的复用和共享,也须要相似TotalInsight的性能,治理全局的数据资产,量化数据能力的投入产出。次要的工作如下: 建设数据能力共享的责权利机制;提供全局的数据能力目录和拜访机制;提供数据能力共享的工具、机制和流程;对共享的数据能力的管控和审计;确保共享的数据能力的高效运行。3)云原生架构的撑持 在这个阶段随着业务的一直增长,越来越多的应用程序被增加到大数据系统中。先有Spark、Kafka,后有Flink、TensorFlow,当初又有各种新的大数据和人工智能组件。 这些就是在云基础架构上运行大数据系统的根本原因。而云平台为剖析工作负载和个别工作负载提供了极大反对,并提供了云计算技术的所有益处:易于配置和部署、弹性扩大、资源隔离、高资源利用率、高弹性、主动复原。 在云计算环境中运行大数据系统的另一个起因是大数据工具的倒退。传统的分布式系统(如MySQL集群、Hadoop和MongoDB集群)偏向于解决本人的资源管理和分布式协调,然而当初因为Kubernetes、Mesos、YARN等分布式资源管理器和调度程序的呈现,越来越多的分布式系统(如Spark)将依赖底层分布式框架来提供这些资源分配和程序协调调度的分布式操作原语。在这样的对立框架中运行它们将大大降低复杂性并进步运行效率,如下图所示。 数据孤岛是企业中与企业的其余局部隔离且无法访问的数据汇合,走出数据孤岛能够帮忙企业在正确的工夫获取正确的数据以便辅助企业做出正确的决策,解决企业数据的不统一问题,晋升沟通效率,并帮忙企业升高反复数据的存储问题来节约老本。 如何走出数据孤岛?不同的期间,不同的场景可能须要不同的解决方案,您能够抉择基于痛点需要的数据集成交融计划,也能够抉择大而全的数据中台计划,具体怎么选,须要联合企业的需要,没有最好的只有更适合的。

August 5, 2022 · 1 min · jiezi

关于数据:如何实时监控销售数据销售看板来帮你

近年,商品消费品行业疾速倒退,数据也越来越多。对于企业来说,须要的是真正有价值的销售数据,通过这些数据帮忙企业的治理更加标准、降低成本,通过数据分析解决晋升决策能力。 比方商品批发所产生的一系列销售数据,会因为数据品种多,统一性、完整性较差,短少从多维度对数据进行剖析、数据不能及时响应等问题,而导致经营者对商品区域销售状况、客户所需商品构造、销售状况不清晰,企业策略制订和资源配置不合理,各商品销售状况不清晰等问题产生困扰。 商品销售剖析看板可能帮忙用户实时监控销售数据的变动,从而及时发现问题所在并调整销售策略,为企业策略制订、资源分配、商品生产营销打算制订等方面进行提供数据和决策的撑持。 一、定制业务指标首先须要结合实际业务筹备数据、定制业务指标,拆解数据为维度和度量。例如商品销售剖析,用户想要通过不同的角度和衡量标准察看商品数据,比方用户想理解消费者最青睐、最不喜爱、须要淘汰、利润多的、库存积压较多的商品等,还须要理解销售指标是多少、实现了多少、还差多少等等内容。 剖析维度包含商品、商品类别、发货城市、工夫等,度量能够有单价、销售量、运费、库存、销售额、销售额同环比、毛利、毛利率、累计费用等。二、创立数据模型依据定制的业务指标创立的数据模型如图: 创立数据模型步骤如下: 1、新建查问数据源表:在新建的数据模型中抉择“数据源表”,新建数据源表查问。而后抉择增加须要的数据源和表。 即席查问:点击加号,抉择新建“即席查问”。新建订单明细查问。在左侧资源树的计算字段上,右键新建“销售额”计算字段。保留即席查问,依据表关系连贯各个表之间的关系如图: 2、创立维度新建工夫维度。对“订单日期”和“发货日期”字段右键抉择创立工夫档次,而后依据须要勾选: 新建天文维度。在“发货城市”、“发货省份”、“发货区域”字段上右键抉择 标记天文维度>区域 。新建“区域”层次结构,并将“发货城市”、“发货省份”、“发货区域”字段拖入“区域”层次结构内。 新建度量。首先在维度区双击单价、销售量、运费、折扣、销售额等字段,增加字段为度量。 其次也能够增加计算度量。如下图通过简略的四则运算减少毛利字段。 二、创立大屏可视化咱们首先依据需要布局整个大屏所展示的内容以及所需可视化图表,整体布局设计如下: 上面咱们以销售指标卡、各类商品销售状况、日期筛选器为例来演示如下实现大屏可视化组件设置。 1、销售指标卡 在组件中搜寻拖入文本组件,拖拽布局到响应地位。双击抉择“销售额”、“销售额同比”、“销售额环比”字段;而后双击编辑文本组件,插入表格和字段如下图;最初把背景图上传,并设置成果为拉伸即可。 2、商品销售(1) 在组件中拖入”Tab“组件 (2) 同样在组件中将“沉积柱图”拖入Tab组件中,并批改页签名称为销售额 (3) 选中销售额页签,将“产品类别”字段拖入标记区,点击色彩按钮设置柱图色彩如下: (4) 组件设置中,设置TAB页签如下: 最终的成果如下图: 销售量TAB页设置办法与销售额雷同。3、日期筛选器点击销售选项卡,在数据区将订单日期工夫维下的“年月”拖入筛选区;而后通过筛选器设置日期的默认值;最初利用于组件中,抉择与日期有关联关系的组件。 如上所示,通过Smartbi交互仪表盘,简略几步即可实现商品销售剖析看板的制作。

August 4, 2022 · 1 min · jiezi

关于数据:构建数据工程师能力模型实战八大企业级项目

点击下崽ZY:百度网盘public List<String> sortGetTop3LongWords(@NotNull String sentence) { // 先切割句子,获取具体的单词信息 String[] words = sentence.split(" "); List<String> wordList = new ArrayList<>(); // 循环判断单词的长度,先过滤出合乎长度要求的单词 for (String word : words) { if (word.length() > 5) { wordList.add(word); } } // 对符合条件的列表依照长度进行排序 wordList.sort((o1, o2) -> o2.length() - o1.length()); // 判断list后果长度,如果大于3则截取前三个数据的子list返回 if (wordList.size() > 3) { wordList = wordList.subList(0, 3); } return wordList;}

July 31, 2022 · 1 min · jiezi

关于数据:数据目录是什么为何需要它

简而言之,数据目录就是对于企业数据资产的一个有序清单。它能够应用元数据来帮忙企业治理数据,帮忙数据业余人员收集、组织、拜访和空虚元数据,从而为数据发现和治理提供反对。 —  01  —数据目录的定义和类比在上文咱们简略介绍数据目录的定义,也就是应用元数据来帮忙企业治理数据。接下来,咱们应用图书馆作类比,带您具体理解数据目录。 当您返回图书馆查找某一图书时,您能够应用图书目录来查找该图书是否存在,理解它的版本、地位以及相干形容。您能够应用所有这些信息来决定是否真的须要这本书,理解如何找到它。 当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。 咱们再回到图书馆和图书目录。当初,咱们对图书目录进行扩大,涵盖整个国家的所有图书馆。设想一下,这样您就能够在一个界面中查找整个国家中储备了您所需图书的所有图书馆,查找对于您所需的每一本图书的所有详细信息。 企业数据目录之于数据,正如图书目录之于图书。它能够为您提供一个整体视图,提供对于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。 您为什么须要这样一个视图呢? —  02  —数据目录能够解决哪些问题?与过来相比,想从现在前所未有的数据陆地中找到正确的数据更加艰难。同时,对于数据的监管条例和法规(例如 GDPR)也比过来更多、更严格。在这一背景下,除了数据拜访之外,数据治理也成为了一个严厉的挑战。您不仅要理解以后您所领有数据的类型、哪些人在挪动数据、数据的用处以及如何爱护数据,还必须防止过多的数据层和封装,防止数据因太难应用而毫无用处。遗憾的是,很多企业和用户在查找和拜访数据上面临着很多问题,包含: 需消耗大量工夫和精力查找和拜访数据数据湖变成了数据沼泽无通用业务词汇难以了解“光明数据”的构造和类别难以评估数据起源、品质和可靠性无奈捕捉部落常识或失落的常识难以重用常识和数据资产需手动和长期进行数据筹备—  03  —哪些用户应应用数据目录?数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不心愿可能轻松拜访牢靠的数据。他们面临的一些常见的挑战包含:数据工程师想晓得任意更改将对整个零碎产生哪些影响,他们可能会问: 咱们 CRM 利用中的模式变更将产生哪些影响?Peoplesoft 和 HCM 数据结构有何不同?数据科学家心愿可能轻松拜访数据并进一步理解数据品质,他们想理解以下信息: 从何处能够找到和查看一些地理位置数据?如何轻松拜访数据湖中的数据?数据管理员负责管理数据流程,关注概念、利益相关者间协定以及数据生命周期治理。他们心愿理解: 咱们是否真的在改善经营数据品质?咱们是否为重要的要害数据元素定义了规范?首席数据官关怀哪些人在组织中做了哪些事,个别不应用数据目录。然而,他们依然心愿理解: 哪些人能够拜访客户的个人信息?咱们是否为所有数据定义了保留策略?有了数据目录,这些问题就能迎刃而解。 —  04  —数据目录应用场景在过来几年中,随着须要治理和拜访的数据的数量日益增长,数据目录这一概念开始流行起来。在这所有的背地,是云、大数据分析、人工智能和机器学习正逐步扭转人们查看、治理和应用数据的形式 — 不仅要治理数据,还要拜访和充分利用数据。 数仓治理:数据地图长什么样? 应用数据目录,您能够更好地应用数据,取得以下劣势: 节省成本进步经营效率加强竞争劣势改善客户体验缩小欺诈,升高危险等等这些只是数据目录的一部分应用场景。实际上,数据目录的应用形式多种多样。从根本上说,它的主旨就是提供更宽泛的数据可见性和更深刻的数据拜访反对。 1.自助剖析 许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好须要一个对于客户的文件。但这并不意味着它就是您须要的,它可能只是 50 个相似文件中的一个。同时,该文件可能蕴含许多字段,您可能并不理解所有这些数据元素代表什么。对此,您须要通过一种更简略的办法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其余数据工件之间的关系。 数据发现还包含通过各种形式来了解数据的状态和特色,例如简略的值散布和统计信息,或者重要且简单的个人身份信息 (PII) 或集体衰弱信息 (PHI)。 2.审计、合规和变更治理 随着对于数据的政府监管法规数量一直增长,企业常常须要证实数据的起源,例如特定数据工件的起源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也心愿了解数据的具体起源以及数据通过各种形式在整个组织中的挪动过程。同时,对于变更治理来说,一项重要工作就是查看数据管道中某局部的变更将如何影响零碎的其余局部。这就是为什么客户心愿具体理解数据因循的起因。 3.应用业务术语表加强数据治理 现在大多数企业都建设了一个所有人都认可的术语表,就业务概念达成了统一。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适宜存储和治理这一重要业务信息。 此外,数据目录还反对在业务术语之间建设链接,从而创立分类;能够记录业务术语与实物资产(例如表和列)之间的关系;能够帮忙用户了解哪些业务概念与哪些技术工件相干;能够帮忙用户按业务概念线对数据资产分类,随后间接应用业务概念(而不是技术名称)来进行数据搜寻和发现。数据目录让用户能够看到与数据相干的所有内容,加强对所查看内容的信任度,为数据治理奠定一个绝佳的终点。 —  05  —如何充分利用数据目录中的数据?许多人可能不相熟元数据,咱们有必要先介绍一些简略的概念。元数据是什么?元数据分为 3 类: 技术元数据:模式、表、列、文件名、报告名 — 源零碎中记录的所有信息业务元数据:通常指用户具备的对于组织资产的业务知识,包含业务形容、备注、正文、分类、适用性、评级等等。操作元数据:这一对象的刷新工夫?它由哪一个 ETL 作业创立?表格被拜访次数有多少?具体有哪些?面试,数据仓库的元数据蕴含哪些? 在过来几年里,这些贵重的元数据的应用形式产生了一次轻微的改革。已经,元数据仅用于审计、来历追溯和报告。现在,无服务器解决、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在冲破元数据的界线,带来新的可能。 在明天,元数据可加强数据管理。从自助数据筹备到角色和数据内容库访问控制,自动化数据买通,异样监督和警报,自动化资源供给和扩大等等,元数据能够全面加强所有这些性能。 数据目录能够应用元数据帮忙您实现比数据管理更弱小的性能。 —  06  —数据目录该当具备哪些性能?一个优良的数据目录该当具备以下性能: ①数据搜寻和发现: 数据目录该当具备灵便的搜寻和过滤选项,从而赋能用户疾速找到相干数据集,以施行数据迷信、剖析或数据工程;依照数据资产的技术层级来浏览元数据。此外,如反对用户输出技术信息、自定义标签或业务术语,数据目录能够进一步改善搜寻性能。 ②从各种数据源收集元数据: 请确保您的数据目录能够从各种互联数据资产中收集技术元数据,包含对象存储、自治驾驶数据库、本地部署零碎等等。 ③元数据管理: 数据目录应反对主题专家通过企业业务术语表、标签、关联、用户自定义正文、分类、评级等模式来奉献业务知识。 ④自动化和数据智能: 对于大规模数据,人工智能和机器学习通常必不可少。因而,数据目录应利用 AI 和机器学习技术来解决所收集的元数据,让所有能够自动化的手动工作都实现自动化。此外,人工智能和机器学习还能够切实增强数据性能,例如为数据目录用户以及现代化数据平台上其余服务的用户提供数据倡议。 ⑤企业级性能: ...

July 29, 2022 · 1 min · jiezi

关于数据:怎么理解数据网格Data-Mesh

数据网格是一种架构模式,用于在大型简单组织中实现企业数据平台。它有助于扩大剖析的采纳范畴,使其超过单个平台和单个施行团队 —— 01 ——背景对剖析的需要并不陈腐。组织总是须要剖析业务绩效,自从引入计算机以来,就始终应用计算机来剖析业务绩效。大概在20世纪80年代,组织开始通过应用专门用于决策反对的数据库来构建数据仓库解决方案。这些解决方案长期以来为组织提供了良好的服务。 然而,随着业务的变动以及生成的数据越来越多样化,应用关系数据库的数据仓库解决方案可能并不总是最佳解决方案。在2000年代,大数据作为一个通用术语被引入。疾速采纳了新的解决方案,能够剖析以极高速度生成的大量不同数据。这包含数据湖和剖析大量数据的横向扩大解决方案等技术。 近年来,许多组织胜利地应用了古代体系结构和剖析模式,这些模式将数据仓库技术和最新的大数据技术相结合。 然而,一些组织在应用此模式部署剖析解决方案时会遇到问题。这些解决方案通常仍作为整体解决方案施行,其中一个团队是平台提供商,另一个团队是进行数据集成的团队。从团队设置的角度来看,这实用于较小的组织和高度集中的组织。然而,仅应用一个团队通常会在大型组织中造成瓶颈。这一瓶颈导致了大量积压工作,组织中的一些部门不得不期待数据集成服务和剖析解决方案。 随着组织采纳古代数据迷信解决方案,这种模式变得越来越广泛。与过来的传统商业智能解决方案相比,许多数据迷信解决方案须要更多的数据。 最近转向应用微服务作为利用程序开发模式是围绕数据集成的长期积压的另一个驱动因素,因为它减少了数据源的数量。 在大型组织中,让一个团队在一个平台上解决所有数据摄取也可能会有问题。一个团队很少有针对每个数据源的专家。从业务角度来看,大多数组织都是扩散和散布的。不同的业务部门和部门解决不同的操作局部,因而数据专家通常散布在各个部门。 为了解决这些问题,几年前引入了一种称为数据网格的新体系结构模式。Data mesh的指标是让分布式团队以扩散和灵便的形式解决和共享信息。 数据网格是一种技术模式,也须要组织变革。数据网格办法的益处是通过施行公布和应用数据产品的多学科团队来实现的。 以下概念是了解数据网格体系结构的根底: —— 02 ——数据域数据域是数据网格的根底。数据域的概念来自畛域驱动的开发,这是一种在软件开发中常常用来建模简单软件解决方案的范式。在数据网格中,数据域是定义企业数据四周边界的一种办法。域可能因组织而异,在某些状况下,您能够围绕组织定义域。在其余状况下,您能够抉择基于业务流程或源系统对数据域进行建模。 数据域有三个方面: 您抉择的边界使其成为长期所有权。它们存在了很长一段时间,并确定了所有者。畛域应该合乎事实,而不仅仅是实践概念。您的域须要具备原子完整性。如果区域之间没有关系,不要将它们组合在一个域中。无关数据域以及如何定义它们的更多信息,请参阅什么是数据域? —— 03 ——产品数据数据产品是数据网格的另一个重要组成部分。数据产品旨在将产品思维带入数据世界。为了使您的数据产品获得成功,它须要为指标用户提供长期的业务价值。在数据网格中,数据产品波及数据、代码资产、元数据和相干策略。数据产品能够作为API、报表、表或数据湖中的数据集交付。 胜利的数据产品必须: 对于本节,如果您将其格局设置为: 可用:您的产品必须有间接数据域之外的用户。 价值:您的产品必须随着工夫的推移放弃价值。如果没有长期价值,就不会胜利。 可行:你的产品必须是可行的。如果你不能真正构建它,那么这个产品就不会胜利。从数据可用性和技术角度来看,您的产品必须是可行的。 数据产品的代码资产包含生成数据产品的代码和交付数据产品的代码。它还包含用于创立产品和产品最终报告的管道。 无关应用数据网格的具体指导,请参阅什么是数据产品 —— 04 ——自助服务平台数据网格的外围是有一个平台,容许数据域本人构建数据产品。他们须要可能通过应用与其用户相干的工具和流程来定义其数据产品,而不须要对地方平台或地方平台团队有强烈的依赖性。在数据网格中,您领有开发和治理自主产品的自主团队。 在与理解您的数据的业务用户进行扩散和协调的同时,您还将有多面手在您的平台上工作。因而,您不能将须要专业知识能力操作的业余工具作为基于网格的平台的外围根底 —— 05 ——联结治理当您采纳自助式分布式数据平台时,您必须更加器重治理。不足治理会导致跨数据域的竖井和数据反复。联结您的治理,因为理解治理需要的人存在于与域统一的团队和数据所有者中。 要创立联结治理,请围绕平台和数据需要施行自动化策略。应用高度自动化进行测试和监控。采纳代码优先的施行策略,将规范、策略、数据产品和平台部署作为代码解决 —— 06 ——总结数据网格是实现企业数据平台的无效办法,但它不是所有组织的最佳解决方案。数据网格须要可能独立工作的自治团队。它在须要将其剖析采纳范畴扩大到单个平台和施行团队之外并领有独立业务部门的大型简单组织中成果最好。 应用数据网格时,在施行治理时要特地小心,免得创立竖井。始终将对数据的产品思考作为施行的外围,以确保胜利。

July 28, 2022 · 1 min · jiezi

关于数据:主数据管理理论与实践

本文介绍了主数据的概述,包含主数据的定义、特色、类型、和其余数据的关系,主数据管理的意义,主数据管理的施行痛点,主数据管理的内容,主数据的治理施行办法以及我的项目施行示例等内容,为对主数据和数据管理有钻研趣味的敌人提供了肯定的参考。 一、主数据管理概述1.1. 主数据的定义 在数据管理畛域,对于主数据的概念和定义有不同的解释和阐明。参照规范和标准定义,本文采纳国内数据管理协会DAMA在《DAMA数据管理常识体系指南》一书中对主数据的定义进行阐明。 主数据是对于业务实体的数据,这些实体为业务交易提供关联环境。业务规定通常规定了主数据格式和容许的取值范畴,个别组织的主数据包含当事人、产品、财务结构和地位等。主数据是对于要害业务实体权威的、最精确的数据,可用于建设交易数据的关联环境。主数据值被认为是“黄金”数据,主数据绝对交易数据而言,属性绝对稳固,准确度要求更高,惟一辨认。 1.2. 主数据的特色 相比于其余数据,主数据具备如下特色: 1)超过部门,主数据是所有部门和所有业务过程的最大公约数据; 2)超过流程,主数据不随具体流程而扭转,而是作为残缺流程的不变因素。 3)超过主题,不依赖特定业务主题却又服务于所有业务主题的无关业务实体信息; 4)超过零碎,主数据管理作为独自的零碎存在,服务于但高于其余业务零碎; 5)超过技术,主数据必须利用一种可能为各类异构零碎所兼容的技术条件,面向微服务架构为主数据的施行提供了无效的工具。 1.3. 主数据的类型 主数据次要包含配置型主数据和外围主数据。 1)配置型主数据:配置型主数据,也称为参考数据,是形容业务或外围主数据属性分类的参考信息,会在整个组织内共享应用。个别根据国际标准、国家标准、行业标准或企业规范和相干标准等,在零碎中一次性配置应用的根底数据,例如国家、民族、性别等规范性表述。配置型主数据绝对稳固,不易变动。 2)外围主数据:外围主数据指用来形容企业外围业务实体的主数据,是企业外围业务对象、交易业务的执行主体,如产品、物资、设施、组织机构、员工、供应商、客户、会计科目等。 1.4. 主数据与其余数据的关系 在《DAMA数据管理常识体系指南》一书中,将数据管理畛域常识体系概括为十个大的方面,别离是数据架构治理、数据开发、数据操作治理、数据安全治理、参考数据和主数据管理、数据仓库和商务智能治理、文档和内容治理、元数据管理、数据品质治理和数据治理等。主数据管理与参考数据管理作为最外围的业务内容,在数据管理体系,以及进步数据品质,构建企业数据资产的过程中施展着微小的作用。 主数据及主数据管理往往和其余已有的概念混在一起,从而影响人们对主数据与主数据管理的实质的意识。本文将主数据与元数据、主数据与交易数据、主数据与参考数据这三个概念进行区别和分割。 1)主数据与元数据 主数据和元数据是两个齐全不同的概念。元数据是指公司数据资产治理的根底,是对于“数据的数据”,例如数据类型、数据定义、数据关系等,相当于数据表格中的表头信息,是一个绝对主观的概念。而主数据是从元数据中筛选进去的,表征公司业务运行的要害、通用型数据,是一个绝对主观的概念。它不仅仅只是表头信息,而是包含实例数据。例如公司的产品列表、客户列表、分公司地址信息等。 2)主数据与交易数据 交易数据也是基于元数据衍生而来的,反馈公司实时业务记录的数据,同样是实例数据。主数据是绝对稳固的,静止不变或者是一段时间内静止不变的数据,而交易数据则是实时变动的数据,往往形容的是某一个工夫点所产生的交易行为。例如客户订单、存货跟踪、销售记录、售后事件等。 一个主数据可能会跟多个交易数据有关联,而一个交易数据可能又会对主数据产生影响。举例来说,航空公司中,“客户本年度航行里程”是一个主数据,而“客户每次航行记录”,则是交易数据,当交易数据“客户每次航行记录”累积到一年时,主数据“客户本年度航行里程”便会产生更新。 3)主数据与参考数据 参考数据是用于将其余数据进行分类或者目录整编的数据。业务规定通常规定参考数据值是几个允许值之一。允许值的数据集是一个值域。有些组织依据外部业务定义参考数据的值域,其余参考数据的值域可由像政府或行业标准等内部资源来定义。多组参考数据的值域能够指向同一个概念域。每个值在其所在的值域集是惟一的。用艰深的术语表述,参考数据也能够叫做数据字典、代码集等。 企业为了进行更有效率的数据整合、数据共享和数据分析利用,开始尝试对参考数据进行企业或者部门层面的整合和治理,利用参考数据集记录零碎尝试为范畴内的IT零碎中的数据库提供对立的参考数据。参考数据是对数据的解释针对一些数据范畴和取值的数据解释,让人们容易读取相干的数据。 在政务数据应用领域,狭义的参考数据体现在参考数据集记录零碎、政务信息资源目录零碎、代码集零碎、数据图书馆等零碎方面,狭义的主数据体现在数据交融建仓的过程中,个别政务数据我的项目会建设包含人口、法人、屋宇、电子证照、社会信用、空间天文等主数据,也称根底库。 在实操中,参考数据管理和规范施行个别是和主数据管理我的项目一起施行。 二、主数据管理的意义主数据是数据之源,是数据资产治理的外围,是信息系统互联互通的基石,是信息化和数字化的重要根底。通过构建精确、惟一、权威的数据起源建设企业主数据规范管理体系,是进步企事业单位数据品质和数据资产价值的关键因素。良好的主数据管理对于企业数据资产体系建设,通过数据驱动倒退,构建将来倒退与竞争的外围竞争力,具备重要意义。 1) 打消数据冗余,晋升数据品质:主数据买通各业务链条,对立数据语言,对立数据规范,实现数据共享,最大化打消了数据冗余,晋升数据品质。 2) 晋升数据处理效率:通过主数据管理能够实现数据动静主动整顿、复制,缩小人工整理数据的工夫和工作量。 3) 数据驱动,进步公司策略协同能力:数据作为公司外部经营剖析、决策撑持的“通行语言”,实现多个部门对立后,有助于买通部门、零碎壁垒,实现信息集成与共享,进步公司整体的策略协同力。 4) 欠缺IT零碎架构和企业数据架构,助力数据利用和治理:通过主数据建设,将为企业在数据利用与治理奠定根底。从 IT 建设的角度,主数据管理能够加强 IT 构造的灵活性,构建笼罩整个企业范畴内的数据资产治理根底和相应标准,并且更灵便地适应企业业务需要的变动。此外,主数据品质的进步也可能为前期数据集成和数据整合打下良好的根底。 三、主数据管理的施行痛点主数据管理意义不凡,然而在实际和施行方面还是存在很多的难点,突出表现在以下几个方面: 1)认知不对立,不器重主数据的总体规划,不足顶层设计,无奈在单位决策层、管理层和业务层等各层级对立思路; 2)各职能部门各自为政,难以在规范和规定层面达成统一,以致主数据代码规范难对立; 3)通用规范主数据(国际标准、国家标准和行业标准产生的主数据)治理扩散,不足便捷牢靠的数据获取渠道,数据获取艰难; 4)单位外部曾经存在且扩散治理的主数据,因为不足统一标准和数据关联,大量的数据荡涤依附人为判断,数据荡涤难度和危险都很大; 5)企业历史零碎和历史数据的数据标准化水平不高,数据荡涤难,革新老本高,给主数据系统集成造成较大艰难;主数据管理过程须要批改现有的相干生产业务过程和零碎,须要从管理学的角度充分调动业务部门密切配合,对组织的业务经营效率和信息决策周期要求较高。 6)主数据管理模式要求业务间有表单数据交换,因而短期内会使得信息架构发生变化,甚至变得更加简单。 四、主数据管理的内容主数据管理的次要内容包含“两体系、一工具”,即主数据管理规范体系、主数据管理保障体系和主数据管理工具。其中,主数据管理规范体系是主数据管理工作的重中之重,主数据管理保障体系为主数据管理保驾护航,主数据管理工具确保主数据管理无效落地。 4.1. 主数据管理规范体系 主数据规范管理体系蕴含业务规范(编码规定、分类规定、形容规定等)、主数据模型规范。主数据规范管理体系在建设梳理的过程中,个别会衍生出一套代码体系表或称主数据资产目录。 1)主数据业务规范是对主数据业务含意的对立解释及要求,包含主数据起源、主数据的治理级次、对立治理的根底数据项、数据项在相干业务环境中产生过程的形容及含意解释、数据之间的制约关系、数据产生过程中所要遵循的业务规定。主数据业务规定蕴含主数据各数据项的编码标准、分类规定、形容规定等。 2)主数据模型规范蕴含:主数据逻辑模型和主数据物理模型。主数据逻辑模型次要是通过实体关系图例示意,ER图,主数据物理模型,也成为主数据的物理存储构造表。 3)主数据代码体系表:在某些畛域内,又称主数据资产目录。是形容企事业单位信息化建设过程中所应用的主数据代码品种、各类主数据代码名称、代码属性(分类、明细、规定等)、采(参)标号及代码建设状况的汇总表,是企业主数据代码查问和利用的根据,同时也是主数据代码的全局性和指导性文件。主数据代码体系表次要联合了企业的经营治理特点,服务于企业信息化建设,次要包含两局部内容,第一是企业信息代码体系表的框架结构以及分类,第二是所有分类下的信息代码规范明细以及建设状况。 如政府数据应用领域的政务信息资源目录体系。 4.2. 主数据管理保障体系 主数据管理保障体系包含主数据管理组织、制度、流程、利用及治理评估五局部。 1)主数据管理组织 主数据管理组织次要包含企业内各类主数据的治理组织架构、经营模式、角色与职责布局,通过组织体系布局建设明确的主数据管理机构和组织体系,落实各级部门的职责和可继续的主数据管理组织与人员。主数据管理组织构造包含决策层、管理层和执行层。 2)主数据管理制度 主数据管理制度规定了主数据管理工作的内容、程序、章程及办法,是主数据管理人员的行为规范和准则,次要蕴含各种治理方法、标准、细则、手册等。次要包含《主数据管理方法》、《主数据标准规范》、《主数据提案指南》、《主数据保护细则》、《主数据管理工具操作手册》等。 ...

July 27, 2022 · 1 min · jiezi

关于数据:数据仓库详解维度建模之事实表

每个数据仓库都蕴含一个或者多个事实数据表。其中可能蕴含业务销售数据,如现金注销事务所产生的数据,通常蕴含大量的行。事实数据表的次要特点是蕴含数字数据(事实),并且这些数字信息能够汇总,以提供无关单位作为历史的数据,每个事实数据表蕴含一个由多个局部组成的索引,该索引蕴含作为外键的相关性维度表的主键,而维度表蕴含事实记录的个性。 事实表根底1、事实表特色 事实表作为数仓维度建模的外围,紧紧围绕着业务过程来设计,通过获取形容业务过程的度量来表白业务过程,蕴含了援用的维度和业务过程无关的度量。事实表中一条记录所表白的业务细节水平被称为粒度(业务中的细节水平)。通常粒度能够通过两种形式来表白:一种是维度属性组合所示意的细节水平,另一种是所示意的具体业务含意。 作为度量业务过程的事实(事实表属性),个别为整型或浮点型的十进制数值,有可加性、半可加性和不可加性三种类型: 可加性事实 是指能够依照与事实表关联的任意维度进行汇总。 半可加性事实 只能依照特定维度汇总,不能对所有维度汇总。 不可加事实 不具备可加性,比方比率型事实。对于不可加性事实可分解为可加的组件来实现汇集。 2、有事实的事实表 有事实表分为三种类型 : 事务事实表、周期快照事实表和累积快照事实表。 3、无事实的事实表 无事实的事实表能够用来跟踪事件的产生。例如,在给定的某一天中产生的学生加入课程的事件,可能没有可记录的数字化事实,但该事履行带有一个蕴含日期、学生、老师、地点、课程等定义良好的外键。利用无事实的事实表能够按各种维度计数上报这个事件。 事实表设计规定尽可能蕴含所有与业务过程相干的事实; 只抉择与业务过程相干的事实; 合成不可加性事实为可加的组件;比方订单的优惠率,应该合成为订单原价金额与订单优惠金额 在抉择维度和事实之前必须先申明粒度; 在同一个事实表中不能有多种不同粒度的事实;粒度的申明是事实表设计中不可漠视的重要一步,粒度用于确定事实表中一行所示意业务的细节档次,决定了维度模型的扩展性,在抉择维度和事实之前必须先申明粒度,且每个维度和事实必须与所定义的粒度保持一致 在同一个事实表中不能有多种不同粒度的事实; 事实的单位要保持一致; 对事实的 null 值要解决;在数据库中null值对罕用的大于或小于等SQL不失效,倡议应用零值填充 应用进化维度进步事实表的易用性;目标次要是为了缩小上游用户应用时关联多个表的操作。间接通过进化维度实现对事实表的过滤查问、管制聚合档次、排序数据以及定义主从关系等。 事实表设计办法Kimball的四步维度建模办法:抉择业务过程、申明粒度、确定维度、确定事实。 Step 1:抉择业务过程及确定事实表类型。 在明确了业务需要当前,接下来须要进行具体的需要剖析,对业务的整个生命周期进行剖析,明确要害的业务步骤,从而抉择与需要无关的业务过程。(业务过程通常应用行为动词示意业务执行的流动) Step 2:申明粒度 。 粒度的申明是事实表建模十分重要的一步,意味着准确定义事实表的每一行所示意的业务含意,粒度传递的是与事实表度量无关的细节档次。明确的粒度能确保对事实表中行的意思的了解不会产生混同,保障所有的事实依照同样的细节档次记录。 Step 3 :确定维度 。 实现粒度申明当前,也就意味着确定了主键,对应的维度组合以及相干的维度字段就能够确定了,应该抉择可能形容分明业务过程所处的环境的维度信息。 Step 4 : 确定事实 。 事实能够通过答复“过程的度量是什么”来确定。应该抉择与业务过程无关的所有事实,且事实的粒度要与所申明的事实表的粒度统一。事实有可加性、半可加性、非可加性三种类型 , 须要将不可加性事实合成为可加的组件。 Step 5:冗余维度 。 冗余维度是在kimball维度建模办法根底上新增的步骤。次要是因为在大数据的事实表模型设计中,须要思考更多的是进步上游用户的应用效率,升高数据获取的复杂性,缩小关联的表数量。所以通常事实表中会冗余不便上游用户应用的罕用维度,以实现对事实表的过滤查问、管制聚合档次、排序数据以及定义主从关系等操作。 有事实的事实表有事实表分为三种类型 : 事务事实表、周期快照事实表和累积快照事实表。 1、事务事实表单事务事实表,针对于每个业务过程设计一个事实表,不便每个业务过程进行独立剖析钻研。长处:更不便跟踪业务流程细节数据,针对非凡的业务剖析场景比拟不便和灵便,数据处理上也更加灵便;弊病:数仓中须要治理太多的事实表,同时跟踪业务流转不够直观多事务事实表,将不同的事实放到同一个事实表中,即同一个事实表蕴含不同的业务过程。 多事务事实表在设计时有两种办法进行事实的解决:一是不同业务过程的事实应用不同的事实字段进行寄存:二是不同业务过程的事实应用同一个事实字段进行寄存,但减少一个业务过程标签。长处:可能更直观的跟踪业务流转和以后状态,流程事实集中,不便大部分的通用剖析利用场景,因为和业务侧的数据模型设计思路统一,也是目前最罕用的事实表设计;弊病:细节数据跟踪不到位,非凡场景的剖析不够灵便; 两种表的设计区别在于对业务流程的拆分思路不同,具体抉择事实表的构建思路,须要依据理论的业务确定,个别倡议两者联合。 父子事实的解决形式,通过摊派父订单的金额将所有业务过程的度量全副带进购物网站交易事务事实表中,包含下单数量、商品价格、子订单折扣、下单摊派比例、父订单领取金额、父订单领取邮费、父订单折扣、子订单下单金额、子订单下单无效金额、领取摊派比例、子订单领取金额等,将父子事实同时冗余到事务表中。 设计准则 1.事实完整性 事实表蕴含与其形容的过程无关的所有事实,即尽可能多地获取所有的度量。 2.事实一致性 在确定事务事实表的事实时,明确存储每一个事实以确保度量的一致性。 3.事实可加性 事实表确定事实时,往往会遇到非可加性度量,比方摊派比例、利润率等,尽管它们也是上游剖析的关键点,但往往在事务事实表中关注更多的是可加性事实,上游用户在聚合统计时更加不便。 2、周期快照事实表快照事实表在确定的距离内对实体的度量进行抽样,这样能够很容易地钻研实体的度量值,而不须要汇集长期 的事务历史。特色用快照采样状态 快照事实表以预约的距离采样状态度量。这种距离联结一个或多个维度,将被用来定义快照事实表的粒度,每行都将蕴含记录所波及状态的事实。 快照粒度 ...

July 25, 2022 · 1 min · jiezi

关于数据:数字化转型时代的企业数据新基建-爱分析报告

前言 刚刚过来的21世纪的第二个十年,是生产互联网蓬勃发展的十年,也是云计算、大数据、人工智能等新一代信息技术,即“数字化技术”疾速崛起的十年。在这一时期,以信息服务为主的生产互联网行业,如电商、互联网金融、社交娱乐等,充沛享受了数字化技术带来的“数字化红利”,极大推动了其终端用户的消费行为与体验的数字化转型。但相比于生产互联网行业在数字经济浪潮下的蓬勃发展,以传统线下服务、实体商品制作为主的传统行业逐步显得落寞。在国际局势不明朗、国内市场红利逐渐耗尽、存量竞争日益显著、人才老本日益高企、产业升级换代压力增大的当下,传统行业的经营与效益上正面临三十年未有之变局,在新兴的数字化业态冲击下,还同时面临着客群与市场绝对萎缩的困局。因而,投资数字化技术,充沛接收技术带来的改革,推动企业数字化转型,从而实现经营策略由粗放式向精细化的转变,反抗经济周期带来的上行压力,将成为传统企业的必然抉择。依据华为&牛津经济研究院报告显示,自2000年以来,金融、制作、ICT服务、交通、公用事业、房地产、农业等传统行业的数字化技术投资的年复合增长率,显著超过以生产互联网为代表的数字化技术制造业。图 1:  各行业的数字投资增长 该报告还表明,过来三十年中,数字化技术投资每减少1美元,便可撬动GDP减少20美元,而1美元的非技术投资仅能推动GDP减少3美元,数字化技术投资的均匀回报是非数字化技术投资的6.7倍。这也阐明,驱动传统行业的数字化技术投资的能源起源,实质上是企业对效益晋升的谋求。在数字化技术中,数据库、数据仓库、大数据平台和云数据平台等根底软件,形成了企业数字化转型的重要基础设施,即“数据基础设施”。随着各行业的数字化场景的倒退,新的业务挑战对“数据基础设施”的技术路线演进产生了极大的推动作用。然而,迄今为止的数据基础设施倒退,依然难以彻底解决以集团型、多分支-企业为代表的大中型企业数字化转型的痛点。比方,银行、保险等金融机构广泛采纳夜间“跑批”的形式对当日交易数据进行ETL解决,从而将数据汇总到数据仓库、数据集市中,供用户进行报表剖析与即席查问,但数据基础设施底层的简单查问性能,成为“跑批”后果时效性的次要瓶颈,这也影响了用户进行决策的频次和时效性。再如,电力、电信等关乎国计民生、用户数量微小、IT基础设施简单的行业,广泛面临的挑战是数据规模及其宏大,而数字化利用的计算与存储需要也及其微小。为了晋升工作负载能力,多集群的数据基础设施曾经成为行业广泛现状。由此,只管交易型数据库的“数据孤岛”失去了肯定水平的治理,但在数据基础设施外部,却因为多集群间的数据共享难题,产生了新的“数据孤岛”。由此可见,数据基础设施的技术架构、性能与性能特点的一直演进和倒退,仍具备有限的设想空间。以“云数据平台”为代表的新一代数据基础设施,正逐步成为集团型、多分支企业推动整体数字化转型的最佳抉择。 目录 数据基础设施撑持企业数字化转型企业数字化深刻推动,云数据平台价值浮现以云数据平台为核心的企业数字化落地方法论典型行业实际案例1.  数据基础设施撑持企业数字化转型 在宏观经济走向中低速增长的明天,“重资产、薄利润、现金流短缺”等经营现状,愈发困扰着传统企业,产业降级任重而道远。相比于从诞生第一天起就带有浓厚“数字化基因”互联网企业,许多传统企业对数字化技术的利用还处在摸索阶段。然而,中国经济曾经开始迈入“数字经济”的新阶段,疾速涌现和崛起的数字原生企业,以及数字化技术带来的竞争劣势,意味着传统企业如果不疾速接收数字化技术带来的改革,那么将必然无奈维持原有竞争劣势。因而,通过踊跃接收数字化技术,重塑业务流程,拓展业务边界,将成为传统企业实现可继续倒退的必然选择。1.1  企业数字化的战略规划国务院发展研究中心课题组公布的《传统产业数字化转型的模式和门路》对产业数字化进行了定义:利用新一代信息技术,构建数据的采集、传输、存储、解决和反馈的闭环,买通不同层级与不同行业间的数据壁垒,进步行业整体的运行效率,构建全新的数字经济体系。在这一根底之上,爱剖析认为,企业的数字化转型,则是指企业依靠于数字化技术(即“新一代信息技术”),构建与数字化技术相适应的战略规划、人才能力、组织架构、经营办法,推动业务及经营模式的一直改革与麻利翻新,从而帮忙客户发明更大价值,实现业绩增长与经营效率晋升。相比于传统企业,数字化企业具备四大基本特征:以客户为核心、以数据价值为根底、以AI能力为引领、以麻利能力与驱动型IT组织为撑持。由此可见,企业数字化转型是一项系统性、全员性工程,绝非可能欲速不达。传统企业的数字化转型我的项目,普遍存在“老本高、周期长、难度大”等问题,这使得传统企业的数字化转型步调显得缓慢且激进。为了升高数字化转型我的项目的失败危险,升高试错老本,晋升我的项目整体效益,进行自顶向下的战略规划显得至关重要。依据先进企业的数字化实践经验来看,胜利的企业数字化策略,至多该当包含数字化策略、数字化场景、数字化技术与数字化组织等四个档次。图 2:  企业数字化的战略规划 数字化策略:企业数字化策略具备系统性特色,是“一把手工程”,责任首先在于企业高层,胜利的要害也在于企业高层观点与理念的转变。因而企业首先须要进行战略目标的设定,从而充分调动全企业、各部门的资源,对业务场景、组织架构、数据基础设施进行整体规划,并对施行流程进行整体把控。数字化场景:数字化策略的外围价值在于赋能业务场景,不足落地场景的数字化策略只是“海市蜃楼”。因而,企业该当在具体业务场景中掂量数字化的实在价值,这就须要企业全面梳理业务场景,并对各场景的业务需要、现有条件、预估投入、波及范畴和预期业务收益进行全面评估,保障数字化转型的指标与收益绝对明确、施行过程与影响绝对可控。数字化技术:数字化技术次要指为企业数字化策略提供技术撑持的云、数据、AI等技术能力。其中,数据能力次要指企业基于数据分析来撑持业务决策的能力,其在根底软件层面的具体载体是“数据基础设施”。数字化组织:数字化策略的外在要求是对数字化组织架构的打造。为了深度利用各类数字化技术,企业须要推动数字化人才的引进和造就,比方数据分析师、数据科学家、算法工程师等专业性技术人才,以及具备数字化意识的业务人才和治理人才。在人才根底上,企业须要进一步搭建最大化人才价值的数字化团队。在文化层面,企业须要通过一系列的标准规范、制度安顿、激励措施,推动“以数据发现问题所在、以数据分析问题成因、以数据预测发展趋势、以数据推动业务改革”成为全企业、各部门的个体共识,将数据文化内化为企业文化的一部分。1.2  数据基础设施的定义爱剖析认为,数据基础设施是一套建设在过往的交易数据根底之上,并联合肯定的技术手段与业务流程,为业务场景提供数据服务,实现数据价值变现的生态体系。数据基础设施的建设形式、建设品质间接决定了数字化团队的合作形式与工作成果,也进一步影响了整个企业数字化策略的最终成果。一般来讲,数据基础设施包含数据体系、技术体系、经营体系、服务体系等四个局部。图 3:  数据基础设施架构 数据体系:蕴含了企业内可利用数据的组织形式,包含源零碎的交易数据,各类非结构化、半结构化、二进制数据,以及结构化数据的数据分层关系、数据模型、数据表构造、视图关系、字段名称、数据容量、数据权限调配等。技术体系:蕴含了一系列数据相干的技术产品,如交易型数据库、数据接入工具(数据同步/消息中间件)、剖析型数据库、NoSQL数据库、数据开发工具、AI算法开发工具等,以及不同产品之间的协同关系与业务流程。经营体系:通过数据规范、数据品质、数据资产目录、数据服务培训与推广、平台操作流程与标准等,搭建数据的资产化治理与经营体系,从而为服务体系提供稳固的经营撑持,并保证数据基础设施与组织架构之间的协同效率。 数据经营体系建设在金融行业的重要性:在中国经济转型、金融科技高速倒退、金融环境及监管政策变动的大背景下,金融行业尤其银行业面临着继续挑战和改革压力,亟需推动全面的数字化转型。在需要层面,数据曾经成为金融机构的策略资产,数据的准确性、完整性、一致性等数据质量指标对金融机构至关重要。在政策层面,银监会、人民银行、外管局等监管机构对商业银行等金融机构的数据良好规范、数据一致性、完整性等数据质量指标的要求也日趋严格。比方,银保监会于2018年5月21日正式公布《银行业金融机构数据治理指引的告诉》(银保监发【2018】22号),对银行数据治理体系建设提出了标准要求,并将数据治理与监管评级挂钩,将银行业金融机构发展数据治理工作的重要性进步到了策略高度。然而,以后许多金融机构依然普遍存在“短少数据治理体系、数据品质较差、数据利用难以无效发展”等问题,与满足监管的根本要求还有较大间隔,也难以满足日益增长的数据利用需要。因而,构建欠缺的数据经营体系,增强数据治理、晋升数据品质、施展数据资产价值、反对业务翻新和精细化治理的必要性和紧迫性日益凸显。 服务体系:是数据与业务联合的关键环节,次要以可视化大屏、固定报表、自助式报表、数据API服务、数据利用等数据服务状态,以便捷的形式为业务部门提供数据服务,实现数据变现。 1.3  数据基础设施的演进历程作为企业数字化转型的外围撑持,数据基础设施的技术架构特点,决定了其撑持数字化团队与数字化场景的能力下限。依据业务场景、组织架构、技术架构、性能特点、性能特点的差别,数据基础设施的演进历程,曾经经验了数据库、数据仓库、大数据平台三个残缺阶段。目前,数据基础设施正在迈向前三个阶段之后的第四个阶段,即“云数据平台”阶段。而在这一演进过程中, 还呈现了像“数据中台”这样的阶段性概念。图 4:  数据基础设施的演进历程 1.3.1  数据库阶段数据库是数据基础设施的萌芽阶段,而最早的商用数据库产品,如Oracle、DB2,均诞生于1970年代末到1980年代初。晚期的数据库利用于以OLTP(联机事务处理)场景为主,即间接承载来自业务零碎、交易系统的数据存储与计算,因而这类数据库又被称之为“事务型数据库”或“交易型数据库”。在许多状况下,人们也将它等同于广义的数据库。业务场景该阶段的企业不足成熟、可落地、面向一线业务人员的数字化场景,外围痛点是为企业管理层解决宏观层面的经营决策问题。因而,该阶段的数据查问维度、数字化展示模式都比拟繁多,次要是基于固定的若干张数据表,生成面向管理层的固定报表、可视化大屏等。组织架构该阶段的企业广泛不足业余的数字化人才,也不足成熟的数字化组织架构与文化,次要由IT人员承当面向管理层的数字化场景的落地。数据基础设施的技术架构该阶段的数据基础设施,尚未齐全从业务零碎的交易数据库中分离出来。对数据分析需要,企业个别基于交易型数据库独自建设一套用于剖析查问的历史数据库,会集来自不同交易数据库的原始数据。在少部分数据分析场景下,企业还会间接用交易数据库进行反对。交易型数据库的软硬件架构都采取共享存储架构,即计算节点可能拜访到任意的存储节点,同时须要基于专有物理硬件,由此保障对性能的良好优化。数据基础设施的性能及性能特点 性能特点:对各类SQL规范、ACID个性(指数据库事务的四个属性,包含原子性、一致性、隔离性、持久性)的反对都相当欠缺,因而带来了很强的稳定性。然而,共享存储架构带来的毛病是可扩展性差,个别只能扩大到十几节点就会遇到瓶颈。性能特点:主导第一代数仓的Oracle、IBM等IT巨头公司具备深厚的根底钻研和性能优化能力,因而在OLTP场景中体现低劣,然而因为共享存储架构在可扩展性方面的有余,使得其在大数据分析场景中的性能体现绝对个别。典型产品:Oracle、IBM DB2 1.3.2  数据仓库阶段1990年代后,尤其是随着E.F.Codd于1993年正式提出联机剖析解决(OLAP)的概念,数据基础设施开始进入“数据仓库”时代。业务场景该阶段的企业开始具备肯定的数字化意识,数据分析的需要开始从管理层下沉到业务部门,外围痛点是为一线业务人员的解决业务决策问题。因为OLAP的数据查问维度更加简单,查问频次更高,企业开始将承载OLAP工作负载的数据库与业务零碎的交易数据库进行拆散,从而防止OLAP对外围交易造成烦扰。因而,专用于OLAP的剖析型数据库诞生,并逐渐从交易型数据库中分离出来,也因而取得了“数据仓库”这一更加形象的别称。该阶段的数字化展示模式,依然以传统报表和可视化大屏为主,因而为了撑持业务部门的数据分析需要,须要具备业余的数据分析人员响应需要,并提供技术支持。然而,为了满足业务人员须要,企业须要存储更多的历史数据,经常须要对数据仓库进行扩容,而Oracle、DB2等交易型数据库扩展性较差,难以满足扩容需要。因而,基于MPP无共享架构的数据库逐渐进入人们视线。组织架构在组织架构层面,该阶段的企业大多依然由IT部门来撑持数字化,业务部门、IT部门均短少数字化人才。因而,其IT组织架构只管可能撑持肯定频次的业务需要,但对于紧迫需要依然难以充沛响应。数据基础设施的技术架构数据仓库的软硬件架构经验了较为漫长的倒退历程。1980年代,Teradata首次推出了采取MPP无共享存储架构的数据库,其次要特点是基于大规模并行处理(MPP)架构,即在每个计算节点都有本人独有的存储节点,数据并平均打散到所有节点存储,并将多个并行任务扩散到不同的节点上执行。此外,Teradata持续采纳了相似晚期Oracle、DB2等数据库的专有物理硬件。到1990年代之后,MPP数据库被越来越多的利用到数据仓库的构建之中。到2006年前后,Greenplum、Vertica等反对x86通用服务器的MPP数据库呈现,升高了数据仓库的建设和扩容老本。数据基础设施的性能及性能特点 性能特点:无共享架构使得节点扩大变得更加容易,而不再受到共享存储架构的制约,节点数量下限个别能达到数百个;基于x86通用服务器的无共享架构,升高了扩大老本,晋升了灵活性;对SQL规范、ACID个性的支持性较好。性能特点:主导MPP数仓的Teradata、EMC(收买Greenplum)、惠普(收买Vertica)等公司,在整体实力上同样较为雄厚,具备较强的根底钻研和性能优化能力;无共享和MPP架构打消了在大数据场景下的性能瓶颈,晋升了负载平衡能力,在大数据分析场景中有着超过交易型数据库的性能体现。典型产品:Teradata、EMC Greenplum、HPE Vertica 1.3.3  大数据平台阶段2005年后,因为互联网、挪动互联网的逐渐遍及,业务零碎的终端用户量的爆发式增长,企业内积淀的数据量同样出现爆发式增长,数据基础设施开始进入“大数据平台”阶段。业务场景在互联网、挪动互联网技术的推动下,金融、电商、社交娱乐等畛域的企业开始越来越多地涉及终端用户的线上数据。这些数据具备多样、多维度、大规模的特点。首先,数据类型非常多样,包含结构化数据(关系型数据库中的表)、半结构化数据(如CSV、XML、日志、JSON)、非结构化数据(电子邮件、文档)、二进制数据(图形、音频、视频)等。其次,数据维度更多,蕴含了用户的各类行为数据。此外,存储的数据量也从过来的GB、TB级别,进一步晋升高PB、EB级别。该阶段的数字化展示模式更加多样,除了传统报表、可视化大屏,具备自助式剖析能力的麻利BI工具逐渐遍及。这使得在局部场景下,业务人员可能自行进行数据摸索与剖析,而不再须要IT人员、数据分析师随时进行技术支持。然而,MPP数据仓库的扩大规模仅能到数百节点,难以进一步扩容,而且不反对非结构化、半结构化数据,逐步难以满足企业需要。在这样的背景下,以Hadoop为代表的大数据技术逐渐成为数据基础设施的核心技术之一。组织架构该阶段的企业,广泛开始领有具备业务理解能力和数据分析能力的数字化人才,但人才往往扩散在各业务线,或归并在IT部门,不足对立的数字化组织架构,以及对数字化的整体推动能力。数据基础设施的技术架构以Hadoop为代表的大数据技术为企业对立采集、存储与解决各类等多种类型数据提供了技术可能性,“数据湖”架构的理念也由此诞生,而许多企业又将“数据湖”称之为“大数据平台”。基于Hadoop生态的大数据平台,须要兼容前一阶段建设的MPP数据仓库,同时提供基于SQL-on-Hadoop(如Hive、SparkSQL)的数据仓库,以及包含NoSQL数据库(如HBase)、流解决、批处理、分布式存储(如HDFS)在内的大数据套件。与MPP数据仓库的共享存储架构不同,SQL-on-Hadoop数据仓库基于HDFS等分布式、软件定义的存储,在软件层面实现了存储节点与计算节点的互相独立,因而能够实现计算、存储独立扩大。数据基础设施的性能及性能特点(仅针对SQL-on-Hadoop数据仓库) 性能特点:因为计算存储拆散架构的特点,SQL-on-Hadoop数仓可能实现计算、存储别离扩大,因而在扩展性、在线扩容等方面有显著劣势,反对上千节点的扩大规模;然而,因为HDFS的只读限度,SQL-on-Hadoop数仓在对传统事务型数据库所具备的SQL规范、ACID个性反对较差,这也使得利用从事务型数据库、MPP数据库向SQL-on-Hadoop数仓迁徙的过程中,存在大量不兼容的问题,即利用易迁移性较差。性能特点:SQL-on-Hadoop数仓由开源我的项目、互联网公司、初创型公司所主导,生态相比于前两代数仓更加凋谢,然而因为不足针对性能和性能的深度优化,在大多企业客户中只被利用于边缘场景,始终未达到可能全面取代传统数仓的要求。典型产品:Hive、SparkSQL、Cloudera Impala、Facebook Presto 1.3.4  云数据平台阶段2015年后,企业上云曾经成为广泛共识,同时企业各业务部门对大数据分析的需要更加普遍化、麻利化、个性化、场景化,数据的业务价值也由辅助决策转变为推动翻新。在这一背景下,数据基础设施开始进入“云数据平台”阶段。业务场景该阶段的企业,其数字化场景更加宽泛且广泛,而且产生了大量的跨部门、跨业务线,甚至跨分支机构、跨组织、跨地区的数据共享与联动剖析。同时,孵化于企业原有体系内,但又须要由数据来驱动迭代优化的翻新业务层出不穷。因而,企业数字化转型思路须要从过来的单个场景冲破,转变为全团体、跨组织、跨地区的数据共享与资产化治理,以及全场景数据赋能。组织架构为了推动团体层面的业务、数据共享,减速业务的麻利翻新,企业须要在组织架构层面对数字化人才、数据基础设施的治理和经营团队进行统筹规划。比方,以阿里巴巴、腾讯为代表的互联网巨头都先后提出了“中台策略”,成立中台部门对数字化策略进行兼顾。为了推动数据的跨部门复用与共享, “数据中台”的概念也被同时提出。数据基础设施的技术架构然而,“数据中台”概念的局限性在于并未扭转数据基础设施的底层技术架构,而是沿用了大数据平台阶段的技术架构,并保留了传统技术路线带来的弊病。对此,云数据平台采纳了计算与存储拆散、虚构计算集群等新型技术架构,对象存储等云原生技术对数据平台进行了深度优化。数据基础设施的性能特点基于云原生、计算存储拆散、虚构计算集群等新型技术架构,云数据平台实现计算、存储节点独立扩大,冲破了基于MPP、SQL-on-Hadoop技术的大数据平台在扩展性、灵活性方面的局限。此外,云数据平台还克服了SQL-on-Hadoop数据库在SQL规范、ACID个性等方面的有余,能够反对数字化利用从传统共享存储数据仓库、MPP数仓向云数据平台的平滑迁徙。最初,大数据平台的根底上,云数据平台吸纳了来自“数据中台”理念的数据资产层与数据服务层,从而造成“数据平台-数据资产-数据服务”的三层架构。图 5:  云数据平台“平台-资产-服务”三层架构 数据基础设施的性能特点相比于大数据平台,云数据平台解脱了以Hadoop为外围的技术体系的影响,克服了其在性能优化和并发等方面的缺点,对云平台进行了原生优化,尤其是在剖析型云数据仓库方面,能够反对计算与存储拆散,弹性可扩大,反对数千节点规模集群,虚构计算集群,湖仓一体,并对性能做了深度优化,从而大幅度晋升面向多张表、批量数据、简单表关联的简单查问性能。2.  企业数字化深刻推动,云数据平台价值浮现只管数据基础设施经验了漫长的演进历程,但从数据库、数据仓库到大数据平台阶段,数据基础设施在扩大能力、弹性能力、查问性能、易迁移性等方面,始终受到技术路线繁冗、遗留问题重重的MPP、SQL-on-Hadoop等上一代数据仓库技术的制约。同时,企业数字化实际的主战场,曾经从过来的互联网、创新型企业,全面转到以集团型、多分支企业为代表的大中型传统企业,数字化需要的深度、广度呈现全面晋升。然而,时下的“数据中台”解决方案,实质上只是在大数据平台的根底上,交融了数据资产化与数据服务化的治理能力,并没有对大数据平台的原有技术路线进行革命性降级。因而,数据基础设施须要对技术进行彻底改革,变得更加对立与弱小,而新一代数据基础设施——“云数据平台”的呈现,则预示着数据基础设施的将来改革方向。2.1  四大新挑战困扰企业数字化转型金融、能源、制作、批发等行业内,存在着许多体量宏大、组织架构简单的集团型、多分支企业。然而,这类企业在推动数字化转型过程中,数字化利用逐渐体现出了“大规模”、“强敏态”、“高时效”、“智能化”等四大新特色,对数据基础设施提出了相应的四大挑战,如下图所示。图 6:  数据基础设施面临的四大挑战 2.1.1  数据规模收缩,数据基础设施产生新“数据孤岛”金融、电力、电信等行业内企业,普遍存在业务零碎泛滥、交易次数微小、交易额度微小、数据积攒量微小等特色。据公开数据显示,2019年全国银行卡交易总次数为3219.89亿笔,日均8.82亿笔,交易总金额886.39万亿元,日均2.43万亿元。因而,企业内的数字化利用对数据基础设施的计算并发量、存储下限的要求越来越高,数据基础设施的节点规模呈现了急剧收缩。比方,某国有大行须要剖析数十PB级交易数据,须要3000以上的数仓节点能力满足存储需要。图 7:  数据规模收缩对数据基础设施的挑战 在这样的背景下,两方面因素独特导致了数据基础设施内的“数据孤岛”产生,进一步拉高了企业的数据运维治理老本。传统交易型数据库与MPP数仓的节点规模限度目前,MPP凭借对SQL规范、ACID个性的良好反对,依然是大型企业的外围数字化利用的支流抉择。此外,许多企业还在采纳Oracle、DB2等传统的交易型数据库来撑持数据分析业务。面对收缩的数字化利用规模,企业内的数据基础设施一旦达到可扩大的节点下限,必须采纳多集群部署形式,即通过利用级的多集群划分来撑持更多的利用带来的并发计算,通过多集群间的数据扩散存储来撑持更高规模的数据存储。然而,传统交易型数据库、MPP数据仓库的可扩大节点下限仅在十几到上百节点,在许多数字化较为当先的大型企业内,节点需要曾经很容易冲破下限,因此同时部署多个MPP集群,曾经成为大型企业数字化的必须。比方,某国有大行须要剖析10PB级交易数据,须要3000以上的数仓节点能力满足存储需要,因而只能建设40个MPP集群。然而,多集群间的数据共享十分困难,该行只能对局部数据在多个集群进行多份冗余存储,导致最终的理论数据存储量高达几十PB,集群之间数据很容易产生不统一,给该行造成了极大的运维累赘。由此可见,只管数据基础设施的呈现与倒退始终是为了实现数据共享利用,打消交易型数据库之间的“数据孤岛”,然而多集群的现状,事实上在数据基础设施外部制作了新的“数据孤岛”。不同技术架构的数据仓库间的利用易移植性问题与传统交易型数据库、MPP数仓不同,Hive、SparkSQL等SQL-on-Hadoop数仓具备上千节点规模的扩大能力,但其缺点在于对SQL规范、ACID个性的反对能力有余,性能比MPP差多倍,并发反对无限,因而许多大型企业偏向于将更多地利用在边缘业务的数字化场景中,与MPP数仓并行应用,独特构建数据基础设施。然而,传统交易型数据库、MPP数仓、SQL-on-Hadoop数仓在计算存储架构方面的差别,以及在SQL规范、ACID个性上的不兼容,意味着单方之间的数据迁徙和共享十分困难。然而,将来大型企业的数字化,往往不再是过来由单个部门、单条业务线驱动的数字化,而是越来越多地由策略层面进行统筹规划,全副门、全业务线协同推动的数字化。在这种背景下,大型企业经常须要将过来独立建设的数字化利用进行迁徙,以同一套数据基础设施撑持下层各个业务线的数字化利用,岂但实现了治理的对立,还可晋升其扩大能力。因而,在将遗留的数字化利用在不同技术架构进行迁徙过程中,往往须要进行大量的代码重构,移植老本较高,难以实现平滑迁徙。例如,某电网零碎内分公司搭建了基于Hive的大数据测试环境,然而领有更多计算节点的Hive大数据分析性能比照Oracle简直没有晋升,且原有基于Oracle的泛滥利用零碎向Hive迁徙时,因为Hive不反对存储过程等Oracle很多性能,须要改写的代码量微小。因而,大型企业在数字化过程中,亟需摸索一套通过“大一统”形式来建设数据基础设施的解决方案,打消数据基础设施内的“数据孤岛”景象。为了应答这些挑战,新一代数据基础设施——“云数据平台”应具备以下能力: 计算存储拆散架构,及其带来的强扩展性、强共享性:采取计算、存储拆散的技术架构,反对数千节点的集群规模,反对多虚构计算集群;强SQL规范反对、ACID个性、Hadoop原生反对(即反对传统Hadoop生态系统),及其带来的强兼容性:具备欠缺的SQL规范、ACID个性的反对能力,兼容过来采纳Oracle、DB2等传统交易型数据库、MPP数据库的数字化利用,并反对对接拜访HDFS等Hadoop原生组件,从而兼容过来采纳SQL-on-Hadoop数据库的数字化利用。 图 8:  云数据平台应答数据规模收缩挑战  2.1.2  敏态特色凸显,数据基础设施弹性能力受挑战早在2014年,Gartner就提出了交融“稳态IT”与“敏态IT”的“双模IT”概念。对于传统行业内的集团型、多分支企业来说,增强“敏态IT”能力建设,是推动数字化转型的重要组成部分。在“敏态IT”模式下,企业须要更加关注业绩增长、品牌营销与客户体验,大幅加强面对不确定场景的响应能力,这就要求企业IT团队在资源获取、利用迭代、零碎运维等方面实现麻利化转型。比方,国内某大型航空公司,为了推动全公司的IT麻利化转型,从团队、工具、办法、实际等四个层面实际麻利理念。在工具层面,该航司依靠云计算IaaS平台,以及基于云数据库、Docker、Kubernetes、AIOps等技术的PaaS平台,构建了一站式麻利开发治理平台,将过来基于传统IT环境的利用交付过程迁徙到云上,无效晋升了产品迭代速度,优化了客户体验,促成了业绩增长。由此可见,具备按需取用、疾速弹性、自动化编排等劣势的云计算、云原生技术,成为撑持“敏态IT”的新型IT基础设施。这一趋势对数据基础设施的影响体现为两个档次,第一层是传统业务上云带来的数据的上云,第二层是数字化场景拓展带来的数字化利用上云。传统业务与数据上云随着数字化转型的深刻推动,企业上云从互联网企业逐渐渗透到传统企业,从翻新业务、边缘业务逐渐渗透到传统业务、外围业务。同时,随着企业上云的推动,寰球范畴内的数据的产生与存储过程,越来越多地从传统数据中心转移到公共云环境中。依据IDC报告显示,到2025年,公共云中的数据百分比将靠近50%。数字化利用上云随着数字化营销与销售、数字化生产制作、数字化洽购、数字化协同办公等新兴数字化场景一直呈现,企业IT的“敏态”特色一直加强,工作负载量、负载量的波动性相比过来都有显著晋升。因而,数字化利用上云也成为大势所趋。另一方面,来自传统业务、外围业务的交易数据的逐渐上云,也为数字化利用的上云铺平了路线。在这两大背景之下,为了保障数字化利用的高可用性,数据基础设施同样该当具备“敏态”特色,满足资源疾速取用、疾速启停的弹性能力。因而,对数据基础设施进行云化革新将成为必然趋势。图 9:  数字化利用的敏态化对数据基础设施的挑战 ...

July 22, 2022 · 1 min · jiezi

关于数据:数据仓库中的元数据管理

元数据管理系统这个名词,从事非数据仓库工作的人,很少会接触到这个零碎,即便是正在从事这方面工作的敌人,可能依然对它不是很理解,那么明天我来聊一聊元数据管理系统。 元数据的定义 依照传统的定义,元数据(Metadata)是对于数据的数据。在数据仓库零碎中,元数据能够帮忙数据仓库管理员和数据仓库的开发人员十分不便地找到他们所关怀的数据;元数据是形容数据仓库内数据的构造和建设办法的数据,可将其按用处的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储对于数据仓库零碎技术细节的数据,是用于开发和治理数据仓库应用的数据,它次要包含以下信息: 数据仓库构造的形容,包含仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的地位和内容;业务零碎、数据仓库和数据集市的体系结构和模式汇总用的算法,包含度量和维定义算法,数据粒度、主题畛域、汇集、汇总、预约义的查问与报告;由操作环境到数据仓库环境的映射,包含源数据和它们的内容、数据宰割、数据提取、清理、转换规则和数据刷新规定、平安(用户受权和存取控制)。 业务元数据从业务角度形容了数据仓库中的数据,它提供了介于使用者和理论零碎之间的语义层,使得不懂计算机技术的业务人员也可能“读懂”数据仓库中的数据。业务元数据次要包含以下信息:使用者的业务术语所表白的数据模型、对象名和属性名;拜访数据的准则和数据的起源。 零碎所提供的分析方法以及公式和报表的信息;具体包含以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它示意企业数据模型的高层信息、整个企业的业务概念和互相关系。以这个企业模型为根底,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到成竹在胸。多维数据模型:这是企业概念模型的重要组成部分,它通知业务剖析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规定。这里的数据立方体示意某主题畛域业务事实表和维表的多维组织模式。业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是示意出了数据的业务视图,这些业务视图与理论的数据仓库或数据库、多维数据库中的表、字段、维、档次等之间的对应关系也应该在元数据知识库中有所体现。 元数据的作用 与其说数据仓库是软件开发我的项目,还不如说是系统集成我的项目,因为它的次要工作是把所需的数据仓库工具集成在一起,实现数据的抽取、转换和加载,OLAP剖析和数据挖掘等。如下图所示,它的典型构造由操作环境层、数据仓库层和业务层等组成。 其中,第一层(操作环境层)是指整个企业内无关业务的OLTP零碎和一些内部数据源;第二层是通过把第一层的相干数据抽取到一个中心区而组成的数据仓库层;第三层是为了实现对业务数据的剖析而由各种工具组成的业务层。图中右边的局部是元数据管理,它起到了承前启后的作用,具体体现在以下几个方面: 1、元数据是进行数据集成所必须的数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所蕴含的数据上,还体现在施行数据仓库我的项目的过程当中。一方面,从各个数据源中抽取的数据要依照肯定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库我的项目施行过程中,间接建设数据仓库往往费时、费劲,因而在实际当中,人们可能会依照对立的数据模型,首先建设数据集市,而后在各个数据集市的根底上再建设数据仓库。 不过,当数据集市数量增多时很容易造成“蜘蛛网”景象,而元数据管理是解决“蜘蛛网”的要害。如果在建设数据集市的过程中,留神了元数据管理,在集成到数据仓库中时就会比较顺利;相同,如果在建设数据集市的过程中漠视了元数据管理,那么最初的集成过程就会很艰难,甚至不可能实现。 2、元数据定义的语义层能够帮忙用户了解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样相熟数据库技术,因而迫切需要有一个“翻译”,可能使他们清晰地了解数据仓库中数据的含意。元数据能够实现业务模型与数据模型之间的映射,因此能够把数据以用户须要的形式“翻译”进去,从而帮忙最终用户了解和应用数据。 3、元数据是保证数据品质的要害数据仓库或数据集市建设好当前,使用者在应用的时候,经常会产生对数据的狐疑。这些狐疑往往是因为底层的数据对于用户来说是不“通明”的,使用者很天然地对后果产生狐疑。而借助元数据管理系统,最终的使用者对各个数据的前因后果以及数据抽取和转换的规定都会很不便地失去,这样他们天然会对数据具备信念;当然也可便捷地发现数据所存在的品质问题。甚至国外有学者还在元数据模型的根底上引入品质维,从更高的角度上来解决这一问题。 4、元数据能够反对需要变动随着信息技术的倒退和企业职能的变动,企业的需要也在一直地扭转。如何结构一个随着需要扭转而平滑变动的软件系统,是软件工程畛域中的一个重要问题。传统的信息系统往往是通过文档来适应需要变动,然而仅仅依附文档还是远远不够的。胜利的元数据管理系统能够把整个业务的工作流、数据流和信息流无效地治理起来,使得零碎不依赖特定的开发人员,从而进步零碎的可扩展性 。 元数据管理现状 由以上几节咱们理解到元数据简直能够被称为是数据仓库乃至商业智能(BI)零碎的“灵魂”,正是因为元数据在整个数据仓库生命周期中有着重要的位置,各个厂商的数据仓库解决方案都提到了对于对元数据的治理。但遗憾的是对于元数据的治理,各个解决方案都没有明确提出一个残缺的管理模式;它们提供的仅仅是对特定的部分元数据的治理。与元数据相干的数据仓库工具大抵可分为四类: 1、数据抽取工具把业务零碎中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些工具仅提供了技术元数据,简直没有提供对业务元数据的反对。 2、前端展示工具包含OLAP剖析、报表和商业智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们通过把关系表映射成与业务相干的事实和维来反对多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据绝对应的语义层。 3、建模工具为非技术人员筹备的业务建模工具,这些工具能够提供更高层的与特定业务相干的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。 4、元数据存储工具元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,内部无奈晓得这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包含微软的Repository,Ardent的MetaStage和Sybase的WCC等。 5、元数据管理工具目前国内的元数据管理工具大略有三类。一是像IBM、CA等公司都提供的专门工具,比方IBM收买Ascential失去的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依靠于某项BI产品,是一种第三方的元数据管理工具;三是像普元、石竹这样的集成商也有本人的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。 专门的元数据管理工具,对自家产品兼容较好,一旦波及跨系统管理,就不尽如人意了。从国内的理论利用来看,DAG的MetaCenter这一工具应用最多,目前所看到的在电信、金融畛域建设的元数据管理我的项目基本上都是利用了这一产品。 我从互联网上搜寻了简直所有的元数据厂家:Pentaho开源的MetaData产品,反对源码下载试用,能够进行集成开发;普元MetaCube下载后,配置麻烦,目前为止还没有调通;其余公司产品均不提供下载试用。 元数据管理规范 没有规矩不成方圆。元数据管理之所以艰难,一个很重要的起因就是不足对立的规范。在这种状况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的凋谢信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)规范的逐步欠缺,以及MDC和OMG组织的合并,为数据仓库厂商提供了对立的规范,从而为元数据管理铺平了路线。 从元数据的倒退历史不难看出,元数据管理次要有两种办法: 对于绝对简略的环境,依照通用的元数据管理规范建设一个集中式的元数据知识库。对于比较复杂的环境,别离建设各局部的元数据管理系统,造成分布式元数据知识库,而后,通过建设规范的元数据交换格局,实现元数据的集成治理。 目前OMG家的CWM(Common Warehouse MetaModel)规范已成为元数据管理界的统一标准:OMG是一个领有500多会员的国际标准化组织,驰名的CORBA规范即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的次要目标是在异构环境下,帮忙不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁布了CWM 1.0规范。CWM模型既包含元数据存储,也包含元数据交换,它是基于以下三个工业规范制订的: UML:它对CWM模型进行建模。MOF(元对象设施):它是OMG元模型和元数据的存储规范,提供在异构环境下对元数据知识库的拜访接口。XMI(XML元数据交换):它能够使元数据以XML文件流的形式进行替换。CWM为数据仓库和商业智能(BI)工具之间共享元数据,制订了一整套对于语法和语义的标准。它次要蕴含以下四个方面的标准: CWM元模型(Metamodel):形容数据仓库零碎的模型;CWM XML:CWM元模型的XML示意;CWM DTD:DW/BI共享元数据的替换格局CWM IDL:DW/BI共享元数据的应用程序拜访接口(API) 元数据管理性能 1、数据地图数据地图展示是以拓扑图的模式对数据系统的各类数据实体、数据处理过程元数据进行分档次的图形化展示,并通过不同档次的图形展示粒度管制,满足开发、运维或者业务上不同利用场景的图形查问和辅助剖析须要。 2、元数据分析血统剖析:血统剖析(也称血统剖析)是指从某一实体登程,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其波及的转换过程可能有不同类型,如:对于底层仓库实体,波及的是ETL处理过程;而对于仓库汇总表,可能既波及ETL处理过程,又波及仓库汇总处理过程;而对于指标,则除了下面的处理过程,还波及指标生成的处理过程。数据源接口实体由源零碎提供,作为数据系统的数据输出,其它的数据实体都通过了一个或多个不同类型的处理过程。 血统剖析正是提供了这样一种性能,能够让使用者依据须要理解不同的处理过程,每个处理过程具体做什么,须要什么样的输出,又产生什么样的输入。 影响剖析:响剖析是指从某一实体登程,寻找依赖该实体的处理过程实体或其余实体。如果须要能够采纳递归形式寻找所有的依赖过程实体或其余实体。该性能反对当某些实体发生变化或者须要批改时,评估实体影响范畴。 实体关联剖析:体关联剖析是从某一实体关联的其它实体和其参加的处理过程两个角度来查看具体数据的应用状况,造成一张实体和所参加处理过程的网络,从而进一步理解该实体的重要水平。 本性能能够用来撑持需要变更影响评估的利用。 实体差别剖析:体差别剖析是对元数据的不同实体进行查看,用图形和表格的模式展示它们之间的差别,包含名字、属性及数据血统和对系统其余局部影响的差别等,在数据系统中存在许多相似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在渺小的差别,甚至有局部属性名字都雷同,但处于不同的利用中。 因为各种起因,这些渺小的差别间接影响了数据统计后果,数据系统须要分明理解这些差别。本性能有助于进一步对立统计口径,评估近似实体的差别 指标一致性剖析:标一致性剖析是指用图形化的形式来剖析比拟两个指标的数据流图是否统一,从而理解指标计算过程是否统一。该性能是指标血统剖析的一种具体利用。 指标一致性剖析能够帮忙用户分明地理解到将要比拟的两个指标在经营剖析数据流图中各阶段所波及的数据对象和转换关系是否统一,帮忙用户更好地理解指标的前因后果,分明了解散布在不同部门且名称雷同的指标之间的差别,从而进步用户对指标值的信赖。 辅助利用优化元数据对数据系统的数据、数据加工过程以及数据间的关系提供了精确的形容,利用血统剖析、影响剖析和实体关联剖析等元数据分析性能,能够辨认与零碎利用相干的技术资源,联合利用生命周期治理过程,辅助进行数据系统的利用优化.辅助平安治理企业数据平台所存储的数据和提供的各类剖析利用,波及到公司经营方面的各类敏感信息。因而在数据系统建设过程中,须采纳全面的平安管理机制和措施来保障系统的数据安全。数据系统平安治理模块负责数据系统的数据敏感度、客户隐衷信息和各环节审计日志记录治理,对数据系统的数据拜访和性能应用进行无效监控。为实现数据系统对敏感数据和客户隐衷信息的访问控制,进一步实现权限细化,平安治理模块应以元数据为根据,由元数据管理模块提供敏感数据定义和客户隐衷信息定义,辅助平安治理模块实现相干平安管控操作。 基于元数据的开发治理数据系统我的项目开发的次要环节包含:需要剖析、设计、开发、测试和上线。开发治理利用能够提供相应的性能,对以上各环节的工作流程、相干资源、规定束缚、输入输出信息等提供治理和反对。

July 19, 2022 · 1 min · jiezi

关于数据:从-0-到-1-搭建企业级数据治理体系

数据治理是企业数据建设必不可少的一个环节。好的数据治理体系能够盘活整条数据链路,最大化保障企业数据的采集、存储、计算和应用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程须要留神哪些问题?总体而言,不能一口一个瘦子,路要一步一步地走。上面我将联合企业级数据治理教训,具体介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的次要内容以及过程中会遇到的哪些坑。 1 数据治理到底是在做什么 1.1  一个小故事在注释之前,我先介绍一个小故事。年底了,企业财务管理员小张须要统计公司的金融财务状况。繁忙了一年,公司老板亟需晓得公司目前的经营情况。 小张须要思考哪几个点呢: 1.公司目前有哪些财产?2.这些财产从哪里来?用到了哪些地方?3.是否所有财产的应用均符合规范和制度? 幸好小张年初曾经制订了一套治理规范。每笔财产的出入都有记录且严格把控应用状况,过程可追溯可审查。 最初,小张失去了领导们的统一好评。 1.2 数据治理做的事件故事中的小张监管着公司所有金融财产流动,确保财产应用的有序高效。这也是数据治理角色的相似性能。 数据治理的外围工作: 在企业的数据建设过程中,保障企业的数据资产失去正确无效地治理。一般来说,数据从内部或者外部产生后,通过大数据伎俩解决,流转到不同的业务端,为企业的下层利用提供数据赋能。 整个过程,如图所示。 咱们先做一些相似数据同步的工作将数据放入到大数据系统中数据进来后须要治理和存储,即参考建模实践和理论场景建设数仓通过主题布局、维度确定、标签计算输入等步骤解决数据输入到报表、利用端应用整体流程数据治理体系将全程监管。要确认进出零碎的数据品质怎么样?是否可转化数据资产?数据血统是否可追溯、数据安全等问题。脏乱差的数据是无奈应用的,甚至重大埋雷。 2 为什么要做数据治理 有一些企业对这个问题的概念很含糊,认为目前的数据规模很小,人为可控,临时不须要做数据治理。然而在理论应用中还是会遇到很多问题:数据监管力度不够,呈现脏数据数据体系逐步规模变大,管理混乱数据的血统失落,无奈回溯旧、老的数据无论企业的数据规模如何,我认为还是提起做好数据治理的布局。思考到老本的问题,能够分阶段进行。 为什么要进行数据治理:你的数据是否真的可用,缺失和异样值怎么办?数据从哪里来到哪里去,血统信息是否失落数据拜访是否平安,明文标识还是加密?新的数据加工参考什么标准,维度和标签治理是否存在规范? 有剑在手不必和无剑可用是两回事。提前做好数据治理布局,会节俭后续的革新老本,防止过程冗余重构或者推倒重来等状况的产生。 数据治理能够无效保障数据建设过程在一个正当高效的监管体系下进行,最终提供高质量、平安、流程可追溯的业务数据。 3 数据治理体系 企业数据治理体系包含数据品质治理、元数据管理、主数据管理、数据资产治理、数据安全及数据规范等内容。 1)数据品质个别采纳业内罕用的规范来掂量数据品质的好坏:完整性、准确性、一致性和及时性。 完整性:数据的记录和信息是否残缺,是否存在缺失状况准确性:数据汇总记录的信息和数据是否精确,是否存在异样或者谬误一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致及时性:数据能及时产出和预警 2)元数据管理元数据是对于数据的组织、数据域及其关系的信息,艰深了解,元数据就是形容数据的数据。 元数据蕴含技术元数据和业务元数据。能够帮忙数据分析人员分明理解企业领有什么数据,它们存储在哪里,如何抽取、清理、保护这类数据,也即数据血统。帮忙构建业务知识体系,确立数据业务含意可解释性晋升数据整合和溯源能力,血缘关系可保护建设数据品质稽核体系,分类管理监控 3)主数据管理企业主数据指企业内统一并共享的业务主体,大白话了解就是各业余公司和业务零碎间共享的数据。常见的主数据比方公司的员工、客户数据、机构信息、供应商信息等。这些数据具备权威性和全局性,可归约至公司的企业资产。 个别主数据管理须要遵循如下几点: 治理和监管各组织机构、子公司、部门对主数据的拜访制订拜访标准和治理准则定期进行主数据评估判断既定目标的欠缺水平组织相干人员和机构对立欠缺主数据建设提供技术和业务流程反对全团体集中兼顾 4)数据资产治理个别企业在数字化转型时都会思考数据资产梳理。你的数据有没有被正当利用?如何产生最大价值?这是数据资产治理关怀的外围工作。在构建企业资产时个别会思考不同角度,即业务角度和技术角度,最初进行合并,输入对立的数据资产剖析,并向外提供对立的数据资产查问服务。 如何盘活数据,造成数据资产,提供残缺的数据资产全景视图,可不便运营者全局、宏观地掌控企业资产动静。 5)数据安全数据安全是企业数据建设必不可少的一环,咱们的数据都存储在大大小小的磁盘中,对外提供不同水平的查问和计算服务。须要定时对数据进行核查、敏感字段加密、拜访权限管制,确保数据可能被平安地应用。 6)数据规范大白话了解,咱们须要在组织内定义一套对于数据的标准,好让咱们都能了解这些数据的含意。明天张三说这个客户号是办理银行卡的客户,今天李四又说是借贷过的客户。比照一看,两者的字段类型和长度统一,到底要驳回哪个意见呢?数据规范是保障数据的内外部应用和替换的一致性和准确性的规范性束缚,通过对立标准,打消二义性。 4 企业数据治理施行过程 4.1 数据治理施行框架数据治理体系是为了标准业务数据标准、数据规范、数据品质和数据安全中的各类治理工作流动而建设的组织、流程与工具。通过一个常态化的数据治理组织,建设数据集中管理长效机制,标准数据管控流程,晋升数据品质,促成数据规范统一,保障数据共享与应用平安,从而进步企业经营效率和管理水平。 4.2 数据治理组织架构企业数据治理体系除了在技术方面的施行架构,还须要治理方面的组织架构撑持。个别在数据治理建设初期,团体会先成立数据治理治理委员会。从上至下由决策层、管理层、执行层形成。决策层决策、管理层制定方案、执行层施行。层级治理、对立协调。 4.2.1 组织架构 1)决策层提供数据规范治理的决策职能,艰深了解即拍板定计划。2)管理层审议数据规范治理相干制度对跨部门难的数据规范治理争议事项进行探讨并决策治理重大数据规范事项,提交信息科技治理委员会审议 3)执行层业务部门:负责业务线数据规范的制订、批改、复审,推广落实数据规范等 科技开发:承当治理平台、数据规范、数据品质等施行工作;零碎设计和开发工作中遵循数据规范科技经营:负责技术标准的制订和技术推广 4.2.2 管理层职责 1)项目经理确定我的项目指标、范畴和打算制订我的项目里程碑治理跨我的项目协同 2)专家评审组评审我的项目计划,确定计划的合理性 3)PMO确保我的项目按计划执行治理我的项目重大危险执行跨我的项目协同、沟通组织我的项目要害评审 4)数据治理专项组执行各项目标落地施行和经营推广,推动执行层的施行数据治理技术落地和我的项目停顿。 4.2.3 执行层职责数据架构师、数据治理专家和业务专员造成数据治理"铁三角",严密合作,推动数据治理与数据架构落地。 1)业务专员业务专员作为业务部门数据治理的接口人,在规范、品质、利用等畛域组织业务人员发展工作定义数据规定保障数据品质提出数据需要 2)数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,经营数据资产;牵头组织业务、IT达成数据治理指标。构建数据逻辑模型监控数据品质经营数据资产 3)数据架构师数据架构师作为IT开发部门的专家,承当数据规范落地、模型落地的重任,帮助解决数据品质问题。数据规范落地逻辑模型落地物理模型落地 4.3 数据治理平台在确定了技术实施方案和组织治理架构,上面须要进行数据治理体系的落地施行。在大型企业中个别会开发一个残缺的数据治理平台,囊括所有数据治理性能,对外提供平台服务。 1)外围性能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是平安、牢靠的、规范的、有价值的。 数据资产治理:提供面向用户的场景化搜寻,提供全景数据资产地图,不便疾速查找资产和资产剖析 ...

July 15, 2022 · 1 min · jiezi

关于数据:国产之光高分时空表征学习模型-UniFormer

出品人:Towhee 技术团队 由中科院、国科大、上海人工智能实验室、商汤、香港中文大学几大高手联结出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在支流数据集上都获得了优良的问题:在 Kinetics-400/Kinetics600 上获得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上获得 60.9% 和 71.2% top-1 精度。其论文一经发表,就取得了高分,最终收录于 ICLR 2022(初审评分高达7.5分: 8 8 6 8)。 | UniFormer Architecture UniFormer 提出了一种整合 3D 卷积和时空自注意力机制的 Transformer 构造,能在计算量和精度之间获得均衡。不同于传统的 Transformer 构造在所有层都应用自注意力机制,论文中提出的 relation aggregator 能够别离解决视频的冗余信息和依赖信息。在浅层,aggregator 利用一个小的 learnable matrix 学习部分的关系,通过聚合小的 3D 邻域的 token 信息极大地缩小计算量。在深层,aggregator通过相似性比拟学习全局关系,能够灵便的建设远距离视频帧 token 之间的长程依赖关系。 参考资料:模型用例:action-classification/video-swin-transformer论文:[UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENTSPATIOTEMPORAL REPRESENTATION LEARNING](https://arxiv.org/pdf/2201.04...)更多材料:高分论文!UniFormer:高效时-空表征学习的对立TransformerICLR2022 UniFormer:无缝集成 Transformer,更高效的时空表征学习框架 更多我的项目更新及具体内容请关注咱们的我的项目( https://github.com/towhee-io/...) ,您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :) ...

July 15, 2022 · 1 min · jiezi

关于数据:轻松搞跨数据治理就靠这7招

置信,所有 CIO 都明确一个情理,如果数据治理失败,会给企业带来重大损失,包含财产损失、品牌声誉受损等,甚至会带来法律方面的危险。所以,如何制订一个弱小的数据治理策略,以确保企业数据在满足平安和合规性要求的同时,更易于拜访和治理,成为企业数字化转型过程中必修的一个课题。 随着企业对数据器重水平的一直减少,数据治理解决方案越来越成熟,技术越来越先进。但可怜的是,仍有很多IT从业者,正陷入数据治理的泥潭中,无法自拔。为了帮忙更多企业解决数据治理难题,本文梳理了7个常犯的谬误。 1、 把数据治理视为一个技术我的项目 数据治理计划,不是一个变化无穷的技术我的项目,而是须要灵便调整。换言之,与数据治理相干的政策制订,不应该是一个简略的布局,或者是一个我的项目式公布。因为,无奈跟上变动的数据治理策略,最终后果肯定是失败的。 另外,不合理的数据治理策略,会妨碍企业业务的失常倒退,导致各个部门不得不靠本人的力量,自行解决。 反之,好的数据治理策略,会为业务助力。比方:有的企业可能会通过流程治理的形式,来解决现金流。员工示意齐全可能承受这种形式,因为他们深知确保现金流平安的重要性。 如果说,数据是企业须要爱护的重要资产,而评估、收集和保留肯定的数据量和数据类型,就是一项艰巨的工作。如果数据治理得好,能够产生重大的经济价值;而如果只是一味地存储数据,没有衡量好数据的优劣,则会造成微小的资源节约。 2、漠视与团体领导层及业务层的高效沟通 数据治理是一个属于企业范畴内的整体打算。在布局之初,就应该与业务部门提前沟通,达成一致意见,免得呈现方向性的谬误。 数据治理不应该被视为 IT 部门的“宠儿”,获得公司领导层以及整个业务部门的认可,同样重要。为了确保数据治理工作的可扩展性和可持续性倒退,CIO在提出数据治理布局前,就应该明确业务指标,看重价值成绩,关注生产力能力晋升。 3、未能将数据真正的所有人纳入数据治理流程 很多数据治理我的项目最终失败,最大的失误是没有把真正的数据所有人拉入我的项目,并获得他们的认可和反对。 要晓得,要进行数据治理的企业或者组织,不肯定领有和应用这些数据,而只是充当数据管理员的作用。所以,如何找到真正领有或者应用数据的人,让他们对数据治理的打算和收益高深莫测,是一个重大挑战。 数据治理是一个从上到下的工作,只有取得全链条的反对,最终能力取得成效。反之,如果期间有一方拥护,那阐明数据治理工作还有待持续改良。 对于一个数据管理员来说,购买一个能对数据进行分类或者治理的平台很容易,但如果你想更改数据结构,或者清理无价值的数据,肯定要取得真正的数据拥有者的反对。 4、不器重各种条例和标准 将数据保护影响评估(GDPR)与隐衷影响评估(PIA)联合,是理解、收集和应用数据的最无效伎俩,也是将与数据处理相干的人员、内容、工夫、地点、起因和形式关联起来的最佳办法。 一些没有依照DPIA/PIA的要求来解决数据的企业,会失去数据保护能力,还会因应用未经受权的数据而处于不利位置,包含会遭逢严格的监管处罚。 5、没有足够的底层技术能力 许多 IT 领导者经常会犯一个重大的谬误,那就是在没有底层技术撑持能力前提下,引入数据治理策略。 如果你将本地集中式架构的数据,迁徙到一个云平台,却没有云平台治理能力,那么业务团队不得不本人想方法,以本人的形式治理数据。显然,如果没有最好充分准备,冒然让数据上云,会让数据治理团队处于被动位置。 相同,如果咱们在决定进行数据治理之前,就制订一个残缺策略,让大家在同一个布局下,通过无效的工具和平台来治理和应用数据,那肯定会获得事倍功半的成果。 6、没有建设全面的培训体系 如果没有相干的政策领导,进一步欠缺和坚固数据治理成绩,激励员工应用新的数据共享平台,最终的数据治理工作也还是会失败。 倡议在数据管理平台上线前,所有员工都要承受培训,以防止员工在无意间应用未经受权的数据或者利用。 数据管理团队在对特定的信息进行标准化之前,也要尽量听取员工的意见,理解他们的需要,确定哪些信息或者哪些合作工具更重要。另外,还要通过应用无效工具,管制敏感信息的泄露,最大化确保数据安全。 7、未指定我的项目责任人 在制订数据治理策略时,应指定具体的我的项目责任人,并且这位负责人要与业务高层深度沟通、相互配合,最终独特敲定计划。 同时,负责数据治理的主管,还应该与IT部门以及公司高层治理团队,定期召开会议,一直优化和调整数据治理计划。 总之,数据治理策略十分重要,须要精心设计。如果没有统一规划,每个业务单元都开发本人的业务零碎,最终就失去了数据治理的意义。尤其是,随着工夫的推移,利用越来越多,数据量越来越大,如果数据的格局都不对立,那前期的治理必定越来越简单。

July 13, 2022 · 1 min · jiezi

关于数据:TimeSformer-只靠-Transformer-就能理解视频注意力机制的又一次进击

出品人:Towhee 技术团队 Facebook AI 提出了一种 TimeSformer(Time-Space transformer)的视频了解新架构,齐全基于Transformer,可能彻底解脱 CNN!仅用三分之一的工夫训练,TimeSformer 就能以十倍的速度推理,并且在多个行为辨认数据集失去超群的成果。论文中应用的数据集包含 Kinetics-400,Kinetics-600、Something-Something-v2 、Diving-48 和 HowTo100M ,均验证了 TimeSformer 的高性能! TimeSformer: Visualization of 5 space-time self-attention schemesTimeSformer 能够捕捉整个视频的工夫和空间依赖性。它将输出视频视为一个时空序列,由每一帧中提取的图像小块 (patches) 组成,相似 Transformer 在 NLP 中的局部用法。与古代的 3D 卷积神经网络相比,TimeSformer 不仅减速了训练过程,也大幅缩小了推理工夫。除此之外,因为 TimeSformer 的可拓展性,它更具发展潜力,可能解决更长的视频片段、训练更大的模型。 参考资料: 模型用例:action-classification/timesformer 论文地址:Is Space-Time Attention All You Need for Video Understanding? 其余材料:Facebook AI 提出 TimeSformer:齐全基于 Transformer 的视频了解框架 TimeSformer 解析:视频了解中的transformer TimeSformer:视频了解所需的只是时空注意力吗? 更多我的项目更新及具体内容请关注咱们的我的项目(https://github.com/towhee-io/...) ,您的关注是咱们用爱发电的弱小能源,欢送 star, fork, slack 三连 :)

July 13, 2022 · 1 min · jiezi

关于数据:数据治理与数据认责概述

数据治理是国外银行业自 90 年代衰亡的概念,最开始的次要指标是进行客户数据清理、欠缺数据规范、确保银行数据的完整性,随着银行业务一直拓展、数据及其相干实践逐步完善,数据治理的概念和办法在金融行业曾经达成了共识,即数据不然而有价值而且还是有竞争价值的资产,为了让数据统一、精确、及时地交付给数据使用者,最重要的是,为了让数据能被使用者充沛了解,企业必须要对现有的数据进行治理。 数据治理体现了围绕企业数据处理所进行的数据品质、数据管理、数据政策、业务流程治理与风险管理等一系列实际的交融。企业通过数据治理能够保证数据的可信性,并且对数据认责的流程和办法能够施以积极主动的管制。数据治理须要以多种形式综合应用各种技术手段来辅助治理流程,须要时要赋予相干人员以势力用技术手段来建设流程。 数据不佳的根本原因 咱们常常会听到数据使用者对数据的埋怨: ● “咱们有很多的反复数据”---没有解决方案 ● “数字永远加不起来” ---不同部门应用不同的代码和统计口径 ● “我的报告达到总是提早,失去的总是过期的信息” ---提供要害数据的接口常常出错 ● “咱们永远不晓得在哪里能够找到咱们想要的信息” ---不足对数据的了解 ● “咱们不能批准对咱们的考核指标” ---部门应用不同的规范来掂量他们的绩效 ●“我怎样才能取得这个信息” ---没有明确的窃密和平安流程而这些数据问题的起源是多方面的,业务和 IT 都会产生数据问题。上面显示的是来自一个调研机构的调查结果。 通过下面的调研后果,咱们能够看到各种数据问题产生的次要起因包含: 76%数据录入谬误 53%源零碎的变动48%数据迁徙或我的项目改建46%用户不同的冀望26%零碎谬误 明天,许多组织开始意识到,为了把数据作为一项有价值的商业资产,或者甚至作为他们的财务资产,他们须要做一些更好的工作来治理这些数据。 事实的状况是,企业往往在口头上抵赖数据是企业的经营资产。他们议论施行组织,规范,规定,流程和工具来治理和进步数据的须要,但未能实现,并反对他们。因而,数据的品质就会大打折扣。 “咱们用零碎来治理咱们业务的各个方面,却没有一个中央来管理系统自身”,如果企业数据管理流程失败了,数据依然会流经咱们的 IT 零碎,然而这些数据将不会也不能自我管理! 尽管咱们采取了相干的数据管理措施,如:数据品质治理、数据整合、元数据管理、数据规范治理、数据模型和数据安全方面的治理。然而,流经咱们各个系统的数据的可信度,完整性,安全性还是得不到保障的。因为数据品质问题的根本原因是:不足数据政策,数据规范,领导准则和规定,不足工具和流程。 数据问题制约了业务的疾速倒退 一份钻研机构所作的调研后果是:47%的决策者对数据没有信念;59%的决策者遇到缺失的数据;42%的决策者晓得,他们应用了谬误的信息。因而,数据问题将制约业务的疾速倒退,导致企业不足竞争力。 数据品质缺点将导致 : • 因为财务报表上的有失精确和数据之间的互相矛盾带来更高的违规危险• 因为客户信息的有失精确造成市场营销的低效• 适度打搅客户 数据模型缺点将导致 : • 不同业务和数据主题之间数据的定义不统一• 资源节约:反复的数据对象和数据元素• 耗时的工作去找到你要找的数据。• 抉择了谬误的数据来拜访 元数据管理缺点将导致: • 寻找一个数据须要破费很长的工夫• 因为意识有余造成低效或谬误的决策• 缩短开发周期,进步培训老本• 因为对数据和业务规定不足信念造成低使用率 数据整合缺点将导致: • 因为各零碎之间数据互相矛盾或不能关联带来苦楚的数据比对• 因为不足对立的整合办法给我的项目带来不必要的复杂性和不一致性• 反复建设,冗余简单的接口,性能问题 主数据管理缺点将导致 : • 客户和产品的不足规范或不足对应会带来客户服务的问题• 缩短了产品开发和导入的周期• 给深刻理解客户之间的关系和层级带来艰难 平安和隐衷缺点将导致 : • 带来一直减少的合规危险,扩散或不统一的数据• 在客户、合作方、和监管机构眼中银行的信用降落• 身份被盗用和受权被滥用的危险 业界利用数据整合的劣势推广信息导向经营策略是银行在强烈的市场竞争中取得竞争劣势的最优抉择。从寰球多家银行业的实践经验来看,通过信息导向的经营策略取得成功的银行通常具备下述特色: ...

July 13, 2022 · 1 min · jiezi

关于数据:从0到1建设智能灰度数据体系以vivo游戏中心为例

作者: vivo 互联网数据分析团队-Dong Chenwei vivo 互联网大数据团队-Qin Cancan、Zeng Kun 本文介绍了vivo游戏核心在灰度数据分析体系上的实践经验,从“试验思维-数学方法-数据模型-产品计划”四个层面提供了一套较为残缺的智能灰度数据解决方案,以保障版本评估的科学性、我的项目进度以及灰度验证环节的疾速闭环。该计划的亮点在于,指标异动根因分析方法的引入和全流程自动化产品计划的设计。 一、引言游戏业务的用户规模体量大,业务链路长,数据逻辑繁冗。游戏核心作为游戏业务平台端的外围用户产品,版本迭代十分频繁,每次版本上线前都必须进行小量级的灰度验证。2021年以来,均匀每1~2周都会有重要版本开始灰度,而且线上有时会同时有多个版本在灰度测试。 灰度的整个过程在数据层面次要波及3个问题: 如何确保版本灰度评估的科学性?如何晋升灰度数据的产出效率,保障我的项目进度?当灰度版本呈现指标异样问题时,如何疾速定位问题实现闭环?近两年来,咱们逐渐将灰度评估办法体系化地落地到麻利BI等数据产品上,目前灰度数据体系曾经较好地解决了这3个问题。本文首先以版本灰度数据体系的基本概念和倒退历程为铺垫,接着以“方法论+解决方案”为主线论述游戏核心在灰度数据体系上的实际,并展望未来。 二、灰度数据体系的倒退2.1 什么是灰度发版当游戏核心开发了全新的首页界面,应该如何验证新的首页是否被用户所承受,并且性能是否欠缺、性能是否稳固? 答:灰度发版。就是在新版本推送给全量用户应用之前,依照肯定策略选取局部用户,让他们后行体验新版首页,以取得他们对于“新的首页好用或不好用”以及“如果不好用,是哪里出了问题”的应用反馈。如果呈现重大问题,则及时回滚旧版本;反之则依据反馈后果进行查漏补缺,并适时持续放大新版本投放范畴直至全量降级。 2.2 灰度评估计划倒退阶段判断灰度发版是否迷信的关键在于控制变量,这一问题的解决过程,也是灰度评估计划迭代和倒退的过程。 阶段一:确保了比照的工夫雷同,但降级速度差别意味着优先降级的用户和未降级的用户非同质用户,未能躲避样本差别对数据后果差别的影响。 阶段二:确保了比照的人群雷同,但用户行为可能随工夫而变动,无奈剔除前后工夫因素的差别。 阶段三:同时确保了工夫和人群雷同,有以下三方面劣势: 将旧版本打包为比照包,与新版本的灰度包一起,别离对两批同质用户公布,保障了灰度包和比照包的样本属性、工夫因素统一;根据产品指标计算正当的样本量,防止样本过少导致后果不可信、过多导致资源节约;依靠静默装置性能疾速降级,缩短灰度验证阶段的工夫。2.3 灰度数据体系内容灰度数据体系通常波及后期流量策略和前期数据测验2个局部。 前者包含样本量计算和灰度时长管制,后者包含新老版本外围指标比照、产品优化处的指标变动或新增性能的数据体现。在惯例的灰度评估之外,引入根因剖析的办法能够晋升灰度后果的解释性。 2.4 vivo游戏核心的做法咱们搭建了“游戏核心智能灰度数据体系”,并通过三版迭代逐渐解决了本文结尾提到的3个问题。数据体系由指标测验后果、维度下钻解读、用户属性校验、指标异样诊断等主题看板以及自动化推送的灰度论断报告组成。 残缺计划部署上线后,根本实现了灰度评估阶段的自动化数据生产、成果测验、数据解读和决策倡议的闭环,极大地开释了人力。 三、灰度数据体系中的方法论在介绍数据方案设计前,先介绍一下灰度数据体系中波及的背景常识和方法论,帮忙大家更好地了解本文。 3.1 灰度试验灰度试验包含抽样和成果测验两个局部,对应的是假设检验的思维以及样本历史差异性验证。 3.1.1 假设检验假设检验是先对总体参数提出一个假如值,而后利用样本体现判断这一假如是否成立。 3.1.2 样本历史差异性验证尽管灰度前当时已通过hash算法进行抽样,但因为抽样的随机性,个别会在统计测验和成果测验的同时,对样本的历史差异性进行验证,剔除样本自身差别带来的指标稳定。灰度周期通常为7天,咱们采纳了7天滑动窗口取样的办法。 3.2 根因剖析灰度指标往往与多维属性(如用户属性、渠道起源、页面模块等)存在关联,当指标的测验后果产生异样的显著差别时,想要解除异样,定位出其根因所在是要害一步。然而,这一步经常是充斥挑战的,尤其当根因是多个维度属性值的组合时。 为了解决这一问题,咱们引入了根因剖析的办法,以补救了灰度测验后果解释性有余的问题。咱们联合了指标逻辑分析法和Adtributor算法2种办法,以确保剖析后果的可靠性。 3.2.1 指标逻辑分析法因为灰度试验中构建的指标体系根本都是率值类指标或均值类指标,这两类指标都能够通过指标公式拆解为分子和分母两个因子,而指标的分子和分母均是由各个维度下的维度值相加失去。因而提出了指标逻辑分析法,基于肯定的拆解办法,从指标因子和指标维度2个档次对指标值进行逻辑拆解。 3.2.2 Adtributor算法除了根因剖析比拟常见的维度下钻办法以外,咱们引入了Adtributor算法,以更好地应答多维度组合影响指标的状况,并通过两种办法的穿插验证来确保剖析后果的可靠性。 Adtributor算法是微软研究院于2014年提出的一种多维工夫序列异样根因分析方法,在多维度简单根因的场景下具备良好的可靠性。算法残缺过程包含数据预处理、异样检测、根因剖析和仿真可视化4个步骤,咱们次要借鉴了根因剖析环节的办法。 四、灰度智能解决方案4.1 整体框架版本灰度能够分为灰度前-灰度中-灰度后3个阶段,产品化整体框架如下: 4.2 流程设计基于以上框架,咱们是如何设计实现的? 以下是形容整个过程的流程图: 4.3 计划核心内容4.3.1 样本量预估计划看板提供:在多套置信水平跟测验效力规范下(默认显示95%置信度、80%测验效力),依据指标最近体现,预估出指标在不同预期变动幅度下能被检测出显著与否的最低样本量。 该计划具备3大特点: 输入多套规范,灵便调整预期幅度;主动选取最近一个全量版本的数据作为数据输出;均值类指标和率值类指标采纳差异化的计算逻辑。 4.3.2 成果指标显著性测验计划指标显著性测验模型须要答复的问题是:灰度版本相较比照版本,指标变动在统计意义上是相信的还是不相信的。 目前,实现了三种置信水平下灰度版本与比照版本在20个业务指标上的显著性判断。 实现过程如下: 率值类指标... ... # 已得以下指标数据 variation_visitors # 灰度版本指标分母 control_visitors # 比照版本指标分母 variation_p # 灰度版本指标值 control_p # 比照版本指标值 z # 不同置信水平(90%/95%/99%)下的z值,业务上次要关注95%置信水平下的显著测验后果 # 计算指标标准差 variation_se = math.sqrt(variation_p * (1 - variation_p)) control_se = math.sqrt(control_p * (1 - control_p)) # 计算指标变动值和变化率 gap = variation_p - control_p rate = variation_p / control_p - 1 # 计算置信区间 gap_interval_sdown = gap - z * math.sqrt(math.pow(control_se, 2) / control_visitors + math.pow(variation_se, 2) / variation_visitors) # 变动值置信区间下界 gap_interval_sup = gap + z * math.sqrt(math.pow(control_se, 2) / control_visitors + math.pow(variation_se, 2) / variation_visitors) # 变动值置信区间上界 confidence_interval_sdown = gap_interval_sdown / control_p # 变化率置信区间下界 confidence_interval_sup = gap_interval_sup / control_p # 变动值置信区间上界 # 显著性判断 if (confidence_interval_sdown > 0 and confidence_interval_sup > 0) or (confidence_interval_sdown < 0 and confidence_interval_sup < 0): print("显著") elif (confidence_interval_sdown > 0 and confidence_interval_sup < 0) or (confidence_interval_sdown < 0 and confidence_interval_sup > 0): print("不显著")... ...均值类指标... ... # 已得以下指标数据 variation_visitors # 灰度版本指标分母 control_visitors # 比照版本指标分母 variation_p # 灰度版本指标值 control_p # 比照版本指标值 variation_x # 灰度版本单用户指标值 control_x # 比照版本单用户指标值 z # 不同置信水平(90%/95%/99%)下的z值,业务上次要关注95%置信水平下的显著测验后果 # 计算指标标准差 variation_se = np.std(variation_x, ddof = 1) control_se = np.std(control_x, ddof = 1) # 计算指标变动值和变化率 gap = variation_p - control_p rate = variation_p / control_p - 1 # 计算置信区间 gap_interval_sdown = gap - z * math.sqrt(math.pow(control_se, 2) / control_visitors + math.pow(variation_se, 2) / variation_visitors) # 变动值置信区间下界 gap_interval_sup = gap + z * math.sqrt(math.pow(control_se, 2) / control_visitors + math.pow(variation_se, 2) / variation_visitors) # 变动值置信区间上界 confidence_interval_sdown = gap_interval_sdown / control_p # 变化率置信区间下界 confidence_interval_sup = gap_interval_sup / control_p # 变动值置信区间上界 # 显著性判断 if (confidence_interval_sdown > 0 and confidence_interval_sup > 0) or (confidence_interval_sdown < 0 and confidence_interval_sup < 0): print("显著") elif (confidence_interval_sdown > 0 and confidence_interval_sup < 0) or (confidence_interval_sdown < 0 and confidence_interval_sup > 0): print("不显著")... ...看板展现如下: ...

July 4, 2022 · 2 min · jiezi

关于数据:NLA自然语言分析让数据分析更智能

近些年来,随着技术的长足发展,泛滥企业面临转型,企业对 BI的需要越来越大,越来越多地采纳了更灵便、更智能的 BI工具,以缩小剖析的难度,并可能迅速地进行数据分析与钻研。NLA自然语言剖析便是适应数据分析大环境而诞生的一项性能,为用户提供更加智能便捷的数据分析。 在大数据时代到来的明天,如何无效地利用信息资源显得尤为重要。在传统的利用中,数据往往被贮存在一个数据库中,而无关的人则须要编写一个查问语句来进行数据的查问。然而,因为数据的检索办法不不便,特地是在没有相干材料的状况下,很难进行查问。 NLA自然语言剖析是由思迈特软件Smartbi推出的一项符合智能BI的新性能,随着V10.5版本公布,并且取得了多项专栏。在产品能力上, Smartbi与企业理论状况密切相关,不断改进其产品的性能,从数据加强、数据挖掘、建模、自然语言剖析等多个方面,为客户提供全方位、全方位的大数据分析服务,为用户解决数据分析难题。 Smartbi自然语言解析技术的创造使数据检索在自然语言根底上得以实现。只有在语音或键盘上输出一条信息后,“AI智能小麦”就会将输出的自然语言转换成一种语言的元模型,而后利用麦田的常识提取算法,将其转换成一种能够被机器了解的语言。最初,利用 Smartbi预设的查问引擎与绘图引擎,可能迅速、准确地查找出使用者所需的查问后果,并能主动产生图形输入,并将查问后果与 Smartbi联合起来,并进行进一步的剖析。与传统的数据检索办法相比,采纳自然语言进行数据检索更加不便、快捷。 在技术创新上, Smartbi始终当先于业界,开发了 NLA自然语言剖析零碎,并引入了自然语言查问、常识图谱、举荐算法以及机器问答等人工智能技术,使其更智能、更易于应用。Smartbi一直强化数据建模能力,将业务知识与数据模型相分割,将数据模型与指标治理相结合,既能够缩小建模费用,又能够与反馈机制相结合,造成闭环,从而进步了查问的精确性。 对话式剖析性能的推出,能够让使用者从商业角度思考问题,用自然语言输出问题,在 PC和挪动终端上,将须要的信息迅速出现进去,并在问答中显示出剖析的后果,从而晋升了剖析的效率,使数据分析更加智能化。 Smartbi同时也为客户提供数据预处理,机器学习算法利用,模型训练,评估,部署,服务公布的全生命周期。 想理解更多对于自然语言剖析NLA的产品性能,能够登录Smartbi官网理解,现个人版还反对长期收费试用~

July 1, 2022 · 1 min · jiezi

关于数据:数据智能基础设施升级窗口将至看九章云极-DingoDB-如何击破数据痛点

AI 深刻利用,以及数字化与新商业环境的挑战下,对数据的治理与利用被企业和 IT 界提到了更重要的地位。CSDN 的《新程序员》杂志第二期做了主题为“新数据库时代”的系列专题报道,此外,剖析与咨询机构在钻研与发表的报告中,也印证了这一趋势。德勤在刚刚公布的《2022年度技术趋势 》中,第一个趋势即是数据相干,示意数据共享趋势将减速。Gartner 公布 2022年数据分析十二大趋势 ,将数据分析晋升到企业翻新起源的高度。 不过从最早的传统关系型数据库,到 Hadoop、Spark 大数据利用,再到数据仓库、数据湖,往年湖仓一体、流批一体等实时数据处理被宽泛关注,数据赛道出现了多种需要与多种计划混淆的状态。到底该如何了解数据的重要性,以及抉择什么样的数据策略,是数据从业者都须要去厘清的内容。近日,CSDN 专访了专一于数据智能基础设施的软件厂商九章云极 DatatCanvas 董事长方磊博士,听听他的了解与实践经验。 TP、AP 之后“第三份数据”衰亡,引发数据热潮与系统升级机会在 IT 零碎倒退中,事务型数据(TP)与剖析型数据(AP)是最典型的两类数据,以往数据与报表只是企业外部应用,例如白天的业务数据在早晨对立汇总,每天只更新一次(T+1),因而这些数据具备低并发、低频率的特点。 随着商业的翻新式倒退,数据逐渐从外部转为内部用户应用,利用操作即时就需反馈后果,方磊举例道,如手机银行 App 如果转账失败须要立即复原余额,专业术语称为“冲账”。因而他示意,在 TP、AP 之后呈现了“第三份数据”,它须要与外部零碎直连,并能疾速、高并发地实现内部申请。 为了解决“第三份数据”,新的数据系统既要有数据仓库的个性,又要兼顾交易数据库的个性,同时具备 severing 的能力。因而呈现了多个数据系统,并逐渐倒退为对立架构之上,流批一体、湖仓一体等实时数仓随之产生。不过方磊提到,当初湖仓一体、流批一体侧重于在计算层将结构化、非结构化数据对立,实现对立计算。例如 Databricks 提出的 Lakehouse,这是因为在美国的 IT 零碎中,私有云的倒退曾经解决了数据存储层的问题。 但中国 IT 是更为扩散的公有云、混合云市场。传统企业中,数据在存储层只是由 Oracle、Teradate、MPP 上一代的数据仓库过渡到了 Hadoop ,数据可能存在 HDFS、或 MPP 数据库,或在云上的对象存储中,各类实时数仓不同的设计,都须要解决数据不统一,这一最大的痛点。 除了实时性的需要之后,数据业务正在从大量预先统计,转向事中与事先(如金融监管)预防,另外在以往零碎内 BI 利用之外,数据须要反对泛滥新的 AI 利用,而工业互联网畛域的数据利用也在弯道超车,如工业质检、风力发动机转速扭矩调节,等物联网与 AI 利用也带来数据实时性的需要。 这其中,AI 人工智能场景利用对于数据的需要尤为急切,因为算法与模型都须要更高效和灵便的数据系统去撑持。例如基于 AI 模型的在线实时金融产品,数据早已不是仅限于外部应用,内部对于数据的查问等需要,须要数据系统的剖析能力可能实时透传到内部,为内部用户提供查问(如金融产品数据、随股市变动的金额数据等)。以上这些新场景、新利用、新需要,都让实时性数据进一步成为技术界的热点。 不过方磊认为,从更宏观的视线来看,实时数仓不应仅仅是离线数据库的补充和“补丁”。以往数据处理的痛点并未被彻底完满解决,所以当初更是整个数据基础设施与零碎架构迭代降级的机会窗口,也因而国内外呈现了各种由守业公司、云厂商推出的多个数据系统。 DingoDB:解决实时数据分析最痛的点在数据基础设施的降级中,各类公司对数据系统的设计分为了很多流派。有些零碎针对传统数仓的性能做了调优提速,曾经能满足目前 80% 的数据业务需要,方磊称之为改良派,但这类零碎仍无奈解决高并发与内部用户应用的难题。另一类零碎,则突破了 TP、AP 数据的割裂性,所有数据全副实现流批一体,不过这也会带来对内存等计算成本的昂扬开销。第三种,也是九章云极DataCanvas抉择的路线,设计一个既反对“批数据”又反对“流数据”,并兼顾不同类型存储摆放需要的数据系统。 当初,九章云极 DataCanvas 推出了实时交互式剖析数据库 DingoDB, DingoDB 作为实时数据的通用零碎,像 hadoop 一样具备松耦合与灵活性,但同时像 Oracle 具备稳定性且易于运维。 更进一步,在数据系统的各环节中,方磊认为,数据的变换曾经被业界很好地解决(如开源 Flink 曾经能够很好解决实时的数据变换 Realtime ETL),而之后的数据查问依然是单薄和待晋升的环节。DingoDB 借鉴了 TP 零碎和 AP 零碎各自的长处,联合 Flink ETL,在存储海量数据的同时,可能进行高并发的数据查问,实时的数据分析。数据从各种类型的渠道导入 DingoDB,借助 DingoDB 的高并发查问,实时数据分析和多维分析的能力,来撑持实时性、须要在线决策的数据业务利用。 ...

June 15, 2022 · 1 min · jiezi

关于数据:H公司道依茨DEUTZ-EDI项目案例

德国道依茨股份公司多年来以其主导产品道依茨DEUTZ品牌柴油机著称于世,是现今历史最悠久的发动机独立制造厂商,也是世界领先的翻新驱动零碎制造商之一。 为了欠缺与供应商之间的供应链治理过程,道依茨DEUTZ要求在生产和供给这两个简单的流程中,实现信息流的自动化。搭建数据传输通道与同样来自德国的品牌德国大众一样,道依茨DEUTZ与其供应商应用的EDI传输协定是OFTP2,是由Odette组织提出的用于传输 EDI 报文的传输协定,它合乎德国汽车工业协会VDA 4914/2,或Odette-欧洲电信传输数据替换(Odette-Organization for Data by Tele Transmission in Europe)的倡议。 近期道依茨DEUTZ向其供应商H公司发动 EDI 对接邀请,心愿能够通过EDI来传输业务文件。 EDI 连贯流程本次EDI我的项目中,道依茨DEUTZ 和供应商之间传输的是合乎VDA规范的报文,业务类型蕴含:VDA 4905 / EDIFACT DELFOR 物料需要打算 以及VDA 4913 / EDIFACT DESADV发货告诉。本次H公司采纳VDA规范,报文传输方向如下: H公司接管道依茨DEUTZ发来的 VDA 4905 H公司给道依茨DEUTZ发送 VDA 4913EDI 解决方案通常状况下,将EDI系统集成企业外部业务零碎是最为高效的解决办法,可能最大水平上实现信息的自动化解决。思考到H公司仅接管物料需要打算,发送发货告诉。传输的报文类型并不简单,并且收发数据的频率较低,传输的数据量也较小。因而H公司提出,目前并没有集成业务零碎的打算。 想要低成本、疾速接入EDI,能够采纳知行LIP零碎,在可控的老本内,帮忙企业实现EDI传输以及业务自动化解决。用户能够间接在知行LIP零碎中进行接管物料需要打算和发送发货告诉的操作。 因而H公司与道依茨DEUTZ的EDI我的项目采纳了本地部署 LIP计划。 我的项目成绩知行之桥 EDI 零碎实现与道依茨DEUTZ 连贯的工作流能够参考下图:接管方向:次要散布在上述工作流中的左侧局部,H公司通过OFTP端口,接管道依茨DEUTZ发送的VDA 4905,经VDA端口、XML Map端口进行格局转换后写入LIP数据库,并展现在LIP的订单页面上。 发送方向:次要散布在上述工作流中的右侧局部,H公司能够在LIP零碎界面上通过订单生成或本人填写相干数据,点击发送即可写入LIP数据库,经XML Map端口、VDA端口格局转换后,创立VDA 4913。接下来EDI会将这些数据通过OFTP端口发送给道依茨DEUTZ。 用户无需操作工作流界面,只须要在知行LIP零碎中进行操作即可,知行LIP零碎主页面如下图所示:在知行LIP零碎1.0.0.26中,你能够在主页面的右上方进行界面语言的切换,目前反对中文和英文,能够依据须要随时进行转换。LIP零碎的场景利用场景包含订单、发票、发货等。能够参考文章:LIP利用场景之供应商常见场景 H公司与道依茨DEUTZ的EDI我的项目中次要应用上述订单板块(物料需要打算)以及发货告诉板块,同时能够在LIP零碎中保护物料信息和客户信息。 我的项目回顾1.与道依茨DEUTZ进行业务测试 EDI我的项目施行局部实现后,会与道依茨DEUTZ进行业务测试,查看数据结构以及数据填写是否正确。个别与国外的交易搭档进行业务测试时,会通过邮件沟通测试细节。因为时差问题,响应速度相对来说没有国内那么快。 但在本次我的项目中,道依茨DEUTZ的响应很快,有时甚至早上收回的邮件,下午就失去道依茨DEUTZ的回复了。正是因为响应疾速,整体我的项目测试环节进行得非常顺利。 VDA规范的报文应该怎么看?上文咱们提到了道依茨DEUTZ 和供应商之间传输的是合乎VDA规范的报文,那么这些报文都是什么样的呢?以下是VDA 4905 的示例报文:VDA 报文每一行的长度必须是128位。每个字段长度都有明确的要求。数字类型:如果长度不足以填充要求的长度,会右对齐左补0来填充;字符串类型:如果长度不足以填充要求的长度,会左对齐右补空格来填充。 VDA 4905 (物料需要打算 Delivery Note)报文中次要蕴含 511、512、513、514、519 等层级,并且这些层级呈现的先后顺序都是有严格规定的。 咱们看到的VDA报文个别都是依照511 > 512 > 513 > 514 > 519 这样的程序开展的。 ...

June 1, 2022 · 1 min · jiezi

关于数据:多场景下时序序列分类算法基础知识全面总结

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的AIOps 开发者生态。前言本期咱们有幸邀请到中国矿业大学(北京)博士、云智慧智能研究院算法工程师徐同学,从时序序列分类的概念、钻研意义、根本框架及算法总结四个方面带来对工夫序列分类算法的总结概述,上面就让咱们一起来学习吧~ 一、什么是工夫序列分类分类工作分类工作是一个机器学习畛域的工作,目标是让算法通过学习为未知样本调配标签。典型案例是将一封邮件分类为垃圾邮件和非垃圾邮件。 分类工作又可细分为以下四类: 二分类问题:将样本分为两类,如图1所示;多分类问题:将样本分为多类,如图2所示;多标签分类:同一样本被赋予多个标签;不均衡分类:正负样本数量比例迥异。 工夫序列分类工夫序列分类是一项在多个畛域均失去利用的通用工作,目标是利用标记好的训练数据,确定一个工夫序列属于事后定义的哪一个类别。工夫序列分类不同于惯例分类,因为时序数据是具备程序属性的序列。如下图所示的心电图信号样本,它示意一个心跳流动。依据信号特色的不同能够加以辨别,右边示意失常心跳,而左边示意心肌梗死。 工夫序列分类工作须要对样本进行学习,进而进行分类,因而这个工作有监督学习的作用。该工作可细分为两类:单指标工夫序列分类和多指标工夫序列分类。本文的算法论述聚焦在单指标工夫序列分类问题。 二、为什么要钻研工夫序列分类工夫序列分类能够在以下场景发挥作用: 预测算法与数据的匹配,辅助算法选型,晋升预测准确性;异样检测算法与数据匹配,辅助选型,晋升检测准确性,缩小计算量;预测算法的预处理,例如检测数据周期性并剔除,以进行失常历史数据的学习;异样检测算法的预处理,例如银行跑批工作需将周期数据剔除,再进行异样检测;工夫序列数据分析,不同类型数据占比、不同类型数据重要水平。三、工夫序列分类问题根本框架根本框架工夫序列分类问题能够粗略划分为两个次要步骤:特征提取和分类器分类,如下图所示。 特征提取指从原始工夫序列数据中提取可能较好示意原序列的特色。分类器将提取的特色作为输出,输入原序列的类别标签。 KNN分类器KNN(k-nearest neighbors)分类器是一类根底分类器,其中最罕用的是1-NN分类器。KNN分类器分为训练和分类两个阶段。在训练阶段,只需把训练样本以及样本标签存储起来;在分类阶段,首先设定近邻样本数量常数K,而后计算与待分类样本最靠近的K个训练样本,最初采纳少数表决的形式断定类别,即呈现最多类别作为待分类样本类别。 例如第一章节心电图的例子,有若干心电图信号序列,依据每个序列是否失常,别离赋予0和1的标签。而后,用1-NN算法进行训练,即存储所有样本序列;当新样本到来,须要计算新样本与所有训练样本的间隔,比方欧式间隔,找出间隔最近的样本对应的类别,即为新样本的类别。 算法评估与UCR数据集算法成果的好坏须要一个主观的评估机制,这就离不开开源数据集。开源数据集为算法的偏心比拟以及沟通交流提供了平台,为算法钻研畛域的疾速倒退打下了根底。在工夫序列分类畛域,UCR(全称)开源数据集表演了这样一个角色。 如上图所示,UCR是一个工夫序列分类畛域的数据仓库,蕴含多种不同类型的数据集,依照不同的应用领域和具体业务类型划分,例如上文的心电图数据集。 在评估一个算法时,须要在所有数据集上测试算法成果,最终依照评估机制给出综合评分,如上图所示。上图展现了14种算法的评估后果,对应评分越凑近1代表算法综合评分越高,被彩色横线笼罩的算法代表成果无显著差别。 四、工夫序列分类算法总结与典型算法介绍工夫序列分类算法归类主讲人通过浏览大量工夫序列分类文献,将工夫序列分类算法总结为两个大类,11个小类,如下图所示。这里将工夫序列分类算法分为传统办法和深度学习办法两大类,传统办法包含全局特色类、部分特色类、模型类和集成类,深度学习办法又分为生成式模型和判别式模型。 典型算法介绍全局特色全局特色分类算法将残缺工夫序列作为特色,计算工夫序列间的相似性来进行分类,通常采纳间隔度量函数与1-NN相结合的形式。该类办法的钻研方向为用于度量残缺工夫序列相似性的间隔度量函数。 典型全局特色算法-dtw如果咱们容许序列的点与另一序列的多个间断的点绝对应(相当于把这个点所代表的音调发音工夫缩短),而后再计算对应点之间的间隔之和,这就是dtw算法。dtw算法容许序列某个时刻的点与另一序列多个间断时刻的点绝对应,称为工夫规整(Time Warping),如下图所示。 典型全局特色算法-差分间隔法差分间隔法计算原始工夫序列的一阶微分,而后度量两个工夫序列的微分序列的间隔,即微分间隔。差分法将微分间隔作为原始序列间隔的补充,是最终间隔计算函数的重要组成部分。 差分间隔法将位于工夫域的原工夫序列和位于差分域的一阶差分序列相结合,晋升分类成果。钻研方向次要是如何将原序列和差分序列正当联合,差分间隔法的演进过程下图9所示。 部分特色部分特色类分类算法,将工夫序列中的一部分子序列作为特色用于工夫序列分类。该类算法的关键在于寻找可能辨别类别的部分特色。因为子序列更短,因而构建的分类器速度更快,但须要肯定的工夫来寻找部分特色。 典型部分特色算法-距离(interval)部分特色类中的距离法将工夫序列划分为几个距离区间(interval),从每个区间中提取特色。该类办法实用于长序列中带有相位依赖并具备区分度的子序列,以及噪声。基于距离的工夫序列分类算法倒退历程下图所示。 典型部分特色算法-shapeletshapelet分类算法通过在序列中查找最具分别性的子序列用于分类,其中shapelet指一个与地位无关的最佳匹配子序列。该类算法实用于能够通过序列中的一种模式定义一个类,然而与模式的地位无关的分类问题。例如后面的心电图异样案例,异样可能产生在任何地位,通过序列的异样点序列段能够进行分类。 shapelet算法的特点是可解释性强,如下图所示,通过Class27、Class28、Class32三条序列的匹配后果,能够分明地理解匹配后果的起因。 典型部分特色算法-字典类shapelet分类算法因为须要破费大量工夫搜寻子序列,因而更实用于短序列。对于长序列中一种模式重复呈现的工夫序列,更实用于一种叫做dict字典类的分类算法。该类算法以序列中子序列的反复频率作为特色进行分类。首先对序列进行降维和符号化示意,造成单词序列,而后依据单词序列中的单词散布状况进行分类。字典类分类算法的演进过程如下图所示。 开源福利云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。 同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置, 面向简单需要场景可能保障高效开发与交付。 点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。 GitHub 地址: https://github.com/CloudWise-... Gitee 地址:https://gitee.com/CloudWise/f... 万元现金福利: http://bbs.aiops.cloudwise.co... 微信扫描辨认下方二维码,备注【飞鱼】退出AIOps社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

May 9, 2022 · 1 min · jiezi

关于数据:看天翼云如何为实体工业插上数字翅膀

纵观历史长河,工业的倒退历程就是人类文明飞速发展的缩影,从蒸汽机、内燃机、流水线,到自动化生产,人类的双手逐步从沉重的农业和手工业中解放出来,工业倒退为人类生存和生产方式带来的影响和扭转远远超过之前几千年的总和。可现如今,却有人说现代化工业被互联网经济和数字经济的光辉所覆盖,下坡路在劫难逃,这也导致工业不得不走上艰巨的数字化摸索之路。 近几年“智能制作”、“新制作”等理念层出不穷,但因为工业互联网倒退中依然存在很多挑战,比方技术复杂度高、行业属性重、产品化艰难、推广及通用运维艰难,难以通过繁多平台笼罩多行业,平台间通用及合作难以达成等等,导致很多制作企业在改革过程中迷失了双眼。 老牌工业制作企业也要跨界转型上海斯瑞科技有限公司(简称“斯瑞科技”)是国内光缆电缆资料和防弹防护资料畛域技术当先的创新性企业,自1998年创建以来,始终保持“依靠科技、继续翻新”的倒退准则和理念。近几年,斯瑞科技开拓创新,自主研发了“一掌控”信息平台,该平台立足制造业的全流程生产环节,买通数据孤岛,晋升工作效率的同时造成工作闭环。 然而,斯瑞科技自研开发的“一掌控”平台部署在第三方数据机房,不仅生产零碎扩容老本高,服务和技术支持也得不到无效保障。天翼云得悉斯瑞科技的需要和痛点之后,疾速组建了专属服务团队,制订专属解决方案。最终斯瑞科技做出了迁徙上云的决定, “一掌控”平台于2016年作为首批天翼云上海资源池用户,从第三方数据机房迁徙到了天翼云上并顺利完成了割接上线。 事实证明, “一掌控”平台迁徙上云后经营安稳,也为斯瑞科技和天翼云的后续单干建设了一个好的开始。随后2017年,天翼云先后为斯瑞科技施行了贵州天翼云数据备份、数据库利用级高可用和一次小规模扩容。 重复磨炼 厚积薄发当然,斯瑞科技迁徙上云后并未止步不前,而是仔细服务好用户的同时,时刻关注着“一掌控”平台的成长,探寻天翼云和用户创值共赢的新场面。致力终会有回报,在2018年国家召开智能制作的大背景下,斯瑞科技迎来了前所未有的倒退时机,“一掌控”平台失去了各行业尤其是制造业的宽泛认可。 不仅如此,天翼云也对斯瑞科技精益求精。借助天翼云的云网交融能力,单方后期重复磨难的云网交融解决方案日渐成熟,扩容革新计划开展了全方位的接入落地。 此外,天翼云还将斯瑞科技的上云零碎纳入了信息安全等级爱护制度,通过“一掌控”平台的经营合规化,借助平台在其余各行业的逐步推广,增强了最终用户的信息安全爱护。 天翼云与斯瑞科技联手打造的以工业网络化、智能化为外围的云网交融行业解决方案,提炼出了数据采集、工业级组网和天翼云资源等可供其余制造业企业复制推广的产品服务模块,并延长出了环保数据监测、工业机器人管制、生产品质治理等细分行业利用,为上海制作型企业智能化转型提供了贵重参考。

May 5, 2022 · 1 min · jiezi

关于数据:云原生分布式数据库云平台技术选择

Part 1 - 云平台简介 浪潮云溪数据库云平台是由云溪数据库公司开发的针对特定的云溪数据库量身定做的数据库运维治理平台,其目的旨在于:晋升用户对数据库部署操作的体验,为用户提供数据库原生主动部署、主动备份、主动容灾、数据恢复、监控、治理等全套解决方案。 浪潮云溪数据库云平台,通过运行提供的部署脚本,可能间接实现一键式部署。同时浪潮云溪数据库云平台提供了直观便捷的可视化界面,大部分的操作只需通过鼠标点击便能够实现,方便快捷,而且每个操作的后果能够通过界面的模式直观地展示在用户背后,让用户对本人的操作有实时的反馈;同时因为丰盛的性能,该零碎还实用于运维治理等业余人员,满足用户的业余人员查看、监测、部署、治理数据库的需要。 技术:虚拟化技术,隔离资源趋势:内核技术保持稳定;分布式事务数据库倡议反对基于多租户的资源隔离,以升高业务部署的危险和老本多租户指标:单个产品实例为多个用户提供服务,并且可按需应用资源,用户数据互相隔离倒退过程:整合多个产品实例,对立运维;单产品实例为多个用户提供服务Part 2 - 根本架构 Part 3 - 技术抉择 目前解决分布式数据库的多租户隔离,有三种计划:物理隔离、虚拟机、容器。 1.物理隔离 即每个租户对应一组独立的服务器集群上,zcp治理多组服务器集群;用多组服务器来解决分布式数据库多租户隔离面临着比较严重的问题,多组服务器部署多租户最终问题就是实用性差,会造成服务器资源的节约,部署起来也不是非常不便。所以首先排除物理隔离的计划。 2.虚拟机与容器 虚拟机就是带环境装置的一种解决方案,他能够在一种操作系统外面运行另一种操作系统,比方在Windows零碎外面运行Linux零碎,应用程序对此毫无感知,因为虚拟机看上去跟实在零碎截然不同,而对于底层零碎来说,虚拟机就是一个一般文件,不须要了就删掉,对其余局部毫无影响。 尽管用户能够通过虚拟机还原软件的原始环境。然而如下毛病: 资源占用多:虚构机会独占一部分内存和硬盘空间。他运行的时候,其余程序就不能应用这些资源了。哪怕虚拟机外面的应用程序,真正应用的内存只有1MB,虚拟机却须要几百MB的内存能力运行。一个零碎个别只反对几十个虚拟机。冗余步骤多:虚拟机是残缺的操作系统,一些零碎级别的操作步骤,往往无奈跳过,比方用户登陆。启动慢:启动零碎须要多久,启动虚拟机就须要多久。可能要等几分钟,应用程序能力真正运行。而相较于虚拟机,容器则具备着如下显著长处:启动快:容器外面的利用,间接就是底层零碎的一个过程,而不是虚拟机外部的过程。所以,启动容器相当于启动本机的一个过程,而不是启动一个操作系统,速度就快很多。资源占用少:容器只占用须要的资源,不占用那些没有用到的资源;虚拟机因为是残缺的操作系统,不可避免要占用所有资源。另外,多个容器能够共享资源,虚拟机都是独享资源。一个单机上反对上千个容器。体积小:容器只有蕴含用到的组件即可,而虚拟机是整个操作系统的打包,所以容器文件比虚拟机文件要小很多。 3.Docker与Kubernetes Docker 应用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,对过程进行封装隔离,属于 操作系统层面的虚拟化技术。因为隔离的过程独立于宿主和其它的隔离的过程,因而也称其为容器。最后实现是基于 LXC,从 0.7 版本当前开始去除LXC,转而应用自行开发的 libcontainer,从1.11 开始,则进一步演进为应用 runC 和containerd。Docker 在容器的根底上,进行了进一步的封装,从文件系统、网络互联到过程隔离等等,极大地简化了容器的创立和保护。使得 Docker 技术比虚拟机技术更为轻便、快捷。 Kubernetes(k8s)是Google开源的容器集群管理系统(谷歌外部:Borg)。在Docker技术的根底上,为容器化的利用提供部署运行、资源调度、服务发现和动静伸缩等一系列残缺性能,进步了大规模容器集群治理的便捷性。 Kubernetes是一个齐备的分布式系统撑持平台,具备齐备的集群治理能力,多扩多层次的平安防护和准入机制、多租户利用撑持能力、通明的服务注册和发现机制、內建智能负载均衡器、弱小的故障发现和自我修复能力、服务滚动降级和在线扩容能力、可扩大的资源主动调度机制以及多粒度的资源配额治理能力。同时Kubernetes提供欠缺的管理工具,涵盖了包含开发、部署测试、运维监控在内的各个环节。 对于实现数据库多租户隔离,docker须要增加一种定义用户的办法,并将它们放在只容许对特定容器和卷进行操作的命名空间中,并限度容许冲破容器的选项,如更改性能或任意装置来自主机的文件系统,Docker的企业产品UCP的确开始通过在对象上应用标签来增加这些性能,但目前来说docker实现多租户的计划还并不欠缺,而且可能须要通过革新底层代码去实现多租户的一个反对。 而k8s提供了 namespace 作为根底的资源隔离单位,还提供了基于 RBAC 的权限治理形式来实现多租户之间的隔离。 Docker Kubernetes Part 4 - 云溪数据库云平台的应用 1.概念介绍 2.根本流程 3.性能介绍(1) 创立集群: (2) 创立租户: ...

April 7, 2022 · 1 min · jiezi

关于数据:宜搭小技巧|维护Excel太麻烦Excel一键转应用为你的工作减负

简介:只需6步,轻松学会「Excel一键创立利用」! 在钉钉的聊天窗口中,每天都会流转数量微小的Excel表格,用于信息收集和数据统计,但有时这些表格并不能很好地帮忙到咱们的工作,相同还会带来许多不便。 钉多多最近在保护客户治理表时,就遇到了难题…… 应用Excel保护数据,会呈现数据被笼罩、信息泄露、无奈追溯填写人以及挪动端填写不便等问题。 钉钉宜搭「Excel一键创立利用」性能,轻松将Excel表格降级为利用,解决了应用Excel表格可能呈现的问题。降级后,收集信息更不便,充沛保障了数据安全,还具备审批、权限治理等性能! 双端操作,随时随地提交数据传统的Excel表格适宜在电脑上保护数据,在手机更新数据时操作简单。 应用钉钉宜搭将Excel降级为利用后,表单页面能够依据拜访设施屏幕大小自适应调整,在电脑和手机上都能够填写,即便在异地也能轻松保护数据! 数据权限无效管制,充沛保障信息安全通过Excel收集数据,全员都能够浏览表中所有的数据,存在信息泄露隐患。 应用钉钉宜搭将Excel降级为利用后,即可无效地实现权限管制,只须要在在创立利用过程中,开启「仅指定人可查看数据」和「限定用户可查看的数据范畴」,再也不用放心全员浏览Excel数据所带来的难堪了,数据信息安全失去充沛保障。 一键实现审批,让数据流转起来Excel没有审批性能?应用钉钉宜搭将Excel降级为利用后,反对审批流程设置,可能设置最多三级审批人,轻松搞定流程利用的创立。 咱们只需在「利用设置」步骤中开启「新增数据须要审批」,就能够设置审批流程,增加审批人并抉择流程关联的页面。这样就创立了具备审批性能的流程利用。 只需六步,就能够将Excel表格降级为宜搭利用Step1 以挪动端为例,首先咱们关上钉钉客户端,在工作台中找到宜搭,并点击进入 Step2 点击「创立利用」后,抉择「从Excel创立利用」 Step3 搜寻文件名称,能够间接抉择群聊或钉盘中的Excel文件 Step4 编辑与确认表单字段信息 Step5 点击「确定」,这样就实现了利用的创立 Step6 利用创立胜利后,间接关上利用即可应用 钉钉宜搭的「Excel一键创立利用」还能笼罩多种场景,如疫苗接种统计、品质问题注销、流动报名统计等场景,让你从繁琐的Excel统计工作中解放,进步日常工作效率。 “宜搭小技巧”是钉钉宜搭推出的全新栏目,咱们将把眼光聚焦在大家的日常工作中,帮用户解决常常遇到的高频痛点问题。咱们提供的简略轻量的宜搭应用技巧,能够进步组织的办公效率,给大家的工作添足马力! 学会了「Excel一键创立利用」,然而创立好的利用总是要去利用核心或者工作台中寻找,有什么快捷方式能够中转利用呢?请继续关注咱们,下期通知你答案~ 原文链接本文为阿里云原创内容,未经容许不得转载。

March 22, 2022 · 1 min · jiezi

关于数据:基于-DataWorks-MaxCompute-构建大数据平台

简介:DataWorks 是阿里云重要的 PaaS 平台产品,提供数据集成、数据开发、数据地图、数据品质和数据服务等全方位的产品服务,一站式开发治理的界面,帮忙企业专一于数据价值的开掘和摸索。 MaxCompute 是实用于数据分析场景的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供疾速、全托管的在线数据仓库服务,打消了传统数据平台在资源扩展性和弹性方面的限度,最小化用户运维投入,能够经济并高效地剖析解决海量数据。 数据架构选型:随着业务的疾速倒退,咱们开始摸索新的解决方案来帮忙咱们实现大数据平台的倒退,因波及到运维、人力资源的投入,咱们更偏向于采纳一站式数据开发平台,基于 DataWorks + MaxCompute 框架体系。如图是我司现有大数据平台架构图: MaxCompute 数仓标准:数据模型标准:档次数据划分: ODS :数据引入层,离线、实时数据区,寄存原始数据,非结构化数据进行结构化解决CDM:数据公共层 DIM:公共维度层,建设企业一致性维度DWD:明细粒度事实层,以业务过程建模DWS:公共汇总事实层,以剖析主题对象建模 * ADS:数据应用层,定制化统计指标数据 数据流程、空间命名:以业务分类、业务过程、数据域划分设计准则: 工作流程、工作节点、表命名荡涤易了解数据模型高内聚、低耦合公共根底逻辑下沉档次开发标准:数据引入层表(ODS): 命名标准: 表名:ods_{源零碎表名}_{delta/保留位}字段名:默认原零碎表名/与关键字重名 + col工作命名:与输出表名统一其余标准: 零碎源表只容许同步一次表名后缀明确同步形式(全量/增量)表数据的生命周期明细粒度事实层(DWD): 命名标准: 表名:dwd_{项目名称}_{数据域缩写}_{自定义表名}_{刷新周期标识}工作命名:与输出表名统一存储及生命周期治理:以天为分区,依据拜访跨度,设置生命周期公共汇总粒度事实层(DWS) 命名标准: 表名:dws_{项目名称}_{数据域缩写}_{自定义表名}_{刷新周期标识}{统计工夫周期范畴缩写}工作命名:与输出表名统一存储及生命周期治理:以天为分区,依据拜访跨度,设置生命周期数据应用层(ADS): 命名标准: 表名:ads_{项目名称}_{自定义表名}{后缀}数据报表、数据分析等后缀为 bi,数据产品等后缀为 app公共开发标准:档次调用标准:数仓档次调用时,应用层数据不容许间接调用 ODS 层数据,必须存在中间层 CDM 数据;DWS 数据汇总层应优先调用 DWD 明细层数据;数据计算解决工作只容许一个输出表;DWD 明细层累计快照事实表优先调用 DWD 事务型事实表,保证数据的一致性产出。空值解决准则:指标类的空值填充为0,维度空值填写默认值基于 DataWork 的数据治理:数据集成:用于离线(批量)数据同步。实现多数据源对立治理,买通多种第三方数据库,API等形式,打消数据孤岛的存在。采纳两种开发模式: 向导模式:该形式为现有大部分数据集成所采纳的形式 脚本模式:通过编写 json 脚本实现数据同步开发,配置管理更加精细化 数据开发:数据开发基于业务流程下对应的节点进行开发操作,在业务流程面板下新建一个或多个业务流程,每个业务流程依据不同的引擎类型进行分组,每个引擎分组下再对数据开发类型节点、表、资源、函数进行一步分组,即一类业务应用的组件(节点、表、资源、函数)兼顾在一个业务流程中,业务流程下仅展现以后业务流程中应用的组件: 在 DataWorks 上,具体的数据开发工作是基于业务流程发展的,须要先新建业务流程,再进行后续的开发工作。所有生产环境调度节点的代码变更都须要在数据开发界面批改实现后走公布流程进行公布。 数据运维:咱们在开发环境实现节点开发,并提交和公布至生产环境后,能够到生产环境的运维核心对工作进行运维操作,包含周期调度工作的主动调度与手动运行、工作运行详情查看、工作运行状态监控、工作运行应用的资源监控与主动运维;实时工作的执行管控、运行详情查看与监控报警配置;调度工作运维大屏以及数据集成离线同步与实时同步工作运维专页,针对工作运维要害指标的查看。 小结:信息是重要的财产,信息简直总是用作两个目标:操作型记录的保留和剖析型决策的制订。操作型零碎保留数据,而 DW / BI 零碎应用数据。本文仅简略介绍了 DataWorks + MaxComplute 框架的应用,有趣味的敌人能够到官网去查看! ...

March 14, 2022 · 1 min · jiezi

关于数据:AWS-Graviton2上数据压缩算法性能比较

作者:Ravi Malhotra  2022年2月8日联结作者:Manoj Iyer和Yichen Jia 因为云中治理着大量数据,因而须要在存储数据之前对其进行压缩,以实现存储介质的高效应用。曾经开发了各种算法来对航行中的各种数据类型进行压缩和解压缩。在本博客中,咱们将介绍两种广受认可的算法——Zstandard和Snappy,并比拟它们在Arm服务器上的性能。 背景有各种类型的数据压缩算法——其中一些是依据数据类型定制的——例如,视频、音频、图像/图形。然而,大多数其余类型的数据须要一种通用的无损压缩算法,并且能够跨不同的数据集提供良好的压缩比。这些压缩算法可用于多个应用程序。 文件或对象存储系统,如Ceph、OpenZFS、SquashFS数据库或剖析应用程序,如MongoDB、Kafka、Hadoop、Redis等。Web或HTTP–NGINX、curl、Django等。档案软件——tar、winzip等。其余几个用例,比方Linux内核压缩压缩与速度压缩算法面临的一个要害挑战是,它们是为实现更高的压缩率而优化,还是为以更高的速度压缩/解压缩而优化。其中一个优化了存储空间,而另一个有助于节俭计算周期并升高操作提早。有些算法,例如Zstandard[1]和zlib[2],提供了多个预设,容许用户/应用程序依据应用状况抉择本人的衡量。而另一些(例如Snappy[3])则是为速度而设计的。 Zstandard是Facebook开发的一种开源算法,能够提供与DEFLATE算法相当的最大压缩比,但针对更高的速度进行了优化,尤其是用于解压缩。自2016年推出以来,它在多套应用程序中十分风行,并成为Linux内核的默认压缩算法。 Snappy是由Google开发的开源算法,旨在以正当的压缩比优化压缩速度。它在数据库和剖析应用程序中十分风行。 Arm软件团队优化了这两种算法,以在基于Arm Neoverse内核的Arm服务器平台上实现高性能。这些优化应用Neon矢量引擎的性能来减速算法的某些局部。 性能比拟咱们采纳了Zstandard和Snappy算法的最新优化版本,并在AWS(Amazon Web Services)上的相似云实例上对它们进行了基准测试。 2xlarge 实例——应用基于Arm Neoverse N1内核的AWS Graviton2 2xlarge实例–应用Intel Cascade Lake两种算法都在两种不同的场景中进行了基准测试: 关注原始算法性能——咱们应用lzbench工具对蕴含不同行业标准数据类型的Silesia corpus进行了测试。风行的NoSQL数据库MongoDB的应用程序级性能——应用YCSB工具测试应用这些压缩算法对数据库操作吞吐量和提早的影响,并测量数据库的整体压缩。原始算法性能带宽(速度)比拟该测试次要关注不同数据集的16个并行过程的原始聚合压缩/反压缩吞吐量。对于Zstandard,咱们察看到C6g实例压缩时的总体性能晋升了30-67%,解压缩时的整体性能晋升了11-35%。 思考到C6g实例的价格升高了20%,每MB压缩数据最多可节俭52%。 图1:Zstd8压缩吞吐量比拟——C5与G6g 图2:Zstd8解压缩吞吐量比拟——C5与G6g 应用Snappy作为压缩算法,咱们察看到,与预期的Zstandard相比,Snappy具备更高的压缩和绝对相似的解压缩速度。总体而言,与C5相比,Snappy在C6g实例的各种数据集上的体现要好40-90%。 思考到C6g实例的价格升高了20%,每MB压缩数据能够节俭58%。 图3:Snappy 压缩-C5与C6g 图4:Snappy 解压缩-C5与C6g 压缩率咱们还比拟了两种算法在C6g和C5实例上对不同数据集的压缩比。在这两种状况下,都取得了雷同的压缩比,这表明该算法的运行效率达到了预期。 应用程序级性能MongoDB WiredTiger存储引擎反对几种压缩模式:snappy、zstd、zlib等。这里咱们正在测试压缩模式snappy,zstd none。咱们应用了一个由10000句英语文本组成的数据集,该数据集是应用Python faker随机生成的。 独自的AWS实例被用作测试对象和测试主机。文档被插入MongoDB数据库,占5GB(近似值)的数据。应用的测试对象实例是Arm(c6g.2xlarge)和Intel(c5.2xlarge)。在MongoDB数据库中填充了5GB的数据后,咱们应用“dbstat”命令来获取存储大小。 Snappy vs Zstandard –速度vs压缩在Snappy和Zstandard之间,咱们察看到Zstandard在压缩总体数据库大小方面比预期的更好。 图5:MongoDB:数据库压缩比 Snappy在插入操作中提供了更好的吞吐量,这是一种写(压缩)密集型操作。然而,波及压缩和解压缩混合的读/批改/写操作在这两种算法之间简直没有差别 图6:MongoDB:插入吞吐量——Snappy与Zstd 图7:MongoDB:读/批改/写吞吐量——Snappy与Zstd 论断Zstandard和Snappy等通用压缩算法可用于各种应用程序,在压缩不同类型的通用数据集方面十分通用。Zstandard和Snappy都针对Arm Neoverse和AWS Graviton2进行了优化,与基于Intel的实例相比,咱们察看到了两个要害后果。首先,与相似的基于Intel的实例类型相比,基于Graviton2的实例能够实现11-90%的更好的压缩和解压缩性能。第二,基于Graviton2的实例能够将数据压缩老本升高一半。对于像MongoDB这样的理论应用程序,这些压缩算法只会给典型操作减少很少的开销,同时显著缩小数据库大小。

March 7, 2022 · 1 min · jiezi

关于数据:自动驾驶汽车如何识别红绿灯三个角度告诉你答案丨曼孚科技

过马路是参加交通路权的重要交通场景之一。车辆驾驶员和行人之前通常应用非语言交换来互相判断协商人行横道是否能够通行,而没有驾驶员的主动驾驶汽车很难将车辆的驾驶用意传播给十字路口的行人,这可能会使行人和其余路线使用者的安全性升高。 解决主动驾驶汽车精确辨认红绿灯的问题对于所有车辆平安都至关重要,与人类驾驶的汽车不同,主动驾驶汽车仅依附其计算机视觉零碎及导航数据来辨认红绿灯。 目前,最好的主动驾驶辅助零碎每隔数万小时就会呈现对环境感知的偏差,如果对红绿灯感知谬误,乘客与行人都将处于危险中。上面从三个角度来看主动驾驶汽车的红绿灯问题。 红绿灯通知路线使用者什么时候停下来,但只有在每个人都遵守规则的状况下才会起作用。 红绿灯通过计时模式指挥交通,主动驾驶车辆可通过学习通晓交通规则,但在实在路线场景中,往往会呈现很多突发事件,如道路上行人及非机动车辆闯红灯、其余机动车辆在绿灯时没有失常前进等问题,正因没有物理阻碍迫使路线使用者恪守交通信号,使得路线行驶不确定性因素进步,加大主动驾驶落地的难度。 因而,现阶段主动驾驶汽车应具备的根底能力便是学会精确辨认信号灯变动,恪守交通规则出行,而确保主动驾驶汽车学习正确的规定须要一系列驾驶场景的高质量训练数据来撑持。 红绿灯对开发视觉零碎及算法团队的挑战。 辨认红绿灯并不能依附间隔检测实现,因而,主动驾驶汽车不能应用雷达来导航交通信号,必须齐全依附计算机视觉零碎来理解何时进行和来到。 这无疑给研发视觉零碎及算法的团队增大了难度,因为交通信号灯的能见度可能会依据天气条件(如亮堂的阳光、雨、雪或雾)而变动。诸如拍板或手势之类的沟通可帮忙人类驾驶员解决低能见度或没有交通信号灯的状况,但主动驾驶汽车无奈记录这些来补充视觉信息,且并非所有的十字路口都有红绿灯,因而,如果主动驾驶汽车没有检测到红绿灯,起因很可能来自多方面,机器学习和计算机视觉工程师必须就此类场景对主动驾驶进行继续训练。 库存数据集不足以帮忙主动驾驶汽车平安地通过红绿灯。 数据是汽车一直加强辨认能力和判断能力的根底,也是倒退主动驾驶技术的要害。主动驾驶技术须要大规模的数据训练其主动驾驶能力,教会汽车认知驾驶环境,正确驾驶,其对数据品质要求高且品种繁多,而库存数据集无奈涵盖所有用例。 据悉,每个 ADAS 性能大概需10,000至100,000张图像。因为主动驾驶汽车数据采集通常来自特定摄像头或传感器,通用库存数据不足以帮忙主动驾驶汽车平安地通过交通信号灯。因而,须要应用继续的优质训练数据来不断更新模型。 曼孚科技作为数据服务头部企业,深刻理解智能驾驶场景数据需要,在数据标注方面,曼孚科技始终致力于为AI企业提供高质量、场景化训练数据集,凭借从策略到技术落地的一站式通用AI解决方案,全面笼罩数据层至算法层,辅助主动驾驶技术在简单多样的环境下更好地感知理论路线、车辆地位和障碍物信息等,实时感知驾驶危险,赋能行业数字化与智能化。

February 24, 2022 · 1 min · jiezi

关于数据:万字通俗讲解何为复杂度

摘要:复杂度剖析次要就是工夫复杂度和空间复杂度。本文分享自华为云社区《用艰深的语言解说复杂度》,作者: 龙哥手记 。 复杂度剖析刚刚我说过,在俺看来,复杂度剖析是数据结构和算法中最重要的知识点,当然学这篇只是把门找到,反之,学不会它,你就永远找不到火门。 为什么复杂度剖析会这么重要? 这个要从宇宙大爆炸,呃,从数据结构与算法的自身说起。 我平时白天做梦的时候,总想着当当咸鱼,最好能带薪拉屎就能赚大钱那种,数据结构与算法尽管没有俺这么高大尚的幻想,然而它的呈现也是跟我一样总想在更少的工夫及更少的存储来提高效率呗。 能够从哪些方面来动手呢铁子们,CPU 与 RAM 的耗费工夫啊,通信的带宽工夫啊,指令的数量啊,这么多,我不学了不学,没事呀,咱们能够总结一套模型在实践上针对不同算法的状况得出对应规范,复杂度这不就来了,你能够总结下,对于输出数据量n的函数,是吧。 搞清楚为什么,怎么定义 那咋去度量“更少的工夫和更少的存储”,复杂度剖析由此而生。 打个不失当的比如 如果把数据结构与算法看做文治招式,那复杂度剖析就是对应的心法。 如果只是学会了数据结构与算法的用法,不学复杂度剖析,这就和你费尽含辛茹苦在隔壁老王家次卧进门右手地砖下偷挖出老王问难村里无敌手的村林至宝王霸拳,然鹅发现秘籍上只有招式,你却没学会暗藏的心法口诀,好好得王霸拳变的王八拳。只有学会了王霸之气,能力虎躯一震,王霸之气一瞨,震走村口光棍李养的哈巴狗。 铁汁:哇,厉害厉害厉害,你胖你说都对,但还是没必要学啊。小希:???铁汁:当初很多网站啊包啊,代码轻易跑一下,就能轻轻松松晓得多少工夫占了多少内存啊,算法的效率不就轻松比照进去了么?小希:。。。。 two羊吐森破,吃葡萄不吐葡萄皮! 你们说的这种支流叫做预先分析法。 简略来说,就是你须要提前写好算法代码和偏好测试数据,而后在计算机上跑,通过最初得出的运行工夫判断算法时效的高下程度,这里的运行工夫就是咱们日常的工夫。 我且不必 “万一你吃力心理写好的算法代码自身是个很蹩脚的写法” 这种理由反驳你,预先统计法自身存在缺点,它并不是一个对咱们来说有用的度量指标: 首先,预先统计法太依赖计算机的软件和硬件等性能。代码在 core i7处理器 的就比 core i5处理器的运算速度快,更不用说不同的操作系统,不同的编程语言等软件方面,就算在同一台电脑上,后面的条件都满足,过后的内存或者 CPU 的使用率也会造成运行时的差别。 举个例子,考查对全国人口普查数据的排序 $n=10^9$,应用冒泡排序$(10^9)^2$ 对于一般电脑(1GHz $10^9$ flops)来说,大概须要$10^9$秒(30年)。 对于天河1号超级计算机(千万亿次 = 1P, $ 10^15$ flops),大概须要$10^3$秒(20分钟)。 再者,预先统计法太依赖测试数据集的规模。同样是排序算法,你轻易整 5 个 10 个数排序,就算最垃圾的排序,也看起来很快跟火箭一样,不好意思,那 10w个 100w个,那这些算法的差距就很大了,而且同样是 10w 个 100w 个数,程序和乱序的所破费工夫也不等。 那问题来了,到底测试数据集选多少才适合?数据的程序如何订好多才行? 说不出来了叭? 能够看出,咱们须要一个不依赖性能和规模等外力影响就能够估算算法效率,判断算法优劣的度量指标,而复杂度剖析天生就是干这个的,为了能本人剖析,所以你必须了解要把握 工夫复杂度算法的运行工夫 对于某一问题的不同解决算法。运行工夫越短算法效率越高,相同,运行工夫越长,算法效率越低。 那么如何预计算法复杂度? 所有人撤退,咱们很相熟的大 O 闪亮退场! 大佬们甩掉脑阔上最初一根秀发的才发现,当用运行工夫去形容一个算法快慢的时候,算法中执行的总步数显得尤为重要。 因为这只是估算,咱们假如每一行代码的运行工夫都为 Btime(一个比特工夫),那么算法的总的运行工夫 = 运行的总代码行数。 上面咱们看一段简略的代码。 代码1//pythondef longgege_sum (m); sum = 0; for longgege in range(m); sum += longgege return sum; 在下面假如的状况下,这段求累加和的代码总的运行工夫是多少呢? ...

February 23, 2022 · 7 min · jiezi

关于数据:数据标注下半场PLG模式下的增长飞轮丨曼孚科技

过来的2021年,对于数据标注行业而言,是略显“矛盾”的一年。 一方面以主动驾驶场景为外围的数据处理需要继续激增,数据标注行业迎来倒退的瘠田;另一方面,行业融资事件寥寥,且仍然没有诞生独角兽企业。 与前十年横蛮增长不同,迈入下半场的数据标注行业急需的不仅是思考,更是扭转。 主动驾驶进入商业化经营阶段2021年,国内主动驾驶行业迎来新一轮倒退顶峰。 相干统计数据显示,过来一年国内主动驾驶行业披露的融资事件高达94起,融资总金额超435亿,同比历史最高。与之绝对应,美国加州交通管理局DMV公布的2021年主动驾驶MPI数据中,中国企业占据榜单半数,其中,Auto X位列第一,滴滴位列第三,国内主动驾驶企业竞争力凸显。 主动驾驶行业的昌盛一方面与产业链一直降级相干,另一方面也离不开国家政策的鼎力疏导。 产业链方面,摄像头、毫米波雷达、超声波雷达、激光雷达等硬件老本一直降落,主动驾驶感知零碎愈发欠缺。以激光雷达为例,与前几年动辄上万美元的天价相比,目前支流激光雷达厂商的产品价格已大幅升高。 例如Luminar推出了1000美元的LiDAR解决方案,Velodyne公司则打算在将来几年将均匀售价从17900美元降至600美元,而华为则发表会将量产的激光雷达单价管制在200美元以内,这为主动驾驶汽车的大规模量产打下了松软的根底。 政策方面,国家和中央政府先后出台多项政策性、规范性文件,激励主动驾驶行业衰弱有序倒退。 主动驾驶分级规范方面,工业和信息化部率先推出国家级规范《汽车驾驶自动化分级》,对主动驾驶技术等级及其划分因素做出规定。在路线测试和市场准入方面,国家多部委也先后推出《智能网联汽车路线测试治理标准》、《道路交通安全法(订正建议稿)》、《智能网联汽车生产企业及产品准入治理指南(试行)》等多项重磅性产业政策。 在以上这些政策、法律标准的铺垫下,主动驾驶行业向商业化经营阶段迈出关键性一步:北京智能网联汽车政策后行区,在2021年向局部企业颁发国内首批主动驾驶车辆免费通知书,这让北京成为国内首个明确认可“Robotaxi”商业化试点的城市,同时也标记着国内主动驾驶赛道终于迎来商业化经营阶段。 数据标注行业的下半场主动驾驶行业的凋敝也带动了上下游产业链的昌盛,尤其以数据标注行业为代表。 L3级别以上的主动驾驶零碎次要由感知、定位、预测、决策和管制五局部形成,每局部均不可或缺。其对于计算机视觉技术的需要依赖度较高,零碎须要对传感器采集的点云图像数据进行实时处理,构建车辆行驶环境,为预测和决策做根据,这对算法的准确性和实时性考验极大。 目前主动驾驶视觉技术次要以有监督深度学习形式为主,是基于已知变量和因变量推导函数关系的算法模型,须要大量标注数据对模型进行训练与调优。 换言之,想要让主动驾驶汽车更“智能”、主动驾驶算法能更加从容应对复杂多变的路线环境,背地就须要有海量且高质量的实在路线数据做撑持。相干统计数据显示,目前国内根底数据服务市场需求在200-500亿元规模,且放弃每年30%-50%以上的高速增长。 然而,与疾速扩张的市场需求相比,则是行业落后的生产力,集中体现在数据服务商产能无奈满足市场需求以及数据产出品质较低两方面。 产能方面,目前国内数据标注第一梯队服务商年营业额广泛以千万级为主,业务规模、执行效率与项目经理能力高度绑定,产能瓶颈问题凸显,无奈无效填补并抢占极速扩张的需要市场。数据标注产业在国内倒退多年,却从未诞生独角兽企业。 数据产出品质方面,随着主动驾驶行业迈向商业化经营阶段,以点云数据为代表的数据处理需要占比逐步扩充,传统依附简略工具且依赖人力的业务执行形式,曾经愈发无奈满足垂直市场的需要。 站在产业倒退的角度,数据标注行业的下半场,外部急需酝酿一场深度改革。 PLG模式下的增长飞轮深度分析数据标注行业存在的各类问题,会发现无论是产能扩张受限还是数据产出品质较低,都能够用一个更简练的起因概括:轻技术而重人力。 长期以来国内数据标注行业始终处于粗放状态中,行业门槛低,拉起一批人,经简略培训,依附性能简陋的工具即可满足大部分标注我的项目需要,前期业务拓展则齐全依赖销售驱动增长(SLG)。 这种模式在初期的确能够提供规模可观的业务量增长,但也很容易陷入扩张的瓶颈期,短期线性业务增长无奈维系企业长期倒退,过于依赖项目经理以及标注员的执行形式也会因人员流动而产生较大的波动性。 因而,数据标注行业的改革也将是一场业务模式的改革,而PLG模式无望成为解决行业困局的一剂良药。 PLG模式的英文全称是“Product Led Growth”,即产品驱动增长。这个概念最早由风投公司OpenView提出,该业务模式的外围依赖于产品本身作为获取、转化、扩大客户的能源。 2018年SaaS IPO公司的剖析中,Openvie发现:PLG公司比其余非PLG同行体现更好,且估值高出30%。依据Bessemer Venture Partners (BVP)统计,在美国To B市场,PLG正成为一种支流的成长模式,这类公司在2020年的总市值靠近6000亿美元。 相较于传统SLG(销售驱动增长)模式重销售轻体验,PLG模式更加重视产品本身,即产品力建设。数据标注行业以往“轻技术而重人力”的业务逻辑形式,已被市场证实存在业务增长受限、产品力无奈满足甲方需要等问题,产能天花板更是成为困扰一众数据服务商的“顽疾”。 而PLG以产品力为外围的新模式,则赋予了数据服务企业以更低人力收入和边际老本,提供更具标准化解决方案的能力,高水准的数据智能平台更成为企业解脱人力依赖,冲破业务增长天花板,从线性增长到指数型增长的要害。 以曼孚科技SEED数据服务平台为例,作为曼孚科技第三代数据智能平台产品,SEED平台除领有目前市面上支流第二代平台的“多场景标注能力+无限项目管理能力”以外,还创新性的大量引入生命周期治理、AI加强等模块,造成了笼罩“数据全生命周期治理能力+供应链治理+我的项目协同+AI人机协同+自定义权限+全场景标注”的多维平面数据处理能力。 在这些功能模块的加持下,平台数据标注效率均匀晋升10倍以上;AI辅助筛查下,数据精准度可达99.99%级别,直击AI企业数据需要痛点,从源头端解决AI利用场景继续拓展对于多源异构数据的海量需要。 从短期角度来看,PLG模式对企业而言意味着高投入与放弃短期增长,但从久远角度考量,以产品力为外围将更具竞争力,更是一种高效的增长模式。 数据标注行业的下半场,PLG模式无望为数据服务企业构筑起一条产品技术造就的护城河,成为驱动企业业务增长的飞轮。

February 18, 2022 · 1 min · jiezi

关于数据:数据治理从一把手工程到数据文化

始终以来大家对“一把手工程”有个误会,认为所谓“一把手工程”就是由企业的“一把手”(例如:CEO)牵头施行的我的项目。实际上,“一把手工程”是一个本土化、形象化的提法,它强调企业“一把手”在我的项目中的责任和作用。与之对应的英文是:top management commitment(治理高层承诺)指的是治理高层团队对我的项目的提倡和责任,是一个团队而不是一个人,对它的正确理解应该是“高管团队工程”。 数据治理的施行波及业务范围广,牵涉到的人员多,技术又简单多样,因此须要有弱小的组织和推动能力方能胜利,而“一把手工程”无疑是一把突破部门墙、打消信息孤岛、推动我的项目胜利的“金钥匙”。 明天咱们具体聊一聊企业数据治理中,如何打造“一把手工程”! 1、企业数据治理,谁对数据品质负责?在日常工作中,咱们可能比拟容易辨认数据的生产者、使用者和管理者。然而,一旦数据品质呈现问题,要追责的时候,“到底谁对数据品质负责”就经常会变成业务部门之间或业务部门与IT部门之间互相推诿的问题。 举个例子,企业在盘点库存时,常常会发现ERP零碎中的物料库存数据与实物的库存数据存在差别。业务部门会说IT部门没有提供欠缺的零碎性能,导致数据谬误,而IT部门则可能嗔怪业务部门操作不标准。事实上,呈现这种问题有多种可能,例如:业务的出入库操作反复,出入库记录有脱漏,库存物料的形容不精确,以及物料库存地位不正确等。 但谁应该负责解决这个问题?通过IT部门一直加强业务零碎的能力,真的能够解决相似问题吗? 当波及库存时,通常是由一个仓库管理员负责确保库存数量精确。作为数据品质改良和管制的一部分,这可能须要对系统中的物料建设对立的编码规定并施行数据荡涤,还可能须要对实物库存进行从新贴标签。而这些决策永远不会成为单纯的IT问题,IT部门将无奈解决。 数据确实权定责只是数据治理的伎俩,而不是数据治理的目标,企业要做的是进步数据品质和实现业务指标,而不是在产生了数据问题后去追究责任。数据问题的重点在于预防,问题产生了再去追责则为时已晚。 笔者认为,数据品质人人有责:谁生产谁负责,谁领有谁负责,谁治理谁负责,谁应用负责。数据生产者要确保依照数据规范进行规范化录入;数据拥有者要确保所领有的数据可查、可用、可共享;数据使用者要确保数据的正确、合规应用,以及数据在应用过程中不失真;数据管理者要制订确保数据品质的流程和制度,并使其无效执行。 2、企业数据治理,须要“一把手工程”企业数据治理之所以须要建设成为“一把手工程”,除了更容易对数据进行确权定责之外,次要还波及以下5个方面起因: 第一,数据治理不单是一个我的项目,更是一项继续的数据服务——数据治理即服务。数据治理是策略层面的策略,而不是战术层面的办法,从数据策略的定义到施行路线的制订,都须要企业高层领导参加并最终决策。高层领导是企业策略制订的间接参与者,也是企业策略落实的执行者,他们须要对企业数据策略的细化和施行充沛受权,要积极支持与配合数据治理执行层的工作。 第二,与传统信息化我的项目不同,数据治理是一项须要一直迭代、继续优化的综合工程。高层领导对数据治理我的项目仅反对是远远不够的,他们须要深度参加,做好领导带头和模范作用,让业务部门、IT部门在数据治理的策略方向和指标上保持一致。 第三,数据治理我的项目波及范围广,关涉范畴为整个公司,须要各个部门的严密单干,互相协同。只有有一个部门领导不踊跃,他所管辖的部门就有可能成为施行数据治理的阻碍。只有“一把手”牵头的数据治理我的项目,能力顺利买通各部门之间的部门墙,各业务线条之间的业务墙,各信息系统之间的数据墙,让信息流得更加通顺。 第四,数据治理我的项目具备周期长、范围广、过程简单等特点,随时可能会遇到从新调整估算,重新分配资源,让所有的要害利益相关者进行单干,并随时调用各种数据的问题,而高层领导的关注和深度参加能帮忙数据治理我的项目向通往胜利的方向迈进一大步。 第五,要全面发展数据治理,须要数据创立、采集、加工、解决、存储、应用各环节波及的每个业务部门踊跃投入,同时须要企业内的利益相关者对企业的数据治理对立认知,对立思维,群策群力配合,上下一致口头,而这所有都离不开“一把手”的领导和反对。 3、企业数据治理,如何施展“一把手”作用1.深度参加数据治理是由一个又一个的数据治理我的项目组成的循环迭代,一直回升的模式,也叫螺旋模型。每一个数据治理我的项目指标的胜利实现都离不开高层治理的参加和反对。 作为项目经理,你要意识到企业高层领导也是我的项目的一项可利用的重要资源,须要“用好”。在数据治理我的项目的预研、立项、启动、调研、设计、施行、验收等各个关键环节,项目经理要分明在哪些环节、哪个会议须要哪些高层领导参加,他们可能提供什么帮忙。在我的项目执行过程中,项目经理要被动向高层领导汇报各个关键步骤,并通知他们你的指标是什么,目前停顿到了什么水平,遇到了什么问题,须要哪方面的帮忙等,让他们理解我的项目的停顿和须要改良的中央,这样能够帮忙他们制订出更加完满的解决方案。 作为企业高管,也要意识到数据治理是企业数字化转型的必经之路,是企业的重要策略,须要被动、踊跃的参加。而理论状况中,因为各位高层领导的工作个性,以及集体精力问题,往往对具体我的项目的关注度不够,影响了我的项目的稳步推动。采取什么切实可行的办法来关注我的项目,参加我的项目,其实是个很有技巧的问题。比方多听听项目经理的口头汇报;在获得阶段性成绩时用面对面或邮件的形式表白一下恭喜;在项目经理遇到资源、人力等协调问题时,及时回复个邮件等。有时仅仅是一个电子邮件,然而对项目经理来说就是一个有形的反对——让须要企业相干的干系人晓得,领导在关注这个问题。 2.充沛受权数据治理我的项目须要各业务部门、技术部门的相互配合和协同。作为数据治理我的项目的执行者,项目经理往往因为职权的问题,无奈协调业务或技术部门的管理者。数据治理我的项目须要高层领导给予项目经理充沛受权,只有受权能力确保数据治理策略和口头无效地贯彻和执行上来,并革除口头阻碍。 企业中高层领导代表着更高的职权,在对项目经理受权的形式上能够采取很多灵便,有时须要一些技巧。例如:将项目经理权责写入“我的项目章程”并以正式的文件模式公布;在我的项目启动会、阶段汇报会议等公共场合强调项目经理的权责重要性;在我的项目获得肯定停顿时,给予当面的必定和褒扬等等,都是受权的模式。 3.保龄球效应踊跃激励式的“受权”能够让项目经理加强信念,同时也让企业的相干利益相关者分明地晓得,数据治理牵头人“不是一个人在战斗”,背地更有“一把手”或者高层领导团队的反对,牵头人的意见肯定水平上代表了“一把手”的意见。这对数据治理的各项事务的推动和跨部门合作至关重要! 从最开始对新冠疫情的猝不及防,到全民抗疫的万众一心、共克时艰,再到实现疫情防控常态化,咱们积攒了丰盛的抗疫教训,获得了来之不易的重大成果。兼顾推动疫情防控和经济社会倒退工作,放松复原生产生存秩序,更是让我国成为2020年寰球惟一实现经济正增长的次要经济体。 4、企业数据治理,将数据思维植入企业文化数据治理是一个长期的系统工程,须要融入进企业文化当中。资源是会枯竭的,只有文化生生不息,当数据治理植根于企业文化,数据治理策略和口头就可能自然而然的顺利进行。而一种企业文化并不是久而久之、轻易就能造成的,往往与企业的“一把手”有着亲密的关系。 企业文化的建设并只不是写在纸上的“标语”,也不是给员工一直“灌输”就可能造成的,它是从“一把手”团队的日常实际中总结和提炼进去的。 因而,数据文化的建设,不仅是须要“一把手”的了解和认可,更须要“一把手”的积极参与和反对。“一把手”必须通过本人的行为,事必躬亲去影响人、带动人、激励人,从而将“用数据谈话、用数据管理、用数据决策,用数据领导口头、用数据驱动翻新”的数据思维,植入企业文化,造成企业的价值观。 数据文化是一种翻新文化,提倡数据思维和翻新办法,办法对,事倍功半,办法不对,事倍功半。 例如,某公司为了解决会计解决单据的效率问题,施行了公共数据库我的项目,该我的项目基于数据湖技术把销售事件、洽购事件、生产事件、资金事件等起源不同渠道和零碎的会计信息对立采集和接入到公共数据平台中来,造成了围绕会计“事项”的公共大数据“事项库”。通过该项目标施行,原来几十人须要做的事件当初只有几个人就能实现了,不仅晋升了效率,老本还节约了5倍。 企业文化是企业治理的最高境界,要建成良好的数据文化也不能仅靠“一把手”就能实现的,而是须要整体员工的共同努力。 在工作中,要造成“养数据”的行为习惯,一直积攒各类业务所需的数据;还要学会“管数据”,确保数据的可见、可查、可拜访;同时,还须要学会“用数据”,用数据驱动业务,晋升效率、降低成本,为企业发明价值。 写在最初的话数据治理是企业策略层的策略,而“一把手”是企业策略制订的间接参与者,也是企业策略落实的执行者。“一把手”须要对企业数据策略的细化和施行充沛受权,要积极支持与配合数据治理执行层的工作。“一把手”要做好激励工作,帮忙执行层买通数据治理策略施行的阻碍。实际上,数据治理我的项目仅有“一把手”的反对还是不够,IT部门、项目经理必须要与“一把手”的策略方向和指标保持一致。 数据治理我的项目的周期长、范围广、过程简单等特点,随时可能会遇到从新调整估算,重新分配资源,并借由所有的要害利益相关者进行单干,并可能随时调用各种数据的问题,而“一把手”的关注和深度参加是数据治理我的项目通往胜利的方向迈进一大步。 最初。以前上ERP讲“一把手工程”,现在搞数据治理、数字化转型也讲“一把手工程”。其实,讲不讲“一把手工程”都是废话,实际上但凡波及企业改革的我的项目,没有那个是短少“一把手”反对的。要害还是要理出须要“一把手”反对什么,怎么反对!

February 17, 2022 · 1 min · jiezi

关于数据:Alluxio中的元数据同步设计实现和优化

元数据同步(metadata sync)是Alluxio的一个外围性能,它能使文件和目录与底层存储系统中的数据源保持一致,便于用户通过Alluxio获取最新数据。同时,理解外部过程对于性能调优也非常重要。本文介绍了Alluxio元数据同步性能的设计和实现。在Alluxio中,元数据是指Alluxio文件系统中的文件和目录信息,包含所有者、组、权限、创立和批改工夫等信息。元数据独立于其内容,即便是空的文件或目录仍然领有关联的元数据。 Alluxio保护底层存储的文件系统或对象存储命名空间的正本。在Alluxio中,元数据的一致性十分重要,尤其是不同的集群在数据工作流中写入或读取数据,对底层存储的文件间接进行批改时,并不通过Alluxio。上图是一个典型的场景,该数据工作流同时应用了Spark ETL和Presto SQL。ETL集群(未部署Alluxio)写入数据,而后由部署了Alluxio的剖析集群读取转换后的数据。因为Alluxio保护底层存储中的元数据正本,并对元数据进行治理,所以当底层存储的数据通过ETL步骤发生变化时,必须让剖析集群上的Alluxio实例感知到并与底层存储系统中的元数据保持一致,只有这样能力持续失常运行。Alluxio在一个或多个存储系统下的对立命名空间中提供文件系统形象。通过Alluxio拜访文件或目录,会失去与间接拜访底层存储雷同的后果。例如,如果挂载到Alluxio根目录的底层存储是s3://bucket/data,那么在Alluxio中列出"/"目录的后果与在s3://bucket/data中列出对象的后果雷同,在Alluxio中打印"/file "会返回与s3://bucket/data/file同样的后果。 默认状况下,Alluxio将从底层存储按需加载元数据。在下面的例子中,从空(Empty)开始的Alluxio master在启动后不会有任何对于s3://bucket/data/file的信息。只有当用户在Alluxio中列出"/"目录或试图拜访"/file "时,这个文件才会被辨认。该“惰性”操作能够缩小不必要的工作并显著进步性能,因为底层存储中的元数据操作可能很慢。 留神,更新元数据能够是双向的。如果对文件系统的所有批改都通过Alluxio进行,那么Alluxio只须要扫描一次底层存储来检索初始状态,而后作为文件系统RPC调用的一部分,在Alluxio和底层存储中同步利用该批改,这将为用户提供统一的底层存储视图。但在事实中,对底层存储的批改通常在Alluxio外进行。因而,Alluxio master必须监控底层存储中文件和目录的减少、删除和更新,并在Alluxio文件系统中利用这些批改。同步两个命名空间的这一过程称为元数据同步。当利用程序修改了Alluxio文件的元数据,并且该文件被长久化时,该批改总是会同步传输到底层存储,因而不须要触发元数据同步。当应用程序在Alluxio无感知的状况下更新底层存储文件时,有两种办法能够治理元数据的同步工夫。 基于工夫的主动同步咱们能够将同步距离设置到Alluxio配置项“alluxio.user.file.metadata.sync.interval”上。 当该值为-1(以后默认值)时,Alluxio在初始加载后将永远不会与底层存储从新同步。 当该值设置为0时,每次拜访元数据,Alluxio都将与底层存储从新同步。 当该值为正时(默认单位为毫秒),Alluxio将(尽力)不在该工夫距离内从新同步门路。 留神,应用这种办法时,如果Alluxio中的某个门路从未被拜访过,将不会触发同步。一旦同步工夫距离过后该门路被拜访,Alluxio将再次与底层存储同步。例如,在Presto作业中,查问打算阶段会列出作业所需的所有文件,如果这些门路最近没有被拜访,则会触发同步。然而,该作业在后续阶段将不会同步,除非作业持续时间超过同步间隔时间。 因而,这种状况下,实践上说Alluxio可能会比同步工夫距离更频繁地从新同步。 咱们能够应用新的全局默认值(在alluxio-site.properties中设置)。或者在目录根底上配置该项,该配置会递归地作用在所有子文件和目录上。 应用LoadMetadata标记手动同步如果因为同步工夫距离而没有进行元数据同步,则大多数Alluxio操作会持续应用Alluxio文件系统中以后的元数据,有一些例外值得一提: 对于大多数用户来说,Alluxio CLI "loadMetadata "是手动触发同步的最简略办法。例如,能够运行 "bin/alluxio fs loadMetadata /path/to/sync "来强制更新Alluxio门路"/path/to/sync "的元数据。 对于基于Alluxio文件系统SDK(Java)构建的应用程序,有两个API办法getStatus和listStatus能够检索门路或目录的元数据。在调用这些办法时,每次调用的选项中都会多出一个LoadMetadataPType字段,这可能会在被查问的Alluxio门路上触发master的“loadMetadata”过程。这一过程能够说是同步的简化版,只从底层存储加载文件元数据。但如果文件曾经在Alluxio中了,就不会批改文件的元数据。如果LoadMetadataPType被设置为NEVER,则不会加载任何内容,如果文件不存在,则会抛出FileNotFound异样。当LoadMetadataPType为ONCE时,只会为每个目录加载一次元数据。这只会影响两个文件系统的调用,并且仅在未产生同步时此选项才失效。当Alluxio master收到RPC申请检索该门路的元数据时,Alluxio master可能会在Alluxio门路上触发元数据同步。此时不会有专用的服务来遍历整个文件系统的节点树(inode tree)并放弃同步,而是由master上每个独自的Alluxio文件系统操作来摊派这一工作。在RPC申请中同步的高级过程为: 步骤1:确定给出的Alluxio门路是否与相应的底层存储门路统一。如果不统一,意味着底层存储门路不存在,或者有与Alluxio不同的元数据。这一部分都是在解决该RPC申请的线程实现的。 步骤2:将步骤1填充到一个同步队列中,而后遍历同步队列,用一个线程池来解决这个队列里的每一个门路。遍历的程序是BFS(广度优先搜寻)程序,因为在处理过程中咱们会在队列末端不停增加新的门路。这种实现的并发度和executor(线程池)咱们将在并行度局部具体探讨。咱们有两个线程池解决不同的工作,一组线程叫做同步线程(“sync threads”),另一组叫做预取线程(“prefetch threads”)。队列的解决是由同步线程(“sync threads”)实现的,并应用预取线程向UFS读取底层存储信息。这样做是为了让网络I/O与计算同时进行。同步线程须要操作InodeTree,一旦咱们确定在之后须要某些文件的信息,就能够启动底层存储预取。预取线程将底层存储中文件的状态信息加载到一个底层存储的状态缓存中,这一过程将在缓存局部探讨。 请留神,如果元数据的同步过程在同步InodeTree某一部分的时候会阻塞其余对这一部分Inode的操作,这里的开销可能会很大。这是因为同步过程可能会对其正在更新的文件系统的元数据局部加写锁。当同步节点树中的特定门路时,RPC解决线程将首先获取整个文件门路上的读锁。因为同步线程也须要可能创立门路,因而也必须获取根门路的写锁。同步线程在解决根门路下的各个门路时,都会获取其余的锁。同步线程获取文件门路的写锁,并在门路处理完毕后立刻开释。 调度并行度 咱们能够通过管制三个配置参数来调整元数据同步的并行度。 alluxio.master.metadata.sync.concurrency.level 示意在单个元数据同步申请中(例如,在目录上)最多能够同时同步的文件数量。 alluxio.master.metadata.sync.executor.pool.size 示意所有同步操作的并发线程数。 alluxio.master.metadata.sync.ufs.prefetch.pool.size 示意在所有同步操作中能够执行底层存储预取操作的并发线程数。 缓存后果 为了进一步优化元数据同步的性能,Alluxio有三类不同的缓存,在元数据同步过程中有着不同的指标和用处。上面对这些缓存进行简略总结。 AbsentCache是负缓存(negative cache),用于防止查看已知不存在门路的底层存储。它应用前缀匹配来确定门路是否在底层存储中。例如,如果门路/a/b在缓存中,咱们就晓得/a/b/c在底层存储中肯定不存在。此外,AbsentCache条目附有工夫戳,这样咱们就能晓得它在底层存储中最初一次被查看的工夫。如果同步距离为一段时间,则工夫戳十分有用,能够依据它来确定是否须要从新查看底层存储中的文件或目录是否存在。 UfsStatusCache是用于在同步过程中预取底层存储状态的缓存。咱们通常能够在解决当前目录时预取一些文件的状态(应用预取线程),而不是在须要时获取门路信息。 UfsSyncPathCache是蕴含最近与底层存储同步门路的positive cache(正缓存)。当收到元数据操作时,咱们将查看该缓存,确定是否须要同步某一门路。元数据同步是Alluxio最重要的性能之一,有多种办法能够触发同步,但应用时须要衡量对性能的影响。Alluxio master外部有一系列对元数据同步的优化。

February 16, 2022 · 1 min · jiezi

关于数据:加速企业数据应用创新的核心能力灵活性

企业在构建数据利用时,常常遇到业务部门和IT部门,在外围指标方面存在某些抵触。IT部门更专一于稳定性、可重复性、效率和经营风险管理,而业务部门更专一于速度、敏捷性、灵活性和业务危险。 IT团队负责通过采纳适当的安全性和可恢复性的做法,以最小危险的形式来实现技术部署及企业数据管理(同时满足老本管制)。 业务部门则负责以可掂量的指标来实现企业倒退经营等指标,如在规定的周期内取得的支出增长比率。这些指标有时通过具体我的项目实现的,而这些我的项目须要借助数据分析来掂量胜利度,如大屏展现、驾驶舱、剖析看板、机器学习、深度学习等技术。在许多我的项目里,开始时都是揣测性的,即须要某种程度的摸索能力和预测来定义业务和技术要求。 但矛盾的是,IT部门对需要的要求是十分明确的,以此保障为新的业务布局数据和技术能力的相应撑持,同时IT部门还必须思考新建的业务能力不会对生产中运行的任何已有的流程产生不良影响。所以如果业务部门无奈明确新的业务场景需要,那么IT部门又如何能保障实现的成果呢? 大部分状况下,业务部门无奈及时提供所有明确的需要,因而业务部门须要一些业务摸索过程。并且在他们摸索过程中,一直的验证或颠覆之前提出的一些业务假如,并决定业务流动的持续进行或及时止损。业务部门心愿尽快试错,而后开始测试另一种办法、甚至不同的业务场景。 当业务部门创立有价值可反复的剖析过程/指标时,咱们称之为“可反复剖析”。益处是这些剖析能够满足明确定义的需要;但害处是它是在沙盒中编写并运行的。这个时候,业务部门心愿IT部门将其转移到生产环境中,或者间接投入生产环境中,业务的关注点很可能曾经开始筹备下一个剖析场景,抵触由此开始。 认知这个抵触,能够帮忙咱们更全面地了解这个问题。其中没有人有错,而且他们单方都只专一于实现本人的指标。在咱们看来,他们的抵触正在僵持,但仍然存在解决办法。 灵活性基于自助式剖析能力述求,抉择最合适的软件资源(BI工具、开发语言和智能技术等)的能力,放慢用户的洞察力、并最大水平地缩小经营工作。 在解决矛盾的同时实现工具、语言和常识的灵活性业务和IT部门有着不一样的需要。当IT部门可能帮忙企业以自助服务形式运行并装备适当的工具时,企业就能够更快地进行翻新以寻找新的洞察。在许多业务用户理解到学习和应用最新工具语言和数据库会进步他们达成业绩的能力时,他们都承受了这个想法。业务用户有时心愿取得更高的自由度和灵活性,却并不总是理解灵活性对于生产环境稳定性的影响。通常,业务用户心愿应用工具的最新版本,而IT部门则心愿确保生产环境中应用的是通过测试的稳固版本,避免出现意外的中断或故障报修。 IT部门的要害职责在于通过评估工具、语言和库来打好稳固的根底,确保这些工具是能够满足业务需要的最佳工具。IT确保这些组件对业务需要具备战略意义,并且能够进行长期可行的、老本正当的保护。 IT部门还须要合理化部署生产环境的技术实现,确保统一的产品版本控制、技术架构可反对、劫难复原和整体可管理性。底线是:一项要害的IT性能能够反对业务,并且能够通过长期零碎可用性的形式、确保满足所有业务用户的需要。 业务需要IT需要1、利用各种BI工具,开发语言,智能技术进行剖析2、 2、以自助形式提高效率;3、正规和自定义的培训。1、确保生产和摸索环境可拜访,可继续,可伸缩及可保护; 2、评估可用性,老本,施行路线,并有效性的反对生产工作负载技术。举荐倡议为了保障灵活性而不造成凌乱,咱们倡议业务和IT部门同时听取以下倡议: IT部门留神:1、IT部门须要钻研并搭建能够在生产环境中提供反对的受权剖析工具、编程语言和可积淀常识的技术。这项工作应该与业务协同进行,以确保满足业务需要。 2、IT负责将沙盒数据和剖析利用部署到生产环境中,经营化。 3、无论谁发动的新技术引入,IT应尽早的参加甚至被动相应的评估。 4、基于用户核心单干,提供技术培训反对IT。 业务部门留神:1、尽早与IT单干,参加大数据分析利用的技术实现,以放慢评估过程。 2、建设基于用户为核心,从而发展合作、并举荐自助服务培训资料。 3、尽可能利用生产受权技术,放慢IT部门将剖析利用于生产的能力。 4、在抉择未经受权的技术时,应由业务方自行决定,然而,业务方应采取IT侧的倡议。如果业务部门未采纳倡议,那么IT部门的经营化工作可能须要更长的工夫,或者可能须要重头再来。 5、容许业务用户将本人的工具、语言和库带入本人的沙盒中,但必须明确只能用于摸索试验,并且不能间接把生成的剖析部署生产环境中。 灵活性是大数据利用翻新的要害一步,它让用户可能应用各种古代工具来满足他们的剖析需要。 用友数据中台,提供企业数据利用翻新外围能力-灵活性。 基于数据湖的技术底座,为企业提供疾速,麻利的数据集成,存储,计算能力。同时基于数据工厂为企业带来全方位的数据治理,利用开发能力。为IT部门(大数据中心)提供全方位的数据经营能力,同时借助智能剖析提供为业务部门的业务摸索提供灵便撑持,解决了业务部门和IT部门的建设过程的所面临的问题。

February 16, 2022 · 1 min · jiezi

关于数据:数据治理质量保障研究

摘要家喻户晓,大数据技术将关上各行各业的数据魔盒,从金融、电商、医疗、能源到制造业,都致力于从大数据中开掘价值。而数据治理是实现大数据策略的根底,通过数据治理晋升数据价值能力保障最终大数据分析的准确性。目前国内外有很多对于数据治理的实践和办法。大部分的实践和办法都会围绕数据品质治理开展。数据治理的过程中须要跟踪评估数据品质。本文重点论述用友在数据全生命周期中数据品质保障的方法。 企业在日常生产建设经营过程中产生与存储的数据量极其宏大,获取数据的起源也很多,为了不便企业数据的整合剖析,首先要保障企业数据的品质并对企业数据的品质放弃监控。用友对数据品质的监控往往是贯通数据的整个生命周期。评估数据品质的指标包含:数据真实性、数据准确性、数据唯一性、数据完整性、数据一致性、数据关联性、数据及时性(见附录)。 1 数据品质治理在打算对企业数据进行数据治理时,应充分考虑业务理论需要,进行业务剖析,制订数据规范体系,再确保数据采集、存储、治理与交付各个环节的数据品质。 图1 数据品质保障流程2 数据品质治理的根底-业务剖析企业生产经营过程中,对业务进行解构、梳理与剖析是十分必要的。业务需要不清晰,例如:业务形容、业务规定不清晰,会导致技术无奈通过业务构建出正当、正确的数据模型。后期依据业务整顿数据范畴、数据维度以及数据关系,并根据数据整顿的后果制订企业级别的数据规范体系会帮忙企业清晰的形容与标准数据。 2.1 确认数据范畴数据激增是当今社会的一大个性,企业会从不同的路径挖掘出大量的业务相干数据,蕴含结构化数据、非结构化数据(文件)与半结构化数据(模型)。在数据治理前,首先要对业务划分,确定数据治理的范畴。例如银行对公业务数据治理,银行对集体业务数据治理等等。 2.2 统计数据维度在整顿数据维度时,往往能够从多个不同的维度对数据进行划分。例如:依据数据的产生阶段,能够把生产线数据分为设计数据、洽购数据以及制作数据;依据数据的用处,能够把实时数据能够分为属性形容、流动记录与信息统计;依据数据形容的对象,能够将交易数据分为用户数据、行为数据与产品数据等。 2.3 剖析数据关系企业数据形容了各种各样的业务场景,业务场景与场景之间存在关联关系。因而在通常状况下,数据与数据之间总会存在肯定的关联关系。例如:业务场景中会形容一系列数据关系模型,通过预设的多种关系(包含隶属、连贯等)使生产流动中的各类事物(包含物理、流动、事件等)互相关联,造成一张数据网络图,从而为数据分析与数据智能交付的实现提供了更加便当的条件。 3 根据业务需要构建规范体系通过对理论业务进行剖析,企业将会失去较为清晰精确的数据范畴、数据维度以及数据之间的关系,而在此基础上,企业则须要通过制订欠缺的规范体系对数据的品质以及合规性进行治理,从而可能更好的施展数据的潜在价值,还能防止因需要变更导致数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节受到的影响。规范体系应笼罩数据的全生命周期,从数据采集、存储、交付、治理、利用等方面进行规范化定义。一方面,规范体系的标准可能保证数据自身的精确水平,另一方面,通过执行对立的规范体系,企业各部门之间的数据壁垒将被买通,数据流动将更为晦涩。 为了更好的保障数据品质,往往须要构建采集规范、编码标准、孪生体规范等一系列规范。而在利用规范体系时,规范的多样性与可扩展性是须要分外留神的局部。 3.1 规范的多样性规范体系,最重要的目标在于制订符合实际业务场景的规范化定义。而因为业务场景自身的多样性,相应的规范也会更加丰盛。随着业务类型的减少与原有业务范围的不断扩大,企业会不断丰富已有的规范体系,对越来越多的业务数据做出定义。 3.2 规范的可扩展性随着企业业务的倒退,相应的数据规范也将发生变化,因而,企业须要针对过期规范进行订正、扩大或者作废。在此过程中,要分外留神规范体系的变动对数据治理过程的影响,在治理初期应制订管制规范版本的规定,包含规范的数据定义、规范的计算维度、规范的统计口径等。在进行规范改变时,应答随之带来的数据荡涤规定执行严格的审核流程,保障上下游数据接口的稳定性。 4 数据采集数据采集往往是产生数据品质问题的突出环节,采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,会导致数据采集失败、数据失落、数据映射和转换失败。采集是原始数据标准化和资产化的第一步,采集过程的规范性在很大水平上决定了最终的数据品质。对于数据采集、编码和关联关系的规范化有助于升高数据荡涤交融的难度,为数据入库、存储、剖析和交付奠定根底。 4.1 基于规范的采集为了进步采集品质,须要将采集规范纳入采集流动的后期要求中。采集规范须要具体规定要采集的数据对象、计量单位、对象属性、非结构化数据以及关联关系、半结构化数据以及关联关系。 4.2 基于规范的编码数据在其全生命周期中,为了保障交付过程的流畅性,往往须要采纳对立的编码规定,规定了采集数据在采集时,应依照此标准规定的对象代码、属性代码、非结构化数据代码以及半结构化数据代码生成数据编码,并作为编码属性同属性一起存储起来。 4.3 基于规范的关系开掘通常状况下,在理论业务场景中会存在各种各样的业务关系,对应的业务数据之间也存在一系列的关系。例如:在工业中存在三种常见的数据关系,包含工业设施(如焊缝、阀门等)分类层级构造关系(如线路对象类-管道本体-管道本体焊缝)、工业设施(如某条焊缝、某个阀门)所属关系(如某油田-某二级单位-某站场/管线-某条焊缝)、工业非结构化数据(如某阀门洽购文件、某阀门施工文件)半结构化数据(如某阀门设计模型)与结构化数据(某阀门)之间的关联关系。采集后果能够依据相应的属性关键字开掘数据之间的关系。 5 数据存储在理论业务场景中,会产生各种各样的数据,依照数据的结构特征,能够分为结构化数据、半结构化数据以及非结构化数据,其中不仅包含合乎采集规范的数据,同时也包含各类非标准数据,如第三方增补数据、利用回存数据等。这里往往会因为数据存储设计不合理,数据的存储能力无限,人为后盾调整数据,引起数据失落、数据有效、数据失真、记录反复等问题。数据在进入数据仓库后,应在理论业务需要的根底上,依照其各自的构造模式别离进行存储,而且因为企业数据规模往往非常宏大,在进行存储时也应充分考虑构建大数据的存储构造。 5.1 确认数据的存储形式依据是否符合标准,结构化数据分为两个局部,包含规范结构化数据(+关系)与非规范结构化数据(+关系)。通过规范对结构化数据做出具体定义,利用关系型数据库(SQL)作为规范采集数据落地的数据库。对于非标准结构化数据(+关系)以及规范结构化数据(关系)本章须要做重点形容。 1)非标准非标准是指自身不属于规范定义。因为此类可能属于其余数据规范或此类属于动态数据(如用户行为数据,数据属性定义随意性会很大、数据增长形式不法则),因而对于非标准无奈应用关系型数据库而须要抉择不局限于固定构造的非关系型数据库(NoSQL)。 2)规范数据非标准属性规范的非标准属性是指自身属于规范定义,但属性不在采集规范的属性定义范畴内。此类属性不是必填属性,属性类型也不固定。因而会将非标准属性形容的拆分为两局部存储,符合标准的属性寄存在关系型数据库(SQL)中,不符合标准的属性寄存在非关系型数据库(NoSQL)中。两局部数据通过雷同主键关联。 3)数据关系前文介绍了三种数据关系,别离是分类层级构造关系、对象所属关系以及结构化数据与非结构化半构造数据关联关系。关系数据会对立寄存在NoSQL中,反对数据的关联剖析。另外为了实现非结构化数据与半结构化数据独立存储,保证数据的安全性与扩展性。就须要通过分布式文件系统寄存在各个单位的存储模块中。再将非结构化与半结构化数据的寄存地址与形容写入SQL数据库中的结构化数据的属性中。实现数据的对立治理。 6 数据管理数据管理往往影响数据品质的是主观因素,例如企业管理者不足数据思维,没有意识数据品质的重要性。没有明确数据归口治理部门或岗位,不足数据认责机制,呈现数据品质问题找不到负责人。不足数据布局,没有明确的数据品质指标,没有制订数据品质相干的政策和制度。数据输出标准不对立,不同的业务部门、不同的工夫、甚至在解决雷同业务的时候,因为数据输出标准不同,造成数据抵触或矛盾。不足无效的数据品质问题解决机制,数据品质问题从发现、指派、解决、优化没有一个对立的流程和制度撑持,数据品质问题无奈闭环。不足无效的数据管控机制,对历史数据质量检查、新增数据品质校验没有明确和无效的控制措施,呈现数据品质问题无奈考核。 企业须要定义专门组织机构来治理数据,这是数据治理我的项目胜利的最基本的保障。主要职责是两个层面:一是在制度层面,制订企业数据治理的相干制度和流程,并在企业内推广,融入企业文化。二是在执行层面,通过继续优化数据品质监控办法,为各项业务利用提供高牢靠的数据。 7 数据交付服务数据传输过程中常常会遇到因为数据接口自身存在问题、数据接口参数配置谬误、网络不牢靠等造成的数据品质问题。通过技术手段构建便于复制和定制接口的数据平台,如基于PaaS平台与微服务架构(Spring Cloud + Docker),通过微服务注册和公布供数与收数接口(HTTP),保障服务的高可用和灵便拓展。对于数据消费者,须要解决业务零碎的各自为政及“数据烟囱”问题。通过技术手段的实现数据汇总,买通不同利用不同畛域的数据壁垒,实现数据共享服务。 8 总结本文次要介绍了数据治理过程中常见的数据品质问题与保障数据品质的策略与流程,同时也介绍了规范的设计原理与最终的利用办法。根据上述钻研能够看出,保障数据品质是数据交付和剖析的前提,技术施行的方法始终围绕保障数据品质的需要,从而保障了企业数据治理的最终落地。 附录数据真实性:数据必须实在精确的反映主观的存在或实在的业务,实在牢靠的原始统计数据是企业统计工作的根本要求,是经营者进行正确经营决策必不可少的第一手材料。 数据准确性:准确性也叫可靠性,是用于剖析和辨认哪些是不精确的或有效的数据,不牢靠的数据可能会导致重大的问题,会造成有缺点的办法和蹩脚的决策。 数据唯一性:用于辨认和度量反复数据、冗余数据。反复数据是导致业务无奈协同、流程无奈追溯的重要因素,也是数据治理须要解决的最根本的数据问题。 数据完整性:数据完整性问题包含:模型设计不残缺,例如:唯一性束缚不残缺、参照不残缺;数据条目不残缺,数据记录失落或不可用;数据属性不残缺,数据属性空值。不残缺的数据所能借鉴的价值就会大大降低,也是数据品质问题最为根底和常见的一类问题。 数据一致性:多源数据的数据模型不统一,命名不统一、数据结构不统一、束缚规定不统一。数据不统一,数据编码不统一、命名及含意不统一、分类档次不统一、生命周期不统一等,雷同的数据有多个正本的状况下的数据不统一、数据内容抵触的问题。 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或谬误,函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会间接影响数据分析的后果,进而影响管理决策。 数据及时性:数据的及时性是指是否在须要的时候获到数据,数据的及时性与企业的数据处理速度及效率有间接的关系,是影响业务解决和管理效率的要害指标。

January 27, 2022 · 1 min · jiezi

关于数据:曼孚科技丨如何通过数据服务助力数字经济发展

近年来,数字经济迅猛发展,互联网技术更迭的步调一直减速,新基建带来的数字技术已成为继农业经济、工业经济之后又一重要经济状态,以挪动互联网、大数据、云计算和物联网为代表的数字技术已成为经济社会高质量倒退的新引擎和新动能。 数据带动数字经济转型 毫无疑问,“数字经济”已成为“十四五”倒退的主旋律。 今年初国务院颁布的《“十四五”数字经济倒退布局》将高质量数据纳入重点生产因素。该布局指出,作为重点倒退对象,要充分发挥数据因素作用,强化高质量数据因素供应,放慢数据因素市场化流通,翻新数据因素开发利用机制,全面建设以数据资源为要害因素,以古代信息网络为次要载体,以信息通信技术交融利用、全因素数字化转型为重要推动力,是对立偏心与效率新经济状态的基本保障。 目前我国数据因素市场可分为数据采集、数据存储、数据加工、数据流通、数据分析、数据利用、生态保障七大模块,笼罩数据因素从产生到产生作用全过程,其中数据为外围的模块占市场九成以上,以数据为要害因素的数字经济将成为国家翻新驱动的重要策略载体。 AI减速数字经济倒退 人工智能作为数字经济新时代下的重要生产力,利用关键技术打造数字经济新脉络是当下的倒退风口。 随着人工智能时代的到来,市场对数据的需要呈爆炸式增长,据艾瑞征询公布的《2021年中国人工智能产业钻研报告》显示,2021年人工智能外围产业规模预计达到1998亿元规模,而到2026年,相应规模将超过6000亿元。目前AI市场中,无人驾驶、人脸识别、智能机器人等利用成为最大的热门,AI公司开始比拼技术与产业的联合能力,数据作为智能行业根底,无疑是实现这一能力的必要条件,如何无效开释数据价值,成为以后人工智能行业面临的一大挑战。 头部企业在数据服务的当先实际 数据服务通过工程化笼罩人工智能数据需要,激活数据因素的潜在价值。 数据根底服务包含数据采集、荡涤、标注等,晋升数据服务工程化能力,还需建设提供底层框架反对和一站式的对立开发平台,将数据采集、传输、荡涤、标注、治理等进行集成,在解决理论数据需要的同时不断完善数据处理能力,造成数据服务平台。 作为人工智能数据服务头部企业,曼孚科技推出的数据服务SEED平台始终致力于为AI企业提供高质量、场景化训练数据。SEED集成各种丰盛、高效的标注工具,对图像、语音、文本、视频以及3D点云数据做到一站式解决,满足人工智能落地场景多样性、丰富性的数据需要;通过自建项目管理平台,提高效率和产出能力,实现对数据、人员、权限等诸多内容对立治理;利用人工智能辅助标注,将工作效率升至10倍以上、最高交付精准度升至99.99%;凭借从策略到技术落地的一站式通用AI解决方案,全面笼罩数据层至算法层,赋能行业数字化与智能化。 在人工智能畛域,要实现数字经济的价值转化,数据服务的工程化是前提,也是保障。在将来,曼孚科技仍将表演行业的“先行者”角色,为产品矩阵退出更多引擎,帮忙企业高效推动数智化转型,用优质数据服务推动数字经济倒退。

January 26, 2022 · 1 min · jiezi

关于数据:大数据SQL优化之数据倾斜解决案例全集

1 什么是数据歪斜数据歪斜即指在大数据计算工作中某个解决工作的过程(通常是一个JVM过程)被调配到的任务量过多,导致工作运行工夫超长甚至最终失败,进而导致整个大工作超长工夫运行或者失败。内部体现的话,在HiveSQL工作里看到map或者reduce的进度始终是99%继续数小时没有变动;在SparkSQL里则是某个stage里,正在运行的工作数量长时间是1或者2不变。总之如果工作进度信息始终在输入,但内容长时间没有任何变动的时候,大概率是呈现数据歪斜了。有个特例须要留神,有时候大家会看到SparkSQL的工作信息也显示有1到2个工作在运行中,但进度信息不再刷新而体现为假死很久的时候,这通常是在进行最初阶段的文件操作,并不是数据歪斜(尽管这通常意味着小文件问题重大)。 再细分一下,歪斜能够分为以下四类: 读歪斜。即某个map(HiveSQL)或者task(SparkSQL)在读取数据阶段长期无奈实现。这通常是因为文件分块过大或者此分块数据有异样。这种场景呈现频率较小。算歪斜。即在某个须要排序(如开窗函数或者非播送关联时)或者聚合操作的时候,同一个key(通常是一个或者多个字段或者表达式的组合)的解决耗时过长。这通常是最多的状况,状况也较为简单。写歪斜。即某个操作须要输入大量的数据,比方超过几亿甚至几十亿行。次要呈现在关联后数据收缩及某些只能由一个task来操作(如limit)的状况。文件操作歪斜。即数据生成在长期文件夹后,因为数量微小,重命名和挪动的操作十分耗时。这通常产生在动静分区导致小文件的状况。目前在国内和印度区域曾经因为咱们默认进行小文件合并而不再存在这个状况,新加坡还有(咱们在推动解决)。2 为什么会有数据歪斜大数据计算依赖多种分布式系统,须要将所有的计算工作和数据通过肯定的规定散发到集群中各个可用的机器和节点下来执行,最初可能还须要进行汇总到多数节点进行最初的聚合操作,以及数据写到HDFS/S3等分布式存储系统里以永贮存。这个过程被设计来应答大多数状况,并不能应答所有的状况。它具备以下几个特点: 业务数据分布法则无奈预知。比方零碎无奈不通过计算而提前晓得某个表的某个字段的取值散布是否大抵平均。计算结果数量无奈预知。比方两表关联的后果对于某些key(关联的一个字段或者多个字段组合)的输入行数无奈不通过计算而预知进而针对性解决;又比方对某个字段的值进行split操作或者explode等操作后产生的后果数量无奈预知而进行针对性的应答。某些操作只能由繁多节点进行。所有须要保护一个全局状态的大多数操作,如排序,Limit,count distinct,全局聚合等,个别会安顿到一个节点来执行。上述三个次要特点导致单节点解决的数据量有概率呈现巨量,造成了所谓的歪斜问题。当然,这些艰难并不是不可解决的。随着工夫的推移,越来越多的针对性的优化措施已逐步呈现,兴许在不久的未来业务同学不会再被歪斜问题懊恼。 3 解决案例因为将来在OPPO主推SparkSQL,因而以下案例将次要以SparkSQL的角度来展现。 3.1 事实表关联事实表数据收缩最近有两个业务同学提出一个比拟麻烦的问题,就是事实表关联事实表,其中有若干个key的输入达数十亿行,数据收缩重大,造成数据计算和输入的歪斜。 比方以下场景: 咱们统计了两个表的歪斜KEY值散布: a表: b表: 大家能够看出, 只看option_id=7的关联后果最初是46839*130836=6128227404,即61亿行;option_id=2的关联后果是71080*125541=8923454280,即89亿行。属于重大歪斜的状况。 这种事实表关联事实表的状况在非报表类的计算工作偶然会遇到。平时咱们解决数据歪斜次要是计算结果的过程波及太多数据要解决导致慢,但通常输入的行数可能并不多,不存在写的艰难,所以相似过滤异样数据或者播送关联等办法都不起作用。 这个问题的实质是一个task最多由一个过程来执行,而雷同的key也必须在同一个task中解决,因而在无奈扭转这个机制的前提下,咱们只有想方法缩小一个task输入的行数。 那如何在不影响最终后果的前提下,缩小单个task所须要解决数据行数呢? 其实网上也有许多倡议,都是独自解决歪斜的key,通过加前缀后缀等形式打散key,再最初合并解决,但这样做法太麻烦了,不够优雅。咱们要谋求对业务同学更敌对,代码更优雅的形式。 最初我寻遍所有可用的零碎函数,发现了collect_set/collect_list这个聚合函数,能够在保证数据关系不失落的前提下将数据收拢缩小行数。比方以下两行: 能够收拢成一行: 最初咱们通过explode+lateral view的形式,能够实现一行开展为多行,从而还原成用户最初冀望的明细后果形式。 上述方法的外围是将原来歪斜的操作(同一个key关联),批改为不再相互依赖的操作(一行变多行)。 最终代码如下: 留神以上代码里值得注意的中央: 代码里的hint(repartition(1000))的作用是思考到通过collect_list聚合后的数据单行携带的数据通过一行变多行的开展操作后会收缩很多倍,因而单个工作解决的数据量必须很小,能力保障处理速度够快。这个hint的作用是通知零碎将上一阶段关联后的后果分成1000份,交给上游解决;group by语句里的ceil(rand()*N)作用是将一个key分成最多N行,这样能够限度最初按key关联后生成的行数的下限;通过spark.sql.files.maxPartitionBytes参数管制单个工作解决的数据量,进一步拆分单个工作须要解决的数据。事实上如果第1点里文件足够小,这个参数能够省略。通过验证,20分钟工作就实现了,生成了近800亿行的数据,其中包含了19个超十亿行的key。 3.2 防止排序有一些算法根底的同学都晓得排序操作在软件畛域是开销十分大的操作,目前大规模利用的几大排序算法的工夫复杂度中最好的也是O(nlogn),即随着数据量的增长而非线性的增长。这就是说,大规模数据量的排序往往意味着微小的工夫耗费。然而这在大数据SQL中却是常见的状况,从而引发歪斜。一旦有了排序的需要,什么优化参数都不好使了, 一般来说只有进行改写代码。侥幸的是,在绝大多数大数据场景下,排序是不必要的,很多时候只是业务同学不解排序在大数据场景下的开销很大而信手写下了排序代码。上面介绍2个改写代码从而防止排序的案例。 1)用max函数替换排序。 最近收到一个共事的业务需要,须要对某个业务的埋点数据做一次样本展现,要在约1200亿行数据中,捞出约1万条数据。很简略的一个SQL如下: 略微解释一下SQL的意思:心愿取出上报数据里针对某个维度组合的一条内容较为丰盛的样本数据,因而以某字段的size作为降序排序并取后果的第一条。 这个SQL当然跑失败了。我对partition by的字段汇合(后续简称key)进行了统计,最大的key有137亿行,另外还有至多10个key的数据量超过20亿行。这样executor的内存加得再大都无奈跑胜利了。 这个问题的实质还是对大数据做了不必要的排序(大数据架构里对排序暂无十分高效的解决方法)。因而优化的思路还是想方法缩小这种不必要排序。 既然用户只须要排序后的最大的一条,实质上不就是取某个key的最大值嘛。取出这个最大值,最初再跟源表进行关联,就能够取出最大值对应的那一条数据。 这里有个前提条件,要想在第二步关联回源表数据的时候干掉排序,咱们只有走一条路:播送关联(如果走sort-meger关联,还是会防止不了sort步骤)。这就要求咱们的小表(key-最大值)要足够小。通常这个条件都会满足的,因为如果不满足的话,阐明key值十分多,十分稠密,也不会产生歪斜的窘境了。如开始就阐明了,最初Key的去重数据量不到1万条,齐全能够走播送关联。 最初的代码如下: 留神上述SQL有两点阐明: 咱们应用了semi join,这在日常代码中比拟少见。它的意思是,左表去匹配右表,如果一旦发现左表的某条数据的关联key在右表,便保留此条左表的数据,不再持续在右表里查找了。这样做有两个后果:1)速度更快;2)不会把右表的数据放到后果里)。它等价于 select * from left_table where key in (select key from right_table)。但大数据倒退过程中一度不反对in的用法(当初局部反对了),因而有这种语法,从效率上看,个别认为这样更高效。因为能匹配到最大值的数据可能有许多条,所以对最初后果再做一次row_number的开窗并取其中一条即可。这个时候因为size(xxxx)的值都是一样的,因而任意取一条均合乎业务需要。在个别状况下,上述SQL能较好的运行。但咱们这次状况出了点意外:通过上述操作后,咱们失去的数据还有800多亿行。因为max(size(xxxx) = size(xxxx)的数据占了绝大多数,导致咱们匹配回去无奈无效的筛选出大量后果。咱们必须找到一个能无效辨别各行数据的字段,这个字段的值必须很涣散。最初我发现比拟好的是userid。因而将 max(size(xxxx))替换成了 max(userid),工作很快就跑完了。因为不影响咱们讲述优化的原理,所以不再形容这部分细节。 2)用分位函数替换排序。 ...

January 5, 2022 · 1 min · jiezi