关于数据:从智能湖仓架构的技术演进看现代化数据平台的发展方向

在 2021 年初全年技术趋势瞻望中,数据湖与数据仓库的交融,成为大数据畛域的趋势重点。直至年末,对于二者的探讨仍然热烈,行业内的次要分歧点在于数据湖、数据仓库对存储系统拜访、权限治理等方面的把控;行业内的次要共识点则是二者联合必能升高大数据分析的老本,进步易用性。 而此类争执,又反映了行业在大数据处理畛域的外围诉求:如何通过数据湖、数据仓库的设计,无效满足现代化利用的数据架构要求。亚马逊云科技作为行业头部云厂商,也推出了与数据湖、数据仓库交融相干的“智能湖仓”。为什么“智能湖仓”能够更智能地集成数据湖、数据仓库和其余数据处理服务?“智能湖仓”架构备受关注意味着什么?在技术行业风向标的 2021 亚马逊云科技 re:Invent 大会上,咱们看到了“智能湖仓”架构的当初和将来构想。 被宽泛关注的“智能湖仓”架构了解“智能湖仓”架构的当初和将来,须要先理解它的过来。早在 2017 年,“智能湖仓”架构就已初具雏形。过后,亚马逊云科技公布了 Amazon Redshift Spectrum,让 Amazon Redshift 具备了买通数据仓库和数据湖的能力,实现了跨数据湖、数据仓库的数据查问。 这件事件启发了“智能湖仓”架构的造成。在 2020 年的亚马逊云科技 re:Invent 大会上,亚马逊云科技正式公布“智能湖仓”。如果从晚期的技术摸索开始算起,在 2021 亚马逊云科技 re:Invent 大会上公布的 Serverless 能力,代表了“智能湖仓”架构的第 8 轮技术演进。现在,“智能湖仓”基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志剖析、机器学习数据服务,利用 Amazon Lake Formation、Amazon Glue 等工具能够实现数据的自在流动与对立治理。 具体而言,“智能湖仓”架构下,首先须要突破数据孤岛造成一个数据湖;其次,须要围绕着数据湖,在不同利用场景为用户提供相应的剖析工具;另外,须要确保数据在湖、仓以及专门的服务之间可能自在挪动;此外,须要确保用对立的形式去治理湖外面数据的安全性、访问控制和审计;最终,须要可能采纳低成本的办法将湖、仓各自的劣势无效利用起来,并利用人工智能等翻新伎俩进行翻新。 就像 Amazon Redshift 在 2012 年公布时,疏导了云原生数仓的倒退方向一样,“智能湖仓”架构一经公布就引发业内宽泛关注,一方面是因为亚马逊云科技作为头部云厂商的行业位置,另一方面是因为此架构在技术上的翻新思路可能为行业带来一些新的思考。 “智能湖仓”更强调“架构”而非“产品”,更强调数据的自在流动与对立治理,以及基于湖仓的“智能翻新”。现在,“智能湖仓”架构不是简略地将湖与仓买通,而是将湖、仓与专门构建的数据服务连贯成为一个整体,让数据在其间无缝挪动。面对向 TB 级、PB 级,甚至 EB 级增长的数据,“如何存”和“如何用”不再是绝对孤立的话题。“智能湖仓”向行业传递了一个信号:企业须要对立数据分析工具,实现数据在整个数据平台的自在流转。 不论是企业数据管理理念的视角,还是在技术视角下,“智能湖仓”架构被宽泛关注也意味着,随着数据湖和数据仓库的边界在逐步淡化,基于两者的大数据处理体系的架构正在被重构。 “智能湖仓”架构下,重构中的大数据基础设施这种重构大略能够分为几个维度来了解,其中最重要的是更强的数据安全、治理和数据共享能力,更麻利的构建形式,更智能的翻新伎俩。 数据安全、治理和共享,重点聚焦跨湖、跨仓库甚至跨企业的数据流通和治理,致力于实现真正意义上的数据跨域互通;更麻利的构建形式则要将企业的敏态谋求晋升到极致,Serverless 能力的利用是其要害;更智能的翻新伎俩则把 AI/ML 能力和大数据治理并入对立领域,防止走入“为了大数据而大数据”的误区。 在 2022 年,当咱们再次谈起数据湖和数据仓库的交融问题时,蕴含以上关键点的“智能湖仓”架构,很可能成为被业内重点参考的构建思路之一。 更强的数据安全、治理和数据共享能力数据的平安、治理和共享,原是大数据的本职工作,但当数据达到 PB 乃至 EB 级,须要跨多个区域、组织、账户进行数据共享或数据交互时,企业有些时候并非不想细颗粒度治理数据,而是无奈治理。这种颗粒度的权限管制往往比单机零碎设计或者繁多的分布式系统要简单得多。所以,数据治理成为了“智能湖仓”重要的发力点。 在 2021 亚马逊云科技 re:Invent 大会上,撑持数据对立治理和自在流动能力的“智能湖仓”组件 Amazon Lake Formation 公布了多项新性能。除了之前早已反对的表和列级平安,Amazon Lake Formation 当初反对行和单元级权限,通过只限度用户对局部数据的拜访权限,让限度拜访敏感信息变得更加简略。 ...

December 30, 2021 · 1 min · jiezi

关于数据:数据架构变革进行时现代化应用需要怎样的数据策略

现有数据架构难以撑持现代化利用的实现。随着云计算产业的疾速崛起,带动着各行各业开始本人的基于云的业务翻新和信息架构现代化,云计算的可靠性、灵活性、按需计费的高性价比等劣势曾经让很多企业把“云”业务列入到将来倒退战略规划中。现代化利用是现有应用程序的再降级,也是基于新技术新模式开发的新利用。现代化利用能够帮忙企业面对更加简单的业务竞争,并在这样的竞争中凭借模型的先进、数据的洞察、利用的翻新实现当先。因而,许多企业心愿通过采纳古代利用程序开发的模式,转变应用程序的设计、构建和治理形式,从而进步敏捷性,并放慢本身的翻新过程。以云原生、容器、微服务、Serverless 等为根底的现代化利用开发衰亡之际,各行业都把关注的眼光瞄准到了数据架构上。毕竟微服务、Serverless 构建的利用就像是引擎,而数据才是真正的能源。 现代化利用开发之难亦是数据架构翻新之难现代化利用对规模、可用性和性能都提出了更高的要求。 对于现代化利用来说,不仅要应答剧增的用户数量,还要撑持一直增长的利用负载品种和数量。这是现代化利用开发面对的第一个难题——更强的可扩展性。 以游戏的场景为例,目前排名靠前的国民级游戏日活用户曾经超过 1 亿多人,将来百万以上用户量将成为应用程序的常态,咱们畅想一下最近大火的元宇宙场景,如果是一个寰球级别的元宇宙利用,其用户数量会是这个数据的数倍,甚至数十倍,媲美亚马逊黑色星期五大促销的高并发状况将成为日常。所有人都在一个元宇宙进行交互的场景,对应的后端系统响应并发的要求是极高的。这不是在推测,而是基于事实和现状,对将来的正当预测。因而首先须要解决的,就是更大规模并发问题。 现代化利用开发面对的第二个问题,是如何存储海量数据,以及存储海量数据之后,如何对这些数据进行实时化和智能化解决。 以后数据已呈现出“二八定律”:结构化数据占 20%,非结构化数据占 80%。《微软航行模拟器》模仿实在的山脉、路线、云朵,产生了超过 2.5PB(2.5 x 10^6 GB)的结构化数据,终极元宇宙所需数据量至多比此高出多个数量级。 依据 IDC 的最新报告,现有数据中非结构化数据占比已超过 90%。随着新型软件的增多,非结构化数据占比将越来越高。不同格局、不同规范的非结构化数据在技术上比结构化数据更难存储和剖析。传统数据架构应答这样的海量数据将会很吃力。 另外,现代化利用还须要思考性能和提早的问题。将来,新的现代化利用都会以遍布寰球的用户为指标,这就对提早有极高的要求。在游戏中,10ms 的提早都是不可承受的,有些游戏甚至须要内存级别的提早。超强的带宽、超快的传输速度等的实现,须要遍布寰球的通信基础设施建设。 须要留神的是,在思考高并发和低提早的同时,还须要兼顾思考总体品质和老本。建设、运行和保护这么大规模的利用须要消耗的人力和物力,个别企业可能难以承受。所以除了品质,老本也是须要思考的问题。 总结来看,现代化利用至多要解决 TB 级、PB 级的结构化数据和数倍于此的非结构化数据,反对散布在寰球的数百万用户,并以极低的提早每秒解决数百万个申请。 对于非结构化数据,现在很多企业开始基于 Amazon S3 这类具备 EB 级扩大能力的云存储构建云上数据湖,并通过云原生数据分析解决工具对这些数据进行解决剖析。而对于结构化数据,还须要补救以下缺点: 企业被传统商业数据库解放,而难以发展翻新。传统商业数据库不仅价格昂贵,还有专有技术及许可条款,须要常常进行审计。尽管越来越多的企业转向了 MySQL 和 PostgreSQL 等开源数据库,但他们仍须要商用数据库的性能。无奈满足特定场景需要。随着利用场景的一直减少,不同应用程序有了本人特定的需要。当初,开发人员越来越多地应用微服务架构来构建应用程序,并且抉择新一代的关系型和非关系型数据库。但关系型数据库的构造数据耦合性大,不利于扩大分布式部署。非关系型数据库没有事务处理,简单查问方面稍微欠缺。传统数据库运维模式仍旧须要消耗精力和老本。运维耗时但价值输入较低,但企业又不得不在这方面消耗精力和老本。现代化利用须要什么样的数据架构作为撑持?既然现有数据架构难以撑持现代化利用的实现,一场数据架构改革势在必行。这个新型数据架构要可能解决上述提到的问题,即须要领有更高的扩展性、可能适应多样化的数据状态、有更高的数据处理能力和更低的提早,当然还要有实现的门路和工具。 相干技术计划与翻新当下,IT 界的最佳技术组合可能就是“云计算 + 人工智能”。云计算解决了扩展性、数据存储、性能等问题,而人工智能技术则大大提高了数据分析和解决效率。 云计算能够为现代化利用的峰值需要“有限续杯”与安稳运行时的“最佳能耗”。作为云计算模型之一的 Serverless,在实践上能够主动适配利用从零到无穷大的需要峰值,更加善于解决扩展性的问题。 Serverless 架构的益处在于能够按需加载,这样利用便不会继续占用资源,只有在申请达到或有事件产生时才会被部署和启动,防止了老本节约。同时,Serverless 利用原生反对高可用,能够更好地应答突发的高访问量。当数据库也 Serverless 化,就能够实现高度扩展性及容量主动伸缩,做到按量付费、升高收入老本,进一步解放数据库的治理和运维。2012 年亚马逊公司推出的 Amazon DynamoDB 就是 Serverless 数据库。 2007 年,亚马逊公司发表的对于 Key-value 存储的划时代论文《Dynamo: Amazon's Highly Available Key-value Store》解决的外围诉求就是满足“永远在线”的用户体验,晋升其数据库的可用性、扩展性和性能,被认为是 NoSQL 的开山之作,之后催生了一系列 NoSQL 分布式数据库。而 Amazon DynamoDB 就是 Dynamo 理念的正统实现,它正在驱动那些传统数据库难以承载的新一代高性能、互联网规模利用。 ...

December 20, 2021 · 2 min · jiezi

关于数据:水晶球数据洞察正式上线洞悉用量趋势变化觉察互动体验细节

声网“水晶球”是声网基于实时通信全链路数据,提供的全周期品质监测、回溯的自主数据分析工具,能够帮开发者及时发现问题,定位起因,并高效解决问题,以晋升客户的经营效率和用户的体验。近期,声网“水晶球”上线了一项重要降级——“数据洞察”性能进入正式版,不仅数据指标与 XLA 对齐,并且性能与通话考察买通。目前,声网水晶球也是业界率先上线“数据洞察”性能的实时通信数据分析工具。用户可通过“数据洞察”最快可回溯 6 小时前整体业务用量和品质数据趋势,并把握每一分钟的品质变动。 什么是“数据洞察”?每个企业每天都会产生大量的数据。而如何更好地剖析这些数据,是决定企业业务将来走向的要害命题之一。对于实时音视频场景来讲,想要剖析它的数据会比一般的利用数据更难。 在海量的数据中,企业须要关注哪些维度的数据,哪些数据与业务策略相干,哪些数据与用户体验相干,这些是须要企业长期积攒,并对实时音视频链路有足够的理解能力总结进去的。而且在技术上,实时互动数据的监测与剖析须要波及端到端全链路。首先要解决数据的监测与收集,而后是对海量数据的解决,比方去除数据噪声,而后才是数据的存储、剖析、出现。而通过“数据洞察”,能够间接迈过这些难题,把握本人实时音视频业务的全局用量与品质数据。 声网成立七年来,服务了数千家企业级用户,平台月分钟数 500 亿分钟,咱们有足够的教训积攒,以及技术积攒。“数据洞察”会对水晶球每天上报的 10000 亿+数据节点进行聚合剖析,以可视化的模式展现出用户用量与品质数据。 “数据洞察”的数据延时约为 6 小时,也就是说实时互动产生后 6 小时,就能够通过“数据洞察”来进行全局的数据分析。而且数据洞察的品质数据颗粒度最细可达分钟级,让你从全局一步步深刻至细节,理解品质与用户体验的“面”与“点”。 “数据洞察”如何应用?“数据洞察”能够从用量、品质两个角度展示业务所产生的总体用量,以及不同维度的散布状况,可无效帮忙管理层疾速剖析做决策、实时把脉相应产品和业务的策略,帮忙经营人员动静把控我的项目整体过程。 用量数据首先,从用量数据方面,“数据洞察”反对查看过来一段时间的用量数据,并会以天或小时为单位显示出用量的数据曲线。你能够把这些数据与你这段时间平台上的业务经营状况相结合,复盘整体经营状况,并为下一阶段的经营策略提供参考。接下来,咱们以模仿的数据为例,展现一下大家会在“数据洞察”里会看到的用量数据。 1.最大在线 最大同时在线频道数、最大同时在线人数,并依据工夫来比照两者工夫的数据关系。 图:Agora Video Call App 的用量数据 2.频道、用户与用量剖析 这些数据能够具体到某个小时的用量状况。你能够下载这些数据,与你的我的项目经营状况对应,来剖析我的项目经营的情况。 如果点击“频道和用户”右侧的“更多”按钮,你还能够看到明细数据。你能够下载这些数据,与你的我的项目经营状况对应,来剖析我的项目经营的情况。同理,“用量剖析”也反对查看、下载明细数据。 3.多维分析 “数据洞察”反对基于地区、网络类型、操作系统、SDK 版本、设施类型、频道规模几个维度,查看通话时长、通话人数等用量状况。 品质数据还是刚刚的例子。当你在浏览这段时间自家教育平台整体的数据走势的时候,你发现了一个显著的波谷。这时,你就能够在水晶球中切换到“数据洞察”的品质报告,查看过后是否呈现了品质问题。 在品质数据方面,“数据洞察”提供的数据统计规范曾经与声网Agora 体验质量标准 XLA(Experience Level Agreement)对齐。XLA 是声网公布的为无效解决实时互动体验品质无章可循、不可掂量、无保障的体验质量标准。“数据洞察”反对查问视频卡顿率、音频卡顿率、网络提早、登录成功率、5s 登录成功率等五类质量指标。所有品质数据可具体到按分钟维度来展现。 1.用户体验 蕴含了视频卡顿率、音频卡顿率和网络提早。 当切换到小时/分钟维度显示数据的时候,点击指标数据点(如满足采样规定,规定详见文档),会显示频道品质散点图,每一个点都代表了一个频道,图中每个红点上“ID”一样的编号是频道名。你能够点击品质较差的频道,跳转进入“通话考察”,可进一步查问该频道过后呈现的品质问题。 2.退出频道 蕴含了登录成功率、5 秒登录成功率,两个指标。如下图所示是按天显示的品质数据折线图。在点击折线图中的数据点后,可切换按天、按分钟查看数据,或查看该天数据的“多维度数据”。 3.多维度剖析品质数据 “数据洞察”能够基于地区、网络类型、操作系统、SDK 版本、设施类型、频道规模几个维度来查问五类质量指标。 以下图的网络类型数据表为例,咱们查问的是视频卡顿率。从中能够看出,在这段时间里,整体视频卡顿率最高的是处于 3G 网络下的用户,然而呈现卡顿的视频总时长仅为 6.18 K 分钟,那么能够阐明,尽管平台上还有人应用 3G 网络,然而人数可能并不多,或者说他们在进行视频通话的时候只是十分短暂地呈现了卡顿。 这些品质数据都是以散点图的模式出现,当你发现有数据点靠近表格的右上角的时候,你就须要警觉了,那阐明那个数据不仅品质较差,而且占的时长也很高,有必要重点去考察,从而改良后续的品质与用户体验。 水晶球“数据洞察”如何计费?为更好满足不同用户的需要,水晶球自 2021 年 5 月 20 日起提供体验版、标准版、专业版、旗舰版四个档位的套餐包。“数据洞察”正式版的上线,也将退出体验版、标准版、专业版、旗舰版,四个套餐包中,而且原套餐价格不变,加量不加价。如果你须要具体理解更多水晶球的应用以及具体计费规定,请点击「浏览原文」,拜访声网文档核心。 ...

November 26, 2021 · 1 min · jiezi

关于数据:干货-行业数据资料究竟有多难找

职场上的小伙伴,有时候都会遇到这样一个问题:须要在短时间内梳理本行业的材料。很多人都会慌手慌脚,不知从何下手。即使收集进去之后,很多材料品质也不是太高。遇到这些状况,工作效率就会大打折扣。那么如何疾速获取数据材料,将是晋升工作效率的最重要的一环~ 1.数据网站艾瑞征询团体:https://www.iresearch.com.cn/... 199it:http://www.199it.com/archives... questmobile:https://www.questmobile.com.cn/ 比达网:http://www.bigdata-research.cn/ 企鹅智库:https://piu.qq.com/survey.htm... 将来智库:https://www.vzkoo.com/recommend 易观智库:https://www.analysys.cn/ 等等 长处:数据比拟权威,行业也比拟全 毛病:内容多且杂,在大量信息中找到本人想要的很不容易,且有些网站的搜寻规定几乎一言难尽。 2.应用搜索引擎搜索引擎倒退到当初,有很多实用的小技巧能够帮忙咱们更高效的搜寻。如果你应用百度,在检索词前加上filetype:all,如要特定PDF格局则输出:filetype:PDF;如果你应用google,在检索词前退出inurl:pdf。这样就会搜寻到收费的PDF格局的剖析报告,从这些收费的剖析报告中能够发现很多有价值的信息。 长处:如果你能准确的找准你想要的关键词,那么这是十分无效的方法。 毛病:如果你像我一样只搜一个名词,那么筛选信息的工作量就会大大提高。 3.干货材料社群社群有免费的有收费的,能够说品质参差不齐吧,遇到一个好的社群那真是本人的侥幸呢。

November 19, 2021 · 1 min · jiezi

关于数据:浅谈快递共配送路径优化以福建省邮政快递为例

在2021年7月20日召开的国家邮政局新闻发布会上,相干负责人示意,上半年我国乡镇网点覆盖率达98%。目前寄递网络由下乡向进村迈进,通过邮快单干、快商单干等多种单干模式推动快递下乡,当初已实现了10万个行政村的邮快单干,往年力争实现行政村的全笼罩。 因为农村地区人口寓居扩散,业务量绝对较低,快递企业在农村安排的网点依然很少。目前,各县区的快递企业,基本上都是集体加盟,很少有快递企业间接设点。如何高效实现行政村的快递网点全笼罩,施展国家邮政已通达乡镇的劣势解决农村网购“最初一公里”的配送问题?上面由快递100API开放平台以福建省泉州市安溪县为例,带大家初步理解下,邮政快递通过优化配送门路来高效解决农村网购“最初一公里”的配送问题。 福建省泉州市安溪县派件单量现状在6月全国达到安溪县整体单量中,邮政快递的单量占比为6.69%,其余快递公司单量占比为93.31%,而这些快递公司个别在乡镇是不设网点的,邮政可利用自身在乡镇网点劣势,在县城成立共配站点,帮忙其余快递公司实现快递进村镇的工作。 6月全国到安溪县乡镇单量散布中,湖头镇占比为15.35%;龙门镇占比为13.63%;蓬莱镇占比为10.12%;蓝田乡占比为9.20%;尚卿乡占比为8.91%;官桥镇占比为8.60%;龙涓乡占比为8.16%;感德镇占比为4.48%;凤城镇占比为4.44%;西坪镇占比为3.43%;虎邱镇占比为3.06%;金谷镇占比为2.82%;城厢镇占比为2.22%;大坪乡占比为1.66%;祥华乡占比为1.21%;剑斗镇占比为1.19%;魁斗镇占比为0.95%;芦田镇占比为0.37%;桃舟乡占比为0.19%;福田乡占比为0.02%。 从数据上不难看出,乡镇包裹中的收货点次要集中在镇上,而农村较少。依据百递指数6月份的数据显示,全国达到安溪县整体单量50000单左右,其中达到乡镇件量预计19668单。依据快递100考察得悉,安溪县派费预计0.9-1.5元/单,乡镇派费预计每月收益可达2万元左右。如何使乡镇共配的老本管制在2万元以内,实现盈利不亏损?次要优化点还是在配送线路上。 福建省泉州市安溪县派件路线优化程序邮政快递笼罩乡镇网点虽多,然而如何布局派件路线,实现老本最低效率最高的配送,成为了快递共配的次要难题。从安溪县的地图不难看出,安溪县下的乡镇次要集中在东部,而且从安溪县包裹量占比拟高的乡镇也是集中在东部。 如果以包裹量作为派送路线布局的重点,那么西部地区的配送效率就会变慢,而且整体的配送老本也会回升。而且上面通过快递100百递指数数据为邮政快递在福建省泉州市安溪县的快递配送路线做了一次优化。快递100通过求两点间所有门路算法实现了最优门路布局,从新布局后的配送路线如下。 在包裹达到了安溪县后,以安溪县为中心点,优先配送间隔安溪县最近的凤城镇。在凤城县实现配送后,从新以凤城县为中心点,持续寻找最近的乡镇进行配送。通过不断更新两点之间的最短距离实现高效配送,升高配送老本。 百递指数数据布局的路线全长共452.3公里,以面包车百公里用油量7.5升计算,7.5÷100=0.075每公里油耗,那么1升耗油能够行使13.33公里左右。以面包车罕用的95号汽油价格计算,福建95号汽油的价格为7.29元,那么跑完452.3公里则须要34.79升95号汽油,则须要破费253.62元。以一个月31天为周期,每天配送则一个月须要领取7862.34元燃油费。整体老本少于2万元,预计月营收为12137.65元。(*以上为简略燃油费成本计算,实际成本包含但不限于车辆保养费、高速费、人力等等费用,均不在此次计算内) 总结乡镇快递共配符合中国倒退农村物流快递业的趋势需要,而此前乡镇快递始终没失去器重,是因为乡镇大众的网购需要还未被开掘,而且快递网点的布局不合理导致经营老本较高。当初乡镇大众网购能力已被鼎力开掘,快递服务需要减少,然而快点网点的布局能力还须要优化。快递企业能够提前在一些有发展潜力的乡镇和行政村与邮政单干设点布局,并与农村通村班车单干经营以升高物流老本。

November 4, 2021 · 1 min · jiezi

关于数据:中国快递物流行业发展分析快递100百递指数

8月24日,国务院新闻办公室举办新闻发布会,国家邮政局局长马军胜补充介绍了邮政快递业服务全面建成小康社会的总体状况,从这场新闻发布会中,马军胜示意,邮政行业支出由2012年的1980亿元增长到2020年的11038亿元,年均增长了24%,快递业务量从57亿件减少到835亿件,净增了14倍,年均增长40%。 中国快递行业从中国邮政EMS专营倒退到当初全国性区域性快递公司百家争鸣,并实现稳步增长。在这段历史中产生了什么?现今情况又是如何?将来又会倒退成什么样?快递100API开放平台,带各位读者一探到底。 中国快递行业倒退缩略史1980年,中国邮政EMS停办寰球邮政特快专递业务。并于四年后停办国内特快专递业务,创始中国大陆快递业之先河。1993年,申通、顺丰别离在浙江和广东成立,但过后民营企业无奈取得营业牌照,时刻面对邮政、工商、交通等部门的盘查压力,被称为“黑快递”。1994至2002年间,詹际盛和詹际炜、聂腾云、喻渭蛟以及赖梅松别离的杭州、上海创建天天、韵达、圆通以及中通快递。至此,快递行业的“三通一达”全副成立。2003年,顺丰开拓航运市场,与扬子江快运签下合同,扬子江快运的5架737全货机全副由顺丰租下,其中3架用于承运快件。顺丰成为国内第一家应用全货运专机的民营速递企业。2007年,京东自建物流,电商正式进入快递业。2009年,新《中华人民共和国邮政法》出台,首次明确快递企业的法律位置。至此,民营快递有牌照了。2009年11月11日,淘宝平台首次推广网销打折流动,当天的销售额达到5200万,泛滥快递企业来不及反馈,重大爆仓,消耗几周工夫才降所有快件处理完毕。2013年,马云嗅到了快递行业的商机,投资3000亿元建设菜鸟网络。2015年9月16日申通、天天快递发表重大策略重组,两家企业将开展在经营、产品、信息技术、快件最初一公里等畛域的资源整合,其目标是放慢推动企业的服务水平,晋升企业的服务能力。2015年11月11日,快递运送速度大有改观,“双十一”后的一周内有超过94%的物流订单曾经发货,累积2.4亿个包裹实现签收。2016年,圆通速递借壳大杨创世,正式登陆A股。同年,申通快递在深交所上市,截至当日开盘,申通快递报30.22元/股,涨幅0.13%。2017年1月18日和2月24日,韵达和顺丰在深圳证券交易所别离登陆资本市场。2017年6月1日,菜鸟和顺丰的物流数据之争暴发,单方相互指摘对方首先敞开了自提柜丰巢的数据传输接口。尔后,菜鸟、顺丰单方就敞开“丰巢接口信息”一事演出多轮口水战。● 极兔快递于2019年收买上海龙邦快递,从而在中国取得了快递经营资质和快递网络。 2020年3月正式进入中国市场。● 我国快递行业支出规模迅速扩充,由2012年的1980亿元增长到2020年的11038亿元,年均增长了24%,快递业务量从57亿件减少到835亿件,净增了14倍,年均增长40%。邮政和快递服务的无效申述率显著降落,快递均匀单价从18.5元升高到10.6元。中国快递行业2021年1-7月情况中国快递业务情况依照快递业务类型的不同来划分,截止到2021年7月,我国快递累计实现583.3亿件,同比回升42.9%,异地业务量累计实现493.9亿件,同比增长48.7%,同城业务量累计实现14.4亿件,同比增长15.3%,国内/港澳台寄件累计实现12.5亿件,同比增长35.9%。 截止2021年7月,同城、异地、国内/港澳台快递业务量别离占全副快递业务量的84.7%、15.6%和16.3%。与去年同期相比,同城快递业务降落了4.5%,异地、国内/港澳台寄件别离上涨3.3%和2.5%。 *数据起源:中国邮政管理局 从数据反馈来看,整个中国的快递业务量是增长的,随着2021年下半年还有各种电商购物节日行将到来,将刺激大量消费者进行线上购物,能够预测到,2021年中国快递业务量将会进一步增长,总体业务量将会超过2020年的程度。 中国快递公司在一线城市的竞争情况(7月)依照快递公司在不同一线城市的查问指数划分,截止2021年7月,顺丰查问指数占比为20.6%,圆通查问指数占比为17.1%,韵达查问指数占比为14.9%,京东查问指数占比为13.4%。申通,中通,邮政,百世,其余快递公司别离占,10.1%,9.5%,8.6%,3.7%,2.2%。 在北京,京东查问指数占比为26.3%,位居第一;顺丰查问指数占比为21.7%,名列第二;韵达查问指数占比为13.3%,排名第三;中通查问指数占比为12.4%;圆通查问指数占比为9.3%;EMS查问指数占比为6.4%;其余快递公司查问指数比为10.7%。 在上海,顺丰查问指数占比为24.4%;圆通查问指数占比为14.3%,韵达查问指数占比为12.2%;申通查问指数占比为10.7%;京东查问指数占比为10.5%;EMS查问指数占比为9.1%;中通查问指数占比为7.1%;其余快递公司查问指数占比为11.8%。 在广州,韵达查问指数占比为17.6%;顺丰查问指数占比为17.2%;圆通查问指数占比为14.3%;申通查问指数占比为13.2%;京东查问指数占比为12.7%;中通查问指数占比为12.4%;其余快递公司查问指数占比为12.6%。 在深圳,圆通查问指数占比为30.4%;顺丰查问指数占比为19.7%;韵达查问指数占比为15.9%;申通查问指数占比为10.1%;中通查问指数占比为5.8%;京东查问单号占比为5.4%;百世查问指数占比为4.6%;其余快递公司查问指数占比为8.1%。 *数据起源:快递100百递指数 基于快递100百递指数数据,顺丰在一线城市的查问份额显著高于通达系和京东,侧面反映出一线城市的快递客户更偏向应用顺丰。细分到北京市能够发现,京东和顺丰在北京查问指数均超过20%,合并占比达48%,主导北京市快递市场,靠近占据北京快递查问的半壁江山。以速度和品质优先的快递服务可能更受北京人喜爱。 再看上海市的数据,顺丰快递以24%的查问单量占据榜首,靠近占据四分之一的总查问数量,市场竞争力较强。而圆通、中通、申通、韵达合并占比44%,查问指数数据占比也不低,在泛滥商品包邮的江浙沪地区,通达系快递公司占主导地位,但单体竞争力会稍低于顺丰。 在广州市,没有一家快递公司能够单独占有20%以上的查问指数份额,前五名快递公司的查问指数份额共占87%,能够看出广州市用户绝对于北京市和上海市用户的抉择更多样,各快递公司在此地的竞争也会较大。 在深圳市,圆通的查问指数占据市场的30%,顺丰排名第二,查问占比为20%,占五分之一的查问份额,整个通达系占67%的查问指数比。通达系快递公司在深圳地区扎根更深,触点更多。 中国快递行业将来倒退随着近期Delta变体的呈现和疫情管控措施推动,线上购物形式在消费者之间的渗透率仍会持续回升,对快递产业的倒退造成了继续的推动力,国内的快递行业还会迎来支出增长。然而国内市场曾经靠近存量竞争,增长也将会在将来放缓。国内快递公司除了聚焦国内市场,也在拓展海内新市场。 自2020年以来,地方各项文件及会议屡次提及要“放慢造成以国内大循环为主体、国内国内双循环相互促进的新倒退格局”。在此背景下,国内快递物流企业立足畅通国内国内双循环,踊跃拓展海内市场。国家邮政局也于去年11月示意,要放慢推动“快递出海”工程,培养国内一流快递企业。 国内快递公司也在减速走向海内。依据百世财报数据,百世国内方面,跨境物流和东南亚本地物流服务仍然放弃了强劲的增长势头。2020年第四季度东南亚的快递包裹总量达到2789万单,同比增长441%;2020年全年东南亚快递包裹总量为7359万单,涨幅达738%。其中,泰国和越南的全年快递包裹量别离同比增长612.8%及798.2%。 在2021年6月,圆通、中通、申通、韵达、顺丰、极兔、邮政、百世、菜鸟等17家企业在大会上独特发动浙江省国内快递物流出海网络联盟。联盟倡导企业代表宣读了“浙江省快递抱团出海十条宣言”,示意将紧密团结,建设融政策钻研、单干倒退、资源共享的合作体,切实推动“抱团出海”步调。 随着国内快递物流出海网络联盟的成立,将会有更多的国内快递公司走出海内。将来中国快递行业的倒退肯定是海内外业务双重倒退。 论断中国快递行业由最后的EMS专营到当初造成民营企业百家争鸣和抱团出海的局势,侧面反映出中国快递行业处于继续持重倒退阶段和中国快递公司在踊跃拓展新市场实现新一轮的增长。 回顾国内市场,依据百递指数数据显示,各家快递公司在每个一线城市的查问指数份额体现各有差别,总体而言,顺丰在四个一线城市中体现较佳,在上海的体现尤其突出,而京东则在北京体现好。各快递公司在广州的体现则处于绝对平衡状态,到了同位于广东省的深圳市,圆通则体现较好。数据反映出各家快递公司对每个一线城市的经营侧重点不一,而这些不同将会导致客服、运力、时效等方面的不同。

November 4, 2021 · 1 min · jiezi

关于数据:数据服务基础能力之元数据管理

一、业务背景1、利用场景在多变的数据服务场景中,利用中常见如下的业务需要,通过对多种数据结构的灵便组合,疾速实现业务模型构建,整体示意图如下: 像罕用的画图工具,右边提供根底图形库,两头是画布,左边是组件的管制细节,比照到这里的逻辑如下: 字段面板:提供业务数据结构的字段映射,和惯例字段类型配置,用来撑持组合面板的表单配置。 数据结构:对现有业务构造做映射,可能是文件、数据表、JSON等,生成绝对规范的字段选项;拓补字段:保护一批根底的字段类型,用来做拓补操作,欠缺整个业务构造;组合面板:承载字段的组合治理,生成新的数据结构,依据业务场景,实现底层数据的抽取存储或者API服务生成。 业务主体:通过业务需要的判断,明确面板撑持的业务属性,通过根底构造组合新的业务主体;组合构造:面板上出现的字段,是多个业务构造的抽取,即不同业务构造中的局部字段组合;规定面板:对组合面板上字段进行规制设定,常见波及:形容,类型,默认值等,对面板字段进行绝对对立的标准化治理。 形容信息:对于组合面板上的字段形容,也能够是原有映射的后果,作为新业务主体的属性阐明;类型保护:简单的环节,不同数据类型在不同的存储中解决形式不同,须要对立保护类型存储映射;业务规定:对于新的业务主体,设置属性的规定,能够是:唯一性,默认值,等等;2、构建服务基于上述性能的实现,能够疾速实现以下服务能力,通常利用在业务多变的场景中: 数据主体构建:通过组合面板的构造生成,疾速实现相干数据的抽取和存储,作为新的业务场景中的主体数据。服务API生成:在数据服务中,间接通过配置,生成API服务能力,并控制参数的响应构造,这种状况通常会以实时查问的形式解决。数据智能剖析:在数据分析场景中,偏重统计的后果,基于字段和图表构造,生成相应的统计分析工作,灵便治理剖析报表。这里是简述绝对繁多的应用服务,如果把这里的流程分段放大,在整个数据服务体系下,就是围绕元数据管理的简单的根底零碎:围绕数据结构映射,进行元数据标准化治理,在此基础上二次组织数据,疾速响应业务需要。在这样的流程下,能够疾速建设业务链路,提供高效的服务能力,升高试错的老本。 二、元数据概念1、根底形容从定义上说,元数据(Metadata)即形容数据的数据,然而在理论应用的时候,还是存在很多细分的概念,看上面的案例:用户性别; 从细分角度看,能够对下面数据进行两块划分,即业务层与技术层: 业务层:名称.释义.阐明.值类型;技术层:路由库.路由表.存储类型.值类型;这里的分层只是形容的侧重点,业务层偏差利用端,技术层偏差底层零碎的交互和实现,在对性别的形容上都是外围维度。 所以从实质上看元数据,介于零碎和业务两头,提供单方都能明确的语义和逻辑,能够更加高效的撑持数据的业务价值。 2、血缘关系下面是从单个指标看元数据的构造,如果从整个链路上看,就会造成层级线路,通常称为血缘关系: 从下层业务侧追溯到底层构造,造成血缘关系的概念,概念自身并不重要的,背地的外围是链路的治理,链路上的节点(两头实体)是通过多种计算伎俩生成; 如果某个节点数据一旦呈现品质问题,则须要依据这里的链路关系进行逐级向底层排查,实现问题修复后,还须要依据关系向上逐级修复荡涤;如此通过血缘关系进行数据品质的剖析和把控。 3、业务价值元数据管理是一个继续又漫长的过程的,任何零碎的搭建都须要业务来掂量其存在的价值,其外围逻辑在于:对立标准化治理元数据信息,标准业务层的定义,并通过技术层面疾速定位数据,自动化抽取数据,灵便撑持业务利用。 围绕外围业务:通常在我的项目初期的时候,只围绕一些外围业务主体,使其在应用的时候灵便高效,后续在继续扩大其余能力。数据老本剖析:基于元数据中链路,剖析各个节点数据的生产保护治理等老本,为数据服务中商业定价提供参考,可能间接影响服务是否可提供的决策。配置可视化:在数据服务平台中,最禁忌的一点就是靠手动去保护各种作业,不论在什么场景下,都要思考可配置化治理,保障动作可追溯。流程自动化:不论是元数据结构映射,还是配置后数据的抽取,要保障指令生成后能够主动实现该一系列动作,并实现流程监控剖析。资产化剖析:通常会把元数据视为数据资产体系,因而围绕元数据去统计数据的应用状况,产生的价值,以及热点数据辨认和散布,业务主体关联度等,并输入相应剖析后果。如果单从业务角度去看,元数据系统的存在,就是为了能够疾速了解元数据,并且灵便的组织治理,以此升高服务能力的实现老本。 三、架构设计1、零碎分层 采集层:元数据系统中的根底节点,架构体系的底层,保护元数据获取通道和映射治理以及落地存储,并实现构造治理和数据处理过程;在数据源中可能存在多种状况:数仓环境、文件构造等,在特定状况中,还须要肯定水平的手动保护进行构造拓补;管理层:对于元数据外围能力打造,和相应的标准化治理,或者二次加工,数据源层面间接采集的数据通常不具备规范的业务语义,更多偏差技术侧的阐明和逻辑,在通过标准化保护之后,在放开给应用层之前,还须要通过品质检测:例如工作城市,如果不足相应的枚举字典,显然是不合格的,必须通过必要的解决能力放开;即管理层放开的数据须要标准化和整体维度欠缺;应用层:基于元数据能力的应用层开发,对于理论业务场景提供解决方案和性能入口,以及相应的零碎中用户权限隔离等基本功能;从零碎分层的角度了解流程并不简单,然而理论的实现过程几乎不堪回首,技术栈应用非常复杂,多个版本逻辑重构再重构,并且一直的改良优化,最终能力实现绝对稳固的服务能力。 2、元数据采集在采集数据的时候,面对的最大问题就是多品种数据源解析适配,以及数据调度工作的形象,必须开发对应的工具来实现各种场景的元数据解析能力: 解析能力:适配解析各种数据源特点,文件格式,SQL脚本,形象工作等,实现规范元数据的转换积淀;类型辨认:十分复杂的一个节点,类型在形容数据的时候至关重要,结构化存储能够间接读取,文件类构造通常须要类型转换标识,工作流程会间接对立治理,顺次保证数据在不同环境中的正当存储;更新音讯:业务的倒退中,各种数据结构是频繁变动的,这就须要与元数据系统进行同步,通常要向音讯服务(总线)发送告诉,而后触发元数据更新动作;外围能力:构造与类型辨认解析、获取初始化数据,并且通过音讯告诉线路,实现动静更新流程的触发。 3、元数据管理外围能力的打造,通常在零碎初期都是围绕根本能力和业务需要的方向,以求疾速落地实现,提供业务撑持能力; 根底能力:标准化元数据结构,进行构造存储和可搜寻能力实现,这个节点进行对立保护,数据类型辨认和转换是至关重要的;补充说一句,在数据平台中,都会存在类型服务零碎,以提供相应的辨认能力和标准不同场景下的转换;实体与关系:数据业务中两个外围概念,实体必然由属性形成这是常说的,实体之间保护的关系:关联、、绑定、输入、输出等,是构建血缘关系和数据链路的外围标识;数据抽取:基于对元数据的组织和实体的定义,生成数据抽取规定,进而实现数据的疾速获取,后续就是对接具体的业务,例如数据存储形式,搬运形式,最终落地业务线应用;可视化剖析:包含数据品质剖析,链路与周期剖析,血统剖析等,这类性能个别在外围业务能力实现之后,会按需要等级,逐渐迭代实现;通过外围能力的建设,以求实现对数据的疾速定位,高效治理,灵便利用的指标,进步数据服务能力的效率,适应业务倒退的多变性。 同系列:消息中间件革新 ┃ 数据服务零碎设计 ┃ 业务数据荡涤计划 ┃ 数字营销概念 ┃ 标签业务利用 ┃ 四、源代码地址GitEE·地址https://gitee.com/cicadasmileWiki·地址https://gitee.com/cicadasmile/butte-java-note/wikis浏览标签 【Java根底】【设计模式】【构造与算法】【Linux零碎】【数据库】 【分布式架构】【微服务】【大数据组件】【SpringBoot进阶】【Spring&Boot根底】 【数据分析】【技术导图】【 职场】

October 18, 2021 · 1 min · jiezi

关于数据:相约-DTCC-2021-Tapdata-受邀分享如何打造面向-TP-业务的数据平台架构

2021第十二届中国数据库技术大会(DTCC)将于2021年10月18-20日,在北京国际会议中心举办,Tapdata 创始人唐建法受邀分享:如何打造面向 TP 业务的数据平台架构。 演讲工夫:2021年10月20日 09:40-10:20 演讲地点:北京国际会议中心(专场11:[ 企业数据中台设计与实际 ])演讲主题:Real Time DaaS - 面向TP业务的数据平台架构 从20年前的传统数仓,到10年前大数据平台,5年前开始炽热的数据中台以及最近呈现的湖仓一体新数据平台,明天被数据孤岛困扰的企业,面临着太多的抉择。这些数据产品及架构有一个共性:就是他们都是为实质上解决的都是剖析洞察类场景,所谓的 AP 场景(Analytical Processing)。然而实际上,企业在 TP 类型业务上的投入和 AP 相比是9:1。为什么没有为TP业务的数据平台呢?Tapdata 创始人唐建法将从上面几个角度来分析起因并介绍一个适宜 TP 业务的 Real Time DaaS 数据架构: AP业务场景 vs. TP 业务场景常见AP型数据平台:数仓、大数据平台、云数仓数据中台,最难解释的一个数据架构面向TP型数据平台: a)为什么须要 b)技术特色Real Time DaaS:为TP业务打造的数据架构技术外围 a)基于实时复制的数据虚拟化技术 b)基于索引的分布式数据库存储 c)主数据管理能力 d)对立数据接口及自助式服务Real Time DaaS 架构个性和劣势Real Time DaaS 实战案例 Tapdata 创始人唐建法(TJ)是一名具备多年海内外工作教训的架构师、数据库专家和开源软件推广者。TJ 在回国之前,曾在北美留学并工作多年,波及的技术栈包含 Java, Javascript, Python, MongoDB 等,并且是开源软件 angoose 的作者。回到中国当前,TJ 和阿里、百度、360等互联网公司的 MongoDB 爱好者独特创立了 MongoDB 中文社区并倒退成了领有数万名成员的世界上最大的 MongoDB 技术社区。在过来几年中,MongoDB 中文社区累计输入了数百篇技术博客,数十场线下技术大会以及保护着最残缺的MongoDB中文文档。TJ 在2019年创建了Tapdata,一家专一于实时数据服务的翻新技术公司,外围团队来自 MongoDB 和 BAT。 Tapdata 是寰球首个基于数据即服务(Data as a Service,简称 DaaS)架构理念、面向 TP 业务或场景的企业实时主数据服务平台,具备行业当先的技术劣势:基于数据同步的虚拟化、流解决引擎 + 可视化数据开发平台、低代码API公布能力、异构数据源对立拜访框架等,可能帮忙企业疾速买通数据孤岛,构建主数据服务平台,为新业务提供对立、残缺、实时的数据,并且反对十万级并发和毫秒级响应,间接利用到TP业务零碎,切中企业的外围经营价值链。 ...

October 14, 2021 · 1 min · jiezi

关于数据:拒绝双写巧用Lindorm数据订阅

简介: 本文介绍了双写场景的一致性问题,具体介绍了三种解决方案,并针对DB->Binlog->Kafka计划给出了Lindorm数据订阅的最佳实际。 双写问题介绍 双写问题(Dual Write Problem)是指:须要同时批改两个独立零碎的场景,比方Database和Kafka,再比方Database和缓存,那么如何保障两个零碎的数据一致性? 以Database和Kafka这种常见的场景为例,咱们能够有这么几种形式: 并发写Database和Kafka先写Kafka,再写Database先写Database,再写Kafka并发写Database和Kafka这种状况下须要分布式事务来反对强统一,否则不统一的状况就会比较复杂,Database和Kafka可能没有一个有残缺的数据。 先写Kafka,再写Database先写Kafka,胜利后即可返回客户端胜利,而后订阅Kafka音讯入库Database,实现最终一致性。但这种异步化导致DB的数据更新提早,会影响一些要求强统一读的场景。比方账单写入胜利,但客户不能立刻查看;再比方实时归因场景,Flink实时生产Kafka,在遇到交易事件后反查DB归因,但可能此时要害数据还没入库。 先写Database,再写Kafka串行写Database、Kafka,胜利后返回客户胜利。这种形式问题也不小,第一写入提早减少,第二Database胜利、Kafka失败怎么解决? 此时咱们会想到Binlog(或者WAL),新的计划是DB->Binlog->Kafka:写入Database,胜利后即可返回客户端胜利,而后订阅binlog写入Kafka,上游订阅Kafka生产。实现最终一致性,同时保障了Database上的强统一读。 基于业务场景决策下面咱们介绍了双写问题的三种解决方案,他们各自适应不同场景。 如果业务要求全盘的强统一体验,那么咱们该当抉择分布式事务。 如果业务偏向全盘的最终一致性体验,那么咱们抉择以MQ为第一入口实现最终一致性。 如果业务存在不同的一致性体验需要,那么咱们抉择强统一读写DB,以DB binlog实现最终一致性的上游业务。 Lindorm 数据订阅介绍Lindorm数据订阅是 "DB->Binlog->Kakfa"计划的升级版。 云原生多模数据库Lindorm数据订阅性能反对任何一个表的每一条数据变更,能够在客户端实时有序的查看数据变更记录。当开明某一张表的数据订阅性能后,其变更数据的操作就会被存储。为了确保数据生产的程序和数据写入的程序统一,数据订阅性能提供了主键级别保序,对于同一个主键的更新操作,会依照其更新的顺序存储和生产。每次对Lindorm表格的数据执行增删改操作时,数据订阅都会生成一个Stream Record键值对,键值对的键是这一行数据的主键,值是此次操作的详细信息(操作前的值,操作后的值,工夫戳,操作类型)。 总结Lindorm数据订阅的特点: 实时订阅100%兼容Kafka客户端Key级别保序原文链接本文为阿里云原创内容,未经容许不得转载。

September 18, 2021 · 1 min · jiezi

关于数据:数据是如何被保护的高质量存储告诉你

简介: 作为要害信息基础设施运营者,阿里云提供了全方位的数据安全爱护计划。明天,咱们就从数据存储的角度来聊一聊数据是如何被爱护的。 原文链接本文为阿里云原创内容,未经容许不得转载。

September 10, 2021 · 1 min · jiezi

关于数据:基于-MaxCompute-的实时数据处理实践

简介: MaxCompute 通过流式数据高性能写入和秒级别查问能力(查问减速),提供EB级云原生数仓近实时剖析能力;高效的实现对变动中的数据进行疾速剖析及决策辅助。以后Demo基于近实时交互式BI剖析/决策辅助场景,实现指标卡近实时BI剖析、近实时市场监测、近实时趋势剖析、近实时销量拆分性能。 本文作者 隆志强 阿里云智能 高级产品专家 一、产品性能介绍基于查问减速的数仓架构以后比拟流行的实时数仓,根本都是基于Flink来做的。明天分享的内容不是把 MaxCompute 定义为一个实时数仓,咱们讲的是基于以后数据的实时处理流程,在MaxCompute中是怎么去做反对的,怎么在 MaxCompute 中做实时数据的接入、查问、利用。开源的实时数仓是基于Flink来做的,Flink实质是实时计算,反对流批一体,所以比拟实时的场景都是基于Flink+Kafka+存储来做的。本次分享次要不是讲计算环节,本次次要解说基于BinLog、Flink、Spark Streaming的实时流数据是怎么写入到 MaxCompute 中的。 通过实时流通道,实时写入MaxCompute,写入即可见,这是 MaxCompute 的产品特点。目前市场的数仓产品写入查问绝大多数都有延时存在, MaxCompute 是做到了高QPS的实时写入,写入即可查。能够通过查问减速(MCQA)实时查问写入进 MaxCompute 的数据。对接到BI工具,即席查问能够实时拜访到实时写入的数据。 Binlog写到到MaxCompute,是通过DataX,反对增删改查的合并,后续在产品性能迭代中,MaxCompute会反对upsert,反对业务数据库数据的新增、批改、删除。Flink数据计算完之后写入到 MaxCompute 时,间接应用Streaming Tunnel插件写入MaxCompute中,这个过程不须要做代码开发,Kafka也反对了插件。 实时写入目前没有做写入数据的计算解决环节,只是疾速的把当初流式数据包含音讯服务的数据,间接通过Streaming Tunnel服务写入到MaxCompute中。以后Streaming Tunnel反对了支流音讯服务,如Kafka、Flink,做了插件反对。以及Streaming Tunnel SDK,以后只反对Java SDK。能够通过Streaming Tunnel SDK做一些利用读取之后的逻辑解决,再调取Streaming Tunnel SDK写入到MaxCompute中。写入MaxCompute之后,目前次要的解决环节是针对写入的数据,进行直读查问,也能够把写入的数据关联到MaxCompute中的离线数据,做联结查问剖析。在查的过程中,如果是通过SDK或者JDBC接入时,能够关上查问减速(MCQA)性能。如果是通过web console或DataWorks,是默认开启查问减速(MCQA)性能。以后次要是BI剖析工具和第三方应用层剖析工具,通过SDK或JDBC链接MaxCompute时,是能够关上查问减速(MCQA)性能,这样能够做到靠近秒级查问实时写入的数据。 整体来看,当初的场景次要是数据的实时流式写入,写入之后能够联合离线数据,做联结剖析查问,通过查问减速(MCQA)性能。在数据进入MaxCompute后,是没有做计算的,只是做查问服务。这是目前基于MaxCompute实时数据处理场景。 流式数据写入性能介绍以后流式数据写入性能曾经在中国区商业化公布。以后此性能是收费应用。 性能特定 反对高并发、高QPS(Queries-per-second)场景下流式数据写入,写入即可见。提供流式语义API:通过流式服务的API能够不便的开发出分布式数据同步服务。反对主动创立分区:解决数据同步服务并发创立分区导致的并发抢锁问题。反对增量数据异步聚合(Merge):晋升数据存储效率。反对增量数据异步zorder by排序功能,zorder by详情请参见插入或覆写数据(INSERT INTO | INSERT OVERWRITE)。性能劣势 更优化的数据存储构造,解决高QPS写入导致的碎片文件问题。数据链路与元数据拜访齐全隔离,解决高并发写入场景下元数据拜访导致的抢锁提早和报错问题。提供了增量数据异步解决机制,能够在应用过程中无感知状况下对新写入的增量数据做进一步解决,曾经反对的性能包含:数据聚合(Merge): 晋升存储效率。zorder by排序:晋升存储、查问效率。流式数据写入-技术架构Stream API无状态并发数据实时可见 技术架构分为三个局部:数据通道、流计算数据同步、自研利用。 以后数据通道反对的有Datahub、Kafka、TT、SLS 流计算数据同步反对的有Blink、Spark、DTS、DataX、kepler/DD 数据写入MaxCompute中,在计算集群前会有Tunnel集群存在,提供Stream Tnnel服务来实现从客户端到Tunnel服务端数据的写入。写入过程是一个文件最佳的过程,最初会有一个文件的合并。这个过程是耗费了数据通道过程中的计算资源服务,但这一耗费是收费的。 查问减速性能介绍实现数据实时写入与基于查问减速的交互式剖析 目前查问减速性能能够反对日常查问80%-90%的场景。查问减速性能的语法与MaxCompute内置语法完全一致。 MaxCompute查问减速 – 针对实时性要求高的查问作业,全链路放慢 MaxCompute 查问执行速度 应用MaxComputeSQL语法和引擎,针对近实时场景进行优化零碎主动进行查问优化抉择,同时反对用户抉择延时优先还是吞吐优先的执行形式针对近实时场景应用不同的资源调度策略:latencybased针对低延时要求的场景进行全链路优化:独立执行资源池;多层次的数据和metaCaching;交互协定优化收益 简化架构,查问减速与海量剖析自适应的一体化计划比照一般离线模式快几倍甚至数十倍联合MaxCompute流式上传能力,反对近实时剖析反对多种接入形式,易集成反对自动识别离线工作中的短查问,后付费模式是默认开启。预付费以后反对为应用包年包月资源的实例下SQL扫描量在10 GB以内的查问作业提供收费查问减速服务。低成本,免运维,高弹性查问减速-技术架构自适应执行引擎、多层次缓存机制 当SQL提交到MaxCompute计算引擎时,会分为两个模式,离线作业(吞吐量优化)和短查问(提早优化)。两个模式从技术底层来说,查问减速作业做了执行打算的缩减和优化,计算资源是预拉起资源,是向量化执行,会基于内存/网络shuffle以及多层次的缓存机制。相比于离线作业的代码生产到磁盘shuffle,再进行资源排队申请。查问减速会进行辨认作业,如果符合条件,则间接进入预拉起资源。在数据缓存局部,基于Pangu分布式文件系统,对表跟字段会有一个缓存机制。 ...

September 8, 2021 · 1 min · jiezi

关于数据:什么是数据治理

大数据治理定义:大数据治是狭义信息化治理打算的一部分,即制订与大数据无关的治理优化、数据保护、数据变现的政策。它的发动背景少数是因为公司策略政策和业务日益变大的数据需要和要求所产生的。说了数据治理产生的背景,我再来谈下数据治理的对象。它包含数据、开发流程、治理流程、制度、组织。我认为只有和指标相关联的,都能够算作治理的对象,数据治理就是将关联方通过一套残缺的治理行为,造成有序的工作以达成指标。 数据治理我的项目的范畴元数据从数据的角度能够分为三类:业务元数据、技术元数据和治理元数据。 业务元数据: 是从业务的视角去形容数据,让不懂数据的人能够疾速读懂数据,例如:表名称、表的血缘关系、表的字段阐明、指标的统计口径等多种业务形容;技术元数据: 天然就是从技术的角度去形容数据,例如:表的sql、字段长度、字段类型等多种技术形容;治理元数据: 是蕴含数据管理的信息在外面,例如:表的业务属主、表的技术负责人。元数据的治理通常蕴含:血统剖析、数据生命周期。 血统剖析:对元数据的上下游进行剖析,依照数据存储的数据库将血统剖析分为了两类: 存在Hadoop平台的血统剖析,可用通过脚本解析出到字段级的上下游关系;建表有主外键的,可通过主外键建设血缘关系。数据生命周期:数据都存在生命周期,当元数据访问量变低,数据价值不存在的时候,可将它下线革除,开释存储空间。 数据安全数据安全次要是对数据的平安脱敏管控和安全检查,脱敏机制有两种计划: 1)在数据仓库的接入和输入进行脱敏管控:数据接入辨认敏感信息,通过脱敏工具进行脱敏解决,产生脱敏表和敏感表两张表(脱敏表与敏感表之间要有映射关系),敏感数据不对中间层凋谢,对于数仓中间层则只有脱敏表,开发和测试的时候也只能应用脱敏表,在数据输入层,首先应用层的开发先对敏感数据进行申请,申请通过后失去敏感表的使用权,开发通过映射关系将敏感表的脱敏数据进行关联解决。 这种计划的益处:平安易管控,脱敏过程少,但会减少开发的工作量。 2)针对用户进行脱敏治理,数据仓库的每一层都须要对敏感数据进行脱敏解决,对于敏感数据申请权限的用户能够查看敏感信息,没有权限的用户只能查看脱敏表。这种脱敏机制益处在于对开发没什么影响,但加大平安治理的复杂度,须要全域扫描敏感信息,脱敏工作大。 数据品质数据安全次要是对数据的平安脱敏管控和安全检查,脱敏机制有两种计划: 1)在数据仓库的接入和输入进行脱敏管控:数据接入辨认敏感信息,通过脱敏工具进行脱敏解决,产生脱敏表和敏感表两张表(脱敏表与敏感表之间要有映射关系),敏感数据不对中间层凋谢,对于数仓中间层则只有脱敏表,开发和测试的时候也只能应用脱敏表,在数据输入层,首先应用层的开发先对敏感数据进行申请,申请通过后失去敏感表的使用权,开发通过映射关系将敏感表的脱敏数据进行关联解决。 这种计划的益处:平安易管控,脱敏过程少,但会减少开发的工作量。 2)针对用户进行脱敏治理,数据仓库的每一层都须要对敏感数据进行脱敏解决,对于敏感数据申请权限的用户能够查看敏感信息,没有权限的用户只能查看脱敏表。这种脱敏机制益处在于对开发没什么影响,但加大平安治理的复杂度,须要全域扫描敏感信息,脱敏工作大。 数据价值数据治理最重要的产出物,通过数据治理能为业务带来的业务价值。如我所在的公司,数据价值体现在数据资产可视化。对于不同看数据角色定义不同的价值,对于数据业务剖析人员,通过数据标准化治理和平台搭建,让不懂数据的业务可能疾速把握数据,并能够本人进行数据挖掘、数据分析等工作。 对于高层领导,将公司的业务数据以报告的模式,让领导疾速理解数据的老本及散布状况。当然不同的公司偏重的价值会不一样,数据治理同时也能无效的控制数据老本,缩小因为数据带来的摩擦,晋升数据品质和平安。 数据开发对数据开发进行规范的流程治理是数据治理外围的一部分,首先依据公司理论状况剖析、制订可落地的数据开发治理标准。过于简单的数据开发标准保护老本高,同时也减轻开发工作量,导致难以执行。过于简略的标准又无奈很好的治理开发流程。最次要的还是定制完标准后拉各关联方进行评审,大家对可落地,可治理的角度是评估标准。 当标准制订好后,就是依照标准进行落地执行。通常数据开发标准蕴含:数据建模、数据设计、数据我的项目部署和施行。 数据建模是一种剖析和设计办法,用于: 定义和剖析数据需要;设计满足需要的数据结构。组织建设数据组织是保障数据治理可能长期有效的重要伎俩之一,通常数据组织都是能够跨职责的,组织的职能和分类如下: 1)数据治理委员会,在公司外部领有数据的最高决策权,代表了企业的高层视角 2)数据管理领导委员会,为数据委员会提供反对,针对一些具体数据管理措施起草相干政策和规范,提供委员会评审和批准 3)数据管理制度团队,在某个业务畛域内,帮助实现数据制度治理的数据管理专员小组,数据管理制度团队来着不同的部门和跨业务畛域的数据专家

September 4, 2021 · 1 min · jiezi

关于数据:海云健康上云为10万家药店带去了什么价值

“全国每5集体里,就有1个正在承受海云衰弱零碎提供的服务。” 在海云衰弱(以下简称“海云”)的零碎后台上,每一分钟就有10万笔的买药订单涌动。兴许很多人没有听过海云衰弱的名字,但当他们走进社区药店时,曾经在享受海云的“存衰弱”药店会员管理系统提供的服务。 海云开办于2013年,总部位于武汉光谷,专一于药店会员治理服务。8年来,这家公司疾速成长,现在已为全国近十万家连锁药店提供SaaS化的CRM零碎。 上云并不是起点“尽管做的是药店的服务,实质上咱们是一家互联网公司。”海云技术副总裁袁冲说。 8年来,海云从仅有几名技术人员,倒退到100多名技术人的规模。现在办公区的墙上贴满了各种技术学习的海报,技术人在公司占比超过60%。除了传统的运维人员,大数据工程师、人工智能工程师等互联网公司的常见岗位,在海云也成为了支流。 事实上,海云的业务早就进入了“数据驱动”的时代。以常见的维C为例,不同的生产厂家、不同的包装、不同的剂量、适宜搭配什么药物……在海云的零碎里,只须要0.001秒,就能够生成最佳举荐后果,既可能帮忙药店降低库存,又能让消费者更精准地购买到适合的药物。 老年人的慢病药,常常吃着吃着就忘了。一般药停几天还好,管制血压、血糖、心脏的药,一旦停药后发病就十分危险。针对这种客户,海云会做一些定向揭示,告诉店员和客户提前备好药,这背地都须要数据驱动。 “咱们海云的数据曾经不是一个传统的SaaS公司的数据体量,而是一家互联网公司的数据体量了,这些简单的数据相互之间的关联要如何开掘?这些都是问题,所以海云很早以前,就把指标瞄准了云。”袁冲说。 海云技术副总裁袁冲 然而,上云并没有设想中那么美妙。早年间,海云第一次尝试将零碎迁徙到云上。 但过后尚在襁褓中的云计算显然不足以承载海云的期待。上云之后,海云衰弱遇到了几个艰难,晚期的技术架构并不是为云设计的,迁徙后没有做革新,导致了一些影响业务连续性的故障产生。 另外,和传统厂商的运维相应速度相比,过后海云采纳的某本地云厂商很难提供及时无效的响应。 在通过了短暂的尝试当前,海云决定回到本人的自建体系上。自此,海云的技术团队对于上云有了共识:机会还不成熟,要做的革新太多,云厂商无奈提供贴身服务。 “云,并不稀奇。”阿里云工程师王诗还分明记得袁冲一口拒绝他时的表情。 新冠肺炎疫情之后,数字化减速曾经成为潮水的方向,海云也感触到了这个趋势。 疫情期间,越来越多药房器重会员治理的线上化,同时海云也为药房紧急开发了小程序和数个微服务。这些零碎一方面是海云在践行社会责任,一方面也让海云的业务从会员治理迈向越来越多的产品。 随之而来的是用户和数据量的猛增,而要解决这些海量数据的简单问题,上云成了一个必然的抉择。袁冲有次为了解决数据库的问题,在公司睡了两个早晨。“换句话说,如果这个数据库的问题不解决的话,我是睡觉都睡不着了。” 遇到故障,项目部责任人放下工作紧急解决 “咱们都晓得阿里有很好的云服务器产品,数据库和大数据计算引擎,然而咱们须要和最理解云的人,一起能力实现这件事。因为这不是研发,而是在实在的业务零碎里实现切换,这是一边航行一边换引擎,而且在三个月里必须实现,这是业务决定的惟一窗口期。”袁冲通知记者。 一边做迁云,一边做下云阿里云迁云团队入场当前,发现状况也并不那么乐观:海云业务简单,有超过100+微服务、4亿张表单、逾10亿订单都在自建的零碎上,割接窗口期仅有8个小时;日常零碎的水位也十分高,资源使用率常常靠近100%。且海云心愿部署施行的我的项目周期只有3个月;在业务层面,100+个微服务利用都没有清晰的拆分。 “这时候咱们对云的了解就能发挥作用。咱们提出采纳容器和PolarDB解决业务顶峰的弹性问题,可能实现快捷的利用公布;利用Hologres存储引擎弱小的查问与剖析能力,联合DataWorks实时业务数据同步,晋升海云的大数据挖掘能力,这些产品和海云的理论场景一直组合。”阿里云工程师微步说。 在袁冲看来,上云不能仅仅是传统IT的代替,更是一次残缺的能力飞跃,要像他当年让海云从一个简略零碎到建设服务10万家药店的简单零碎一样,给技术体系来一次本性难移。 而这正是要对云有深刻理解的团队能力做的,看了残缺的迁云计划,袁冲还是不释怀,去了一趟杭州。 正是这次参观,让海云下定决心迁云。 在阿里巴巴总部的会议室,孤烟和共事们请来了产品、研发的工程师,海云团队现场提出技术问题,阿里云的工程师现场解答。袁冲看到,迁云的技术计划都是阿里巴巴本人的业务在用的;帮忙海云迁云团队的技术专家们则是技术畛域里的核心人物,很多人都是领有丰盛实战经验、经验过最初一台小型机下线、双11、全业务上云等里程碑的专家。 “你们本人都在这么用,我就释怀了。” 为了彻底打消客户的顾虑,阿里云技术服务团队在帮助海云零碎上云的同时,做了一个下云回滚的计划。 “数据是外围资产,是生产资料,数据安全是头等大事。”袁冲说。 他理解到,2015年7月,阿里云就发动了中国云计算服务商首个“数据保护倡导”,明确了运行在云计算平台上的开发者、公司、政府、社会机构的数据,所有权相对属于客户;平台方有责任和任务,帮忙客户保障其数据的私密性、完整性和可用性。云平台的数据加密存储、残留数据革除、多正本扩散存储、加密传输等,都有严格、成熟的制度。 阿里云和海云在默认应用云平台存储层多份数据保护的根底上,又开启了数据库产品快照、备份等性能,并定期做备份复原演练,对网络、利用、数据库等进行平安加固,保障数据安全。 “客户的业务太重要了。客户(药店)做的是事关百姓衰弱的小事,必须敬畏。”袁冲说。 一个早晨,吃了四次夜宵 一旦决定,单方的口头力和执行力就施展到了极致,迁徙很快就开始了。 2021年1月30日早晨9点,城市里大多数药房曾经关店。在海云的办公室里,最沉重的数据割接工作才正式开始。 2021年1月30日深夜,最初一个零碎割接现场 利用、数据,一直地从本地开始流向云端。 每一次操作,单方都依照预案重复查看,数据是否能对得上,不大的会议室里响起此起彼伏的对话。 “最要害的那一天,尽管之前做了齐备的预案,但咱们还是很放心的,放心就容易饿,一早晨吃了4次夜宵。”孤烟说。 始终到第二天凌晨6点钟,最初一个零碎割接实现,至此,主利用顺利完成了搬迁。项目组松了口气。袁冲手一挥:“吃饺子去”,不晓得是谁找来了一口小锅,一堆人凑在办公室一起煮了顿饺子。 “钉群里的工程师的回复很快,常常几分钟就响应了。”海云的运维工程师覃业双感叹,“咱们就像是一个团队,合作无间。我有时遇到运维问题,一提工单根本几分钟就会有回复,1对1的服务让我感到很释怀。” 阿里云跟海云签订的是迁云服务人天用完后,到了12月底,因为我的项目简单,还有一些开头的工作没有实现。为了帮忙客户,阿里云工程师无秘和共事们持续保留了企业群,直到撑持我的项目整体顺利迁徙。 袁冲起初通知无秘:通过这次迁徙,咱们明确了你们的价值。 上云当前,海云的直观感触是突发的加班状况变少了,运维的工作量缩小了,因为零碎更加稳固,高峰期出问题的几率升高了,袁冲还被动退出了阿里云的飞天会员,与泛滥企业一起成为了阿里云最“铁杆”的粉丝。 "云自身就是服务,然而阿里云的技术服务,是给云服务加上了Plus。”海云的工程师们说。 不仅如此,上亿的表单、订单数据上云后,反对了多表关联查问,让业务取得了更加广大的想象力,,也无效撑持了泛滥连锁店客户会员的剖析查问需要,冲破了原有零碎瓶颈,简单查问的响应工夫晋升了100倍。 迁云实现了当前,超10万家B端客户、3.6亿C端用户享受到了云技术带来的顺滑体验。 海云将本人称为典型的产业互联网公司,有了云计算的加持,数据的驱动,海云的业务也从药店会员治理开始走向慢病治理等更加深刻的蓝海。 社区药店,是医疗业最终端,也是最重要的毛细血管,在十万家药店背地,是上亿人的衰弱。 “中国有近3亿慢病患者。社区里的阿姨们、叔叔们,兴许会因为咱们做的一点点,更加按时吃药。”海云衰弱的运营部总监范晓艳说。 袁冲用一句话总结了公司的业务,“咱们做的事件就是让药店的生意变得更加好做,让患者更加衰弱。” 药店是医疗体系里最根底,又最重要的一环:简略的痊愈服务。这个职能的历史,简直与人类历史一样古老。 最早的连锁药店历史,能够追溯到中国宋代的官药局。而中国古代意义上最早的连锁药店,则诞生在1995年的广州,通过20年的倒退,中国的批发药店曾经超过50余万家。 海云明天心愿能把这些小小的点,变成一张笼罩“全衰弱”的数字化衰弱参谋。 海云董事长黎云已经说过一句话,“海云科技做的是赋能药店,更是民生,所以咱们做的不仅是技术,还是责任。” 起源:中国日报网

September 1, 2021 · 1 min · jiezi

关于数据:最小二乘法了解一下

摘要:最小二乘法是一种在误差预计、不确定度、零碎辨识及预测、预报等数据处理诸多学科畛域失去广泛应用的数学工具。最小二乘很简略,也在业界失去了宽泛应用。本文分享自华为云社区《最小二乘法介绍》,作者:Yan 。 最小二乘法是一种在误差预计、不确定度、零碎辨识及预测、预报等数据处理诸多学科畛域失去广泛应用的数学工具。最小二乘很简略,也在业界失去了宽泛应用。 然而对于最小二乘法和它的故事,兴许很多人并不理解,明天给大家做一下分享。 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。通过40天的跟踪观测后,因为谷神星运行至太阳背地,使得皮亚齐失去了谷神星的地位。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,然而依据大多数人计算的后果来寻找谷神星都没有后果。 时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯依据高斯计算出来的轨道从新发现了谷神星。 高斯应用的最小二乘法的办法发表于1809年他的著述《天体静止论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而石破天惊。 为了不便大家了解最小二乘法,给大家讲个故事。 假如身高是变量X,体重是变量Y,咱们都晓得身高与体重有比拟间接的关系。生存教训通知咱们:个别身高比拟高的人,体重也会比拟大。然而这只是咱们直观的感触,只是很粗略的定性的剖析。 在数学世界里,咱们大部分时候须要进行严格的定量计算:能不能依据一个人的身高,通过一个式子就能计算出他或者她的规范体重? 咱们能够采样一批人的身高体重数据, (x1,y1),(x2,y2),⋯,(xn,yn),其中x是身高,y是体重。 生存常识通知咱们:身高与体重是一个近似的线性关系,用最简略的数学语言来形容就是y = \beta_0+\beta_1xy=0+1x。 于是,接下来的工作就变成:怎么求出这个0与1呢? 为了计算0,1的值,咱们采取如下规定:0,1应该使计算出来的函数曲线与察看值的差的平方和最小。用数学公式形容就是: 其中,y_{ie}yie示意依据y=\beta_0 + \beta_1xy=0+1x估算进去的值,y_iyi是察看失去的实在值。 这样,样本的回归模型很容易得出: 当初须要确定0、1,使cost function最小。大家很容易想到,对该函数求导即可找到最小值: 将这两个方程整顿后应用克莱姆法令,很容易求解得出: 依据这个公式,只须要将样本都带入就能够求解出相应的参数。 如果咱们推广到更个别的状况,如果有更多的模型变量x1,x2,⋯,xm(留神:x_1x1是指 一个样本,x1是指样本里的一个模型相干的变量),能够用线性函数示意如下: y(x1,⋯,xm;0,⋯,m)=0+1x1+⋯+mxm 对于n个样本来说,能够用如下线性方程组示意: 如果将样本矩阵x_i^hxih记为矩阵A,将参数矩阵记为向量\beta,实在值记为向量Y,上述线性方程组能够示意为: 即A \beta = YA=Y 对于最小二乘来说,最终的矩阵表达形式能够示意为: min∣∣A−Y∣∣2 最初的最优解为: =(ATA)−1ATY 2021华为云 AI 实战营——华为云员工都在学的AI实战营,快来报名收费学习吧~ 点击关注,第一工夫理解华为云陈腐技术~

August 24, 2021 · 1 min · jiezi

关于数据:Agora-教程丨一个典型案例教你如何使用水晶球数据洞察

7 月初,声网Agora 水晶球的“数据洞察”性能正式版上线。“数据洞察”可显示两种数据,一种是用量,另一种是品质。 “数据洞察”的“用量概览”最大的意义就是能够帮你回溯过来一段时间内的整体音视频分钟数趋势,为业务经营策略的复盘、调整提供数据参考。这些数据图表比拟容易了解。 不过第一次在“数据洞察”中看到“品质概览”的用户,可能感触到的只是扑面而来的多个数据图标,一时间还不晓得,如何复盘曾遇到的品质问题,并一步步追根溯源。所以咱们将通过一个测试案例,来一步步从发现问题、考察线索,到发现问题依据,带大家了解如何应用它。 *注:以下图中所示为测试 Demo 数据 通过点击左侧菜单栏中的“品质概览”,咱们能够在“数据洞察”页面依据工夫范畴,查看品质趋势。 首先,页面能够划分为三个模块“用户体验”、“退出频道”、“指标剖析”。“用户体验”和“退出频道”,展现了 5 个次要影响实时互动体验的质量指标:视频卡顿率、音频卡顿率、网络提早率、登录成欧功率和 5s 登录成功率。 “指标剖析”则是展现了以上五个质量指标在地区、操作系统、网络类型、设施类型、SDK 版本、频道规模几个维度上的数据分布。 咱们抉择了查看 6 月 26 日到 7 月 4 日期间的数据。“用户体验”模块,会显示视频卡顿率、音频卡顿率、网络提早率三个质量指标在这段时间的走势。而且,它会主动将数据最差的那一天的数据筛选进去,显示在曲线图上方。如下图所示,高深莫测,三个指标最差的日子刚好重叠在 7 月 1 日那一天。这一天到底产生了什么呢? 咱们能够将鼠标放到数据曲线中 7 月 1 日那天。点击数据点,就会在弹出的气泡中看到两个选项:“查看小时”、“查看散布”。 为了进一步考察这一天呈现了什么问题,咱们点击“查看小时”,从更细的颗粒度来查看当天的品质数据。如下图所示,咱们看到体验最差的是 21:00。 接下来,咱们点击 21:00 的数据点,而后进入“频道数据采样”。当然,只有合乎“采样规定”的数据点才会显示“频道数据采样”,具体规定请在 docs.agora.io/cn/ 搜寻“采样规定”。 在点击“频道数据采样”后,右侧会弹出采样详情。这里会列出在该工夫点的“分钟数-视频卡顿率”数据散点图。每一个点都是一个频道。数据点越凑近右上角,阐明这个频道卡顿率越高,而且通话时间越久,即这个频道的体验比拟差。 咱们能够从下图中看出,凑近右上角的数据点都是同一个频道。 这时,如果咱们点击任意一个频道号,就会显示出改频道过后的用户数(即卡顿影响范畴),视频总时长(即卡顿影响时长)。同时,还会呈现一个“用户数据采样”。 这个频道到底产生了什么呢? 接着,点击“用户数据采样”,在窗口下方会显示进去过后在这个频道里的用户都有哪些。能够从下图看到,遇到品质体验问题的用户尽管不同,然而对端用户都是同一个(如图中红框)。阐明,体验问题可能与这个对端用户无关。 当咱们点击右侧的“通话考察”后,就会跳转至水晶球的“通话考察”性能,具体查问该频道该时刻的品质数据。在进入通话考察之后,咱们能够看到发送端、接收端的设施状态、视频发送分辨率、视频发送帧率、视频帧率和卡顿、视频上行和网络丢包、视频上行和网络丢包。 从数据来看,发送端的网络状态没有出现异常,然而 CPU 在 18:00到 21:00呈现了异样(红色数据值示意 CPU 占用率过高)。再看视频发送的分辨率,当 CPU 占用率较高的时候,发送的分辨率也升高了。不过 Wi-Fi 信号品质是蓝色的,也就是说网络环境良好。 所以能够初步判断是发送端的设施性能有余导致了这个时段的视频卡顿。 ↓↓↓预报“通话考察”的多个品质维度能够用来考察出通话问题本源。咱们稍后还将围绕两个典型案例,来解说“通话考察”的应用办法。敬请期待。

August 23, 2021 · 1 min · jiezi

关于数据:解密万亿参数M6模型预训练背后的分布式框架Whale

简介: 最近,阿里云PAI团队和达摩院智能计算实验室一起公布“低碳版”巨模型M6,大幅升高万亿参数超大模型训练能耗。借助咱们自研的Whale框架仅应用480卡GPU,即训练出了规模达人类神经元10倍的万亿参数多模态大模型M6,与传统海内公司实现万亿参数规模相比,能耗升高超八成、效率晋升近11倍。 作者 | 王林起源 | 阿里技术公众号 最近,阿里云PAI团队和达摩院智能计算实验室一起公布“低碳版”巨模型M6,大幅升高万亿参数超大模型训练能耗。借助咱们自研的Whale框架仅应用480卡GPU,即训练出了规模达人类神经元10倍的万亿参数多模态大模型M6,与传统海内公司实现万亿参数规模相比,能耗升高超八成、效率晋升近11倍。 M6是国内首个实现商业化落地的多模态大模型。M6领有超过传统AI的认知和发明能力,善于绘画、写作、问答,在电商、制造业、文学艺术等诸多畛域领有广泛应用前景。 这里来为大家介绍反对万亿参数模型训练的Whale框架设计。 一 模型发展趋势和挑战1 模型发展趋势随着深度学习的火爆,模型的参数规模也增长迅速,OpenAI数据显示: 2012年以前,模型计算耗时每2年增长一倍,和摩尔定律保持一致;2012年后,模型计算耗时每3.4个月翻一倍,远超硬件倒退速度; 近一年模型参数规模飞速增长,谷歌、英伟达、阿里、智源研究院都公布了万亿参数模型,有大厂也公布了百亿、千亿参数模型。同时,随着模型参数规模增大,模型成果也在逐步提高,Nvidia测试Bert模型不同参数规模,发现模型困惑度随模型参数规模减少而升高。 Google在GShard paper中也发现MoETransformer 模型参数规模越大,翻译品质越高。 2 大模型训练的挑战大模型带来模型成果晋升的同时,也为训练框架带来更大的挑战,例如当咱们要训练一个万亿规模的模型时会面临如下挑战: 训练难: GPU显存曾经不够寄存模型正本,数据并行曾经不能满足需要;须要框架提供新的并行策略,协同多GPU能力来寄存和训练模型;如何给用户提供简洁、易用的接口,让用户能很容易实现分布式版模型;超大规模模型对计算效率、通信效率都带来很大挑战,如何进步计算和通信效率;上游工作如何对接,如何反对批量预测和在线推理需要;老本高: 以万亿模型为例,模型参数有4TB大小、梯度也有4TB,加上optimizer states和active tensor,显存需要微小;业界训练等同规模模型须要的资源:英伟达 3072 A100、谷歌 2048 TPU v3,老本太高很难落地;如何降本增效,应用更少的资源,更快的训练收敛;以后曾经有一些分布式训练框架,例如:Horovod、Tensorflow Estimator、PyTorch DDP等反对数据并行,Gpipe、PipeDream、PipeMare等反对流水并行,Mesh Tensorflow、FlexFlow、OneFlow、MindSpore等反对算子拆分,但这些框架还有一些有余: 模式繁多:很多框架只反对局部并行策略,不能齐全反对各种混合并行;接入门槛高:用户实现模型分布式版本难度大、老本高,须要有领域专家教训能力实现高效的分布式并行策略;迁徙代价大:不同分布式框架并行化实现割裂,不同框架有各自定义的DSL,当用户要切换并行策略时,须要学习各种接口,从新改写模型;性能不现实:局部框架实现未思考集群物理环境;为了应答以后分布式训练的挑战,咱们研发了分布式训练框架Whale,次要指标是: 对立多种并行策略:在一个框架中反对各种并行策略以及这些策略的各种组合;简洁易用的接口:用户只需增加几行annotation即可实现并行策略的配置,模型代码不须要改变;高效的训练框架:联合硬件资源、网络拓扑和模型进行协同优化,打造高效分布式训练框架;二 PAI自研Whale框架1 Whale架构咱们推出对立多种并行策略的高性能分布式训练框架Whale,从如下角度来应答分布式训练的挑战: 将不同并行化策略进行对立形象、封装,在一套分布式训练框架中反对多种并行策略;基于Tensorflow设计一套分布式并行接口,齐全兼容Tensorflow,用户仅仅只需增加几行annotation就能够实现丰盛的分布式并行策略;联合模型构造和网络拓扑进行调度和通信优化,提供高效的分布式训练能力。Whale框架如下图所示,次要分4个模块: API:提供简洁易用接口,让用户组合应用各种混合并行策略;Whale IR:将并行策略转成外部表白,通过TaskGraph、Multi-Dimension、VirtualDevices形象来表白各种并行策略;Whale Engine:基于WhaleIR,通过图编辑工具来构建分布式执行图;Runtime:将分布式执行图转成TFGraph,再调用TF 的Runtime来执行; 2 Whale简介易用接口Whale提供简洁易用的接口来形容各种并行策略,次要的原语: cluster:配置Virtual Device的划分办法replica:数据并行stage:划分TaskGraphpipeline:流水并行split:算子拆分用这些接口能够组合各种并行策略,例如: 数据并行:流水并行: 流水并行+数据并行: 更多并行策略示例: 3 Whale训练流程应用Whale进行分布式训练流程: 并行策略配置: 应用Whale API来为模型配置并行策略,只需增加几行annotation,无需批改模型代码,办法如 2.2节 所示;能够将模型划分为多个TaskGraph,TaskGraph反对配置多个并行策略,每个TaskGraph能够配置不同的并行策略;虚构资源划分: 按并行策略来划分Virtual Device,每个TaskGraph对应一个Virtual Device;按GPU资源和网络topo来为Virtual Device抉择Physical Device;分布式执行图: 基于并行策略和资源分配信息,应用图编辑工具来编辑执行图(图拷贝、拆分、插入通信节点等),生成最终的分布式执行图;调用TF的runtime来执行分布式Graph; 三 万亿M6模型预训练万亿模型的算力需要十分大,为了升高算力需要,Whale中实现了MoE(Mixture-of-Experts)构造,MoE的次要特点是稠密激活,应用Gating(Router)来为输出抉择Top k的expert进行计算(k罕用取值1、2),从而大大减少算力需要。 Whale中实现了MoE(Mixture-of-Experts) layer,并反对专家并行,将experts拆分到多个Devices上,升高单个Device的显存和算力需要。同时数据并行有利于晋升训练的并发度,因而采纳数据并行+专家并行组合的混合并行策略来训练M6模型:MoElayer采纳专家并行,其余layer采纳数据并行。 ...

August 18, 2021 · 1 min · jiezi

关于数据:DataWorks-功能实践速览

简介: DataWorks性能实际系列,帮忙您解析业务实现过程中的痛点,进步业务性能应用效率! 性能举荐:独享数据集成资源组如上期数据同步解决方案介绍,数据集成的批数据同步工作运行时,须要占用肯定的计算资源,这些资源即资源组,通常先从数据起源所在的机器抽取数据至资源组所在的机器,再推送至指标数据源所在的机器。 而进行数据同步时,能够依据理论状况布局应用哪种数据集成资源组,资源组布局的关键点包含连通性和性能两方面。 以下就从数据集成资源组的类型与性能、网络连通性两方面,为您介绍数据集成资源组的详情: Part1:数据集成资源组的类型与性能比照DataWorks数据集成反对多种不同资源组: 独享数据集成资源组: 购买后可独占应用的资源组。在工作高并发执行且无奈错峰运行,须要独享的资源组来保障数据疾速、稳固地传输时,您能够抉择独享资源组。 自定义数据集成资源组: 如果您有充裕的服务器资源,也可将此局部资源作为DataWorks中工作运行的资源组应用,DataWorks反对自定义资源组。 以上两种数据集成资源组在利用上的能力比照如下表所示: 十分建议您应用独享数据集成资源组来运行数据集成工作。独享数据集成资源组的购买后,您须要实现网络配置和工作空间绑定,后续即可抉择与数据源的网络连通计划进行连通配置了。在此之前,独享数据集成资源组的购买与根底配置的操作详情请参见新增和应用独享数据集成资源组。 Part2:数据集成资源组的网络连通计划进行数据同步时,须要依据数据库所在网络环境,通过对应的网络解决方案,实现对应类型资源组与数据库的网络连通。连通计划概览如下。 以下为您重点介绍独享数据集成资源组的网络连通计划详情,其余资源组类型的网络连通计划可进入帮忙核心查看。 场景1:数据源具备拜访公网的能力 如果数据源具备公网拜访能力的话,那么数据源与资源组之间能够间接通过公网互访。 场景2:数据源在VPC网络中,且VPC和DataWorks在同一个地区 如果数据源在VPC网络中,且VPC和DataWorks在同一个地区,那能够将独享数据集成资源组绑定数据源所在VPC。同时须要关注,资源组与DataWorks是否在同一个可用区中,如果不在同一个可用区中,还须要手动增加一下路由,保障资源组与数据源之间网络是连通的。增加路由的操作详情可参见增加路由。 场景3:数据源在VPC网络中,且VPC和DataWorks在不同的地区 如果数据源在VPC网络中,且VPC和DataWorks在不同的地区中,那您须要为独享数据集成资源组绑定一个VPC,而后通过高速通道、VPN或其余网络连通产品连通资源组绑定的VPC与数据源所在的VPC。 常见的网络连通产品包含: 云企业网应用场景示例,请参见云企业网。高速通道应用场景示例,请参见高速通道。VPN网关应用场景示例,请参见VPN网关。此外,您仍旧须要手动增加一下路由,保障网络连通性。增加路由的操作详情可参见增加路由。 场景4:数据源在IDC内 如果数据源在IDC内,与场景3:数据源在VPC中且与DataWorks不同地区的场景相似,您须要为独享数据集成资源组绑定一个VPC,而后通过高速通道、VPN或其余网络连通产品连通资源组绑定的VPC与数据源所在的VPC。 常见的网络连通产品包含: 云企业网应用场景示例,请参见云企业网。高速通道应用场景示例,请参见高速通道。VPN网关应用场景示例,请参见VPN网关。此外,您仍旧须要手动增加一下路由,保障网络连通性。增加路由的操作详情可参见增加路由。 场景5:数据源在经典网络 如果数据源在经典网络内,则此场景下,不反对数据源与DataWorks资源组网络连通,建议您将数据源迁徙至VPC网络中。 PS:阿里云经典网络已不举荐应用,建议您迁徙数据源至VPC。 Part3:注意事项——白名单的影响保障资源组与数据源之间网络连通后,您还需保障资源组与数据源之间不会因为白名单的限度而无奈进行数据拜访,例如,局部数据源设置白名单后会不容许白名单外的IP拜访,您须要将资源组的IP增加至数据源的白名单中。 应用不同类型的数据集成资源组时,须要增加到数据源白名单中的IP地址不统一,详情可进入帮忙核心查看,以下为您示例,应用独享数据集成资源组时,须要获取并增加到数据源白名单中的IP地址。 交换机网段: 独享资源组的EIP地址: 原文链接本文为阿里云原创内容,未经容许不得转载。

August 18, 2021 · 1 min · jiezi

关于数据:数据上报方式是否存在最优解

1. 前言最近神策数据 Web JS SDK 默认的数据上报形式由原来的 image 改成了 beacon。 其实 image 只是数据上报形式中的一种,它是通过向服务端发送图片申请来实现数据传输的,还有另外两种向服务端发送数据的形式:ajax 和 beacon。 上面针对神策数据 Web JS SDK 数据上报形式进行具体的介绍,心愿能给大家提供一些参考。 2. imageimage 形式是通过将采集的数据拼接在图片申请的前面,向服务端申请一个 1*1 px 大小的图片实现的,设置它的 src 属性就能够发送数据。这种形式简略且人造可跨域,又兼容所有浏览器,没有阻塞问题,是目前比拟受欢迎的前端数据上报形式。但因为是 get 申请,对上报的数据量有肯定的限度,个别为 2~8 kb。代码示例如下: var img = new Image();img.width = 1;img.height = 1;img.src = '/sa.gif?project=default&data=xxx'; 2.1. crossOrigin 属性HTML5 给 <img> 标签新减少了一个 crossOrigin 属性,这个属性决定了图片获取过程中是否开启跨域性能。并且如果设置了 crossOrigin 这个属性,image 申请中将不带 cookie。代码示例如下: 浏览器端设置: var img = new Image();img.crossOrigin = "anonymous 服务端设置: set('Access-Control-Allow-Origin', '*'); 设置了 crossOrigin = "anonymous" 的后果如图 2-1 所示: 图 2-1 设置了 crossOrigin = "anonymous"未设置 crossOrigin = "anonymous" 的后果如图 2-2 所示: 图 2-2 未设置 crossOrigin = "anonymous" ...

August 16, 2021 · 2 min · jiezi

关于数据:Dataphin功能集成如何将业务系统的数据抽取汇聚到数据中台

简介: 数据集成是简略高效的数据同步平台,致力于提供具备弱小的数据预处理能力、丰盛的异构数据源之间数据高速稳固的同步能力,为数据中台的建设打好松软的数据基座。 数据中台是当下大数据畛域最前沿的数据建设体系, 它并不是从零开始, 无中生有的。数据中台是传统的数据仓库的一种降级, 是数据采集、建设、治理与应用的一整套体系。 Dataphin是一个构建数据中台的弱小工具, 数据集成是Dataphin的组成部分,负责数据“采”、“建”、“管”“用”中的采集局部。数据集成是简略高效的数据同步平台,致力于提供具备弱小的数据预处理能力、丰盛的异构数据源之间数据高速稳固的同步能力,为数据中台的建设打好松软的数据基座。 (Dataphin:面向各行各业大数据建设、治理及利用诉求,一站式提供从数据接入到数据生产全链路的智能数据构建与治理的大数据能力,包含产品、技术和方法论等,助力打造规范对立、死记硬背、资产化、服务化、闭环自优化的智能数据体系,以驱动翻新。) 数据集成定位数据集成是数据中台建设中最根底的工作,将不同零碎的数据互相买通,实现数据自在离线或实时流动。 面对各行各业对大数据越来越多的利用,对数据集成也有了更多的诉求。包含:可能简略高效的配置大量数据表的同步工作;可能集成多种异构数据源;可能实现对数据源的数据进行轻度预处理;可能实现数据同步工作的调优(例如容错,限速,并发)等。Dataphin的数据集成模块次要面向企业数据开发人员,以组件利落拽的模式,帮忙企业高效构建大数据流通管道,从而将各种烟囱状态的数据汇聚到数据中台。 数据集成能力数据集成旨在为用户构建简略高效、安全可靠的数据同步平台: 反对通过整库迁徙(疾速生成批量同步工作)和一键生成指标表的形式,进步数据集成的效率。反对流程和转换组件,实现数据源的数据预处理(例如荡涤、转换、字段脱敏、计算、合并、散发、过滤等)能力。反对丰盛的异构数据源,实现数据源之间数据高速稳固的同步能力。反对Dev-Prod和Basic的开发模式,您能够依据业务场景进行灵便抉择开发模式。反对将Dataphin中创立的逻辑表疾速地同步到指标库。用户可自定义零碎尚未反对的数据源组件,以满足不同业务场景数据同步的需要。 数据集成场景关注要点 - 易用性 用户进行数据中台建设时,须要集成的表的数量往往很多,须要进行大量反复的繁琐配置工作。 Dataphin的数据集成通过高效的拖拽式操作,自动化一键主动建表、组件复制和整体管道配置复制,批量化的整库迁徙等操作可大大提高零碎的易用性及操作效率。 Dataphin的数据集成的画布数据的输出、转换、输入组件、采集工作流、采集工作等可视化性能,使管理员直观的把握数据采集状况。 Dataphin的数据集成在工作搭建过程中反对同步工作试运行、度量查看、数据预览,不便用户进行数据集成工作的调试。 - 多源异构的数据同步能力 在企业信息化建设过程中,因为各业务零碎建设和施行数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在倒退过程中积攒了大量采纳不同存储形式的业务数据,包含采纳的数据管理系统也大不相同,从简略的文件数据库到简单的网络数据库,它们形成了企业的异构数据源。 在数据中台的建设中,须要反对各种异构数据源的数据集成,Dataphin的数据集成可反对30+种数据源的反对,同时可自定义数据源进行灵便接入。 - 数据预处理、同步配置能力 在数据集成过程中,起源端数据会有轻度预处理诉求,比方敏感数据加密、数据过滤、分库分表数据合并、追 加字等。也会有各式各样同步配置诉求,如容错,限速,并发,同步过程调试等。 Dataphin的数据集成反对数据荡涤转换能力,提供字段计算、合并、散发、过滤、字段脱敏等组件或函数,反对容错配置、并发配置、限速配置等。 以上就是Dataphin的外围性能数据集成的介绍, 心愿能帮忙您更好地应用Dataphin数据集成性能。 原文链接本文为阿里云原创内容,未经容许不得转载。

August 13, 2021 · 1 min · jiezi

关于数据:习惯用excel却满足不了数据分析的需求怎么办本文给您方法

Excel 能够说是现在最罕用的做剖析统计的工具了,简略易用且功能强大,然而excel难以满足一些高端的数据分析需要,次要存在的问题体现在数据共享、数据权限、数据量等方面。 那如果有一款工具既不必你花额定的工夫学习,又可能和excel一样操作简略,你会抉择用它吗? Smartbi大数据分析平台就是一款智能excel软件,它联合了Excel的长处,解决了Excel的问题,让你轻松搞定智能excel表格制作,即便是十万行以上的数据量,那都不是事! 咱们来具体看看它到底有何性能亮点。 1、智能excel表格制作——辞别导数工作,数据筹备本人搞定 IT人员:连贯数据源;配置权限; 业务用户:基于业务主题,或者大宽表,数据筹备; 业务用户:在Excel间接拖拽字段,刷新数据。 2、智能excel表格制作——线上线下数据混合 通过Smartbi数据服务+Excel插件,将数据集导入到Excel; 通过公式(如vlookup),将线上线下数据联结到一起。 3、智能excel表格制作——复用模板进行剖析 模板和数据拆散; 重用模板,动静更新数据; 通过web链接,平安共享。 4、智能excel表格制作——超大数据量解决 数据筹备:通过透视剖析 + SmartbiMPP 将数据初步汇总,1亿行à30万行; 报表计算:反对在集体Excel端运算,也反对在服务器(集群)运算; 定时报表:后端主动刷数出报表,导出成不含公式的Excel文件。 5、智能excel表格制作——全面的数据管控 细粒度的权限管制,准确管制每一个用户的数据权限; 反对分级管理员对组织用户二次受权; 数据脱敏规定,敏感信息不泄露。

August 3, 2021 · 1 min · jiezi

关于数据:数据智能构建管理平台Dataphin-V2943版本发布

简介:Dataphin公布V2.9.4.3版本升级多项产品能力,该版本在产品性能和用户体验上都进行了优化和晋升,旨在为用户提供更欠缺的产品能力和体验,以减速企业数据中台建设过程。 1 产品简介Dataphin是阿里巴巴团体OneData数据治理方法论基于外部实际的产品化输入,一站式提供数据采、建、管、用全生命周期治理的能力,以助力企业显著晋升数据治理程度,构建品质牢靠、生产便捷、生产平安经济的企业级数据中台。Dataphin提供多种计算引擎反对及可拓展的凋谢能力,以适应各行各业的平台技术架构和个性化诉求。 2 版本概览2021年6月,Dataphin公布V2.9.4.3版本,降级多项产品能力。• 平台能力上,拓展计算引擎丰盛度和OpenAPI覆盖度• 数据集成模块,拓展反对的MySQL数据源版本和一键建表覆盖范围,以晋升配置效率• 监控能力上,优化告警接管规定配置,提晋升灵活性适配更多监控场景• 资产核心,优化逻辑表预览及敏感字段辨认规定,欠缺资产链路• 数据服务拓展API分页查问能力,以拓展查问范畴,晋升服务响应效率和链接稳定性 该版本在产品性能和用户体验上都进行了优化和晋升,旨在为用户提供更欠缺的产品能力和体验,以减速企业数据中台建设过程。 3 新版本重点个性详解个性1:计算引擎新增反对CDH6 新增针对CDH6计算引擎的适配,以晋升多引擎兼容能力;截至以后版本,Dataphin反对的计算引擎类型包含:MaxCompute、CDH5、CDH6、EMR。 个性2:MySQL数据源反对8.x版本 目前,8.0是市面上比拟支流且应用度较广的MySQL数据库版本。Dataphin在曾经反对MySQL 5.6和5.7数据源的根底上,新增反对MySQL 8.0版本,能够在数据同步、数据服务等模块基于该数据源进行配置,以晋升业务数据覆盖度。 个性3:数据集成反对在Oracle指标库一键建表 反对在目Oracle指标库一键创立数据建表,以简化配置流程,晋升数据同步配置效率。截至以后版本,一键建表性能一共笼罩4种指标数据源:MaxCompute、Oracle、Hive、AnalyticDB for PostgreSQL。 个性4:工作运行监控和品质监控反对给不同的接管对象指定不同的告警和接管形式 降级前,针对所有选中的接管人,均须要配置雷同的告警接管形式。降级至本版本后,针对不同的接管人类型,能够指定不同的接管形式,以依据理论状况实现区别告警。如:工作负责人须要理解本人所负责的工作运行详情,但不须要立刻解决异常情况,能够抉择短信告警;值班负责人须要及时发现异常并解决,能够抉择电话作为强揭示;我的项目管理员须要定期统计告警详情,能够抉择邮件告警以不便记录和统计。 个性5:资产地图新增逻辑表数据预览性能、资产平安反对手动触发敏感字段辨认 新增逻辑表预览性能,针对有权限的字段,间接展现抽样的数据记录,若字段设置过脱敏规定,则仅展现脱敏后的数据;针对无权限的字段,提醒“无权限”字样并提供快捷申请的跳转链接。联合该性能,Dataphin欠缺了逻辑表从研发到资产积淀到生产预览的全链路,晋升了建模体验。 默认状况下,在资产平安模块配置了敏感数据辨认规定后,次日开始每日定时进行扫描。本次在每日定时扫描的根底上,新增反对用户手动触发敏感数据辨认工作的运行,以实现新增规定立刻失效,以及长期变更场景下的记录及时更新,晋升敏感数据辨认笼罩场景。 个性6:数据服务反对基于Impala数据源创立的API分页查问,以拓展查问范畴,晋升查问稳定性 历史版本中,思考到查问性能,基于Impala数据源创立的的API单次查问仅反对返回最大1000条后果,无奈满足大数据量查问场景,影响上游业务应用。本次针对基于Impala数据源创立的API,提供分页查问能力,反对通过limit或offset语句设置分页条件,以保障服务连贯稳定性和相应效率,反对大数据量查问的场景。 4 总结与瞻望本次公布的V2.9.4.3版本中,Dataphin围绕计算引擎、数据源、数据集成、监控告警、数据服务进行了性能迭代降级;在下一个版本中,咱们将重点反对FusionInsight计算引擎适配、数据萃取降级、OpenAPI扩大、运维补数据能力晋升、数据服务多我的项目等性能,敬请期待! 原文链接本文为阿里云原创内容,未经容许不得转载。

July 12, 2021 · 1 min · jiezi

关于数据:木兰白玉兰开放数据许可协议10-正式发布

对于「木兰-白玉兰凋谢数据许可协定」开源凋谢是寰球人工智能产业出现减速倒退态势的重要驱动因素,无效进步了人工智能研发效益,减速了人工智能技术创新,促成人工智能生态构建。在技术钻研、产品开发等环节,更多翻新主体可能基于绝对成熟的开源软硬件平台,利用已有公共根底研发资源来减速人工智能研发。在此过程中,数据因素的自在流通变得越来越重要,数据凋谢成为推动人工智能翻新倒退的要害一环。 然而,以后在人工智能畛域尚不足切合实际的凋谢数据许可,使得数据因素的应用和流通仍存在诸多阻碍和不确定性,不仅容易产生数据安全及法律方面问题,而且因为对数据本质属性、存在状态、应用形式等方面仍意识有余,造成数据资源的应用现状与数据可供开掘的价值不匹配。为了人工智能技术和相干数据资源的可继续开发应用,凋谢数据许可协定的作用更加凸显。通过标准数据利益相干方的身份和概念定义,界定数据利益相干方之间对特定数据对象流通条件和形式的各自权责,并尽可能以齐全凋谢的模式疏导数据流通,促成数据因素的凋谢共享与开发利用。 「木兰-白玉兰凋谢数据许可协定」是由「上海白玉兰开源凋谢研究院」在「木兰开源社区」框架和精力下所发动的一项钻研我的项目,旨在摸索创立一组标准化的、立足中国人工智能实际、推动数据因素流通、优化人工智能倒退环境的数据许可协定。 「木兰-白玉兰凋谢数据许可协定」起草阐明协定的草拟由「白玉兰开源」联结「凋谢数据中国」实现,过程中咱们对: 国内通用凋谢协定如常识共享协定、凋谢数据库协定(ODbL)等做了研读和了解,并将其中的术语、起草策略等加以总结和演绎国内社群人工智能畛域数据流通的受权协定如微软起草的 O-UDA、C-UDA,Linux Foundation 起草的 Community Data License,Element AI 起草的 Montreal Data License 等做了研读和了解,并基于 Montreal Data License 的精力,对术语中规定的应用行为做了人工智能界别的定制化和粗疏化。对中国现行民法典,以及数据安全法草案、个人信息保护法草案等予以研读,并借鉴了其中相干的术语定义思考到数据因素流通的合规复杂性,以后草拟版本基于如下准则和适用性拟定: 针对人工智能训练数据集的公布拟定实用的协定所公布数据应满足根本的公开公布、收费公布的前提所公布数据符合国家数据安全的要求,不波及国家机密、国家平安、社会公共利益、商业秘密等所公布数据不波及个人信息(参照「《个人信息保护法(草案)》(二次审议稿),个人信息是以电子或者其余形式记录的与已辨认或者可辨认的自然人无关的各种信息,不包含匿名化解决后的信息)思考到以后人工智能训练数据集从权属角度可分为两类状况: 第一类,数据由数据发布者非法合规所有或具备用益权第二类,数据由数据发布者通过非法合规的形式自第三方处获取汇编组合而得因而「木兰-白玉兰凋谢数据许可协定」对上述两类状况产出了两组不同起草策略的协定: 第一组,即默认数据由数据发布者非法合规所有或具备处置权 咱们借鉴常识共享协定的模式,草拟了一套 4 份协定,即 MBODL:宽松凋谢协定,实用于最小化限定仅要求注明数据起源的数据公布MBODL-NC:非商业应用协定,实用于禁止使用者商业化应用和分享数据及成绩MBODL-SA:雷同形式许可,实用于要求上游流传数据可能以雷同形式给予许可,但不要求对产出的成绩应用协定的传染性MBODL-CU:仅计算应用协定,实用于数据公布方禁止对数据本身的间接应用、展现的状况(如电视台作为数据公布方会心愿禁止视频数据自身的播放、拷贝、售卖等,但会容许应用视频数据作为训练数据训练视频语义标签等工作)上述四个协定,均以 MBODL 为根底,在「许可限度」大节中予以减少不同的限度而造成。但正如 CC 协定,在这 4 套协定的根底上,也可再进行许可限度的叠加穿插,造成新的协定,如 MBODL-NC-CU,即规定非商业应用且仅计算应用,又如 MBODL-SA-CU,即规定雷同形式受权数据且仅计算应用。 第二组,即数据发布者数据为自第三方非法合规获取 咱们借鉴了 ODbL(凋谢数据库协定)的策略,对数据库/数据集的构造(即数据选取、组织的形式,database scheme)和数据内容予以了拆分受权的形式。此类受权策略仅为实验性,待进一步反馈确定 1)是否有实在需要 2)是否具备可操作性。 对于上述第二组的状况,咱们提供两个可能的案例开展阐明: 案例 1:数据发布者通过 wikipedia 和 flickr 等渠道获取了各类鸟类的图片数据,图片数据各自别离受权在 CC 等凋谢受权协定下,数据发布者通过选取和组合这些鸟类图片,增加了本身对鸟类的标签(鸟类照片对应的鸟类名称、科目等信息),最初造成了一个「鸟类图片训练数据集」须要受权公布。则在第二组协定的策略下,其将采纳「白玉兰开源凋谢数据协定」(仅受权构造)+「标注数据」(受权内容-发布者选用新受权)+「各图片原有协定」(受权内容-按照各自协定)的形式受权公布整个数据集。 案例 2:数据发布者通过受权形式(假如受权容许发布者从新公布影像图片)从 N 家医院各自获取了脱敏后的肺部 CT 影像图片数据,数据发布者本身投入人力实现了对上述影像数据的肺结节标注。数据发布者心愿将影像图片数据+标注数据组合公布为「肺结节规范训练数据集」,因而可采纳其将采纳「木兰-白玉兰凋谢数据许可协定」(仅受权构造)+「标注数据」(受权内容-发布者选用新受权)+「各图片原有协定」(受权内容-按照各自协定)的形式受权公布整个数据集。 咱们基于上述案例的场景形容,草拟了MBODL(构造内容拆散版)协定,作为一个独自的实验性协定供各界探讨适用性和条款的实际落地可能。

July 9, 2021 · 1 min · jiezi

关于数据:湾区企业速看刚发布的深圳经济特区数据条例重点来了

7月6号,深圳市人民代表大会常务委员会颁布《深圳经济特区数据条例》(以下简称《条例》),自2022年1月1日起实施。《条例》涵盖了集体数据、公共数据、数据因素市场、数据安全等几个方面的规定及相应的法律责任,是国内数据畛域首部基础性、综合性立法。 一、《条例》对企业和机构来说在数据处理上有哪些规定?《条例》明确了企业和机构在数据处理上的主体责任。《条例》第四章第五十七条规定,“市场主体发展数据处理流动,该当落实数据管理主体责任,建立健全数据治理组织架构、管理制度和自我评估机制,对数据施行分类分级爱护和治理,增强数据品质治理,确保数据的真实性、准确性、完整性、时效性。” 此外,《条例》对于市场主体在信息的采集、流转、存储、交易、销毁等各个环节均作出了具体规定。 二、本次《条例》中有哪些具备试点意义的规定?1.明确对未成年人的爱护 第二章第二十条规定,解决未满十四周岁的未成年人集体数据的,依照解决敏感集体数据的无关规定执行,并该当在解决前征得其监护人的明示批准;解决无民事行为能力或者限度民事行为能力的成年人集体数据的,该当在解决前征得其监护人的明示批准。 2.率先在立法中提出“数据权利” 明确自然人对集体数据依法享有人格权利,包含知情批准、补充更正、删除、查阅复制等权利。 三、在集体数据保护层面《深圳特区数据条例中》作出了哪些规定?个人信息爱护更严格,例如违规获取用户信息、“大数据杀熟”、“用户画像”、数据滥用等网民疾恶如仇的景象,《数据》均作出了明确限度。 《条例》明确规定自然人对其集体数据享有人格权利,并确立了解决集体数据的五项根本准则,即非法正当、最小必要、公开通明、精确残缺和确保安全准则。 同时,为严厉打击集体数据侵权行为,《条例》也加大了对违规行为处罚力度,规定“侵害其余市场主体、消费者合法权益,情节严重的,处上一年度营业额百分之五以下罚款,最高不超过五千万元”;在制度上,第二章第十三条规定,“建设集体数据保护投诉举报解决机制,依法处理相干投诉举报”。 四、对中央数字经济倒退有哪些影响?数据的价值在于流动。《条例》一大亮点是摸索建设数据交易制度,并把“数据因素市场”纳入《条例》中独立的章节。 在第四章“数据因素市场”中,《条例》明确了数据交易范畴,即“非法解决数据造成的数据产品和服务”,同时提出,市人民政府该当推动建设数据交易平台,疏导市场主体通过数据交易平台进行数据交易。 在公共数据层面,明确了“公共数据该当以共享为准则,不共享为例外”的准则,并明确了市政务服务数据管理部门承当市公共数据业余委员会日常工作。这项规定对于促成中央政务数字化倒退可能有比较显著的影响。 五、地方性的数据安全条例是否会成为常态?在生物信息辨认畛域,2020年浙江省杭州市在全国率先启动了人脸识别禁止性条款的中央立法——《杭州市物业管理条例(订正草案)》;2021年1月1天津公布《天津市社会信用条例》,规定了企事业单位、行业协会、商会禁止采集人脸、指纹、声音等生物辨认信息。 此次深圳颁发的《条例》是国内数据畛域首部基础性、综合性立法,《条例》保持个人信息爱护与促成数字经济倒退并重,内容涵盖了集体数据、公共数据、数据因素市场、数据安全等几个方面。 随着数字经济进一步倒退,数据安全作为市场因素的价值一直晋升,将来应该还有更多的地方性法律法规出台。 若想理解深圳经济特区数据条例细则,请点击“深圳经济特区数据条例”。

July 8, 2021 · 1 min · jiezi

关于数据:CPU静默数据错误存储系统数据不丢不错的设计思考

简介: 对于数据存储系统来说,保障数据不丢不错是底线,也是数据存储系统最难的局部。据统计,失落数据中心10天的企业,93%会在1年内破产。那么如果想要做到数据不丢不错,咱们能够采取怎么的措施呢? 作者 | 冲禔起源 | 阿里技术公众号 一、背景对于数据存储系统来说,保障数据不丢不错是底线,也是数据存储系统最难的局部。试想,如果您的银行存款记录为 1 万,因为数据存储系统异样导致该记录失落、或者数据谬误导致位翻转从 1 万变为 0,其影响是致命的。依据统计,失落数据中心10天的企业,93% 会在1年内破产。 业界的 Data integrity 和Data Corruption 术语就是形容此类问题,它们除了论述数据谬误外,还形容了在数据存储、传输等过程中存在的问题。为了保障了解统一,先明确数据不丢和数据不错的定义: 数据不丢,是指相干内容不失落。例如,100 MB 的文件其局部、全副失落;或者,文件的元数据有局部、全副失落,典型如文件创建工夫字段失落。数据不错,是指内容存在,然而产生了谬误。例如,100MB 的文件全副都存在,但其局部、全副数据出错,和原始数据不一样(例如 1 万谬误的存储为 0);或者,文件的元数据呈现局部或全副出错。对于存储系统来说,数据用 0 或 1 示意,因而数据谬误的体现就是位翻转,就是数据从 0 变为 1,或者从 1 变为 0。同时,Data Consistency(数据一致性)也是相干术语,但它具备更严格的要求,数据失落或谬误会导致数据一致性问题;然而在数据不丢也不错时,也不肯定保证数据一致性,因为在业务逻辑设计中并没有满足一致性要求,例如数据库事务ACID的一致性要求,通常是逻辑上的数据正确性。本文重点探讨数据的不丢不错故障起因,以及数据存储系统如何防控设计,不对数据库事务深刻探讨。 1 常见的磁盘、内存、网络数据翻转(Bit Flip)对于计算机系统来说,不论是计算还是存储,不论是电子部件还是机械部件,都是采纳 0 和 1 的二进制零碎,都存在数据翻转的问题,所以数据不错的要害是防护位翻转。 盘的位翻转。不论是 HDD 还是 SSD,都蕴含存储介质和数据读取两局部,位翻转可能呈现在介质层面,也可能呈现在数据读取层面。 为了检测介质层面的位翻转,通常会减少额定的空间寄存校验位。例如,HDD 在块大小512 字节根底上扩大为520 字节,减少了8字节(Data Integrity Field)内容,该内容中用了 2 字节(Guard) 字段寄存基于该块 512 字节内容的 CRC16 值。为了检测数据读取的位翻转检测,在内部线缆接口拜访层采纳了 CRC 来校验,同时外部的读写部件则采纳了 ECC 来查看。为此,盘的S.M.A.R.T.信息还提供了 UltraDMA CRC Error Count、Soft ECC Correction、Hardware ECC Recovered 字段来统计谬误数。内存位翻转。内存作为电子设备,容易受到烦扰,例如信号串扰、宇宙射线等,从而呈现位翻转,为此引入了 ECC(Error Correction Code)内存。网络位翻转。网卡作为传输设施,传输过程中因为线缆、接口、外部器件等问题,也可能呈现位翻转的状况,所以网络传输中,通常会减少校验位(Checksum)来查看翻转。以上是典型的数据翻转场景,特地是盘和内存通常是在拜访时发现错误;而实际上在未发现时数据其实曾经出错,因而业界也叫“静默数据谬误(SDE,Silent Data Error)”。 ...

July 5, 2021 · 2 min · jiezi

关于数据:万字长文解密数据异构最佳实践含完整代码实现

写在后面在当今互联网行业,尤其是当初分布式、微服务开发环境下,为了进步搜寻效率,以及搜寻的精准度,会大量应用Redis、Memcached等NoSQL数据库,也会应用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么,这个时候,就会有一个问题须要咱们来思考和解决:那就是数据同步的问题!如何将实时变动的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsearch中呢? 互联网背景下的数据同步需要在当今互联网行业,尤其是当初分布式、微服务开发环境下,为了进步搜寻效率,以及搜寻的精准度,会大量应用Redis、Memcached等NoSQL数据库,也会应用大量的Solr、Elasticsearch等全文检索服务。那么,这个时候,就会有一个问题须要咱们来思考和解决:那就是数据同步的问题!如何将实时变动的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsearch中呢? 例如,咱们在分布式环境下向数据库中一直的写入数据,而咱们读数据可能须要从Redis、Memcached或者Elasticsearch、Solr等服务中读取。那么,数据库与各个服务中数据的实时同步问题,成为了咱们亟待解决的问题。 试想,因为业务须要,咱们引入了Redis、Memcached或者Elasticsearch、Solr等服务。使得咱们的应用程序可能会从不同的服务中读取数据,如下图所示。 实质上讲,无论咱们引入了何种服务或者中间件,数据最终都是从咱们的MySQL数据库中读取进去的。那么,问题来了,如何将MySQL中的数据实时同步到其余的服务或者中间件呢? 留神:为了更好的阐明问题,前面的内容以MySQL数据库中的数据同步到Solr索引库为例进行阐明。 数据同步解决方案1.在业务代码中同步在减少、批改、删除之后,执行操作Solr索引库的逻辑代码。例如上面的代码片段。 public ResponseResult updateStatus(Long[] ids, String status){ try{ goodsService.updateStatus(ids, status); if("status_success".equals(status)){ List<TbItem> itemList = goodsService.getItemList(ids, status); itemSearchService.importList(itemList); return new ResponseResult(true, "批改状态胜利") } }catch(Exception e){ return new ResponseResult(false, "批改状态失败"); }}长处: 操作简便。 毛病: 业务耦合度高。 执行效率变低。 2.定时工作同步在数据库中执行完减少、批改、删除操作后,通过定时工作定时的将数据库的数据同步到Solr索引库中。 定时工作技术有:SpringTask,Quartz。 哈哈,还有我开源的mykit-delay框架,开源地址为:https://github.com/sunshinely...。 这里执行定时工作时,须要留神的一个技巧是:第一次执行定时工作时,从MySQL数据库中以工夫字段进行倒序排列查问相应的数据,并记录以后查问数据的工夫字段的最大值,当前每次执行定时工作查问数据的时候,只有按工夫字段倒序查问数据表中的工夫字段大于上次记录的工夫值的数据,并且记录本次工作查问出的工夫字段的最大值即可,从而不须要再次查问数据表中的所有数据。 留神:这里所说的工夫字段指的是标识数据更新的工夫字段,也就是说,应用定时工作同步数据时,为了防止每次执行工作都会进行全表扫描,最好是在数据表中减少一个更新记录的工夫字段。 长处: 同步Solr索引库的操作与业务代码齐全解耦。 毛病: 数据的实时性并不高。 3.通过MQ实现同步在数据库中执行完减少、批改、删除操作后,向MQ中发送一条音讯,此时,同步程序作为MQ中的消费者,从音讯队列中获取音讯,而后执行同步Solr索引库的逻辑。 咱们能够应用下图来简略的标识通过MQ实现数据同步的过程。 咱们能够应用如下代码实现这个过程。 public ResponseResult updateStatus(Long[] ids, String status){ try{ goodsService.updateStatus(ids, status); if("status_success".equals(status)){ List<TbItem> itemList = goodsService.getItemList(ids, status); final String jsonString = JSON.toJSONString(itemList); jmsTemplate.send(queueSolr, new MessageCreator(){ @Override public Message createMessage(Session session) throws JMSException{ return session.createTextMessage(jsonString); } }); } return new ResponseResult(true, "批改状态胜利"); }catch(Exception e){ return new ResponseResult(false, "批改状态失败"); }}长处: ...

July 4, 2021 · 12 min · jiezi

关于数据:Maxcompute造数据方法详解

简介: 造一点模仿数据的办法 概述造数据在一些奇怪的场合会被用到。个别咱们是先有数据才有基于数据的利用场合,然而反过来如果利用拿到另外一个场景,没有数据性能是没有办法演示的。 个别较为实在的数据,脱敏后就能够利用在功能测试和演示的场合。然而数据脱敏其实也满简单(脱敏过重数据就用不了了,过低数据又透露了),所以本人模仿一些数据,仿佛更平安。 我集体个别遇到的造数据场景有两个。第一,是有合作伙伴或者共事征询一个SQL解决数据的办法,没有数据。第二,就是有时候会有POC的一些场景,没有提供实在模仿数据,须要本人模仿。 分类如果是繁多的业务场景的数据模仿,很多时候单表就能够满足了。然而要是模仿某个业务场景,或者POC测试场景则要模仿一个业务零碎中的互相关联的多张表。 造数据,个别会都会有些用户需要,会有明确的业务场景的形容。也会有一些其余要求,例如:表的记录数、行的存储、字段的生成规定、字段的值域、字段的枚举值,还可能会给大量实在的数据。 2.1. 一个表 独自造一张表的数据可能非常简单,比方咱们日常测试一个函数,测试一段SQL的JOIN逻辑。也可能非常复杂,结构一个表,也就相当于结构一个业务零碎。 2.2. 一个业务零碎 业务零碎绝对于单表来说只是表的数量减少了。而且,因为业务零碎的表间是存在主外键关系的,所以,须要先造代码表(维度表),而后再造业务表(事实表)。 办法造模仿数据的办法分为两个阶段,第一阶段是结构一个小表,产生代码表(维度表),而后第二阶段利用笛卡尔积疾速乘出须要的数据量。在这其中,列的数据值填充能够应用随机函数生成。 3.1. 结构一个常量小表 Maxcompute最简略的造数据的办法是insert into values语句,这个别也是我最罕用的。在不反对这个语句之前的更早的版本,应用的是union all的办法。如果不想理论写入数据到,则能够应用from values 和 with 表达式。 示例1:通过insert … values操作向特定分区内插入数据。 命令示例如下: --创立分区表srcp。create table if not exists srcp (key string,value bigint) partitioned by (p string);--向分区表srcp增加分区。alter table srcp add if not exists partition (p='abc');--向表srcp的指定分区abc中插入数据。insert into table srcp partition (p='abc') values ('a',1),('b',2),('c',3);--查问表srcp。select * from srcp where p='abc';--返回后果。+------------+------------+------------+| key | value | p |+------------+------------+------------+| a | 1 | abc || b | 2 | abc || c | 3 | abc |+------------+------------+------------+示例2:通过values table操作插入数据。 ...

June 22, 2021 · 3 min · jiezi

关于数据:你能区分数据数据库数据库系统数据库管理系统吗

1、数据 形容事物的符号记录称为数据。 数据的品种有数字、文字、图形、图像、声音、音频、视频等,数据有多种表现形式,它们都通过数字化后存入计算机。 在古代计算机系统中数据的概念是狭义的。晚期的计算机系统次要用于科学计算,解决的数据是整数、实数、浮点数等传统数学中的数据。古代计算机能存储和解决的对象非常宽泛,示意这些对象的数据也越来越简单。 数据的含意称为数据的语义,数据与其语义是不可分的。例如:500 这个数字能够示意一件物品的价格是 500 元,也能够示意一个学术会议加入的人数有 500 人,还能够示意一袋奶粉重 500 克。 2、数据库 数据库是长期贮存在计算机内的、有组织的、可共享的数据汇合。 数据库中的数据按肯定的数据模型组织、形容和贮存,具备较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。 3、数据库系统 数据库系统是指在计算机系统中引入数据库后的零碎形成,个别由数据库、数据库管理系统(及其开发工具)、利用零碎、数据库管理员形成。 数据库系统和数据库是两个概念。 数据库系统是一个人一机系统,数据库是数据库系统的一个组成部分。然而在日常工作中人们经常把数据库系统简称为数据库。心愿读者可能从人们讲话或文章的上下文中辨别“数据库系统”和“数据库”,不要引起混同。 4、数据库管理系统 数据库管理系统是位于用户与操作系统之间的一层数据管理软件,用于迷信地组织和存储数据、高效地获取和保护数据。DBMS 的次要性能包含数据定义性能、数据操纵性能、数据库的运行治理性能、数据库的建设和保护性能。 DBMS是一个大型的简单的软件系统,是计算机中的根底软件。目前,专门研制DBMS 的厂商及其研制的DBMS产品很多。比方美国微软公司的SQL Sever关系数据库管理系统、美国Oracle公司旗下产品MySQL关系型数据库管理系统、美国Oracle公司Oracle关系型数据库管理系统、美国IBM公司的DB2关系型数据库管理系统、美国Sybase公司的Sybase关系数据库系统等。 以上就是思迈特软件Smartbi明天分享的对于数据、数据库、数据库系统、数据库管理系统的概念。 感谢您的浏览,更多常识,请持续关注咱们,下期再见!广州思迈特软件有限公司(简称:思迈特软件Smartbi)是国家认定的“高新技术企业”,专一于商业智能(BI)与大数据分析软件产品和服务。咱们在BI畛域具备15年以上产品研发教训,提供残缺的大数据分析软件产品、解决方案、以及配套的征询、施行、培训及保护服务。

June 16, 2021 · 1 min · jiezi

关于数据:什么是数据质量管理

世界正处于在数据时代。这意味着明天产生的数据比人类历史上过来 5000 年的数据还要多——每天大概产生2.5 万亿字节的数据。每次有人发送电子邮件或文本、下载应用程序、发送任何数量看似微不足道的事件时,都会创立数据,而数百万人的这些交互的复合数量造成了数据的爆炸式增长。企业能够须要数据驱动,而不是被数据吞没。数据驱动型企业的一个独特特色是,他们都制订了数据品质治理打算,以确保应用最优质的数据源。 一、为什么企业须要数据品质治理 企业开始意识到数据品质治理的重要性。推动数据品质需要的共同点有:将新数据源,尤其是非结构化数据与现有系统集成;利用所有可用的企业数据所需的财务投资和竞争压力:以及从数据所在的孤岛中提取数据的难度等。哈佛商学院公布一项钻研显示,47% 的新创建数据记录至多蕴含一个严重错误。麻省理工学院斯隆进行的一项惊人钻研指出,不良数据的解决老本可能高达总收入的 15-25%,且是长期的无用老本损耗。一个牢靠的数据品质治理打算将确保数据的高度完整性,并且任何须要它的人都能够以平安和受监管的形式随时取得数据。数据品质治理就是找到正确的组合,让适合的人员依照正确的办法装备正确的工具。 二、人员:通向数据品质的合作门路 数据品质治理打算不应该依赖于一个小型 IT 团队或几个摇滚明星数据人员来执行。数据是一项团队静止;从 IT 到数据科学家,从应用程序集成商到业务分析师,每个人都应该可能参加并从继续可用的高质量数据中提取有价值的见解。 在开始施行数据品质治理打算时,作为一个团队解决数据很重要,否则您可能会被验证可信数据所需的工作量压得喘不过气来。通过引入一种相似于维基百科的办法,任何人都能够在数据管理方面进行潜在的合作,有机会让企业参加到将原始数据转化为可信赖、记录和筹备共享的内容的过程中。 IT 和其余反对企业(例如 CDO 办公室)须要制订规定,并在须要时(例如出于合规性或数据隐衷)提供权威的治理办法。 您须要同时建设一种更具协作性的办法,以便您的业务用户中常识最渊博的人能够成为内容提供者和策展人。通过利用具备嵌入式数据品质剖析管制的智能和工作流驱动的自助服务工具,您能够施行可扩大的信赖零碎。 三、工具:对立的数据品质治理平台 有很多数据筹备和管理工具能够提供多种益处来反抗不良数据。但其中只有多数涵盖了所有人的数据品质。这些专门的、独立的数据品质管理工具通常具备简单的用户界面,须要深厚的专业知识能力胜利部署。当然,这些工具可能很弱小,但如果团队只有短期的数据品质解决优先级,那么我的项目的进度将大打折扣。 另一方面,您可能会发现简略且通常弱小的应用程序可能过于孤立,无奈注入到全面的数据品质流程中。即便他们通过简略的 UI 胜利地专一服务业务人员,他们也会错过重要的局部——合作数据管理。而这正是挑战所在。胜利不仅取决于工具和能力自身,还取决于他们互相交换的能力。因而,您须要一个基于平台的解决方案来共享、操作和传输数据、操作和模型。 企业将面临多个用例,其中一个人或团队无奈胜利治理您的数据。与业务用户单干并在数据生命周期中赋予他们势力,将使您和您的团队克服传统阻碍,例如清理、协调、匹配或解决您的数据。以下是数据品质工具能够反对您的数据驱动型企业的形式: · 剖析您的数据环境: 数据分析——掂量整个企业中以各种模式存储的数据的特色和情况的过程——通常被认为是取得对企业数据的控制权的重要第一步。 · 平安共享品质数据:应用本地或基于云的应用程序有选择地共享生产品质数据,而不会将个人身份信息 (PII) 裸露给未经受权的人员。 · 治理数据生命周期: 数据管理是定义和保护数据模型、记录数据、清理数据以及定义其规定和策略的过程。它反对施行定义明确的数据治理流程,涵盖多项流动,包含监控、协调、优化、反复数据删除、清理和聚合,以帮忙向应用程序和最终用户提供高质量的数据。 · 疾速筹备和共享数据:太多人依然破费太多工夫在 Excel 中解决数据或冀望他们的共事代表他们这样做。数据筹备工具可能容许任何人拜访数据集,而后清理、标准化、转换或丰盛数据——这种共享所有权最终推动了业务和 IT 之间的合作。 不良数据品质的可能造成市场竞争能力的降落、谬误的决策以及寻找、清理和纠正不良谬误所需的工夫、人力、资源、经济老本。亿信华辰提供数据品质治理平台工具来帮忙您实现数据品质指标并帮忙您的企业真正实现数据驱动。

June 16, 2021 · 1 min · jiezi

关于数据:数据的敏捷制造DataWorks一站式数据开发治理范式演进

简介: 企业大数据技术倒退至今,历经了两次变质。第一次变质从最后的“小作坊”解决大数据问题,到起初企业用各类大数据技术搭建起属于本人的“大平台”,通过平台化的能力实现数据生产力的降级。 第二次变质让大数据从“大平台”向“麻利制作”的开发范式演进。在2021阿里云峰会上,阿里巴巴团体副总裁、阿里云智能计算平台事业部高级研究员贾扬清公布基于DataWorks的一站式大数据开发治理的平台,就是这个变质最好的佐证。 企业大数据技术倒退至今,历经了两次变质。第一次变质从最后的“小作坊”解决大数据问题,到起初企业用各类大数据技术搭建起属于本人的“大平台”,通过平台化的能力实现数据生产力的降级。 第二次变质让大数据从“大平台”向“麻利制作”的开发范式演进。在2021阿里云峰会上,阿里巴巴团体副总裁、阿里云智能计算平台事业部高级研究员贾扬清公布基于DataWorks的一站式大数据开发治理的平台,就是这个变质最好的佐证。 值得一提的是, 诞生于2009年阿里巴巴团体外部的DataWorks,不仅见证了阿里巴巴十多年大数据几次变质倒退,更是阿里巴巴数据中台建设的最佳实际之一。现在 DataWorks平台能够撑持阿里巴巴外部上百个业务团队的数据业务建设,每天稳固调度上千万数据处理工作。阿里巴巴每天有超过5万名员工在DataWorks上实现数据分析、数据开发和数据治理工作。 那么,DataWorks如何让大数据向 “麻利制作” 演进,背地具备什么样的外围能力?在全链路数据服务—大数据与AI分论坛,DataWorks产品负责人黄博远走漏了DataWorks外围的三个“ONE”能力。 简略来讲,DataWorks以一站式的理念,通过一条数据开发链路,一套数据规范架构,一套数据治理体系,与大数据计算引擎联合,让企业领有一站式的数据开发与治理能力。 1、一条数据开发链路很多的企业倒退到肯定阶段当前都会面临这种状况:1)数据来自于不同地区的数据中心,比方阿里云上有公共云、专有云,对于企业来讲也有本人的私域,同时又要服务企业内部的客户与合作伙伴,数据十分扩散。 2)大数据的引擎百花齐放,抉择多样。不论是阿里自研的SaaS模式云数据仓库MaxCompute、交互式剖析Hologres和剖析型数据库AnalyticDB,还是开源的EMR、CDH、Flink、Elasticsearch等等,品种极为丰盛,咱们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。 3)数据与AI及利用如何更好地联合?大数据加工解决完的数据还须要联合AI算法,以服务化的形式给到数据利用,如何实现BI与AI一体化,开释数据价值。 针对以上痛点,DataWorks能够帮忙企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期治理整合到一条残缺链路中。 首先满足企业在简单网络条件下,DataWorks实现近50种异构数据源的离线/实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算Flink版等大数据引擎,让多种计算引擎的数据开发治理工作都能够在同一个平台一站式的实现。最初,大数据平台加工好的数据集能够无缝对接到机器学习平台中进行AI训练与在线预测服务,也能够通过数据服务以API形式给到BI、大屏等各类数据利用。 2、一套数据规范架构对于企业而言,数据绝不是简略地沉积在一起,阿里巴巴通过数据中台建设,标准了团体对立的数据规范架构,将数据进行清晰的构造分层,每一层又有明确的范畴与边界。在贴源层,企业将实现全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据规范、数据建模等形式确立数据的标准体系。在汇总层,企业将基于业务需要对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务利用构建数据集市,为利用提供源源不断的高质量数据服务。这一套架构自身不具备产品化能力,但企业能够基于DataWorks,疾速复制这套数据规范架构。 3、一套数据治理体系企业如何治理数据资产?如何保障数据品质?如何保障数据安全?如何无效地管制老本以及缩小不必要节约?这些问题都对数据治理提出了更高的要求。失常来讲,各类数据治理工作通过人工的形式其实也可能实现,然而阿里巴巴当初每天解决的数据超过1.7EB,每天调度的工作数在千万级,很难设想靠人工来实现所有的治理工作。DataWorks将阿里巴巴十多年数据治理的实际积淀成产品化能力,残缺笼罩模型设计、数据品质治理、元数据管理、平安治理等贯通数据加工解决和应用的全链路所需的治理能力。一个平台,就具备一套残缺的体系化的能力。 在分论坛现场,DataWorks全新公布数据建模产品,让企业从业务视角进行数仓布局、数据规范定义、维度建模和数据指标设计,用规范化的“图纸”领导大数据“建设”工作,晋升企业数据中台建设的规范性和规范性,大大降低企业数据中台建设门槛和老本。同时DataWorks将继续加大与生态搭档单干,推出具备不同行业属性和不同建模办法的数据建模类产品,以撑持不同行业不同场景的数仓模型设计。DataWorks数据建模产品将于2021年7月开启公测,届时欢送大家在阿里云官网搜寻“DataWorks”开明体验。 除了数据建模外,DataWorks笼罩了数据同步、元数据、数据资产、数据品质、数据地图、工作运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。 事实上,DataWorks曾经利用到各行各业的数字化转型中。在工业行业,DataWorks帮忙三一重工买通86个外围业务零碎,解决每月50PB的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks帮忙企业建设10余种数据中台经营标准,实现四大场景50+指标产出,标准数据治理流程,晋升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自在流动,保证数据精确、准时、统一,让企业综合老本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血统,自主研发全链路解析能力,下线2万张表与近千个计算工作,让企业老本升高20%。 将来企业的数字化转型将对数据的治理与剖析提出更高的要求,DataWorks将帮忙企业疾速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“麻利制作”成为企业数字化的“麻利转型”。 原文链接本文为阿里云原创内容,未经容许不得转载。

June 10, 2021 · 1 min · jiezi

关于数据:汇聚荆楚共筑未来2021思迈特软件全国渠道招募会武汉站圆满落幕

6月8日下午,由思迈特软件主办的2021年全国渠道招募会在湖北武汉顺利举办。本次会议有近百位生态搭档缺席,思迈特软件与在场的合作伙伴分享了助力企业数据化经营的实践经验,并独特探讨大数据时代下的发展趋势及如何拓展渠道单干空间的话题。 会议中,思迈特软件武汉分部总监张志刚首先向大家作公司策略汇报,展现了BI行业的倒退的趋势,并分享Smartbi行业解决方案的典型案例。他强调,思迈特软件将围绕“单干共赢”这一指标,联合产业链上下游厂商、渠道合作伙伴的资源,携手助力企业翻新倒退。 随后,思迈特软件全国渠道总监李鑫介绍了思迈特软件渠道体系政策。他示意,思迈特软件的渠道体系可能以互利共赢的单干形式,给予不同的合作伙伴分类订制赋能打算,多维度让利给合作伙伴,打造一个翻新交融的渠道生态。 作为思迈特软件的合作伙伴,武汉煜泽伟业信息科技有限公司操瑞青在会上发表“与Smartbi一起拥抱数字化转型”的主题演讲,论述了企业数字化转型趋势下BI的价值与数据生态服务模式。他示意,思迈特软件积攒丰盛的教训,产品成熟稳固,因此抉择Smartbi作为数据生态服务的突破口,将来将独特打造一个从数据采集及数据治理、主数据建设、数据仓库建设(中台服务)、数据挖掘及数据安全的数据生态服务模式。 思迈特软件武汉分部售前工程师、产品讲师黄莎则为与会嘉宾介绍了Smartbi的产品性能与行业解决方案,具体地剖析了Smartbi的劣势。她示意,2021年思迈特软件将投入更多精力,打磨产品技术,晋升渠道搭档服务能力,携手渠道搭档紧紧抓住市场时机,最终实现单干共赢。 至此,2021思迈特软件全国招募会武汉站圆满落下帷幕。大数据BI行业已迈入减速倒退阶段,将来,思迈特软件将会持续施展国产民族BI软件领跑者的标杆作用,携手各生态合作伙伴,打造一个凋谢、共生、共赢的生态环境。咱们将不忘初心,共同前进,在大数据BI畛域再创顶峰!

June 10, 2021 · 1 min · jiezi

关于数据:这篇文章让你读懂元数据及其意义

一、元数据是什么? 元数据又称中介数据、中继数据,为形容数据的数据,次要是形容数据属性的信息,用来反对如批示存储地位、历史数据、资源查找、文件记录等性能。元数据算是一种电子式目录,为了达到编制目录的目标,必须在形容并珍藏数据的内容或特色,进而达成帮助数据检索的目标。 艰深来讲,只有可能用来形容某个数据的,都能够认为是元数据。 举个例子,如果你把一部电视剧看做数据,那么你在电视剧外面获取到的信息,比方角色名、剧情、主题曲、感情线、导演、演员等等,都能够被看做是这部电视剧的元数据。 对于企业而言,元数据是跟企业所应用的物理数据、业务流程、数据结构等无关的信息,形容了数据(如数据库、数据模型)、概念(如业务流程、利用零碎、技术架构)以及它们之间的关系。 二、元数据的分类 1、物理元数据 形容物理资源的元数据,包含但不限于服务器、操作系统、机房地位等信息。 其中包含:数据源元数据、贮存元数据、计算元数据、品质元数据、操作元数据、运维元数据、老本元数据、规范元数据、平安元数据、共享元数据。 2、业务元数据 包含模型元数据、利用元数据以及剖析元数据。 3、治理元数据 次要形容企业外部数据管理的相干内容。 三、对企业而言,元数据的作用有什么? 1、梳理企业信息资产 一款适宜的元数据管理工具能够通过自动化的采集形式,帮忙企业实现数据信息、服务信息与业务信息的采集,主动调取企业外部的元数据,为企业展示残缺信息资产,从而进一步帮忙企业集中管理所有信息资产,不便数据的交互和共享。 2、革除企业数据品质隐患 元数据是很多数据管理流动的根本,所以元数据的品质极为重要,元数据管理工具能够进行一致性检核、属性填充率检核和组合关系检核。 3、便捷把握数据资产变动 实现对元数据实时地变更监控,查看明细信息。并反对变更订阅性能,让用户可随时监察,打消问题隐患。 四、元数据与主数据的区别 元数据是对于数据的数据,当人们形容事实世界的景象时,就会产生形象信息,这些形象信息便能够看作是元数据,元数据次要用来形容数据的上下文信息。艰深的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它办法无法比拟的劣势,就在于它能够帮忙人们更好的了解数据,发现和形容数据的前因后果,特地是那些行将要从OLTP零碎回升到DW/BI体系建设的企业,元数据能够帮他们造成清晰直观的数据流图,元数据是数据管控的根本伎俩。 主数据则定义企业外围业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,须要常常对其进行保护,从而确保其时效性和准确性;主数据还包含关系数据,用以形容主数据之间的关系,如客户与产品的关系、产品与地区的关系、客户与客户的关系、产品与产品的关系等。 以上就是思迈特软件明天分享的元数据相干常识。感谢您的浏览,更多常识,请持续关注咱们,下期再见!广州思迈特软件有限公司(简称:思迈特软件Smartbi)是国家认定的“高新技术企业”,专一于商业智能与大数据分析软件产品和服务。咱们在BI畛域具备15年以上产品研发教训,提供残缺的大数据分析软件产品、解决方案、以及配套的征询、施行、培训及保护服务。

June 3, 2021 · 1 min · jiezi

关于数据:一文带你了解企业上云数据分析首选产品Quick-BI

简介:阿里云Quick BI再度入选,并持续成为该畛域惟一入选魔力象限的中国企业,文章将为大家具体介绍上云数据分析首选产品 Quick BI的外围能力。 日前,国内权威剖析机构Gartner公布2021年商业智能和剖析平台魔力象限报告,阿里云Quick BI再度入选,并持续成为该畛域惟一入选魔力象限的中国企业。Gartner ABI畛域魔力象限的评比条件全面且严苛。Gartner将围绕厂商们各个维度的能力进行打分,并将体现优先突出的厂商纳入魔力象限。 为让大家更全面理解Quick BI,从以开展进行论述。 Quick BI是专为云上用户量身打造的智能数据分析和可视化BI产品,帮忙企业疾速实现从传统的数据分析到数据云化+剖析云化的转变,将企业的业务数据产出后以最快的速度被推送到各组织侧生产应用。 1、从阿里外部上云孵化而来BI在阿里巴巴外部是重要的数据分析工具,利用在一线小二与管理层工作的方方面面,BI工具是数据化经营和数据化决策的根底。 Quick BI吸取了阿里巴巴外部BI设计与利用的教训,产品孵化后通过阿里云对外部企业提供服务。在从IOE时代到分布式数据存储和计算时代过渡的过程中,阿里巴巴发现市场上的BI工具无奈满足大数据量计算和疾速剖析的需要,并且单个工具的能力比拟繁多,无奈满足各种复杂多变的场景。而那时的阿里巴巴,各个业务的需要爆炸式增长,急需一款即便没有数据开发和剖析背景的人员也能应用的取数工具。 于是决定自研一套在分布式数据存储框架上的取数工具。 之后一段时间外部不同BU的数据分析类的工具百花齐放,有的面向于简单的表格,有的用于疾速的制作报表,有的只能搭建挪动端的报表。 在登月(阿里外部数据全副迁徙到ODPS)之后,阿里巴巴推出了阿里外部对立的云上BI剖析工具,并且在团体外部一直演变,直至不仅能在各业务线的决策分析中发挥作用,还能贴合电商营销和行业经营构建专题性的数据分析产品。也可间接服务于技术、经营、产品等角色的一线员工疾速连贯数据生成报表。最终倒退成10万员工疾速上手的功能强大的BI平台。 除了关注外部员工以外,在服务淘宝、天猫的商家时,发现数据作为企业根底资源,并没有被很好的生产和应用。从2017年开始,更为普世的面向全行业的根底数据分析工具Quick BI开始向云上的客户提供SaaS服务,当初除了公共云,还以麻利专有云、规范专有云和独立部署的形式向非阿里云客户提供BI服务。 2、数据联结剖析能力Quick BI并非是将外部BI产品一成不变的搬到云上,适宜于大型互联网公司的外部产品不肯定适宜宽泛的阿里云上客户。 一开始,Quick BI的定位是帮忙客户剖析他们在阿里云上存储的数据,所以按照阿里云数据存储的类型进行了全面的接入。 业务自身建设在阿里云上的企业,数据会存储在各种云数据库和存储中,阿里云提供了多种抉择,帮忙大型企业进行数据的批量解决和流式解决,解决后的后果也会存储在阿里云上,比方Maxcompute、RDS、ADB、Hbase或Hologres等,不同类型的存储提供了对于亿、百亿和千亿以上量级的存储和计算能力。 事实状态下有的客户还在迁徙上云过程中或者自身就是混合部署,他们还有局部数据存储在本地,这就须要对本地和云上的数据进行联结剖析,Quick BI通过自建的查问引擎,以及和阿里云Data Lake Analytics产品的单干,提供了较强的对异构数据进行联结剖析的能力。 3、如何利用Quick BI 构建数据分析体系对于大多数被动发动或统一规划的数据中心,数据分析体系或者说报表体系个别是从无序到有序,或者从有序到无序再到有序的门路建设起来的。 IT团队或者数据分析师首先基于对业务的了解,建设面向业务的报表体系,这种固定的报表体系只能满足局部业务的需要,其余需要则须要配置长期报表。随着业务的变动有越来越多的报表须要上线和下线,本来对立固定的报表体系也变得越来越凌乱无序,此时又再须要进行重构。 良性演进建设起来的数据分析体系,个别包含决策分析、业务专题剖析和长期报表。决策分析和业务专题剖析通常会用固定的数据产品造成报表体系,由业余的数据团队保护,能够放弃较长周期的稳固。而长期报表能够随着业务的变动长期创立和沦亡,当业务稳固后对应的长期报表再积淀到固定报表体系中。 领有简单场景解决能力的Quick BI提供了多种数据分析能力,包含:仪表板、电子表格、自助剖析、大屏、自助取数等。 • 仪表板可创立剖析思路经明确的、有肯定数据逻辑的报表或者数据产品;• 电子表格适宜款式简单,甚至须要对单元格级进行调整的场景,比方银行报送的报表、政府单位逐级填报汇总的报表,只有相熟Excel不须要会写SQL也能轻松配置;• 自助剖析适宜剖析维度和指标都比拟多的大宽表,由数据团队构建并保障大宽表的产出,业务人员随着业务需要随时组合不同维度和指标,能够定位数据稳定起因,也可分组汇总数据等。这些剖析不须要固化,即剖析即走;• 还有一些场景须要导出大量数据,再进行后续剖析或者导入其余零碎,比方用户名单、订单明细等,动辄几百万上千万,这时应用自助取数就能够不便的实现。Quick BI最新产品大图数据分析和可视化后果能在多种渠道被应用。不止能够在PC浏览器拜访,还能够在挪动环境下通过手机端拜访(可视化成果主动适配手机屏)。针对工厂、会议室、流动现场等场合,还能够投像至电视屏。 无论是通过导出、分享还是订阅,当数据发生变化或呈现稳定时,便会被动推送给关注这组数据的人。当企业在应用钉钉或者企业微信时,Quick BI能够和他们很好的集成,进步业务沟通中查看数据、剖析数据的效率。Quick BI能够给群或单个用户被动发送音讯,也能够用零碎告诉的形式发送信息。 钉钉群甚至能够设置智能机器人,群成员向Quick BI机器人发问,即可查找数据和报表。 4、Quick BI 的数据可视化能力可视化是BI产品的外围能力,Quick BI认为数据可视化应该从简略的数据出现向疾速的数据分析进行降级,而0代码交互式的可视化操作面板能够显著晋升数据分析的效率。 除了通过交互式的操作(钻取、联动、跳转)疾速发现数据之间的关联和组成,Quick BI进一步提供全新的疾速洞察形式。新增的指标拆解图能够帮忙用户自定义剖析的指标和纬度,用户能够随时调整剖析的维度和拆解的程序,在指标呈现稳定和异样时可能疾速定位影响因素。 5、生意顾问自助剖析生意顾问自助剖析性能针对在团体电商平台开店的卖家推出,Quick BI 和生意顾问联结打造了生意顾问自助剖析模块。当天猫、淘宝的卖家在应用生意顾问进行店铺数据化经营过程中,面对现有报表无奈满足需要时,能够通过利落拽的模式,0代码的对生意顾问内的数据进行自助剖析。以前卖家只能勾选维度和指标,抉择工夫周期,将数据下载到本地再进行剖析。当初,在线即可实现剖析,做好的仪表板页面也能保留在生意顾问中。目前有近两千家店铺因而受害。 6、钉钉2021年初,Quick BI和钉钉团队单干。在钉钉利用市场推出“智能报表”利用,帮忙在钉钉上的百万企业剖析在钉钉中产生的工作、表单、流程等数据,并反对将钉钉中产生的数据和企业自有的业务数据进行交融剖析。 原文链接 本文为阿里云原创内容,未经容许不得转载。

June 2, 2021 · 1 min · jiezi

关于数据:数据创造价值创新驱动未来Smartbi亮相2021贵阳数博会

昨日,2021中国国内大数据产业博览会(后简称“数博会”)在贵阳圆满闭幕。此次数博会线下展共有225家企业缺席,包含阿里、腾讯、京东、华为、百度、360等领军企业。作为国内当先的商业智能BI厂商,Smartbi受邀参展,并在现场展现了一站式大数据BI解决方案,流动现场备受关注。 现场体验一站式BI工具Smartbi备受关注 据理解,本届数博会以“数智变·物致新”为年度主题,集中展现了大数据畛域新技术、新产品、新计划、新利用。Smartbi此次受邀参展,在现场展现了Smartbi一站式大数据分析平台,能够看到企业数据化经营带来的变革。 在本次的数博会上,Smartbi的大数据分析平台、数据化经营平台、大数据挖掘平台、SaaS剖析云平台齐齐亮相。通过产品演示与案例回顾,Smartbi展位让嘉宾们感触数字化翻新与转型中老本升高与效率晋升成果,同时还展现了Smartbi新一代商业智能BI工具,其性能笼罩数据分析全流程,满足各行业不同阶段的大数据分析需要,吸引了泛滥嘉宾体验与交换。 大数据时代Smartbi的劣势在哪儿? 随着5G技术的高速倒退,万物互联的大数据时代即将来临,大量的数据须要开掘,企业的数据化经营显得尤为重要。Smartbi凭借过硬的产品实力、计划劣势、行业口碑,全面助力各畛域企业数据化转型降级。 产品实力 成立10年来,思迈特软件始终以产品为外围,立足用户,从用户需要登程,深耕BI畛域,专一于产品打磨,为用户提供从数据采集、数据处理、数据分析到数据可视化展示的商业智能解决方案。 大数据分析平台 对接各种业务数据库、数据仓库和大数据分析平台,进行数据加工解决、剖析开掘和可视化展示,满足所有用户的各种数据分析利用需要。 数据化经营平台 围绕业务人员提供企业级数据分析工具和服务,满足不同类型的业务用户,在Excel或者浏览器中都可实现全自助的数据提取、数据处理、数据分析和数据共享,具备无以伦比的适用性。 大数据挖掘平台 通过深度数据建模,为企业提供预测能力,为用户提供一站式的流程式建模、拖拽式操作和可视化配置体验。 SaaS剖析云平台 全新一代云端数据分析平台,自助、疾速搭建数据分析利用。 计划劣势 专一产品的同时,Smartbi也基于多年大数据服务教训,为各行业提供大数据解决方案。目前,Smartbi推出的行业解决方案已胜利使用在3000+企业或组织的信息化我的项目中,笼罩金融、政府、制作、地产、能源、批发、教育等泛滥行业畛域。 行业口碑 作为国内当先的商业智能BI厂商,思迈特软件始终不断进取,取得企业和行业业余畛域的高度认可。近年来也始终在“新基建”及产业数字化的路线上前行,产品广泛应用于领导驾驶舱、KPI监控看板、财务剖析、销售剖析、市场剖析等治理畛域。2020年凭借当先的BI+AI技术入选Gartner“中国AI守业公司代表厂商(2020)”和“Gartner 加强剖析2020代表厂商”。 展望未来,Smartbi将持续以“让数据为客户发明价值”为使命,以凋谢、交融的态度连贯数据翻新之路,帮忙更多企业迈向数据化经营新阶段,关上高速增长新场面。

June 1, 2021 · 1 min · jiezi

关于数据:智能数据构建与管理平台Dataphin的前世今生缘起

简介:阿里巴巴提出的OneData方法论帮忙企业捋清了数据全生命周期的治理思路,更将其植入到产品Dataphin(智能数据构建与治理)中,通过阿里云为企业提供服务。 Dataphin 智能数据构建与治理平台 面向各行各业大数据建设、治理及利用诉求,一站式提供从数据接入到数据生产全链路的智能数据构建与治理的大数据能力,包含产品、技术和方法论等,助力打造规范对立、死记硬背、资产化、服务化、闭环自优化的智能数据体系,以驱动翻新。Dataphin产品中转:https://www.aliyun.com/produc... 艰难是最好的教练阿里巴巴从2008年开始建设自有的大数据体系,致力于构建好数据服务多样的业务。一路上,经验了各种各样的艰难。 技术陷在长期取数不可知:阿里外部已经通过建设专门的“长期取数需要管理系统”,给每个业务线调配长期取数的工夫额度,每次还没到月底,额度曾经为零,业务同学追着数据技术同学加班取数的状况时有发生......为了扭转这一场面,专门建设了“业务人员SQL技能培训”,心愿用这样的形式让业务人员本人把握长期取数技能,美其名曰“赋能”。而这背地的实质是:资源。 数据口径定义有差异:已经就因为数据口径差别,差点造成商家损失。商家在后盾看到的数据预测,显示能够达到流动报名要求,于是提前备货,筹备大干一场,然而最终报名却没有通过,起因是小二侧的数据口径与商家侧的数据口径不统一,小二零碎评估商家的数据未达标,导致不通过。尽管最终通过协调解决了问题。但这背地的实质是:规范。 加班做报表,汇报还被骂加班取数是常态,通常取数破费2-3小时,而之后的核查差别则要花费微小精力,动辄1-2天;最初的汇报环节,也会因为一些口径差别及数据品质问题造成难堪,甚至会呈现谬误数据导致决策失误的状况。这背地的实质是:品质。除了上述这几个典型的场景,阿里巴巴也曾因业务增长而呈现数据量暴发增长,对数据不治理不治理,意味着数据的存储和计算成本一直攀升。老本,也是大数据畛域面临的艰难之一。摸索中前行,实战中积淀带着克服困难的信心,阿里巴巴开始了B2B业务数据建设、电商业务数据建设、阿里系业务数据建设。过程中,边摸索、边积淀、边前行,通过更体系化的数据建设晋升数据品质,升高数据重构的危险,晋升数据服务的效率。经验近十年的打磨,基于实战,阿里巴巴积淀了OneData大数据建设的方法论(OneModel+OneID+OneService)。OneModel通过对数据体系化架构、数据元素标准定义、数据指标结构化拆解,对数据进行对立的构建及治理;OneID通过建设实体对象、对象相干的行为数据及标签构建办法,对企业的外围商业因素进行资产化;对数据资产进行对立的主题式数据单元构建,配置构建数据API并提供API服务,以晋升数据资产生产的便捷性,晋升数据资产价值。 克服痛点 发明当先的大数据能力随着寰球数字化过程的减速,企业面临着更加严厉的市场竞争,而数智化转型所遇到的窘境也曾是阿里巴巴最后之痛。于是,阿里云数据中台应运而生,与各行各业的企业在数据畛域发展了单干,解决企业凸显的数据问题: ●数据规范问题:烟囱式开发及部分业务服务撑持,导致指标同名不同口径问题频发;历史上不同业务零碎逐渐迭代上线,雷同对象属性编码不统一等问题突出;●数据品质问题:反复建设导致工作链简短、工作繁多,计算资源缓和,数据时效性不好;口径梳理定义的文档积淀到开发代码实现之间存在脱节,数据准确性保障危险高; ●需要响应问题:烟囱式开发周期长、效率低,面向利用的服务化有余,导致业务响应速度慢,业务不称心的同时技术又感觉没有积淀与成长;既懂业务又懂数据的人才有余,需要了解到开发实现波及大量沟通,服务效率较差; ●老本资源问题:烟囱式开发的反复建设节约技术资源;上线难下线更难,源零碎或业务变更不能及时反映到数据上,加之数据不规范,研发保护难上加难的同时,大量无用计算和存储造成资源节约。 阿里巴巴提出的OneData方法论帮忙企业捋清了数据全生命周期的治理思路,更将其植入到产品Dataphin(智能数据构建与治理)中,通过阿里云为企业提供服务。 Dataphin除了大数据处理全链路波及到的数据集成、开发、公布、调度、运维能力,同时提供了数据标准定义、逻辑模型定义、代码自动化生成、数据主题式服务能力,高效地实现好数据的构建。 Dataphin产品外围模块 Dataphin自2018年问世以来,已倒退出了饱满的大图,到目前为止经验了多轮大版本升级,产品外围的能力模块清晰浮现。 1、环境适配 最底层为Dataphin的环境适配能力。Dataphin反对不同的云环境,为不同规模以及不同部署要求的客户提供不同的抉择,包含公共云多租户、公共云VPC、专有云企业版及麻利版,以及本地IDC部署。 2、引擎反对 在云环境之上,依据不同的云环境能够反对不同的计算引擎。离线的计算引擎包含阿里云MaxCompute,Hadoop生态引擎包含阿里云E-MapReduce、CDH5、CDH6、以及行将反对的FusionInsight、CDP等。实时计算引擎反对阿里云Blink和Flinkvvp。开源版本的Flink也行将反对。 3、数据构建 基于不同的云环境和计算引擎,Dataphin提供了大数据处理全链路波及的数据集成、开发、公布、调度、运维能力,提供了数据标准定义、逻辑模型定义、代码自动化生成、主题是查问的数据构建能力。 4、资产 Dataphin提供了配套的资产地图、资产血统、资产品质治理和监控、资源老本治理和提效的资产治理能力,并提供了配置化的资产服务研发和治理能力,可将数据资产疾速服务业务、反哺业务。 原文链接本文为阿里云原创内容,未经容许不得转载。

June 1, 2021 · 1 min · jiezi

关于数据:实践案例Databricks-数据洞察-Delta-Lake-在基智科技STEPONE的应用实践

简介: 获取更具体的 Databricks 数据洞察相干信息,可至产品详情页查看:https://www.aliyun.com/produc...作者高爽,基智科技数据中心负责人尚子钧,数据研发工程师 1、基智科技北京基智科技有限公司是一家提供智能营销服务的科技公司。公司愿景是基于 AI 和大数据分析为 B2B 企业提供全流程的智能营销服务。公司秉承凋谢,挑战,业余,翻新的价值观从线索开掘到 AI 智达、CRM 客户治理笼罩客户全生命周期,实现全渠道的营销和数据分析决策,帮忙企业高效引流,精准拓客,以更低的老本获取更多的商机。截至目前,基智科技已与包含房产、教育、汽车、企业服务等畛域开展宽泛单干。 2、背景在基智科技目前的离线计算工作中,大部分数据源都是来自于业务 DB(MySQL) 。业务 DB 数据接入的准确性、稳定性和及时性,决定着上游整个离线计算 pipeline 的准确性和及时性。最后咱们在 ECS 上搭建了本人的 Hadoop 集群,每天应用 Sqoop 同步 MySQL 数据,再经由 Spark ETL 工作,落表写入 Hive ,ES,MongoDB 、MySQL ,通过调用 Service API 做页签的展现。 咱们的 ETL 工作个别在凌晨1点开始运行,数据处理阶段约1h, Load 阶段1h+,整体执行工夫为2-3h,下图为咱们的 ETL 过程: 3、存在的问题下面的架构在应用的过程中以下几个问题比较突出: 随着业务数据的增长,受 DB 性能瓶颈影响突出。须要保护多套数据源,数据繁杂,容易造成数据孤岛应用不不便。天级 ETL 工作耗时久,影响上游依赖的产出工夫。数据次要存储在 HDFS 上,随着数据的减少,须要减少集群,老本这一块也是不小的开销。大数据平台运维老本高。 4、抉择 Databricks 数据洞察 Delta Lake的起因为了解决天级 ETL 逐步尖利的问题,缩小资源老本、提前数据产出,咱们决定将T+1级 ETL 工作转换成T+0实时数据入库,在保证数据统一的前提下,做到数据落地即可用。 思考过应用 Lambda 架构在离线、实时别离保护一份数据但在理论应用过程中无奈保障事务性,随着数据量增大查问性能低,操作较简单保护老本比拟低等问题最终没能达到理想化应用。 起初咱们决定抉择数据湖架构,紧接着考查了市场上支流的数据湖架构:Delta Lake(开源和商业版)& Hudi。二者都反对了 ACID 语义、Upsert、Schema 动静变更、Time Travel 等性能,但也存在差别比方: ...

May 21, 2021 · 2 min · jiezi

关于数据:消除数据孤岛华为云DRS让一汽红旗ERP系统数据活起来

摘要:回绝延时,华为云DRS实现一汽红旗ERP零碎数据实时同步。本文分享自华为云社区《打消数据孤岛,华为云DRS让一汽红旗ERP零碎数据活起来》,原文作者:神思胖。 数字化时代,数据成为新的生产资料,在经济文化生存中扮演着越来越重要的角色。买票你须要查问各种票务信息,网购你须要搜寻商品和服务,出行你须要精准定位,这些动作背地都暗藏着大量的数据信息,如何利用好这些信息成为企业数字化转型的一道关卡。 这道关卡难在:数据量大且简单,如何进行存储和治理?数据孤岛重大,如何实现互联互通? 对于这个难题,华为云数据复制服务DRS(一款用于数据库在线迁徙和数据库实时同步的云服务,以下简称华为云DRS)有话要说:其实不同服务间的数据互通并没有那么难,要害是要选对办法,不信?请看一汽红旗是如何轻松应答的。 “红旗”是中国第一汽车集团有限公司旗下自主高端汽车品牌(以下简称一汽红旗),自2018年公布新红旗品牌战略以来,一汽红旗踊跃拥抱云服务,对外围生产零碎ERP进行微服务革新,并通过华为云DRS将源数据库同步迁徙到GaussDB数据库,以此增强各微服务之间数据的联动性,放慢数据流通。 ERP零碎属于车企最外围的生产业务零碎,对数据的可用性、可靠性、连续性要求极高,数据在同步过程中面临肯定的挑战: 缩小对源库的影响:一汽红旗整体数据量有1.8TB,表数据2万+,为防止源库业务中断,心愿在同步过程中对源库的影响降到最低。极致可靠性:ERP业务零碎不能承受数据同步过程中失落,工作故障复原须要达到分钟级,可靠性和可用性是外围诉求。连续性:新老零碎长时间并存,新零碎各个微服务数据造成了孤岛,同时须要对新老零碎局部数据进行回流,实现数据的实时同步。打消数据孤岛,华为云DRS让数据活起来数据同步关系到客户业务零碎数据的一致性、准确性、平安合规等问题,没有它,企业各方面会充斥延误、谬误、沟通不畅和不可避免的利润损失,因而必须确保所有数据始终保持统一。 一汽红旗为增强各个微服务之间的联动性,打消ERP零碎数据孤岛,携手华为云数据库团队联结制订高效、强统一的数据同步计划,通过华为云DRS提供的数据实时同步能力,实现了一汽红旗各业务之间数据的高效联动。 动静增减同步对象:一汽红旗ERP零碎波及BOM管理中心、OTD名单核心、需要管理中心等多项业务,业务革新须要分批进行。华为云DRS反对实时同步过程中,通过编辑同步对象随时减少或缩小某个业务所须要同步的对象,防止在源库创立过多的数据同步工作,缩小对源库的压力和原生产环境的影响。故障闪复原:ERP零碎关系到整个车企的生产情况,如果同步工作呈现故障会影响生产。为防止数据同步工作中呈现故障并不可复原状况,华为云DRS提供了分钟级重置的性能,及时复原同步工作,把对生产环境的影响降到了最低。数据错开同步:ERP零碎波及多项业务,而且各子业务重要性不同,如BOM管理中心业务比其余业务模块绝对重要,为了缩小对外围BOM业务的影响,华为云DRS反对外围数据和非关键数据离开同步,加强了整个零碎的可靠性和可用性。华为云DRS解决了一汽红旗新老ERP业务之间、各个微服务之间的数据孤岛问题,充分调动了各服务之间的联动性,让原先孤立的数据活了起来。同时提供数据比对性能,直观展现同步过程中源库和指标库的数据一致性状况,极大保障了客户的可继续倒退。 将来,依靠华为云GaussDB数据库和DRS能力,一汽红旗会继续构建稳固牢靠、极致性能的数据服务平台,构建闭环OTD模式,实现精细化治理,打造一体化、智能化的产销体系,满足一直增长的客户定制化需要。 Ps:华为云数据库搬迁上云专场,云数据库买8个月送4个月,助力企业无忧上云!戳此享优惠>> 点击关注,第一工夫理解华为云陈腐技术~

May 10, 2021 · 1 min · jiezi

关于数据:揭秘阿里实时数仓分布式事务Scale-Out设计

简介:Hybrid Transaction Analytical Processing(HTAP) 是驰名信息技术征询与剖析公司Gartner在2014年提出的一个新的数据库系统定义,特指一类兼具OLTP能力(事务能力)和OLAP能力(剖析能力)的数据库系统。 一 前言Hybrid Transaction Analytical Processing(HTAP) 是驰名信息技术征询与剖析公司Gartner在2014年提出的一个新的数据库系统定义,特指一类兼具OLTP能力(事务能力)和OLAP能力(剖析能力)的数据库系统。在传统场景中,承当OLTP工作和OLAP工作的数据库是两个不同的零碎。典型的OLTP零碎包含MySQL、PostgreSQL、PolarDB等,典型的OLAP零碎包含Clickhouse、AnalyticDB等。在生产零碎中,业务原始数据通常存储在OLTP零碎中,而后通过离线导入、ETL、DTS等形式以肯定提早同步到OLAP零碎中,再进行后续的数据分析工作。 HTAP零碎的一个直观的长处是能够在一个零碎中实现OLTP和OLAP工作,节约用户的零碎应用老本。而且,HTAP零碎具备残缺的ACID能力,让开发者领有更多的数据写入形式,不论是实时插入、离线导入、数据单条更新,都能够轻松应答。另外,一个齐备的HTAP产品,同样是一个优良的ETL工具,开发者能够利用HTAP零碎解决常见的数据加工需要。HTAP零碎可能大大节约用户的应用老本和开发成本,并影响下层业务零碎的状态。目前,存储计算拆散、云原生技术和HTAP等技术,被业界公认为是数据库系统目前的重要演进方向。AnalyticDB PostgreSQL版是阿里云的一款实时数仓产品(以下简称ADB PG)。ADB PG采纳MPP程度扩大架构,反对规范SQL 2003,兼容PostgreSQL/Greenplum,高度兼容 Oracle 语法生态,也是一款HTAP产品。ADB PG曾经通过了中国信息通信研究院组织的分布式剖析型数据库和分布式事务数据库性能和性能认证,是国内惟一一家同时通过这两项认证的数据库产品。ADB PG晚期版本主打OLAP场景、具备OLTP能力。随着HTAP的风行,ADB PG自6.0版本开始对OLTP性能在多个方面进行了大幅度优化,其中很重要的一个我的项目就是Multi-Master我的项目,通过Scale Out突破了原有架构的仅反对单个Master节点带来的性能瓶颈问题,让OLTP事务性能具备Scale out能力,更好地满足用户的实时数仓和HTAP需要。 Multi-Master我的项目在2019年启动后,经验了一写多读和多写多读2个演进阶段,极大的晋升了ADB PG零碎高并发能力、实时写入/更新/查问的能力,在阿里外部撑持了如数据银行等多个外围业务,也通过了阿里2020年双11、双12等大促的考验。目前,产品的稳定性和性能都曾经失去了宽泛验证。在本文的如下局部,咱们首先介绍ADB PG原有的Single-Master架构导致的性能瓶颈及其起因,并介绍Multi-Master的设计思路。而后咱们会具体介绍Multi-Master架构的具体设计。之后咱们会介绍咱们在Multi-Master我的项目中所解决的几个关键技术问题和外围解决方案。最初,咱们会对Multi-Master架构的性能体现进行测试。 二 Single-Master架构 vs. Multi-Master架构在数仓零碎设计中,通常把零碎中的节点分为Master节点和Segment节点(计算节点),Master节点和计算节点承当不同类型的工作。以ADB PG为例,Master节点次要负责接管用户的申请、查问优化、工作散发、元信息管理和事务管理等工作。Segment节点负责计算工作和存储管理工作。对于查问申请,Master节点须要对用户提交的SQL进行解析和优化,而后将优化后的执行打算散发到计算节点。计算节点须要对本地存储的数据进行读取,而后再实现计算和数据shuffle等工作,最初计算节点把计算结果返回到Master节点进行汇总。对于建表、写入等申请,Master节点须要对元信息、事务等进行治理,并协调计算节点之间的工作。 如上图所示,ADB PG是由Greenplum演变而来,晚期的ADB PG版本和Greenplum一样,是一种单Master架构。也就是说,一个数据库实例只有一个Main Master在工作,配置一个或者多个Standby Master节点作为高可用备份,只有当Main Master节点宕机,才会切换到Standby Master进行工作。随着业务的倒退,尤其是实时数仓和HTAP场景需要的减少, Single Master的零碎瓶颈问题也逐步浮现。对于查问链路,有些查问的最初一个阶段须要在Master节点上进行最终的数据处理,耗费肯定的CPU/内存资源。对于写入场景,大量的实时插入/更新/删除的须要高性能保障。而且Single Master架构如何解决超大并发连接数也是个问题。以上问题能够通过进步Master节点的配置(Scale up)来缓解,然而无奈从根本上解决。 ADB PG在2019年启动了Multi-Master我的项目,指标是通过节点扩大(Scale out)的形式来解决Master层的资源瓶颈问题,更好地满足实时数仓及HTAP等业务场景的需要。上图是Multi-master架构的示意图,通过减少多个Secondary Master节点来实现性能的Scale out,同时保留原有的Standby Master来保障高可用能力。为了保障ADB PG的事务能力,Multi-master我的项目须要克服一些其余不反对事务的实时数仓不会遇到的艰难。一方面,ADB PG须要对分布式事务能力进行扩大,反对多个Master的场景。一方面,对于全局死锁解决、DDL反对以及分布式表锁反对方面,ADB PG须要进行算法的翻新和批改。最初,ADB PG须要对更新之后的新架构的集群容错能力和高可用能力进行设计。在本文的余下局部,咱们将对上述几个议题进行介绍。 三 Multi-Master 架构设计 绝对于原Single-Master架构,Multi-Master架构在Main Master/Standby Master的根底之上新增实现了Secondary Master的角色,Secondary Master(s)反对承接和Main Master一样的DDL,DML等申请,同时用户能够按需扩大来晋升零碎整体能力。上面是各个Master角色及对应次要能力的简略介绍。 Main Master:承接用户业务申请,并把工作散发到各个计算节点进行分布式解决。除此之外,Main Master还承当了GTM,FTS和全局元信息服务的角色,这些组件与Multi-Master的实现密切相关。GTM:全局事务管理(Global Transaction Manager),保护了全局的事务id及快照信息,是实现分布式事务的外围组件。FTS:容错服务(Fault-Tolerance Service), 检测计算节点及辅协调节点的衰弱状态,并在计算节点产生故障时进行计算节点的Primary与Mirror角色的切换。Catalog:以零碎表Catalog等信息为代表的全局元信息存储。Standby Master:和Main Master组成典型的主备关系,在原Main Master故障的时候能够接替成为新的Main Master。Secondary Master:能够视为"弱化的Main Master",和Main Master一样能够承接业务申请并将工作散发到各个计算节点进行解决。Secondary Master会通过GTM Proxy与Main Master上的GTM以及计算节点交互来实现分布式事务。须要留神的是,Main Master与Secondary Master通过下层的SLB来做基于权重的负载平衡治理。如果是在Main Master和Secondary Master雷同的规格配置下,Main Master会通过权重设置来承当绝对少的业务申请负载,从而为GTM,FTS等预留足够的解决能力。 ...

May 7, 2021 · 2 min · jiezi

关于数据:基于DataWorks搭建新零售数据中台

文章作者:许日(欢伯),在2016年盒马晚期的时候,转到盒马事业部作为在线数据平台的研发负责人,现任阿里云计算平台DataWorks建模引擎团队负责人。 文章简介:本篇文章向大家分享新批发企业如何基于DataWorks搭建数据中台,从商业模式及业务的设计,到数据中台的架构设计与产品选型,再到数据中台搭建的最佳实际,最初利用数据中台去反哺业务,辅助人工与智能的决策。 内容奉献:李启平(首义),盒马从初创至今的数据研发负责人,有十分资深的数仓及数据中台建设的教训,原阿里巴巴国内业务数仓负责人。 一、新批发的商业模式一家新批发企业如果要做数据中台的话,首先很重要的一点就是肯定要懂业务。之前有位同学问过我,说数据中台很难建。在我看来,数据跟业务是非亲非故的,在构建整个数据中台的时候,首先要对业务有一个十分粗浅的了解。 新批发企业会有各种各样的业务状态,例如线上电商平台、线下门店、官网APP、分销渠道、供应链等等,咱们没必要在一开始就要求把所有渠道的数据都收集起来,做大一统,就是做数据中台了。咱们在最开始须要理解的是整个企业的商业模式是什么,基于商业模式,咱们再来定义须要做的业务状态,最初的事件才是开始布局企业新批发数据中台的建设。在这里能够给大家举个例子。 例如比拟多的新批发企业原先是以线下门店为主的,当初会做一些线上APP或者电商业务,然而它线上的库存和线下的库存是不同步,或者电商的样式和线下的样式是不一样的。那他的商业模式其实还是传统的批发业务,只不过开了另外一条线上的业务。数据中台首先须要的是突破企业原先的商业模式,设计一个真正线上线下交融的业务状态,所以咱们常常说数据中台是企业一把手工程。 确定了商业模式之后,新批发企业的业务状态也有很多,大家都在做不同的尝试,例如一些生鲜业务会有XX分钟限时达、有线下门店的企业会把线下流量导入到线上,同时把线下门店当做线上入口的一个仓、也有企业线上购买后能够到线下门店提货,保障线上线下同款同价等等。当确定了这些业务状态后,咱们再来聊数据中台如何去撑持这些业务,通过数据的买通来实现整个商业模式的闭环。 二、新批发企业产品技术架构设计 确定业务模式后,接下来须要做纯产品技术架构的设计。这时候许多批发的企业会比拟纠结,因为发现做批发、门店、商超,很多传统的软件厂商有一个现成的软件体系,比如说ERP、WMS,对于企业来说是不是买一套就能够了? 当初传统的ERP软件或者是物流软件,有一些也做了数字化,然而很重要区别是,数据中台做的数字化不只是为了简略的数字化、把数据结构化,更重要的是为下层策略层做一个十分重要的撑持,让数据中台对流量、物流履约、流程优化、财务策略做一个十分好的智能化的反对。在这里能够略微分享一个例子,咱们之前也调研过一些线下有门店的大型零售商超企业,他们也做线上的APP,但他们的库存线上线下是隔离的,如果总共有100条鱼,APP内会事后调配好,线上只卖10条,卖完之后线上就没有了,而领有数据数据中台之后,这100条鱼线上和线下先到先得,同时能够通过算法预测做库存预警、做折扣、做穿插销售、做供应链调整等等,比起粗犷地分成两拨,数据中台通过这种策略模式,基本上就把整个线下线上的数据和商品全副买通,也重构了一些业务状态,所以咱们说数据中台不是简略地把数据结构化。 企业如果有肯定技术能力的话,倡议所有外围业务零碎都采纳自研的模式,因为新批发企业须要对很多传统业务做一个全面的数字化,包含交易、门店、仓储、运配、洽购、供应链、劳动力等等。如果内部洽购的话,基于商业模式登程,肯定要让零碎造成闭环,从交易门店、仓储运费、洽购供应链、劳动力等等,不要APP、门店、电商都不同的零碎,那样你做数据中台的时候,数据自身的壁垒就曾经很高了。 实现整个闭环中十分重要的一点就是最右侧的数据层,除了业务零碎的设计,如果没有对立的数据中台建设,是很难去撑持整个企业工程的,这也是明天会重点跟大家介绍的局部。 在咱们看来,数据中台不仅是一种解决方案,也是一个团队的职能。企业应该建设一个独立的数据中台团队来反对业务。对于企业来说,数据和商品、会员以及设施一样,是十分重要的资产。企业数据中台团队的同学,是资产的建设者、管理者和运营者,通过这些资产去驱动整个批发供应链全链路、智能化的降级。通过采集、治理、建设数据,让数据更好地使用到业务上。 上图是比拟通用的数据中台的整体架构,这部分会有肯定的特殊性,也有一些通用性。 首先介绍一下通用性,整个基础设施的建设根本采纳的是阿里云的基础设施,阿里云上的DataWorks+MaxCompute十一年来始终反对阿里巴巴团体数据中台的建设。在整个数据分层这边,源数据层基本上来自于业务零碎,接入层相对来说会比较复杂一点,很多企业当初讲全渠道笼罩,蕴含APP,线下,甚至一些企业还有本人的配送员、电动车,以及门店的一些IOT设施数据,人力资源等,所以这外面就会呈现很多结构化和非结构化的数据。通过数据加工层把非结构化的数据进行肯定的加工,最终会造成十分重要的数据资产层。 数据资产层构建之后就会有肯定的业务含意,这部分数据是能够间接被业务应用的。然而在数据资产层上咱们会定一层数据服务层,让数据应用起来更不便,开箱即用。到了服务这一层,可能还是有形的,从业务方来看,必定心愿业务用户能间接去用数据,而不是去到很多表外面查数据。所以在数据服务层之上的数据应用层,数据中台团队能够建设很多数据产品,通过产品化的形式给到业务,提供真正的数据应用。产品模式也会比拟多,在不同的端,包含PC、钉钉、掌中宝,还有很多IOT的小设施,可能就是一个小的黑白屏幕,都会有数据的透传。并且在最右侧数据中台会有一套管理体系,通过这种管理体系,让企业整个经营和运维能够无效地执行起来。这个架构图,就是咱们了解的一个偏业务型的数据中台分层架构图。 基于方才提到这种业务型的数据中台分层架构,咱们须要持续设计一套数据中台的技术架构。大家如果做过大数据的话,在数据采集的时候常常会碰到,同时有离线和实时的计算该怎么办?离线计算咱们举荐阿里云上的MaxCompute,阿里巴巴简直所有的离线数据都放在MaxCompute上,2020年双11 MaxCompute每日数据处理量达到1.7EB级。实时计算咱们举荐Flink,峰值每秒解决音讯规模达到40亿条,计算的性能也十分弱小。除了计算,还要去做数据的存储,比方实时计算Flink的数据汇总加工后,能够存储到MaxCompute交互式剖析(Hologres),来构建咱们的实时数据仓库,MaxCompute交互式剖析(Hologres)可反对的峰值写入速度达到5.96亿条,同时反对PB级数据的亚秒级查问,以及在线搜寻Elasticsearch,并且这些存储都会变成一个个数据服务。数据服务会有指标明细,还有特色、标签等等,这些数据能够推广到经营最常应用的一些设施、经营平台、钉钉挪动办公、智能化治理等,这些更多是runtime层面的。在整个数据集市经营层面,还有元数据、数据品质、容灾管控、数据治理等等。这个技术架构图,更多的是当成一个技术需要架构图,是新批发企业技术团队在做数据中台的时候须要去做的一些事件。 三、基于DataWorks的新批发数据中台解决方案当企业的商业模式,业务产品技术架构,以及数据中台的技术需要整顿之后,咱们就要开始做一个数据中台的技术选型与技术调研,什么样的产品什么样的零碎能够去撑持新批发企业整套的技术架构。之前说到企业的业务零碎咱们倡议是自研,但整个数据中台的技术其实是能够不自研的,因为阿里云上曾经有十分成熟的产品体系让咱们的新批发企业去构建本人的数据中台。方才咱们说到了大数据计算引擎的选型,离线数仓能够抉择MaxCompute,实时数仓能够抉择实时计算Flink+MaxCompute交互式剖析(Hologres),这三个产品同时能够无缝组合构建一套残缺的实时离线一体化数据仓库,构建数据中台的数据开发与治理工具能够抉择DataWorks,DataWorks服务了阿里巴巴团体简直所有的业务部门,每天团体外部有数万名经营小二/产品经理/数据工程师/算法工程师/研发等都在应用DataWorks,同时还服务大量阿里云上的用户,上面就是DataWorks的整体架构图: 数据集成是构建数据中台的第一步,DataWorks对外提供了数据集成的能力,它有很多批量、增量、实时、整库的数据集成,可能反对企业多种且简单的数据源,目前DataWorks数据集成离线同步反对50+种数据源,实时同步反对10+种数据源,无论数据源在公网、IDC、VPC内等环境,都能够做到平安、稳固、灵便、疾速地数据集成。DataWorks还有一套元数据对立治理服务,反对对立的任务调度、同时提供了十分丰盛的一站式的数据开发工具,笼罩了数据开发的整个生命周期,能够极大地提高企业的数据开发效率。下层还包含了数据治理、数据服务等,并且它提供了很重要的开放平台。因为对于绝大部分企业来说,它的业务零碎可能是自研/洽购的产品,通过DataWorks OpenAPI能够对很多性能做二次的加工以及和各种自研零碎、我的项目零碎的集成,例如报警信息能够推送到企业本人的监控告警零碎,目前DataWorks提供的100多个OpenAPI能够让企业非常简单地去实现这个需要。 当咱们把这个数据中台技术需要图与DataWorks做一个比对时,数据采集局部对应了DataWorks提供的数据集成,基本上右边的这些数据同步的需要DataWorks都能够满足。 在数据开发层,DataWorks通过它的DataStudio、HoloStudio和StreamStudio能够同时实现企业离线、在线、实时的数据开发,并且它还提供了数据服务跟凋谢接口的能力,能够通过OpenAPI的形式跟企业现有的零碎和产品做一个集成。还有很要害的一点,DataWorks提供了数据地图和数据治理的能力,这两个性能看似是边缘性能,然而在整个企业构建数据中台时起到了一个十分要害的作用,这块前面会持续开展。 后面更多地能够看成是数据中台的筹备过程,理解企业的业务,做了产品零碎的设计,并且做了一个技术选型,接下来咱们须要确定企业数据中台建设的指标,指标不代表KPI,它也有可能是使命或者初衷。数据中台建设的指标是要建设一个数据丰盛,全链路多维度,品质牢靠(就是口径要规范,后果要精确),并且要运行稳固,产出及时无故障的一个中间层,很多人会说这是数据集市,没关系,它就是个中间层。还有一点是数据中台要为下层业务提供牢靠的数据服务,数据产品及业务利用,这就限定了它不是一个简略的数据仓库,也不是一个简略的数据集市,而是一个数据中台,是可被业务去一直应用的数据中台。如果企业只是把数据同步加工,放到MaxCompute或者开源的Hadoop或者一个数据库外面,那它还只是个仓。咱们定义的数据中台是可被业务间接去应用的,甚至是要给业务带来业务价值的,才叫数据中台。 定义这样一个指标之后,咱们要开始做一个分步拆解,一些业务团队在提业务需要的时候,只会通知数据团队要一个销售额的数据,然而这个销售额还有限度条件,例如在什么时间段?是否蕴含退款?是否限度地区等等,所以数据中台首先要做一个指标体系的设计,并且这个指标体系应该在中台团队产品化,第二步因为业务去应用的不是一个表的字段,所以须要一个数据模型设计的撑持,让企业把数据变得更规范,第三步基于咱们设计好的模型,咱们还要去做数据处理工作的开发。最初咱们要把这些数据通过数据服务的形式凋谢进来,让业务去应用,数据服务的模式不限于 Table、API和Report,甚至能够是一个产品或者其余的任何一个货色。 上图是大家在网上看到比拟多的对于数据模型或者数据集市构建的分层图——ODS、DWD、DWS和ADS。尽管有很多概念和理念,然而每个人对这几层的了解是不一样的,咱们要对这几层有十分严格清晰的定义,每一层要有每层本人的特点和职责。在咱们看来,简略概述地说: ADS肯定要是面向业务的,不是面向开发的,这部分数据让业务能最短的工夫去了解,甚至间接应用。 DWS必须是指标,也是方才后面讲的指标体系的一个承载体,都由DWS去做,DWS汇总基本上就是ADS的撑持。 DWD就是明细层,明细层怎么建呢?咱们倡议采纳的是维度建模的形式,企业有维表,有事实表,维表也有很多层级维度,比方枚举维度,事实表有周期快照。当然在这里有一个点就是DWD的字段必须是可被间接了解的,不要有二义性,一旦有二义性的时候,DWS应用的时候会有问题,会导致整个上游利用都有问题。 ODS基本上大家了解应该都保持一致,就是业务数据间接同步过去。然而当初有一些架构的演变,大家喜爱在ODS做一个初步的ETL解决,这样会导致ODS的数据跟企业业务的数据不统一。其实咱们倡议是不这样做,起因很简略,咱们要保障ODS跟业务库保持一致,这样当呈现问题的时候,咱们能很快定位到问题的起因。一旦做了ETL,有可能ETL的过程是有bug的,会导致两边数据不统一。所以如果企业是严格要求从业务库的数据到ODS不容许做任何的逻辑的解决,那么呈现问题的时候,只能是中间件或者是其余的任何存储出了问题导致的,不应该是业务逻辑导致的。 四、基于DataWorks构建新批发数据中台 后面更多讲述数据中台建设的一些思维、设计、架构、指标及要求,接下来我和大家聊一下如何应用DataWorks构建数据中台以及应用DataWorks平台的一些心得。DataWorks这个平台不仅仅服务阿里云上的客户,从2009年开始就同时服务阿里巴巴团体简直所有的业务部门。所以它的整体产品设计很多是偏差于凋谢的、通用的、灵便的。这个时候企业在应用DataWorks时会因为过于灵便或者是没有规范等而呈现一系列的问题,接下来的内容就会针对咱们的一些教训和大家分享一些心得。 首先数据同步是建数据中台的第一步,如果数据进不了仓,数据中台就没方法构建。咱们在做数据同步的时候,会有几个要求,比方企业的所有业务数据都是对立同步到一个我的项目,并且只同步一份,不容许反复同步,这样的话方便管理,缩小老本,同时保障了数据不要有二义性。数据源出问题了,那后边数据就都有错,所以数据中台肯定要保障数据源100%正确。而后从数据回溯与审计思考,数据生命周期设置的是一个永恒保留,哪怕业务零碎因为一些线上库的流量问题,会有一些归档、删除,但当他们想再应用历史数据的时候,能够通过ODS这层一成不变地再还原回去。 第二块就是数据开发,数据开发这部分是很考验集体能力的,基本上大家都是应用SQL。咱们本人对于数据开发这部分的心得简略来说就是数据处理过程是业务逻辑的实现,既要保障业务逻辑的正确性,也要保证数据产出的稳定性、时效性和合理性。DataWorks进行数据开发的编辑器,除了提供比拟好的coding能力以外,也提供了一些解决流程的可视化的形式,帮忙企业去做一些code review,甚至局部校验,这个性能在咱们日常应用中是十分有帮忙的。 整个数据开发的过程,因为我自身也是做 Java的同学,每一种编程都有肯定的编程范式,在整个数据开发的过程中也去形象了几个步骤。 首先是一个代码转换,这个代码转换次要是干什么用的?方才讲过业务零碎很多是为了实现一个业务流程,会有很多个性化的解决,尤其是大家做互联网业务的时候,为了解决一些性能问题或者是filter的问题,会做一些Json字段,媒体字段、分隔符等等,这样的内容会呈现二义性。咱们在开发中会有代码转换,比如说把一些枚举的货色转成一个理论会看得懂的货色,0到底是什么?2是什么?或者a是什么?还有个格局转换,企业有一些业务零碎,它很难规范,譬如说工夫,有的用的是timestamp,有的是存字符串,有的是存yymm这些,尽管它们都代表工夫,然而格局不一样,在数据集市的构建过程中,它要求外面的数据格式必须是统一的,咱们会去把非标准的数据格式通过格局转换的形式变成一个规范的格局。 第二是业务判断,业务判断这里边基本上就是通过条件的形式得出一个业务后果。举个例子,年轻人在业务零碎外面必定不会有一个叫“年轻人”这样的字段或业务逻辑,如果有年龄数据,在梳理的时候能够判断小于30岁的人叫年轻人,这个就是咱们说的业务判断。 第三是数据连贯,基本上很简略,就是一个表关联去补数据。 第四是数据聚合,企业在做DWS的时候会大量用到数据聚合的这部分。 第五是数据过滤,咱们常常会碰到一些有效的数据,咱们通过数据过滤这个形式把这些有效的数据给解决掉。 第六是条件抉择,这个条件抉择基本上也就是一些when的货色,跟数据过滤略微有点类似。 最初是业务解析,业务解析是企业最常常用到的,因为当初NoSQL或者MySQL也反对了,甚至有一些业务团队用了Mongo,那一个大字段里边有很多业务示意。咱们这几年在数据集市做DWD的时候,肯定要把这种Json字段或者map字段的格局全副解析成固定的列字段。因为咱们方才说过它的内容必须要统一的,让用户间接能够看到。在这外面分享个心得,就是业务逻辑会尽量收口在数据明细层,目标是保证数据的一致性,简化上游应用。源头上的变动,也能够通过代码或格局等转换,保障明细层构造的稳定性,防止给上游带来更多的变动。好的模型也须要上游业务零碎协同开发,一要业务零碎有正当的设计,二要变更能及时地感知,所以说数据中台的建设不是数据团队一个团队的事件,也要跟业务团队去做联动和共创。 方才讲的这些局部更多的是开发阶段,如果DataWorks只实现这些的话,咱们认为它就是一个IDE,然而DataWorks作为一站式大数据开发治理的平台,外围的一点是要去保障平台的运行,如何去保障企业做数据开发的代码能运行起来?那就是通过DataWorks的任务调度。一个企业的新批发业务是非常复杂的,生鲜有30分钟送达、电商有次日达、三日达,还有一些预售预购等等。这些如果是简略的调度零碎可能就反对不了,DataWorks比拟好的一点是,它提供了非常灵活的任务调度周期抉择,比如说月、周、日,并且可能反对双11每日1500万工作的稳固调度,从调度周期灵活性和稳定性来看都十分好。最开始咱们设计企业的新批发业务是一个闭环,它每个业务是有相关性的,反过来说企业的数据工作也是有相关性的,这个时候整个的任务调度链路是非常复杂的。 在整个过程外面,咱们也有很多尝试、翻新,也踩过了很多坑,这边就跟大家分享一下。DataWorks工作节点未起调或者在谬误的工夫起调都可能呈现数据缺失或者是谬误,这里就要保障企业数据开发对于每个线上工作的任何问题都要及时处理,因为每个问题都会造成一个数据的问题。正当的调度策略既能够保障数据产出的正确性,也能够保障数据产出的及时性,咱们心愿一天产出,那就不要把它变成每小时产出,产生12次,就按一天就能够了,如果是三天咱们就设置三天的调度。 通过这几步,失常状况下,咱们的一个我的项目或者一个需要,依照这种形式去实现,咱们就认为一个数据开发工程师的工作完结了。然而个别状况下不是这个样子,因为数据中台是一个偏商业化的事件,所以说它一旦出问题,影响是特地大的。如果说团体有团体外围零碎,部门外围零碎,业务线有外围零碎、非核心零碎,不同的外围零碎须要有不同的保障,还有p1、p2、p3、p4的形式去定义故障等级,数据业务也同理。数据业务跟失常业务零碎不太一样的是,数据中台团队是依靠了DataWorks来做整个线上大数据业务工作的稳定性保障。其中DataWorks这边提供了很重要的一个模块,就是数据品质监控。数据品质监控能够让企业更及时地去发现一些问题,当业务有影响的时候,保障咱们第一工夫就晓得(因为有的时候业务应用还是有肯定的提早性的,数据团队常常遇到的就是业务呈现问题过去找你才晓得)。数据品质的监控,目标是保障数据产出的正确性,并且监控范畴肯定要比拟全,不仅限于表大小的变动,函数的变动,字段枚举值和一些主键的抵触,甚至一些非法格局,并且异样值会触发报警或中断数据处理过程,这时候值班人员要第一工夫染指。 下面讲的是监控的问题,然而一旦监控多了就会导致监控泛滥,会有很多预警报警进去,DataWorks也提供了另一种能力,就是工作基线的治理。我方才讲过业务有分级,企业的数据业务也有一些重要和非重要的工作,咱们通过这种基线的形式去把这些工作进行一个隔离。基线这块咱们的教训就是:基线是保障数据资产的及时产出,优先级决定了零碎硬件资源的保障力度,也决定了经营人员值班的保障力度,最重要的业务肯定要放8级基线,这样会保障你的最重要的工作第一工夫产出。另外DataWorks有一个很好的性能——回刷工具,当我的基线出问题或者破线的时候,能够通过回刷工具疾速地把数据回刷进去。并且如果你设置了DataWorks的智能监控,这个性能会通过一些基线下目前的工作状态和历史的运行时长等,通过算法的模式去帮你提前预估出是否存在破线的危险,比方一个数据失常是早晨12点产出的,在这之前有个数据应该是早晨6点产出,设置完智能监控之后,如果之前早晨6点产出数据的工作在今晚7点都未产出,并且零碎通过算法判断早晨12点仍旧无奈失常产出,智能监控在7点的时候就会收回一个告警,让技术同学进行提前干涉,不必等到早晨12点数据真正产出延时时才开始干涉,这种智能化的监控与危险的预估对于企业业务的稳定性来说是十分有用的。 做好数据品质的监控与基线,基本上就保障了企业的大数据工作和业务的稳固、失常地运行,还有就是数据资产的治理。阿里巴巴是提倡数据的公司,它做转变的一个十分大的里程碑就是阿里巴巴在数据方面存储和计算的硬件老本超过了业务零碎的硬件老本。这也导致了阿里巴巴的CTO会去把数据资产治理作为十分外围的工作。DataWorks是整个阿里巴巴团体数据应用的体量最大的平台,甚至是一个惟一的平台,也提供了数据资产的模块叫UDAP,这外面基本上是能够通过多方面多维度,从我的项目到表甚至到集体,全局查看明天整体资源应用状况是什么样的,并且给使用者提供了一个衰弱分的概念。这个衰弱分能够综合地看到每个业务部门内每个集体的排名状况。做治理最简略的形式就是先把头部打掉,咱们先治理头部衰弱分最低的,而后把衰弱分拉上来,整个程度就下来了。同时UDAP提供了很多数据可视化的工具,能够让你很快地看到治理的成果,在这方面我也有一些心得分享给大家。 首先次要指标是优化存储与计算,降低成本,晋升资源使用率;技术团队会本人建很多我的项目空间,数据中台团队须要与技术团队共建,一起去实现数据治理。一些比拟好用的伎俩就是无用的利用要下线、表生命周期治理、反复计算治理、还有很重要的是计算资源暴力扫描,是须要被严格禁止的。UDAP外面的一些性能目前在DataWorks的资源优化模块也可能实现,比方一些反复表、反复数据开发与数据集成工作的治理等等。 做完以上这些,咱们认为数据中台该做的事件就差不多了,最初还有一点就是数据安全治理。随着互联网的倒退,中国根本继续每一年都会出一个相干的网络法,比如说电子商务法、网络安全法等等,最近应该是草拟数据安全法。作为一家企业,对法律的恪守是特地重要的。DataWorks作为阿里大数据最对立的数据入口和进口,做了很多数据安全治理的伎俩。它能够从引擎层面进行一个管控、也能够通过我的项目层面进行管控,同时能够到表层面,甚至到字段层面。在字段层面,每个字段有等级,比如说有一些高等级字段的权限必须部门负责人或者是总裁层面审批才能够应用的,再比如说有一些即便审批通过了,但还是有肯定危险的数据,像身份证号码,手机号码等,DataWorks数据保护伞会提供一种技术叫数据脱敏,这些敏感、具备危险的数据被拿走是被脱敏过的,不影响使用者的统计或者剖析,然而使用者是不可见的。 阿里巴巴团体有一套对立的数据管理办法,它跟组织架构是买通的,员工到职或者转岗,他的权限会主动发出。在任何企业包含阿里,人员变动是十分频繁的,通过这样的性能与体系,企业能保障在数据安全的前提下更好地利用数据。 五、基于DataWorks构建数据中台的价值 ...

April 30, 2021 · 1 min · jiezi

关于数据:数栈产品分享简析数据中台如何通过DataAPI实现数据共享

数栈是云原生—站式数据中台PaaS,咱们在github和gitee上有一个乏味的开源我的项目:FlinkX,FlinkX是一个基于Flink的批流对立的数据同步工具,既能够采集动态的数据,也能够采集实时变动的数据,是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个star!star!star! github开源我的项目:https://github.com/DTStack/fl... gitee开源我的项目:https://gitee.com/dtstack_dev... 如果把企业数字化转型比作一辆自行车,那么技术与数据便是这辆车的两个轮子,骑在车上的则是企业策略、文化以及各种资源,它们决定了转型将走向哪个方向。不论数字化转型之路如许正确、战术如何高超,其最终后果还是要通过这两个轮子落地。 DT时代,“大数据”不是强调量大,是指数据起源多、维度多。当初很多零碎的数据没法给第三方用,只有突破这种壁垒,才会产生新的价值。在数智化转型过程中,实现数据凋谢共享,是企业在DT时代实现弯道超车的前提。 一、什么是数据共享服务数据共享服务可简略概括为将数据中台的数据共享给其余零碎,或将某组织的数据共享给其余组织,提供数据的形式也非常多样,如数据库读取、文件传输、API接口服务等。 如何通过数据API,对外提供数据服务,进行数据共享呢? 数据API,通过RestfulAPI的模式对外提供数据服务,实用于数据库不间接对外开放,通过接口提供高并发快返回的数据服务场景,如企业外部将数据中台加工的后果数据,通过数据API的形式,提供给下层数据利用、数据门户,可视化大屏等;证券公司将股票、债券等行情数据通过数据API的形式提供给内部客户;新媒体企业将资讯通过API的形式提供给内部客户等,次要解决数据对外疾速共享的场景。 二、怎么生成数据服务依照传统形式,生成API接口,往往须要后端开发人员通过Java或Python等语言进行编写。从开始生成到对外公布,两头再做一些鉴权、限流等,整个流程较长,且一个接口开发实现后,须要测试人员再进行测试验证,整个过程下来,投入老本较高。 以下是传统形式生成数据API的流程: 近几年,在数据中台的浪潮中,大数据平台产品供给也越来越俱全。国内局部优良的大数据产品供应商,也有标准化的数据共享服务产品,其将数据服务能力进行封装,大部分性能在平台产品外部实现,面向用户的性能只是连贯数据源、编写查问逻辑,大幅度缩短API流程,并升高开发成本。 利用标准化产品,个别开发流程如下: 在API生成中,通过以下步骤: API生成:平台会封装API创立能力,用户只需在WEB界面上选库选表,设定申请参数、返回参数即可;对于简单的API查问逻辑,有的平台也会提供自定义SQL写查问逻辑的模式,满足用户不同场景。API公布:平台会集成API网关,无需用户本人写网关逻辑,API公布后,会间接公布在API网关上,造成API市场,对外提供数据服务。API申请:有须要的用户可间接在API申请已公布的API,管理员进行审批,审批通过后,申请者可拿到API的调用地址和申请示例。API受权:对API申请者的申请进行审批;API治理:对企业来讲,一款标准化的产品提供了一个企业级数据服务对立治理平台与企业级的API市场。在API调用流程中,API网关能够进行鉴权、限流、数据解密等工作。 (一)较于传统化的生成形式,标准化产品能带来什么? 开发效率的晋升:将数据API开发流程缩短,一个API生成只需3分钟人力老本的升高:传统形式须要后端开发写接口,当初只需更相熟数据的开发,通过写SQL,就可实现数据API的开发。API接口服务更多的场景:除了用户原有需要外,标准化的产品可带来更多附加性能,如API、用户限流,API调用监控等。企业级API市场:实现企业API对立治理,对立的API市场凋谢数据服务。(二)数栈DTinsight 的DataAPI产品正是面向以上场景,提供数据API的共享服务。 DataAPI,通过双模式可视化配置生成与注册API,疾速构建Oneservice数据服务,造成企业级的API市场和API服务治理平台,进步数据凋谢与共享效率。 三、DataAPI能够做什么DataAPI除以上介绍可解决的场景外,还在第三方数据服务、服务监控、数据服务平安深耕较多,提供给客户一个优良的数据服务产品。 双模式生成API通过向导模式、自定义SQL模式双模式生成API服务,3分钟可视化实现API创立。 第三方服务注册除在平台上生成API服务,反对将原有的API服务注册至DataAPI,进行对立治理、公布至API市场,企业所有的API服务对立治理。 API调用监控平台从API管理者、API申请者视角别离提供API调用次数、调用日志、谬误日志的监控。 API应用权限管制可管制单个API的用户应用权限,调用次数是多少,调用周期是多长。 四、数据服务平安数据对外服务过程中,数据安全是十分重要的一部分,DataAPI保障数据安全,次要有三方面: API调用API调用中提供2种加密形式,可对用户信息、API信息、数据信息进行加密,实用于不同安全级别的场景。 API限流针对API单秒调用次数、用户对API的调用次数可进行限流,保障数据服务的平安稳定性。 黑白名单IP管制通过设置黑白名单,从IP级别管制IP的拜访。

April 30, 2021 · 1 min · jiezi

关于数据:揭秘阿里实时数仓分布式事务Scale-Out设计

简介: Hybrid Transaction Analytical Processing(HTAP) 是驰名信息技术征询与剖析公司Gartner在2014年提出的一个新的数据库系统定义,特指一类兼具OLTP能力(事务能力)和OLAP能力(剖析能力)的数据库系统。在传统场景中,承当OLTP工作和OLAP工作的数据库是两个不同的零碎。 作者 | 泽贤起源 | 阿里技术公众号 一 前言 Hybrid Transaction Analytical Processing(HTAP) 是驰名信息技术征询与剖析公司Gartner在2014年提出的一个新的数据库系统定义,特指一类兼具OLTP能力(事务能力)和OLAP能力(剖析能力)的数据库系统。在传统场景中,承当OLTP工作和OLAP工作的数据库是两个不同的零碎。典型的OLTP零碎包含MySQL、PostgreSQL、PolarDB等,典型的OLAP零碎包含Clickhouse、AnalyticDB等。在生产零碎中,业务原始数据通常存储在OLTP零碎中,而后通过离线导入、ETL、DTS等形式以肯定提早同步到OLAP零碎中,再进行后续的数据分析工作。 HTAP零碎的一个直观的长处是能够在一个零碎中实现OLTP和OLAP工作,节约用户的零碎应用老本。而且,HTAP零碎具备残缺的ACID能力,让开发者领有更多的数据写入形式,不论是实时插入、离线导入、数据单条更新,都能够轻松应答。另外,一个齐备的HTAP产品,同样是一个优良的ETL工具,开发者能够利用HTAP零碎解决常见的数据加工需要。HTAP零碎可能大大节约用户的应用老本和开发成本,并影响下层业务零碎的状态。目前,存储计算拆散、云原生技术和HTAP等技术,被业界公认为是数据库系统目前的重要演进方向。 AnalyticDB PostgreSQL版是阿里云的一款实时数仓产品(以下简称ADB PG)。ADB PG采纳MPP程度扩大架构,反对规范SQL 2003,兼容PostgreSQL/Greenplum,高度兼容 Oracle 语法生态,也是一款HTAP产品。ADB PG曾经通过了中国信息通信研究院组织的分布式剖析型数据库和分布式事务数据库性能和性能认证,是国内惟一一家同时通过这两项认证的数据库产品。ADB PG晚期版本主打OLAP场景、具备OLTP能力。随着HTAP的风行,ADB PG自6.0版本开始对OLTP性能在多个方面进行了大幅度优化,其中很重要的一个我的项目就是Multi-Master我的项目,通过Scale Out突破了原有架构的仅反对单个Master节点带来的性能瓶颈问题,让OLTP事务性能具备Scale out能力,更好地满足用户的实时数仓和HTAP需要。 Multi-Master我的项目在2019年启动后,经验了一写多读和多写多读2个演进阶段,极大的晋升了ADB PG零碎高并发能力、实时写入/更新/查问的能力,在阿里外部撑持了如数据银行等多个外围业务,也通过了阿里2020年双11、双12等大促的考验。目前,产品的稳定性和性能都曾经失去了宽泛验证。在本文的如下局部,咱们首先介绍ADB PG原有的Single-Master架构导致的性能瓶颈及其起因,并介绍Multi-Master的设计思路。而后咱们会具体介绍Multi-Master架构的具体设计。之后咱们会介绍咱们在Multi-Master我的项目中所解决的几个关键技术问题和外围解决方案。最初,咱们会对Multi-Master架构的性能体现进行测试。 二 Single-Master架构 vs. Multi-Master架构 在数仓零碎设计中,通常把零碎中的节点分为Master节点和Segment节点(计算节点),Master节点和计算节点承当不同类型的工作。以ADB PG为例,Master节点次要负责接管用户的申请、查问优化、工作散发、元信息管理和事务管理等工作。Segment节点负责计算工作和存储管理工作。对于查问申请,Master节点须要对用户提交的SQL进行解析和优化,而后将优化后的执行打算散发到计算节点。计算节点须要对本地存储的数据进行读取,而后再实现计算和数据shuffle等工作,最初计算节点把计算结果返回到Master节点进行汇总。对于建表、写入等申请,Master节点须要对元信息、事务等进行治理,并协调计算节点之间的工作。 如上图所示,ADB PG是由Greenplum演变而来,晚期的ADB PG版本和Greenplum一样,是一种单Master架构。也就是说,一个数据库实例只有一个Main Master在工作,配置一个或者多个Standby Master节点作为高可用备份,只有当Main Master节点宕机,才会切换到Standby Master进行工作。随着业务的倒退,尤其是实时数仓和HTAP场景需要的减少, Single Master的零碎瓶颈问题也逐步浮现。对于查问链路,有些查问的最初一个阶段须要在Master节点上进行最终的数据处理,耗费肯定的CPU/内存资源。对于写入场景,大量的实时插入/更新/删除的须要高性能保障。而且Single Master架构如何解决超大并发连接数也是个问题。以上问题能够通过进步Master节点的配置(Scale up)来缓解,然而无奈从根本上解决。 ADB PG在2019年启动了Multi-Master我的项目,指标是通过节点扩大(Scale out)的形式来解决Master层的资源瓶颈问题,更好地满足实时数仓及HTAP等业务场景的需要。上图是Multi-master架构的示意图,通过减少多个Secondary Master节点来实现性能的Scale out,同时保留原有的Standby Master来保障高可用能力。为了保障ADB PG的事务能力,Multi-master我的项目须要克服一些其余不反对事务的实时数仓不会遇到的艰难。一方面,ADB PG须要对分布式事务能力进行扩大,反对多个Master的场景。一方面,对于全局死锁解决、DDL反对以及分布式表锁反对方面,ADB PG须要进行算法的翻新和批改。最初,ADB PG须要对更新之后的新架构的集群容错能力和高可用能力进行设计。在本文的余下局部,咱们将对上述几个议题进行介绍。 三 Multi-Master 架构设计 绝对于原Single-Master架构,Multi-Master架构在Main Master/Standby Master的根底之上新增实现了Secondary Master的角色,Secondary Master(s)反对承接和Main Master一样的DDL,DML等申请,同时用户能够按需扩大来晋升零碎整体能力。上面是各个Master角色及对应次要能力的简略介绍。 ...

April 28, 2021 · 2 min · jiezi

关于flink:知乎的-Flink-数据集成平台建设实践

简介: 本文由知乎技术平台负责人孙晓光分享,次要介绍知乎 Flink 数据集成平台建设实际。内容如下: 1. 业务场景 ; 2. 历史设计 ; 3. 全面转向 Flink 后的设计 ; 4. 将来 Flink 利用场景的布局。 本文由知乎技术平台负责人孙晓光分享,次要介绍知乎 Flink 数据集成平台建设实际。内容如下: 业务场景历史设计全面转向 Flink 后的设计将来 Flink 利用场景的布局 一、业务场景 很快乐和大家分享近期知乎以 Flink 为根底,重构上一代数据集成平台过程中的一些播种。数据集成平台作为连贯各种异构数据的纽带,须要连贯多种多样的存储系统。而不同的技术栈和不同的业务场景会对数据集成系统提出不同的设计要求。 咱们首先来看一下在知乎外部数据集成的业务场景。同许多互联网公司类似,过来知乎的在线存储系统次要以 MySQL 和 Redis 为主,同时对于局部数据量级较大的业务也应用了 HBase。近年来随着技术的演进,咱们开始了从 MySQL 向 TiDB 的迁徙。与此相似,咱们也开始将 HBase 向基于 TiKV 技术栈研发的 Zetta 演进。在离线存储方面绝大多数的场景则是以 Hive 表来撑持的。 从在线存储到离线存储,期间有着十分强的数据同步需要。除此以外也存在着大量的流式数据,比方音讯零碎中的数据,咱们也心愿它可能同各种在线或离线存储系统买通。过来知乎次要应用 Kafka 撑持流式数据,近期也开始引入 Pulsar。这两套音讯零碎同存储系统之间的数据交换存在着较强的需要。 在知乎的业务场景和以后倒退状态下,数据集成工作在技术和流程治理上都存在着一些挑战。 首先从技术角度看,数据源多样化会对数据集成系统的连贯扩大能力提出较高的要求。而且下一代的存储系统在给业务带来更强能力的同时也开释了业务的压力,进而促使了数据量的减速收缩。数据量级上的快速增长对数据集成平台的吞吐和实时性都提出了更高的要求。当然作为数据相干的根底零碎,数据准确性则是最根底的要求,这块咱们也必须把它做好。 另外从流程治理角度看,咱们须要了解并整合散落在不同业务团队的数据,做好治理并确保数据拜访的平安,所以整个数据整合的流程是绝对简单的。尽管平台化可能将简单的流程自动化起来,但数据集成工作所固有的高老本并不能齐全以平台化的形式打消。因而尽最大的可能晋升流程的可复用性和可管理性也是数据集成系统须要继续应答的挑战。 基于这两个方向上的挑战,咱们对数据集成平台的设计指标进行了布局。 从技术方向看,咱们须要反对知乎曾经投入使用和未来要推广应用的多种存储系统,具备将这些零碎中多样化的数据进行集成的能力。此外咱们还须要在满足高吞吐,低调度时延的前提下保障数据集成的可靠性和准确性。 从流程方面看,能够通过整合各种外部存储系统的元数据以及调度零碎,复用现有零碎基础设施的能力,达到简化数据接入流程,升高用户接入老本的目标。咱们还心愿可能以平台化的形式为用户提供自助满足数据需要的伎俩,从而晋升数据集成工作的整体效率。 从晋升工作可管理性的角度看,咱们还要保护好数据的血缘关系。让业务更好的去度量数据产出之间的关系,更无效的评估数据产出的业务价值,防止低质量和重复性的数据集成工作。最初咱们须要对所有工作提供系统化的监控和报警能力来保障数据产出的稳定性。 二、历史设计 在知乎的第一代数据集成平台成型前,大量的工作散落在各个业务方本人保护的 crontab 或者自行搭建的各种调度零碎中。在这样的无治理状态下,各项集成工作的可靠性和数据品质都很难失去无效的保障。因而在这个阶段咱们要最迫切解决的是治理上的问题,让数据集成的流程可治理可监控。 因而,咱们整合了各种存储系统的元数据系统,让大家能够在对立的中央看到公司所有的数据资产。而后在调度核心对立治理这些数据的同步工作,由调度核心负责工作的依赖治理。同时调度核心对工作的要害指标进行监控并提供异样告警能力。在这个阶段咱们沿用了从前大家宽泛应用的 Sqoop 来实现 MySQL 和 Hive 之间数据的同步。且在平台建设前期,随着流数据同步需要的呈现,咱们又引入了 Flink 来同步 Kafka 数据到 HDFS。 ...

April 23, 2021 · 2 min · jiezi

关于数据:Fluid-给数据弹性一双隐形的翅膀-自定义弹性伸缩

简介: 弹性伸缩作为 Kubernetes 的外围能力之一,但它始终是围绕这无状态的利用负载开展。而 Fluid 提供了分布式缓存的弹性伸缩能力,能够灵便裁减和膨胀数据缓存。 它基于 Runtime 提供了缓存空间、现有缓存比例等性能指标, 联合本身对于 Runtime 资源的扩缩容能力,提供数据缓存按需伸缩能力。 作者 | 车漾 Fluid 社区 Commiter谢远东 Fluid 社区 Commiter起源 | 阿里巴巴云原生公众号 导读:弹性伸缩作为 Kubernetes 的外围能力之一,但它始终是围绕这无状态的利用负载开展。而 Fluid 提供了分布式缓存的弹性伸缩能力,能够灵便裁减和膨胀数据缓存。 它基于 Runtime 提供了缓存空间、现有缓存比例等性能指标, 联合本身对于 Runtime 资源的扩缩容能力,提供数据缓存按需伸缩能力。背景随着越来越多的大数据和 AI 等数据密集利用开始部署和运行在 Kubernetes 环境下,数据密集型利用计算框架的设计理念和云原生灵便的利用编排的一致,导致了数据拜访和计算瓶颈。云原生数据编排引擎 Fluid 通过数据集的形象,利用分布式缓存技术,联合调度器,为利用提供了数据拜访减速的能力。 弹性伸缩作为 Kubernetes 的外围能力之一,但它始终是围绕这无状态的利用负载开展。而 Fluid 提供了分布式缓存的弹性伸缩能力,能够灵便裁减和膨胀数据缓存。它基于 Runtime 提供了缓存空间、现有缓存比例等性能指标, 联合本身对于 Runtime 资源的扩缩容能力,提供数据缓存按需伸缩能力。 这个能力对于互联网场景下大数据利用十分重要,因为少数的大数据利用都是通过端到端流水线来实现的。而这个流水线蕴含以下几个步骤: 数据提取:利用 Spark,MapReduce 等大数据技术对于原始数据进行预处理。模型训练:利用第一阶段生成特色数据进行机器学习模型训练,并且生成相应的模型。模型评估:通过测试集或者验证集对于第二阶段生成模型进行评估和测试。模型推理:第三阶段验证后的模型最终推送到线上为业务提供推理服务。 能够看到端到端的流水线会蕴含多种不同类型的计算工作,针对每一个计算工作,实际中会有适合的业余零碎来解决(TensorFlow,PyTorch,Spark, Presto);然而这些零碎彼此独立,通常要借助内部文件系统来实现把数据从一个阶段传递到下一个阶段。然而频繁的应用文件系统实现数据交换,会带来大量的 I/O 开销,常常会成为整个工作流的瓶颈。 而 Fluid 对于这个场景非常适合,用户能够创立一个 Dataset 对象,这个对象有能力将数据扩散缓存到 Kubernetes 计算节点中,作为数据交换的介质,这样防止了数据的近程写入和读取,晋升了数据应用的效率。然而这里的问题是长期数据缓存的资源预估和预留。因为在数据生产生产之前,准确的数据量预估是比拟难满足,过高的预估会导致资源预留节约,过低的预估会导致数据写入失败可能性增高。还是按需扩缩容对于使用者更加敌对。咱们心愿可能达成相似 page cache 的应用成果,对于最终用户来说这一层是通明的然而它带来的缓存减速成果是实实在在的。 ...

April 21, 2021 · 5 min · jiezi

关于小程序:淘票票首次公开小程序开发秘籍踩过坑才知道怎么走

简介: 在2019年,阿里巴巴娱乐的淘票票简直涉足了过后市面上所有的小程序。在不少平台上,淘票票是阿里“第一批吃螃蟹”的技术团队。回顾过往,阿里娱乐做过很多尝试,也踩过很多坑。《小程序 大世界》总结了淘票票过来 2 年在各大支流平台上的小程序实战经验,带你重新认识万亿市场规模的小程序实际!2018年是小程序暴发的一年,从国内手机厂商到BAT,再到新兴的头条抖音,纷纷推出或者推广自家的小程序平台。为什么各家如此热衷小程序?每个平台的特点是什么,价值在哪里?这么多小程序咱们该如何涉足?置信大家或多或少都有过这些疑难。 在2019年,阿里巴巴娱乐的淘票票简直涉足了过后市面上所有的小程序。其中在不少平台上,淘票票是阿里第一批吃螃蟹的技术团队。回顾过往,阿里娱乐做过很多尝试,也踩过很多坑。当初阿里娱乐将这些实战经验整理出来,为大家分享淘票票小程序实战之路。 小程序外围:场景融和 小程序跟传统H5有什么区别?从产品和业务角度来说,小程序的外围特点在于“场景交融”。无论是手机厂商,还是支付宝、手淘、微信、头条、抖音、百度等第三方利用,每个平台都有着既定的用户和应用场景。例如,支付宝就是生存服务类场景,头条是内容资讯类场景。每个小程序要思考的,就是如何将本人的产品性能嵌入到平台的应用场景中,实现场景交融。对于小程序自身来说,可能借助于平台的流量和用户做大做强;对于平台来说,则能够借助各种小程序,丰盛应用场景,减少平台的用户粘性,最终实现双赢的后果。这也解释了为什么各家都如此热衷于小程序平台的搭建。 场景定制 场景交融另一个层面意味着场景定制,支付宝跟抖音的产品定位跟应用场景差异很大,各自平台上的小程序也须要有所差别。这也给咱们产品技术层面带来了很大的挑战。如何通过无限的人力,同时反对这么多小程序成了咱们面临的重要问题。对此,咱们次要做了这么几件事: 1、辨别出各个渠道的优先级和重要性,确定重点投入的渠道; 2、将次要渠道和主要渠道做了归类,产品状态上进行聚合,减小差别。例如,在支付宝和手淘这两个次要渠道上,咱们次要是对标淘票票客户端,提供绝对丰盛的性能和玩法;而在其余渠道上,咱们做了性能精简,仅保留外围的购票性能,并且产品状态上趋同; 3、技术架构方面,对各个平台的DSL进行分层优化,将业务逻辑跟界面展现拆散,抽取出通用业务逻辑和Util办法,进步代码的复用度。之后的技术篇会有具体的介绍; 4、为了缩短开发周期,采纳DSL+H5混合利用的形式开发,将UV较高的页面用DSL实现,以便提供较好的用户体验;UV较低的页面采纳原有的H5页面,以便缩小开发量。后续将依据理论状况,调整DSL和H5的比例; 5、终端全栈模式,突破传统Android、iOS、H5技术分工的界线,让Natvie同学也可能开发小程序。小程序整体语法较简略,学习难度相比传统H5较低。理论开发中,更有两位服务端同学通过两周的学习和培训,也参加到小程序的开发中。 场景经营 上线了这么多平台的小程序,咱们有个很深切的领会:小程序相比传统App须要更多的细分场景经营,须要产品技术和经营一起摸索分场景的经营策略。例如,通常咱们会通过流动、优惠等模式做经营推广,以便减少流量。然而咱们发现在头条和抖音平台上,次要流量不是来自于固定入口,而是来自于优良内容举荐。好的内容往往会带来比平时多数倍甚至数十倍的流量。因而,在头条抖音平台上,内容经营的重要性就大大加强了。 (文中图片来自于淘票票小程序截图,仅作为技术利用场景示意,如有侵权咱们将立刻解决) 另外,因为每个渠道小程序平台能力和成熟度不一样,理论工作中会遇到诸多问题。因而在团队组织上,能够采纳业务、产品、技术“铁三角”的小闭环模式,小步快跑,疾速调研,疾速反馈,疾速上线。这样在小程序上线初期可能极大地提高整体效力。 6 大支流平台的小程序进阶之路 回顾淘票票的小程序矩阵的搭建过程,咱们走了一条“进击之路”。接下来我会简略介绍淘票票在各个平台上小程序,之后的系列文章会具体介绍每个平台的场景、实现、遇到的问题以及积淀的教训。 支付宝小程序 在支付宝平台上,淘票票从最后Natvie版本、H5版本,最终转变为小程序版本。支付宝的生存服务类场景跟淘票票是最符合的,平台的用户心智也是最持重的。2018年4月份,咱们正式启动支付宝小程序我的项目,期间经验了根底购票版本,视频Feed流版本,春节五福版本等数个版本迭代,最终造成淘票票小程序矩阵中性能最丰盛的一支。其中视频Feed流是咱们跟支付宝小程序团队独特推动的,支付宝方面为咱们提供了功能丰富的视频组件,使得小程序的Feed流性能成为可能。如果有这方面需要的团队,能够在支付宝小程序平台上尝试。 手淘轻利用 2018年底,咱们启动了手淘轻利用我的项目,用两个月工夫,经验两个版本迭代。在春节档,手淘平台给淘票票奉献了大量的流量。在手淘轻利用我的项目中,咱们遇到的次要问题是技术选型。手淘轻利用技术实现计划有几种抉择:Rax、SFC、AppX,其中Rax利用最宽泛,也最成熟,上线的小程序少数采纳这个实现计划。然而因为咱们曾经开发完支付宝小程序,应用的是AppX,过后手淘容器对于AppX的反对绝对较弱,最终为了保障赶上春节档,咱们决定采纳Rax来实现。随着Rax一直倒退,能力也越来越强,咱们近期也在钻研基于Rax的对立小程序技术体系。 快利用 在快利用正式公布前,咱们就始终关注着快利用的倒退,因为这是小程序矩阵中惟一不依赖于第三方利用装置,就能直接触达用户的平台。2018年初,在快利用SDK公开不久,咱们就着手预研。过后还没有明确的应用场景,于是咱们启动了翻新孵化类我的项目,由技术主导,边摸索边开发,最终推动产品上线。快利用也是淘票票小程序矩阵中惟一翻新孵化类产品,为咱们摸索新技术的翻新落地积攒了教训。另外值得一提的是,目前快利用能够间接应用淘宝账号登录,咱们也正在跟阿里其余团队一起摸索快利用的联动。 字节跳动小程序 头条和抖音是近几年倒退迅猛的App,2018年10月也推出了本人的小程序平台。头条的场景是内容资讯,抖音的场景是内容娱乐,从场景上说跟淘票票的购票场景相距较远。然而咱们仍然决定要进入这个小程序平台,因为对于阿里娱乐来说,有一块很重要的业务是电影宣发。头条和抖音这两个场景在电影宣发畛域有这比拟大的价值。 咱们从2018年9月份开始与头条、抖音方面沟通,10月正式启动我的项目。这个我的项目过程中的崎岖也很多,面临外部内部各方面的问题。咱们本身方面,我的项目周期跟淘票票的春节档重合,研发资源抵触很大。而春节档是咱们极为重要的档期,这相当于电影人的“双11”。阿里外部共建方面,咱们面临了相似于微信小程序的问题,账号和交易局部须要团体业务平台团队提供帮助。然而我的项目周期跟团体的“双11”、“双12”重合,于是又遇到资源抵触问题,整体推动困难重重。不过通过各方致力,我的项目还是顺利上线。 百度小程序 在头条小程序我的项目的同期,咱们又并行了百度小程序的我的项目。从技术方面讲,有后面多个小程序作为根底,同时咱们又通过Taro进行小程序统一化革新,整体效率绝对较高。值得提一点的是,在百度App的各个子场景中,贴吧的入口很值得去经营。跟小程序自身性能关联大的贴吧可能带来不错的流量。 微信小程序 这是咱们最早启动调研的一个小程序,然而却是上线最晚的。2017年8月份,咱们开始进行微信小程序调研,然而技术计划上却遇到了微小的妨碍。次要问题集中在账号、交易、领取等环节。直到2019年6月,咱们磨难了两年的微信小程序终于上线。2019年底,咱们又为影院定制了一套面向影城的小程序计划,帮忙影院进行微信渠道的私域经营。 回顾这条“进击之路”,其中的崎岖和苦痛兴许只有本人晓得。在最缓和的时候,淘票票有四个平台的小程序并行,然而作为阿里技术人,咱们不惧艰苦,不惧挑战!用技术和激情,乘风破浪,勇攀高峰!原文链接本文为阿里云原创内容,未经容许不得转载。

April 15, 2021 · 1 min · jiezi

关于电商架构:逸仙电商Seata企业级落地实践

简介:本文将会以逸仙电商的业务作为背景, 先介绍一下seata的原理, 并给大家进行线上演示, 由浅入深去介绍这款中间件, 以便读者更加容易去了解 Seata 这个中间件。作者 | 张嘉伟(GitHub ID:l81893521)就任于逸仙电商交易中心;Seata Committer,退出 Seata 社区已有一年半,见证了从 Fescar 到 Seata 的变更,GA等。 你可能没有据说过逸仙电商,然而你的女朋友不可能没有据说过它。逸仙电商旗下有完满日记、小奥汀、完子心选等品牌。完满日记作为国货美妆界的黑马用了不到三年工夫,达到了行业龙头企业通常须要十年以上能力达到的营收规模。2020 年正式登陆纽约证券交易所,成为第一家在美国上市的“国货美妆品牌”。在快速增长的业务下,零碎流量增长速度越来越快,服务数量一直增多,调用链路盘根错节,数据不统一的问题日渐浮现,为了升高人力老本和系统资源,咱们抉择了 Seata。本文将会以逸仙电商的业务作为背景, 先介绍一下seata的原理, 并给大家进行线上演示, 由浅入深去介绍这款中间件, 以便读者更加容易去了解 Seata 这个中间件。 问题背景在微服务的架构下,数据不统一的产生起因业务介绍筛选了逸仙电商一些比较简单易懂的业务作为发展背景原理剖析Seata的实现原理和故障解决以及部署计划Demo演示如何在线体验这款中间件,无需整合和下载任何代码数据不统一的起因在微服务的环境下,因为调用链路逾越多个利用,甚至逾越多个数据源,数据的一致性在一般状况下难以保障,导致数据不统一的起因十分多,这里列举了三个最常见的起因 业务异样一个服务链路调用中,如果调用的过程呈现业务异样,产生异样的利用独立回滚,非异样的利用数据曾经长久化到数据库。网络异样调用的过程中,因为网络不稳固,导致链路中断,局部利用业务执行实现,局部利用业务未被执行。服务不可用若服务不可用,无奈被失常调用,也会导致问题的产生这里筛选了逸仙电商业务体系外面一个十分艰深容易了解的调用形式,并且去掉了多余简单的链路,不便在浏览过程中更加关注重点。在以往如果呈现数据不统一的问题,置信大多数的解决方案是这样的• 人工弥补数据• 定时工作检查和弥补数据然而这两种形式的毛病也是显然意见的,一种是节约大量的人力老本和工夫,另外一种是节约大量的系统资源去检查数据是否统一和额定的人力老本。接下来我会依据逸仙在生产上稳固运行将近一年总结的教训并且尽可能简略的去形容Seata是如何保证数据统一的。原理 在接触一项新技术之前,咱们应该先从宏观的角度去了解它大略蕴含些什么。在Seata中,它大略分为以下三个角色。• 黄色,Transaction Manager(TM),client端• 蓝色,Resource Manager(RM),client端• 绿色,Transaction Coordinator(TC),server端你能够依据色彩,名字,缩写甚至客户端/服务端去辨别这三者的关系,同时简略去了解它们每一个本身的职责大略是要干些什么事件,前面的解说我也会放弃一样的色彩和名字来辨别它们。 Seata其中只一个外围是数据源代理,意味着在你执行一句Sql语句时,Seata会帮你在执行之前和之后做一些额定的操作,从而保证数据的一致性,并且尽可能做到无感知,让你应用起来感觉十分不便和神奇。这里首先要去了解两个知识点。• 前置镜像(Before Image):保留数据变更前的样子• 后置镜像(After Image):保留数据变更后的样子• Undo Log:保留镜像有时候新我的项目接入的时候,有共事会问,为什么事务不失效,如果你也遇到过同样的问题,那首先要检查一下本人的数据源是否曾经代理胜利。当执行一句Sql时,Seata会尝试去获取这条/批数据变更前的内容,并保留到前置镜像中(Insert语句没有前置镜像),而后执行业务Sql,执行完后会尝试去获取这条/批数据变更后的内容,并保留到后置镜像中(Delete语句没有后置镜像),之后会进行分支事务注册,TC在收到分支事务注册申请时,会长久化这些分支事务信息和依据操作数据的主键为维度作为全局锁并长久化,可选长久化形式有• file• db• redis在收到TC返回的分支注册胜利响应后,会把镜像长久化到利用所在的数据源的Undo Log表中,最初提交本地事务。以上所有操作都会保障在同一个本地事务中,保障业务操作和Undo Log操作的原子性一阶段 了解了单个利用的解决流程,再从一个齐全的调用链路,去看Seata的处理过程,置信了解起来会简略很多, 首先一个应用了@GlobalTransactional的接口被调用,Seata会对其进行拦挡,拦挡的角色咱们称之为TM,这个时候会拜访TC开启一个新的全局事务,TC收到申请后会生成XID和全局事务信息并长久化,而后返回XID。在每一层的调用链路中,XID都必须往下传递,而后每一层都通过之前说过的解决逻辑,直到执行实现/异样抛出。直到目前,一阶段曾经执行实现。另外一个须要留神的问题是,如果发现事务不失效,须要查看XID是否胜利往下传递二阶段提交如果在整个调用链路的过程,没有产生任何异样,那么二阶段提交的过程是非常简单而且十分的高效,只有两步• TC清理全局事务对应的信息• RM清理对应Undo Log信息二阶段回滚 若调用过程中出现异常,会主动触发反向回滚反向回滚示意,如果调用链路程序为 A -> B -> C,那么回滚程序为 C -> B -> A。例:A=Insert,B=Update,如果回滚时不依照反向的程序进行回滚,则有可能呈现回滚时先把A删除了,再更新A,引发谬误在回滚的过程中有可能会遇到一种十分极其的状况,回滚到对应的模块时,找不到对应的Undo Log,这种状况次要产生在• 分支事务注册胜利,然而因为网络起因收不到胜利的响应,Undo Log未被长久化• 同时全局事务超时(超时工夫可自在配置)触发回滚这时候RM会长久化一个非凡的Undo Log,状态为GlobalFinished。因为这个全局事务曾经回滚,须要防止网络复原时,未长久化Undo Log的利用收到了分支注册胜利的响应和长久化Undo Log,并提交本地最终引发的数据不统一。读已提交因为在一阶段的时候,数据曾经保留到数据库并提交,所以Seata默认的隔离级别为读未提交,如果须要把隔离级别晋升至读已提交则须要应用@GlobalLock标签并且在查问语句上加上for update@GlobalLock@Transactionalpublic PayMoneyDto detail(ProcessOnEventRequestDto processOnEventRequestDto) { ...

April 15, 2021 · 3 min · jiezi

关于fluid-layout:Fluid给数据弹性一双隐形的翅膀-1-自定义弹性伸缩

简介:弹性伸缩作为Kubernetes的外围能力之一,但它始终是围绕这无状态的利用负载开展。而Fluid提供了分布式缓存的弹性伸缩能力,能够灵便裁减和膨胀数据缓存。 它基于Runtime提供了缓存空间、现有缓存比例等性能指标, 联合本身对于Runtime资源的扩缩容能力,提供数据缓存按需伸缩能力。作者| 车漾 Fluid社区Commiter作者| 谢远东 Fluid社区Commiter背景随着越来越多的大数据和AI等数据密集利用开始部署和运行在Kubernetes环境下,数据密集型利用计算框架的设计理念和云原生灵便的利用编排的一致,导致了数据拜访和计算瓶颈。云原生数据编排引擎Fluid通过数据集的形象,利用分布式缓存技术,联合调度器,为利用提供了数据拜访减速的能力。 弹性伸缩作为Kubernetes的外围能力之一,但它始终是围绕这无状态的利用负载开展。而Fluid提供了分布式缓存的弹性伸缩能力,能够灵便裁减和膨胀数据缓存。 它基于Runtime提供了缓存空间、现有缓存比例等性能指标, 联合本身对于Runtime资源的扩缩容能力,提供数据缓存按需伸缩能力。这个能力对于互联网场景下大数据利用十分重要,因为少数的大数据利用都是通过端到端流水线来实现的。而这个流水线蕴含以下几个步骤: 数据提取,利用Spark,MapReduce等大数据技术对于原始数据进行预处理模型训练,利用第一阶段生成特色数据进行机器学习模型训练,并且生成相应的模型模型评估,通过测试集或者验证集对于第二阶段生成模型进行评估和测试模型推理,第三阶段验证后的模型最终推送到线上为业务提供推理服务能够看到端到端的流水线会蕴含多种不同类型的计算工作,针对每一个计算工作,实际中会有适合的业余零碎来解决(TensorFlow,PyTorch,Spark, Presto);然而这些零碎彼此独立,通常要借助内部文件系统来实现把数据从一个阶段传递到下一个阶段。然而频繁的应用文件系统实现数据交换,会带来大量的 I/O 开销,常常会成为整个工作流的瓶颈。而Fluid对于这个场景非常适合,用户能够创立一个Dataset对象,这个对象有能力将数据扩散缓存到Kubernetes计算节点中,作为数据交换的介质,这样防止了数据的近程写入和读取,晋升了数据应用的效率。然而这里的问题是长期数据缓存的资源预估和预留。因为在数据生产生产之前,准确的数据量预估是比拟难满足,过高的预估会导致资源预留节约,过低的预估会导致数据写入失败可能性增高。还是按需扩缩容对于使用者更加敌对。咱们心愿可能达成相似page cache的应用成果,对于最终用户来说这一层是通明的然而它带来的缓存减速成果是实实在在的。咱们通过自定义HPA机制,通过Fluid引入了缓存弹性伸缩能力。弹性伸缩的条件是当已有缓存数据量达到肯定比例时,就会触发弹性扩容,扩容缓存空间。例如将触发条件设置为缓存空间占比超过75%,此时总的缓存空间为10G,当数据曾经占满到8G缓存空间的时候,就会触发扩容机制。上面咱们通过一个例子帮忙您体验Fluid的主动扩缩容能力。前提条件举荐应用Kubernetes 1.18以上,因为在1.18之前,HPA是无奈自定义扩缩容策略的,都是通过硬编码实现的。而在1.18后,用户能够自定义扩缩容策略的,比方能够定义一次扩容后的冷却工夫。具体步骤1.装置jq工具不便解析json,在本例子中咱们应用操作系统是centos,能够通过yum装置jqyum install -y jq2.下载、装置Fluid最新版git clone https://github.com/fluid-clou...cd fluid/chartskubectl create ns fluid-systemhelm install fluid fluid3.部署或配置 Prometheus这里通过Prometheus对于AlluxioRuntime的缓存引擎裸露的 Metrics 进行收集,如果集群内无 prometheus:$ cd fluid$ kubectl apply -f integration/prometheus/prometheus.yaml如集群内有 prometheus,可将以下配置写到 prometheus 配置文件中:scrape_configs: job_name: 'alluxio runtime' metrics_path: /metrics/prometheus kubernetes_sd_configs: - role: endpointsrelabel_configs: source_labels: [__meta_kubernetes_service_label_monitor] regex: alluxio_runtime_metrics action: keepsource_labels: [__meta_kubernetes_endpoint_port_name] regex: web action: keepsource_labels: [__meta_kubernetes_namespace] target_label: namespace replacement: $1 action: replacesource_labels: [__meta_kubernetes_service_label_release] target_label: fluid_runtime replacement: $1 action: replacesource_labels: [__meta_kubernetes_endpoint_address_target_name] target_label: pod replacement: $1 action: replace4.验证 Prometheus 装置胜利$ kubectl get ep -n kube-system prometheus-svcNAME ENDPOINTS AGEprometheus-svc 10.76.0.2:9090 6m49s$ kubectl get svc -n kube-system prometheus-svcNAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGEprometheus-svc NodePort 172.16.135.24 <none> 9090:32114/TCP 2m7s如果心愿可视化监控指标,您能够装置Grafana验证监控数据,具体操作能够参考文档 ...

April 14, 2021 · 4 min · jiezi

关于okr:OKR落地四部曲vika维格表帮你快速养成OKR思维

Hi,你们的老船长维卡比又来了~ 上周维卡比和大家聊了一些对于 PMO 治理的常识,起初有许多用户跟维卡比说,想要再多理解治理相干的内容,那明天维卡比就和大家聊聊另一个在企业治理中具备战略意义的管理模式:OKR~ 什么是 OKR?咱们当初很多企业都在讲 OKR,所谓 OKR,其实就是指标管理体系,是 Objectives 和 Key Results 的缩写,即指标与要害后果法。这是一套明确和跟踪目标及其实现状况的管理工具和办法。 这种治理办法始于 Intel,昌盛于 Google,而最近这几年来,在国内更有有数大佬为其站台,像字节跳动、百度、知乎、美团、华为等大型企业也都在利用 OKR 的管理模式。 为什么那么多的大型企业都热衷于 OKR?OKR 管理模式的魅力在于它可能帮忙企业聚焦指标,激发员工的创造力,让企业运行更高效且更具生机,让员工自发地从「要我做」向「我要做」的方向转变。 尽管很多企业都想推广 OKR,但最终却变成了模式上 OKR,骨子里还是 KPI,而且特地容易将 OKR 作为考核指标,甚至并不将 OKR 公开透明化……往往到起初还是失败。 其实,OKR 的制订也是有一些窍门的,明天维卡比和大家一起探讨一下~ 四部曲:OKR 疾速落地1) 为什么要用 OKR?首先,咱们要分明地意识,OKR 是一套明确和跟踪目标及其实现状况的管理工具和办法,其外围价值在于帮忙企业聚焦重要指标,通过层层合成,保障企业全体成员指标的整体统一,不容易跑偏,从而以高效的合作推动具体事务,达成企业指标。 在 OKR 制订履行的过程中,其自身就具备一种外在能源,能够让每个员工都酷爱本人的工作,施展更多的主动性,实现自我指标激励,促成团队成员的自我胜利。 当然,咱们要利用 OKR 工具,还有一点须要特地留神,就是要晓得这个 O(指标)要怎么定?定什么样的 O(指标)才是正确的?KR(要害成绩)又要如何确定?只有当指标、要害后果、工作执行对立细化,OKR 能力真正施展其外围价值。 2) 如何制订 OKR?在咱们制订 OKR 之前,必须要理解 OKR 的制订准则: 高低对齐指标:指标要通明,让所有部门、员工都可能在制订指标的时候,能够往上一级指标对齐。 挑战性:OKR 的制订最好是具备肯定的挑战性,能够激励团队获得超出他们设想中的成就。 可量化执行:每一个指标都必然是可实现的,能够量化考核,拆解并落实到集体执行的。 有工夫限度:最重要一点,制订的指标必须是有实现工夫限度,能够依照年度、季度、月度、每周进行设定。 ...

April 13, 2021 · 1 min · jiezi

关于数据:产业安全专家谈丨数字经济高速发展数据要素安全该如何保障

往年“两会”期间,“数字经济”成为高频热词。数字经济之下,数据已成为推动产业转型降级、放慢数字社会建设的重要的生产因素。 不过,在数字经济带来倒退新机遇的同时,数据安全的局势亦不容乐观。公开材料显示,2020年寰球数据泄露的均匀经济损失为1145万美元。 面对数据泄露带来的危险,国内相干法律法规不断完善。针对国家法律法规及相干规范对企业提出的数据安全防护合规要求,企业该如何应答?如何高效通过明码合规的新难题?由腾讯平安联结云+社区打造的「产业平安专家谈」第二十八期就邀请到了腾讯平安云鼎实验室高级研究员谢灿,全面透析企业数据加密的策略和布局,并分享腾讯平安保障数据因素平安的落地利用。https://www.qq.com/video/g323... Q1:在前不久完结的“两会”上,“数字经济”成为一个被频繁提及的热词。那么数据在数字经济倒退过程中承当了什么样的角色? 谢灿:从宽泛意义上讲,但凡间接或间接利用数据来疏导资源发挥作用,推动生产力倒退的经济状态都能够纳入数字经济的领域。 2020年,寰球禁受了新冠疫情的重大考验。在这样的考验下,数字政务、新批发、新文旅等在中国失去了进一步倒退,也充沛展示了数字经济的微小后劲。咱们说,资本、技术是工业经济的要害生产因素,那么数据则是数字经济时代要害生产因素。企事业单位利用好,施展好数据价值,是数字经济时代业务翻新、晋升生产力的最次要能源。 Q2:数据的重要性一直晋升,近年来企业数据安全事变也不足为奇,那么数据安全面临的危险次要有哪些? 谢灿:数字经济的外围是数据与产业的交融,其前提是数据的利用。数据在采集、共享、剖析、流动与应用等环节都将面临不同层面的危险,这包含数据产权、数据流通、跨境传输和平安爱护等层面的危险问题。 从繁多数据安全层面上讲,在数据的生产录入与上传过程中,可能会遇到身份冒用的危险;在传输过程中,未妥善加密的数据面临着被黑客挟持等内部威逼;海量数据上传归集到大数据平台后,可能会面对拖库、撞库、误操作等大数据平台危险;解决完的数据,会流向各类办公人员,该环节也可能产生人员泄密,敏感数据失控外传等外部泄密问题。能够说,数据安全的危险理论是贯通在数据全生命周期,须要基于信息安全技术,实现数据端到端的机密性、完整性、真实性、不可否认性的爱护。 Q3:目前,国家法律法规以及相干规范对企业的数据安全防护有哪些硬性的合规要求?企业应该如何应答? 谢灿:从合规性要求上,国内在倒退数据隐衷的合规性标准规范方面更为成熟,如GDPR 、PCI DSS或者是ISO27001等。不过近年来,国内在数据安全这一畛域也一直推出了一些法律法规,从最后的《网络安全法》到《明码法》,以及正在制订的《数据安全法》、《个人信息保护法》等,都在对数据安全和个人信息方面做出比拟体系的标准。 其中,《明码法》以及GB/T 39786-2021《信息安全技术 信息系统明码利用根本要求》针对基于明码技术的数据安全防护提出规范性的要求。同时,针对要害基础设施以及等保三级零碎,推出了《商用明码利用安全性评估》要求,确保在倒退数字经济的前提下,数据安全防护卓有成效。 政务、泛金融、交通、教育以及央企等行业,会最先面临相应的标准和要求。针对这些行业,咱们倡议首先对相干的合规要求进行剖析,同时对本人的数据进行梳理,再去剖析如何使用相应的平安防护形式,从而造成一个体系化的落地计划。 Q4:刚刚提到的基于明码技术实现数据安全防护,用明码技术来爱护数据有哪些劣势,企业用好明码又有哪些难点? 谢灿:信息安全的实质实际上是爱护信息的机密性-不被泄露,完整性-不被篡改,真实性-身份不被冒用,以及不可否认性-抗抵赖,这些都能够通过明码技术失去比较完善的保障。比方当初大家曾经比拟相熟的比特币、数字人民币等,它们还有个名字叫做“加密货币”,也是利用明码技术实现信息的高度平安保障。能够说,明码技术是构建网络安全和信赖体系的核心技术和根底撑持。 其实,明码技术看似离咱们很远,但在日常生活中却常常会用到它。然而从一个数学学科的角度来看明码技术的话,它用起来还是比较复杂的。 从国内明码市场现状来看,明码技术次要面临三大难点——难做,难用,难管。难做是开发门槛高,须要技术人员对明码技术进行肯定的把握;难用是明码算法、明码产品、明码利用三者脱节,须要大量的开发工作;难管是明码利用扩散,行业不足对立的规范,咱们在运维管理工作下面会存在肯定的难度。 Q5:针对企业进行明码革新的难点和挑战,腾讯有哪些能力和解决方案? 谢灿:金融、政务、交通、能源、制作等要害行业、以及相应的政务云、金融云、大数据平台等零碎平台都是数据安全防护的重点要求对象。 针对用户的数据安全挑战以及明码利用合规的难点,咱们推出合规明码利用解决方案,外围指标是帮忙用户以最小的老本来满足数据安全防护以及明码合规的一些要求;根底思维是将明码技术以服务化、组件化的形式,对外提供数据安全服务,提供从终端身份认证、传输平安、存储平安以及运维治理等等方向的能力,实现数据从获取到传输、剖析、应用、生产整个过程的数据安全防护,帮忙企业应答数字经济时代的一些数据安全挑战。 Q6:是否联合相干实际案例,谈一谈合规明码利用解决方案的劣势? 谢灿:第一,平安交融。数字经济的根底是网络基础设施与智能信息技术,咱们这套数据安全体系能够无缝交融到基础设施架构里,实现基础架构自带平安; 第二,明码即服务。咱们后面提到明码技术利用的一些难点,基于腾讯云合规明码利用解决方案,咱们将简单的明码运算以及明码设计转换成数据安全服务,大大降低明码利用难度;存储平安上,咱们提供的云拜访平安代理CASB服务,只须要通过简略的配置就能够实现数据存储的机密性和完整性爱护,而且能够满足国家明码管理局的相干合规性要求; 第三,默认合规。数据安全中台基于明码技术的身份认证、传输平安、存储平安、治理平安等组件确保具备商用明码产品认证证书;平安架构设计上,基于交融设计,实现基础架构的默认合规,缩小用户的合规老本。

April 7, 2021 · 1 min · jiezi

关于数据:Gartner发布2021年一定要关注的十大数据和分析技术趋势

Gartner近日颁布了2021年十大数据和剖析技术趋势,这些技术趋势将帮忙企业组织应答这一年中的各种变动、不确定性和时机。 Gartner卓越钻研副总裁Rita Sallam示意:“疫情给企业组织带来颠覆的速度,迫使数据和剖析领导者必须采纳失当的工具和流程应答这些关键技术趋势,对那些可能会给他们竞争劣势带来最大潜在影响的技术趋势设置更高优先级。” 数据和剖析领导者应该把以下10个技术趋势作为他们的要害投资方向,增强他们预测、转移和响应的能力。 趋势1:更智能、负责任的、可扩大的AI人工智能(AI)和机器学习(ML)正在带来更大的影响,这就要求企业采纳新技术构建更智能的、耗费数据更少的、合乎道德准则的、更具弹性的AI解决方案。企业组织通过部署更智能、更负责任的、更可扩大的AI,将利用学习算法和可解释的零碎,减速价值实现,给业务带来更大影响力。 趋势2:可组合式的数据和剖析凋谢的、容器化的剖析架构让数据分析性能可组合性更强。可组合式的数据分析利用来自多个数据、剖析和AI解决方案的组件,疾速构建灵便且用户敌对型的智能利用,从而帮忙数据分析领导者将洞察和口头连贯在一起。 随着数据重心转移到云端,可组合式的数据分析将成为一种更加麻利的形式,开发反对云市场、低代码和无代码解决方案的剖析利用。 趋势3:数据架构是根底更高水平的数字化和不再受约束的消费者,推动着数据分析领导者越来越多地应用数据架构来一个对企业组织数据资产日益加剧的多样化、分布式、规模和复杂性。 数据架构利用剖析性能来继续监控数据管道,通过对数据资产的继续剖析,反对各种数据的设计、部署和应用,缩短集成工夫30%,缩短部署工夫30%,缩短保护工夫70%。 趋势4:从大数据到小数据、宽数据疫情给企业带来的极其改革,导致那些基于大量历史数据的机器学习和人工智能模型变得不那么重要了。同时,由人类和AI做出的决策变得更加简单和刻薄,要求数据分析领导者领有更多品种的数据能力更好地理解态势。 因而,数据分析领导者应该抉择那些能够更无效地利用可用数据的剖析技术。数据分析领导者依赖于所谓的“宽数据”和“小数据”,宽数据能够对各种小型的、大型的、非结构化的、结构化的数据源进行剖析和协同,小数据指的是那些须要较少数据但仍提供有用见解的剖析技术利用。 Sallam示意:“小数据和宽数据提供弱小的剖析和人工智能性能,升高了企业组织对大数据集的依赖性,而且通过应用宽数据,企业组织还能够取得更丰盛、更残缺的、全方位的态势感知,使他们可能使用剖析来做出更好的决策。” 趋势5:XOpsXOps(包含DataOps、MLOps、ModelOps和PlatformOps)的指标是利用DevOps最佳实际来实现效率和规模经济,确保可靠性、可重用性和可重复性,同时缩小技术和流程的反复,实现自动化。 大多数剖析和人工智能我的项目都因为仅仅在预先能力解决可操作性问题而失败了。如果数据分析领导者利用XOps进行大规模经营,将实现剖析和人工智能资产的再生性、可追溯性、完整性和可集成性。 趋势6:工程决策智能工程决策智能不仅实用于单个决策,还实用于决策序列,可将其分为多个业务流程,甚至是突发决策和后果形成的多个网络。随着决策失去加强并且越来越自动化,工程决策让数据分析领导者有机会做出更精确、可反复、通明和可追溯的决策。 趋势7:数据和剖析是一项外围业务性能数据分析不再是一个主要我的项目,而是变成了外围的业务性能。在这种状况下,数据分析变成与业务成绩统一的共享业务资产,而且因为地方和联结数据分析团队之间可能更好地开展合作,数据分析孤岛问题也失去了解决。 趋势8:关联所有的图形技术图形技术形成了很多古代数据分析性能的根底,能够在各种数据资产之间找到人、中央、事物、事件和地位之间的关系。数据分析领导者依附图形技术疾速答复简单的业务问题,而这些问题往往须要上下文感知,以及了解多个实体之间的关联实质。 Gartner预测,到2025年图形技术将被用于80%的数据分析翻新我的项目中,高于2021年的10%,从而促成整个企业组织的疾速决策。 趋势9:增强型消费者的崛起现在大多数企业用户应用的是预约义的仪表板和手动数据浏览性能,这可能导致论断、决策和操作失误,而主动的、对话式的、挪动且动静生成的洞察将取代预约义的仪表板,可依据用户需要进行定制,交付给生产方。 Sallam示意:“这将推动剖析能力转移到信息消费者——增强型消费者,让他们具备那些以前只有分析师和数据科学家能力领有的能力。” 趋势10:边缘地位的数据和剖析数据、剖析和其余反对技术正在被越来越多地使用于边缘计算环境中,并且这些技术更凑近物理资产所在的地位,位于IT权限范畴之外。Gartner预测,到2023年超过50%的数据分析领导者的主要职责将波及到在边缘环境中创立、治理和剖析的数据。 数据分析领导者能够利用这一趋势来进步数据管理的灵活性、速度、治理和弹性。从反对实时事件剖析到实现“物”的自主行为,各种各样的应用场景正在吸引着人们对数据分析边缘能力的趣味。

April 7, 2021 · 1 min · jiezi

关于量化:WonderTrader架构详解之二从数据说起

前言 《WonderTrader架构详解》系列文章,上周介绍了一下WonderTrader的整体架构。本文是该系列文章的第二篇,次要介绍WonderTrader数据处理的机制。 往期文章列表: WonderTrader架构详解之一——整体架构数据的分类 量化平台对于数据的依赖无需多言,量化平台除了作为数据的消费者以外,同时又是数据的生产者。对于一个量化平台,须要跟不同的数据打交道。 量化平台解决不同类型的数据的时候,为了达到更好的解决效率,会采纳不同的解决形式。那么数据又怎么分类呢?笔者按照本人多年的教训,大略将数据分为以下几类: 1、从工夫角度辨别 从工夫角度辨别,咱们能够把数据分为实时数据和历史数据。 实时数据,次要针对行情数据,包含实时的tick数据、分钟线数据,以及股票level2数据。 实时数据对于策略的重要性自不用多说,信号触发、止盈止损、危险管制都离不开实时数据,这就要求实时数据的解决必须满足两个根本条件:疾速和稳固。疾速指的是处理速度要快,不能因为解决数据而减少太多的延时;稳固指的是数据不能失落,要疾速长久化。除此之外,实时数据还有一些别的特点:个别状况下数据量绝对历史数据较少、数据拜访频率低等等。历史数据,也是次要针对行情数据,包含历史分钟线、历史高频数据如tick和股票level2数据。也包含基本面数据、异类数据等,因为这类数据更新频率个别较低,基本上也能够归为历史数据。 和实时数据不同,历史数据在一个交易日的范畴内能够看作是静态数据。历史数据的特点是:数据量大、拜访频率低、拜访个别依照工夫范畴筛选数据。这样的特点,就要求历史数据在存储的时候必须要思考检索的便利性、存储的老本、治理的便利性等问题。此外,还须要思考一些特地的场景下的需要,诸如:是否要给投研人员间接查阅、是否要对外提供数据服务等。2、从频率角度辨别 从频率角度辨别,咱们能够把数据分为高频数据和低频数据。 高频数据,咱们个别指的是以秒甚至毫秒为单位更新的数据,如前文提到的tick数据和股票的level2数据。 高频数据个别数据量都十分大,以A股level2数据为例,以csv形式存储的话,一天的数据量几十个G是没有问题的。这样大的数据量,如果放到关系型数据库中,那基本上就是劫难了。另外,实时的高频数据对提早也十分敏感,如国内期货的tick数据是500ms一笔,如果解决时速度慢,下一个时刻的tick进来的时候,还有很多数据没有解决完,就会造成数据提早太大,缓冲队列长度一直减少,对于策略来说也是一种劫难。低频数据,咱们个别指的是分钟线以上周期的K线数据、财务数据,以及其余更新工夫距离在1分钟以上的数据。 低频数据绝对高频数据来说,数据量就小了很多。以A股数据为例,tick数据3秒一笔,1分钟线的数据量是tick数据的1/20,而5分钟线的数据量是tick数据的1/100。因为低频数据的数据量不大,咱们在存储低频数据的时候,也有了更多的抉择余地。关系数据库、文件系统、NoSQL数据库等等,都能够依据不同的应用场景列入抉择的范畴。3、从起源角度辨别 从起源角度辨别,咱们能够把数据分为行情数据、交易数据和平台数据。 行情数据,咱们解决数据的外围还是围绕行情数据开展的。 行情数据,次要指的就是从行情接口接入的实时行情数据,以及通过数据伺服对实时行情数据做再加工而失去的各种二次数据,策略的计算都只针对行情数据进行的。行情数据处理得好,能够节约读取的工夫,晋升策略的处理速度。行情数据再加工的数据品质,也是影响策略体现的一个因素。因为行情数据的特殊性,所以行情接口都只会推送最新的快照信息过去,这就要求如果须要应用更早的行情数据,就必须本人解决实时行情数据落地的工作,还得向应用模块提供数据拜访的接口。交易数据,次要指的是从交易接口获取到的交易相干的数据,诸如资金数据、持仓数据、订单数据等。 交易数据和行情数据不同,因为交易数据会在交易柜台保护一个残缺的数据,所以咱们能够通过交易接口拿到最新的交易数据,而不须要本人去做落地和保护。另一方面,思考到多点登录等状况,咱们也不能齐全信赖本地缓存的交易数据,而须要实时同步柜台的交易数据。这其实对于平台来说,是升高了保护的难度,只须要每次登录交易通道的时候做一次同步,前面就能够依据回报自动更新了。平台数据,次要指的是平台作为数据的生产者生产的数据,如策略输入的信号、策略的实践部位和实践资金等数据。 平台生成的数据,是对策略的绩效进行剖析来说十分重要的数据,这外面包含逐笔的成交数据、每一个进出场的残缺的回合数据(平仓明细),以及每天开盘后的资金数据。这样的数据一般来说都不会太多,毕竟个别状况下,交易信号的数量是远小于行情数据的数量的。同理,这样的数据更新频率也不会太高,所以对于存储的要求也没有那么高。数据的存储 后面大抵介绍了一下对数据的分类。不同类的数据如何存储呢?如何兼顾读写的效率和便捷性呢?不同的应用场景又如何抉择存储形式呢?数据的安全性又如何保障呢? 1、根本准则 WonderTrader在存储数据的时候,遵循以下根本准则: 效率优先 效率优先,次要指的是数据读写的效率要尽量高,一方面是实时数据的接管处理速度快,而策略在应用最新数据的时候也要尽可能的高效拜访,另一方面是历史数据的读取速度快。便于管理 便于管理,也分两个方面:一个方面是数据的可维护性要强,因为数据出错的状况总是难以避免的,而数据的存储,不能影响数据的可维护性。另一方面是要便于迁徙,因为在部署新的策略执行节点的时候,总是须要一些历史数据的,如果不便于迁徙,那么新部署策略执行节点就会十分麻烦。2、存储形式比照 在WonderTrader迭代的过程中,笔者也已经用过不少存储形式。大抵上分为文件存储、关系数据库、分布式数据库三种形式。 文件存储 文件存储,最简略也最难,对开发也有肯定要求。简略在于不依赖任何服务,轻易什么语言都能很容易的对文件进行读写。难点在于,如何设计一个正当的文件数据格式,才可能满足业务场景的须要,让读写更高效,这对架构和开发的要求还是比拟高的。文件读写的速度个别都很快,因为没有冗余,都是程序间接拜访。一些处理速度要求高的场景,利用mmap把文件映射到内存中,处理速度会更快,而且还不会失落数据(除非硬盘坏掉)。笔者刚开始入行的时候,是一家股票数据供应商,就是用的这种形式存储数据。而WonderTrader最终也是采纳的文件存储的形式,尽管两头兜了一个大圈才绕回来。关系数据库 关系数据库,作为数据存储的传统主力,始终占用一席之地。关系数据库,如MYSQL、MSSQL和Oracle等,对于结构化的数据十分敌对,尽管读写效率不如文件存储,因为要建设索引,还要引入额定的空间占用,然而对于大部分低频数据的存储还是可能满足的。数据库存储有一个最好的益处就是个别数据库都有可视化管理工具,十分不便对数据进行治理。如果要搭建一个投研平台,要不便团队外部成员查看数据的话,那么关系数据库会是一个不错的抉择。WonderTrader的历史数据也反对MYSQL存储的形式。分布式数据库 分布式数据库是时下大数据浪潮下的宠儿。笔者之前在一家量化私募工作的时候,专门调研过过后比拟支流的一些分布式数据库,包含Hadoop、Cassandra、Mysql集群等。笔者认为,分布式数据库存储的实现和关系型数据库没有太大的差异,而分布式数据库的外围在于数据的安全性(有备份)和事务处理的并发性。对于量化平台来说,数据存储不会有特地简单的业务逻辑,所以不必放心分布式事务这方面的问题,外围关注的点还是在于查问数据能够在多个节点并发执行,从而提高效率。笔者认为,分布式数据库是比拟适宜较大的量化团队或者钻研团队应用的,因为团队成员多,各类数据的总量也会十分微小,分布式数据库可能轻松胜任这样对的利用场景。 此外,目前还风行一种NoSQL数据库类型,这类数据库,能够是分布式的,也能够是独立的,相同点在于不应用SQL语句,而是用别的接口进行拜访。笔者已经应用过leveldb进行数据存储,读写速度可能满足绝大多数场景,这也是一种NoSQL数据库。然而leveldb的致命缺点是独占式治理,也就是说没有方法基于leveldb构建读写拆散的机制。最初一次重构WonderTrader,笔者也彻底摈弃了leveldb,又回到文件存储的思路。 3、WonderTrader存储机制 鉴于以上存储形式各自不同的特点,WonderTrader联合了局部需要,设计了本人的数据存储机制。 实时行情数据全副采纳文件存储原始数据构造,并应用mmap的机制映射到内存中,便于读写 typedef struct _BlockHeader{ char _blk_flag[FLAG_SIZE]; //文件头的非凡编码,用于辨认是否为自定义文件 uint16_t _type; //数据类型标记 uint16_t _version; //文件版本,不压缩为1,压缩寄存为2} BlockHeader;typedef struct _RTBlockHeader : BlockHeader{ uint32_t _size; //数据条数 uint32_t _capacity; //数据容量 uint32_t _date; //交易日} RTBlockHeader;//tick数据数据块typedef struct _RTTickBlock : RTDayBlockHeader{ WTSTickStruct _ticks[0]; //tick序列} RTTickBlock;下面的代码展现了实时tick数据存储模块的数据结构,文件头外面记录了以后数据的条数和以后映射的文件的数据容量,以及以后的交易日,文件后则跟随着间断的tick数据结构。交易日开始的时候,依据预设的容量,如1024条tick数据,计算一个初步的文件大小,而后将文件用mmap映射到内存地址中,针对映射的内存地址做一个类型转换,就能够间接像拜访内存对象一样对文件进行对读写了。如果在运行的过程中,数据超过容量下限,则从新扩大文件大小,扩大的策略根本如std::vector,每次成倍扩大,而后再从新映射即可。其余如实时的1分钟线、5分钟线的文件构造,也是如上的数据结构,只有具体的数据的构造不同。 ...

March 20, 2021 · 3 min · jiezi

关于数据:基于GES图数据库的大规模数据追溯服务优化

摘要:利用华为云GES剖析,如何基于GES图数据库追溯服务的实现和优化。“一分钟,我要这个人的全副信息”,王道总裁拍了拍你,并提出这个要求。秘书开始发力,找到了:姓名、年龄、联系方式、喜好,这些信息。不太够?那就再加上亲朋好友信息,近期流动信息,更残缺展示这个人。尽管是个段子,但也给与咱们一些启发:对象自身的信息可能不够“全”,周边关联的数据也是对象信息的重要组成,这些关联数据对在进行数据分析和开掘时非常有用。 现实生活中关联关系非常广泛,比方人的社交、商品生产和消费行为之间都是关联关系。数据分析时,为了更好的利用关联关系,常应用图作为数据结构,应用图构造保留数据的数据库被称为图数据库。传统的关系型数据库,以表格视角对数据进行出现,能够不便的对数据进行查问治理,而图数据库更关注节点和周边节点的分割,是一种网状结构,实用于追溯剖析、社交网络分析、异构信息开掘等等利用。华为云提供的图数据库服务就是GES(Graph Engine Service)[1]。 基于图数据库能够做很多乏味的利用,数据追溯就是一个很常见的利用。数据追溯,就是把各环节产生的数据进行关联与溯源。疫情中,查看商品的流通过程,查看商品是否有可能有接触传染源。测试流动中,通过构建测试过程网络,分析测试流动的齐备性,用于进行品质评估。这些都是追溯的典型应用场景。若以传统关系型数据库构建数据追溯,须要独立结构和保护多个关系表,并实现多对多的关系网络,不易于了解简单的业务逻辑,与此同时,也会随同着追溯查问实现简单和查问迟缓的问题。 图1 关系型数据库和图数据库比照 用一个例子简略阐明图数据库在数据分析畛域的劣势。图1是一个简略的选课零碎,记录了学生选课以及相应的课程信息。如右图所示,咱们依据图数据库的表达方式把这些信息转化为一张图。能够看出,图能够更加直观地表白选课和班级等关系,分明地出现实体之间的关系,更不便进行关联剖析。比方,依据图咱们能够很容易找到和小布一起上数学课的同学,也能够疾速找到选课趣味雷同的同学。通过图数据库能够很不便查问到周边节点信息,十分实用于追溯实现。那如何基于图数据库如何实现追溯服务?接下来咱们将以华为云GES为例,剖析基于GES图数据库追溯服务的实现和优化。 什么是图在图数据库中,图由以下局部组成: (1) 点:图中的实体对象,在图中体现为一个节点。例如,社会的人,流通的商品等都能够形象为图中的一个节点。 (2) 边:图中节点与节点之间的关系。如人与人的社会关系,商品的购买行为等。 (3) 属性:用于形容图中节点或者边的属性,比方编号、名称等。聚类和分类剖析中,权重是经常作为关系属性,也就是边的属性。 图2 有向图与无向图 依据边是否有方向,能够把图分为有向图和无向图。对于有向图来说,边的终点和起点是确定的。图2中,城市是一个节点,城市间的间隔和城市之间交通形式为边。城市交通就是一个有向图,不同方向交通形式用不同的边示意,而城市间间隔是无向图,因为间隔和方向无关。GES应用时,须要将点和边解决成不同的对象,点边都须要定义须要的属性。点次要就是蕴含实体的信息,而边须要指定终点与起点。 定义GES图GES建设图的步骤能够参考官网文档[1]。次要就是对节点和边进行定义,将数据处理为点和边文件,最初导入GES中,可通过界面或API导入。解决无向图时,即不辨别边的终点和起点,通常也会设定一个默认方向,即指定边的终点和起点,这是为了解决和导入数据不便,在理论查问中能够疏忽这种方向设定。 在GES构建图的过程中,定义点和边以及相干属性的文件被称为元数据。点和边的类型被称为label,每个label可具备多个属性,如上文提到的名称、权重等,都能够作为点或边的属性。在GES中,label一旦定义并创立胜利将不被容许批改,如果必须要批改label定义,就须要格式化图并从新创立导入元数据文件到图中。 节点通常是由事实中的实体形象而来,GES节点属性罕用的数据结构蕴含了float、int、double、long、char、char array、date、bool、enum和string等。通常来说节点中,字符串类型的属性较多,非字符串属性能够依据数据类型进行抉择。字符串类型有两个抉择:string和char array。char array有数据长度限度,通常为256,而string类型没有长度限度。然而在GES中应用char array更有劣势,这是因为char array数据寄存在内存中,string类型数据寄存在硬盘中,因而char array查问效率更高,这也是GES元数据定义须要留神的中央。在咱们我的项目的场景中,节点的名称和编号都是罕用的查问条件,综合思考属性特色,如节点名称较长而节点编号较短,最终名称应用了string类型,而编号抉择了char array类型。 GES查问优化定义好节点信息后,能够在图中进行查问。GES应用的是Gremlin[3]进行查问。Gremlin是一个开源的流式查询语言,查问实现灵便,不同图数据库对查问语句的合成以及优化解决都不雷同,因而,不同的写法可能查问效率可能不同。接下来咱们就一种追溯查问场景进行剖析。 图3 多分支查问场景剖析 如图4所示,字母代表label,也就是一种节点类型。能够看到该场景具备较多查问分支,依照图中的节点要求,Gremlin查问语句间接实现如下: 基于以后Gremlin,GES Gremlin server会将查问合成为多个查问原子操作,并由GES engine·执行。对于这种多跳的简单查问,会解析为较多的原子操作并频繁交互,这会导致的查问效率低下。对于这种场景,思考应用optional语句进行查问,效率会失去晋升。查问语句如下: optional在肯定水平上能够升高分支的查问范畴,从而晋升查问效率。在我的项目理论应用中,应用optional能够晋升查问性能1倍左右。然而optional不是所有场景都实用,Gremlin实现须要依据查问场景、数据规模和数据特点进行优化解决,例如图中节点的稠密水平和分支的数量都是能够思考优化的点。 在对GES查问优化时,即便对Gremlin语句进行了优化,也有可能达不到冀望的查问性能。这是因为应用Gremlin时,解决查问过程中Gremlin server解析后的原子操作可能会和GES engine频繁交互,反而会升高查问性能,而且针对Gremlin查问优化解决范畴也无限。尽管Gremlin是图数据库通用的查问脚本定义形式,然而各个厂家对于Gremlin脚本优化解决不同,因而更举荐应用GES原生API。原生API针对固定场景做了更多的优化,并且缩小了Gremlin解析处理过程,因而性能更优,但同时也引入了通用性和效率之间的均衡问题,毕竟API没有通用的定义实现。 上面咱们将介绍几种常见的追溯查问场景。这些场景都能够通过Gremlin查问实现,然而如果通过应用GES零碎API,能够获取更好的查问性能。 场景(1) 追溯某个节点前(后)n层节点该查问较为常见,次要用于查问某个节点的父子节点,对于图1 的场景能够找到班级的所有同学,该场景Gremlin实现如下: g.V(id).repeat(out()).times(n).emit().path() 这种场景下,举荐应用GES算法文档中的_k_-hop算法解决该问题,须要留神,这个算法接口只会返回满足查问条件的子图中的所有点,但没有节点详情和边信息,如果须要节点详情能够采纳batch-query批量进行节点详情查问。如果须要边信息,举荐场景(2) 应用的API。 场景(2) 按条件追溯某个节点之前(后)n层节点,节点筛选条件雷同g.V(id).repeat(outE().otherV().hasLabel('A')).times(n).emit().path() 这种场景下,举荐应用repeat-query办法。该办法能够疾速实现某个终点前后_n_跳查问,并且能够限定节点查问条件,并且所有点的查问过滤条件雷同。在查问中,如果不同的点须要应用不同的查问条件进行过滤,能够先不指定点查问条件,待返回查问后果后再进行过滤。不指定点的查问场景能够进化为场景(1),并且该API能够同时返回节点和边的详情。 场景(3) 按条件追溯某个节点之前(后)n层节点,不同节点筛选条件不同图4的例子就是一个这样的场景,每层的查问label不同。这种状况下,举荐应用filtered-query进行查问,该办法须要具体指定每个节点的过滤属性,相当于将每个查问条件都在参数中一一指定,实现齐全满足条件的查问。我的项目中,绝对于Gremlin 查问,filtered-query的查问性能能够晋升10倍左右。 上述三个场景中repeat-query和_k_-hop具备更好的泛化能力,能够随便指定查问跳数_n_,须要设定的参数简略。而filtered-query须要具体指定查问中每层节点的属性,参数较为简单,具体应用中能够依据业务需要进行抉择。 GES还提供了很多算法,如Node2vec, subgraph2vec,GCN算法,本文只介绍了基于GES进行节点疾速查问并提供追溯服务,后续也会思考如何基于建设好的图,进行一些数据节点交融,也能够进行类似度剖析、品质评估和流程举荐等,更好地开掘数据的价值。 【参考资料】 [1] 华为云GES服务用户指南https://support.huaweicloud.com/usermanual-ges/ges_01_0002.html [2] 图引擎(GES)业务面API参考-V3.0 [3] Gremlin官网文档:https://tinkerpop.apache.org/... 点击关注,第一工夫理解华为云陈腐技术~ ...

March 3, 2021 · 1 min · jiezi

关于数据:我们电脑里存储的数据安全吗

电脑曾经成为古代生存中必不可少的设施之一,它既是上班族的办公器具,也是大家的娱乐、消遣工具。而随着ipad等平板电脑的问世,个人电脑的位置再次晋升:无论咱们是在下班路上 电脑曾经成为古代生存中必不可少的设施之一,它既是上班族的办公器具,也是大家的娱乐、消遣工具。而随着ipad等平板电脑的问世,个人电脑的位置再次晋升:无论咱们是在下班路上、工作间隙还是在上班回家后,常常会习惯性地捧着ipad上网、读书、游戏或是视频通话。总之,电脑好像成了咱们的敌人、家人,全天候常伴左右,咱们已无奈设想没有电脑的日子会有如许蹩脚。 这些即兴记录在电脑里的日记,有一天会被他人发现吗? 正因为咱们对电脑的依赖水平如此之深,信息安全问题也越来越多地受到关注。在网络技术如此发达的明天,民间的一些网络“黑客”们能够轻而易举地窃取咱们的私人信息,这曾经是司空见惯的事件。那么,如果咱们不让电脑连贯网络应该就能确保安全了吧? 事件没这么简略,轰动一时的“艳照门”事件证实了一个让咱们大惊失色的事实——原来电脑里的数据即便删除了也能被从新还原。这是怎么回事呢?请持续浏览本文,找到答案。请持续浏览下节,理解删除掉的数据如何被复原? 删除掉的数据也能复原? 重要的数据一旦被误删了该怎么办呢?只有您将这个问题“百度一下”或者“Google一下”就能轻松找到答案。如果您感觉看过网上的答案后还是一头雾水,那也没关系,您只须要下载EASY RECOVERY等数据修复软件即可。只需简略一步,失落的数据就能回来了。您可能纳闷了,既然数据都被“删除”了,为何还能找回来呢? 从之前公布的《硬盘的工作原理》等文章中,咱们已明确硬盘的大体结构。但对于硬盘到底是怎么存储数据的,您或者还不太分明。咱们都晓得,电脑中通用的代码为二进制,这意味着各种指令、程序、数据在电脑中都以0和1两个数字来示意。因而,咱们在电脑中所存储的各种文件本质上全都是一系列0、1组成的字符串。 无论是闪存式还是硬盘式的存储设备,它们的大部分空间都用来保留这一串串的代码,这部分空间称作“DATA区”。剩下的空间绝对不大,但非常重要,大抵分为四个局部,别离称作MBR区、DBR区、FAT区和DIR区。这几个区域的作用不尽相同,但总体来说就是用来搜寻到特定的字符串,而后将它还原为您所需的数据。形象地说,这几个区的作用就是搭建一条让文件“开释”的通道。 而您在执行“删除”指令后,实际上是将这条通道破坏了,而代表数据的代码串还在。因而,尽管您通过个别的操作再找不到您删除掉的文件,但只有您不在DATA区内写入新的代码(将原有代码笼罩),就有方法将它再次还原。网上介绍的各种办法以及数据修复软件都是基于这个原理,它们通过重建找到数据的新“通道”,从而让您将误删的文件找回来。但一旦寄存这个文件的区域内又写进了新的代码,那原有的数据就将不复存在,无奈还原了。 因而,您大可不必为误删文件而懊悔不已,只用几步简略操作,文件就可被找回。而与此同时也带来一个新的问题,既然删除的货色都能被复原,那存在电脑上的货色岂不轻而易举就被人发现了?没错,信息安全问题的确有必要引起咱们的器重。请持续浏览下节。 如何爱护咱们的信息安全? 看过了下面介绍的硬盘的工作原理后,咱们有必要适当爱护一下电脑里存储的数据了。因为这个日夜陪伴着你的搭档,可能有时还并不那么靠谱。其实,简略几招就能让您的个人电脑安全性大大提高。 清理磁盘碎片性能能够极大的爱护咱们的信息安全 首先,对于想彻底删除的文件,仅对其应用“删除”指令是不够的。在window中执行“删除”操作只是将文件放到了回收站而已,即便抉择“清空回收站”,文件还是能被复原。因而,如果您确定此文件再也不须要,那最好还是罗唆对它进行“粉碎”解决吧——简略说就是一次性把文件的代码全副清理,相当于对这部分区域进行了一次格式化解决,这样就再也无奈复原了。您能够从网上下载一个粉碎软件,能够帮您轻松彻底删除文件。 对于长期不想删除,却又不便让他人看到的文件,您能够对它进行加密解决。WPS等文档处理软件自带加密性能,您也能够应用安全性较高的第三方加密软件,但明码要尽量设置地简单一些(字母和数字交替排列)即可。 另外,您最好养成定期清理零碎的习惯。在应用电脑过程中,会一直的产生大量的垃圾文件,其中局部文件中保留着咱们关上文件、浏览网页等记录。这些记录也有可能裸露您的隐衷。您无妨应用Window自带的或者第三方零碎清理软件定期清理一下零碎,一方面可放慢电脑运行速度,另一方面可增强信息安全性。 对于浏览网页产生的记录,您能够抉择“工具”——“IE选项”,在"惯例"选项卡中的"Internet临时文件"选项中单击"删除文件"按钮,即可删除浏览器缓存里保留的记录;或者在浏览器中输出网页之前,先在地址栏中按下“Ctrl+0”键,这样浏览记录就不会被保留。对打开文档产生的记录,您能够敞开office和WPS中的“关上最近应用文件”的性能:在 offic或WPS中,抉择“工具”菜单,再抉择“选项”菜单项,而后进入“惯例”选项卡,在“惯例选项”中勾销“列出最近所用文件(R)”后面的复选框的选中标记即可站长交易。 以上介绍的办法都是从软件角度对文件进行解决,而当初市面上的许多存储设备都附带了加密性能,这比通过软件加密更牢靠。把您的重要个人信息、隐衷存在安全性高、体积玲珑的挪动存储设备中,随身携带,既不便又平安。 目前,苹果的ipad等电子设备安全性绝对较高,但网络上也曾经呈现了破解办法。因而您在应用时,最好将ipad、iphone只与您的个人电脑相连,而不要在公共电脑上应用。 其实,介绍了这么多爱护个人信息的办法,也往往难以做到相对平安。因为目前黑客解密的速度甚至高于软件的研发速度。电子产品在给咱们带来不便的同时也带来了隐患,让咱们不得不提高警惕。所以,像银行卡号这样的窃密信息您还是靠大脑来记吧,至多目前为止还没有人能破解你的大脑。

February 2, 2021 · 1 min · jiezi

关于数据:更适合文本分类的轻量级预训练模型解析

自 BERT 起,预训练语言模型沿着海量训练数据和宏大网络结构的方向在一直倒退着。在 12 月闭幕的 NeurIPS 2020 会议上,最新语言模型 GPT-3 荣膺最佳论文奖。OpenAI 的钻研人员应用了多达 45TB 的文本数据来训练它的 1750 亿个参数。GPT-3 不仅仅是“变得更大”,它用“Few-Shot”学习代替了 FineTune,可能出色完成代码生成、畛域问答、吉他谱曲等高难度的复合型 NLP 工作。 那么,在相同的路线上,当数据受限并且算力有余,是否有轻量级的预训练模型可能帮忙咱们更好地解决文本分类等经典 NLP 问题呢? AllenAI 团队开源的 Vampire(Variational Methods for PretrainingIn Resource-limited Environments)正是这样一款模型。全文《VariationalPretraining for Semi-supervised Text Classification》收录于ACL-2019。 本文将具体介绍一种基于预训练半监督的文本分类轻量型模型,即 Vampire 模型,该模型为解决因为大量数据和昂扬计算力导致的资源有余问题提供了一些思路。 01 变分自编码器Vampire 从 VAE 中借鉴了不少思路。在具体介绍它之前,先来说说什么是 VAE, VAE 即 Variational AutoEncoder,中文译作变分自编码器。VAE 出自 ICLR-2014 的 《Auto-Encoding Variational Bayes》,是一种图像生成技术,近年来也被迁徙到 NLP 中作为一种文本生成模型。原文中有大段大段的公式推导,全副了解须要费不少功夫。不过对于 Vampire 来说,重要的是弄明确 VAE 是建设在什么样的假如之上,以及它是通过什么样的形式来实现文本生成的。 和 Encoder-Decoder 架构一样,VAE 也是通过“编码”和“解码”来实现对输出句子的重建。两者的区别在于,发祥于 CV 的 VAE 并不是一种人造有序的 NLP 模型。在了解 VAE 之前,须要先彻底抛下头脑中对于 Seq2Seq 的 one by one 生成形式的固有印象。输出序列中的每个词能够是相干的,也能够是相互独立的,这取决于你应用什么样的编码器。然而,输入序列中的每个词,肯定是互不依赖的,它们被各自建模,同时生成。为了便于了解,咱们暂且将重建工作看成是对单个词的建模。这一过程能够用更狭义的散布-采样概念来形容: ...

January 27, 2021 · 2 min · jiezi

关于数据:数据库运维家中常备上限约400MBs比COPY等工具还好用的数据利器

摘要:随着数据仓库业务的倒退,GDS应用场景日益增多,这就要求GDS仍要一直迭代,充沛深刻开掘用户需要,进步产品化水平。1. GDS定位GDS是GaussDB(DWS)提供的一个数据导入导出工具,可在反对多种场景下的数据迁徙业务,如异型数据库之间、两个集群之间等。GDS性能较高,单核解决能力下限约400MB/s,相比COPY、COPY工具性能更优、运行更稳固、容错性更强。 2. GDS根基GDS基于FDW,全称是Foreign Data Wrapper(内部数据包装器)。这个性能是PostgreSQL 9.1首次引入的,实现了局部SQL/MED的个性。 2.1 什么是FDW顾名思义,这个性能与数据库内部的数据有关系,对于外数据的具体形容是通过内部表来定义的。以GDS内部表创立语句为例阐明内部表的构造: 能够看出,内部表能够分为三局部:字段定义、server定义、options定义。其中: (1)字段属性定义与本地表定义形式相似,甚至能够应用like L_TBL等语法进行定义; (2)server定义,须要应用CREATE SERVER xxx_server创立; (3)options选项,由与该表面相干的FDW实现决定。 在GDS应用过程中,装置自定义FDW、创立server等配置都是在initdb阶段执行,毋庸用户额定设置。Postgres当初有很多FDW扩大,其中postgres_fdw、file_fdw是由官网寰球开发组保护,postgres_fdw可用于拜访近程PostgreSQL服务器。 下图展现了FDW的执行过程[1]。 ① 查问剖析模块为输出的SQL创立一棵查问树; ② 打算器(或执行器)连贯到近程服务器; ③ 执行EXPLAIN命令以估算打算门路的代价; ④ 打算器依照打算树创立出纯文本SQL语句; ⑤ 执行器将纯文本SQL语句发送到近程服务器并接管后果。 2.2 GDS自定义FDW依据导入导出场景,GaussDB(DWS)实现了自定义的FDW扩大——dist_fdw。dist_fdw运行于GaussDB内核之中,在initdb时进行装置,所以个别状况下对用户是通明的。 3. 多角度缔造高性能3.1 多线程工作模式GDS应用多线程模式,由主线程负责接管申请,而后调配给工作线程进行具体的业务解决,能够并发解决导入导出业务。主线程与工作线程通过UnixSocket进行通信,通信内容包含:分派新工作、进行工作线程、工作线程状态上报等。 每个线程可承载多个导入导出业务,通过与事件音讯驱动机制相结合,实现高速网络通信,确保业务执行高性能、高并发。 3.2 事件音讯驱动机制GDS采纳事件驱动模型,抉择以后零碎可反对的最高效的多路复用机制(epoll、poll、select等)。 3.3大文件导入优化对于超大文件的导入,如果依然与一般文件一样,持续采纳串行形式导入,必然会成为业务瓶颈,导致数据迁徙、备份等过程的有限缩短,无奈充分发挥多核机器、GDS多线程架构的劣势。针对该场景,GDS引入分片导入机制,实现并行导入,充分发挥软硬件性能,缩小业务阻塞,缩小数据迁徙耗时。 该性能针对本地文件的导入场景,需通过表面file_sequence参数进行相应设置。 该参数格局为file_sequence '文件被拆分的总数-以后分片' 。例如: file_sequence '3-1' 示意导入的文件在逻辑上被拆分成3份,以后表面导入的数据为第一个分片上的数据。 file_sequence '3-2' 示意导入的文件在逻辑上被拆分成3份,以后表面导入的数据为第二个分片上的数据。 file_sequence '3-3' 示意导入的文件在逻辑上被拆分成3份,以后表面导入的数据为第三个分片上的数据。 这里给出一个应用示例: -- step1. 创立指标表 --step2. 创立带有file_sequence字段的表面。 --step3. 将wide_tb.txt并发导入到gds_widetb_1。 3.4 SMP个性反对导入场景SMP个性通过算子并行来晋升性能,实质上是一种利用充裕资源来换取工夫的计划,打算并行之后会占用更多的系统资源,包含CPU、内存、网络、I/O等等。在适合的场景以及资源短缺的状况下,可能起到较好的性能晋升成果。SMP反对自适应个性,该个性会依据以后资源和查问特色,动静选取最优的并行度。SMP个性反对反对GDS导入的表面扫描并行,当集群资源短缺时,能够施展各节点性能,减速导入执行效率。 4. 全方位丰盛性能4.1 容错机制提供了弱小的容错机制,包含谬误默认解决、谬误表、谬误日志等多种形式,缩小数据导入导出异样停止的状况,不便用户预先查问剖析。 ...

January 22, 2021 · 1 min · jiezi

关于数据:易盾舆情数据清洗动静分离方案

背景网易易盾是网易智企旗下一站式数字内容风控品牌。易盾关注最新舆情,笼罩全网资讯数据。舆情监测平台将海量原始数据转换为对立数据格式成为数据处理前置条件,这一过程称为舆情数据荡涤。本文次要分享易盾是如何实现舆情数据荡涤的。 舆情数据荡涤次要面临如下几个难点: 全网数据格式多种多样,如何疾速相应新数据接入,同时不影响架构的“开闭准则”?如何协调爬虫、ETL、研发三方的合作与数据流通?如何让数据荡涤满足灵活性的同时,保障其荡涤性能?业务架构上“动”、“静”拆散基于上述剖析,咱们仔细分析整个数据处理链中的各环节,挖掘出各模块的解决逻辑实质,进行动静分类。比方将灵活性较高的分类为“动”的局部,将固定逻辑的分类为“静”的局部,这样两者各司其职、互不烦扰。如下图所示: 人员职能上,ETL与零碎开发拆散,制订荡涤流程标准;荡涤脚本动静可配置,实现新数据源接入实时化;反对数据荡涤链,正当治理荡涤脚本,各荡涤脚本可互相复用;动态模块(去重、组装),依据动静荡涤后果,抉择相应的数据处理策略; 数据荡涤的“动”基于下面的问题和思考,易盾舆情搭建了脚本可配置的数据荡涤平台,制订数据荡涤流程,实现新数据源实时接入。该计划据有如下两个特定:业务架构上动静拆散、技术架构上高性能、可扩大、高可用。 具体来说,基于Groovy脚本,联合JVM动静类加载,将Groovy脚本动静加载、内化为JVM中一般Function甚至能够利用JIT优化减速荡涤逻辑执行速度,从而保证数据荡涤整体性能。多节点部署,保障整体解决吞吐量,高可用、可扩大。 数据处理链的“静”对爬虫的原始数据,做一系列解决,如图去重、感情打标、数据组装、关键词提取等。如上文所示,因为数据荡涤模块将不同信源数据转成对立格局,同时通过设置去重字段、组装策略等办法,“通知”解决链该如何解决这些数据。因而,数据处理链能够不须要针对不同信源定制化解决逻辑,实现数据处理链的”静“。如下所示,数据处理链次要包含如下几点: 依据数据荡涤出的去重策略、组装策略,执行相应的数据处理逻辑;基于自研路由线程组,联合KAFKA分区程序性,保证数据生产程序性,实现数据程序组装;对爬虫数据正当分片路由,保证数据程序性、并行性,兼顾解决性能与数据处理正确性; 总结基于Groovy类脚本,联合JVM动静类加载,保证数据荡涤灵活性与高性能。多节点部署,保障整体解决吞吐量,高可用、可扩大。从而实现业务架构上“动”、“静”拆散,技术架构上高性能、可扩大、高可用。最终实现新数据源实时接入,进步舆情零碎数据处理的相应速度。 更多技术内容欢送关注【网易智企技术+】公众号

January 15, 2021 · 1 min · jiezi

关于数据:腾讯安全CASB上线助力企业免开发改造实现商密合规

数字经济时代,数据回升为新型生产因素,推动社会经济高质量倒退的同时,其重要性和窃密价值变得愈发凸显。 对于企业而言 如何解决商密/国密合规、身份管控等难题? 如何应答开发门槛高、周期长等痛点? 如何兼顾系统安全、性能和运维老本等需要? 针对这些理论需要和痛点,腾讯平安推出云拜访平安代理CASB,提供面向服务侧的字段级数据存储加密防护,具备麻利施行、策略多样、平安可控、商密合规等显著特点,致力为金融、政务、互联网等行业提供全新数据安全明码防护体系。 一图看懂腾讯平安CASB计划

January 14, 2021 · 1 min · jiezi

关于数据:ROMA-ComposeROMA的新武器

摘要:在没有ROMA Compose之前,实现一个跨数据源的关联查问是一个十分艰巨的工作。1. ROMA Compose为何诞生试想这样一个场景,主管让刚入职的小沛今天上班前给他发一份报表。小沛灰溜溜的关上需要清单一看,好家伙,报表须要连贯各个不必数据源,A部门提供的数据存在MySQL、B部门提供的数据存在Oracle、C部门提供的数据存在Redis、D部门罗唆数据库也不是了,间接只提供了一系列API。 思考到后续更新的须要,小沛还须要每天拉取数据同时进行各种过滤操作。数学业余的萌新小沛写Matlab是相当在行。然而跨源对数据进行关联查问,同时还须要思考主外键关系、执行效率、数据准确性等问题,着实让小沛头疼不已,无可奈何当场抉择放弃。 与上述场景相似的是,理论生产过程中咱们须要联通各个不同的数据源(数据库、API等)来获取咱们须要的数据。 在这种状况下,咱们不仅要要去编写各个不同数据源的连接器,而且数据量大的状况下各个数据之间的关系将会变得非常复杂,关联查问各个数据源并且兼顾好效率问题无疑是一个非常让人头疼的工作。更致命的是,数据不是变化无穷的,随时会有新的数据源退出、老的数据源删除,这时候又须要对好不容易理清并优化好的代码进行更改。 上述情况经验老到的程序员死点脑细胞或者也能优雅的解决,但对于个别的业务人员切实是有点强人所难了,偏偏这样的场景又并不少见。 ROMA Compose通过元数据模型驱动,构建业务逻辑关系,能够优雅的解决这一类问题。在用户抉择要进行关联的数据源和数据源之间的关系后,ROMA Compose能疾速对数据进行编排,以API的模式返回查问接口给用户,用户调用API即可实现数据源之间的关联查问,无需任何代码操作。作为一个NO CODE平台,ROMA Compose秉承着将简单留给本人,将不便留给用户的理念,对用户屏蔽了上述所有技术细节,整个操作过程通过利落拽和点击就能实现。 2. ROMA Compose个性介绍ROMA Compose除了数据疾速编排外,还有许多优雅的个性来帮忙用户晋升效率,升高应用门槛,上面筛选几个个性做简略的介绍。 2.1 NO CODENO CODE,顾名思义,就是让用户从繁琐的代码中解脱进去,将精力更多的专一于业务细节,是目前软件畛域的次要趋势之一。 正如上文所说,ROMA Compose对用户屏蔽了所有的技术细节,用户无需编写各个数据源的连接器、无需思考数据源之间的关联关系、查问效率、以及过滤条件等问题。通过网页的点击与托拉拽,用户就能对本人的数据源进行编排并生成API。用户惟一须要把握的是这些数据源之间的业务知识,通过业务知识设置各个数据源之间的关联关系而后进行编排。 回到文章一结尾的例子,有了ROMA Compose,小沛只用在数据源的展现界面建设各个数据源之间的关系,在API界面抉择入参(查问条件),出参(返回的字段),编辑实现后公布API,再对API进行调用,就实现了各个部门不同数据源之间数据的查问操作。短短几分钟就实现了两天的工作量。 2.2 业务关系梳理在理论工作中,公司各个数据源不仅数量合起来不可胜数,许多表名和字段名更是不讲武德,命名千奇百怪,置信除了DBA外很少有人能厘清这些表与字段的实在含意。 为了解决上述问题,帮用户进一步梳理数据源之间的业务关系,ROMA Compose做了以下两大个性: · 基于元数据驱动的利用模型,联合ROMA Connect的利用业务模型(Application Business Model,ABM)对数据源进行对立治理。 · 引入利用模型图谱,图谱提供全量数据源展现视图,并反对基于视图的模型关系创立。 2.2.1 ABM 首先是ABM,ABM简略来说就是一个专门为数据源服务的注册核心,如果部门外部有数据要向其余部门凋谢,那么他们只须要在ABM中注册本人数据源的元数据信息。同时为了防止表名看不懂的可怕景象,ABM还反对用户上传数据源的业务含意,ABM能主动将元数据信息与业务信息进行关联。 除了简略的业务含意关联外,ABM还反对L1到L5级别的模型分层定义,帮忙用户进一步从业务的角度对数据源进行梳理。 2.2.2 利用模型图谱 除了简略的列表展现数据源、数据源关系外,ROMA Compose还反对以图表的局势展现以后环境下数据源以及数据源之间的关系,上图中的每个节点示意数据源,节点之间的箭头示意数据源关系,这样做有不少不言而喻的长处: 数据可视化,让数据源和关系更加直观的展现给用户。数据源关系编辑,除了传统的表单操作外,ROMA Compose还反对更加灵便的图形界面操作,在数据源视图上通过鼠标点击、拖拽就能设置数据源之前的关联关系、关联字段。层次化展现数据,以上图为例,用户节点属于主节点,起作用相似于树的根节点,是数据查问的入口。ROMA Compose依照与主节点间隔的不同对数据源进行分类,让用户对API的编排效率有一种更直观的意识,因为间隔越远,阐明要连贯的数据源越多,相应的执行效率也会越慢。 还是以小沛为例,在ROMA Compose呈现之前,小沛每天都要跟不同部门的人确认他们是否有本人想要的数据源,这些字段的含意,长度,类型等信息,更致命的是这些信息自身还会随时进行变动,一度让他十分头疼。 2.3 多数据源反对多数据源反对作为ROMA Compose的外围个性之一,在上文曾经呈现了屡次。理论开发过程中,咱们不仅会遇到品种繁多的数据库(不同型号、不同版本),在波及到对外我的项目时,更大可能会只提供一个API。编写不同数据源的连接器对技术人员而言属于反复造轮子没什么意义的事件,对业务人员就更不敌对了,进一步减少了应用门槛。 因而ROMA Compose底层的查问服务器编写了很多目前支流数据库的连接器,以及API数据源的连接器,目前也在进一步开发音讯队列等的连接器,力求尽可能多的反对各种数据源。 2.4 业务规定让咱们持续小沛的例子,小沛之前的工作有相当一部分工夫花在了业务规定的梳理上。有些数据来自用户输出,经常会有很多不合理的数据甚至是空数据,还有些数据属于异样信息与错误信息,这些芜杂的数据从业务逻辑上来讲是齐全不须要的。小沛在拿到数据后第一工夫就是在老板看到之前将这些奇奇怪怪、形形色色的数据毁灭掉。 ...

January 7, 2021 · 1 min · jiezi

关于数据:揭开KPI异常检测顶级AI模型面纱

摘要:2020GDE寰球开发者大赛-KPI异样检测告一段落,来自深圳福田莲花街道的“原子弹从入门到精通”有幸获得了总榜TOP1的问题,在这里跟大家分享深圳福田莲花街道在本次较量的解决方案。GDE寰球开发者大赛-KPI异样检测告一段落,来自深圳福田莲花街道的“原子弹从入门到精通“有幸获得了总榜TOP1的问题,上面给出他的解决方案。 背景介绍核心网在挪动运营商网络中占据无足轻重的位置,其异样往往会导致呼叫失败、网络提早等现网故障,对全网的服务质量带来重大的负面影响,多则影响十数万用户,并引发大面积投诉[1]。因而须要疾速及时地发现核心网的异样危险,在影响扩充之前及时打消故障。KPI是一类可能反映网络性能与设施运行状态的指标,本赛题提供某运营商核心网的KPI实在数据,数据模式为KPI工夫序列,采样距离为1小时,选手须要应用[2019-08-01,2019-09-23)的数据进行建模,应用训练好的模型对将来7天的数据进行预测,辨认将来一周KPI序列中的异样点。 评估指标:本赛题采纳F1作为评估指标,具体计算公式如下: P = TP/(TP+FP) R = TP/(TP+FN) F1 = 2PR/(P+R) 数据摸索数据**有20个不同的KPI,不同的KPI物理意义不同,代表了不同的核心网指标,因为赛题须要对将来7天的数据进行预测,因而对于建模样本也进行周级别的散布查看。从Fig1中能够显著看到训练集中前三周的异样率显著低于后续几周。进一步剖析能够发现尽管赛题提供了[2019-08-01,2019-09-23)的全副数据,但2019-08-15之前所有20个KPI均毫无异样,第一个异样点是从2019-08-15 02:00:00开始呈现的(Fig2),因而揣测8.15前的数据分布不同于后续样本,或8.15之前存在标注异样的问题。试验中剔除8.15之前的样本建模成果也优于保留该时间段样本,进一步验证了该揣测。 Fig1. KPI周级别异样统计 Fig2. 异样与否的最早数据工夫 工夫序列图对于疾速了解数据及业务有着重要的作用,对20个工夫序列进行察看后,我将异样粗分为4类,如Fig3所示。 Fig3. 异样分类(工夫序列中红点为异样,蓝点为失常) 1.边界型异样 如Fig3中a局部(红框)所示,边界型异样中异样样本的取值范畴与正常值取值齐全不同,即存在明确的决策边界能够齐全拆散异样点。 2.趋势破坏型异样 如Fig3中b局部(绿框)所示,失常样本点的走势往往沿着一个趋势,而趋势破坏型的异样点会偏离这个趋势,但取值范畴可能依然在失常样本的取值范畴内,这类异样与相邻点的差别较大,与雷同时刻失常点的取值差别也较大。 3.0值型异样 如Fig3中c局部(橙框)所示,此类异样取值间接为0,依据我对业务的了解,失常的KPI不应呈现0值,依据剖析,20个KPI中有19个失常取值均不应为0,仅1个KPI失常取值为0,非0则为异样。 4.其余型异样 如Fig3中d局部(紫框)所示,此类异样往往既没有毁坏趋势,取值也在失常的范畴内,但可能会偏离雷同时刻的失常取值。 解题思路赛题**有20个不同的KPI,KPI物理意义不同且异样的品种也多种多样,若将所有KPI作为一个整体建设一个对立的二分类模型,模型成果差强人意,难以进入前排,但若对每个KPI独自建模,则须要建设并保护调优至多20个不同的模型,保护老本过高,因而我的思路是将KPI或异样进行分类建模。 3.1 边界发现 决策树会依据指标的散布将样本划分在不同的特色空间范畴内(如Fig4 所示),非常适合用于边界的发现与确定。因而针对边界型异样,即好坏样本取值齐全不同的异样,我采纳决策树进行边界的主动发现与确定,具体如下: 遍历20个KPI,若仅应用工夫序列取值建设的单变量浅层简略决策树在训练集中的F1score=1,便认为该KPI为边界型异样KPI,并应用该决策树的预测后果作为决策边界,对雷同KPI的将来样本进行预测。 Fig4. 基于决策树的边界发现 对KPI进行遍历后可知,存在7个KPI所有异样均为边界型异样,即7个KPI在训练集中的所有异样取值范畴均不同于失常样本。最终后果也表明,该计划不仅在训练集中能100%辨认边界型KPI的异样,在测试集中也能100%辨认相干异样。 3.2 非边界型异样摸索 非边界型异样往往KPI走势存在肯定的周期,若将工夫周期剥离进去进行剖析,则能够从二维的角度对工夫序列进行察看。 Fig5. 工夫序列的二维展现以kpi_id= 9415a… 为例,若将日期信息剥离,x轴仅为一天中的第几小时,y轴依然为工夫序列取值,则会失去如Fig5的展现。此时整个工夫序列被出现在一个二维空间中,且异样值(红点)多与正常值(蓝点)偏离较远,一个奢侈的思路便是采纳无监督办法辨认图中的异样。事实上,在理论的生产环境中,多达5000+原始KPI,300+衍生KPI,难以获得有异样标注的工夫序列,因而在生产环境中往往应用统计办法或无监督算法进行异样检测[1,2]。但在以后有标签的赛题下,经屡次尝试,无监督算法如iForest,DBSCAN以及工夫序列合成办法如Prophet均无奈胜过有监督机器学习算法。因而,对于非边界型异样,最终决定应用有监督机器学习算法进行建模。 3.3 KPI类型划分 在3.1中基于简略决策树发现了7个边界型异样KPI,但残余的13个KPI物理意义各不相同,须要进行分组建模。分组最根本的思维便是类似的KPI应该分在雷同的组中。Pearson相关系数是咱们最相熟的相关性指标,其物理意义是示意两个变量同向或反向变动的水平,非常适合用于工夫序列的相似性剖析。通过对残余13个KPI的相似性剖析咱们能够发现,以下两组id间的两两相关系数在0.9或以上。cluster1=[9415a…, 600a5…, ed63c…] cluster2=[b3842…, bb6bb…, 3fe4d…] Fig6. cluster1工夫序列比照示例以cluster1为例(Fig6.),能够看到相似性分组中不同KPI的工夫序列不仅走势靠近,而且往往当分组内一个KPI产生异样时,其余KPI也会同步异样,体现出十分高的联动性。因而对于相似性分组的模型建设十分要害,往往异样的召回和误报均为3倍,也就是对一个则3倍上分,错一个则3倍掉分,赛程中段疾速上分的外围点便是这部分模型的建设。 对于残余的7个KPI,最终我根据是否蕴含周期,将其划分为3小类进行分组建模:半周期型:cluster3_1 = [4f493…]无周期型:cluster3_2 = [29374…,8f522…]强周期型:cluster3_3 = [681cb…, 0a9f5…,355ed…,3e1f1…]其中,半周期型KPI仅在局部时间段体现出周期趋势,其余时间段取值简直完全相同。无周期型KPI取值与工夫无显著关联,强周期型KPI取值随工夫不同产生周期性稳定。 ...

January 6, 2021 · 1 min · jiezi

关于数据:基于GaussDBDWS的全文检索特性了解一下

摘要:全文检索是在互联网场景下利用十分宽泛的个性,搜索引擎、站内搜索、电商搜寻等场景下都会应用到,GaussDB(DWS)同样也反对全文检索性能,是基于GIN索引实现的,上面给大家具体介绍一下GaussDB(DWS)的全文检索个性的性能。全文检索实现的性能,简略来说就是依据关键字从在全文字段中搜寻到相干的信息,在不应用全文检索个性时,只能通过like ‘%keyword%’形式做含糊匹配,无奈利用到索引,只能进行全表扫描,效率非常低,全文检索个性能够无效地晋升检索性能。 全文检索的根底就是GIN索引,Generalized Inverted Index,也就是通用倒排索引,是一个存储对(key, posting list)汇合的索引构造,其中key是一个键值,而posting list 是一组呈现过key的地位。如(‘hello', 2,3)中,示意hello在2和3这两个地位呈现过。 先来理解一下几个接口 to_tsvectorto_tsvector(text, text) 这个函数能够把一个文本转换为一个向量,其中保留单词和其呈现的程序, test=# SELECT to_tsvector('english', 'huawei cloud data warehouse'); to_tsvector --------------------------------------------'cloud':2 'data':3 'huawei':1 'warehous':4 (1 row) test=# SELECT to_tsvector('zhparser', '华为云数据仓库'); to_tsvector -----------------------------------'云':2 '仓库':4 '华为':1 '数据':3 (1 row) to_tsqueryto_tsquery(text) 这个函数作用是用来把文本转化为可查问的语句,例如: SELECT to_tsquery('华为&深圳'); 这样就是寻找文本既蕴含“华为”,也蕴含“深圳”的语句,&是AND与操作,|是OR或操作 如果想晓得一个tsvector是否让tsquery成立,能够应用 @@ 操作符,例如: SELECT to_tsvector('zhparser', '华为深圳') @@ to_tsquery('华为&深圳'); 这条语句会返回True ts_rankts_rank(tsvector, tsquery) 这个函数能够计算tsvector和tsquery的近似水平,通过这个函数计算出rank之后,就能够排序了 SELECT ts_rank( to_tsvector('zhparser', '华为深圳'),to_tsquery('华为&深圳')); 讲完了这些接口,让咱们来做一些具体实际: 1.创立数据库 CREATE DATABASE test ENCODING 'utf8' template = template0; ...

January 4, 2021 · 3 min · jiezi

关于数据:由两个问题引发的对GaussDBDWS负载均衡的思考

摘要:GaussDB(DWS)的负载平衡通过LVS+keepAlived实现。对于这种形式,须要思考的问题是,CN的返回后果是否会通过LVS,而后再返回给前端利用?如果通过LVS,那么,LVS会不会成为单点瓶颈? 带着这两个问题,咱们探索一下LVS+KeepAlived的实现原理。咱们晓得GaussDB(DWS)为了保障业务的连续性和高可靠性,各个组件都进行了高可用设计。 下图是利用拜访GaussDB(DWS)的业务流程架构图,对于业务利用或者用户来说,他们产生申请给CN,CN解析并生成执行打算,交给DN去执行,执行后再由CN汇总将数据返回给业务用户或者业务利用。这个过程是容易了解的,本次咱们重点关注的是站在CN后面的LVS+KeepAlived。 当初的问题是: CN的返回后果是否会通过LVS,而后再返回给前端利用?如果通过LVS,那么,LVS会不会成为单点瓶颈? 带着这两个问题咱们探索一下LVS和KeepAlived的原理。 LVS是什么?LVS是Linux Virtual Server的简称,也就是Linux虚构服务器, 是一个由章文嵩博士发动的自由软件我的项目,它的官方站点是www.linuxvirtualserver.org。当初LVS曾经是 Linux规范内核的一部分,在Linux2.4内核以前,应用LVS时必须要从新编译内核以反对LVS功能模块,然而从Linux2.4内核当前,曾经齐全内置了LVS的各个功能模块,无需给内核打任何补丁,能够间接应用LVS提供的各种性能。 LVS的目标是什么?LVS次要用于服务器集群的负载平衡,领有VIP,客户端将所有申请发送至此VIP,LVS负责将申请散发到不同的RS,客户不感知RS。其目标是进步服务器的性能,将申请平衡的转移到不同的服务器上执行,从而将一组服务器形成高性能、高牢靠的虚构服务器。 LVS的体系结构应用LVS架设的服务器集群零碎有三个局部组成: (1)最前端的负载平衡层,用Load Balancer示意; (2)两头的服务器集群层,用Server Array示意; (3)最底端的数据共享存储层,用Shared Storage示意; 在用户看来,所有的外部利用都是通明的,用户只是在应用一个虚构服务器提供的高性能服务。如图: Load Balancer层:位于整个集群零碎的最前端,有一台或者多台负载调度器(Director Server)组成,LVS模块就装置在Director Server上,而Director的次要作用相似于一个路由器,它含有实现LVS性能所设定的路由表,通过这些路由表把用户的申请分发给Server Array层的应用服务器(Real Server)上。同时,在Director Server上还要装置对Real Server服务的监控模块Ldirectord,此模块用于监测各个Real Server服务的健康状况。在Real Server不可用时把它从LVS路由表中剔除,复原时重新加入。Server Array层:由一组理论运行应用服务的机器组成,Real Server能够是WEB服务器、MAIL服务器、FTP服务器、DNS服务器、视频服务器中的一个或者多个,每个Real Server之间通过高速的LAN或散布在各地的WAN相连接。在理论的利用中,Director Server也能够同时专任Real Server的角色。Shared Storage层:是为所有Real Server提供共享存储空间和内容一致性的存储区域,在物理上,个别有磁盘阵列设施组成,为了提供内容的一致性,个别能够通过NFS网络文件系统共享数据,然而NFS在忙碌的业务零碎中,性能并不是很好,此时能够采纳集群文件系统,例如Red hat的GFS文件系统,oracle提供的OCFS2文件系统等。从整个LVS构造能够看出,Director Server是整个LVS的外围,目前,用于Director Server的操作系统只能是Linux和FreeBSD,linux2.6内核不必任何设置就能够反对LVS性能,而FreeBSD作为Director Server的利用还不是很多,性能也不是很好。对于Real Server,简直能够是所有的零碎平台,Linux、windows、Solaris、AIX、BSD系列都能很好的反对。 LVS的程序组成部分LVS 由2局部程序组成,包含 ipvs 和 ipvsadm。 ipvs(ip virtual server):一段代码工作在内核空间,叫ipvs,是真正失效实现调度的代码。ipvsadm:另外一段是工作在用户空间,叫ipvsadm,负责为ipvs内核框架编写规定,定义谁是集群服务,而谁是后端实在的服务器(Real Server)LVS的负载平衡机制1、 LVS是四层负载平衡,也就是说建设在OSI模型的第四层——传输层之上,传输层上有咱们相熟的TCP/UDP,LVS反对TCP/UDP的负载平衡。因为LVS是四层负载平衡,因而它绝对于其它高层负载平衡的解决办法,比方DNS域名轮流解析、应用层负载的调度、客户端的调度等,它的效率是十分高的。 2、 LVS的转发次要通过批改IP地址(NAT模式,分为源地址批改SNAT和指标地址批改DNAT)、批改指标MAC(DR模式)来实现。 GaussDB(DWS)目前次要采纳的是DR(Direct Routing)模式,所以,咱们次要聊一聊DR模式。 下图是DR模式的一个示意图: DR模式下须要LVS和RS集群绑定同一个VIP(RS通过将VIP绑定在loopback实现),申请由LVS承受,由实在提供服务的服务器(RealServer, RS)间接返回给用户,返回的时候不通过LVS。具体来看,一个申请过去时,LVS只须要将网络帧的MAC地址批改为某一台RS的MAC,该包就会被转发到相应的RS解决,留神此时的源IP和指标IP都没变,LVS只是做了一下偷梁换柱。RS收到LVS转发来的包时,链路层发现MAC是本人的,到下面的网络层,发现IP也是本人的,于是这个包被非法地承受,RS感知不到后面有LVS的存在。而当RS返回响应时,只有间接向源IP(即用户的IP)返回即可,不再通过LVS。 至此,答复了咱们第一个问题: ...

December 30, 2020 · 1 min · jiezi

关于数据:2021-年要寻找的-6-种现代数据堆栈趋势

起源:TechRepublic作者:乔纳森·格雷格 TechRepublic 与数十位专家进行了交谈,他们说,有趣味对本人的数据做更多工作的公司的数量正一直减少。 随着公司和组织寻找更多的办法来放弃当先,并辨认过来的谬误,数据简直曾经成为每个企业的主战场。 TechRepublic采访了行业首领和专家,他们探讨了对于2021年将呈现的与古代数据堆栈相干的六个话题和想法。 谷歌云数据分析副总裁Debanjan Saha回顾说:"当互联网大革命产生时,我是一名网络工程师,我感觉本人真的很侥幸,可能身处这场云和数据反动之中。" 萨哈补充道:"我认为明年和将来五年将看到由数据反动推动的数字化转型。" 他提出,财产500强或标普500强公司的平均寿命越来越短,因为企业的倒退和更新速度比以往任何时候都快。"适应和扭转的惟一办法是应用数据,并利用预测模型和AI/ML察看四周的角落。这些因素辨别了新数字经济中的赢家和输家。" Forrester副总裁兼首席分析师Michele Goetz示意,数据管理正在从剖析第一的策略向基于后果的策略转变,这意味着数据当初是动静的、流式的,并通过流程和机器学习模型进行编排。 "Forrester认为,数据堆栈将超过数据结构延长到数据网络。数据管理将是集中化和超本地化的,以发明当下的智能和体验,"Goetz说。"解决方案架构越来越依赖于跨生态系统和性能汇合的消息传递、网关、API和微服务。蜂群智能和智慧城市用例就是这样的例子。网络架构成为今天的数据架构。" 数据栈的民主化数据整合公司Fivetran的首席执行官George Fraser示意,最近的数据管理简化浪潮是一个十分重要的趋势,将继续到2021年。 他解释说,就在五年前,像Netflix这样有趣味更好地治理大量数据的公司必须做大量的沉重工作,雇佣数据工程师军团,并投资数百万美元用于令人印象粗浅的开源技术。 现在,很多事件都能够通过订阅某个高端数据仓库来实现。 "数据管理越来越容易了。技术往往会反其道而行之,变得更加简单。但咱们看到的是一种优胜劣汰,我认为这很重要,是一件坏事。根底组件的老本曾经降落了很多,但人们利用数据做得更多也是事实。"他说。 "几个分析师就能实现五年前Netflix须要投资1000万美元的事件,这很酷。这让那些不那么简单的公司和那些不在沿海地区,也不在雇佣最狂热的团队和最好的LinkedIn材料的公司都能取得。更像是凡人也能做这些事件,这是件坏事。" 公司迁徙到云并拥抱多云数据集成公司Xplenty的首席执行官Donal Tobin示意,越来越多的大公司对云计算体现出趣味,尤其是剖析等方面。 "咱们看到的是,公司们对多种云也有趣味。领有在任何一个大型云玩家内旋转你的平台的能力,正在成为越来越多的要求,"Tobin说。"客户心愿这样,他们不喜爱被捆绑在任何一个解决方案中的那个或一个平台的想法。" EnterpriseDB首席技术官Marc Linster解释说,全行业都在向云计算转变,因为云计算能够疾速灵便地调整容量,并缩小简短的供给周期以及后期的许可证投资。作为数字化转型策略的一部分,灵便调整容量以适应需要的能力是疾速响应的要害。 来自谷歌云的Saha示意,初创企业和数字原生公司是最早采纳Cloud的,但随着进入2021年,更多的传统企业正在采纳云平台。 "人们曾经开始厌恶数据中心,因为很烧钱,他们感觉云在平安、隐衷和数据治理上有更多的投资"他说 可怜的是,冠状病毒大风行使每个行业的企业别无选择,只能应用数字零碎和云平台来满足需要。 萨哈说:“它从根本上放慢了这一数字化转型的挑战,我认为,不论人们有什么犹豫,咱们都远远超过了这一点。” 谷歌反对的数据分析公司Looker的首席剖析官Colin Zima说,许多客户要求公司可能应用许多不同类型的数据集和云提供商。 然而,除了地区法规之外,大多数公司只是对将数据保留在多个中央感兴趣。 “您不能将所有内容都放在一个中央,因为您须要备份并且须要冗余。因而,即便在Looker上,在被Google收买之前,咱们在Amazon、Google和Microsoft领有其余备份,一种互连正在变得失常,” Zima说。 Netdata的高级机器学习工程师Andy Maguire说,真正须要的是一个能够逾越多个云的联结数据湖。 “例如,如果您将点击流数据存储在Google BigQuery之类的文件中,并且您的外围生产利用和日志都存储在Amazon Web Services(AWS)中,那么就网络入口和进口而言,集中所有数据可能过于低廉。无论是Google Cloud Platform(GCP)还是AWS或在某些供应商的平台上。取而代之的是,咱们须要学习接受多云的复杂性以及如何最佳地进行导航。” 摸索数据的预测价值没有数据背景的企业越来越意识到,它对于预测性口头很有用。 Gartner 的高级钻研总监Joe Maguire示意,到2020年以及必定会在2021年,没有外部AI / ML技能组的企业将从供应商产品中嵌入的AI / ML性能中受害。 “在应用程序部署过程中,将数据,数据迷信和ML管道保持一致,对于在基于AI的解决方案中继续交付和继续集成定期加强的ML模型至关重要。这须要利用DataOps,MLOps和Platform Ops for AI来扩大AI架构。因而,用于AI的AI编排平台正在衰亡。” Google Cloud的Saha示意,这不只是查看上一季度或上周的数据,并试图找出过来产生的状况。 他说:“这是对于查看行将到来的事件流并实时采取行动的。” “领有实时剖析将十分重要。人们对转角处和预测将要产生的事件十分感兴趣。如果您能比其他人更快地从数据中取得价值并发明出真正的差异化价值,那就是人们的起因。对预测剖析和预测模型十分感兴趣。” 越来越多地应用人工智能和机器学习BMC Software的首席产品官Ali Siddiqui指出,古代数据堆栈将来的要害因素将是蕴含AI / ML驱动的智能和预测剖析性能,这些性能将利用宽泛的历史和实时数据。 他说,在IT经营治理畛域,这波及到剖析数据,包含指标,事件,日志,拓扑,事件和更改,并且须要凋谢的平台并且能够集成来自泛滥工具和技术的数据。还须要应用本地数据中心基础架构和应用程序中的数据以及多种云资产来反对混合客户。 Siddiqui说:“随着企业倒退成为自主的数字企业,它不仅仅是从数据分析中取得更多见解,而且还越来越波及可操作性,并可能采取自动化措施。” “面对一年的不可预测性,企业在使技术堆栈牢靠无误和主动性方面必须冀望出其不意。咱们将看到对AIOps的需要持续增长,因为它能够应用AI解决和预测这些意想不到的状况, ML和预测剖析。” Saha谈到Google Cloud时说,注入AI和机器学习已成为所有的一部分。这些工具通过执行主动扩大,主动修复,主动优化等性能而宽泛用于治理根底构造。 ...

December 22, 2020 · 1 min · jiezi

关于数据:等保数据备份和恢复关键点这些你该知道

摘要:随着云计算、大数据、物联网、挪动互联网和工业管制信息系统等新兴技术的倒退,网络安全需要变得更加繁冗,因而,等保制度应势降级至2.0时代。随着云计算、大数据、物联网、挪动互联网和工业管制信息系统等新兴技术的倒退,网络安全需要变得更加繁冗,因而,等保制度应势降级至2.0时代。等保次要为四级,本地的备份和复原是根底要求,一级到四级都须有。级数越高,对数据和业务的连续性要求越高;除备份外,还须要有数据及业务零碎的异地容灾和本地高可用策略。 等保合规要求========== 等保2.0的技术要求中对数据的备份与复原提出了明确的要求,从二级到四级的要求如下: 应答措施剖析========== 同时在平安管理制度中也列出了备份与复原治理相干的运维治理要求,在此不做累述。从华为云用户的角度,应该采纳何种伎俩来构建数据备份恢复能力,满足合规要求,上面做一个简略剖析。 技术局部可概括为数据的高牢靠与零碎的高可用两个点,数据为配置数据和业务数据,存储容器为数据库和磁盘,前者应该是最多的场景。重要数据处理系统,在云上不须要负责网络设备的冗余,这是云服务商的范畴。那么只须要思考应用服务器和数据库服务器的热冗余。 上面依据级别的不同,别离梳理应答的措施: 2.1 二级零碎应提供重要数据的本地数据备份与复原性能;应提供异地数据备份性能,利用通信网络将重要数据定时批量传送至备用场地;2.1.1 数据库备份重要数据全副保留在数据库系统的,采纳华为云RDS能够轻松满足本地与异地的数据备份要求。华为云RDS实例默认开启主动备份策略,每天产生一份备份文件,备份保留天数、备份工夫、备份周期均可批改,这是本地备份。第一条要求满足。 对于异地数据备份要求,可启用RDS的灾备实例性能,在另外的区域创立灾备实例,实时同步主用实例的数据,满足并超出第二条的要求。具体操作能够参考:创立跨区域的灾备实例 2.1.2 云服务器备份如果重要数据保留在云硬盘中,倡议采纳华为云的云备份服务CBR满足。云备份分为云服务器备份和云硬盘备份,为避免只备份局部磁盘导致的数据不统一或利用启动问题,倡议抉择云服务器备份。 云备份反对两种策略:备份策略和复制策略,前者针对选定的云服务器在本地定期创立正本,可用于复原用户数据及疾速复原业务;后者则针对云服务器备份执行跨区域的数据复制,以应答大范畴的劫难(如火灾、地震等)。具体配置可参考:云备份用户指南 2.1.3 对象存储备份对象存储OBS,用于存储海量的非结构化数据,保留有对象的容器被称为桶。OBS桶个别用于利用零碎或云服务存档数据,用户能够从OBS桶中下载数据到本地。 OBS桶提供了跨区域复制能力,满足用户复制数据到异地存储的需要,复制形式为主动加异步。具体配置可参考:OBS跨区域复制 2.2 三级零碎应提供重要数据的本地数据备份与复原性能;应提供异地实时备份性能,利用通信网络将重要数据实时备份至备份场地;应提供重要数据处理系统的热冗余,保证系统的高可用性。2.2.1 数据库备份与冗余相比二级零碎的要求,异地的数据备份要求实时,同时减少了重要数据处理系统的热冗余。二级零碎波及到的RDS灾备实例,曾经能够满足异地实时备份的要求。对于RDS实例的热冗余,能够抉择RDS主备实例来满足,主实例和备实例分属于同一Region下的不同可用区,防止单点物理故障的影响。 2.2.2 云服务器备份与容灾如果重要数据不仅仅存在于数据库中,而是存在云服务器的磁盘里,还须要其余伎俩来达成异地实时备份要求,可采纳华为云存储容灾服务SDRS。SDRS服务采纳存储层同步复制技术提供跨可用区的RPO=0的弹性云服务器级容灾爱护。当生产站点故障时,通过简略的配置,即可在跨可用区容灾站点迅速复原业务。具体的配置领导能够参考:SDRS配置跨可用区容灾。如果零碎可承受至多一个小时的RPO,也可采纳二级零碎的CBR计划,这时危险不罢黜,但可酌情升高危险等级。 当把CBR和SDRS服务联结起来应用,能够组合出一个两地三核心容灾解决方案,响应小范畴的劫难和较大范畴的自然灾害,顾全业务数据不失落,保障业务的连续性。计划领导:两地三核心容灾最佳实际(SDRS+CBR) 不过须要留神,在等保的高风险判例中,对于异地的断定规范形容如下: 一般来说同城异地机房间接间隔不低于为30公里,跨省市异地机房直线间隔不低于100公里,如间隔上不达标,可酌情升高危险等级。 SDRS所提供的容灾站点与生产站点在同一区域的不同可用区,机房间隔上可能无奈满足同城大于30公里的要求。对于容灾要求比拟高的三级零碎,存在危险。要取得更大的容灾间隔,须要从云市场寻找数据备份计划的单干厂商,例如英方、爱数等厂商的云灾备服务。具体计划须要征询他们。 对于重要数据处理系统的热冗余,合成为应用服务器的热冗余和数据库系统的热冗余。前者由利用零碎设计保障,通常会波及到ELB的应用。如零碎可承受30分钟的RTO,也可间接采纳存储容灾服务。后者如2.2.1所述,抉择RDS主备实例。 2.3 四级零碎应提供重要数据的本地数据备份与复原性能;应提供异地实时备份性能,利用通信网络将重要数据实时备份至备份场地;应提供重要数据处理系统的热冗余,保证系统的高可用性。应建设异地劫难备份核心,提供业务利用的实时切换。对于四级零碎,无论是数据还是利用,都须要具备异地容灾能力。华为云自有云服务可满足第一条和第三条。对于第二条,SDRS所提供的跨可用区容灾计划在间隔上存在危险;对于第四条,SDRS容灾计划在RTO上存在有余(小于30分钟,要求是实时)。综合判断,倡议抉择英方、爱数等业余灾备厂商的计划。 总结:======= 点击关注,第一工夫理解华为云陈腐技术~

December 18, 2020 · 1 min · jiezi

关于数据:未雨绸缪数据保护之NBU介质备份

摘要:华为GaussDB目前已反对NBU介质的备份与复原,本文次要形容了华为GaussDB数据库和NetBackup对接进行备份、复原的配置办法与性能调优办法。一、简介企业要想避开天然劫难和站点中断的影响,必须将数据正本近程备份至异地机器中。 这样当生产站点产生重大劫难事变时候,本地的生存存储与备份存储数据可能都会失落,此时须要从异地备份存储上复原数据,从而保证数据不失落。Netbackup 是目前金融行业应用最广的备份软件之一(简称NBU),是Veritas(赛门铁克)次要产品 。华为GaussDB目前已反对NBU介质的备份与复原,本文次要形容了华为GaussDB数据库和NetBackup对接进行备份、复原的配置办法与性能调优办法。 二、NBU部署形式以后GaussDB NBU备份计划反对两种部署架构,别离为侵入式部署于非侵入式部署。 NBU侵入式部署当GaussDB所在集群反对NBU系列软件装置时,部署形式采纳NBU侵入式部署,部署构造如下图: NBU侵入式部署计划能够借阅 【GaussDB对接NBU备份环境配置指南】 具体应用办法如下: 留神: --media-destination: 该参数为NBU policy名称--metadata-destination: 元数据目录(本地门路)--prior-backup-key: 该参数为增量备份依赖的备份集--backup-key: 该参数指定复原备份集1、全量备份: python $GPHOME/script/GaussRoach.py -t backup --master-port 55000 --media-destination nbu_policy --media-type NBU --metadata-destination /data1/roachbackup/metadata --parallel-process 3 2、增量备份 python $GPHOME/script/GaussRoach.py -t backup --master-port 55000 --media-destination nbu_policy --media-type NBU --metadata-destination $GAUSSHOME/roachbackup/metadata --parallel-process 3 --prior-backup-key 20200912_083324 3、全量/增量复原 python $GPHOME/script/GaussRoach.py -t restore --clean --master-port 55000 --media-destination nbu_policy --media-type NBU --metadata-destination /data1/roachbackup/metadata --backup-key 20200912_083324 4、单表备份 python $GPHOME/script/GaussRoach.py -t backup --master-port 25990 --media-destination nbu_policy --media-type NBU --metadata-destination $GAUSSHOME/tablebackup/metadata --dbname testdb --tablename test --agent-port 34990 ...

December 17, 2020 · 4 min · jiezi

关于数据:GaussDBDWS磁盘维护vacuum-full执行慢怎么办

摘要:在数据库中用于保护数据库磁盘空间的工具是VACUUM,其重要的作用是删除那些曾经标示为删除的数据并开释空间。vacuum的性能回收空间数据库总是一直地在执行删除,更新等操作。良好的空间治理十分重要,可能对性能带来大幅提高。 执行delete操作后,表中的记录只是被标示为删除状态,并没有开释空间,在当前的update或insert操作中该局部的空间是不可能被重用的。 在数据库中用于保护数据库磁盘空间的工具是VACUUM,其重要的作用是删除那些曾经标示为删除的数据并开释空间。通过vacuum清理后,空间能力失去开释。 VACUUM回收已删除元组占据的存储空间。在个别的数据库操作里,那些曾经DELETE的元组或者被UPDATE过后过期的元组是没有从它们所属的表中物理删除的;在实现VACUUM之前它们依然存在。因而咱们有必须周期地运行VACUUM,特地是在常更新的表上。 解冻tuple的xid在每条记录(tuple)的header中,寄存xmin,xmax信息(增删改事务ID)。transactionID的最大值为2的32次,即无符整形来示意。当transactionID超过此最大值后,会循环应用。 这会带来一个问题:就是最新事务的transactionID会小于老事务的transactionID。如果这种状况产生后,就没有方法按transactionID来辨别事务的先后,也没有方法实现MVCC了。 因而用vacuum后盾过程,按肯定的周期和算法触发vacuum动作,将过老的tuple的header中的事务ID进行解冻。解冻事务ID,行将事务ID设置为“2”(“0”示意有效事务ID;“1”示意bootstrap,即初始化;“3”示意最小的事务ID)。被解冻的事务ID比任何事务都要老。这样就不会呈现下面的这种状况了。 更新visibility map在数据库中,有一个visibility map用来标记那些page中是没有dead tuple的。这有两个益处,一是当vacuum进行scan时,间接能够跳过这些page。二是进行index-only scan时,能够先查看下visibility map。这样缩小fetch tuple时的可见性判断,从而缩小IO操作,进步性能。另外visibility map绝对整个relation,还是小很多,能够cache到内存中。 vacuum full与vacuum的区别1.vacuum只是将删除状态的空间开释掉,转换到可能从新应用的状态,然而对于零碎来说该数据块的闲暇空间并没有反馈到零碎的元数据中,并不进行空间合并。 而vacuum full本质上是重建了整个表,以达到空间合并的成果。 2.vacuum执行过程中对表加4级锁,不会影响表的增删改查,而vacuum full对表加8级锁,执行过程中表无法访问。 3.vacuum对列存表有效 vacuum full的执行流程建长期表数据库会新建一个长期表,长期表继承老表所有属性。 这个阶段会对pg_class申请“RowExclusiveLock”锁,因为须要插入记录。 拷贝数据将原来的数据copy到temp表中。 对长期表,老表以及索引都以“AccessExclusiveLock”模式关上。 另外对于toast,只是lock,不关上。 在这个过程中实现Dead Tuple的清理。 表替换新表将老表替换掉。会对pg_class再次申请“RowExclusiveLock”锁。 重建索引是在替换之后实现的,重建索引时,会更新一些统计信息。对表申请“ShareLock”锁。 删除长期表索引重建实现后,将带有老物理文件的新长期表进行删除。 vacuum full执行慢的常见场景1. 存在锁争抢在cn上执行select * from pg_stat_activity where query like '%vacuum%';找到vacuum full的pid 查看该线程的期待状态,如果期待状态是acquire lock,阐明存在锁期待 select * from pg_thread_wait_status where tid = 139878309295872; 在pg_locks中查问vacuum full在等哪个锁 select * from pg_locks where pid = 139878309295872 and granted = 'f'; ...

December 14, 2020 · 1 min · jiezi

关于数据:让垃圾分类开发极快致简的好物件零基础的开发小白也能轻松驾驭它

摘要:2019年7月1日,史称“最严格的垃圾分类法”《上海市生存垃圾管理条例》正式开始实施,一时之间上海人最罕用的见面语从“侬好”变成了“侬是什么垃圾?”。垃圾分类施行至今,不少人曾经摒弃了靠“佩琦”机械分别垃圾分类的土办法,尝试用当下煊赫一时的AI来进行垃圾分类,接下来让咱们一起走近这款“极快致简”的开发平台——华为云 ModelArts。兴许咱们素来没有想过, 看似简略的垃圾分类竟然给“聪慧”的人类带来如此大的困扰, 2019年7月1日,史称“最严格的垃圾分类法”《上海市生存垃圾管理条例》正式开始实施, 一夜之间,上海人最罕用的见面语从“侬好”,变成了“侬是什么垃圾”? 尽管只有可回收物、无害垃圾、干垃圾和湿垃圾四种分类,但面对现实生存中“丰富多彩”的垃圾,市民们还是被搞得“昏头昏脑”、“丈二和尚摸不着头脑”。 该市民正在查问垃圾如何分类 有市民示意,因为要进行垃圾分类,连珍珠奶茶都不敢喝了。喝完后,“侬知道该怎么分类伐?”面对这样的“世纪难题”,很多网友都“脑洞大开”想到了很多法子来升高垃圾分类的难度。 不过,在科技如此发达的明天,用这些办法来进行垃圾分类,未免就太“不潮流”了,为什么就不能试试用现在煊赫一时的AI来进行垃圾分类呢? AI 垃圾分类市场炽热实际上,用AI进行垃圾处理并不是一件陈腐的事件,前几年波兰守业公司Bin-e公司开发了一种全新的人工智能垃圾桶,用户只须要在垃圾桶前扫描一下垃圾,舱门便会关上。这个人工智能垃圾桶是通过传感器、摄像头、AI图像识别算法来主动进行垃圾分类,应用起来能够说是很不便了,而且回收公司也能够通过APP来随时查看垃圾桶的残余空间等。 印度尼西亚一家守业公司Gringgo也曾应用谷歌的机器学习平台TensorFlow研发图像识别工具。指标是让环卫工人更好地对垃圾进行剖析和分类,并量化它们的价值。独一无二,硅谷的守业公司Compology就给小区的垃圾箱装备了智能传感器。这些传感器每天会屡次拍摄垃圾桶外部的高分辨率照片,并发送图像到云端。这样,垃圾清理公司就可能及时监控信息,优化卡车清运垃圾的路线或时间表,快捷高效地拾取垃圾,从而保障了不同规模小区的垃圾清理效率。 往年五月,沃尔沃公司同样发表与瑞典的Renova公司联手,开始测试主动驾驶垃圾车。除了和一般无人车一样配置激光定位器、雷达、摄像头、红外摄像头等传感零碎之外,这种卡车还可能依照设置好的路线,沿途收集垃圾。 垃圾分类 AI 开发的背地,暗藏“大坑”实际上,用AI进行垃圾分类并不像人们设想中的那样简略,它至多须要跨过几个大坑: 第一,为了实现垃圾主动分类,首先须要有一个曾经分好类别的“垃圾”图像数据集作为训练的根底。如果没有这样一个能够间接应用的数据集,就须要本人入手收集海量的“垃圾”图像并为每张图像标注相应的类别。而数据集的收集以及标注始终都是一件十分耗时耗力的工作。 第二,垃圾分类实际上是一个图像识别分类的问题。通常,对于图像识别分类,基于深度卷积神经网络的图像分类算法成果最好,这当中,目前利用比拟宽泛的AlexNet、VGGNet、ResNet。AlexNet是计算机视觉工作的标配,尽管比拟成熟,但因为呈现较早,在性能上有些掉队,在AlexNet的根底上,以减少网络深度为思路,呈现了VGGNet,但青出于蓝的ResNet,使得层数极深的网络成为了可能,从而使网络性能失去了大幅晋升。以后ResNet及其变种模式曾经被宽泛地利用于图像分类工作。不过,不论是AlexNet、VGGNet、还是ResNet,部署起来都挺简单,也不太易于应用。 华为云 ModelArts:让垃圾分类开发“极快致简”不过,好在有华为云ModelArts一站式AI开发平台,领有弱小性能的它可能帮开发者们“极快致简”地越过AI垃圾分类开发的大坑。华为云ModelArts对AI开发中的全流程,包含数据处理、模型训练、模型治理、利用部署等各方面都进行了极致优化,比方目前最消耗“人工”的数据筛选、预标注等。ModelArts内置MindData AI数据框架,以AI的机制来治理数据,用迭代训练来解决标注的数据量问题,可实现数据标注与筹备效率的百倍晋升。借助ModelArts,不仅资深AI开发者能轻车熟路的全程在云上进行算法开发和模型训练,零根底的开发小白也能轻松驾驭。 事实上,通过算力和计算计划方面的改良,在同样的模型、数据集和等同硬件资源状况下,ModelArts能将模型训练耗时升高一半。往年3月,在国内权威的深度学习模型基准测试平台斯坦福DAWNBenchmark图像识别总训练/推理工夫测试中,ModelArts排名世界第一。 就垃圾分类场景具体而言,ModelArts可能无效助力垃圾分类AI模型开发。首先是垃圾图片数据集的标注,Modelarts会将数据进行预处理,用AI的数据去标注数据,即自动化标注和半自动化标注。通过对数据采样、筛选和预标注,可能缩减开发者须要标记的数据量,升高开发者工作量。其次是垃圾图像的辨认分类。ModelArt不仅曾获图像识别总训练工夫冠军,为了将用户应用门槛降到最低,华为云ModelArts还提供了图像分类我的项目的视频教程。此外,借助ModelArts,开发者还可将训练好的垃圾分类的AI模型部署为在线服务,验证模型的可用性和准确性,即时对模型进行问题排查。 目前,华为云ModelArts不仅能进步AI垃圾分类开发效率,还在上海交通大学的主动驾驶赛车我的项目、云庐科技的建筑物构造衰弱度预测、NGO雨林爱护打算中失去了宽泛的利用。 点击关注,第一工夫理解华为云陈腐技术~

December 11, 2020 · 1 min · jiezi

关于数据:关于物联网规则引擎技术你想要知道的都在这儿

摘要:本文将从设施联动的触发条件和执行动作,以及数据转发的触发事件和转发指标两大部分,具体论述规定引擎的原理。规定引擎就是指用户在华为云平台对接入的设施设定相应的规定,而后在条件满足响应的规定后,平台便会触发的动作来满足用户需要。规定引擎蕴含了设施联动和数据转发两个局部。 规定引擎思维导图: 设施联动设施联动是通过条件触发,基于预设的规定,引发多设施的协同反馈,实现设施联动、智能管制。例如,当执行动作为“发送告诉”时,物联网平台对接华为云的音讯告诉服务SMN,进行主题音讯的设置和下发。 触发条件:要想触发一个规定动作,就必须首先要有个触发条件,在华为云设施联动的规定有匹配设施触发、指定设施触发、定时触发三个局部。 指定设施触发:对应用雷同产品模型的设施进行条件设置。 指定设施登程:对指定设施进行条件设置。 定时触发:能够设置规定触发的工夫点。值得注意的是当指定的触发条件抉择“定时触发”,则执行动作中不能设置为“发送告诉”、“上报告警”、“复原告警”的动作。 执行动作:当领有一个触发条件的时候,必定会有一个与之对应的执行动作,执行动作可分为下发命令、发送告诉、上报告警、复原告警。 下发命令:下发命令时需指定要执行的设施,对服务的执行命令参数进行重新配置下发给设施。 发送告诉:发送告诉须要您受权以后设施接入服务(IoTDA) 拜访所有区域的音讯告诉服务(SMN) 的权限。即对接华为云的音讯告诉服务SMN,进行主题音讯的设置和下发。 上报告警:定义告警级别、告警名称、告警内容等。当满足触发设置的条件后,产生的告警将对立上报到利用运维治理服务(AOM)治理界面。 复原告警:定义告警级别、告警名称、告警内容等,当满足触发设置的条件后,产生的告警将对立上报到利用运维治理服务(AOM)治理界面。 数据转发设施接入IOTDA能与华为云上的其余服务实现无缝对接,就是借助于规定引擎中的数据转发来实现的。当满足数据转发的触发条件时,iotDA便能依据所设定的触发事件将数据转发到其余服务或是推送给利用。例如DIS、OBS等。 触发事件:在设施接入IOTDA与其余服务对接,首先须要确认须要转发的事件,触发事件次要有设施的增加更新或删除、设施属性的上报、设施音讯状态的变更、设施状态变更、批量工作变更。 设施增加更新与删除:是指新增一个设施、删除、更新一个设施时触发规定引擎,而后将数据转发到所设定的转发指标服务。值得注意的是设施更新指的是设施的一些根本信息,如设施名称、形容、版本信息等,而是不是所属服务的属性。 设施属性上报:是指当设施上报其属性时触发规定通过设定的转发指标将其转发到其余的华为云服务或是推送给利用。 设施音讯上报:是指当设施上报其音讯时触发规定通过设定的转发指标将其转发到其余的华为云服务或是推送给利用。 设施音讯状态变更:是指当设施音讯状态产生变更时触发规定通过设定的转发指标将其转发到其余的华为云服务或是推送给利用。音讯的状态分为以下四种:PENDING,DELIVERED,FAILED和TIMEOUT,PENDING指设施不在线,音讯被缓存起来,等设施上线之后下发: DELIVERED指音讯发送胜利;FAILED音讯发送失败;TIMEOUT指音讯在平台默认工夫内(1天)还没有下发送给设施,则平台会将音讯设置为超时,状态为TIMEOUT。 设施状态变更:是指当设施的状态产生变更时触发规定通过设定的转发指标将其转发到其余的华为云服务或是推送给利用。设施的状态分为以下四种:未激活,在线、离线、异样。 设施批量工作变更:是指针对工作类型为固件降级或是软件降级的工作状态产生变更时触发规定通过设定的转发指标将其转发到其余的华为云服务或是推送给利用。设施的批量工作状态分为以下六种:工作正在期待被执行、工作正在被执行、工作胜利、工作局部胜利、工作失败、工作被进行。 转发指标在咱们对触发事件设置实现之后,就会设置其转发的指标。转发指标能够是华为云上的其余服务,也能够间接是通过http推送的形式推送给第三方利用又或者是AMQP音讯队列. 对于规定引擎的黑名单:规定引擎的黑名单是指:当触发规定引擎时,依据触发事件将数据推送给利用,然而因为应用服务器问题推送失败,并且间断推送十次失败,这时这个利用地址便会被平台退出到黑名单,不再进行推送,当三十秒过后,这时平台将会放开黑名单名单一次,此时当条件满足时再去推送,如果胜利则胜利,如果即又间断十次失败,便又会退出黑名单。如此重复。 根据上述,其实规定引擎的黑名单是针对那些条件触发频繁、推送频繁的状况。 本文分享自华为云社区《规定引擎》,原文作者: 华为IoT云服务 。点击关注,第一工夫理解华为云陈腐技术~

December 2, 2020 · 1 min · jiezi

关于数据:华为云MVP高浩打破AI开发瓶颈解决数据算法算力三大难题

摘要:在高浩看来,大量的数字蓝领人才和AI利用开发人员形成了以后AI行业倒退人才之基,这也为高校学生待业初期从事的工作指明了方向,而华为ModelArts平台在教育领域有着人造的数据、算法劣势,非常适合AI教学。高浩,华为云MVP,南京航空航天大学硕士毕业,曾就任于某研究所集团公司。先后从事大数据开发与数据挖掘工作,善于机器学习和数据分析。现任江苏知途教育科技有限公司人工智能课程研发负责人,“1+X” 计算机视觉利用开发认证(高级,中级)副主编,高级认证讲师。 从人工智能被写入政府工作报告,到现在高校遍地开花的人工智能业余,AI作为下一阶段迷信改革浪潮的新引擎,正在渗透到各行各业,当行业进入高速发展期,市场对高端人才的需要和依赖性也随之攀升。 高浩始终从事大数据开发与数据挖掘工作,善于机器学习和数据分析,当初负责江苏某教育科技公司的人工智能课程研发负责人。 在他看来,大量的数字蓝领人才和AI利用开发人员形成了以后AI行业倒退人才之基,这也为高校学生待业初期从事的工作指明了方向,而华为ModelArts平台在教育领域有着人造的数据、算法劣势,非常适合AI教学。 为什么抉择ModelArts?AI利用的开发非常复杂,次要体现在开发流程简短、繁缛,包含数据筹备、算法开发、模型开发、利用生成、部署和保护等多个环节,链路很长,每个环节都须要大量人力和计算资源的投入。 AI开发须要的试验环境或者平台资源低廉,传统的实际教学体系与市场岗位、企业我的项目脱、产业倒退、以及集体职业倒退脱节。 除此之外,AI的三个要害因素:算法、算力和数据,一方面推动了AI技术的利用落地,但也进步了学习上手的门槛。 思考到这些难题,高浩在调研了多家厂商的开发平台后,最终抉择了一站式AI开发平台ModelArts。“算法能够采纳平台中已有的通用算法,缩短建设工夫,升高技术人员的入门门槛。算力能够依据按需形式租用GPU服务器,升高钻研的后期投入。” 高浩示意,ModelArts的教学指南十分残缺,它系统地介绍了AI利用开发全流程及其子流程,包含数据筹备、算法抉择和开发、模型训练、评估和调优等,以及人工智能利用开发场景化实际。 通过一整套工具链和办法传递,每个开发者都能够借助ModelArts在具体业务场景下更快、更高效、更低成本地开发AI利用,从而更好地解决理论问题。高浩认为,这样从教学施行角度上也更有普适指导意义。 为了进一步阐释ModelArts的易用性,高浩具体演示了一个基于ModelArts和HiLens的云、边、端协同的AI利用开发案例。 疾速上手ModelArtsModelArts 的“一站式”体现在它囊括了AI开发的各个环节,包含数据处理、算法开发、模型训练、模型部署等等,而且面向不同教训的开发者,提供相匹配的应用流程。 内容方面,ModelArts反对图像分类、图像检测、视频剖析、语音辨认、产品举荐、异样检测等多种AI利用场景。性能方面,它反对从数据处理到算法开发、训练、部署、开发流程治理等多种性能。如下图所示: 其中,外围局部次要包含数据处理和模型的治理。 1、数据的解决在ModelArts中,咱们都是以数据集为数据根底,进行模型开发或训练等操作的。创立数据集前须要获取拜访OBS的权限。 目前,ModelArts反对如下9种类型的数据集,蕴含图片、音频、文本和其余类别: • 图像分类 • 物体检测 • 声音分类 • 语音内容 • 语音宰割 • 文本分类 • 命名实体 • 文本三元组 • 自在格局 针对创立好的数据集,能够执行标注数据、公布、版本治理、批改、导入和删除等操作。 以图像分类为例,只须要给图片增加相应的标签即实现标注。物理检测的话,则须要在图片中应用标注框来框出标注对象,并打上标签,其余与图像分类类似。 此处强调一下命名实体数据集,命名实体场景是针对文本中的实体片段进行标注,如“工夫”、“地点”等。与文本分类不同的是,它需对片段进行标注,而不是全文。 文本三元组标注则实用于标注语句当中形如(主语/Subject,谓词/Predicate,宾语/Object)结构化常识的场景,标注时岂但能够标注出语句当中的实体,还能够标注出实体之间的关系,其在依存句法分析、信息抽取等自然语言解决工作中常常用到。 声音方面,次要是依据播放内容,在 “语音内容”文本框中填写音频内容,实现标注。 2、模型训练治理数据处理实现后,接下来就是模型的训练。ModelArts能够基于不同的数据抉择不同规格的资源池(CPU或GPU),依据用户抉择的数据量和资源不同,模型训练通常耗时几分钟到几十分钟不等。 同时,ModelArts也反对查看模型训练的状况并及时调整模型参数。 除反对用户本人开发的模型外,ModelArts还提供了AI市场算法,开发者能间接应用已有的算法,再通过简略的调参失去一个称心的模型。 模型训练之后,ModelArts模型治理可导入所有训练版本生成的模型,对立治理迭代和调试的模型,同时它还反对从模板、容器镜像以及OBS等场景导入模型,不便模型的部署上线。 另外,ModelArts提供了模型转换性能,能够将已有的模型转换成所需格局,以便利用于算力和性能更高的芯片上。举个例子,用Tensorflow框架训练的模型,应用转换性能可转换成om格局,即可在昇腾芯片上部署运行。 端侧看HiLens,让AI利用疾速落地学会用ModelArts做好模型训练后,端侧的开发平台HiLens能够让AI利用落地更简略,高浩也谈了谈他应用HiLens的感触。 HiLens是端云协同多模态AI开发利用平台,它提供简略易用的开发框架、开箱即用的开发环境、丰盛的AI技能市场和云上治理平台,对接多种端侧计算设施如HiLens Kit,反对视觉及听觉AI利用开发、AI利用在线部署、海量设施治理等。 高浩示意,购买HiLens Kit的普通用户如果须要疾速装置技能到设施,使其具备AI能力,能够到技能市场购买技能,根本流程如下: 对于具备编程能力的用户,也能够抉择本人创立技能。 购买或者创立好技能后,就是对其进行部署,具体能够返回数据管理查看技能成果。 基于HiLens,高浩筹备开发了一个检测施工现场作业人员是否佩戴安全帽的利用。 他在创立好绝对应的技能后,应用HDMI视频线连贯HiLens Kit视频输入端口和显示器,而后点击后盾治理中的启动技能,当状态变为“运行中”,表明技能胜利运行在端侧设施上。 最初利用的后果如下: ...

November 30, 2020 · 1 min · jiezi

关于数据:数仓搬迁从方法到实践带你解决数据一致性对比

摘要:数据仓库建设过程中,总是会波及到不同平台、同一平台物理环境搬迁,因为数据仓库数据量宏大,往往数据搬迁不可能在一个短周期内实现,会波及数据同步、校验、追批并跑、再校验过程。本文次要论述数据校验过程设计,供相干人员借鉴。 数据一致性校验最核心内容项 校验伎俩依据常见数据存储类型,次要实现对象级记录一致性校验,字段级数值、工夫、字符类型的数据一致性校验,即惯例提到的表级count、字段级数值的sum、工夫类型差值sum、字符类型的checksum。 下文以TD搬迁GaussDB(DWS)为例, 1. 记录数 a) 表级count(*) 2. 数据类型 a) 汇总Sum(cola) b) 均匀Avg(cola) c) 例外,针对float类型这种存在精度缺失场景,或间接不校验,或比对两个平台差别小于5%范畴即可承受; d) 注意事项,不同平台可能存在sum放大小数点位数问题,可通过指定小数点地位,让两个平台数值完全一致; 3. 工夫类型 a) 汇总Sum(工夫转换数字) b) Date类型实现款式 i. DWS:select extract(epoch from '20200819'::date); ii. TD:sel (date'2020-08-19'-date'1970-01-01')*86400; c) Time类型实现款式 i. DWS:select extract(epoch from '12:12:12'::time); ii. TD:sel extract(hour from time'12:12:12')3600+extract(minute from time'12:12:12')60+extract(second from time'12:12:12'); d) TimeStamp类型实现 i. DWS:select extract(epoch from '2020-08-19 12:12:12'::timestamp); ii. TD:sel ( (timestamp'2020-08-19 12:12:12'(date))-date'1970-01-01')86400+extract(hour from timestamp'2020-08-19 12:12:12')3600+extract(minute from timestamp'2020-08-19 12:12:12')*60+extract(second from timestamp'2020-08-19 12:12:12'); ...

November 28, 2020 · 1 min · jiezi

关于数据:如何保障企业数据资产的全生命周期安全看这篇就够了

摘要:随着国家大数据策略的一直推动和深入,做好数据安全治理成为了极大挑战。咱们很难在繁多的数据安全能力中去构建适宜本人平安体系,业界也不足具备领导建设意义的数据安全产品。什么是数据?能够是音乐,工夫,1234,也能够是硬盘,零碎,二进制……维基百科上定义:数据是通过观测失去的数字性的特色或信息。更业余地说,数据是一组对于一个或多集体或对象的定性或定量变量。 信息技术突飞猛进,科学技术澎湃倒退。数据曾经成为和水、电之类等同重要的战略物资,是企业的外围资产和赖以生存的命根子。随着国家大数据策略的一直推动和深入,做好数据安全治理成为了极大挑战。咱们很难在繁多的数据安全能力中去构建适宜本人平安体系,业界也不足具备领导建设意义的数据安全产品。 2020年3月,国标GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》明确指出数据安全的治理须要基于以数据为核心的治理思路,从组织机构业务范围内的数据生命周期的角度登程,联合组织机构各类数据业务倒退后所体现进去的平安需要,发展数据安全保障。 华为云数据安全核心集结华为云外围数据保护能力华为云数据安全核心(Data Security Center,简称DSC)是华为云往年打造的重磅服务,从数据的全生命周期登程,围绕数据采集、传输、存储、解决应用、替换和销毁各个阶段构建。明天云上的数据安全能力其实始终是扩散在各个服务之中,例如VPN、平安组、SSL证书以及诸如ECS、RDS、OBS等集成的加密能力。数据安全核心致力于汇总扩散的数据安全能力,从租户登程提供对立视角。 数据安全是一个管道,整体的平安能力是由每个阶段的平安能力独特组成的,换言之,如果某一个阶段做的很强,而另一个阶段没有任何保护措施,那么对于整体数据安全状态来说也是于事无补。上面笔者就具体的每个阶段进行解读。 数据采集:是指组织机构外部零碎中新生成数据,以及从内部收集数据的阶段。这个阶段的安全性重在辨认和预防,辨认出新采集的数据中是否存在敏感信息,泄露后是否存在危险,以及决定要以什么样的技术手段爱护敏感数据等。华为云数据安全核心通过构建自动化数据辨认引擎,在数据生成的时候就能出现整体危险,反对200种数据格式,反对结构化数据、非结构化数据,真正做到场景全笼罩。 数据传输:是指数据在组织机构外部从一个实体通过网络流动到另一个实体的阶段。这个阶段的安全性重在认证与加密,数据传输过程中最常见的是窃听、嗅探和中间人攻打,他们的独特特点都是利用了传输通道的不安全性,即未做认证校验和报文信息未加密等,因而开启SSL/TLS加密通信和公私有证书身份校验(证书的链接)可能无效避免此阶段的数据安全危险。数据安全核心通过联动VPN、云连贯、证书等服务,继续监测传输通道状态。 数据存储:是指数据以任何数字格局进行物理存储或云存储的阶段。这个阶段的平安是保证数据的可用性以及通过权限的正当拜访。数据安全核心在这个阶段次要监控OBS桶内文件的加密状态,OBS的文件反对默认通明加密,云上密文存储,保障云上数据安全。 数据处理应用:是指组织机构在外部针对数据进行计算、剖析、可视化等操作的阶段。数据是流动的,很多危险是在数据流转的过程中产生的,通过对数据应用行为剖析,咱们能够事后辨认一些可能的泄露事件。举个例子,一位员工行将到职,到职前批量下载公司机密文件,心愿可能带到下个公司。这类批量下载的行为就是一个异样的行为,与该员工固有的工作轨迹产生偏差。数据安全核心通过构建深度学习行为辨认能力,提前辨认出异样行为并及时告警,把数据泄露事件阻击在源头。 数据交换:是指数据由组织机构与内部组织机构及集体交互的阶段。数据的替换意味着数据会流出零碎或组织外部,难以管控,因而在流出前须要控制数据泄露的危险。华为云数据安全核心提供数据脱敏和水印的能力,保证数据在替换过程中可能对敏感信息进行脱敏解决,也可能对替换数据流、文件、图片等打上水印信息,确保数据泄露溯源。 数据销毁:是指通过对数据及数据的存储介质通过相应的操作伎俩,是数据彻底消除且无奈通过任何伎俩复原的过程。华为云在客户内容数据的销毁阶段,会对指定的数据及其所有正本进行全面的革除。 当客户确认删除操作后,华为云首先删除客户与数据之间的索引关系,并在将内存、 块存储等存储空间进行重新分配前进行清零操作,确保相干的数据和信息不可还原。 对于物理存储介质报废的状况,华为云通过对存储介质进行消磁、折弯或破碎等形式 进行数据革除,确保其上的数据无奈复原。 解决企业的数据担心,满足平安合规。理解更多华为云数据安全核心服务详情,可收费申请公测。 点击关注,第一工夫理解华为云陈腐技术~

November 27, 2020 · 1 min · jiezi

关于数据:MySQL-连接为什么挂死了

摘要:本次分享的是一次对于 MySQL 高可用问题的定位过程,其中波折颇多但问题自身却比拟有些代表性,遂将其记录以供参考。一、背景近期由测试反馈的问题有点多,其中对于系统可靠性测试提出的问题令人感到头疼,一来这类问题有时候属于“偶发”景象,难以在环境上疾速复现;二来则是可靠性问题的定位链条有时候变得很长,极其状况下可能要从 A 服务追踪到 Z 服务,或者是从利用代码追溯到硬件层面。 本次分享的是一次对于 MySQL 高可用问题的定位过程,其中波折颇多但问题自身却比拟有些代表性,遂将其记录以供参考。 架构首先,本零碎以 MySQL 作为次要的数据存储部件。整一个是典型的微服务架构(SpringBoot + SpringCloud),长久层则采纳了如下几个组件: mybatis,实现 SQL <-> Method 的映射hikaricp,实现数据库连接池mariadb-java-client,实现 JDBC 驱动在 MySQL 服务端局部,后端采纳了双主架构,前端以 keepalived 联合浮动IP(VIP)做一层高可用。如下: 阐明 MySQL 部署两台实例,设定为互为主备的关系。为每台 MySQL 实例部署一个 keepalived 过程,由 keepalived 提供 VIP 高可用的故障切换。实际上,keepalived 和 MySQL 都实现了容器化,而 VIP 端口则映射到 VM 上的 nodePort 服务端口上。 业务服务一律应用 VIP 进行数据库拜访。Keepalived 是基于 VRRP 协定实现了路由层转换的,在同一时刻,VIP 只会指向其中的一个虚拟机(master)。当主节点产生故障时,其余的 keepalived 会检测到问题并从新选举出新的 master,尔后 VIP 将切换到另一个可用的 MySQL 实例节点上。这样一来,MySQL 数据库就领有了根底的高可用能力。 另外一点,Keepalived 还会对 MySQL 实例进行定时的健康检查,一旦发现 MySQL 实例不可用会将本身过程杀死,进而再触发 VIP 的切换动作。 ...

November 20, 2020 · 6 min · jiezi

关于数据:40万条客户信息被泄露企业如何有效防范员工成内鬼

据新京报报道,邯郸市公安局近期侦办的一起案件中,发现不法分子与快递企业多位“内鬼”团结,通过有偿租用快递企业员工零碎账号,盗取公民个人信息,再层层倒卖公民个人信息至不同上游立功人员。 据警方走漏,立功嫌疑人其实是间接以每日500元的费用租用某物流公司外部员工零碎账号,再雇人登录账号进入快递企业后盾物流零碎,进行快递信息的批量导出。这些窃取的快递信息被从新打包之后,通过各种渠道销售给东南亚电信欺骗团伙。 理论参加这起案件的企业“内鬼”共有5人,散布在邯郸和邢台两市的5个网点。被泄露的信息包含发件人和收件人地址、姓名、电话共六个维度。不过,侥幸的是,被泄露的信息大部分是以“”来匿去的“不齐全信息”,例如发件人为“张三”,发件电话却为“”。 依据快递企业颁布的官网信息:早在7月,就已发现了相干犯罪事实,是快递企业外部的“物流危险控制系统”发现了员工账号存在高危操作,即“对应网点员工账号频繁查问其余网点运单信息”。快递企业随即敞开了危险账号,并且成立了包含业务、安保、信息技术在内的调查组,最终通过相干调查取证,于9月胜利捕捉相干嫌疑人。 据统计,在这起安全事件中,共有超过40万条的信息数量被泄露,六个维度中蕴含的残缺信息约为4.5万条。据不法分子供述,收集到的信息被打包以大概单价1元卖出。涉案金额总计约120万元。 01 平安不应成为企业数字化的“拦路虎”快递运单信息泄露问题由来已久,尤其是在纸质机打甚至手写面单的年代,面单的回收治理极难实现,信息的隐衷性压根无奈保障。随同着快递企业的高速数字化,电子面单的呈现实际上曾经解决了相当多的问题。简略来说,数字化的面单不存在是否须要回收的问题,收件人的相干信息也能够利用数字化的伎俩,以不残缺但可确认的模式呈现。2014年退出腾讯平安,领有多年挪动平安实际,专一企业挪动化业务平安的腾讯平安专家杨启波示意: 在这次的事件中,数字化让企业可能建设“物流风控系统”这样的平安零碎,发现跨网点查问面单信息这样的异样操作,并在预先固定证据并帮忙抓捕不法分子,都是微小的提高。然而,在推动数字化的同期,如何做好平安建设将是更为要害的一点。在谈及目前快递行业还在继续推动的隐衷信息加密解决时,杨启波示意: 这种形式可能实现对用户数据肯定水平上的爱护,其外围在于企业数据安全治理计划是否依据数据的敏感水平进行分层分级,以及是否通过产生于不同业务场景下的数据是实现对用户信息的残缺拼凑。这其实表明了一个事实:快递企业除了须要建设紧密的危险控制系统之外,还须要对数据安全进行加固,保障数据危险的可控及可审计。02 企业数字化建设须要器重零信赖机制杨启波指出,企业除了合规建设和零碎预警等常态机制外,还须要关注企业业务零碎拜访链条的动静鉴权和动静行为监控、预警、阻断,这也是造成此次事件的次要起因之一。不法分子以多个网点为据点的分布攻打模式,使其有机会在不触动相干高危操作警报的前提下,实现各个网点内信息的收集,企业往往只能预先审计发现问题。 对于可能呈现的更为刁滑的不法攻打,杨启波示意: 要真正保障快递企业隐衷信息的平安,除了根底合规体系以外,企业应该采纳“零信赖”平安机制。不信赖任何拜访,对每次拜访做到严格鉴权监控。通过多因素认证验证访问者实在身份之后,再开放系统拜访权限,并做好全程拜访过的实时风控,对访问者实在身份(身份辨认/多因素认证)、拜访频次/地点/行为特色等进行实时预判,以在第一工夫发现危险并切断拜访起源。技术的倒退,以及企业业务复杂程度的晋升,势必将衍生出越来越多的平安危险。在这过程中,企业该当更加关注业务全流程中的危险点,最大限度地缩小攻击面。而这一指标的实现须要的是一个零碎的布局和设计,即在平安顶层设计时,就将使用者身份可信、利用连贯平安、云利用安全控制等一并思考在内,从而打造出一个贯通整个业务流程的安全控制闭环。

November 20, 2020 · 1 min · jiezi

关于数据:收藏数据建模最全知识体系解读

摘要:一文带你认知数据建模最全常识体系,具体解读三范式、星型模型、雪花模型、星座模型、建模标准等内容。一、前言数据建模乍一听的时候感觉十分的有技术性,并且在行感觉十分的高大上,高深莫测。 在目前的时代下,数据量能够说是海量,并且还在持续增长,那么对于企业来说,如何疾速的精确的从这些数据中获取本人想得到的信息呢? 二、什么是数据建模数据建模简略来说就是基于对业务的了解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读性加强,让应用方能疾速的获取到本人关怀的有价值的信息并且及时的作出响应,为公司带来效益。 三、为什么要建模数据建模是一套方法论,次要是对数据的整合和存储做一些领导,强调从各个角度正当的存储数据。有了适合的数据模型,是会带来很多益处的: 查问使用性能晋升用户效率进步,改善用户体验数据品质晋升......所以大数据系统须要数据模型办法来更好的组织和存储,以便在性能,老本,效率和品质之间取的均衡。 四、建模常用工具PowerDesigner:Power Designer 是Sybase公司的CASE工具集,应用它能够不便地对管理信息系统进行剖析设计,他简直包含了数据库模型设计的全过程。利用Power Designer能够制作数据流程图、概念数据模型、物理数据模型,还能够为数据仓库制作构造模型,也能对团队设计模型进行管制。他能够与许多风行的软件开发工具,例如PowerBuilder、Delphi、VB等相配合使开发工夫缩短和使零碎设计更优化。 power designer是能进行数据库设计的弱小的软件,是一款开发人员罕用的数据库建模工具。应用它能够别离从概念数据模型(Conceptual Data Model)和物理数据模型(Physical Data Model)两个档次对数据库进行设计。在这里,概念数据模型形容的是独立于数据库管理系统(DBMS)的实体定义和实体关系定义;物理数据模型是在概念数据模型的根底上针对指标数据库管理系统的具体化。 五、业务零碎和数据仓库建模区别在业务零碎中,通常面对业务库的随机读写,目前次要是采纳三范式(3NF)模型存储数据。 而在数据仓库的建模过程中,因为次要是数据的批量读取操作,然而事物并不是咱们所关怀的,次要是关注数据的整合以及查询处理性能,因而会采纳其余的建模办法,以Kimball维度建模最为经典。 六、Kimball和Inmon架构6.1 Inmon架构辐射状企业信息工厂(CIF) 办法由Bill Inmon及业界人士提倡的。在这个环境下,数据从操作性数据源中获取,在ETL零碎中解决,将这一过程称为数据获取,从这一过程中取得的原子数据保留在满足第三范式的数据库中,这种规范化的原子数据的仓库被称为CIF架构下的企业级数据仓库(EDW) 与Kimball办法类似,CIF提倡企业数据协调与集成,但CIF认为要利用规范化的EDW承当这一角色,而Kimball架构强调具备一致性维度的企业总线的重要作用 Inmon企业级数据仓库的剖析数据库通常以部门为核心(而不是围绕业务过程来组织),而且蕴含汇总数据,并不是原子级别数据,如果ETL过程中数据所利用的业务规定超过了根本概要,如部门改名了或者其余的相似计算,要将剖析数据库与EDW原子数据分割起来将变得很艰难 6.2 Kimball架构Kimball架构利用了CIF中处于核心位置的EDW,然而此次的EDW齐全与剖析与报表用户隔离,仅作为数据起源,其中数据是维度的,原子的,以过程为核心的,与企业级数据仓库总线结构保持一致。 6.3 架构比照流程Inmon架构是自顶向下,即从数据抽取-->数据仓库-->数据集市,以数据源为导向,是一种瀑布流开发方法,模型偏差于3NF, Kimball:架构是自下向上,即从数据集市(主题划分)-->数据仓库--> 数据抽取,是以需要为导向的,个别应用星型模型 事实表和维表Inmon架构下,不强调事实表和维表的概念,因为数据源变动可能会比拟大,更加强调的是数据荡涤的工作 kimball架构强调模型由事实表和维表组成,注重事实表与维表的设计 数据集市Inmon架构中,数据集市有本人的物理存储,是实在存在的。 Kimball数据仓库架构中,数据集市是一个逻辑概念,只是多维数据仓库中的主题域划分,并没有本人的物理存储,也能够说是虚构的数据集市。是数据仓库的一个拜访层,是按主题域组织的数据汇合,用于反对部门级的决策。 核心Inmon架构是以部门为核心,而Kimball架构是以业务过程为核心 EDW的拜访Inmon架构中用户能够间接拜访企业数据仓库(EDW) Kimball架构中用户不能够间接拜访企业数据仓库(EDW),只能拜访展示区数据 6.4 总结企业开发中个别抉择Kimball维度建模 七、数据建模的几种形式7.1 ER模型ER模型是属于三范式的,是企业级的主题形象而不是独自形容某个业务 7.1.1 第一范式.范式当分类不可再分时,这种关系是规范化的,一个低级范式合成转换为更高级的范式时,就叫做规范化。 数据表能够分为1-5NF,第一范式是最低要求,第五范式则是最高要求。 最罕用的范式有第一范式(1NF)、第二范式(2NF)、第三范式(3NF)。 7.1.2 第一范式表中的每一列都是不可拆分的原子项 由上图可知,phone字段外面存了2个值,具备可宰割性,不合乎1NF,能够改成: 7.1.3 第二范式第二范式要同时满足上面两个条件: 满足第一范式。没有局部依赖。 上图能够看出,如果一个用户下了很多订单,则用户名,播种地址和手机号有反复呈现的状况造成数据冗余,很显著不太合乎第二范式,能够改成: 7.1.4 第三范式第三范式要同时满足上面两个条件: 满足第二范式没有传递依赖简略点说,关系反复,能相互推导进去。 如上图所示,如果晓得了zip邮编,其实是能推出来省市区的,相同,晓得了省市区,也是能够推出邮编的,有传递依赖,造成了冗余,不合乎第三范式,须要革新: 7.1.5 小结在关系数据模型设计中,个别须要满足第三范式的要求。如果一个表有良好的主外键设计,就应该是满足3NF的表。 规范化带来的益处是通过缩小数据冗余进步更新数据的效率,同时保障数据完整性。然而,咱们在理论利用中也要避免适度规范化的问题。规范化水平越高,划分的表就越多,在查问数据时越有可能应用表连贯操作。 而如果连贯的表过多,会影响查问的性能。要害的问题是要根据业务需要,认真衡量数据查问和数据更新的关系,制订最适宜的规范化水平。还有一点须要留神的是,不要为了遵循严格的规范化规定而批改业务需要。 ...

November 19, 2020 · 1 min · jiezi

关于数据:美国186亿选民数据正在暗网上被黑客出售

近日,有媒体报道760万美国密歇根州选民注销记录被黑。报道指出,ID为Gorka9的黑客在俄罗斯暗网论坛中公布了对于密歇根州选民的数据库。 这些数据蕴含无关760万美国人的详细信息。其中包含姓名、出生日期、性别、注册日期、地址、邮政编码、电子邮件、选民身份证号码和投票站号码。 随后密歇根州官网批驳了这份新闻报道,称该州的选民注销数据库并没有受到入侵,申明中说:“咱们的零碎尚未受到黑客入侵,咱们揭示所有密歇根州的选民警觉试图扰乱他们思维的新闻。 美国疆土安全部网络安全和基础设施安全局(CISA)和联邦调查局在一份申明中也示意:“今年以来,还没有看到对选民注销数据库或任何波及投票的零碎的网络攻击。” 美国选民数据泄露常常产生但事实却是美国选民信息透露事件常产生,2015年,美国1.9亿选民详细信息曾在网上全副被泄露。2018年,大概3500万美国选民的个人信息在暗网论坛上被抛售,共波及到19个洲。 暗网的一些黑客用户试图将透露的数据报告给美国官网并从中获利。为了避免国外干预行将进行的选举,美国官网最近启动了一项1000万美元的处分打算。黑客认为美国有为选举相干危险买单的志愿。 此前,一名用户曾示意,向美国官网报告本人发现的康涅狄格州选民数据库泄露的调查结果后,取得了4000美元。有专家揣测,黑客可能在将数据公开公布之前,曾经从泄露的数据中获利。 美国选民的数据很容易取得美国一家网络安全公司Trustwave示意,他们发现一名黑客正在发售上亿美国人的集体辨认信息,其中包含1.86亿选民的注册数据。他们辨认出的大部分数据都是公开可用的,并且简直所有数据都是可供非法企业定期交易的。这些数据正在暗网成批出售。如此大量的美国公民数据可能会被用作网络立功,或被国外的对手利用。 选民注销数据在许多州都是公开的,但选民的电子邮件地址通常不会公开。这名黑客利用他窃取的其余数据,将公民的电子邮件地址与选民名册配对,将其打包发售。此外,通过利用这名黑客发售的数据,不法分子还能将攻打指标锁定为仅反对民主党或共和党的选民,并提供了他们的电子邮件地址。 目前,Trustwave公司示意,他们已将其收集的材料移交给了FBI,FBI正在对此进行考察。 有人认为美国选民的数据呈现在俄罗斯暗网论坛是有人蓄意寻衅的后果,也有人认为从泄露信息的ID来看,这是美国成心监守自盗,是筹备指控俄罗斯黑客干预美国总统选举。 但无论是因为那种起因,这些选民信息在当下这个工夫节点都显得尤为重要,甚至可能会影响到2020年美国大选。

November 5, 2020 · 1 min · jiezi

关于数据:深度对比Apache-CarbonDataHudi和Open-Delta三大开源数据湖方案

摘要:明天咱们就来解构数据湖的外围需要,同时深度比照Apache CarbonData、Hudi和Open Delta三大解决方案,帮忙用户更好地针对本身场景来做数据湖计划选型。背景咱们曾经看到,人们更热衷于高效牢靠的解决方案,领有为数据湖提供应答渐变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是十分常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。须要扭转各种数据的用例包含随工夫变动的时序数据、提早达到的时延数据、均衡实时可用性和回填、状态变动的数据(如CDC)、数据快照、数据清理等,在生成报告时,这些都将被写入/更新在同一组表。 因为Hadoop分布式文件系统(HDFS)和对象存储相似于文件系统,因而它们不是为提供事务反对而设计的。在分布式解决环境中实现事务是一个具备挑战性的问题。例如,日常思考到锁定对存储系统的拜访,这会以就义整体吞吐量性能为代价。像Apache CarbonData、OpenDelta Lake、Apache Hudi等存储解决方案,通过将这些事务语义和规定推送到文件格式自身或元数据和文件格式组合中,无效地解决了数据湖的ACID需要。 很多用户看到这三种次要解决方案时,将陷入两难的地步,在不同状况下不知怎么抉择?明天咱们比照了三大计划,帮忙用户更好的依据本人的场景抉择解决方案。 Apache Hudi Apache Hudi是Uber为满足外部数据分析需要而设计的我的项目。疾速upsert/delete和compaction性能能够解决许多实时用例。该我的项目在Apache社区十分沉闷,2020年4月获得了最高我的项目位置。 从Hudi的名字就能看出他的设计指标, Hadoop Upserts Deletes and Incrementals,次要反对Upserts、Deletes和增量数据处理。其要害个性如下: 1.文件治理 Hudi在DFS上将表组织为basepath下的目录构造。表被划分为分区,这些分区是蕴含该分区的数据文件的文件夹,相似于Hive表。 2.索引 Hudi通过索引机制将给定的HoodieKey(记录键+分区门路)统一地映射到文件id,从而提供高效的upserts。 3.表类型 Hudi反对的表类型如下: 写入时复制:应用专有的列文件格式(如parquet)存储数据。在写入时执行同步合并,只需更新版本并重写文件。读取时合并:应用列(如parquet) +行(如Avro)文件格式的组合存储数据。更新记录到增量文件,并随后压缩以同步或异步生成列文件的新版本。4.查问类型 Hudi反对三种查问类型: 快照查问:查问是在给定的提交或压缩操作之后对表进行快照的申请。利用快照查问时,copy-on-write表类型仅公开最新文件切片中的基/列文件,并保障雷同的列查问性能。增量查问:对于写入时复制表,增量查问提供自给定提交或压缩后写入表的新数据,提供更改流以启用增量数据管道。读取优化查问:查问查看指定提交/压缩操作后表的最新快照。只裸露最新文件版本的base/columnar文件,保障列查问性能与非Hudi列表雷同。仅在读取表合并时反对5.Hudi工具 Hudi由不同的工具组成,用于将不同数据源的数据疾速采集到HDFS,作为Hudi建模表,并与Hive元存储进一步同步。工具包含:DeltaStreamer、Hoodie-Spark的Datasource API、HiveSyncTool、HiveIncremental puller。 Apache CarbonData Apache CarbonData是三个产品中最早的,由华为奉献给社区,助力华为云产品的数据平台和数据湖解决方案应答PB级负载。这是一个雄心勃勃的我的项目,将许多能力都集中在一个我的项目中。除了反对更新、删除、合并操作、流式采集外,它还领有大量高级性能,如工夫序列、物化视图的数据映射、二级索引,并且还被集成到多个AI平台,如Tensorflow。 CarbonData没有HoodieKey设计,不强调主键。更新/删除/合并等操作通过优化的粒度连贯实现。CarbonData与Spark严密集成,在CarbonData层中有很多优化,比方数据跳跃、下推等。在查问方面,CarbonData反对Spark、Hive、Flink、TensorFlow、pyTorch和Presto。一些要害个性包含: 1.查问减速 诸如多级索引、压缩和编码技术等优化旨在进步剖析查问的性能,这些查问可能包含过滤器、聚合和用户冀望PB级数据的点查问响应工夫亚秒级。高级下推优化与Spark深度集成,确保计算在凑近数据处执行,以最小化数据读取、解决、转换和传输的数量。 2.ACID:数据一致性 没有对于故障的两头数据,按快照隔离工作,拆散读取和写入。对数据(查问、IUD【插入更新删除】、索引、数据映射、流式解决)的每个操作均合乎ACID规范。反对应用基于列和行的格局进行近实时剖析,以均衡剖析性能和流式采集以及主动切换。 3.一份数据 通过集成Spark、Hive、Presto、Flink、Tensorflow、Pytorch等多种引擎。数据湖解决方案当初能够保留一个数据正本。 4.各种优化指标 其余索引,如二级索引、Bloom、Lucene、Geo-Spatial、实体化视图,能够减速点、文本、聚合、工夫序列和Geo空间查问。通过Polygon UDF,CarbonData反对天文空间数据模型。 5.更新和删除 反对合并、更新和删除操作,以启用诸如更改-数据-捕捉、迟缓更改-维(SCD-2)操作等简单用例。 6.高扩展性 Scale存储和解决拆散,也实用于云架构。分布式索引服务器能够与查问引擎(如spark, presto)一起启动,以防止跨运行从新加载索引,并实现更快和可扩大的查找。 Delta【开源】 Delta Lake我的项目于2019年通过Apache License开放源码,是Databricks解决方案的重要组成部分。Delta定位为数据湖存储层,集成流式和批处理,反对更新/删除/合并。为Apache Spark和大数据工作负载提供ACID事务能力。一些要害个性包含: 1.ACID事务: Delta Lake将ACID事务带到您的数据湖中。Delta Lake存储一个事务日志,以跟踪对表目录所做的所有提交,以提供ACID事务。它提供可串行化的隔离级别,确保数据在多个用户之间的一致性。 2.计划治理与执行 Delta Lake利用Spark分布式解决能力解决所有元数据,通过提供指定模式和帮忙施行模式的能力,防止不良数据进入数据湖。它通过提供正当的谬误音讯来避免不良数据进入零碎,甚至在数据被集成到数据湖之前就进入零碎,从而避免数据损坏。 3.数据版本控制和工夫旅行 将对数据湖中的数据进行版本控制,并提供快照,以便您能够像该快照是零碎以后状态一样查问它们。这有助于咱们复原到旧版本的数据湖中进行审计、回滚和相似的操作。 4.凋谢格局 Delta Lake中的所有数据都以Apache Parquet格局存储,使得Delta Lake可能利用Parquet本地的高效压缩和编码方案。 ...

October 29, 2020 · 1 min · jiezi

关于数据:数据安全无小事揭秘华为云GaussDBopenGauss全密态数据库

摘要:全密态数据库,专门解决密文数据的数据库系统,数据以加密状态存储在数据库服务器中,数据库反对对密文数据的检索与计算。1、云数据库安全现状及问题随同着云基础设施的快速增长和成熟,与之对应的云数据库服务也层出不穷。一方面,受害于云服务的便捷性传统企业减速业务上云,通过充分发挥云数据库特有的轻松部署、高牢靠、低成本等劣势升高企业经营老本,减速企业应用翻新;另一方面,以苹果iCloud服务为代表的存储服务和云计算服务为挪动消费者带来利用便捷性,利用云侧的数据库服务存储海量消费者的集体数据。 云数据库俨然已成为数据库业务将来重要的增长点,绝大多数的传统数据库服务厂商正在减速提供更优质的云数据库服务。但无论是传统的线下数据库服务,还是日益增长的云数据库服务,数据库的外围工作都是帮忙用户存储和治理数据,在简单多样的环境下,保证数据不失落、隐衷不泄露、数据不被篡改以及服务不中断。这就要求数据库具备多层次的平安防御机制,用来抵制来自外部和内部的歹意攻击行为。 事实上,通过数据库的长期倒退,曾经构建了体系化的平安能力,比方通过数据库防火墙的入侵进攻以及基于AI的攻打辨认及智能进攻,做到“攻不破”;通过在数据库服务端实现强认证机制,达到攻击者“进不来”;通过欠缺的权限治理模型、对象访问控制及校验机制做到歹意用户“拿不走”;通过数据加密存储机制或数据动态脱敏及动静脱敏机制实现对要害数据的爱护,确保数据在被非法窃取后攻击者“看不懂”;通过多正本备份,交融区块链思维实现类账本零碎能力,做到“改不了”;通过零碎外部细粒度审计机制,记录用户操作行为,达到攻击行为“赖不掉”。 除了传统数据库厂商自身在晋升本人的能力外,许多专业化的评估测试机构也在帮忙数据库厂商开掘产品缺点,减速欠缺数据库安全能力的构建,并出具专业化评估报告,作为第三方背书让用户“信得过”。这些成熟的平安技术手段,构建了数据库纵深进攻的平安体系,保障数据库在利用中的平安。一个残缺的进攻架构如图1所示。 图1:传统数据库多层级平安进攻架构 尽管数据库安全性能越做越强,但这些平安技术手段都是针对传统数据库所面临的威逼构建的。作为面向开放市场的云数据库服务,其所面临的危险相较于传统数据库更加多样化,更加复杂化,无论是应用程序破绽、系统配置谬误,还是歹意管理员都可能对数据安全与隐衷爱护造成微小危险。 云数据库,其部署网络由“公有环境”向“凋谢环境”转变,零碎运维治理角色被拆分为业务管理员和运维管理员。业务管理员领有业务管理的权限,属于企业业务方,而运维管理员属于云服务提供商。数据库运维管理员尽管被定义成零碎运维治理,其理论仍旧享有对数据的齐全应用权限,通过运维管理权限或提权来拜访数据甚至篡改数据;再者因为开放式的环境和网络边界的模糊化,用户数据在整个业务流程中被更充沛的裸露给攻击者,无论是传输、存储、运维还是运行态,都有可能蒙受来自攻击者的攻打。因而对于云数据库场景,如何解决第三方可信问题,如何更加牢靠的爱护数据安全相比传统数据库面临着更大挑战,其中数据安全、隐衷不泄露是整个云数据库面临的首要平安挑战。 以后云数据库数据安全隐衷爱护是针对数据所处阶段来制订保护措施的,如在数据传输阶段应用平安传输协定SSL/TLS,在数据长久化存储阶段应用通明存储加密,在返回后果阶段应用RLS(Row Level Security)或者数据脱敏策略。这些传统技术手段能够解决单点危险,但不成体系,且对处于运行或者运维状态下的数据则短少无效的爱护。面对越来越简单的云环境,咱们须要一种可能彻底解决数据全生命周期隐衷爱护的系统性解决方案。事实上,近年来学术界以及工业界陆续提出了许多翻新思路:数据来到客户端时,在用户侧对数据进行加密,且不影响服务端的检索与计算,从而实现敏感数据爱护,此时即使数据库管理员也无奈接触到用户侧的密钥,进而无奈获取明文数据。这一思路被称为全密态数据库解决方案,或全加密数据库解决方案。 2、全密态数据库与数据全生命周期爱护全密态数据库,顾名思义与大家所了解的流数据库、图数据库一样,就是专门解决密文数据的数据库系统。数据以加密状态存储在数据库服务器中,数据库反对对密文数据的检索与计算,而与查问工作相干的词法解析、语法解析、执行打算生成、事务ACID、数据存储都继承原有数据库能力。 在全密态数据库机制下,一个用户体验良好的业务数据流图如下图1所示。假设数据列c1已以密文状态寄存在数据库服务端,用户发动查问工作指令。用户发动的查问工作无需进行特殊化革新,对于查问中波及的与敏感数据c1相关联的参数,在客户端依照与数据雷同的加密策略(加密算法,加密密钥等)实现加密,如图1中关联参数“123”被加密成“0xfe31da05”。参数加密实现后整个查问工作被变更成一个加密的查问工作并通过平安传输通道发到数据库服务端,由数据库服务端实现基于密文的查问检索。检索失去的后果依然为密文,并最终返回客户端进行解密。 图2:全密态数据库外围业务数据流 依据该业务数据流能够看出,全密态数据库的核心思想是:用户本人持有数据加解密密钥且数据加解密过程仅在客户侧实现,数据以密文状态存在于数据库服务侧的整个生命周期过程中,并在数据库服务端实现查问运算。 因为整个业务数据流在数据处理过程中都是以密文状态存在,通过全密态数据库,能够实现:(1)爱护数据在云上全生命周期的隐衷平安,无论数据处于何种状态,攻击者都无奈从数据库服务端获取无效信息;(2)帮忙云服务提供商获取第三方信赖,无论是企业服务场景下的业务管理员、运维管理员,还是消费者云业务下的利用开发者,用户通过将密钥把握在本人手上,使得高权限用户无奈获取数据无效信息;(3)使能合作伙伴,通过全密态数据库能够让合作伙伴借助全密态能力更好的恪守个人隐私爱护方面的法律法规。 3、全密态数据库外围思路与挑战正如全密态数据库定义所形容的那样,全密态数据库的外围工作是爱护数据全生命周期平安并实现基于密文数据的检索计算。在加密算法足够平安的状况下,内部攻击者及外部管理员均无奈获取无效的数据信息。 对于用户来说,从已有数据库服务切换成全密态数据库或者间接将利用部署于全密态数据库,须要解决三个次要的问题:(1)如何保障密态计算机制的安全性,全密态数据库从原理上能够无效保障数据安全,但这要求密文数据检索及运算的算法在机理和工程上要达到该原理要求;(2)如何进行业务的无缝迁徙或者轻量化迁徙,全密态数据库最显著的特色是数据存储信息的变更,那与加密数据相干的各类参数都要同步进行变更,否则会因为计算数据状态的不对等导致查问错乱;(3)如何防止服务切换所带来的性能损耗,实质上须要将加密算法实现和工程实现所产生的性能回退管制在一个正当的范畴内,防止因为不合理的数据加解密和数据存储收缩带来性能急速降落。只有解决这三个关键问题,能力真正的推动全密态数据库落地。 目前,全密态数据库在学术界和工业界均有钻研和尝试,次要聚焦于两种解决方案:(1)密码学解决方案,或称为纯软解决方案,通过设计满足密文查问属性的密码学算法来保障查问的正确性,如已知常见的OPE(Order Preserving Encryption)算法,数据加密后仍保留程序属性;(2)硬件计划,通过可信执行环境(TEE, Trusted Execution Environment)来解决REE(Rich Execution Environment,REE与TEE绝对应)环境中的密文数据运算,图3展现了ARM架构下的TEE与REE的对应关系。无论是密码学解决方案还是现有的硬件计划都有他们各自的优缺点。 图3:REE与TEE逻辑关系图 密码学计划的外围思路是整个运算过程都是在密文状态,通过基于数学实践的算法来间接对密文数据进行检索与计算。该计划须要解决在用户不感知的条件下,实现密文数据的平安、高效检索与计算,以后的次要挑战在两个方面:一方面学术界以后次要的密码学算法,大部分都是基于性能实现及平安能力的思考,对于内外存储、网络吞吐、计算耗费等性能指标都会有不同的劣化,甚至有些性能齐全脱离了理论场景,因而如何能在数据密文状态下实现检索和计算,并且满足性能要求,是密码学计划的最大挑战;另一方面,通常一种数学算法只能解决局部业务场景,如何将多种密码学算法交融,以实现数据库查问和计算的次要性能,也是密码学计划的一大挑战。 硬件计划的外围思路是将寄存于REE侧的加密数据传递给TEE侧,并在TEE侧实现数据解密和计算工作(见图3),依赖TEE的“隔离性”或“对REE侧利用的不可见性”实现数据计算过程的平安爱护。一方面,受限于TEE空间的大小(如SGX v1仅提供128MB可用空间、基于ARM TrustZone计划个别也仅提供几十MB空间),难以解决大量数据和简单操作,这就要求TEE内仅关注要害敏感数据的查问操作,升高攻击面;另一方面因为REE与TEE运行切换和数据交互带来额定的开销,因而须要解决整个运算过程中的REE与TEE的计算资源分配与高效调度问题,也是硬件计划面临的一大挑战。 4、GaussDB(openGauss)全密态数据库解决方案4.1 开创性自适应架构打造首款反对软模式密态计算全密态数据库中的软件计划和硬件计划目前均已获得了很多停顿,特地的,工业界已开始在逐渐采纳硬件计划。借助诸如Intel SGX等平安硬件的TEE空间,对数据计算空间进行物理或逻辑隔离,实现数据对REE的“不可见”。 但硬件计划目前存在两个较大的缺点:首先因为数据在TEE外部均为明文存在,因而数据的安全性齐全依赖于硬件自身的安全性。目前针对硬件的攻击方式如侧信道攻打等越来越多,然而个别硬件设施更新迭代周期较长,一旦呈现破绽无奈及时更新修补,将间接导致用户数据长时间裸露在危险之下。其次用户在应用该个性时,密钥须要来到客户端环境发送给TEE应用,而该传输过程的平安间接依赖于硬件设施厂商的证书签名,歹意的硬件设施厂商人员齐全有能力攻打并窃取用户的数据及密钥,因而硬件计划,也须要用户在应用过程中,继续信赖硬件设施厂商。 全密态数据库的软件计划目前在学术界倒退较快,通过一系列数学算法在密文空间间接对密文进行查问运算,保障数据隐衷不泄露。软件计划能够不依赖于硬件能力,也不须要在服务侧获取密钥对数据进行解密,但以后也存在着在第三章节提到的微小挑战。 图4:GaussDB全密态数据库架构 在华为全连贯大会上,华为正式公布基于GaussDB的全密态数据库解决方案,该计划联合软件模式与硬件模式各自的优缺点,推出交融策略,实现硬件模式和软件模式的自在切换,该计划反对全场景利用,包含私有云、混合云以及终端智慧业务,更为重要的是对终端用户通明无感知。 在硬件模式下,GaussDB首先反对多硬件平台能力,如Intel CPU的SGX能力,以及业内独创的华为自主研发鲲鹏ARM TrustZone能力。其次GaussDB实现了最小粒度的隔离级别,使得攻击面最小化,并且通过一系列的密钥平安保障机制,如多层密钥管理体系、可信传输通道、会话级密钥管理机制等,实现了硬件环境中的数据及密钥平安,从而升高因硬件安全问题而导致的用户数据及密钥泄露危险。 因为硬件模式依赖于硬件及其生产厂商的平安和信用,且用户在理论应用过程中须要依赖个性硬件环境,GaussDB还开创性的反对了软件模式的密态查问能力,通过对多种密码学算法的深度性能优化,构建出不同的密态查问引擎,以实现不同的检索和计算性能,实现数据等值查问、范畴查问、保序查问、表达式计算等个性。特地的,通过引入确定性加密机制,实现了数据的增删改查、表字段关联、等值检索等基本操作;基于GS-OPE算法的密文索引技术,实现了数据密态保序查问、表达式大小比拟等惯例操作;通过Range-Identify算法,实现数据密态范畴查问。 GaussDB 全密态数据库解决方案创新性的解决了多个技术难点,实现了对用户无感知、数据加密无泄漏等外围竞争力。 4.2 全自动加密驱动实现用户数据库操作无感知要实现在客户端进行加解密,无疑须要在客户端进行大量保护治理,包含数据密钥治理,敏感数据加密,解析和批改SQL语句等。如果仅仅提供数据加密工具,由用户来对数据进行显式加密,一方面会减少用户的开发成本,另一方面用户也容易因数据加密不到位而造成数据泄露。 GaussDB将这一系列的简单操作,全副封装在客户端加密驱动中,实现了齐全自动化的敏感信息加密替换,同时在数据库中存储了所有加密相干的元信息,使得数据库能够很好的辨认和解决对应的加密数据。如图5所示,因为SQL语句中与敏感信息相干的参数也被加密解决,使得发送至数据库服务侧的查问工作(图中ciphertext query)也不会泄露用户查问用意,缩小客户端的简单平安治理及操作难度,实现用户利用开发无感知。另外,GaussDB提供一系列的配置接口,满足用户对加密字段、加密算法、密钥平安存储等不同场景的须要。GaussDB全密态数据库的透明性使得用户在工作迁徙时将取得极大的便捷性。 图5:全自动客户端加密驱动 4.3 利用算子级隔离显著升高平安危险当密文查问进入数据库内核之后,就须要依赖现有的查询处理模块来实现数据运算。对数据库这种高度简单的零碎,在硬件模式下,如何将敏感数据的检索、计算等外围性能解耦隔离,放在平安环境中独立运行,从而最小化敏感数据计算面临的平安危险,始终是GaussDB的一个重大难题。 图6:支流硬件隔离计划 以后业界次要有三种TEE隔离计算计划:数据库级隔离、模块级隔离、算子级隔离。这三种计划从攻击面和工程实现维度来看,有显著的差别。 数据库级隔离,是在TEE中残缺的建设一个非凡的数据库引擎,将敏感数据的查问申请间接发送给该数据库进行全副的解析和执行解决。该计划的架构比拟清晰,实现简略,安全性和可靠性间接依赖于TEE中数据库的能力。然而,因为TEE中数据库引擎的代码规模较大,因而数据库实例须要耗费更多的TEE侧资源,且一旦因为潜在代码缺点导致在执行过程呈现严重错误,将导致呈现TEE环境解体等严重后果。 模块级隔离,是将SQL执行器放到TEE中,实现对语句的执行过程进行爱护。执行器是数据库查问语句的查问工作执行模块,与数据库级隔离相比,这种形式减小了TEE中的代码规模,其安全性次要依赖于执行模块的平安能力。但该形式下仍有大量与敏感数据计算无关的操作将在TEE中运行,而这些操作都可能接触到明文数据,故而容易引入谬误或者无心泄露敏感数据,留下平安攻打隐患。 算子级隔离。算子是秘密数据计算的最小、最外围性能单元,如数据排序算子、表达式计算等。通过将密文算子放在TEE中执行,能够针对性的对敏感数据进行重点保护,排除非敏感数据操作带来的潜在危险,具备最小规模的代码实现。然而其难度和挑战并存:首先,数据库的复杂性决定了将敏感数据的繁多算子执行过程进行解耦存在较大的挑战性,传统的pipeline执行流程意味着单个算子执行过程的连续性,针对算子执行过程中的外围计算流程进行解耦就须要进行定向梳理;其次单个查问语句通常波及多个算子运算,整个查问运算流程须要依据算子运算需要屡次切换到TEE侧环境,对性能造成影响。 为了谋求极致的平安,GaussDB抉择了算子级隔离策略。为了解决算子级隔离的两大问题,GaussDB全密态数据库通过精心设计,胜利实现了最小粒度的敏感数据检索和计算模块。同时,从多个层面对REE与TEE之间的world switch的性能和数据传输方式进行深度优化,将性能影响降到最低。从而在显著减小平安危险的同时,也无力地保障了数据库系统的高效运行。 4.4 高强度密钥体系保障密钥平安整个全密态数据库解决方案中除数据自身具备敏感性质外,最为敏感的信息就是数据加解密密钥,一旦密钥泄露,将给用户数据带来重大危险。特地是在硬件模式下,密钥需来到用户侧,传输到云侧可信硬件环境中,其平安爱护至关重要。GaussDB通过实现三层密钥体系,让各层密钥各司其职,真正做到密钥高强度的平安爱护。 ...

October 22, 2020 · 1 min · jiezi

关于数据:数据湖探索DLI新功能基于openLooKeng的交互式分析

摘要:基于华为开源openLooKeng引擎的交互式剖析性能,将重磅公布便于用户构建轻量级流、批、交互式全场景数据湖。在这个“信息爆炸”的时代,大数据曾经成为这个时代的关键词之一!随着云计算、物联网、挪动计算、智慧城市、人工智能等畛域突飞猛进的倒退,人类社会曾经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类利用对大数据处理的需要也产生着变动。 与此同时,“久经沙场”的数据仓库不再一统江湖,而以实时剖析、离线剖析、交互式剖析等为代表的计算引擎势头迅猛。 华为云3年前公布的Serverless大数据分析服务 - 数据湖摸索DLI,通过这几年的迭代降级,曾经蕴含用于实时剖析的Flink引擎,用于离线剖析的Spark引擎。往年基于华为开源openLooKeng引擎的交互式剖析性能,也将于Q4重磅公布,便于用户构建轻量级流、批、交互式全场景数据湖。 openLooKeng应用了业界驰名的开源SQL引擎Presto来提供交互式查问剖析根底能力,并持续在交融场景查问、跨数据中心/云、数据源扩大、性能、可靠性、安全性等方面倒退,让数据治理、应用更简略。 要害个性1. 毫秒级查问性能DLI应用的openLooKeng引擎在内存计算框架的根底上,还利用许多查问优化技术来满足高性能毫秒级的交互式剖析的须要。 1.1 索引 openLooKeng提供基于Bitmap Index、Bloom Filter以及Min-max Index等索引。通过在现有数据上创立索引,并且把索引后果存储在数据源内部,在查问打算编排时便利用索引信息过滤掉不匹配的文件,缩小须要读取的数据规模,从而减速查问过程。 1.2 Cache openLooKeng提供丰盛多样的Cache,包含元数据cache、执行打算cache、ORC行数据cache等。通过这些多样的cache,可减速用户屡次对同一SQL或者同一类型SQL的查问时延响应。 1.3 动静过滤 所谓的动静过滤是指是在运行时(run time)将join一侧表的过滤信息的后果利用到另一侧表的过滤器的优化办法,openLooKeng不仅提供了多种数据源的动静过滤优化个性,还将这一优化个性利用到了DataCenter Connector,从而减速不同场景关联查问的性能。 1.4 算子下推 openLooKeng通过Connector框架连贯到RDBMS等数据源时,因为RDBMS具备较强的计算能力,个别状况下将算子下推到数据源进行计算能够获取到更好的性能。openLooKeng目前反对多种数据源的算子下推,包含Oracle、HANA等,特地地,针对DC Connector也实现了算子下推,从而实现了更快的查问时延响应。 2. 高可用2.1 HA AA双活 openLooKeng引入了高可用的AA个性,反对coordinator AA双活机制,可能放弃多个coordinator之间的负载平衡,同时也保障了openLooKeng在高并发下的可用性。 2.2 Auto-scaling openLooKeng的弹性伸缩个性反对将正在执行工作的服务节点安稳退服,同时也能将处于不沉闷状态的节点拉起并承受新的工作。openLooKeng通过提供“已隔离”与“隔离中”等状态接口供内部资源管理者(如Yarn、Kubernetes等)调用,从而实现对coordinator和worker节点的弹性扩缩容。 3. 交融场景实时剖析、离线剖析、交互式剖析这三种场景中在很多理论业务中都是同时存在的,DLI引入openLooKeng引擎之初就思考了如何跟已有的Spark引擎进行元数据层面的互通,从而实现离线剖析后果,免数据搬迁间接就能够用openLooKeng引擎进行交互式剖析。Spark和openLooKeng都反对Hive的建表形式,通过这种形式,实现了元数据层面的互通。 4. 对立目录,跨域跨DC查问 DLI老用户应用比拟多的性能是跨多种数据源的联结查问,用于更全面地对数据进行关联剖析,开释数据价值。这次引入openLooKeng引擎将跨源查问的能力进一步延长,开发了跨域跨DC查问的DataCenter Connector。通过这个新Connector能够连贯到远端另外的openLooKeng集群,从而提供在不同数据中心间协同计算的能力。 其中的关键技术如下: 4.1 并行数据拜访 worker能够并发拜访数据源以进步拜访效率, 客户端也能够并发从服务端获取数据以放慢数据获取速度。 4.2 数据压缩 在数据传输期间进行序列化之前,先应用GZIP压缩算法对数据进行压缩,以缩小通过网络传输的数据量。 4.3 跨DC动静过滤 过滤数据以缩小从远端提取的数据量,从而确保网络稳定性并进步查问效率。 总结瞻望这次退出交互式查问能力,补救了数据湖摸索DLI在毫秒级场景下的短板,构建起从实时剖析、到离线剖析再到交互式剖析整个链路残缺的技术栈。 将来,DLI还将摸索如何依据业务场景自动识别计算引擎,用户只须要下发SQL,无需关怀最终的计算引擎,让大数据真正变成“像应用数据库一样”,“会SQL就会大数据分析”。 点击关注,第一工夫理解华为云陈腐技术~

October 22, 2020 · 1 min · jiezi

关于数据:高盛通过FINOS开源其数据建模平台

开源代码库奉献解决了金融服务行业的数据效率和治理挑战 2020年10月19日/Fintech开源基金会(Fintech Open Source Foundation,“FINOS”)与白金会员高盛(Goldman Sachs,GS)明天发表推出Legend,这是高盛的旗舰数据管理和数据治理平台。在高盛外部开发,并在所有部门的工程师和非工程师应用,其中五个平台模块的源代码明天曾经通过FINOS开源提供。 在明天的公布之前,德意志银行、摩根士丹利和加拿大皇家银行资本市场等其余当先投资银行实现了为期6个月的试点,应用共享版本的Legend(托管在Finos的公共云基础设施上)建设银行间合作数据建模和标准化的原型,特地是为国内掉期和衍生工具协会(ISDA)开发的公共域模型(CDM)建设扩大。当初,从明天开始,行业参与者通常能够应用这个共享环境来合作地应用和构建模型。因为Legend代码当初是开源的,组织也能够启动和操作他们本人的实例。现在,这些开源组件容许任何行业的任何集体和组织利用高盛外部数据平台的力量,以满足他们本人的数据管理和治理需要,并为凋谢代码库做出奉献。” “Legend为工程师和非工程师提供了一个惟一平台,让高盛的每个人都能够开发以数据为核心的应用程序和数据驱动的洞察。”高盛首席技术官Atte Lahtiranta示意:“这个平台让咱们可能更好地服务咱们的客户,自动化一些最艰难的数据治理挑战,并提供自助服务工具来民主化数据和剖析。咱们预计,Legend的宽泛采纳将为咱们的客户带来真正的、无形的价值,并在整个金融服务生态系统中进步标准化和效率。” “信息是金融服务的命根子,但要确保取得精确、残缺和及时的信息正变得越来越艰难。”高盛首席数据官兼数据工程主管Neema Raphael示意:“在过来的七年里,高盛始终在开发一种新的形式,以Legend平台的模式,提供一种疾速、简略、平安的获取咱们信息的路径,以发明支出、更好的客户服务、进步经营效率和恪守监管规定。咱们置信这个新的数据平台是如此弱小和重要,所以咱们将通过FINOS向咱们的客户和世界提供一个齐全凋谢和收费的开源平台。” Legend平台和语言在高盛外部称为“Alloy”和“PURE”。Legend平台首席架构师Pierre De Belen补充说:“抉择一个新的整体名称--Legend--反映了咱们对惟一平台的愿景,它将作为高盛外部数据策略的要害指南,无论是为交易的整个生命周期构建数据服务,还是更容易地为客户和监管机构的申请提供服务。” “金融服务公司能够从开源中获益良多,因为开源在缩小财务累赘和不必要的复杂性方面的后劲简直是有限的。”FINOS执行董事Gabriele Columbro说:“高盛从一开始就是咱们基金会的领导者,它分享了这一愿景。Legend为增强合作和数据标准化提供了一条具体的路线,这将使大大小小的市场参与者受害。” 点击浏览网站原文。 Linux基金会是非营利性组织,是技术生态系统的重要组成部分。Linux基金会通过提供财务和智力资源、基础设施、服务、流动以及培训来反对创立永续开源生态系统。在共享技术的创立中,Linux基金会及其我的项目通过共同努力造成了不凡胜利的投资。扫描二维码关注LFAPAC微信公众号。

October 22, 2020 · 1 min · jiezi

关于数据:技术实操丨HBase-2X版本的元数据修复及一种数据迁移方式

摘要:分享一个HBase集群复原的办法。背景在HBase 1.x中,常常会遇到元数据不统一的状况,这个时候应用HBCK的命令,能够疾速修复元数据,让集群恢复正常。 另外HBase数据迁徙时,大家常常应用到一种迁徙形式是:拷贝HBase的数据目录/hbase/data/default到新的集群,而后在新集群执行HBCK的命令让元数据重建,这种拷贝数据目录而后复原元数据的形式是一种疾速间接的伎俩。 HBase降级到2.X版本之后,hbase hbck中的一些修复命令曾经不再反对,包含,所以在HBase遇到集群故障,无奈通过HBCK疾速把元数据修复,通过HBase数据目录迁徙的形式也就应用不了。 在HBase 2.X的客户端执行hbase hbck时,罕用的fixMeta命令曾经不再反对。 hbck-1无奈应用HBase 2.X版本增强了可靠性,因为应用了 procedure,因为之前的hbck(hbck-1)是会间接去向region server或者hdfs发送申请进行修复,而在HBase 2.0版本上集群外部操作全副都被挪到了procedure v2(下文都称为procedure)上进行解决。 因为所有的命令都是通过master来协调解决,所以在修复时也须要通过master进行修复。否则反而可能导致更重大的不统一问题。所以hbck-1在HBase 2.x版本是不实用的。 HBase2.X版本中元数据的复原办法1. 批改配置hbase.assignment.skip.empty.regions=false 如果是一般的hbase:meta零碎表中的元数据不正确,在批改完此参数重启HBase后就曾经能复原 当第一步骤实现后还不能修复,就要应用上面的命令了 例如启动后发现,hbase shell能list出数据,然而表无奈put或者scan,这时候hbase:meta表里的t1表记录其实是不正确的 2. hbase org.apache.hadoop.hbase.util.hbck.OfflineMetaRepair -fix 这个命令须要进行HBase而后执行。 当表的数据目录存在(/hbase/data/default/<table>),而在hbase:meta表中元数据不正确时,须要HBase进行后,执行这个meta表修复命令, 执行实现后,启动HBase。 启动实现后,查看hbase:meta表的用户表记录,能够看到t1表的元数据都生成了。 3. 此时用户表就复原了,如果还存在region空洞fixHdfsHoles或者fixHdfsOverlaps问题,能够应用hbck1中的["-fixHdfsHoles -fixHdfsOrphans -fixHdfsOverlaps -fixReferenceFiles"] 在华为云EI内核团队的hbase2中,曾经将这4个命令从新集成进hbck-1中,便于保护。 新集群清理及数据迁徙看完下面的元数据恢复,应该就晓得接下来的这种HBase数据迁徙形式的原理:通过拷贝数据目录,让HBase元数据与业务数据目录从新建设关系,达到业务失常读写。 上面例子只思考用户应用default命名空间 拷贝旧集群的HBase数据目录到新集群,将旧集群的/hbase/data/default目录拷贝到了hdfs上的/mydata/目录;如果新集群数据不须要清理,则跳过此步骤进行HBase 革除HBase在数据存储目录,hdfs dfs -rm -r /hbase 革除HBase在zk的节点,应用ZK客户端工具zkCli.sh –server <ZK NODE>:2181 进入后执行deleteall /hbase 启动HBase,让目录构造主动生成 放弃HBase集群进行状态,拷贝旧机器数据目录到新集群HBase的数据目录中;hdfs dfs -cp /mydata/default/* /hbase/data/default/ 执行hbase修复命令hbase org.apache.hadoop.hbase.util.hbck.OfflineMetaRepair –fix设置hbase.assignment.skip.empty.regions=false并启动HBase运行完上述步骤,在新的集群就能对迁徙过去的HBase进行业务拜访了。 点击关注,第一工夫理解华为云陈腐技术~

October 21, 2020 · 1 min · jiezi

关于数据:详解GaussDBDWS-explain分布式执行计划

摘要:本文次要介绍如何具体解读GaussDB(DWS)产生的分布式执行打算,从打算中发现性能调长处。前言执行打算(又称解释打算)是数据库执行SQL语句的具体步骤,例如通过索引还是全表扫描拜访表中的数据,连贯查问的实现形式和连贯的程序等。如果 SQL 语句性能不够现实,咱们首先应该查看它的执行打算。本文次要介绍如何具体解读GaussDB(DWS)产生的分布式执行打算,从打算中发现性能调长处。 1、执行算子介绍要读懂执行打算,首先要晓得数据库执行算子的概念: 上面重点介绍下基于sharing nothing的分布式打算中最重要的一类算子——STREAM算子 三种类型的stream算子 1) Gather Stream (N:1) – 每个源结点都将其数据发送给指标结点 2) Redistribute Stream (N:N) – 每个源节点将其数据依据连贯条件计算Hash值,依据从新计算的Hash值进行散布,发给对应的指标节点 3) Broadcast Stream (1:N) – 由一个源节点将其数据发给N个指标节点 其中1)次要用于CN与DN间的数据交换,2)与3)次要用于DN间的数据交换 2、EXPLAIN用法SQL执行打算是一个节点数,显示执一条SQL语句执行时的具体步骤。每一个步骤是一个数据库运算符,也叫作一个执行算子。应用explain命令能够查看优化器为每个查问生成的具体执行打算。 1) EXPLAIN的语法 其中,option中COSTS与NODES的默认值为ON,其余参数默认为OFF。 阐明: a) EXPLAIN + QUERY并不会真正执行,只会将打算打印进去,指定option中的ANALYZE能够进行理论执行 b) PERFORMANCE 选项默认会将所有的选项置为ON,即显示所有的执行信息。 c) CPU/BUFFER/DETAIL 选项依赖于ANALYZE,只有ANALYZE置为ON的时候,能力应用这几个选项。 d) DETAIL选项用来管制输入,DETAIL 置为ON时,会显示各个DN上具体的执行信息;DATAIL 置为OFF时,显示所有DN的汇总信息,即最大最小值信息。 2) EXPLAIN显示格局 GaussDB中提供了两种显示格局(normal/pretty),通过设置参数explain_perf_mode进行管制。其中,normal格局为默认的显示格局。 normal格局如下: pretty格局如下: 改良后的显示格局,档次清晰,打算蕴含了plan node id,性能剖析会更加简略间接。 应用之前能够应用show explain_perf_mode;来查看以后数据库应用的显示格调。 同时能够应用set explain_perf_mode=pretty/normal;来设置输入的格局。 3、示例打算解读(每个算子资源耗费、耗时等等)1) 四中常见类型打算 ...

October 20, 2020 · 1 min · jiezi

关于数据:诸多老牌数据仓库厂商当前Snowflake如何创近12年最大IPO金额

摘要:在数据仓库/剖析畛域,有传统厂商Oracle,Teradata,开源软件Hadoop,云厂商AWS Redshift,Google Bigquery,Snowflake胜利的技术起因是什么?1.引子云数据仓库Snowflake 9月份IPO的新闻引起了业界的关注。2012年才成立的Snowflake,一上市就来个惊雷,IPO筹资38亿美元,创近12年来最大IPO金额。 在数据仓库/剖析畛域,有传统厂商Oracle,Teradata,开源软件Hadoop,云厂商AWS Redshift,Google Bigquery,Snowflake胜利的技术起因是什么? 先从2016年Snowflake在SIGMOD上发表的论文动手。 2.The Snowflake Elastic Data Warehouse论文注:文中局部图,论文中没有,我集体了解和补充的。 2.1.数据仓库架构比对Share everything VS Share nothing 传统数仓架构 Share every everything的典型代表如Oracle 一体机 Share nothing的代表。例如Greenplum,ClickHouse,PGXC/XL MPP架构(PGXL) Snowflake的架构,强调多租和数据共享: 2.2.Snowflake的要害特色包含:纯SaaS体验 反对关系型(ANSI)和事务 反对半结构化数据处理,例如JSON和Avro 弹性,存储和计算资源可独立扩大,不影响性能和并发查问 高牢靠,反对节点,集群,甚至整个数据中心down掉都没有问题 持久性,反对数据clone,删除撤回和跨region备份 平安,端到端数据加密,SQL级别基于角色的访问控制 Multi-Cluster, Shared Data Architecture Snowflake架构分为三层,存储,计算和服务 Data Storage This layer uses Amazon S3 to store table data and query results. 注:2016年的论文发表时的存储反对状况,以后除了反对S3,还反对 Google Cloud Storage, Microsoft Azure blob storage。防止了云服务商的lock in。 ...

October 19, 2020 · 3 min · jiezi

关于数据:华为云数据安全中心正式公测8大核心数据安全能力守护你的数据

摘要:数据是当今时代的金矿。政企用云数字化转型的同时,如何清晰通明地爱护数据资产的平安?数据是当今时代的金矿。政企用云数字化转型的同时,如何清晰通明地爱护数据资产的平安? 近日,华为云平安首席技术官杨松发表数据安全核心正式公测,为打消上述难题提供了解决方案。 数据安全核心是一款齐全云原生的平安服务,为政企提供了可视可控可追溯的数据安全爱护计划,让用户分明晓得本人的数据从哪里来、到哪里去、如何治理,保障云上数据从产生到采集到传输到存储到应用到替换到销毁的平安。 该服务于去年9月份一经放出内测音讯,就被数十家政企申请试用,反馈良好;尔后,又经一年的锻造,目前正式公测。 数据安全核心有8大外围数据安全能力: 1、数据资产通明可视:提供数据资产的全生命周期全景图,数据在哪里、怎么应用的、有没有可能存在平安问题,都有可视化的报表出现。 2、敏感数据辨认:对各种数据进行分级分类,疾速辨认敏感信息,反对如身份证、银行卡号、车牌号等30多种集体数据的辨认,反对doc、xls等200种格局的文件辨认,不便用户对不同重要水平的数据进行不同等级的爱护。 3、数据传输平安:提供公有云证书治理和SSL证书治理服务,别离解决政企亿级海量终端提供专属平安认证(实用于企业自用、车联网、IoT设施等应用数字证书进行通信加密的场景)和网站拜访过程中传输数据被监听和嗅探的问题。 4、数据存储平安:数据加密能力已集成到40多种用户最罕用的根底云服务,如ECS、OBS等中,不便用户随时一键加密重要数据。 5、数据审计:数据库安全审计服务,可辨认异样的数据操作行为,并进行全方位记录,保障应用过程中的通明可审计。 6、数字水印:反对明暗双重水印和数据库水印,企业的数据和文件给员工或第三方应用时,打上或明或暗藏的水印,可辨认使用者身份,起到震慑作用,既可爱护版权,也可避免随便泄露敏感信息,且即便数据和文件泄露,也能做到有迹可循。 7、数据脱敏:用户在应用数据时,有时既要调用某些敏感数据如身份证、银行卡号等,又不想明文数据被其他人看到,这时可对等敏感数据进行遮蔽、变形等脱敏解决,既保障数据失常应用又保障数据安全性。 8、齐全销毁:通过介质平安擦除的形式,对云上生效数据进行平安销毁,保障用户数据删除时无残留,数据删除后不可复原。 总之,“数据安全核心在手,爱护数据计划都有”。爱护用户云上资产和数据安全,是用户的外围诉求,也是华为云责无旁贷的责任。云原生数据安全核心的公布,是华为云履行这种责任迈出的又一步。 华为云会继续加强平安投入特地是数据安全的投入,为用户交付平安可信的云服务,让用户抉择了华为云,就等于抉择了平安可信。 点击关注,第一工夫理解华为云陈腐技术~

October 19, 2020 · 1 min · jiezi

关于数据:拯救深度学习标注数据不足下的深度学习方法

摘要:解决深度学习对数据的依赖问题和缩小数据标注老本成为了业界的钻研热点。本文将介绍以下几个钻研方向:半监督/弱监督学习、数据合成、被动学习、自监督。1. 引言得益于深度学习的倒退,许多计算机视觉工作在近几年获得了不错的成果。然而,现有的深度学习算法多是有监督学习算法,依赖大量人工标记的训练数据,而标注数据非常消耗人力老本。因而,解决深度学习对数据的依赖问题和缩小数据标注老本成为了业界的钻研热点。本文选取了相干畛域的局部论文,将介绍以下几个方向:半监督/弱监督学习;数据合成;被动学习;自监督。 2. 半监督/弱监督学习半监督学习是监督学习和无监督学习相结合的一种学习办法。半监督/弱监督学习应用大量的未标注数据/弱标注数据,同时应用小局部已标注数据,来训练机器学习模型。它预期的后果是通过对大部分未标注数据/弱标注数据的利用,失去的模型优于单纯只用已标注数据训练的模型。弱标注数据的数据标签信息量较少且标注难度小,比方在指标检测工作中,通常须要标注指标的类别和坐标,弱标注数据则只标注出图像中的指标类别,没有坐标信息。 论文[1] 是半监督方向的图像分类论文,试验次要在手写体图像数据集上进行,包含MNIST、CIFAR等,图1是该论文办法的架构。如图所示,图中左上角和左下角别离是未标注数据集U和已标注L,两头的橘红色模块是论文的神经网络,右侧是数据的筛选模块。流程如下:先应用已标注数据集L训练失去初始模型M1,而后应用M1在未标注数据集U上进行推理,U中的每张图像都会失去一个分类后果和对应的置信度S。基于S对U中的样本进行筛选,将分类置信度较高的样本U1和对应的推理后果当作GT,退出已标注样本中L=L+U1,持续训练模型失去M2。之后反复上述流程,训练集数量一直减少,模型性能也逐步变好。最终失去的模型M性能要远远优于只应用L训练失去的模型M1。 图1 论文[2]使半监督和弱监督学习在字符级别的文本检测畛域的一篇论文,思维跟[1]相似,也是通过增量学习的形式来boost模型。如图2所示,应用预训练的字符集检测模型对左侧的未标注数据集U进行推理,失去检测后果D。图2两头高低模块别离示意半监督和弱监督筛选模块。半监督模块通过置信度阈值剔除掉D中检测不规范的检测框,弱监督模块带有“单词级”的标注框信息,所以将不在“单词级”标注框内的字符检测框剔除掉。之后用两个模块的输入后果从新训练模型。 图2 论文[3]是应用检测框标注信息做宰割工作的GAN(generative adversarial network)文章。如图[3]所示,左侧为带有检测框信息的图像,两头为生成器generator,右侧为鉴别器discriminator。图3两头的上支路在原始图像标注框外裁剪出背景区域,下支路从原始图像裁剪出标注框的指标区域,两头的生成器在原图标注框内生成mask,之后将mask和高低支路的两张图像联合成fake image,鉴别器须要甄别图像是实在的还是合成的。通过生成反抗的形式,最初训练出一个良好的生成器宰割网络,而全过程只应用了检测框标注信息监督,没有宰割标注信息参加。 图3 3. 数据合成既然有监督学习无奈防止模型对标注数据的依赖,那么主动生成数据也是缩小人工成本的一个形式。数据合成的形式很多,包含人工设计规定,应用GAN网络生成等。论文[4]针对文本辨认工作提出了基于人工设计规定的合成数据办法。合成的图像样本由前景图像层、背景图像层、边缘/暗影层组成,合成步骤分为六步: font rendering:随机抉择字体并将文本出现入前景层; border/shadow rendering:从前景层的文字中产生边缘暗影等; base coloring:给三个图层填色; projective distortion:对前景和暗影进行随机扭曲变换; natural data blending:将图像跟实在场景图像进行混合; noise:退出高斯噪声等。 图4 利用GAN进行domain adaptation,合成数据也是一个钻研方向。次要关注点包含source domain和target domain的appearance和geometry的类似水平。论文[5]则同时思考两种类似来做生成反抗。 图5 4. 被动学习不同样本对现有模型的晋升帮忙是不同的,正如人类的学习过程一样,只学习小学常识的人很难冲破初中常识的瓶颈。被动学习的出发点与此相似,就是心愿从未标注数据集中筛选对模型晋升帮忙最大的子集交给人工标注。因而在标注同样数据量的样本的状况下(同样的标注老本),采纳被动学习策略筛选样本训练的模型是靠近最优的。被动学习的流程如图6所示,左侧的已标注数据集训练失去模型,模型在未标注数据集上推理,并将标注意义较大的样本推给人工标注,再将新标注的数据集从新训练和晋升模型。 图6 被动学习畛域定义未标注数据对模型晋升帮忙的指标包含不确定性、差异性和多样性等。不确定性指现有模型对该样本的推理置信度不够高,差异性指新样本跟已标注数据集的样本差别,多样性则是强调新样本外部足够多样化。在分类问题中,论文[6]是分类工作中的被动学习过程,依据模型对输出图像的生成patch预测的差异性和不确定度来掂量。论文[7]则强调检测工作中检测框的置信度只代表分类置信度,不具备地位置信度,因而提出地位置信度补充评估检测框的优劣:二阶段检测器中RPN和最终输入框的差别(图7),数据裁减后的检测框与原图检测框的差别。 图7 论文[8]则指出现有被动学习模型大多是task-specific,因而提出了task-agnostic的筛选样本策略,并在分类、检测等工作中验证了试验。如图8所示,论文提出了可旁加在骨干工作学习网络的loss预测分支,对未标注数据集进行loss预测,预测loss大的样本外表模型对它的不确定性高。Loss预测分支在训练阶段时的监督信息是骨干工作学习网络的loss。 ** ** 图8 5. 自监督自监督学习是无监督学习的一种,近期是学术界的钻研热点。它通过利用无标签的数据自身的构造或者个性,人为结构标签进去监督网络学习。通常自监督学习的模型并不间接利用在指标工作上,而是作为上游工作的预训练模型。论文[9]是自监督学习的一个新进展,应用该论文办法失去的无监督模型,作为预训练模型在许多上游工作fine-tune后的成果优于应用有监督学习的预训练模型fine-tune的。图9(c)是MoCo的算法图,(a)(b)示意之前的相干办法。 Contrastive learning是MoCo的出发点,即对输出样本做数据裁减失去裁减集,之后在图中左侧encoder输出,右侧encoder输出或中的样本,其中是不同于的其余样本,通过contrastive loss优化网络对雷同样本源的输出编码出类似特色,对不同样根源的输出编码出差别特色。在该过程中,有两个关键点:计算量不能太大,否则计算资源不容许;右侧的encoder提取的特色k应尽可能是由最新的encoder失去的。图9(a)别离是应用mini-batch中的一个样本作为,残余样本作为,益处是每个mini-batch中的k都是最新的,害处是k的数量太少,受mini-batch限度。图9(b)则是对所有样本进行编码存入memory bank中,并定期更新,益处是k的数量能够不受限制,害处是的特色不肯定是最新的。MoCo则应用了队列存储的特色,将最新的样本特色送入队列,队尾的特色剔除,队列大小可控,且k根本是最近期间的encoder提取的。 图9 6. 总结缩小数据标注老本曾经成为深度学习畛域一个不可回避的研究课题,一方面,合成数据,让机器主动标注数据是值得深挖的方向,另一方面,缩小神经网络的数据依赖或者能模型意识数据自身的外在构造也尤为重要。更有业界权威人士认为,数据提炼或是人工智能的下一个突破口。 [1] Yuliang Liu, et al. Automatic labeling of large amounts of handwritten characters with gate-guided dynamic deep learning . PR letters, 2017 ...

October 16, 2020 · 1 min · jiezi

关于数据:技术解读丨GaussDB数仓高可用容灾利器之逻辑备份

摘要:GaussDB数仓的Roach工具,同时提供物理备份和逻辑备份两种次要状态的备份。逻辑备份针对数据库的逻辑对象进行抽取和备份,可能无效地应答单表、schema级等较细粒度的备份,较为灵便和便当。一、简介在大数据时代,数据的残缺和可靠性成为一个数仓最外围的能力之一。GaussDB数仓以其出众的分布式计算和存储能力广受用户青眼的同时,也特地着眼于数据备份容灾畛域的翻新和打磨。数据的可靠性能够说是数仓的“命门”。对于企业、政府等用户,如果因为硬件故障导致的文件损坏,或是业务操作的误删,导致了数据损坏或失落,那么损失将是不可估量的。GaussDB提供的Roach工具,将以其稳固、疾速、牢靠的备份能力,通过备份复原数据库或业务表,为客户筹备一个牢靠的“后悔药”,从而无效地挽回客户损失。 图1 数仓备份复原示意图 二、Roach备份复原根本框架GaussDB数仓的Roach工具,同时提供物理备份和逻辑备份两种次要状态的备份。物理备份间接通过拷贝文件块,存储于备份介质之上,复原时应用备份的文件块,重建集群中实例DN与CN的数据目录进行复原。本文中咱们次要着眼于逻辑备份,在以后的GaussDB数仓中,相比于物理备份,逻辑备份领有更好的灵活性,其充分利用了GaussDB弱小的数据导入导出能力,不同于物理备份的文件整体拷贝,逻辑备份针对数据库的逻辑对象进行抽取和备份,粒度能够做到表级、schema级、database级,依据客户须要进行定制抉择;在一个领有成千上万表的客户数仓中,如果仅想要备份一张表,那么以后逻辑备份是更好的抉择。 在逻辑备份解说之前,咱们首先讲一下Roach工具的设计架构,这个框架是所有逻辑或者物理备份的实现根底—— 图2 Roach备份复原工具框架示意图 Roach是一个分布式的备份复原工具,以一个Node1、2、3组成的集群为例,备份的总入口是python过程GaussRoach.py,它将在以后节点拉起一个roach master过程,在集群其余所有节点各拉起一个roach agent过程,是典型的master-slave框架,master过程与所有的agent过程别离建设TCP长连贯,并封装报文与各个节点通信,下发备份等工作,在每个节点上,将分布式地为节点上的CN、DN等数据库对象进行备份。 三、逻辑备份的原理上面简述一下逻辑备份的执行过程 1)待备份表定义的导出和备份 如果是库级的备份,将一一schema地进行元数据导出;解决每一个schema时,又将一一导出所有的表定义,因而,咱们下图展现了Roach逻辑备份导出一个表DDL的过程。Roach Master节点接到备份指令后,向一个有CN的节点Roach Agent下发指令,该Agent过程再调用gs_dump,连CN进行表定义DDL的导出。 图3 逻辑备份表元数据DDL导出备份示意图 2)创立表面 Roach逻辑备份过程,实质是建设表面进行数据导出的过程,相似上一步的表定义导出,Roach Agent承受Master指令后,基于导出的表定义,连CN创立写表面,创立的表面应用gsmpp_server, server的option中,location为roach://{Roach Agent监听端口},其中,Roach Agent监听端口为参数可配置,将承受该节点上所有DN实例的连贯,Roach逻辑备份表面定义相似如下模式,该待备份表仅有一个int类型字段id,图中举例的Roach Agent监听端口为8080,可配置,导出格局为csv。 图4 Roach逻辑备份创立的表面 3)Roach工具与DN的建连及数据导出备份 以后GaussDB数仓的集中次要数据导入导出表面包含GDS、HDFS、OBS、Roach等四种,Roach表面同其余几种表面相似,都通过FDW(Foreign Data Wrapper)实现,但注册了一系列属于Roach的FDW API接口实现,此外,Roach还实现了Open/Read/Write/Close/ErrorReport等五个次要的底层读写API,实现DN与Roach Agent之间的数据交互。 图5 逻辑备份表数据备份流程示意图 如图5所示,逻辑备份数据的流程能够用以下phase1 ~ phase5简略形容 Phase1: 备份数据的命令被Master下发给所有Agent,连一个CN,连数据库创立表面导出server、创立导出表面,每个节点的Roach Agent同样会创立一个TblServer线程,监听Agent Port端口,期待DN连贯;Phase2: 连一个CN执行insert into roachft select * from A;sql查问会被下发到所有DN,通过注册的Roach FDW API,DN调用回调函数,封装一个PGXCNode的音讯,以自明instance身份,去尝试连贯server url中的本节点Agent Port;Phase3: Roach Agent的TblServer每接管一个DN的连贯,会调配一个数据通信的socket槽位,并fork一个子过程为该DN实例的备份服务;Agent会期待该节点上所有的DN都建设连贯,创立lengthof(节点所有DN)个子过程,并行进行数据备份。Phase4: 每个备份子过程通过建设的连贯,一直读取表数据,待该表所有切分的数据块读取实现,发送一个FINISH_BACKUP音讯给Roach Agent,则进行数据传输,从DN读取的数据首先存入Agent子过程的buffer中。Phase5: 每个Agent过程内会创立一个BackupSender线程,负责生产存入buffer的表数据,与备份介质建设连贯,流式进行数据的发送;Phase4、5在理论运行中是个异步并行的动作,并非等所有表数据都写入buffer后,才向备份介质发送。四、小结对于Roach逻辑备份的原理大抵就解说实现了,逻辑备份可能无效地应答单表、schema级等较细粒度的备份,较为灵便和便当。逻辑备份的复原的过程,与上述备份过程根本是个逆向过程,简而言之即表定义复原,节点及DN元数据恢复,数据导入的过程,复原的一大劣势是,不会停集群或挪动其余数据,对其余库或者表的业务简直不影响。在后续的博文中,咱们能够更具体地解读。 点击关注,第一工夫理解华为云陈腐技术~

October 15, 2020 · 1 min · jiezi

关于数据:华为云专家带你解读文本情感分析任务

摘要:本文次要介绍了文本情感剖析的次要工作,包含词级别的情感剖析、句子级情感剖析以及属性级情感剖析等工作的介绍,同时介绍了华为云在这三个工作上的一些停顿。1 基本概念为什么:随着挪动互联网的遍及,网民曾经习惯于在网络上表达意见和倡议,比方电商网站上对商品的评估、社交媒体中对品牌、产品、政策的评估等等。这些评估中都蕴含着微小的商业价值。比方某品牌公司能够剖析社交媒体上宽广民众对该品牌的评估,如果负面评估突然增多,就能够疾速采取相应的口头。而这种正负面评估的剖析就是情感剖析的次要利用场景。 是什么:文本情感剖析旨在剖析出文本中针对某个对象的评估的正负面,比方“华为手机十分好”就是一个侧面评估。情感剖析次要有五个因素,(entity/实体,aspect/属性,sentiment/观点,holder/观点持有者,time/工夫),其中实体和属性合并称为评估对象(target)。情感剖析的指标就是从非结构化的文本评论中抽取出这五个因素。 图 1 情感剖析五因素 举例如下图: 图 2情感剖析五因素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型剖析出的五个因素中的四个(不包含工夫)。其中实体“华为手机”和属性“拍照”合并起来能够作为评估对象。评估对象又可细分为评估对象词抽取和评估对象类别辨认。如实体能够是实体词和实体类别,实体词能够是“餐馆”、“饭店”、“路边摊”,而实体类别是“饭店”;属性能够是属性词和属性类别,如属性词能够是“水煮牛肉”、“三文鱼”等,都对应了属性类别“食物”。实体类别和属性类别相当于是对实体词和属性词的一层形象和归类,是一对多的关系。词和类别别离对应了不同的工作。观点的取值范畴个别是{侧面,负面,中性}。相似的,能够把观点看做是对形容词的形象和归类,如“难看”归为“侧面”。 2 工作类型以后钻研中个别都不思考情感剖析五因素中的观点持有者和工夫,故后文中的探讨都不思考这两个因素。依据对剩下三个因素的简化,以后情感剖析的次要工作包含可依照图 3所示:词级别情感剖析、句子/文档级情感剖析、指标级情感剖析。 图 3 情感剖析工作体系 其中词级别和句子级别的剖析对象别离是一个词和整个句子的情感正负向,不辨别句子中具体的指标,如实体或属性,相当于疏忽了五因素中的实体和属性这两个因素。词级别情感剖析,即情感词典构建,钻研的是如何给词赋予情感信息,如“生日”对应的情感标签是“侧面”。句子级/篇章级情感剖析钻研的是如何给整个句子或篇章打情感标签,如“今天天气十分好”对应的情感标签是“侧面”。 而指标级情感剖析是思考了具体的指标,该指标能够是实体、某个实体的属性或实体加属性的组合。具体可分为三种:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中TG-ABSA的剖析对象是给定某一个实体的状况下该实体给定属性汇合下的各个属性的情感剖析,如图 4中的实体是汽车,属性汇合是能源、外观、空间和油耗。 图 4 TG-ABSA例子 TN-ABSA的剖析对象是文本中呈现的实体的情感正负向,如图 5中,实体华为和XX的情感正负向别离为侧面和负面。这种状况下没有属性的概念,只有实体。 图 5 TN-ABSA例子 T-ABSA的剖析对象是文本中呈现的实体和属性组合,如图 6所示,评估对象是实体+属性的组合,如华为+拍照和XX+性价比。 图 6 TG-ABSA例子 在分明了指标级情感剖析的分类之后,每个类别又都能够蕴含为两大类工作:第一个是评估对象的辨认,第二个是情感辨认。评估对象辨认包含评估对象词抽取和评估对象词分类,情感辨认包含评估词抽取和评估正负面分类。具体例子如图 7所示。之所以要辨认出对象词和评估词,是为了可能基于属性正负面过滤的时候能够高亮相应的评估文本片段。 图 7 评估对象和评估词和类别辨认例子 本文次要介绍词级别情感剖析、句子级情感剖析和指标级情感剖析中的T-ABSA的内容、办法和华为云语音语义团队在该畛域实际中的一些成绩。这里首先辨别一些概念,本文所说的情感,包含emotion和sentiment两种。严格意义上来说sentiment属于emotion的一种,然而本文中不做辨别。 3 词级文本情感剖析3.1 工作介绍词级别的情感剖析,即构建情感词典(sentiment lexicon),旨在给词赋予情感信息。这里首先要确定的是情感怎么示意,常见的示意办法有离散表示法和多维度表示法。离散表示法如情感剖析畛域罕用的{侧面,负面,中性}的示意办法,或者如表 ...

October 14, 2020 · 1 min · jiezi

关于数据:WSDM-Cup-2020大赛金牌参赛方案全解析

近日,在美国休斯敦落幕的第13届网络搜寻与数据挖掘国内会议(WSDM 2020)上,华为云语音语义翻新Lab率领来自华南理工大学、华中科技大学、江南大学、武汉大学的四位学生组成的联结团队“Xiong团队”,摘得WSDM Cup 2020大赛“论文援用用意辨认工作”金牌(Gold Medal)。 WSDM被誉为寰球信息检索畛域最有影响力也最权威的会议之一,会议关注社交网络上的搜寻与数据挖掘,尤其关注搜寻与数据挖掘模型、算法设计与剖析、产业利用和晋升准确性与成果的试验剖析。往年曾经是WSDM的第十三届会议。 本文将具体介绍本次获奖的解决方案。 1、背景几个世纪以来,社会技术提高的关键在于科学家之间坦诚的学术交流。新发现和新实践在已发表的文章中公开散发和探讨,有影响力的奉献则通常被钻研界以引文的模式认可。然而,随着科研经费申请竞争日趋激烈,越来越多的人把学术研究当成一种资源抢夺的伎俩,而不是单纯为了推动常识提高。 局部期刊作者“被迫”在特定期刊中援用相干文章,以进步期刊的影响因子,而论文审稿人也只能减少期刊的援用次数或h指数。这些行为是对科学家和技术人员所要求的最高诚信的触犯,如果放任这种状况倒退,可能会毁坏公众的信赖并妨碍科学技术的将来倒退。因而,本次WSDM Cup 2020赛题之一将重点放在辨认作者的引文用意:要求参赛者开发一种零碎,该零碎能够辨认学术文章中给定段落的引文用意并检索相干内容。 华为云语音语义翻新Lab在自然语言解决畛域有着全栈的技术积攒,包含自然语言解决根底中的分词、句法解析,自然语言了解中的情感剖析、文本分类、语义匹配,自然语言生成,对话机器人,常识图谱等畛域。其中和本次较量最相干的技术是语义匹配技术。Xiong团队通过对赛题工作进行剖析,针对该问题制订了一种“整体召回+重排+集成”的计划,该计划以轻量化的文本类似度计算方法(如BM25等)对文章进行召回,而后基于深度学习的预训练语言模型BERT等进行重排,最初通过模型交融进行集成。 2、赛题介绍本次较量将提供一个论文库(约含80万篇论文),同时提供对论文的形容段落,来自论文中对同类钻研的介绍。参赛选手须要为形容段落匹配三篇最相干的论文。 例子: 形容: An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced. 相干论文: [1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks. 评测计划: 3、数据分析本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文蕴含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本蕴含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,须要匹配出相应的paper_id。 咱们对数据中候选论文的title,abstract以及形容文本的长度做了一些统计分析,如图1所示,从图中咱们能够看到文本长度都比拟长,并且针对咱们后续的单模型,咱们将模型最大长度从300减少到512后,性能晋升了大概1%。 图1 候选论文的Title(a),Abstract(b)以及形容文本(c)的长度散布 4、整体计划咱们计划的整体架构如图2所示,整体计划分为四个局部:数据处理,候选论文的召回,候选论文的重排以及模型交融。 图2 整体计划架构(局部图引自[5]) 4.1 数据处理通过观察数据咱们发现,在题目给出的形容语句中,有许多雷同的形容文本,然而参考标记的地位却不同。也就是说,在同一篇文章中,不同的句子援用了不同的论文。为此,咱们抽取句子中援用标记地位处的语句作为新的形容语句生成候选集。 如表1所示,咱们选取形容中[[##]]之前的句子作为形容要害句。 4.2候选论文召回如图3所示,咱们使用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文形成并集组成最终的召回论文。 ...

October 12, 2020 · 2 min · jiezi

关于数据:华为云推出全自研数据库GaussDBopenGauss能否撑起一片天

摘要:GaussDB(openGauss) 基于华为云底座,可能疾速全球化部署,同时反对用户的本地化部署诉求,跟云上生态工具紧密结合让用户在迁徙、开发、运维上省时省心。GaussDB(openGauss)是华为云深度交融在数据库畛域多年的教训,联合企业级场景需要,推出的新一代企业级分布式数据库。 它是华为全自研产品,和硬件劣势紧密结合,可能做到全栈国产化,同时领有华为弱小的专家团队作为技术继续翻新的保障。 GaussDB(openGauss) 基于华为云底座,可能疾速全球化部署,同时反对用户的本地化部署诉求,跟云上生态工具紧密结合让用户在迁徙、开发、运维上省时省心。 全自研数据库,做到芯片、零碎层的优化一句话总结GaussDB(openGauss)的劣势:高可用、高性能、高扩大、高兼容、高扩大,易治理、事务强一致性,能够说是关系型数据库里的佼佼者。 GaussDB(openGauss)和鲲鹏芯片,欧拉操作系统领有更加严密的单干关系,可能基于更底层的芯片架构,组网状态,零碎兼容来进行性能,可靠性方面的优化。是其余友商的数据库系统难以具备的弱小底座劣势。 它同时也是华为研发资源投入最多,钻研最深刻的全自研数据库系统,在寰球范畴内领有50+以上的博士天团,以及300+的内核研发人员,为打造业务最高规范的分布式数据库产品提供了继续能源。 GaussDB(openGauss)在华为云上领有两种部署状态:集中式和分布式。其中集中式版本领有开源生态,用户能够通过开源网站间接下载,该版本华为以齐全凋谢的态度,反对跟业内更多搭档单干,促成更加广大的商务模式。作为国内惟一开源数据库,也是华为开源、凋谢、不LOCKIN繁多厂商的最佳证实。 集中式版本后续也将由华为云数据库产品部进行服务化上线,华为云将基于社区版能力实现高可用,高性能,高牢靠,高拓展的极致优化,满足企业可信交易场景的需要。 分布式版本则承载华为云自研分布式组件体系,是传统企业拥抱互联网,面向未来海量事务型场景挑战的无力保障。 除此之外,GaussDB(openGauss)反对私有云版本&混合云版本。 私有云版本可能疾速进行全球化部署,反对用户疾速将业务扩大到华为云寰球24+Region。 混合云版本可能满足客户的本地化诉求,同时又能取得云平台的综合劣势。 云平台上的各种生态工具,均优先兼容GaussDB(openGauss),用户通过这些工具,可能低成本、高效率、在线实现数据库的迁徙上云,同时上云后可能取得高效易用的运维、开发、优化能力。 从消费者云业务到金融企业,GaussDB(openGauss)轻松搞定GaussDB(openGauss)主打的场景是华为云企业级云上分布式数据库产品,重点场景是构筑企业级数据库能力,比照传统状态,可能取得: (1)高性能:反对分布式事务强一致性,同时32节点下可能达到1200万tpmC的性能实测指标;(2)高可用:反对同城跨AZ多活容灾,两地三核心金融级部署场景;(3)高拓展:以后反对最大256节点的在线扩容,同时保障客户领有卓越的性能线性增长,突破传统DIY架构的性能天花板;(4)易运维:高度反对HTAP混合负载场景,极大的缩小了业务革新老本,同时基于云平台获在线监控,运维,降级等便当的能力。在具体落地实际中,咱们以华为生产云服务为例。 华为消费者云服务,承载了华为终端的所有在线业务,领有极高的流量和客户数,大数据平台集中存储和治理业务侧数据,采纳多种数据库混搭架构,其中静止衰弱业务、云空间业务、天文大数据库业务,面临业务增长迅速,实时剖析能力以及性能晋升的挑战。 之前,静止衰弱采纳开源Cassandra的技术实现,云空间&天文大数据均采纳MySQL + DDM的后盾技术,这两类技术宗旨在于对标存储密集型&计算密集型两大次要互联网利用场景。 相较之下,GaussDB(openGauss)通过更低的正本数实现更高有效性的存储空间,比照Cassandra正本数缩小1倍,存储空间晋升50%,性能晋升50%,无效解决存储密集型的业务场景。 而且GaussDB(openGauss)通过更高分片数,更加优良的性能晋升空间,无效解决了大规模剖析型业务的性能瓶颈,比照传统MySQL + DDM中间件的形式,分片数能够一直晋升,性能可能随规模线性增长,几无性能瓶颈,同时提供低劣的HTAP能力,反对用户实时在线剖析,无效提供在线客户的各种体验。 另外,华为云曾经跟国内头部金融客户开展长期技术单干,目前部署外围业务曾经齐全迁徙到GaussDB(openGauss)数据库上。 华为云GaussDB(openGauss)实现了金融客户的外围诉求: 1.全栈自主可控,保障最极其状况下的业务连续性; 2.超高平安,达到欧美国家几近刻薄的平安规范; 3.超高牢靠,反对分布式事务强统一的根底上做到同城跨AZ多活容灾,反对两地三核心金融级计划。 4.超高可用,反对多正本部署状态,RTO<10s,ROP=0; 5.兼容易用,反对HATP混合负载能力,兼容客户金融级10万+的存储过程,极大的节俭了业务革新和后续的运维老本。 点击关注,第一工夫理解华为云陈腐技术~

September 29, 2020 · 1 min · jiezi

关于数据:海量数据拉升背后的成本困扰存算分离成美图降本增效新良方

摘要:如何疾速通过云化,实现资源利用率晋升,降本增效,突破传统零碎建设的数据孤岛,成为企业疾速倒退的关键所在。随着5G和AIoT技术的倒退,数据量指数级增长,新的数据业务层出不穷。作为数字化时代的先行者 ,互联网企业利用大数据平台进行客户体验晋升、网络优化、精准营销等业务, “流量变现”带来了丰富的经济效益,同时海量数据的高速无效解决剖析问题也日益凸显,为应答数据量的激增,企业须要通过一直扩容带宽、CDN,减少计算、存储等资源,继续大量的老本投入成为制约企业飞速发展的绊脚石,急需一剂降本增效良方来突破枷锁。 传统大数据中心建设采纳存算一体的架构建设,在进行扩容时需按肯定的存算配比同步裁减,造成了大量的资源冗余,利用率偏低。当先的互联网企业曾经开始应用大数据存算拆散解决方案实现资源价值最大化,存储与计算资源全面云化、灵便配置、弹性伸缩,降本增效。上面一起来看看美图的优良实际: 作为国内当先的互联网企业,美图围绕着“美”发明了美图秀秀、美颜相机、美拍、美图手机等一系列软硬件产品,让用户轻松实现影像变美。自2008年10月成立以来,迅速扩张,截止日前美图的用户数已达10亿+,海量数据存储+准实时处理已达10PB级,每天百亿接口调用。 但在继续高速倒退的背地,数据量指数级激增,海量数据存储、解决、剖析等问题日益凸显,何疾速通过云化,实现资源利用率晋升,降本增效,突破传统零碎建设的数据孤岛,成为企业疾速倒退的关键所在。 存算拆散+多样性算力助力美图降本增效在美图原有的大数据中心中,计算和存储资源严密耦合。在这样的集群中,当存储空间或计算资源有余时,只能通过肯定比例对两者同时扩容。例如在平时工夫节点,存储与计算的资源使用率维持在80%,当达到夜间18:00-22:00或节假日的高峰期时,用户的集中应用使得新增数据迎来一个波峰 ,原有存储空间就满足不了业务的倒退需要,此时需进行扩容操作,计算与存储同步扩容的后果导致存储资源使用率维持在高点,而计算资源利用率有余50%,新扩容的计算资源就被节约了,经济效率低。 美图采纳了华为云大数据存算拆散计划,对计算与存储资源进行解耦,存储有余扩存储,计算有余扩计算,面对数据激增的浪涌弹性发放,资源灵便部署,计算存储资源利用率整体晋升40%。 存储方面,美图原有大数据中心应用原生的Hadoop架构存储数据,1:3的备份形式使得大量存储空间被占用,华为独有的企业级EC可将正本率升高至1:1.09,数据存储容量由原来的20+PB升高至10+PB,存储资源优化晋升50%。 计算方面,华为云大数据存算拆散计划反对多样性算力,包含裸金属服务器、云服务器、容器和Serverless在内的多种粒度的算力反对,具备弱小的多核解决劣势,对OBS存储做了针对性的高并发能力优化,同时还对大数据引擎、操作系统层面及JDK等方面进行优化,使得分布式大数据处理性能晋升20%。面对手机端、APP、不同区域不同部门的应用场景均能轻松应答,计算资源优化超过10%。 高效的存算拆散架构,当先的存储技术和计算技术,成为了智能数据湖降本增效的三大利器。 “0革新”平滑迁徙上云 异构兼容降老本美图本来采纳自建IDC(数据中心),但受限于物理介质的影响,IDC机房的空间无限,无奈做到疾速的扩容,难以撑持业务波峰波谷,在下午18:30的业务高峰期,全国20W终端进行同时下载,高并发将导致30%的失败率。 若对老旧设施进行更新换代,不仅要思考洽购周期长的问题,昂扬的洽购老本更是重中之重。 基于存算拆散的华为云大数据解决方案齐全兼容开源原生接口,全面兼容支流的大数据生态,让企业大数据利用“0革新”平滑迁徙上云。美图大数据迁徙中波及数百业务、10PB级数据、数千数据表&工作及上千节点数,华为云智能数据湖通过CDM工具批量迁徙历史数据和增量数据,利用Kafka流量或者Nginx流量复制/转发实时数据,因为华为云大数据与原有IDC的平台架构不同,为了保持数据信息的一致性,还需通过HistoryServer获取所有工作执行的Stage的OutPutSize、InPutSize、RecordsNum等信息,确保云上云下执行过程完全一致。最终实现美图大数据的全面云化,反对不同芯片的混合部署,反对有限扩容,面对业务顶峰再不会呈现下载失败的状况。既爱护了已有投资,又升高扩容的总成本。 智能数据湖打消数据孤岛 开释数据价值作为一个坐拥十亿级客户的互联网企业,美图的利用已在16亿+的设施上进行激活,每月产生60亿张照片,月活用户数超3亿,数据总量已达10PB+。海量数据的起源各不相同,各软件设施如美图秀秀、美拍、美艳相机等,各区域各业务部门等数据流均属于自建零碎模式,在原有的大数据中心无奈做到数据的对立标准、对立治理,海量数据被划分在一个个集群之中,无奈实现互通共享,数据反复拷贝率高,数据应用老本高、效率低。例如在美拍中生成的照片,若通过美图秀秀进行二次编辑,数据则需通过美拍零碎中进行调取复制再转到美图秀秀零碎中进行解决,数据在流通过程中尤为过五关斩六将,效率低下。 1. MRS服务100%兼容开源大数据生态,联合周边丰盛的数据及利用迁徙工具,可能帮忙客户疾速实现自建平台的平滑迁徙,整个迁徙过程可做到“代码0批改,业务0中断”。 MRS反对WrapperFS个性,提供OBS的翻译能力,兼容HDFS到OBS的平滑迁徙,解决客户将HDFS中的数据迁徙到OBS后,即可实现客户端无需批改本人的业务代码逻辑的状况下,拜访存储到OBS的数据。 MRS基于鲲鹏处理器进行软硬件垂直优化,充沛开释硬件算力,实现高性价比。MRS反对华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,应用华为自研的操作系统EulerOS、华为JDK及数据减速层,充沛开释硬件算力,为大数据计算提供高算力输入。在性能相当状况下,端到端的大数据解决方案老本降落30%。 2020年9月23-26日,华为将于上海举办第五届HUAWEI CONNECT,携手来自寰球的业界思维首领、商业精英、技术大咖、先锋企业、生态合作伙伴、利用服务商以及开发者等,独特探讨行业数字化的倒退方向,展现ICT畛域的当先技术、产品和解决方案,分享成功实践,构筑凋谢、共赢的衰弱产业生态,共创行业新价值。 除了上海四天现场外,咱们将开启寰球直播&互动(包含主题演讲、峰会、专题演讲、线上展厅等),为您打造线下线上全场景体验之旅。敬请关注! 号外!!!华为云官网开发者推广招募打算正在炽热进行中,点击立刻理解详情 点击关注,第一工夫理解华为云陈腐技术~

September 22, 2020 · 1 min · jiezi

关于数据:银行数仓体系发展之路

银行的数据仓库往往汇聚了银行次要零碎的客户、业务、财务等数据,为银行的日常经营剖析、市场营销、危险管制、财务剖析、外部审计、监管报送提供数据反对和服务。银行的数字化实际必须建设好数仓体系。 数据仓库是一个面向主题的、集成的、绝对稳固的、反映历史变动的数据汇合,用于反对管理决策。数据仓库之父比尔在著述《Building the Data Warehouse》中提出数据仓库的特色: (1) 面向主题的 (2) 集成的 (3) 保留历史的 (4) 面向决策反对的 (5) 面向全企业的 (6) 最明细的数据存储 (7) 数据快照式的数据获取 数据集市和数据中台,是与数据仓库无关的两个概念。 数据集市是数据仓库的一个子集,用于从数据仓库获取相干的数据加工后提供给用户。数据集市通常面向特定的业务或者团队,如市场部门有对应的营销数据集市,经营部门有经营数据集市。 银行的数据集市包含财务、营销、危险集市等。这些集市为对应的数据系统提供数据加工,此外也为各业务部门数据分析人员提供剖析集市,在数据仓库提供相干数据后,由业务人员自行进行数据摸索剖析。通常咱们认为,银行的数据仓库体系个别包含了数据集市,数据集市其实是作为数据仓库体系的一部分。 另一个概念则是数据中台。 现在数据利用到业务场景里的需要大幅减少,须要和利用零碎买通,并把数据利用于业务剖析。这也要求数据仓库有数据中台的概念。但因为原来数据仓库的架构都打得很松软,因而假使想调整架构去撑持业务,很难从底层到顶层的实现对技术改造的工作。 同时,因为银行业组织构造异样简单,外面数据的利用、零碎的买通不是一个部门的人或一个层面的人去推动和反对能够实现的。所以说,在银行实际数据中台的时候其实都是要独立于数据仓库去做。 上图列举了银行的业务特色。对银行来说,它们业务层面次要是交易类的,次要分为两条线,包含渠道和业务。 渠道是指银行相干的各种平台,如手机银行、ATM机、网上银行等,这些都是它们采集数据的重要渠道,也是它们外围业务的渠道。 业务是银行的重心,如理财、个贷等。这些跟它们自有的业务特色密切相关。 如上图所示,这是一个比拟常见的数据仓库的架构。它的层级非常清晰:从数据源的采集到ODS那一层,再到数据应用层。最下面的那一层就是应用层,比方报表展现、即席查问、数据分析等。如上图所示,这些是银行数仓的常见主题模型,一共是十个:当事人、资产、财务管理 区域地位、营销流动、协定、事件、外部机构、产品和渠道。 将来,银行数仓体系会如何倒退? 就整体趋势而言,数据会越来越扩散,这里的扩散是指数据源获取的扩散。随着利用多样化,数据源变多,数据量暴增,服务器资源永远都不够用。 因而银行数据畛域如果真的想实现数据驱动的话,还须要走较长的路。 易观作为国内当先的数据服务公司,对数据仓库提出了本人思考:基于用户行为数据中台的解决方案。 因为银行业的复杂性,会接入十分多的数据源,因而这一解决方案次要针对下层进行整合。易观技术服务团队通过在接口层面凋谢权限治理和项目管理,银行工作人员便能够通过本人的管理权限界面在咱们接口,保障了不同模块在权限治理层面的对立。我的项目同样如此。

September 17, 2020 · 1 min · jiezi

关于数据:关于数据存储引擎结构没有比这篇更详细的

摘要:常见存储算法构造涵盖:哈希存储,B 、B+、B*树存储,LSM树存储引擎,R树,倒排索引,矩阵存储,对象与块,图构造存储等等。介绍在存储系统的设计中,存储引擎属于底层数据结构,间接决定了存储系统所可能提供的性能和性能。常见存储算法构造涵盖:哈希存储,B 、B+、B*树存储,LSM树存储引擎,R树,倒排索引,矩阵存储,对象与块,图构造存储等等。 哈希存储引擎是哈希表的长久化实现,个别用于键值类型的存储系统。而大多传统关系型数据库应用索引来辅助查找数据,用以减速对数据库数据的拜访。思考到常常须要范畴查找,因而其索引个别应用树型构造。譬如MySQL、SQL Server、Oracle中,数据存储与索引的根本构造是B-树和B+树。 支流的NoSQL数据库则应用日志构造合并树(Log-structured Merge Tree)来组织数据。LSM 树存储引擎和B树一样,反对增、删、改、随机读取以及程序扫描。通过批量转储技术躲避磁盘随机写入问题,极大地改善了磁盘的IO性能,被广泛应用于后盾存储系统,如Google Big table、Level DB,Facebook Cassandra零碎,开源的HBase,Rocks dB等等。 …… 一.哈希存储哈希存储的根本思维是以关键字Key为自变量,通过肯定的函数关系(散列函数或哈希函数),计算出对应函数值(哈希地址),以这个值作为数据元素的地址,并将数据元素存入到相应地址的存储单元中。查找时再依据要查找的关键字采纳同样的函数计算出哈希地址,而后间接到相应的存储单元中去取要找的数据元素。代表性的应用方包含Redis,Memcache,以及存储系统Bitcask等。 基于内存中的Hash,反对随机的增删改查,读写的工夫复杂度O(1)。但无奈反对程序读写(指典型Hash,不包含如Redis的基于跳表的ZSet的其它性能),在不须要有序遍历时,性能最优。 1. 罕用哈希函数结构哈希函数的总的准则是尽可能将关键字汇合空间平均的映射到地址汇合空间中,同时尽可能升高抵触产生的概率。 除留余数法:H(Key)=key % p (p ≤ m)p最好抉择一个小于或等于m(哈希地址汇合的个数)的某个最大素数。间接地址法: H(Key) =a * Key + b;“a,b”是常量。数字分析法比方有一组key1=112233,key2=112633,key3=119033,剖析数两头两个数比拟稳定,其余数不变。那么取key的值就能够是 key1=22,key2=26,key3=90。 平方取中法折叠法比方key=135790,要求key是2位数的散列值。那么将key变为13+57+90=160,而后去掉高位“1”,此时key=60。 2. 抵触解决办法1) 凋谢地址法 如果两个数据元素的哈希值雷同,则在哈希表中为后插入的数据元素另外抉择一个表项。当程序查找哈希表时,如果没有在第一个对应的哈希表项中找到合乎查找要求的数据元素,程序就会持续往后查找,直到找到一个合乎查找要求的数据元素,或者遇到一个空的表项。 ①.线性探测法 这种办法在解决抵触时,顺次探测下一个地址,直到有空的地址后插入,若整个空间都找遍依然找不到空余的地址,产生溢出。Hi =( H(Key) + di ) % m ( i = 1,2,3,...,k , k ≤ m-1 ) 地址增量 di = 1,2,..., m-1, 其中 i 为探测次数 ②.二次探测法 地址增量序列为: di= 1^2,-1^2,2^2,-2^2 ,...,q^2,-q^2 (q≤ m/2) ...

September 16, 2020 · 3 min · jiezi

关于数据:如何实现特定列脱敏这两种方法你都要会

摘要:有些状况下,有些表的特定列含有敏感数据,如何让特定的人看到特定的数据呢?1 需要有些状况下,有些表的特定列含有敏感数据(如用户信息表中,用户手机号),天然,咱们只想让“管理员”用户看到这些敏感数据,其余用户咱们心愿其看到“解决后的”—— 脱敏的数据。 2 实现计划介绍计划1: 应用pg匿名化插件postgresql_anonymizer; 计划2: 应用视图进行脱敏; 2.1 计划1: 应用pg匿名化插件postgresql_anonymizer(示例来自插件官网文档) -- 批改配置文件: shared_preload_libraries = 'pg_stat_statements, anon'-- 1. 创立并激活插件CREATE EXTENSION IF NOT EXISTS anon CASCADE;SELECT anon.mask_init();-- 2.申明屏蔽的用户CREATE ROLE skynet;COMMENT ON ROLE skynet IS 'MASKED';-- 3.申明屏蔽规定COMMENT ON COLUMN people.name IS 'MASKED WITH FUNCTION anon.random_last_name()';COMMENT ON COLUMN people.phone IS 'MASKED WITH FUNCTION anon.partial(phone,2,$$******$$,2)';-- 4. 查问屏蔽敏感信息的用户\! psql test -U skynet -c 'SELECT * FROM people;' id | name | phone-----+----------+------------T800 | n3xtchen | 13******112.2 计划2:应用视图进行脱敏(示例来自本地开发环境) ...

September 2, 2020 · 1 min · jiezi

关于数据:银行大数据新玩法构建一湖两库金融数据湖

摘要:烟囱式的数据平台建设导致“数据孤岛”,“一湖两平台”的金融数据湖让大数据施展最大的业务价值。大数据技术通过近几年的疾速倒退,在企业数据中心的基础设施上已不鲜见,尤其是金融行业,大数据技术利用始终走在其它行业后面,它们在以数据湖、交融数仓、湖内数仓(Data LakeHouse)等一些典型的技术场景中,逐渐将大数据生态技术利用到金融企业的危险管制、经营治理、信贷查问、信用卡征信和财务剖析等畛域。 另一方面,大数据云服务化曾经提了很多年,然而目前少数大数据平台的服务能力仍旧很弱,很多企业的大数据平台仅承当跑批业务,除了IT岗位的用户之外,其它的业务岗位基本感触不到大数据的存在,更谈不上通过从大数据技术设施失去业务的收益。 其本质起因是大数据根底平台软件并不具备云服务化的根底能力。 大数据云化,晋升数据投资回报率大数据的各个组件成为一种服务化的状态,次要是将一个大数据中心的服务能力进行虚拟化,多个用户群体可共用服务能力,单个用户群体有相似独占的应用体验,而且随着用户群体规模和类别的减少,资源能够轻量化弹性伸缩,主动发放与回收,底层基础架构的耦合比拟轻,甚至解耦。 在这种架构下,用户的需要,能够更快地被响应和实现。 因为云原生技术能够无效地缩短利用交付的周期,让需要更快落地,最终为用户服务,动静实现价值。 所以,一个本地建设的大数据中心往往须要大量的资金、人力的投入,为单个用户群体建设专用核心是不事实的,因而大数据服务的云化在这些场景很有价值,也可能是必须的抉择。 在以后的云计算产业商业模式下,将来金融企业的大数据基础设施向私有云或者混合云部署模式转变成为必然,随之而来的是用户对云服务提供商的合规和信息安全的要求会进一步提高。 当大数据被赋予云原生的含意后,大数据的真正业务价值才会逐渐绽开,大数据固定资产投资能力真正变现,从而让更多的畛域从大数据中获益,全面晋升大数据的投资回报率。 某行大数据服务云BDSP案例烟囱式的数据平台,导致“数据孤岛” 全行各业务线数据量一直减少,业务侧对数据需要十分迫切,旧有的模式是业务提需要给开发核心,开发核心安顿开发资源管道,大量的需要积压,甚至因为开发周期太长导致需要曾经没有了实际意义。 另外行内烟囱式的数据平台建设导致“数据孤岛”,给开发人员带来大量的数据拉取和整合的工作量。消耗了大量的人力物力以及工夫,还导致了业务侧的投诉和埋怨,工作效率重大滞后。从投资老本来看,业务倒逼IT的烟囱式的数据平台的投资建设,消耗了宏大资金和人力投入,协同效力的晋升问题凸显。 数据依照业务纳入“一湖两库” 通过引入华为云EI智能数据湖FusionInsight提供的MRS+DWS大数据云服务化产品,将行内的根底数据需要依照业务划分为数据湖、数据仓库和团体信息库,即“一湖两库”为外围,通过不同的数据处理伎俩将数据长久化;通过华为MRS和DWS产品提供的组件将支流的数据处理引擎集成在大数据服务云平台中;再将这些数据服务以租户渠道形式作为接口凋谢,例如“数据集市”、“损益预查问”,最初用户通过自助或者固定的应用服务渠道来取得大数据服务,如“分析师工作台”。 平台全副尝试采纳全国产化技术,基于ARM技术服务器和华为MRS产品构建了1000+节点的大数据云化服务集群。 在行内的大数据服务云场景中,真正提供服务外围的是一个全行共用的大数据根底平台(MRS+DWS),应用服务的是多个不同的用户群体,各用户群体以租户模式相互隔离(租户渠道层),单个租户在限定的范畴内应用大数据的服务。 如上图,大数据服务云平台提供用户自服务的渠道,例如危险计量或者分析师工作台。用户自行治理租户资源池内可用的资源、数据等内容。在应用过程中平台提供用户的验证、拜访的管控、审计,对资源应用的计费等衍生问题的解决。 最初将大数据根底平台在云化基础设施上的部署,使得大数据系统升高了建设、部署、运维等环节的投入,体现在在多个租户间平摊大数据中心的建设、运维老本,进步大数据中心的应用效率。 而且基于存算拆散的架构部署,无效的节约了存储老本,真正做到资源的“按需分配”。 对于单租户,省去了保护大数据系统带来的宏大资金和人力投入,使得大数据系统升高了建设、部署、运维等环节的应用门槛,助力普通员工轻松应用大数据利用。 华为云828企业上云节将带来更低的云上部署老本,你还在等什么? 点击关注,第一工夫理解华为云陈腐技术~

August 31, 2020 · 1 min · jiezi

关于数据:数据平台大数据平台数据中台……你确定能分得清吗

造概念,在IT行业可不是一件生疏的事儿,中文博大精深,新名词、新概念往往简略精确,既能够被公众承受,又能够被专家把玩,真正做到雅俗共赏、各有趣味。近年来,数据中台之火爆,什么数据平台、数据中台、数据湖、数据集市等等,不同的叫法把大家绕的云里雾里,概念混淆不清,着实让人摸不着头脑…… 正如咱们分明的晓得企业要进行数字化驱动架构之前,必须要建设对立的数据规范和标准,用对立的、大家都理解的语言形容一件事件是如许重要。同样的情理,在了解“大数据”“数据中台”相干常识之前,咱们有必要先将常遇到的包含数据仓库、数据集市、数仓湖、大数据平台、数据中台等概念一次性说清,以便在今后的学习与建设中可能分明的区别开来。 在答复上述问题之前,咱们先来看看数据中台应该怎么了解?阿里认为数据中台其三项外围能力别离为:OneModel负责对立数据构建及治理,OneID负责将外围商业因素资产化,OneService负责向上提供对立的数据服务。 小编认为,数据中台的外围能力是数据能力的形象、共享与复用,两者对数据中台的定义看似差别微小,但仔细分析,相差无几。换言之,“形象”是为了达成“OneModel”、“共享”则是为了“OneID”、“复用”能力让“OneService”更有意义。 数字化经营不同阶段,经营伎俩各尽所能随着大数据技术的不断更新与迭代,数据管理工具失去了飞速的倒退,从数据库、数据仓库、数据集市与数据湖,再到大数据平台与现在的数据中台,其实将它们比喻成一场“数据的旅程”就不难理解在数字化经营的不同阶段,各经营伎俩并不一定是谁代替了谁,精确的讲,它们都有本人的性能、特点所在,技术之间的互补,每个伎俩都各尽所能的为本人的用例服务。上面咱们就来简明扼要的演绎一下数字化经营不同阶段中各经营伎俩的性能与亮点。 1、数据库:传统的关系型数据库的次要利用,次要是根本的、日常的事务处理,例如银行交易。 2、数据仓库:数据仓库零碎的次要利用是OLAP,反对简单的数据分析,偏重决策反对,并且提供直观易懂的查问后果,可做到业务的历史快照,总结性数据以及高纬度剖析。 3、数据集市:能够了解为是一种"小型数据仓库",只蕴含单个主题,且关注范畴也非全局,数据从企业范畴的数据库、数据仓库中抽取进去,投合业余用户群体的非凡需要,其面向部门级业务或某一个特定的主题,良好地解决了灵活性和性能之间的矛盾。 4、数据湖:存储企业各种各样原始数据的大型仓库,其中的数据可供存取、解决、剖析及传输,次要解决的是“看见数据”的问题,作为全局数据汇总及解决的一个外围性能,数据湖在数据中台建设中必不可少,除了为数据仓库提供原始数据之外,数据湖也能够间接为下层的数据利用提供服务。 5、大数据平台:个性化、多样化数据,以解决海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,应用大数据平台,企业能够比竞争对手更快地作出数据驱动的决策,更快地推出适应客户需要的产品。 6、数据中台:咱们晓得所有对于数据工具的建设,其目标都是为了从数据中提取价值来反对更无效的数据经营,那么不能领导实际行动,发明理论价值的数据以及从数据中产生的常识是无用的,那花大价格来做这个零碎也没有必要。 说到底,数据工具的建设还是要以 ROI(Return On Investment)来反对,数据中台概念的呈现,很大水平上是原来的大数据系统建设的ROI 不如人意,企业投入了大量的物力、财力和人力建设了大数据平台,却发现并没有给企业带来利用的价值,大数据平台更多的沦为“形象工程“,甚至产生了新的数据孤岛,更不用说实现数据能力的全局形象、复用和共享了,而数据中台能够说是为此类大数据平台了个“补丁”,其全局的数据仓库、大数据协调共享等能力,真正解决了反复开发、数据规范不对立、数据孤岛等问题,从而进步了数据价值实现效率和ROI。 常见混同概念梳理:传统大数据平台、硅谷大数据平台、数据中台其实,数字化经营不同阶段的经营伎俩相对来说是比拟好了解的,然而咱们经常能听到一些字面意思相近的概念,尤其是当咱们理解到原来在美国硅谷“中台”其实早已有之,只不过这种方法论在被引入到国内之后,被冠以“中台”之名时混同的概念经常让咱们手足无措。 那么,在硅谷所谓的“中台”叫什么?国外的大数据平台与国内的大数据平台又有什么区别?接下来就让咱们对立相干概念并梳理其关系,一次性说清让大家高深莫测。 1、大数据平台1.0大数据平台1.0=传统大数据平台 大数据平台1.0期间,其实就是咱们通常所看到的国内“传统大数据平台”的概念,此时的大数据平台是以解决海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以Hadoop、Spark、Hive等作为大数据根底能力层,在大数据组件上搭建包含数据分析,机器学习程序等ETL流水线,以及包含数据治理零碎、数据仓库零碎、数据可视化零碎等外围性能。 然而在大数据平台1.0期间,硬件投资与软件开发投入量微小,极大减少了研发的难度、调试部署的周期、运维的复杂度,且常常因为架构的缺点,数据利用开发运维的艰难,多租户资源隔离的复杂度等起因造成数据孤岛、利用孤岛的问题。 传统大数据平台 2、大数据平台2.0大数据平台2.0=新一代大数据平台=大数据平台1.0+数据中台的性能+数据经营的性能 大数据平台2.0期间充沛诠释了硅谷“中台”早已有之的说法,但为什么硅谷没有“数据中台”概念?起因是硅谷公司从起步开始,管理层就将打造数据驱动须要的基础架构作为必须的功课之一,公司外部都有一个 Data Platform(数据平台)部门负责建设公司的数据平台,其大数据平台建设绝大多数是需要驱动,且后续倒退都是由这个大数据平台能产生多少价值来决定的。 也就是说,在硅谷大家其实也并没有刻意的去打造什么中台,然而“防止反复造轮子”“疾速迭代”“数据驱动”“业务驱动”是硅谷工程师文化的一些外围概念,也是硅谷高效翻新的一个外围,大部分公司在起始架构设计时,就将“数据中台”所包含的数据抽象、复用与共享的能力,以及一些数据经营的功能设计在内了,其建设目标是一样的,所以没有必要在概念上适度纠结。 3、数据中台数据中台建设的指标可简略演绎为通过提供工具、流程和方法论,实现数据能力的形象、复用和共享,赋能业务部门,进步实现数据价值的效率。阿里提出数据中台的概念,只是为了强调和国内现有的大数据平台加以区别,强调解决数据孤岛、反复开发的问题,突出数据共享和复用的概念。 深刻探索:数据中台与Ta的关系想必当初你曾经从傻傻分不清的状态中走进去,接下来,咱们再深刻具体地理解下数据中台与之绝对应的关系,看看你是不是曾经熟能生巧的把握了相干概念呢? 数据中台与传统数据仓库、数据集市、数据湖的关系数据仓库与数据集市的呈现,就是为了解决信息化阶段OLTP(联机事务处理过程)在剖析场景下的局限性,它们将OLTP中的数据采集过去,做成面向历史、主题、剖析的一些数据集,从而能够轻松地做出OLTP难以做出的剖析。 然而,随着互联网时代的到来,数据仓库的数据起源只在业务零碎性能中,提供一些汇聚的业务信息,无奈提供个性化的信息以及一些非传统业务数据源的信息。另外,一些非传统业务数据源的信息个别存储在服务器日志中,那么大量且有效的数据如果都存储到数据仓库中,其效率之低和限度是无奈设想的。 此时,数据湖和大数据平台的呈现扭转了上述场面,在这个阶段的数据仓库和数据集市,则基于大数据技术获得了进化,也就是说数据仓库不能解决的问题,咱们用大数据数仓(基于大数据技术实现的数据仓库)来解决,大数据数仓解决不了的,咱们用大数据平台来解决,大数据平台解决不了的问题,就须要数据中台来解决。 应该说数据中台是建设在数据仓库和数据平台之上的,让业务部门能够更好,更有效率的应用数据的经营管理层,并强调从工具和机制上反对对数据能力的形象、共享和复用。 数据中台与大数据平台1.0、2.0的关系很多人会纳闷大数据平台1.0与数据中台的差异在哪里呢?其实,两者的建设目标都是挖掘数据价值,高效实现数字化经营,区别则在于数据中台是具备业务属性的,输出的是原始数据,输入的是业务部门能够间接应用的数据能力。如果必须要将数据中台和大数据平台1.0辨别开来,能够说数据中台是建设在大数据平台1.0的根底层之上,强调提供相应的工具和机制来实现数据能力的全局形象、共享和复用。 在国内,为什么很多企业面临着数据孤岛与利用孤岛的困局?而在硅谷,大多数企业并没有数据孤岛、利用孤岛的懊恼?因为硅谷每个公司在建设大数据平台的时候,大数据平台的经营效率和应用效率,都是必须要思考的关键问题。在起始架构设计与后续迭代的时候,如何最大化投入产出比,并让业务部门真正施展数据的作用都是关键所在。在这个过程中,也有很多的尝试和迭代,然而最终的后果是,绝大部分的大数据平台天然的就会提供所谓的“数据中台”的性能,成为公司外部的一个外围价值驱动引擎。 大数据平台1.0与2.0关系图 而大数据平台2.0作为新一代大数据平台,则是在大数据平台1.0根底上,减少了数据中台的性能,以及数据经营的性能。对于“各个部门数据反复开发,节约存储与计算资源”、“数据规范不对立,数据应用老本高”、“业务数据孤岛问题重大,数据利用效率低”,这些须要在大数据平台1.0阶段解决的问题,并没有在国内企业的大数据平台阶段失去思考和解决。因而,须要一个新的平台来为这个大数据平台“打补丁”,而这个新平台,就是所谓的“数据中台”。 总结本文从数字化经营不同阶段对数据仓库、数据湖、大数据平台、数据中台等外延作了具体阐明,便于读者更好的了解和把握数据畛域相干概念,并帮忙大家更好地理解大数据带给咱们的能力与作用。须要强调的是,除了理解数据中台的概念外,其方法论更为重要,数据中台建设为咱们企业数据服务和共享奠定了重要的根底,是企业从“数据”迈向“价值”的弱小助推器。 本文起源:智领云科技 点击关注,第一工夫理解华为云陈腐技术~

August 13, 2020 · 1 min · jiezi

关于数据:用R挖掘Twitter数据

原文 http://tecdat.cn/?p=3956 Twitter是一个风行的社交网络,这里有大量的数据等着咱们剖析。Twitter R包是对twitter数据进行文本开掘的好工具。本文是对于如何应用Twitter R包获取twitter数据并将其导入R,而后对它进行一些乏味的数据分析。 第一步是注册一个你的应用程序。 为了可能拜访Twitter数据编程,咱们须要创立一个与Twitter的API交互的应用程序。 注册后你将收到一个密钥和明码: 获取密钥和明码后便能够在R外面受权咱们的应用程序以代表咱们拜访Twitter: 依据不同的搜索词,咱们能够在几分钟之内收集到成千上万的tweet。这里咱们测试一个关键词 littlecaesars的twitter后果: 抓取最新的1000条相干twitter 因为默认的抓取后果是json格局,因而应用twlisttodf函数将其转换成数据框 而后咱们做一些简略的文本清理 从失去的数据里,咱们能够看到有twitter发表工夫,内容,经纬度等信息 在清理数据之后,咱们对twitter内容进行分词,以便进行数据可视化 分词之后能够失去相干twitter的高频词汇,而后将其可视化 除此之外,还能够联合数据中的工夫戳数据和天文数据进行可视化剖析 如果你始终在思考对一些文本数据利用情感剖析,你可能会发现应用R比你设想的更容易!

August 6, 2020 · 1 min · jiezi

关于数据:用R挖掘Twitter数据

原文 http://tecdat.cn/?p=3956 Twitter是一个风行的社交网络,这里有大量的数据等着咱们剖析。Twitter R包是对twitter数据进行文本开掘的好工具。本文是对于如何应用Twitter R包获取twitter数据并将其导入R,而后对它进行一些乏味的数据分析。 第一步是注册一个你的应用程序。 为了可能拜访Twitter数据编程,咱们须要创立一个与Twitter的API交互的应用程序。 注册后你将收到一个密钥和明码: 获取密钥和明码后便能够在R外面受权咱们的应用程序以代表咱们拜访Twitter: 依据不同的搜索词,咱们能够在几分钟之内收集到成千上万的tweet。这里咱们测试一个关键词 littlecaesars的twitter后果: 抓取最新的1000条相干twitter 因为默认的抓取后果是json格局,因而应用twlisttodf函数将其转换成数据框 而后咱们做一些简略的文本清理 从失去的数据里,咱们能够看到有twitter发表工夫,内容,经纬度等信息 在清理数据之后,咱们对twitter内容进行分词,以便进行数据可视化 分词之后能够失去相干twitter的高频词汇,而后将其可视化 除此之外,还能够联合数据中的工夫戳数据和天文数据进行可视化剖析 如果你始终在思考对一些文本数据利用情感剖析,你可能会发现应用R比你设想的更容易!

August 6, 2020 · 1 min · jiezi

关于数据:详解GaussDBfor-MySQL服务复制策略与可用性分析

摘要:本文通过介绍GaussDB(for MySQL)读写门路,剖析其可用性。简介数据持久性和服务可用性是数据库服务的要害特色。 在实践中,通常认为领有 3 份数据正本,就足以保障持久性。 然而 3 份正本,对于可用性的要求是不够的。保护 3 份统一的正本意味着,这些正本必须同时在线,零碎能力保障可用。当数据库跨多个节点分片时,某些节点不可用的概率会随着节点数量的减少而呈指数增长。 在 GaussDB(for MySQL) 中,咱们针对日志和数据采纳不同正本策略,并采纳一种新鲜的复原算法,来解决可用性的问题。 上面首先介绍写门路,而后介绍读门路,最初剖析实践上的可用性预计,并与其它正本策略进行比拟。 写门路 写门路如上图所示,上面对每一个步骤进行阐明。 1)用户事务导致对数据库页面的更改,从而生成形容更改的日志记录(redo log,上面简称 redo)。 2)将 redo 写入到 Log Stores。写入 3 份正本,并且采纳强一致性,即 3 份均写入胜利才算胜利。 3)将事务标记为已提交(committed)。 只有集群中有三个或以上的 Log Stores 可用,该数据库就能够进行写操作(因为写入只须要抉择可用的节点即可,并不规定肯定要写入某个节点)。对于成千上万个节点的群集,这实际上意味着 100% 的写入可用性。 4)redo 写入 Log Stores 之后,会将此 redo 放入到 SAL 的 write buffer 中,之后将此 buffer 写入到治理对应 slice 的 Page Store 上。 5)当任何一个 Page Store 正本返回胜利,此写入胜利,SAL 的 write buffer 被开释。 6)不同的 Page Store 正本之间应用 gossip 协定检测和修复缺失的日志。 ...

August 6, 2020 · 2 min · jiezi

关于数据:详解GaussDBfor-MySQL服务复制策略与可用性分析

摘要:本文通过介绍GaussDB(for MySQL)读写门路,剖析其可用性。简介数据持久性和服务可用性是数据库服务的要害特色。 在实践中,通常认为领有 3 份数据正本,就足以保障持久性。 然而 3 份正本,对于可用性的要求是不够的。保护 3 份统一的正本意味着,这些正本必须同时在线,零碎能力保障可用。当数据库跨多个节点分片时,某些节点不可用的概率会随着节点数量的减少而呈指数增长。 在 GaussDB(for MySQL) 中,咱们针对日志和数据采纳不同正本策略,并采纳一种新鲜的复原算法,来解决可用性的问题。 上面首先介绍写门路,而后介绍读门路,最初剖析实践上的可用性预计,并与其它正本策略进行比拟。 写门路 写门路如上图所示,上面对每一个步骤进行阐明。 1)用户事务导致对数据库页面的更改,从而生成形容更改的日志记录(redo log,上面简称 redo)。 2)将 redo 写入到 Log Stores。写入 3 份正本,并且采纳强一致性,即 3 份均写入胜利才算胜利。 3)将事务标记为已提交(committed)。 只有集群中有三个或以上的 Log Stores 可用,该数据库就能够进行写操作(因为写入只须要抉择可用的节点即可,并不规定肯定要写入某个节点)。对于成千上万个节点的群集,这实际上意味着 100% 的写入可用性。 4)redo 写入 Log Stores 之后,会将此 redo 放入到 SAL 的 write buffer 中,之后将此 buffer 写入到治理对应 slice 的 Page Store 上。 5)当任何一个 Page Store 正本返回胜利,此写入胜利,SAL 的 write buffer 被开释。 6)不同的 Page Store 正本之间应用 gossip 协定检测和修复缺失的日志。 ...

August 6, 2020 · 2 min · jiezi

关于数据:充分释放数据价值安全可信6到飞起

摘要:华为云基于行业中可信合作的通用诉求,汇合华为云区块链,大数据,平安等多维度技术及能力为搭档提供了三大解决方案。随着数字化过程减速,企业和企业之间、企业和政府之间数字化单干的诉求越来越强烈。 企业基于政府数据能够为社会和客户提供更高效,更精准的服务,政府基于企业数据能够实现通明监管,精准施策。企业之间的数据共享能够为其市场拓展,联结营销提供无力帮忙。 数据正逐渐成为数字经济新的重要的生产因素,如何打造数据可信共享单干的基础设施,爱护数据隐衷,实现数据流动,充沛开释数据价值正逐渐成为各行各业面临的重要问题。 华为云基于行业中可信合作的通用诉求,汇合华为云区块链,大数据,平安等多维度技术及能力为搭档提供了三大解决方案。 数据可信共享解决方案面对数据单干中的数据确权难,数据隐衷爱护难,共享替换效率低,难追溯难审计等痛点问题,华为云推出数据可信共享解决方案,基于区块链等技术来实现共享前数据公布,共享过程中申请受权,以及数据共享实现后评估等动作的可信追溯和记录,利用ROMA来实现利用集成和数据高效共享。 该解决方案能够反对政务部门间的数据高效共享,买通各部门数据孤岛,实现数字化办公,晋升办事效率。同时反对企业之前的数据共享,在数据归属明确的前提下实现数据共享,替换,利用数据实现资产变现。 区块链可信多方平安计算解决方案随着数字化信息化技术的倒退,各行各业积攒了大量数据,维度各不相同,如集体相干的数据包含出行,饮食、购物、旅行、购物、就医等数据,这些数据综合起来能够多维度立体化的对个体进行剖析,建模和预测,预测的后果有助于企业实现精准营销,有助于医疗机构精准医治,有助于政府精准施策。 然而某些数据能够间接共享,某些数据却有较高的隐衷爱护诉求,难以实现共享和计算,华为云面对行业中数据单干中隐衷爱护等痛点,推出区块链可信多方平安计算解决方案,利用区块链、TEE、大数据、平安等技术,实现数据的可用不可见,让加密数据在可信执行环境中进行联结计算和剖析,计算实现后销毁数据,并把后果同步给应用方。应用区块链和智能合约实现整个计算过程的节点注册、过程调度、数据结算、数据评估,在爱护隐衷前提促成数据流动,晋升数据价值。 区块链分布式身份治理解决方案随着社会分工越来越细,合作场景也越来越丰盛,一个非常简单的业务场景可能须要几个甚至十几个部门的合作和参加,比方百姓日常生活中的购房、待业、就医、贷款等须要波及到金融机构、医疗机构、教育机构、房管部门等独特合作,互相证实能力实现整个业务流。 以后多方合作次要面临几大痛点: 1、 数据割裂导致信用无奈传递,泛滥环节须要传递纸质证实,办事效率低。 2、 隐衷爱护差,证实的传递根本是公开通明走漏给相干机构。 3、 实时性差,数据不实时,技术架构无奈获取及时数据。 4、 容易造假,社会存在开局假流水,假证实的非法机构。 5、 百姓办事老本高,一个证可能须要在工作工夫找多个机构开局。 华为云基于行业可信合作诉求,联合区块链技术推出区块链分布式身份治理解决方案,合乎W3C DID 和VC规范,为商业体可信合作提供基础设施,缩小信赖和证实老本,实现价值传递,晋升端到端合作效。 三大解决方案赋能多方数据合作场景 助力行业开释数据价值区块链可信多方平安计算解决方案能够赋能在多方数据合作的场景中,包含联结营销,联结风控,联结剖析。 以信贷场景为例,贷款方心愿可能更快更多的获取贷款额度,放贷机构心愿对贷款对象危险有更加精确的判断,数据提供机构和贷款方、放贷机构均不心愿隐衷数据受到泄露,心愿在数据裸露最小范畴内胜利放贷,而三方征信机构须要取得足够广范畴内贷款企业在各放贷机构的贷款数据、黑名单数据和征税数据等来来进步危险剖析的准确性。 联合可信多方平安计算、分布式身份治理能够很好解决此类问题,贷款方,金融机构等构建联盟链,实现目录等根底数据的治理和共享,利用平安计算能力将多方数据进行联结剖析,联结计算,爱护隐衷前提下进行数据单干,辨认金融风险。其次通过分布式身份治理能力能够对个体进行多维度立体式的描述,如学历、征信、支出、职业、资产,为金融判断提供多维度的证实和素材。 在医保赔付场景中,该计划也能施展较大作用,传统的医保赔付工夫长,效率低,实时性差,还存在骗保的危险,患者在入院后找医疗机构开证实到医保机构报销,整个过程漫长而苦楚,不仅繁琐,而且还存在失落证实无奈报销的危险。商业保险机构在行业中也有痛点,比方无奈无效的辨认危险人员和骗保人员。 面对如何精准辨认被保险人员的问题,应用多方数据安全计算智慧的解决该问题,通过对被保险人各维度的数据进行联结剖析和计算,能够准确辨认对象的满足度,比方依据各医疗机构的对个体的医治数据能够判断其在某方面发病的概率。 在赔付场景中能够用分布式身份治理进行可信证实,比方在理赔中应用医疗机构的VC证实能够高效实现整个业务流,该证实即便业界标准模板,也是证实颁发方无奈抵赖的,应用该形式能够高效的实现信用传递,缩小沟通和证实老本,从原来几天十几天实现的业务流缩小到小时级别。 将来,华为云将继续翻新,不断加强关键技术与产品研发,为客户提供平安可信计算云产品,赋能千行百业的数字化过程。 点击关注,第一工夫理解华为云陈腐技术~

August 6, 2020 · 1 min · jiezi

关于数据:ShardingSphere-4x-ShardingProxy-用户手册

简介Sharding-Proxy是ShardingSphere的第二个产品。它定位为透明化的数据库代理端,提供封装了数据库二进制协定的服务端版本,用于实现对异构语言的反对。目前先提供MySQL/PostgreSQL版本,它能够应用任何兼容MySQL/PostgreSQL协定的拜访客户端(如:MySQL Command Client, MySQL Workbench, Navicat等)操作数据,对DBA更加敌对。 向应用程序齐全通明,可间接当做MySQL/PostgreSQL应用。实用于任何兼容MySQL/PostgreSQL协定的的客户端。 比照 Sharding-JDBCSharding-ProxySharding-Sidecar数据库任意MySQL/PostgreSQLMySQL/PostgreSQL连贯耗费数高低高异构语言仅Java任意任意性能损耗低损耗略高损耗低无中心化是否是动态入口无有无Sharding-Proxy的劣势在于对异构语言的反对,以及为DBA提供可操作入口。

July 26, 2020 · 1 min · jiezi

关于数据:最全的百度网盘搜索引擎

1.易查搜寻(https://so.acurd.com/)举荐指数 *+ 资源聚合做的比拟好的一个网站,也是最罕用的一个网站,据up主说有脚本会定时检测每个搜索引擎,不通的或者服务器挂的搜索引擎会主动下架,保障了高可用,这里感激一下作者的良苦用心,加油!! 2.虫部落(http://magnet.chongbuluo.com/)举荐指数 * 和top1有一部分重合,能够解决你的大部分搜寻需要,但也正因为太多了,所以有点参差不齐。 3.云盘精灵(https://www.yunpanjingling.com/)举荐指数 ** 因为是付费的,所以资源较多,而且都比拟新,可能搜到大多数你想要的资源,举荐。 3.小可搜搜(https://www.xiaokesoso.com/) 举荐指数 * 资源较多,而且收费,只不过每天限次数,可联合云盘精灵应用,举荐。 4.史莱姆搜寻(http://www.slimego.cn/) 举荐指数 *-搜寻成果挺不错的,不过还是倡议先应用云盘精灵和小可搜搜试试,这几个联合应用最佳。 5.其余 因为下面几个网站根本能弄到想要的资源,所以其余的没怎么用。另外,网盘搜寻配合google搜寻技巧应用成果更佳(比方搜寻电子书一类的货色)。google搜索引擎应用办法参考https://m.acurd.com/home/share/info/catId/23/id/1bc2h1oi77.html 更多内容请拜访爱蜜桃

July 24, 2020 · 1 min · jiezi

关于数据:电信公司churn数据客户流失-k近邻knn模型预测分析

原文链接:http://tecdat.cn/?p=5521Data backgroundA telephone company is interested in determining which customer characteristics are useful for predicting churn, customers who will leave their service.  The data set  is Churn . The fields are as follows: State  discrete. account length  continuous. area code  continuous. phone number  discrete. international plan  discrete. voice mail plan  discrete. number vmail messages  continuous. total day minutes  continuous. total day calls  continuous. total day charge ...

July 20, 2020 · 6 min · jiezi

关于数据:特朗普社交数据舆情分析

原文:http://tecdat.cn/?p=4156 社会化媒体的倒退,吸引越来越多的眼光,在这个时代社会化媒体,用户成为最优良的企业品牌形象大使。潜在为了理解消费者的志愿,专门开发的折扣打算和优惠券为客户的每个客户的肖像,以推动客户通过语义剖析零碎的剖析倒退中产生。tecdat舆情剖析零碎基于 Hadoop 平台的文本剖析,优化剖析能力,提供疾速迅捷的查问和剖析。 数据分析逻辑微博是古代网络社会沟通的重要工具 。然而,这些信息往往不能针对每个用户的爱好来公布,相似于播送一样,每一条微博是否对每个粉丝(用户)有意义,须要用户本人来过滤。 但实际上,粉丝本身公布的微博含有大量的数据信息,这些信息蕴含用户的个人爱好,本人年龄阶段,近期的想购买的样式,甚至是本人心愿有的样式与性能等。这些数据大多数为非构造数据。 营销剖析逻辑流程 计划架构 平台的文本剖析 特朗普推文舆情剖析 :最近,多纳特·特朗普变得有争议。他挑衅性呐喊临时禁止穆斯林进入美国,面临强烈的批评。社交媒体剖析的许多用处中的一些是情绪剖析,咱们评估特定问题的帖子是踊跃还是消极。咱们把社交媒体剖析、机器学习、预测建模等集成到文本数据挖掘中。 在这篇文章中,咱们开掘tweets并剖析它们的情绪并且可视化咱们的后果。咱们将看到tweets,城市和状态的空间 – 工夫散布与最热门的tweets,咱们还将开掘tweets的情绪,帮忙咱们看到哪些评论被认为是踊跃的,哪些是负面的。 首先,让咱们创立一个tweet的词云。 词云帮忙咱们可视化tweet中最常见的词: 咱们从云中看到,tweet中最罕用的词是’muslim’,’muslims’,’ban’。 这表明大多数推文是对于特朗普最近的想法,临时禁止穆斯林进入美国。 上面的信息中心显示了所抓取的tweets数量的工夫序列。 咱们能够在小时和天之间更改工夫单位。 随时间推移的推文数量模式有助于咱们深刻理解每个流动的感知变动形式。 获取tweet的地址。 上面的地图显示了我能够绘制tweets大小与每个tweet取得的转发数量成正比。 相似地,上面的仪表板显示了tweets,大小与每个tweet被转发的次数成正比。 在以下三个可视化中,显示了邮政编码、城市和州的推文数量。 在互动地图中,咱们能够通过应用每个viz中显示的滚动条来更改要显示的邮政编码、城市和州的数量。 这些可视化帮忙咱们按邮政编码,城市和州查看tweet的散布。 情绪剖析具备很多的用处。 例如,公司能够考察客户最喜爱公司产品的哪些方面,以及客户不称心的问题是什么? 当公司公布新产品时,产品是否被侧面或负面情绪? 客户的情绪如何随工夫和空间而变动? 在这篇文章中,咱们评估唐纳德·特朗普的tweets的情绪。 上面的图显示了按天文编码分类的tweet的情绪分数。 咱们看到推文在NY、NC和Tx有最高的侧面情绪。 咱们应用了来自蕴含唐纳德·特朗普的最近的tweets, 发现一些国家体现出强烈的积极情绪。 然而,在统计学上,为了得出牢靠的论断,开掘足够大的样本数据是重要的。 咱们的情绪剖析的准确性取决于tweets中的词语是否被包含在词典中。 此外,因为tweet可能蕴含俚语,行话和词典,可能不包含在词典中,情感剖析须要认真评估。

July 20, 2020 · 1 min · jiezi