关于大数据处理:从繁琐到一键直达秒验助力实现优化用户登录体验

随着互联网服务和通信技术的一直倒退,一键登录现在正成为越来越多挪动利用的首选,正逐步笼罩到人们越来越多的日常利用场景之中。秒验是Mobtech推出的一款一键登录开发者服务工具,通过其高效,稳固,便捷,平安的一键登录服务,极大的优化了新老用户注册登录时的应用体验。  1、秒验是如何实现一键登录的 首先,利用开发者通过在APP中集成Mob秒验SDK,这样当用户申请登录时,通过用户受权获取手机号码信息后,秒验SDK将主动通过与手机运营商的通信获取用户设施以后的手机号码,随后依据该手机号码秒验SDK将会为APP客户端提供一个接口调用令牌(token),并将该令牌传递给服务器,从而推动应用服务器能够向认证服务端发送申请,从而使认证服务器取得手机号码等信息,并进行核验,核验无误即可实现一键登录。通过秒验,用户将领会到更加快捷,高效,平安的注册,登录体验,而着对各大平台拉新促活具备极为重要的意义。  2、秒验笼罩多样的利用场景 秒验提供的一键登录服务正在越来越多的畛域失去广泛应用,对于那些平安要求高,同时时效性强须要用户重复查看的APP而言一键登录必不可少。  以社交媒体为例,局部用户出于工作须要,应用双卡双待的设施从而领有两个不同的账号,此时出于用户隐衷爱护和账号安全性的思考,大部分利用会要求切换账号需从新登陆。此时在利用场景中须要来回切换登陆,如果应用验证码登陆,则很容易分不清验证码到底是发给双卡中哪一个手机号的账号上,在这个场景中,秒验只须要在设施治理中选取哪张卡为流量卡,秒验将依据提供流量的卡作为一键登录的账号,从而实现不同账号登陆的无缝切换。  在电子商务利用中,为了爱护用户的资金平安,往往在后盾退出后须要从新登陆,此时假使登陆的流程过于繁琐,简单,给用户造成了不好的应用体验,则容易引发用户焦躁和恶感,失去持续购买的趣味和志愿,从而最终影响到用户的成交转化率。为此,秒验的一键登录技术提供了更迅速、更不便的登录形式,从而更多的用户订单发明了必要条件。  金融服务利用波及到用户的敏感数据和交易信息,但同时例如股价,成交额等信息时效性极强,须要重复关上,此时会常常会呈现须要重复登陆的状况。因而安全性是首要思考因素。秒验基于芯片和PKI非对称加密算法,能够无效避免短信嗅探、伪造、篡改等攻打伎俩,实现了与运营商之间的通信全程加密,保障了用户平安登录。  总之,秒验提供的一键登录服务将随着通信技术的不断进步,为越来越多的挪动利用开发者和利用用户发明更加良好的体验。

September 26, 2023 · 1 min · jiezi

关于大数据处理:深入MaxCompute-第十弹-IF-ELSE分支语句

简介:  MaxCompute通过脚本模式反对IF ELSE分支语句,让程序依据条件主动抉择执行逻辑,反对更好的解决因数据不同而须要采纳不同策略的业务场景产生的简单SQL,进步开发者编程的灵活性! MaxCompute(原ODPS)是阿里云自主研发的具备业界领先水平的分布式大数据处理平台, 尤其在团体外部失去广泛应用,撑持了多个 BU 的外围业务。MaxCompute 除了继续优化性能外,也致力于晋升 SQL 语言的用户体验和表达能力,进步宽广 MaxCompute 开发者的生产力。 MaxCompute 基于 MaxCompute2.0 新一代的 SQL 引擎,显著晋升了 SQL 语言编译过程的易用性与语言的表达能力。咱们在此推出深刻 MaxCompute 系列文章 第一弹 - 善用MaxCompute编译器的谬误和正告 第二弹 - 新的根本数据类型与内建函数 第三弹 - 简单类型 第四弹 - CTE,VALUES,SEMIJOIN 第五弹 - SELECT TRANSFORM 第六弹 - User Defined Type 第七弹 - Grouping Set, Cube and Rollup 第八弹 - 动静类型函数 第九弹 - 脚本模式与参数视图 上一篇介绍了脚本模式,能够理解到脚本模式执行时是作为一个整体进行编译、提交,生成一个执行打算实现一次排队一次执行可充分利用资源,这个过程能够看到残缺的执行打算给开发者提供更多的优化机会, 且书写天然对习惯用一般编程语言形式书写的开发者更敌对。 更重要的是脚本模式反对IF ELSE分支语句,能够让程序依据条件主动抉择执行逻辑。如脚本须要可能依照日期单双号抉择不同的逻辑;脚本可能依据一个TABLE的行数采取不同的策略等业务场景,这个个性就能够很好的解决这类业务场景产生的简单SQL,给了SQL开发者更多的操作空间。 本文中有例子采纳MaxCompute Studio作展现,装置MaxCompute Studio的能够参照装置MaxCompute Studio相干文档进行装置并应用。IF ELSE分支语句语法格局 Max Compute的IF语法有以下几种:IF (condition) BEGIN statement 1 statement 2 ...ENDIF (condition) BEGIN statementsEND ELSE IF (condition2) BEGIN statementsEND ELSE BEGIN statementsEND留神: ...

August 31, 2023 · 2 min · jiezi

关于大数据处理:毕业设计广告推荐系统一

写在后面先就不写了。 工作介绍本次工作:是依据淘宝广告展现和用户点击行为的数据集,去做的一个广告举荐零碎。达到的目标:给咱们一个用户的id,咱们的举荐零碎就返回用户最可能返回的10个广告回来。ps:这个工作看似简略,然而有一个实时举荐的问题,零碎须要依据之前的用户点击后果,对召回的广告进行动静调整,从而更新举荐列表。(召回(match)”指从全量信息汇合中触发尽可能多的正确后果,并将后果返回给“排序“)数据集介绍3.1原始样本骨架raw_sample这个是从淘宝网站中随机抽样了114万用户8天内的广告展现/点击日志(2600万条记录),形成原始的样本骨架。 字段阐明如下:(脱敏指:对敏感数据进行解决,个人隐私等敏感信息) user_id:脱敏后的用户idadgroup_id:脱敏后的广告idtime_stamp:工夫戳pid:position_id,广告展现的地位,左上右下等。noclk:没有点击1,点击0clk:用户点击1,没点0对这个零碎,咱们转换为一个点击率预测的问题,最初把点击率从大到小排序,靠前的举荐给用户就行了。为什么给了clk和noclk?首先这是反馈真实情况的日志,其次,如果只存点击的话,就不知道到底曝光了多少广告给用户,因为没曝光和曝光都能够是不点。所以要两者联合起来才行。那么仅仅利用以上数据集间接训练,十分可能是训练不准的,所以还要依附其余数据集。 3.2广告根本信息表ad_feature本数据集涵盖了raw_sample中全副广告的根本信息(约80万条目)。字段阐明如下: adgroup_id:脱敏后的广告idcate_id:广告品种idcampaign_id:广告打算id,某种策略(比方那种领优惠券便宜一点,给了一点转卖商,一点儿给用户,起到加大宣传的作用)brand_id:广告品牌price:宝贝的价格一个广告对应一个宝贝没话说嘛。 3.3 用户根本信息表user_profile本数据集涵盖了raw_sample中全副用户的根本信息(约100多万用户)。字段阐明如下: user_id:用户idcms_segid:微群ID;cms_group_id:cms_group_id;final_gender_code:性别 1:男,2:女;age_level:年龄档次; 1234pvalue_level:生产品位,1:低档,2:中档,3:低档;shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户(天天买)occupation:是否大学生 ,1:是,0:否new_user_class_level:城市层级这个数据集是较量的数据集,数据特色人家的做了肯定的荡涤了的,并且做了相干的labelencoder编码,省去了一些工作,然而咱们实在场景还是要做这些。有了用户点击广告日志的根本骨架,在加上用户根本信息,广告根本信息,实践上咱们就能够去训练模型进行预测了。然而有一个问题,数据集又是几百万几千万,比方间接逻辑回归进行训练的话,大部分广告和用户不沾边,而且计算量不得了,只会白白浪费工夫。 所以咱们第一步,先召回,和用户相干的广告。而后再去训练模型,再排序做一个举荐。那怎么召回呢?果然有一个行为日志的数据集! 3.4 用户的行为日志behavior_log本数据集涵盖了raw_sample中全副用户22天内的购物行为(共七亿条记录)。字段阐明如下:和下面的骨架数据集不同的是,下面是广告展现进去受否点击,这里是用户珍藏购买的日志。 user:用户idtime_stamp:工夫戳;btag:行为类型, 包含以下四种: 类型 | 阐明 pv | 浏览 cart | 退出购物车 fav | 喜爱 buy | 购买cate_id:脱敏过的商品类目id;brand_id: 脱敏过的品牌id;这份数据体现用户对商品类目(id)、品牌(id)的浏览、加购物车、珍藏、购买等信息,有了这个表,其实咱们就能够在排序之前,先做一些召回的工作了。 首先就是这里的用户行为类型,这里是实在的浏览,退出购物车,喜爱和购买这样的记录,而咱们如果想拿这份数据召回,比方基于协同过滤的话,咱们须要把这四种行为转换成评分,这样计算机能力认得,比方浏览给1分, 退出购物车。而后召回出和用户相干的品牌,广告啊,而不是最初的点击率。 有用户id, 又有cat_id和评分数据, 咱们其实就能够利用简略的协同过滤先做一波召回, 找到候选商品, 再映射出候选广告。 而后在思考精排,来一个精准预测。举荐业务解决次要流程: 召回 ===> 排序 ===> 举荐。而后用到了大数据平台,用一张图来示意就是:而后咱们大数据平台,就分为离线和实时两个局部解决业务流。 离线业务流先解决用户的历史行为数据, 而后失去评分数据, 而后基于协同过滤进行召回失去候选的商品类别, 而后再去关联广告,失去候选的广告。相当于做了一个粗略召回。在线解决业务流所以在线更新的思路就是基于用户新的购买日志或者记录来更新召回的商品类别或者品牌,而后映射出新的候选广告,因为之前缓存了广告的特色和用户特色, 所以基于这些又此造成新的数据对模型测试,而后失去点击的广告概率,排序产生新的后果。这里曾经把根本的业务流梳理分明了, 上面就简略看一下波及到的技术了,因为是在大数据平台上,所以用到的大部分都是大数据平台相干技术。波及技术:Flume、Kafka、Spark-streming\HDFS、Spark SQL、Spark ML、Redis。 Flume:日志数据收集Kafka:实时日志数据处理队列HDFS:存储数据Spark SQL:离线解决Spark ML:模型训练Redis:缓存5. 波及到点击率预测的几个相干概念5.1 点击率预测 VS 举荐算法点击率预测须要给出精准的点击概率,比方广告A点击率0.5%、广告B的点击率0.12%等;而举荐算法很多时候只须要得出一个最优的秩序A>B>C即可。 点击率预测应用的算法通常是如逻辑回归(Logic Regression)这样的机器学习算法,而举荐算法则是一些基于协同过滤举荐、基于内容的举荐等思维实现的算法 5.2 点击率 VS 转化率点击率预测是对每次广告的点击状况做出预测,能够断定这次为点击或不点击,也能够给出点击或不点击的概率 转化率指的是从状态A进入到状态B的概率,从达到网站到达成交易。 5.3 搜寻和非搜寻广告点击率预测的区别搜寻中有很强的搜寻信号-“查问词(Query)”,查问词和广告内容的匹配水平很大水平影响了点击概率,搜寻广告的点击率广泛较高 ...

June 12, 2023 · 1 min · jiezi

关于大数据处理:获奖案例巡展信创先锋之星中信证券基于国产图数据库构建企业图谱的应用实践

为表彰应用大数据、人工智能等根底软件为企业、行业或世界做出杰出贡献和微小翻新的标杆我的项目,星环科技自2021年推出了“新科技 星力量” 星环科技科技实际案例评选活动,旨在为各行业提供更多的优良产品案例,彰显技术扭转世界的力量,目前已胜利举办两届,收到了来自各界的积极参与。 第二届星环科技科技实际案例评选活动新增了“年度信创先锋之星”,通过产业界、学术界专家联结评审,最终评比出了“年度信创先锋之星”、“年度科技向善之星”、年度价值奉献之星”、“年度科技前沿之星”、“年度技术革新之星”五大奖项,并特此进行案例巡展。 本期巡展案例为取得第二届“新科技 星力量” 星环科技科技实际案例评选活动“年度信创先锋之星”的中信证券股份有限公司”基于国产图数据库构建企业图谱的利用实际”。 案例背景 中信证券股份有限公司于2021年启动国产图数据库我的项目。我的项目发展之前,中信证券已基于支流的Neo4j开源产品构建了企业图谱及相干利用,然而随着利用的宽泛深刻,Neo4j开源产品也遇到了不少难题,包含只能部署成单实例,不能做集群;社区开源版本最多用到 4个内核,计算能力无限;没有对立资源管理和权限治理等。随着国产图数据库越来越成熟,大型银行已宽泛布局国产图数据库。中信证券基于星环科技分布式图数据库StellarDB和常识图谱平台Sophon KG常识图谱重构了企业图谱及相干利用,满足了企业级的零碎建设须要,实现了分布式集群治理,对立的资源隔离与权限治理,计算性能的优化晋升,以及丰盛的可视化成果等。 解决方案 基于星环科技StellarDB和Sophon KG重构了企业图谱及相干利用,该零碎架构取代了依赖py2neo第三方插件的数据处理框架,应用星环科技大数据开发工具TDS产品,实现数据处理和调度的对立治理,将数据存储到大数据组件hive中,实现了历史数据的数据迁徙,也安顿了全量和增量的抽取调度工作。首日迁徙时应用全量调度工作,平时依照增量调度。 依靠弱小的组件技术,图谱管理系统领有对立的集群运维治理,以及对立的资源隔离与权限治理。零碎的底层为一个多模的数据处理平台,该平台能够提供对立的数据操作、查询语言 SQL、对立的数据计算引擎、对立的分布式存储管理零碎及对立的资源管理框架,满足利用一个多模异构平台解决多种数据的需要。StellarDB图数据库构建在这个数据处理平台之上。其图存储技术为自研KV存储,存储设计依照属性图模型设计。StellarDB满足TB级存储需要。存储依照点边主键进行哈希分区,使图平衡的分到集群的各个节点上。图计算技术为自主研发的分布式计算引擎Nucleon,计算引擎能依据不同的存储引擎主动匹配高性能算法,无需用户手工干涉,从而便捷地实现跨库关联,防止数据导入导出。在图数据库服务的顶层,还提供了丰盛的接口,如Java、Python、RESTful API等,不便自定义开发。 在StellarDB下层,基于Sophon KG构建企业图谱及相干利用。Sophon KG具备图谱公布、图谱查问,以及图谱分享等基本功能,同时还能不便地反对各类业务利用,提供丰盛的交互剖析性能。开发了图计算服务,以及关联企业数据查问等多种应用服务,并公布了对应的API接口,供给用方进行调用。基于利用平安思考,采纳post形式提供接口,并赋予每个业务部门一个拜访ID。 最上层的利用方包含团体客户画像、危险事件报告、科创板关联发现以及联机剖析等。团体客户画像在公司内有宽泛的利用,包含团体客户对公司的奉献价值,各业务收入和笼罩状况,满足人民银行对金融控股公司报送需要,以及同一客户授信等;危险事件报告联合危险舆情事件,主动触发相干剖析报告,提供关联公司和关联标的持仓等影响剖析;科创板关联发现旨在查找融券客户与策略投资者之间是否有利益关系,属于一种多层模式匹配剖析。此外,零碎还反对多用户的联机查问剖析,业务用户能够在线进行案例剖析及分享等。 案例施行功效 通过星环科技StellarDB和Sophon KG,中信证券打造了全新的企业图谱管理系统,实现了一站式的运维治理、调度治理和权限治理等,在局部利用成果中相比neo4j社区版性能有了较大晋升,并在业务易用性方面也有了长足进步,具体如下: 架构晋升方面:实现了软硬件国产化代替Linux服务器;依靠StellarDB实现了分布式集群,一站式图谱治理,代替了单机分利用部署;依附星环科技弱小的组件技术,实现了便捷的管理工具(监控+权限),代替了无对立监控运维管理工具;该零碎架构取代了依赖py2neo第三方插件的数据处理框架,应用星环科技TDS实现数据处理和调度的对立治理;实现了对立的api接口治理,代替了接口未封装的状况。性能优化方面:在团体派别算法利用上,该算法从单机运行模式到分布式运行模式,由原来的2小时左右,晋升到30分钟左右;科创板关联发现利用方面,由原来的1.5 s晋升到0.8 s。业务易用方面:提供了丰盛的可视化成果,实现了多种前端布局;实现了iframe嵌入其余业务零碎成果;扭转了neo4j社区办上繁多弹力求展现,须要独立开发展示的场面;星环科技也提供了全天候暖心服务+定制开发,扭转了高度依赖社区的场面。案例翻新点 国产代替方面,作为国内券商首批引入国产图谱厂商构建常识图谱中台的案例,在与国产服务器、国产操作系统适配等方面获得了较多的实践经验,对券商行业构建具备自主可控能力的图谱中台具备示范效应。

April 19, 2023 · 1 min · jiezi

关于大数据处理:内蒙农信携手星环科技建设农信大数据平台激活金融业务创新

背景 内蒙古自治区农村信用社联合社(简称“内蒙农信”)通过多年的信息化建设,目前投产应用的信息化零碎近100套,产生了大量的数据。该社于2019年采纳MPP架构的分布式数据库,实现了40多套业务零碎数据的归集、标准化解决。近年来大数据技术与金融业务深度交融,开释出金融翻新生机和利用潜能。2021年该社启动了大数据平台我的项目,与星环科技单干,通过一年多的致力,在金融云上部署了20个节点的大数据处理集群。 在星环科技大数据根底平台TDH的赋能下,内蒙农信晋升了多元异构数据整合能力,补救了实时数据处理、内部数据处理能力的有余,加大了数据辅助决策的力度,同时,通过客户画像,加强了客户辨认、营销、剖析的能力,为业务倒退提供了数据撑持。本次我的项目建设也在业内翻新地开发了线上一体化数据全流程解决产品,让数据处理不再是一个黑匣子,进步了数据应用的效率,为该社将来数字化转型、金融数据变现奠定了松软的技术底座。 案例概述 内蒙农信在大数据平台的建设过程中,融入了互联网的先进技术,同时也借鉴了同业的最佳实际。基于大数据处理技术,内蒙农信联结星环科技构建了基于金融云部署的大数据平台,依靠大数据平台,建设了对立数据门户,实现了信用社内外结构化、半结构化和非结构化数据的实时采集、实时计算、归档和标准化解决,满足了上游零碎数据须要以及实时查问和计算的需要。 建设内蒙农信对立数据门户,蕴含内部数据管理、数据服务、客户标签治理、数据订阅与查问、实时计算、数据模型治理、指标治理及对立登录与对立权限治理性能共七个子系统,实现数据的公布、订阅和查找、数据模型、指标库和数据标签的治理、展现与保护,明细数据的查问与导出,便于数据管理和保护。 解决难点 多元异构数据的整合解决,业务办理人员获取数据的及时性、有效性等始终是业内关注的焦点。内蒙农信通过建设大数据平台,解决了行内外结构化、半结构化和非结构化数据的整合,同时实现了数据的实时采集和计算,为理论业务提供了强有力的数据撑持,进步业务的及时性和有效性。通过大数据平台建设,夯实了内蒙农信数据外围平台的技术底座,能够反对将来危险防控、精准营销、实时数据大屏等利用场景,同时将外围业务零碎、农信银等业务零碎的数据查问压力迁徙至大数据平台,为业务零碎减负。 通过大数据平台建设,内蒙农信欠缺了数据体系架构,减速数据资源的开发利用。我的项目构建了对立的数据门户,实现了数据的一体化线上治理,包含数据公布、订阅和查找,数据模型、指标库和数据标签的治理、展现与保护、历史明细数据的查问与导出等。 如何依靠大数据平台,继续向外提供数据服务?数据服务性能实现对数据服务的对立定义与治理,实现数据服务的对立输入,并实现利用零碎应用数据服务接口的权限的对立治理。我的项目实现的数据服务API接口能够实现三个方面的数据服务:内蒙农信目前运行的历史数据查问平台的数据服务接口性能;对已接入内部数据的实时查问服务;客户标签实时查问服务。 翻新亮点 数据全流程线上化从数据采集、数据建模、数据开发到数据服务全副实现线上化。通过批量采集、日志采集、实时采集等形式将数据采集到TDH大数据根底平台,依据数据模型治理功能模块制订的规范模型进行数据建模,线上开发实现数据的加工解决,接口数据服务和文件数据服务为法人机构和上游零碎提供数据撑持,数据订阅和查问晋升了数据的应用效率。 实时服务的数字化响应能力传统的批量数据处理流程已无奈满足业务倒退须要,大数据平台引进互联网实时数据处理的先进技术,构建了一套从数据采集、计算到提供服务的残缺实时数据处理链路。通过实时计算平台,监控客户实时大额动账交易,可能让网点客户经理及时觉察客户大额资金动向,无效挽留潜在客户散失,同时,也能够揭示客户防止蒙受网络、电信欺骗等带来的资金损失。 多样化的数据服务能力撑持大数据平台提供多种数据服务撑持业务零碎及法人机构的数据需要,包含以数据订阅的形式撑持批量文件下发,以API的形式撑持实时数据的查问,API反对数据API、文件API、注册API以及聚合API等多种形式,满足不同业务场景的应用需要。 基于微服务的数据产品大数据平台数据全流程实现线上化,采纳多个数据产品,包含数据服务治理、数据模型治理、客户标签治理、数据订阅与查问、指标治理、内部数据管理、实时计算平台等,所有的数据产品都是基于微服务进行设计和研发,实现容器化部署,齐全基于国产化服务器和操作系统部署。 利用落地 通过大数据平台的建设,从数据的采集到给利用零碎提供数据服务,整个数据处理链路实现了数据全流程可视化治理,整个数据生命周期对于科技人员都是可见、可治理、可操作的。同时,通过血统剖析性能,每一项数据的加工过程都能够追溯。 依照业务倒退须要,大数据平台联合MPP架构数据库和基于Hadoop框架的分布式大数据处理组件,整合了批量数据、实时数据、结构化和半/非结构化数据,通过内部数据管理平台接入了业务所需的内部数据,欠缺了数据起源。建设对立数据门户,实现了业务数据的全量因素集中与实时反馈。夯实了数据根底底座,丰盛了数据处理能力,晋升了数据服务业务的效率。 基于大数据处理技术,构建了实时计算平台,实现了实时数据采集、实时计算与实时反馈;数据订阅与查问,充沛从数据使用者角度思考,实现数据的自助化订阅与查问;数据接口服务,满足不同数据接口应用场景,使数据的应用更加灵便高效;内部数据管理,对立的内部数据管理,为业务零碎提供丰盛的数据起源;数据模型治理,标准化的模型建设,为数据资产治理奠定了根底;指标治理,对每个指标做到精细化治理,包含指标的归属者和血统剖析;客户标签治理,通过客户标签治理,为精准营销提供无力的数据撑持。

April 19, 2023 · 1 min · jiezi

关于大数据处理:获奖案例巡展信创先锋之星浙江省某市区视频能力中心

为表彰应用大数据、人工智能等根底软件为企业、行业或世界做出杰出贡献和微小翻新的标杆我的项目,星环科技自2021年推出了“新科技 星力量” 星环科技科技实际案例评选活动,旨在为各行业提供更多的优良产品案例,彰显技术扭转世界的力量,目前已胜利举办两届,收到了来自各界的积极参与。第二届星环科技科技实际案例评选活动新增了“年度信创先锋之星”,通过产业界、学术界专家联结评审,最终评比出了“年度信创先锋之星”、“年度科技向善之星”、年度价值奉献之星”、“年度科技前沿之星”、“年度技术革新之星”五大奖项,并特此进行案例巡展。本期巡展案例为取得第二届“新科技 星力量” 星环科技科技实际案例评选活动“年度信创先锋之星”的浙江省某市区视频能力核心。 案例背景 依据浙江省、市数字化改革总体部署,依照“兼顾建设,分级部署”的准则,充分利用该市区数字化建设已有成绩,使用数据、云计算等新型技术,通过建设集算法中台、视频解析平台、业务场景利用、指标评估等于一体的视频算法服务组件,构建该市区视频能力核心,实现资源申请、资源分配、算法调度、视频剖析等性能,为全区视频剖析利用提供能力撑持。 通过星环科技一站式模型生产利用平台 Sophon AutoCV及云原生操作系统TCOS适配国产化硬件设施根底上提供GIS地图展现、事件监控、算法监控、集群监控、算法仓库、设施治理、场景规定构建、场景规定利用、事件治理及智能调度功能模块。目前国家在数据安全畛域越来越器重,在政府、军队等要害畛域要求全面信创,解决卡脖子问题,在这一背景下,首先是硬件全面国产化,其次是基于硬件开发和部署的软件系统要求全面国产化。 解决方案 总体架构浙江省某市区视频能力核心,利用算力资源池提供的计算资源和GPU服务资源进行部署,并通过对接现有的视频共享平台获取视频图像资源,实现资源申请、资源分配、算法调度、视频剖析等性能,为全区视频剖析利用提供能力撑持。 零碎组成零碎组成次要包含业务利用、算法中台、视频解析平台、数据库和算力资源池。 网络架构浙江省某市区视频能力核心设计部署在该市区视频专网的算力资源内,算力资源池间接与原有的视频资源共享平台的外围交换机连贯,实现视频资源的获取。该市区各部门通过防火墙与视频资源共享平台的外围交换机连贯,实现事件报警数据的获取。 分层设计依照数据解耦、架构分层的设计理念将该市区视频能力核心分为业务应用层、利用撑持层、数据资源层核基础设施层四层分层设计,对应总体架构图中的四大体系。 案例施行功效 我的项目以后已部署了机动车违停、河道检测、消防通道检测、行人入侵检测、行人汇集检测、车流量统计等AI场景。 平台赋能状况:视频能力核心在我的项目建设过程中,已实现了平台级对接与联调工作,以后平台中的城市治理类算法产生的告警信息,可间接推送给相干部门,造成从事件辨认、告警、推送、处理的整个业务通路的闭环。此外,以后视频能力核心也打算在后期针对河道漂浮物、消防通道占用两个业务场景,向相干部门提供相干事件告警能力;在将来,平台也会持续推动扩充视频能力的赋能规模。 组件上架:作为视频能力核心的平台外围性能,如各类事件的辨认、告警、推送及处理反馈等,已通过公共利用组件的模式上架到浙江省一体化数字资源零碎(IRS),动向单位可间接在IRS中浏览和申请调用组件,以最便捷的形式为该市区各局办单位进行赋能。 算法上架:针对其余算法提供商的算法上架,视频能力核心依据行业内所认可的容器化规范,向第三方算法厂商提供算法上架标准规范;只需依照该上架标准规范对算法进行打包,即可将算法一键导入平台,实现算法上架,体现了平台的通用能力和扩大能力。 通过驾驶舱大屏完整的展现了 : 集群资源的CPU、GPU、硬盘、内存使用率状况。针对事件监控模块告警事件可依据须要依照行政区域及工夫范畴筛选告警事件状况。针对算法监控模块完整展现了以后利用算法数量,AI能力总数,利用实例总数。能力利用模块滚动展现以后关联能力数量,关联设施数量下的施行AI场景及部署街道点位信息。事件实时告警模块实时滚动播放事件类型,告警工夫,处理单位,处理状态,且可通过查看详情完整的理解到具体的告警信息蕴含的告警视频,工夫,设施所属街道地位等。案例翻新点 国产代替:全面完成国产软硬件适配,基于鲲鹏CPU、昇腾加速卡的硬件与麒麟操作系统实现了整套解决方案的适配部署; 技术创新:对产品技术架构进行了深度优化,可能反对百路级视频流同时接入以及千路级的实时视频解决能力,同时还具备程度扩大能力; 经营模式翻新:扭转了以往各部门独立建设视频解决平台,导致反复建设重大,硬件设施利用率低等问题,将区域内所有的视频资源对立集中处理,调配CV算法,为各职能部门提供服务。

April 19, 2023 · 1 min · jiezi

关于大数据处理:如何做好一场NPS调研

咱们在工作中常常遇到的一个词,那就是“产品NPS调研”。当局部我的项目短少业余的用研人员时,设计师、产品经理则常常会承受下级的要求,投身于NPS调研工作。 笔者也曾在2022年的某天忽然接到一款产品年度NPS调研的工作。那么,NPS调研到底该怎么做?上面将依据笔者的个人经历复盘,率领大家重温NPS的调研办法。 1 NPS基础知识1.1 什么是NPS?NPS的外围就是:调研用户对你产品的忠诚度。 1.2 NPS的计算规定如何计算NPS值?咱们个别通过询问用户“是否违心向敌人举荐咱们的产品和服务?”来取得评分,并依据评分将用户分为三类: 9~10分的是推荐者, 是产品忠诚地用户;7~8分的是被动者,他们很容易被竞品吸引走;0~6分的是贬损者,他们更有可能去流传产品的负面信息。 NPS最终的分值等于“推荐者占比”减去“贬损者占比”。  2设计NPS问卷想要做NPS问卷调研,肯定要确保它后果的迷信合理性,这样能力在汇报时经得起他人的挑战。接下来咱们来看一看须要留神哪些点。 2.1 问卷回收数量2.1.1 须要回收多少问卷?对于一次问卷调研,如果回收的数量太小,那么最终失去的评分也不足以主观的评估产品的实在体验。那么,咱们须要回收多少份问卷才可能达标呢? 具体的详情规定就不一一细说了,感兴趣的童鞋能够去搜一下“样本数量计算”的相干材料。在样本的计算公式中须要咱们填写3个数值,大家能够通过输出上面的数据疾速计算出样本: 总体数量:也就是咱们的用户总数,如果很大或者你不晓得是多少时能够为空置信水平:个别通用值填写95%置信区间:个别通用值填写5% 通过以上公式计算出的样本数量,就是你本次问卷须要回收的最小数值。过后产品的用户体量为2W,那么问卷至多须要回收376份,才能够绝对精确的保障本次问卷论断正当无效。 可是回顾这款产品历史问卷的回收量,竟然没有一次的数量可能达标。那么,麻烦的问题又来了,咱们该如何回收到376份问卷呢? 2.1.2 如何晋升问卷回收量?为了晋升问卷回收量,我开始查找材料、征询用研老师、比照历史问卷数据,寻找可能使问卷回收量达标的方法。 精简提炼问题,升高问卷跳出率。纵观历史数据,发现在前几次调研中,存在一个广泛的景象,就是问卷的跳出率始终很高,继续在70%~80%之间,是什么导致了这种状况呢? 最重要的一点就是:问卷的题目太多、内容过于简单。用户点进问卷后,发现填写过于麻烦,便间接退出了。 所以问题的精简提炼是优化的第一步,联合产品2022年的大指标,剔除掉历史问卷中关联度较低的问题设置,逐步将NPS的调研题目缩短至两题:NPS值评分&开放式反馈。 在精简至这一步的时候,咱们也受到了许多质疑:只有两道题,能撑持起NPS的数据统计吗?  当初就来答疑解惑一下,依照NPS的问卷调研要求,外围问题必须具备三大块:“筛选指标用户、NPS评分&分支维度、补充型问题”。 首先,因为咱们用的推送渠道是服务号,这根本就能够确定填写者都是产品的用户;问卷通过企业openID登陆,咱们能够通过后盾的用户应用频率进行筛选,既能够辨别用户层级,又能够筛查出久未应用的用户问卷,所以“筛选指标用户”的题目便被后盾解决所取代。 其次,咱们将NPS的“分支维度题”&“补充型问题”作了联合,合并成一道针对NPS具体得分设置的三类评分用户各自专属的开放式反馈题: 9~10分的推荐者:感谢您的评分,您违心举荐咱们的主起因是什么?咱们还有哪些须要改良的中央?7~8分的被动者:咱们在哪些方面优化会加强您举荐的志愿呢?0~6分的贬损者:很道歉给了您不好的体验,请问您不违心举荐咱们的起因是什么? 通过以上三条分支的后续诘问,咱们就能够失去”用户举荐的亮点”,“可优化的改良点”和“不称心的毛病“,便于接下来的剖析与优化。 抉择适合的推送渠道 实现问卷内容的制作之后,接下来就是推送渠道的抉择。以后公司常见的问卷渠道有:站内信、利用banner、邮件、服务号等,抉择一个曝光力度最大的渠道,会使关注到问卷邀约的用户大幅减少,那么回收率也会相应晋升。 从不同渠道的问卷回收历史数据来看,服务号的曝光度是最大的,最近一次的服务号推送回收数据达到了180份。所以,本次的问卷发放渠道依然选定服务号来实现,但180份这个数据值间隔咱们的指标还差得远,接下来则是调整推送工夫。 抉择烦扰性较小的推送工夫 抉择一个正当且烦扰性较小的时间段收回问卷邀约,用户才会更可能的承受本次调研。通过调研四周共事的工作习惯、以及询问其它产品服务号的反馈数据比照,咱们得出了最佳的工夫点:5:45PM。在此时间段的问卷邀约,会失去最大的反馈率。 减少奖品吸引,晋升用户填写志愿 通过上述的优化调整之后,咱们依然在放心问卷是否回收到376这个数字。毕竟在大家日常生活及工作中,所接触到的信息烦扰越来越多。对于各方产品投来的问卷邀请,测评邀约等,可能已很大水平上使用户造成了腻烦心理,这样的状况会导致用户遇到你的问卷推送时,大概率抉择“忽视”、甚至“取关”。 针对可能呈现的这种状况,咱们减少了要害的一项“刺激因素”:奖品吸引。通过奖品经营,让用户重拾填写的趣味,减少问卷参与者。 2.2 问卷调研频率除了问卷的回收数目要求之外,咱们还须要留神问卷的调研频率。 产品在2022年度是按季度开展调研流动的,然而咱们从中发现了一些问题。因为版本的公布工夫不固定,依照季度来定期调研可能会导致新性能还未被用户充沛体验的状况,不仅无奈播种更多无效信息、浪费资源,还会使被调研者有一种“反馈不被器重”的感觉。 对此咱们从新调整了调研频率布局,依照“版本覆盖率”&“反馈消化水平”来正当触发新一轮的NPS调研。确保每次调研的前提条件肯定是上一个版本覆盖率高于70%,且上一次问卷反馈已根本处理完毕后,才能够开启下一次的调研。 3 NPS论断剖析通过下面的问卷优化调整,产品2022年度NPS的问卷回收数达到576份,达到了最小回收数376份的指标。接下来,最重要的阶段,则是如何通过回收到的问卷,来正确的剖析出后果、提出关键性论断为产品晋升品质了。那么咱们该如何剖析问卷数据呢? 3.1 过滤有效样本回收问卷后的第一步,就是须要对问卷数据进行预处理,查看是否存在有效问卷、异样反馈等。例如:问卷题目大量漏填、类似答案过多、答题速度过快……这些问卷都应该被算作“有效样本”被作废解决。如果不做这一层数据荡涤的筹备,那么失去的后果就很容易被这些有效样本所影响。 产品已经在2022年Q3的一次线下流动中发动了NPS问卷调研的邀请流动,并搭配上奖品处分。但因为四周有很多其它公司内产品摊位都增设了奖品激励的内容,造成参与者产生“速战速决”的心态。问卷NPS值一度飙升至70+,却多为有效反馈,导致此次调研只能作废重来。 3.2 问卷数据分析过筛掉“有效样本”后,接下来咱们就须要对问卷数据进行具体分析了。 3.2.1 NPS得分NPS的分值必定会是大家最关怀的数据,当这个数字进去之后,咱们须要与历史值做一下比照,是晋升还是降落,这将会是一个很直观的趋势比照。如果没有历史值比拟,那就依照一个大抵的区间评估范畴: 低于0分:贬损者超过推荐者,用户满意度堪忧;0~30分之间:产品不错,但仍有改良空间;30~70分之间:产品在用户满意度方面做得很好;高于70分:太棒了,你的大多数用户都是产品拥护者! 当然,咱们不能仅凭一个分值去主观的判定该产品的好与坏,还须要关注该产品所在行业的均值。也就是各年度的行业净推荐值基准,将本人的分值与行业基准分数比拟之后,能力失去一个更加主观的评分。 3.2.2 反馈数据整顿问题的分类整理是调研论断的外围工作,公司外部罕用的问卷平台,例如:小易问卷、网易定位等,它们会帮忙咱们进行很多根底类的整顿分类,这将会节俭很多人力老本。 对于反馈梳理,咱们也能够尝试不同的角度,来助力大家疾速定位外围问题所在: (1)站在用户层面看反馈 站在不同用户群体的层面去看总反馈的占比,比方:问卷的全副用户、推荐者用户、被动者用户、贬损者用户;这四个用户群他们的高频关键字都是什么? 高频的负面反馈当然是团队将来须要投入优化的具体项;那么对于一些侧面反馈,例如在问卷中,咱们发现大量推荐者提到“VPN性能更加快捷、稳固”,这一点就能够成为咱们将来增长、经营的发力点。能够通过VPN性能的宣传推广,吸引更多用户转化为产品的拥护者。 (2)站在反馈层面看用户 查阅具体问题的用户占比是为了更快的抓住产品外围痛点与爽点,如果呈现某一类问题显著在“某一类用户”占比偏大,那就须要分外关注了。 ...

March 22, 2023 · 1 min · jiezi

关于大数据处理:Milvus

什么是MilvusMilvus能做什么我用Milvus做了什么

January 5, 2023 · 1 min · jiezi

关于大数据处理:一文读懂硬核-Apache-DolphinScheduler30-源码解析

点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/dol... 本文目录1 DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 近程日志拜访2 DolphinScheduler源码剖析2.1 工程模块介绍与配置文件2.1.1 工程模块介绍2.1.2 配置文件2.2 Api次要工作操作接口2.3 Quaterz架构与运行流程2.3.1 概念与架构2.3.2 初始化与执行流程2.3.3 集群运行2.4 Master启动与执行流程2.4.1 概念与执行逻辑2.4.2 集群与槽(slot)2.4.3 代码执行流程2.5 Work启动与执行流程2.5.1 概念与执行逻辑2.5.2 代码执行流程2.6 rpc交互2.6.1 Master与Worker交互2.6.2 其余服务与Master交互2.7 负载平衡算法2.7.1 加权随机2.7.2 线性负载2.7.3 平滑轮询2.8 日志服务2.9 报警3 后记3.1 Make friends3.2 参考文献前言钻研Apache Dolphinscheduler也是机缘巧合,平时负责基于xxl-job二次开发进去的调度平台,因为遇到了并发性能瓶颈,到了不得不优化重构的境地,所以搜寻市面上利用较广的调度平台以借鉴优化思路。 在浏览完DolphinScheduler代码之后,便生出了将其设计与思考记录下来的念头,这便是此篇文章的起源。因为没有正式生产应用,业务了解不肯定透彻,了解可能有偏差,欢送大家交换探讨。 1 DolphinScheduler的设计与策略大家能关注DolphinScheduler那么肯定对调度零碎有了肯定的理解,对于调度所波及的到一些专有名词在这里就不做过多的介绍,重点介绍一下流程定义,流程实例,工作定义,工作实例。(没有作业这个概念的确也很离奇,可能是不想和Quartz的JobDetail重叠)。 工作定义:各种类型的工作,是流程定义的要害组成,如sql,shell,spark,mr,python等;工作实例:工作的实例化,标识着具体的工作执行状态;流程定义:一组工作节点通过依赖关系建设的起来的有向无环图(DAG);流程实例:通过手动或者定时调度生成的流程实例;定时调度:零碎采纳Quartz 散布式调度器,并同时反对cron表达式可视化的生成;1.1 分布式设计分布式系统的架构设计根本分为中心化和去中心化两种,各有优劣,凭借各自的业务抉择。 1.1.1 中心化中心化设计比较简单,集群中的节点装置角色能够分为Master和Slave两种,如下图: Master: Master的角色次要负责工作散发并监督Slave的衰弱状态,能够动静的将工作平衡到Slave上,以至Slave节点不至于“忙死”或”闲死”的状态。 中心化设计存在一些问题。 第一点,一旦Master呈现了问题,则群龙无首,整个集群就会解体。 为了解决这个问题,大多数Master/Slave架构模式都采纳了主备Master的设计方案,能够是热备或者冷备,也能够是主动切换或手动切换,而且越来越多的新零碎都开始具备主动选举切换Master的能力,以晋升零碎的可用性。 第二点,如果Scheduler在Master上,尽管能够反对一个DAG中不同的工作运行在不同的机器上,然而会产生Master的过负载。如果Scheduler在Slave上,一个DAG中所有的工作都只能在某一台机器上进行作业提交,在并行任务比拟多的时候,Slave的压力可能会比拟大。 xxl-job就是采纳这种设计形式,然而存在相应的问题。管理器(admin)宕机集群会解体,Scheduler在管理器上,管理器负责所有工作的校验和散发,管理器存在过载的危险,须要开发者想计划解决。 1.1.2 去中心化 在去中心化设计里,通常没有Master/Slave的概念,所有的角色都是一样的,位置是平等的,去中心化设计的外围设计在于整个分布式系统中不存在一个区别于其余节点的“管理者”,因而不存在单点故障问题。 但因为不存在“管理者”节点所以每个节点都须要跟其余节点通信才失去必须要的机器信息,而分布式系统通信的不可靠性,则大大增加了上述性能的实现难度。实际上,真正去中心化的分布式系统并不多见。 ...

September 15, 2022 · 28 min · jiezi

关于大数据处理:字节跳动一站式数据治理解决方案及平台架构

“一站式数据治理解决方案及平台架构”的分享会分为四个局部开展: 首先,明确数据治理的概念,从平台视角登程,介绍在字节跳动外部数据治理所服务的指标其次,介绍字节跳动外部数据治理的现状与咱们须要解决的问题第三,介绍以后咱们的解决方案最初分享一站式数据治理的平台架构 数据治理的概念数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具备高质量的数据品质能力,并且实现对数据的齐全治理,以反对业务的指标。 在这外面有些关键词:在一些组织、一些公司外部关注的是数据全生命周期,心愿它有一个较高的品质,指标则是用来反对业务。 所以数据治理的指标次要由以下几点形成:第一,最大化数据价值。第二,治理数据的危险。第三,升高数据的老本。 数据治理是一个比拟大的概念。它包含政策、规定、组织构造、治理过程,以及一些技术的反对。畛域包含数据品质、数据老本、数据可用性以及数据安全等方面。 所以,在影响数据治理打算的驱动因素是多样的,比如说数据法规、隐衷政策的限度,数据品质参差不齐、数据治理老本高,或者是资源受限等等。此外,治理施行的形式和范畴也不同,比方:有可能是由对立的组织,诸如数据治理委员会在整个企业或者公司的范畴内发动一些治理指标与打算,来推动整个组织的数据治理;也可能是在一些部门、团队外部去进行无限范畴内的治理。数据治理打算的指标实现必须得用适当的工具来解决,数据治理的形式也越来越偏向于朝着系统化和工具化的方向来倒退。 字节跳动数据治理背景在字节跳动外部,作为对立的数据治理平台方,咱们的指标是:“建设一站式、全链路的数据治理解决方案平台”,治理平台肩负了四个使命: 第一,让数据价值最大化。这外面包含全生命周期数据品质的保障,既要做到高价值,又能实现低成本。第二,提供全链路解决方案。数据治理在理论过程中会由多个不同角色独特参加,包含了管理者视角和执行者视角。咱们心愿不同的角色在咱们的平台里,都可能使用一些工具、伎俩来推动治理的执行。第三,工具和方法论的联合。字节跳动外部数据治理平台的建设是以方法论来疏导建设,心愿工具可能提供十分齐备的治理能力。第四,提供增强型的治理能力。在零碎的能力上能够被动发现一些隐患问题,做一些举荐或者倡议的策略来晋升治理效率。 在字节外部,不同角色对数据治理的视角不同。比方,管理者或者是责任者的视角,他们可能会思考如何去制订一些治理的指标,如何可能让组织、团队来去实现这些治理的指标;他们可能会关注于这个指标什么时候可能实现、进度如何;他们也会思考,当他们真得去做了这些治理之后,些数据或者资产是否可能继续衰弱。 而从执行者的视角上,则要思考有数据治理指标下达之后,我该如何去做;我本人有哪些资产,资产有什么问题;我去做治理的时候,怎么样可能进步治理效率;我能不能及时发现数据资产的问题,并疾速治理。 数据治理流程链路因而在整个数据治理的流程中,遵循如下几个步骤: 第一:我有什么?比方我的计算工作,资产的存储,品质的一些规定,SLA 的承诺或者一些异样报警,哪些是属于我的。第二,清晰通晓治理指标。要晓得我要去治理什么,从哪些开始下手,哪些资产是有问题的,我的一些规定是否是设置的正当的。第三,怎么治理。比方在面临一个具体的治理问题,他人是如何治理的,他们是不是有一些相干的教训能够借鉴;在具体的施行过程里,如何去提效治理。第四,掂量治理成果。也就是咱们的治理是否达到了一些指标,或者取得了哪些收益。最初,总结与复盘。做完了整个治理链路流程之后的总结,如经验总结、问题演绎等等。 数据治理解决方案基于上述是数据治理流程链路中波及到的方方面面,在平台侧咱们是如何解决每个流程中对应的问题呢?整体从思路上,划分为三个维度: 一站式在建设一站式解决方案里,咱们细分了三层。第一层:视图层。这个视图层就是来满足咱们可能晓得,咱们有哪些资产,咱们有什么,咱们的指标是什么,该怎么制订,这个咱们称之为治理全景层。第二层:计划层。也就是真正施行去推动这个治理过程的这一层。在这一层外面咱们提出了两种治理的门路,一种是主动式的布局门路,另二种是零碎发现式的门路。 零碎布局式门路:符合于从上而下的视角来去满足于治理的指标,针对它做一些布局,做了一些布局之后对相应的资产进行诊断。诊断之后诊断出资产的问题来进行相应的一些问题推动执行,最初到一些收益的统计和总结。这是一个被动布局的局部。 零碎发现式门路:零碎发现这个门路其实次要解决的是,我怎么可能日常的去将我这些资产或者治理问题,可能继续的进行。日常化治理而不是一个静止式治理形式。这个是基于咱们平台外面的一些全局规定来定义,通过零碎来去订阅,定期在零碎外面去进行运行扫描,发现一些资产的问题,通过一些音讯的形式推送到这些资产的责任人,进行一些比如说根因的注销,问题的注销,事变的复盘,最初进行一些总结和教训的共享等等; 第三层:工具能力层。即为了满足于下面的视图层和计划层,咱们在工具侧提供的一些能力,包含一些垂直的治理场景和品质,平安老本,稳定性,报警起夜等等方面。还有一些根底服务来撑持这些咱们工具的建设。比方咱们会抽出一些音讯的核心,云数据的核心,规定引擎或者数据服务等等。 上述是咱们一站式的思路。 全链路全链路是指咱们心愿治理可能达到一个闭环的状态。在整个链路外面,可能针对于不同的角色,会有一些不同的应用形式,或者是一些运行形式。在整个的门路外面会有从资产的视图来看咱们有哪些货色。在这些资产视图根底之下来定一些指标和布局。比如说有些内部驱动的指标,业务驱动的一些指标或者是一些合规或者是政策类的指标等等,来制订咱们治理的指标。 针对这些指标,咱们去做一些计划的制订。 举个例子,比方去做一些存储资产的升高,可能通过一些规定来去圈选进去资产有问题的局部。之后推动这个治理的施行,可能在一些治理决策者或者一些团队的负责人方面,他可能会去进行一些拉群的督办,或者是一些定时的订阅揭示等等。在推动治理计划过程中,还心愿资产的责任人,也就是治理的实施者在咱们这个平台工具外面可能具体去施行治理的动作,如一些基于 SLA 的申报、参数的优化、存储规定的设置、规定的调优等等。 进行了一系列治理之后,咱们必定要有一个验收的环节,可能会是一个整体指标的验收,业务是否达标了,指标是否正当,最初进行一些教训的总结,这个是全链路的局部。 当然在全链路外面也包含了方才所说的这种零碎式、扫描式的门路。这个也是通过一些规定的制订,在零碎外面去发动规定的定义和订阅。通过零碎的扫描去发现一些问题,发现问题之后通过一些施行的治理,可能再反哺到咱们具体的一些规定的制订下面去。比如说更进一步配置一些监控规定,来预防治理的一些问题。 这个是全链路的局部。 全规定全规定指标是提供比拟齐备的治理规定能力,可能服务于方才所说的这种布局式资产组合与响应式资产扫描。这个是在平台的能力齐备性方面的一些思考。目前咱们提供了存储计算、品质报警等四个维度,当初有数十个这种治理的规定可供任意的圈选和组合。其中包含一些全局的规定和自定义的规定。 比方全局规定,比方近 7 天的产出为空的工作,是否有暴力扫描的工作。或者是一些定义,比方生命周期能够任意抉择一个时间段来去进行扫描或者近 xxx 天工作为空,把这些工作圈选进去,这些是自定义的局部。 同时还有一些统计类和开掘类。统计类就是基于数据建设对元数据的利用和加工。举个例子,比方近 90 天无拜访表,或者是数据歪斜工作的圈选。开掘类其实是在元数据的根底上进行一些更深层次的开掘,去找到一些数据的问题,比方类似的库表,类似的工作等。 一站式数据治理平台架构下面介绍了咱们应答数据治理的解决方案,包含全规定、全链路和一站式。接下来,介绍具体的平台架构。 整体架构首先在整体的架构局部,这是治理平台内整体的架构图。其中灰色的局部是在平台透出给用户的产品能力,包含治理全景。治理全景对应于方才在一站式的视图层可能通知用户,有哪些资产,这些资产的状况是怎么样的。而后是治理的工作台。工作台的局部是针对于治理的实施者,他可能疾速定位或者跳跃到相干一些治理的计划和平台去进行治理。这个是一些包含待办项和这些资产的剖析等等。之后是一些诊断布局的局部。也就是服务于主动式布局这条门路的一个模块。它会对咱们这些资产进行一些规定式的组合,来进行一个最终的诊断。还有一些资源的优化,报警与订阅和 SLA 保障等几个垂直类的治理场景。最初有一个复盘治理局部,是做经验总结和积淀的一个模块,以零碎的形式进行记录。 两头的局部是基于全规定的思维,将存储规定、计算规定、品质规定和报警规定,出现在平台里,让用户来进行自在圈选,达到灵便、全面的目标。 上面绿色层是零碎组件层面的一些形象服务,咱们会针对数据治理的典型场景,在底层的根底设计上做一些形象,达到灵便适新的规定或者治理场景的目标。 元数据建设在数据治理外面,咱们认为元数据其实是治理的外围,治理其实是须要元数据来去驱动的。在咱们治理工作外面,元数据建设治理次要有以下五个方面: 第一,元数据的采集。咱们会采集底层组件架构的一些数据,yarn 队列,Hive、Spark、Flink 等各种组件的数据,以及一些平台级的元数据采集,包含调度零碎,数据地图、血统、权限、工作、存储、数据利用等平台的一些元数据,在采集之后,会进行一些系统化的加工,咱们遵循于数据仓的层级标准的建设来晋升数据的应用性。同时,在加工的过程中也齐全遵循于数据治理理念保障数据都是高质牢靠。 第二,元数据利用。在元数据利用局部咱们会通过元数据仓库为根底,给上游的产品平台提供更多利用的能力反对。 第三,剖析局部。咱们会制订很多业务的外围指标和一些外部指标,通过一些治理场景用户的行为剖析来挖掘一些潜在的数据问题。另外就是会在各个维度去建设各类剖析看板。 第四,开掘局部。这个是在数据上更高一层的利用,咱们会推动一些开掘算法和机制,去发现一些可治理的问题,比方咱们可能会对于一些数据资产的相似性进行开掘。基于历史数据对将来的一些预测,比如说一些数据表行数的不动值预测,一些提效的举荐类开掘。 最初是元数据的凋谢局部。咱们会和字节跳动外部各个数据团队来去单干共建按需凋谢,提供元数据能力。 产品模块上面介绍平台侧的产品模块,同样也能够在火山引擎 DataLeap 产品中看到。 第一、治理全景。解决有哪些资产问题。目前在平台上有一些大盘,包含数据的 SLA 大盘、存储大盘、计算大盘、报警大盘等等,这些大盘针对于不同的治理场景会有一些不同维度的展现,包含一些数据趋势,一些占比列表,或者是一些聚合明细等数据。撑持治理全景的是咱们底层的元数据仓库以及方才说的数据利用的局部,对数据进行一些加工。第二、衰弱分。咱们心愿衰弱分可能掂量资产的衰弱度,让资产继续衰弱。在衰弱分的建设外面,咱们遵循几个步骤。第一是首先在衰弱分的建设外面,通过元数据仓库提供衰弱分的各维度的剖析建设,包含一些成员排名。第二个局部是有了这些衰弱分之后提供更多的维度剖析,以及扣分项剖析,老本剖析,可能将衰弱分拆解,拆分成可治理的这样的我的项目,有了这些可治理的我的项目之后,具体关联到一些数据治理的操作和计划的设计。比方,咱们能够针对于一些衰弱分的扣分项,来跳转到一些垂直治理的场景界面来去进行一些操作设置或者是做一些布局式治理计划的关联。这个是衰弱分的一些思路。 在衰弱分的设计方面,咱们遵循了一个三层架构的思路。首先第一层是比拟大宏观的资产层。包含存储的衰弱分,计算衰弱分,数据品质等等。第二层是针对于这一类自办的一些聚合类指标,包含比如说存储衰弱分外面的有效数据,或者是高效存储的问题。计算衰弱分外面有效工作和高效计算的问题。数据品质方面的 SLA 或者是监控保障的问题。最初一层是比拟具体的规定层。包含存储外面 TTL 设置,或者是无查问的一些资产。比如说计算外面的间断失败工作或者是资源利用率比拟低的一些工作。数据品质外面的一些 SLA 的事变数或者是一些监控的缺失、有效报警等等。 在有了资产全景和看板之后,咱们其实能够进行一些治理操作,对应于一站式外面的第二层治理操作的局部。后面介绍到咱们其实有两种门路,第一类是布局类的门路,可能是从一个比拟高的视角来去拆解治理的问题。这个门路外面,咱们是要指标明确,过程可拆解,收益可量化,后果可验收。 零碎设计最初咱们来说一下零碎是如何来撑持布局式的架构呢? 布局式架构:在底层的基础架构设计方面次要有几个模块。 首先在后端是一个主逻辑的操作局部,包含了方才所说的规定,治理规定、治理域,一些圈选的能力,资产的查问和收益的统计,治理指标的制订,治理后果的查看,治理的催办和具体的治理操作。 撑持于后端逻辑的局部,有几个形象的服务模块。第一个模块是数据查问服务,次要解决的一个问题是底层不同存储异构的适配。将这些原数据通过一些下层利用的加工,放到不同利用的存储外面来适应不同的查问类型。通过这个服务来进行一些解耦。这个服务外面数据的起源就是事件的收集服务,咱们会做一些格局的转换,音讯的解决,包含一些底层组件的关联和零碎回调和数据采集等等。 ...

June 1, 2022 · 1 min · jiezi

关于大数据处理:基于-Databend-和腾讯云-COS-打造新型云数仓

本篇文章向大家演示如何应用 Databend 基于腾讯云 COS 构建旧式数仓及其计算能力。如果你也在找一个低成本、高性能、反对弹性的数仓,Databend 能够为大家提供一个基于对象存储的云原生数仓解决方案。目前 Databend 反对数据的 stream load , copy into from stage , insert 等形式的数据写入,部署上反对单机和集群模式。须要更多反对增加微信: 82565387 。 文章较长,倡议珍藏 PC 端浏览。 Databend 介绍Databend 是一款应用 Rust 研发、开源、齐全面向对象存储架构的旧式数仓,提供极速的弹性扩大能力,致力于打造按需、按量的 Data Cloud 产品体验。具备以下特点:•Vectorized Execution 和 Pull&Push-Based Processor Model •真正的存储、计算拆散架构,高性能、低成本,按需按量应用 •残缺的数据库反对,兼容 MySQL ,Clickhouse 协定, SQL Over http •欠缺的事务性,反对 Data Time Travel, Database Zero Clone 等性能 •反对基于同一份数据的多租户读写、共享操作 github repo: https://github.com/datafusela...Docs : https://databend.rs对于 Databend 架构图,参考:https://databend.rs/doc/ 腾讯云 COS对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限度,可包容海量数据且反对 HTTP/HTTPS 协定拜访的分布式存储服务。腾讯云 COS 的存储桶空间无容量下限,无需分区治理,实用于 CDN 数据散发、数据万象解决或大数据计算与剖析的数据湖等多种场景。官网:https://cloud.tencent.com/pro... ...

April 15, 2022 · 17 min · jiezi

关于大数据处理:来看看字节跳动内部的数据血缘用例与设计

数据血统形容了数据的起源和去向,以及数据在多个处理过程中的转换。数据血统是组织内使数据施展价值的重要根底能力。本文从字节的数据链路详情开始,介绍了数据血统在字节的利用场景,总体设计,数据模型以及掂量指标。文 | 罗小亮、拾捌、大滨来自字节跳动数据平台开发套件团队 字节跳动数据链路介绍为了明确问题的探讨范畴,咱们首先介绍一下字节的数据链路。 字节的数据的起源分为两种: 端数据:APP 和 Web 端通过埋点 SDK 发送的,通过 LogService,最终落入 MQ;业务数据:APP,Web 和第三方服务所进行的业务操作,通过各种利用的服务,最终落入 RDS,RDS 中的数据,通过 Binlog 的形式,汇入 MQ;MQ 中的数据,在 MQ 之间有分流的过程,做转换格局,流量拆分等。 离线数仓的外围是 Hive,数据通过各种伎俩最终汇入其中,应用支流的 HiveSQL 或 SparkJob 做业务解决,流入上游 Clickhouse 等其余存储。 实时数仓的外围是 MQ,应用支流的 FlinkSQL 或通用 FlinkJob 做解决,期间与各种存储做 SideJoin 丰盛数据,最终写入各种存储。 典型的数据进口有三类: 指标零碎:业务属性强烈的一组数据,比方“抖音日活”报表零碎:以可视化的模式,各种维度展现加工前或加工后的数据数据服务:以 API 调用的模式进一步加工和获取数据在字节,数据血统的零碎边界是:从 RDS 和 MQ 开始,一路路径各种计算和存储,最终汇入指标、报表和数据服务零碎。 血统的利用场景在探讨技术细节之前,须要先讲清楚血统的利用场景与业务价值,进一步明确数据血统须要解决的问题。不同的利用场景,对于血统数据的生产形式,血统的覆盖范围,血统的品质诉求,都会有所差异。 数据血统零碎的整体设计01 - 概览通过对字节血统链路和利用场景的探讨,能够总结出血统整体设计时须要思考的两个关键点: 可扩展性:在字节,业务简单而宏大,整条数据链路中,应用到的各种存储有几十种,细分的工作类型也是几十种,血统零碎须要能够灵便的反对各种存储和工作类型凋谢的集成形式:生产血统时,有实时查问的场景,也有离线生产的场景,还有可能上游零碎会基于以后数据做扩大字节数据血统零碎的整体架构能够分为三局部: 工作接入:以某种形式,从工作管理系统中获取工作信息血统解析:通过解析工作中的信息,获取到血统数据数据导出:负责将血统数据存储到 Data Catalog 零碎中,并供上游零碎生产02 - 工作接入有两个要害的设计思考: 提供两种可选的链路,以应答不同上游零碎对于数据实时性的不同要求: 近实时链路:工作管理系统将工作的批改的音讯写入 MQ,供血统模块生产离线链路:血统模块周期性的调用工作管理系统的 API 接口,拉取全量(或增量)工作信息,进行解决定义对立的 Task 模型,并通过 TaskType 来辨别不同类型工作,确保后续解决的可扩展性: 不同工作管理系统,可能治理雷同类型的工作,比方都反对 FlinkSQL 类型的工作;同一工作管理系统,有时会反对不同类型的工作,比方同时反对编写 FlinkSQL 和 HiveSQL新增工作管理系统或者工作类型,能够增加 TaskType03 - 血统解析有两个要害的设计思考: ...

February 24, 2022 · 1 min · jiezi

关于大数据处理:实时数据管理实战派DataPipeline亮相FCS-2021中国证券基金和资管CIO峰会

9月26-27日,FCS 2021第三届中国证券、基金和资管CIO峰会在上海隆重召开。本次大会围绕“数字重构价值·改革驱动增长”主题开展,邀请到金融、政府、IT等多畛域的千余名行业学者、领域专家,深入探讨寰球环境下金融机构数字化、危险管制等能力对企业的深刻影响,共话数字化金融新将来。 DataPipeline产品负责人徐志超 在题为“聚焦数字化财产治理·科技重塑行业价值”的主论坛中,DataPipeline产品负责人徐志超受邀作《企业实时数据管理问题与实际》的宗旨发言。他针对企业实时数据管理利用中面对的次要问题、DataPipeline企业级实时数据交融平台解决方案及DataPipeline的行业实际与劣势几项议题与现场嘉宾进行了探讨。徐志超谈道:“在新的倒退阶段,技术引擎异构趋势显著,数据的交融翻新正在成为新常态。数据交融是企业数字化转型的源头,是数据实时、残缺、稳固、统一的基本撑持。只有领有了高质量的原始数据,企业能力真正走出扎实地数字化转型之路。随着人民银行《金融科技(FinTech)倒退布局(2019-2021年)》等一系列顶层布局落地施行,中国金融科技政策环境和监管规定体系一直优化。越来越多的金融机构重视翻新技术利用并且踊跃寻求与社会企业单干摸索金融科技新场景。在业务场景中倒退全新的生态体系成为了传统金融机构弯道超车、造成竞争壁垒的次要抉择之一。咱们可能取得包含民生银行、中国人寿(海内)、山东城商行联盟、财通证券、山西证券、恒泰证券、国盛证券、财通资管、中国石油、吉利团体、星巴克、顺丰在内的百余家重量级企业客户的青眼,得力于DataPipeline企业级实时数据交融平台从理念到架构、从性能到性能、从计划到技术,全面围绕并适应以后的用户需要及产业倒退态势。产品打出‘基于日志的实时增量数据获取技术’、‘反对支流关系型数据、大数据平台及国产数据库’、‘分层治理按需服务’、‘高容错分布式架构’等一整套的劣势组合拳。” 业务需要降级 召唤实时数据管理翻新目前,企业面临市场竞争和用户行为的巨大变化,必须一直放慢本身进化速度。同时,业务需要降级往往要求经营模式的转变,以多速IT应答理论场景需要、疾速响应实时数据的要求。但在企业该转型翻新过程中,面临着多重问题: 各类数据管理技术差别越来越大,全面、精确的实时数据获取艰难,企业内实用不同场景的数据管理技术不尽相同,技术壁垒妨碍数据价值开释。惯例端到端实时数据链路以月为单位的构建效率已无奈适应外部环境的变动,业务须要更高的敏捷性来应答,这须要整个数字化组织能够体系化且可预见性地进行多速、麻利的业务场景撑持。过多的技术储备要求与研发老本也成为妨碍疾速建设竞争劣势的重要因素。从客户行为剖析到非交易类的触客业务到事件营销再到风控评分,实时数据链路逐步成为业务经营的重要撑持。作为买通各业务零碎数据通道的中间层,实时数据链路的稳定性与容错性也成为重点与难点。实力过硬 做金融数字化翻新基础设施针对企业面临的问题,DataPipeline提供企业级实时数据交融平台解决方案,通过基于日志的增量数据获取等多种实时数据技术,帮助客户构建以业务指标为导向的数据链路,按需疾速定制、部署、执行数据工作,反对从传统数据处理到实时数据利用的各类场景,齐全满足金融行业高性能、高可用、高稳固、高可控等的能力诉求。产品具备“全、敏、稳”等几大个性:DataPipeline企业级实时数据交融平台整体架构 DataPipeline企业级实时数据交融平台目前反对Oracle、IBM DB2、MySQL、Microsoft SQL Server及PostgreSQL等数据库的实时增量数据捕捉,对大数据平台、国产数据库、云原生数据库、API及对象存储也提供宽泛的反对,并在一直扩大。产品形象为“数据节点、数据链路、交融工作及系统资源”四个根本逻辑,只需通过二至三项简略配置就能够定义出能够执行的交融工作,同时对各个环节进行分层治理,在无效满足零碎运维治理需要的前提下,晋升实时数据获取与治理在各个环节的配合效率。交融引擎采纳分布式架构,容器化部署,能够保证系统业务连续性要求。在分布式集群的根底上,平台采纳系统资源组的模式隔离不同工作的运行环境,保障重要工作的稳固有序运行。宽泛验证 实时数据管理实战派在银行畛域,DataPipeline帮助构建的民生银行实时数据同步管道平台通过近百个实时数据工作将客户行为等实时数据进行标准化补全并散发到生产计算方,用于各类实时数据加工场景。该体系交融了IBM DB2、MySQL、Kafka、Redis、GaussDB、SequoiaDB、HDFS在内的多种数据根底组件,实现对次要交易系统每日产生的数亿条数据的整合。DataPipeline助力山东省城商行联盟构建的企业级数据库准实时数据采集零碎可实现IBM DB2,Oracle,MySQL等多种外围数据库的实时数据采集性能,在金融级的稳固高容错能力方面受到客户高度认可。在保险畛域,某世界五百强金融企业买通用户行为数据、承保/退保/理赔/销售等业务数据及计算剖析后果数据,高效反对营销、风控、经营等业务部门取数及用数需要,IT零碎交融Oracle、Microsoft SQL Server、MySQL、TiDB在内的近十种数据库治理技术,实现从外围业务零碎到客户端的多个零碎产生的数十亿条数据的整合。在证券畛域,DataPipeline联结财通证券建设的数据采集同步集群实现了公司含外围零碎在内50+业务零碎的数据交换,被客户赞为“合乎金融行业数据流转稳固要求、操作简略、运维压力低、自定义能力强且对业务零碎与业务人员十分敌对的零碎”。在生产金融畛域,DataPipeline携手某头部汽车金融企业构建的实时数据平台接入MES、ERP、CRM、批发、批售、征信、反欺等零碎,适配Oracle、Microsoft SQL Server、MySQL、PostgreSQL、TiDB、Hive、Kafka、HBase等数十种数据库近实时的数据采集性能,大幅晋升了企业风控、营销等的能力。一笔生产、一度电、突飞猛进的金融业倒退、繁忙不息的产线……更多企业正因实时数据管理的加持悄悄扭转。这背地的技术都来源于DataPipeline企实时数据交融产品。面对不同的实时数据利用需要,DataPipeline企业级实时数据交融平台都能以专业化产品与解决方案的形式升高了企业搭建根底平台的研发老本与运维老本,晋升数据利用的效力,满足客户的业务需要,高效解决企业数据管理中“最后一公里”的问题。 目前,DataPipeline已笼罩金融、批发、能源、制作、地产等重点畛域,产品被利用在客户服务、生产调度、经营治理、业务剖析等重要场景中。DataPipeline 企业级数据交融平台在零碎稳定性、可管理性、扩展性、灵活性方面通过了重复验证。同时,为了给以金融为代表的国民支柱型行业提供平安可信的数据管理撑持,DataPipeline正在踊跃拥抱国产化布局,开展兼容适配助力欠缺信创产业链生态。截止目前,DataPipeline已成为中国电子工业标准化技术协会信息技术利用翻新工作委员会会员单位,产品已与华为鲲鹏云、华为GaussDB 、SequoiaDB巨杉数据库、星环大数据平台Transwarp Data Hub、河汉麒麟高级服务器操作系统(鲲鹏版)V10、TiDB、HashData、西方金信海盒数据库管理系统等多个软硬件产品实现全面兼容认证且性能优异,可能无力服务各畛域信息化程度当先的用户。“交融”的表象是数据流转,基本是价值在企业外部传导的过程,助力数据交融与共享的“链路构建”是企业数字化转型的必经之路。将来,DataPipeline将持续保持技术驱动、深耕企业服务,以全面的实时数据管理计划助力企业在新的竞争中取得先机,实现单干共赢。点我理解DataPipeline更多信息并收费试用

September 30, 2021 · 1 min · jiezi

关于大数据处理:三步构建手机数据助手数据尽在掌握

想要实时掌握业务经营信息?及时追踪经营异样?疾速定位问题所在?观远数据「挪动轻利用」来帮你!通过手机即可流畅地查看数据,随时随地进行数据分析,把握一手业务经营动静。反对嵌入企业原生APP,也反对与钉钉、企微、飞书集成,零代码开发,无需额定下载,即可让“数据分析”触手可及,实时响应业务需要! 9月22日,观远数据BI产品用户体验设计师 约书 为咱们具体解说了「挪动轻利用」性能,分享三步搭建「挪动轻利用」的步骤,并从设计师的角度,介绍了更好看的搭建形式,让咱们一起来回顾一下。 1.随时随地把握门店经营数据,洞察经营异样门店销售额疲软,却迟迟找不到问题所在?不在店里,如何把握顾客流动状况、店员销售状况?如何监控数据?出现异常怎么及时解决?......你是否正在面对以上难题?后疫情时代,面对充斥不确定性的商业环境与日趋激烈的竞争态势,企业须要对变动实现更疾速、更灵便的响应:实时把握经营信息,及时追踪问题所在,使数据反馈不再受到时空的限度,使经营决策不再滞后,是破局的要害。 「对变动实现疾速响应」是「挪动轻利用」性能诞生的初心,心愿借助挪动端的数据分析场景,为管理者冲破时空局限,对经营数据进行全面把控,满足灵便多变的业务剖析需要,进一步晋升对“人货场”的精细化经营能力。 图源:观远数据演示零碎 满足多角色的挪动数据利用需要 挪动治理驾驶舱多维度、立体化,让管理者出差在外也能对外围业务指标高深莫测,实现决策效率最大化。店长助手丰盛的挪动数据可视化报表,不便店铺管理者随时随地查看经营数据、员工数据、商品库存数据等要害指标,为即时业务剖析和日常业务解决提供领导。数据异样预警,实时揭示观远数据「挪动轻利用」能集成到企业已有利用,以及钉钉、企业微信、飞书等第三方挪动办公平台,联合音讯推送,决策者能通过手机第一工夫接收数据异样的预警音讯,及时应答问题,追踪问题。 以「批发经营助手」为例,介绍观远数据针对连锁批发企业客户的挪动端数据分析解决方案。应用角色包含总部管理层、区域管理层(如区域督导、城市经理等等)以及店长;利用内容包含实时战况、经营大盘、地面巡店、门店洞察、重点商品追踪、异样库存监控等,帮忙企业中不同层级与角色,从经营大盘到门店经营进行穿透式治理。 经营大盘该页面为总部经营数据概览页,监控整体营业状况,第一工夫发现异常,进行策略调整。地面巡店帮助督导疾速定位问题门店/重点门店,随时随地把握治理门店的经营情况,以数据为根据帮忙门店晋升经营程度。门店经营数据普惠,晋升能力基线,助力一线店长领有优良店长的剖析思路,晋升整体店长业务剖析程度。实时战况从全局到单元,随时随地把握当下经营状况。全面的挪动数据分析性能,媲美PC端的性能体验,保留钻取、联动等性能,另有挪动端轻便易携带的劣势,将所有剖析性能轻松装进口袋。 2.零代码无门槛,迅速创立挪动轻利用企业自研数据分析利用APP,须要消耗多达两周工夫,很难应答复杂多变的业务需要。而观远数据「挪动轻利用」性能,无需代码开发,仅需将仪表板的可视化图表进行简略利落拽,即可实现利用搭建。业务能够依据不同的数据分析场景制作不同专题的挪动端剖析看板,既大大节俭了研发资源,又能疾速响应业务需要。 观远数据秉承「操作要简化、成果不打折」准则,仅需三步,即可疾速打造企业挪动端数据分析助手。 01 梳理页面构造图源:观远数据演示零碎 一个轻利用能够蕴含多个页面,作为一个有意义的轻利用,页面之间是有机分割的,而不是简略重叠,如果间接将所有页面公布到挪动端,所有页面会平铺在挪动端目录里。 因而,在创立轻利用之前,须要依据这些页面进行构造整顿。如上图所示,能够将不同的页面分为销售详情、商品、门店、会员四类。 02 搭建挪动轻利用以咱们梳理的「挪动端轻利用」构造为例,其分为两层构造,因而,咱们用一个底部导航+一个顶部导航来搭建。 第一层构造,往底部导航里增加底部标签入口: 第二层构造,往每个底部导航里填充第二级的页面内容: 03 晋升轻利用颜值第三步,咱们能够通过调整挪动轻利用的「导航属性」、「页面布局」,来进一步晋升挪动端页面的颜值。 导航组件:调整导航标签页的款式和排布形式,分为底部导航与顶部导航。点击底部导航组件,能够为每个导航入口配置对应的图标,使轻利用更丰盛也更形象;点击顶部导航组件,能够调整导航标签页的款式和排布形式。筛选器组件:在挪动端布局页面,点击“筛选器组件”,能够将多个筛选器组合展现。如果多个筛选器独自排列,挤占空间,且会随着页面滑动滚走,如果要切换选项,需从新回到页面顶部;将多个筛选器放到筛选器组中,不影响应用的前提下,布局更紧凑,且性能上反对页面滚动时主动吸顶,切换选项更加不便。指标卡组件:包含单指标卡和比照指标卡,能改简洁明了地展现要害KPI。当大量指标卡重叠到一起时会发现,一排两个有时会因数值太大、文本过长等导致局部信息展现不全,一排一个又节约空间,此时能够应用KPI组件帮忙排版卡片,使之布局更正当好看。只需三步,五分钟即可搭建实现一个简略的“挪动轻利用”;并反对嵌入企业原生app,也反对与办公挪动软件如钉钉、企业微信、飞书的集成,无需额定的下载安装,一个观远挪动轻利用就曾经在你手机里了。 3.无限的挪动端屏幕,有限的视觉表白多行业模板:业余实用、高效搭建不同行业对数据分析有不同的利用场景与需要,咱们打造了不同的行业利用模板,企业能够间接应用或在此基础上进行调整,实现搭建效率的极大晋升;模板的视觉和布局格调丰盛多样,兼顾好看度、专业性和实用性,可根本满足各行业的需要。 图源:观远数据演示零碎 挪动端门户:好看有序、沉迷式体验当企业有多条业务线,搭建起多个不同主题的轻利用时,治理老本就会随之变大。因而,观远数据推出了「挪动端门户」,作为企业对立的挪动BI入口,使多个剖析场景、多个挪动轻利用都能对立治理,既能加重泛滥轻利用的保护老本;又好看有条理,有利于企业形象的打造。挪动端门户的搭建同样简略、易上手。 门户页门户页包含页头、背景、利用列表、页脚等内容。利用可抉择卡片式或图标式,卡片式可上传封面背景,能够自定义封面款式,达到更多成果,若门户须要展现的内容过多,倡议以图标模式显示;咱们能够依照主次给利用分组,不同的分组可选用不同的款式。图源:观远数据演示零碎利用挪动端门户不仅能够承接「挪动轻利用」,仪表板、外链等内容都可成为「利用」的一种。利用的属性设置项包含:入口名称、入口封面,不同内容类型(轻利用/页面/卡片/外链),属性栏反对的设置项各不相同。利用组当利用很多时,须要按肯定规定梳理、分组。利用组是门户各种利用内容的容器,利用组可设置组内利用的布局款式,包含卡片式、图标式、列表式等;可设置组内间距,即组内利用之间上下左右的间距和每行利用个数;利用组背景反对纯色和图片两种模式,图片反对用户本人上传。权限治理在门户编辑页,管理员可依据不同的角色层级,配置不同利用的页面拜访、数据编辑权限,实现千人千面。如,总部管理层权限最大,能够拜访、编辑所有页面和数据;区域管理层的权限放大到所在区域;门店管理者的权限只限于所在门店。在「挪动轻利用」性能的后续迭代中,观远数据打算将积攒的设计资产积淀到产品中,搭建一个丰盛的素材库,蕴含不同类型的「格调包」,每种类型下涵盖对立配色计划的页面模板、组件、残缺的企业icon与各类常见图表,帮忙业务人员可能依据不同剖析场景疾速搭建起好看、实用的挪动轻利用,堪称是「保姆级」的企业BI资源素材。 「进一步升高产品的应用门槛,加强产品的可拓展性」是观远数据迭代性能的初心,咱们将始终以学习和改良的心态,与咱们的客户一起成长,让「决策更智能」。 10月13日,观远数据产品总监 亚木,将为大家深度介绍观远数据「Smart ETL」性能:百倍压缩、秒级查问!如何高效解决数据? 关注观远GUANDATA公众号,理解更多利用性能!

September 27, 2021 · 1 min · jiezi

关于大数据处理:云原生的数据云下一个十年的数字化转型趋势

数据量越宏大,数字化转型的意义也就越大,但转型这件事与企业外部多个技术部门严密相干,它不是某一个独自的团队可能独立实现的工作,而是须要企业的业务部门、数据资产治理、开发利用等更多部门协同单干,因而,越是大型企业数字化转型的难度就越简单。企业须要突破传统烟囱式架构设计,用全新的数据云模式来实现数字化转型。 01数据、利用、基础设施—数字化转型亟待解决的三大难题 对于企业而言数字化转型蕴含三个因素:利用、数据和基础设施。而目前阶段,企业的每个因素都存在着不同的问题。 对于企业应用而言,不同的利用都是由不同团队独立建设、独立开发的烟囱式架构,这种架构导致企业不得不反复造轮子,岂但造成人力和资源的极大节约,同时也减少了运维和治理的老本。 烟囱式架构设计导致的另外一个问题就是数据孤岛景象,因为不同团队各自建设利用,数据没有买通,或者同一份数据在多个业务零碎内保留,短少统一标准,导致难以进行数据管控和品质晋升,也难以从一个个孤岛中开掘数据的价值。 最初一个因素是基础设施,企业在不同期间建设利用的时候,采纳的基础架构也不同,基础设施多种多样,包含传统物理机部署、虚拟化部署、虚拟机部署、云部署、云原生部署等,基础设施不对立,导致建设利用、归集数据的压力十分大。 02大数据与云技术的倒退与交融 八九十年代时,企业应用少数是单体建设,基于独立的数据库、物理机或者虚拟化的形式。2000 年左右云计算呈现了,建设利用的模式也产生了变动,对数据而言,这个阶段曾经做到云上的对立收集。2018 年之后,云原生的概念倒退起来,企业心愿本人的利用是基于原生进行部署的,享受云原生带来的疾速、弹性、灵便按需等能力。 对于大数据技术,曾经从数据的对立归集到了大数据 3.0 模式,从数据资产到价值再到数据服务化。而当初对基础设施的要求就是能通过一套云原生的基础设施去承载企业的不同利用,收集企业的所有数据,进行企业数据化转型的大数据底座的建设。 数据是企业十分重要的生产因素,数据和数据价值的演进也通过了四个阶段:通过数据仓库和数据库对数据进行对立收集整理的数据统一化阶段、通过数据治理造成高质量数据的数据业务化阶段、通过数据智能与剖析实现数据资产化的阶段以及通过数据共享交易实现数据的生态化阶段。 随着数据价值的演进,大数据和云技术也在一直演进以适应这种数据价值的开掘,大数据的倒退链条是从 2004年Google 提出大数据分布式计算框架 MapReduce,到加州大学伯克利分校的AMP实验室所开源的专为大规模数据处理而设计的疾速通用的计算引擎Spark,到起初呈现的低延时流解决引擎 Flink等更多机器学习框架大量涌现,解决大数据量大、疾速等的特定需要。2017 年星环科技公布了首个基于容器云的极速大数据平台 Transwarp Data Hub。与此同时,云的技术也在一直演进,从开源的云计算治理平台我的项目 OpenStack到开源的利用容器引擎 Docker 再到当初基于K8S等技术的云原生。 2018 年星环科技,把大数据和云这两条技术进行了交融,星环基于底层云原生基础设施平台,把大数据进行了容器化部署和云原生调度,造成了星环数据云TDC,数据云是以新一代云原生技术为根底,以数据为核心,供残缺的数据利用以及剖析的开发工具,造成数据和利用互联互通的企业级云服务。 03数据云,将来5-10年企业数字化基础设施 随着技术的提高和业务需要演进,企业的利用、数据、基础设施都在不停地迭代,这种迭代也促使数据云从概念走向落地。星环基于云原生的数据云 TDC 实现了数据 PaaS、利用PaaS、剖析 PaaS 三云交融,将来企业的开发人员,就能够在这个标准化的 PaaS 服务之上实现 SaaS 利用的开发,而这也是未来 5-10年企业数字化基础设施建设的新模式。 TDC 的联邦云架构兼容多种根底设置,能够将企业公有云、私有云以及公有云和私有云混合基础设施进行对立接入和对立纳管,可利旧并兼容已建设的 IaaS 根底设置,造成残缺的云基础设施,可能反对企业级数据利用云平台的长期演进。 在云在基础设施之上提供了数据 PaaS、剖析 PaaS、利用 PaaS 能力。TDC 剖析 PaaS提供了数据迷信平台、常识图谱平台等智能剖析工具,通过剖析 PaaS 企业能够自主建模造成一些智能化利用;TDC 的利用 PaaS 提供了利用市场和利用开发平台供企业应用开发人员应用,通过利用 PaaS 企业能够建设不同的业务零碎服务不同的部门;TDC的数据 PaaS 是提供大数据平台、大数据开发工具等,通过数据 PaaS 能够解决大数据开发、大数据治理等问题。 除此之外,TDC 提供了数据云治理平台Transwarp Data Cloud Management Platform,有了这个数据云治理平台企业用户就能够自服务的对大数据产品进行部署、运维、装置、扩容、降级。在云治理平台上星环把开源的以及星环自有的产品打包成一个自服务的产品,提供给最终用户。 ...

August 16, 2021 · 1 min · jiezi

关于大数据处理:UCloud一站式智能大数据平台USDP免费版正式发布

背景在大数据业务零碎中,所有技术栈生态均是围绕着存储进行扩大的,目前开源的支流存储技术栈次要蕴含如下 3 种类型: · HDFS:Hadoop 系列套件,蕴含 Hive、HBase、Phoenix 等; · ElasticSearch:蕴含 Logstash、ElasticSearch、Kibana 等; · Kudu:蕴含 Impala 等; 无论针对哪种存储生态,其外层负责数据计算的技术栈很多都是通用的,例如Spark、Flink 简直反对读写所有存储生态中的数据。对于生产环境而言,抉择哪一种存储生态,往往取决于业务状态以及业务部门对不同技术栈的熟练程度。 针对大数据生态中的泛滥服务,Cloudera(CDH,反对HDFS、Kudu生态)与Ambari(HDP,反对HDFS生态) 提供了部署、治理、监控、运维大数据服务组件与大数据节点的能力。但随着Cloudera与Ambari合二为一,CDH与 HDP合并为CDP发行版,在后续的版本中不再提供免费版性能。这对于国内企业的大数据业务无疑减少了不少开发、运维老本,如果持续应用收费的旧版本,将无奈失去新个性的更新反对和BUG的及时修复。 在此背景下,UCloud基于多年大数据平台开发教训,近日全新公布了针对私有化部署场景下的一站式智能大数据平台USDP免费版。免费版USDP反对HDFS、Kudu、ES全生态,助力企业晋升大数据开发、运维效率,疾速构建大数据业务的剖析解决能力。 兼容最广的一站式智能大数据平台 USDP涵盖了HDFS、Hive、HBase、Spark、Flink、Presto、Atlas、Ranger 等泛滥开源大数据组件,反对对这些组件进行运维、中台建设、数据开发、业务可视化等全栈式大数据开发运维治理。USDP通过轻量、易用、傻瓜式的状态交付给用户,反对对不同模块进行拆分,从而实现高度定制化,灵便匹配各垂直行业场景下的需要。 目前,UCloud一站式智能大数据平台USDP所反对的服务如表格所示,同时还在继续拓展更多开源生态组件服务。 相比Cloudera(CDH、CDP)、Ambari(HDP),USDP反对更多丰盛的大数据服务包含Flink、Kylin、Livy、Phoenix、Tez、Elasticsearch、Kibana、Azkaban、Presto、Atlas、Kafka Eagle、ZKUI等,简直涵盖了所有支流技术框架,且所反对的大数据服务之间齐全兼容,用户能够灵便抉择、按需应用。此外,UCloud大数据技术团队继续跟进开源社区停顿以及产品反馈,对潜在的 Bug 进行及时修复,用户无需再思考大数据服务之间的适配问题。在CDH订阅付费模式下,免费版USDP无疑是当下大数据开发运维的最佳抉择! 自研治理组件,平安可靠性更高USDP作为UCloud大数据团队自主研发的一站式智能大数据平台,其整体架构如下图所示: 上图中,Manager Server为USDP治理端服务,需装备一个MySQL实例存储集群相干的元数据信息。Agent为USDP从节点管制端服务,用于治理、操作所在节点以及所在节点上的大数据服务。其中BigData Service为各类大数据服务(例如:HDFS、YARN等)。 InfluxDB、Prometheus、Grafana作为监控服务,用于汇总并展现整个集群的监控数据。 USDP反对起码3个节点,最多上千节点的集群规模,同时,容许Manager Server与Agent等相干服务部署在雷同的节点上,这样满足大型业务的同时,也尽可能帮忙用户应用较小的老本满足小型业务对数据分析的诉求。 USDP一站式智能大数据平台的外围劣势无需放心业务绑定 USDP中所蕴含的大数据服务、组件,均满足 Apache 2.0开源协定,UCloud大数据团队在做过大量兼容性测试后,踊跃回馈社区,并将编译后的兼容包全面公开公布。因为自身紧跟开源社区的步调,用户能够随时进行自主替换、自主建设、自主数据迁徙、集群迁徙等,因而无需放心大数据业务与闭源服务绑定。 傻瓜式部署形式 为了能让用户体验到极简的大数据部署运维、治理计划,USDP提供了丰盛具体的部署、操作文档,并且用户无需放心装置时筹备泛滥内容,初始化环境只须要简略几步,即可主动实现配置。 1-环境查看 2-服务部署 全面丰盛的监控指标 USDP预置的监控指标次要蕴含三局部内容: • JMX全量指标采集 • Http罕用指标采集 • 自定义指标采集 以上三局部监控数据最终将汇总于USDP的 Promethues中,并在每个服务的概览页面中,展现最罕用的监控指标,同时,在Grafana中,通过 USDP官网预置的监控模板(Dashboard),用户能够查看最具体监控指标。如果USDP预置的监控图标无奈满足业务需要,用户也能够自定义增加所需的监控图表。 灵便便捷的告警服务 USDP提供预置的告警模板,用户只须要疏导进行简略配置,即可实现向不同指标(微信、钉钉、邮件、接口调用等)发送集群指标告警的需要。与监控指标的设计类似,如果用户认为预置的告警模板无奈满足业务需要,也能够自定义对告警模板进行批改,或增加新的告警规定。 业余的技术支持 UCloud大数据团队积淀了多年私有云大数据运维和业务调优教训,通过继续更新的文档知识库,为用户提供专家级技术支持,解决应用USDP的后顾之忧。 反哺开源社区 USDP免费版中所应用的开源、全面兼容优化后的服务包,将反哺回开源社区,为开发者提供收费的下载渠道。 USDP解锁丰盛的大数据场景 应用USDP一站式智能大数据平台,能够在各行各业中实现如下利用场景。 数据仓库 ...

May 19, 2021 · 1 min · jiezi

关于大数据处理:大数据背景下房地产行业如何做好数字化转型

在大数据时代背景下,随同着房地产企业的高速倒退,房地产已从增量市场进入存量市场,客户需要从被动向被动、多元化需要倒退。对于房企而言,在行业趋势、政策背景、客户需要等多种因素的驱动下,房企实现数字化经营曾经成为必然趋势。甚至能够说,在行将到来的房企数字化时代下,谁能率先在业内实现数字化转型和经营,谁就能够在将来的倒退过程中更具备话语权。 房地产行业数字化经营有什么劣势呢? 1、能够通过数字化平台,记录客户数据,能精准地把握客户购房信息,进行大数据的存储与剖析,如什么样的户型更受市场喜爱,客户购房动向产生了哪些变动,房企可针对性欠缺产品,做出科学决策。 2、能够间接与客户在线进行交互,突破以往的线下服务场景化。比方,房地产售楼部的征询在线化,通过APP、公众号、小程序就能够实现与客户的在线触达,也能够实时与线上的客户进行沟通,进步房企的服务效率。 3、能够升高开发商对渠道商的依赖,房企能够通过搭建网络销售平台,客户能够间接在公司平台上查看所有我的项目,对客户而言,购房效率更高了,突破了以往购房的地区、空间、工夫的局限性。 4、造成一个生态闭环,房企把握客源,可通过客源反馈一直优化产品,对房企来说,能够一直实现自我更新、自我学习、自我迭代,不必放心在大数据时代下被市场淘汰。 那么,该如何进行数字化转型呢?思迈特软件Smartbi给您答案。 1、Smartbi房地产大数据公司案例-技术解决方案 2、Smartbi房地产大数据公司案例-数据仓库解决方案 数据仓库建设指标: 涵盖全副业务主题,提供欠缺数据根底 -> 齐备性,可扩展性 逐渐进行档次汇总,取得称心查问效率 -> 易用性,高可用性 3、Smartbi房地产大数据公司案例-挪动端业务解决方案 4、Smartbi房地产大数据公司案例-综合看板解决方案 ● 让管理人员对全团体的财务数据、营运数据、预估的财务和营运数据有一个粗疏的理解。并能够通过工夫、业态、机构等维度理解具体的数据,科学决策 ● 剖析团体、城市公司、商场等销售额度、租金、出租率、坪效、客流等营运状况,进行精细化的治理 ● 将营运的外围指标如销售额、坪效,等依照城市公司和商场进行排名, 比照不同公司的营运状况,同一子公司不同商场的营运状况

May 7, 2021 · 1 min · jiezi

关于时序数据库:时序数据库DolphinDB文本数据加载教程

DolphinDB提供以下4个函数,将文本数据导入内存或数据库: loadText: 将文本文件导入为内存表。 ploadText: 将文本文件并行导入为分区内存表。与loadText函数相比,速度更快。 loadTextEx: 将文本文件导入数据库中,包含分布式数据库,本地磁盘数据库或内存数据库。 textChunkDS:将文本文件划分为多个小数据源,再通过mr函数进行灵便的数据处理。 DolphinDB的文本数据导入不仅灵便,功能丰富,而且速度十分快。DolphinDB与Clickhouse, MemSQL, Druid, Pandas等业界风行的零碎相比,单线程导入的速度更快,最多可达一个数量级的劣势;多线程并行导入的状况下,速度劣势更加显著。 本教程介绍文本数据导入时的常见问题,相应的解决方案以及注意事项。 自动识别数据格式大多数其它零碎中,导入文本数据时,须要由用户指定数据的格局。为了不便用户,DolphinDB在导入数据时,可能自动识别数据格式。 自动识别数据格式包含两局部:字段名称辨认和数据类型辨认。如果文件的第一行没有任何一列以数字结尾,那么零碎认为第一行是文件头,蕴含了字段名称。DolphinDB会抽取大量局部数据作为样本,并主动推断各列的数据类型。因为是基于局部数据,某些列的数据类型的辨认可能有误。然而对于大多数文本文件,毋庸手动指定各列的字段名称和数据类型,就能正确地导入到DolphinDB中。 请留神:DolphinDB反对自动识别大部分DolphinDB提供的数据类型,然而目前暂不反对辨认UUID和IPADDR类型,在后续版本中会反对。loadText函数用于将数据导入DolphinDB内存表。下例调用loadText函数导入数据,并查看生成的数据表的构造。例子中波及到的数据文件请参考附录。 dataFilePath="/home/data/candle_201801.csv"tmpTB=loadText(filename=dataFilePath);查看数据表前5行数据: select top 5 * from tmpTB;symbol exchange cycle tradingDay date time open high low close volume turnover unixTime------ -------- ----- ---------- ---------- -------- ----- ----- ----- ----- ------- ---------- -------------000001 SZSE 1 2018.01.02 2018.01.02 93100000 13.35 13.39 13.35 13.38 2003635 2.678558E7 1514856660000000001 SZSE 1 2018.01.02 2018.01.02 93200000 13.37 13.38 13.33 13.33 867181 1.158757E7 1514856720000000001 SZSE 1 2018.01.02 2018.01.02 93300000 13.32 13.35 13.32 13.35 903894 1.204971E7 1514856780000000001 SZSE 1 2018.01.02 2018.01.02 93400000 13.35 13.38 13.35 13.35 1012000 1.352286E7 1514856840000000001 SZSE 1 2018.01.02 2018.01.02 93500000 13.35 13.37 13.35 13.37 1601939 2.140652E7 1514856900000调用schema函数查看表构造(字段名称、数据类型等信息): ...

March 29, 2021 · 8 min · jiezi

关于大数据处理:清明节来了如何利用大数据分析快速选择自己的游玩路线

快到四月份啦,也意味着年后的第一次小长假要来啦,往年的清明节有3天小假期,对于春节仍辛苦工作的打工人来说,是难得的假期。而且又是春暖花开的节令,有数人那颗游览跳动的心开始躁动不安。去哪里玩耍,成为大多数人最为关怀的话题。 这个时候,人们用的最多的就是百度游览了,各种查问,看人们的口碑,从而决定走那条路线了,之后就是倍加苦楚的游览攻略了。其实和下班熬夜没啥区别,满满的打算还是打算,从A想到B,再从B打算到C.......这个过程,属实非常的劳人精力。如果这些汇总的数据不须要人工汇总,而是通过网络爬虫爬出来,而后利用可视化图表将获取的数据进行汇总,而后再根据兴趣爱好进行分类,用户能够输出本人兴趣爱好,就能够取得举荐路线,这样就是极大的晋升用户的效率及玩耍的满意度,毕竟是依照本人的趣味和喜好来的。 其实,这块有些依靠大数据的意思,又波及数据报表及数据汇总展现等等业余相干常识。可能不太了解,您能够设想一下百度地图和高德地图的呈现,让咱们的生存便利性晋升了多少,这个其实就是咱们明天要说的,科技扭转人们的生存。作为大数据和数据展现的利器,Smartbi能够从数据的抓取到数据传输、再到数据计算、存储轻松,并胜利的以各种报表及大屏数据可视化的形式展示给大家。Smartbi帮忙技术人员疾速部署和开发BI零碎包含中国式报表、多维度剖析和可视化仪表盘等。报表剖析软件的设计过程可视化,鼠标利落拽即可疾速实现数据集筹备、可视化摸索和仪表盘的制作,丰盛的可视化展现,轻松制作BI看板。Smartbi就是大数据分析软件及BI工具,反对定制化开发,也就是说零碎自身有本人的一套模式,然而这套模式并不是惟一的,须要什么需要能够依据使用者来制订。 总得来说,在大数据的明天,如果你清明想去哪里玩,无妨利用一下相干的技术,让Smartbi通知你。对于BI工具Smarbi方面有什么想理解的,能够间接征询思迈特软件工作人员,会有专门的技术人员为你解答。

March 25, 2021 · 1 min · jiezi

关于大数据处理:干货丨DolphinDB-API性能基准测试报告

概述DolphinDB是一款高性能分布式时序数据库(time-series database),属于列式关系型数据库,由C++编写,具备内置的并行和分布式计算框架,可用于解决实时数据和海量历史数据。 DolphinDB database除了提供本人的脚本语言外,还提供了C++、Java、C#、Python、R等编程语言API,便于开发者在各种不同的开发环境中应用DolphinDB。 本文将测试API接口(C++、Java、C#、Python、R)与DolphinDB交互的性能,具体包含以下场景: 单用户上传数据到内存表多用户并发上传数据到分布式(DFS)数据库多用户并发从DolphinDB下载数据到客户端多用户并发发送计算工作(计算某天某个股票的分钟级k线)到DolphinDB,并返回后果测试环境2.1 硬件配置 本次测试应用了三台配置雷同的服务器(SERVER1,SERVER2,SERVER3),每台服务器的配置如下: 主机:PowerEdge R730xd CPU:E5-2650 24cores 48线程 内存:512G 硬盘:HDD 1.8T * 12 网络:万兆以太网 OS:CentOS Linux release 7.6.1810 2.2 软件配置 C++ : GCC 4.8.5 JRE : 1.8.0 C# :.net 2.2.105 Python : 3.7.0 R:3.5.2 DolphinDB : 0.94.2 2.3 测试框架 DolphinDB集群部署在SERVER1上,API程序运行在SERVER2和SERVER3上,通过网络连接到SERVER1上的DolphinDB数据节点进行测试。 DolphinDB集群配置如下: 集群蕴含1个管制节点和6个数据节点; 内存:32G/节点 * 6节点 = 192G 线程:8线程/节点 * 6节点 = 48 线程 硬盘:每个节点配置一个独立的HDD硬盘,1.8T/节点 * 6 = 9.6T 单用户上传数据性能测试本节测试单用户通过API上传数据到DolphinDB服务器。在SERVER1的DolphinDB集群上创立一张内存表,SERVER2上运行API程序,将数据写入到SERVER1内存表中。 写入的数据表字段包含STRING、INT、LONG、SYMBOL、DOUBLE、DATE、TIME等不同类型的字段,共45列,每行336字节 ,共上传100万行,大小约336Mb。测试每次上传10~100000 行的状况下的吞吐量和时延。 该场景因为是单用户,并且不会波及到磁盘操作,因而次要测试API程序数据格式到DolphinDB数据格式的转换性能,CPU性能和网络对测试后果会有较大的影响。各个API的测试后果如下: 表1. C++ API单用户上传数据到内存表测试后果 ...

January 28, 2021 · 1 min · jiezi

关于大数据处理:干货丨时序数据库DolphinDB异常检测引擎教程

1. 概述物联网设施(如机床、锅炉、电梯、水表、气表等等)无时无刻不在产生海量的设施状态数据和业务音讯数据,这些数据的在采集、计算、剖析过程中又经常波及异样数据的检测。 DolphinDB作为一个高性能的分布式时序数据库 (time series database),内置了一个流数据框架,既能实时处理剖析这些物联网数据,也能对历史数据进行计算剖析,帮忙用户利用、施展这些数据的价值。DolphinDB内置的流数据框架反对流数据的公布、订阅、预处理、实时内存计算、简单指标的滚动窗口计算等,是一个运行高效,应用便捷的流数据处理框架。具体介绍详见DolphinDB流数据教程。 针对异样数据检测的需要,DolphinDB提供基于流数据框架的异样检测引擎函数,用户只需指定异样指标,异样检测引擎就能够实时地进行异样数据检测。 2. 异样检测引擎框架DolphinDB的异样检测引擎建设在流数据的公布-订阅模型之上。下例中,通过createAnomalyDetectionEngine函数创立异样检测引擎,并通过subscribeTable函数订阅流数据,每次有新数据流入就会按指定规定触发append!{engine},将流数据继续输出异样检测引擎中。异样检测引擎实时检测数据是否合乎用户自定义的警报指标temp>65,如发现异常数据,将它们输入到表outputTable中。 share streamTable(1000:0, `time`device`temp, [TIMESTAMP, SYMBOL, DOUBLE]) as sensorshare streamTable(1000:0, `time`device`anomalyType`anomalyString, [TIMESTAMP, SYMBOL, INT, SYMBOL]) as outputTableengine = createAnomalyDetectionEngine("engine1", <[temp > 65]>, sensor, outputTable, `time, `device, 10, 1)subscribeTable(, "sensor", "sensorAnomalyDetection", 0, append!{engine}, true)这里对异样解决引擎波及到的一些概念做简要介绍: 流数据表:DolphinDB为流式数据提供的一种特定的表对象,提供流式数据的公布性能。通过subscribeTable函数,其余的节点或利用能够订阅和生产流数据。异样解决引擎数据源:为异样解决引擎提供"原料"的通道。createAnomalyDetectionEngine函数返回一个形象表,向这个形象表写入数据,就意味着数据进入异样解决引擎进行计算。异样指标:以元代码的格局提供一组解决流数据的布尔表达式。其中能够蕴含聚合函数,以反对简单的场景。数据窗口:每次计算时截取的流数据窗口长度。数据窗口仅在指标中蕴含聚合函数时有意义。输出表:异样检测引擎的输出表第一列必须是工夫类型,用于寄存检测到异样的工夫戳,如果有指定分组列,那么第二列为分组列,之后的两列别离为int类型和string或symbol类型,用于记录异样的类型(异样指标的表达式在metrics中的下标)和异样的内容。3. 异样指标异样检测引擎中的指标均要求返回布尔值。个别是一个函数或一个表达式。当指标中蕴含聚合函数,必须指定窗口长度和计算的工夫距离,异样检测引擎每隔一段时间,在固定长度的挪动窗口中计算指标。异样指标个别有以下三种类型: 只蕴含列名或非聚合函数,例如qty > 10, lt(qty, prev(qty))。对于这类指标,异样检测引擎会对每一条收到的数据进行计算,判断是否合乎指标并决定是否输入。所有呈现的列名都在聚合函数的参数中,例如avg(qty - price) > 10, percentile(qty, 90) < 100, sum(qty) > prev(sum(qty))。对于这类指标,异样检测引擎只会在窗口产生挪动时对数据进行聚合计算,和工夫序列聚合引擎(Time Series Aggregator)相似。呈现的列名中,既有作为聚合函数的参数,也有不是聚合函数参数,例如avg(qty) > qty, le(med(qty), price)。对于这类指标,异样检测引擎会在在窗口产生挪动时对聚合列进行聚合计算,并在有数据达到时对每一条数据进行计算,其中聚合函数的返回值应用最近一个窗口的计算值。4. 数据窗口当异样指标中蕴含聚合函数时,用户必须指定数据窗口。流数据聚合计算是每隔一段时间,在固定长度的挪动窗口中进行。窗口长度由参数windowSize设定;计算的工夫距离由参数step设定。 在有多组数据的状况下,若每组都依据各自第一条数据进入零碎的工夫来结构数据窗口的边界,则个别无奈将各组的计算结果在雷同数据窗口中进行比照。思考到这一点,零碎依照参数step值确定一个整型的规整尺度alignmentSize,以对各组第一个数据窗口的边界值进行规整解决。 (1)当数据工夫类型为MONTH时,会以第一条数据对应年份的1月作为窗口的上边界。 (2)当数据的工夫类型为DATE时,不对第一个数据窗口的边界值进行规整。 ...

January 21, 2021 · 2 min · jiezi

关于SegmentFault:时序数据库DolphinDB历史数据回放教程

一个量化策略在用于理论交易时,解决实时数据的程序通常为事件驱动。而研发量化策略时,须要应用历史数据进行回测,这时的程序通常不是事件驱动。因而同一个策略须要编写两套代码,不仅耗时而且容易出错。在 DolphinDB database 中,用户可将历史数据依照工夫程序以“实时数据”的形式导入流数据表中,这样就能够应用同一套代码进行回测和实盘交易。 DolphinDB的流数据处理框架采纳公布-订阅-生产的模式。数据生产者将实时数据持续地以流的模式公布给所有数据订阅者。订阅者收到音讯当前,可应用自定义函数或者DolphinDB内置的聚合引擎来解决音讯。DolphinDB流数据接口反对多种语言的API,包含C++, C#, Java, 和Python等。用户能够应用这些API来编写更加简单的解决逻辑,更好地与理论生产环境相结合。详情请参考DolphinDB流数据教程。 本文介绍replay和replayDS函数,而后应用金融数据展现数据回放的过程与利用场景。 1. 函数介绍replay replay(inputTables, outputTables, [dateColumn], [timeColumn], [replayRate], [parallelLevel=1])replay函数的作用是将若干表或数据源同时回放到相应的输出表中。用户须要指定输出的数据表或数据源、输出表、日期列、工夫列、回放速度以及并行度。 replay函数参数概念如下: inputTables: 单个表或蕴含若干表或数据源(见replayDS介绍)的元组。outputTables: 单个表或蕴含若干个表的元组,这些表通常为流数据表。输出表和输出表的个数统一,且一一对应,每对输出、输出表的构造雷同。dateColumn, timeColumn: string, 示意输出表的日期和工夫列,若不指定则默认第一列为日期列。若输出表中工夫列同时蕴含日期和工夫,须要将dateColumn和timeColumn设为同一列。回放时,零碎将依据dateColumn和timeColumn的设定,决定回放的最小工夫精度。在此工夫精度下,同一时刻的数据将在雷同批次输入。比方一张表同时有日期列和工夫列,然而replay函数只设置了dateColumn,那么同一天的所有数据会在一个批次输入。replayRate: 整数, 示意每秒钟回放的数据条数。因为回放时同一个时刻数据在同一批次输入,因而当replayRate小于一个批次的行数时,理论输入的速率会大于replayRate。parallelLevel: 整数, 示意读取数据的并行度。当源数据大小超过内存大小的时候,须要应用replayDS函数将源数据划分为若干个小的数据源,顺次从磁盘中读取数据并回放。指定多个读取数据的线程数可晋升数据读取速度。replayDS replayDS(sqlObj, [dateColumn], [timeColumn], [timeRepartitionSchema])replayDS函数能够将输出的SQL查问转化为数据源,联合replay函数应用。其作用是依据输出表的分区以及timeRepartitionSchema,将原始的SQL查问依照工夫程序拆分成若干小的SQL查问。 replayDS函数参数概念如下: sqlObj: SQL元代码,示意回放的数据,如<select * from sourceTable>。dateColumn: 字符串, 示意日期列。若不指定,默认第一列为日期列。replayDS函数默认日期列是数据源的一个分区列,并依据分区信息将原始SQL查问拆分为多个查问。timeColumn: 字符串, 示意工夫列,配合timeRepartitionSchema应用。timeRepartitionSchema: 工夫类型向量,如08:00:00 .. 18:00:00。若同时指定了timeColumn, 则对SQL查问在工夫维度上进一步拆分。单个内存表回放 单内存表回放只须要设置输出表、输出表、日期列、工夫列和回放速度即可。 replay(inputTable, outputTable, `date, `time, 10)应用data source的单表回放 当单表行数过多时,能够配合应用replayDS进行回放。首先应用replayDS生成data source,本例中指定了日期列和timeRepartitionColumn。回放调用与单个内存表回放类似,然而能够指定回放的并行度。replay外部实现应用了pipeline框架,取数据和输入离开执行。当输出为data source时,多块数据能够并行读取,以防止输入线程期待的状况。此例中并行度设置为2,示意有两个线程同时执行取数据的操作。 inputDS = replayDS(<select * from inputTable>, `date, `time, 08:00:00.000 + (1..10) * 3600000)replay(inputDS, outputTable, `date, `time, 1000, 2)应用data source的多表回放 ...

January 20, 2021 · 2 min · jiezi