数据处理 | 乐趣区

关于数据处理:获奖案例巡展信创先锋之星甘肃省住房和城乡建设厅住建数据大脑

为表彰应用大数据、人工智能等根底软件为企业、行业或世界做出杰出贡献和微小翻新的标杆我的项目，星环科技自2021年推出了“新科技星力量” 星环科技科技实际案例评选活动，旨在为各行业提供更多的优良产品案例，彰显技术扭转世界的力量，目前已胜利举办两届，收到了来自各界的积极参与。第二届星环科技科技实际案例评选活动新增了“年度信创先锋之星”，通过产业界、学术界专家联结评审，最终评比出了“年度信创先锋之星”、“年度科技向善之星”、年度价值奉献之星”、“年度科技前沿之星”、“年度技术革新之星”五大奖项，并特此进行案例巡展。本期巡展案例为取得第二届“新科技星力量” 星环科技科技实际案例评选活动“年度信创先锋之星”的甘肃省住房和城乡建设厅互联网+政务服务和监管零碎-甘肃省住建数据大脑。案例背景甘肃省住房和城乡建设厅在推动新型“智慧城市”建设，通过“智慧城市”及其相干畛域的信息化建设，实现城市规划、建设、治理、服务能力晋升，放慢推动中央和部门“互联网+监管”零碎建设并与国家“互联网+监管”零碎对接联通，推动造成对立标准、信息共享、协同联动的全国“互联网+监管” 体系方面，面临以下问题：一是利用零碎建设扩散，不足整合，孤岛分布、烟囱林立；二是数据资源整合、共享水平不高。甘肃省住建数据大脑，用于帮忙“甘肃省住房和城乡建设厅”实现对政务数据采集、加工、存储、计算、剖析、数据治理等数据全生命周期服务。建设“一源、一数、一脑、一智、一屏”的智慧住建“数据大脑”撑持平台。实现省、市、县三级住建主管部门业务零碎互联互通和信息跨部门、跨层级共享共用的指标，成为智慧住建数据大脑 + 智慧业务撑持 + 智慧利用的整体框架的重要反对局部，继续推动既有平台迭代更新与互联互通，实现全省住房城乡建设行业信息全笼罩，无效晋升住房城乡建设畛域社会治理能力。解决方案该我的项目基于星环科技大数据根底平台TDH、分布式交易型数据库KunDB、大数据开发工具TDS产品，以及数据湖、数据仓库、数据中台、湖仓一体解决方案，构建甘肃省住建数据大脑：大数据汇聚与根底撑持平台提供对数据的剖析计算、存储加工能力，是整个住建厅数据大脑技术底座；数据共享替换平台是“以共享为根底、以需要为导向、以利用为抓手、以平安为撑持、以制度为保障”的根本准则，依照“内外联动、点面结合、高低协同”的工作思路，搭建目录编制、多源数据接入、资源公布、批量和实时共享服务为一体的对立的政务数据共享替换平台；数据资源核心平台是数据接入、数据归集和数据治理造成的后果，包含数据湖和主题库、专题库三局部；数据治理平台是进行数据治理和数据管理的重要根底撑持，采纳数据规范与数据治理管控工具，交融数据治理征询方法论，通过数据规范、数据品质、数据保护等多维度能力反对数据治理专题工作，晋升数据管理程度；数据分析平台是面向部门级提供自助式剖析利用，买通数据分析利用的全场景需要，提供报表剖析、大屏可视化、自助式剖析、报告利用、预测与开掘等多元化分析方法，全方位晋升数据分析能力，精准撑持领导决策；服务共享平台是依照国家《政务信息资源目录体系》及国标要求，以元数据为根底，交融全文检索和标签零碎能力，提供动静更新、多维度、分级管理的服务共享平台管理系统。案例施行功效进步公共服务程度，构建服务型政府通过智慧住建大脑获取住建行业信息及其他部门的共享信息，翻新住建智慧化利用，能够发展被动服务，为公众提供自助服务，以智慧化服务伎俩满足公众日益增长的服务需要，进一步不便居民和企业办事，促成服务型政府构建。进步住建厅的信息化和管理水平，通过整合的数据分析为领导者决策提供撑持通过智慧住建大脑盘活数据资产，为各级住建部门提供数据汇聚、数据共享替换、数据治理等数据全生命周期服务，对立解决以后建设中存在的扩散、孤立状态，突破信息“孤岛”，实现和提供跨地区、跨机构、跨业务畛域的数据交换和资源共享服务。同时使用关联剖析、比照剖析等技术手段，对海量大数据进行多维的深度剖析；深入数据分析后果利用，服务住建部门决策、日常治理，充沛开释效力。满足政务服务业务办理需要，缩小企业及办事人少填写，少上传通过一直夯实数据根底，实现为企业和大众提供住房公积金查问、企业资质查问、人员注册信息查问、外省进甘企业信息查问、建设工程项目查问等多方面查问服务。案例翻新点 1.增强数据整合共享，让利用更加智慧。智慧住建数据大脑作为外围利用数据底座撑持，实现让数据多跑路，让大众少跑路。 2.升高数据建设老本，进步政务办理效率。作为住建厅与住建部、各委办厅局、上级各住建局之间的数据信息“桥梁”，实现对立入口、对立进口、集中管理、高效服务指标，升高数据建设老本，进步政务办理效率，晋升 “放管服”能力。 3.实现数据的“资产化”，实现从查问、统计等“浅层”利用形式到推演、预测等“大数据”剖析形式的转变，实现布局数据的迷信辅助决策，数据的“资产化”，施展数据资源重要价值。

关于数据处理:从实测出发掌握-NebulaGraph-Exchange-性能最大化的秘密

自从开发完 NebulaGraph Exchange，混迹在各个 NebulaGraph 微信群的我常常会看到一类发问是：NebulaGraph Exchange 的性能如何？哪些参数调整下能够有更好的性能？…索性来一篇文章从实测登程，和大家讲讲如何用好这个数据工具。在本文你将取得 NebulaGraph Exchange 的最佳应用姿态。 01. 环境筹备硬件： Spark 集群：三台机器，每台 96 core，256 G 内存NebulaGraph 集群：三台机器，每台 128 core，252 G 内存，SSD，双万兆网卡数据：LDBC sf100 数据软件： Spark 版本：2.4.4NebulaGraph 版本：3.3.002. NebulaGraph 优化配置在进行大批量数据导入时，能够调整 NebulaGraph Storage 服务和 Graph 服务的配置，以达到最大导入性能。请依据 NebulaGraph 的配置形容和你的理论环境资源进行参数调整。在本次实际中，NebulaGraph 的集群配置针对以下几个配置项进行了批改，其余均采纳默认配置： "storaged": --rocksdb_block_cache=81920, --heartbeat_interval_secs=10, --reader_handlers=64, --num_worker_threads=64, --rocksdb_db_options={"max_subcompactions":"64","max_background_jobs":"64"} "graphd": --storage_client_timeout_ms=360000, --session_idle_timeout_secs=2880, --max_sessions_per_ip_per_user=500000, --num_worker_threads=64NebulaGraph Storage 服务优化在这里简略讲一下几个 Storage 服务优化配置项： --rocksdb_block_cache 数据在内存缓存大小，默认是 4 MB，大批量数据导入时能够设置到以后内存的 1/3；--num_worker_threads storaged 的 RPC 服务的工作线程数量，默认 32；--query_concurrently 为 true 示意 storaged 会并发地读取数据，false 示意 storaged 是单线程取数；--rocksdb_db_options={"max_subcompactions":"48","max_background_jobs":"48"}：可用来减速主动 Compaction 过程；--rocksdb_column_family_options={"write_buffer_size":"67108864","max_write_buffer_number":"5"}，在刚开始导入大量数据时能够将 disable_auto_compaction 选项设置为 true，晋升写入的性能；--wal_ttl=600 在大量数据导入时，若磁盘不富余，那么该参数需调小，不然可能会因为产生大量的 wal 导致磁盘空间被撑满。NebulaGraph Graph 服务优化再简略地列举下 Graph 服务相干的一些优化配置项： ...

关于数据处理:高效实践｜频繁项集挖掘算法在告警关联中的应用

本篇咱们将次要围绕频繁项集开掘算法的理论利用，即当该算法利用到告警关联场景中时，咱们遇到了哪些问题，如何解决这些问题，以及咱们如何在原始 FP-Growth 算法的根底上进行改良，从而研发了专用于告警关联场景下的 CW-FP-Growth 算法。为了展现该算法的实际效果，咱们在文末给出了这一算法在脱敏数据中的案例。一、频繁项集开掘与告警关联如何联合？在前文中，咱们介绍了频繁项集开掘问题以及两种典型的算法，然而如何将频繁项集开掘算法利用到告警关联及降噪中？为了答复这一问题，咱们能够先简要剖析一些运维的典型场景。在理论运维过程中常常会呈现如下状况，零碎短时间内产生了大量的告警，其中局部告警的内容具备较高的重复性，或这些告警之间彼此存在肯定的关联关系，如果每条告警都告诉，那么用户可能会收到大量的信息，然而并非每一条信息都具备很高的剖析价值，这些反复或无意义的告诉并不能帮忙运维人员减速定位故障，反而很大水平上消耗了他们的精力，令他们不能专一于那些真正须要解决的故障。那么如何解决这一问题？产生这一问题的次要起因在于告警之间不足剖析，如果可能在告诉运维人员之前，对告警进行一些初步的关联剖析与降噪，则能给缩小运维人员承受到的反复告诉，因而咱们尝试了从工夫相关性的角度找出须要剖析的指标告警的相干告警，这些相干告警与指标告警可能属于同一根因，或可能为查找指标告警的根因提供更多的信息，从而帮忙运维人员剖析故障之间的关联关系，使运维人员可能减速根因定位的过程。基于这一指标，咱们采纳频繁项集开掘算法从故障的产生工夫动手，开掘故障之间的关联规定，从而将这些关联规定中可信水平比拟高的局部用于告警降噪中。而在利用这一算法的过程中，咱们也常常被问到一些算法逻辑的相干问题，在这里咱们将简略的介绍这些问题的解决办法。问题一：如何在数据中开掘尽可能多的关联规定？在商品举荐的场景中，原始的数据库由多个项集组成，每个项集是消费者购买商品的记录，也就是说这些记录彼此之间的界线十分明确，而在告警关联的场景中，告警是连续不断生成的，因而如何将这些告警宰割为项集成为了咱们在开掘关联规定中面临的第一个问题。咱们试验的第一种办法是采纳滑动的工夫窗口解决这一问题，将固定工夫的窗口依照 1 分钟的步长进行滑动，则上午 10:00-10:05 内的告警被划分为第一个汇合，10:01-10:06 内的告警被划分为第二个汇合，以此类推。这尽管实现了跨窗口开掘规定，但这一构想引发了新的问题，假如存在规定呈现在 10:04-10:05 这段时间内，那么即便这一规定只呈现了一次，但却呈现在了 4 个不同的告警项集中，这将使得频繁项集算法开掘算法产生大量的错误判断。为了防止这种数据反复呈现带来的影响，咱们决定采纳一种变通的办法，即采纳了多个固定窗口组合的形式解决这种问题，通过将多个不同起始工夫和切分工夫的窗口的后果加以组合，以挖掘出同一份数据所有可能的关联规定，接着采纳邻接矩阵记录多个项之间的关联度用于筛选并合并屡次开掘产生的反复或抵触的规定。问题二：如何设计能力更不便用户了解并调整算法的相干参数？在对频繁项集开掘这一问题的介绍中，咱们引出了反对度这一概念，然而传统的反对度计算方法并不适用于告警关联场景中，或者说不合乎用户的调参直觉。同样一批数据在不同的工夫窗口下产生的告警项集个数并不相同，这导致用户很难依据心田的冀望精确的评估反对度阈值的大小，导致体验变差。针对这一问题，咱们采纳了告警呈现在几个项集中作为以后项的反对度，比方对于项集[A, B, C],[B, C, D],[D, F, A]，因为告警类别 B 呈现在了项集[A, B, C]和[B, C, D]中，因而反对度为 2。这近似于将某类告警中的告警个数作为此类告警的反对度，这种形式相比于传统的计算反对度的办法更加合乎用户的主观感知，便于用户依照本人的冀望应用算法。问题三：如何解决项集中的反复项，解决办法是否正当？在多个不同的用户场景中，咱们常常被问到这个问题，为解决反复项的问题，咱们最终抉择了保留其中之一的形式。因为项集[A,B,C]和项集[A,A,B,C]在计算项 A 的反对度时的贡献度是统一的，都会使项 A 的反对度加 1。而如果不去重，则反复项将会烦扰 FP 树的构建过程，比方对于项集[A, B, C]和项集[A, A, B, C]，这两个不同的项集将构建出一个长度为 3 的分支和一个长度为 4 的分支，但他们仅具备一个公共节点 A，图示如下，这导致 FP 树产生了不必要的分支，并可能会挖掘出相似于[A,A]这种无用的关联规定。而保留其中之一的办法可能在不影响后果的前提下解决这一问题，尽管简略然而具备合理性。问题四：如何抉择聚类维度？在实现数据的预处理后，咱们依然面临一个重要问题，即该以什么维度聚合告警？在介绍频繁项集开掘的基本概念时，咱们能够发现啤酒不论是哪种牌子，什么规格，他们都属于啤酒，不可能呈现一瓶啤酒被误认为是鸡蛋的状况，也就是说，商品自身具备类别属性，而在告警关联场景中，告警又该如何被划分类别呢？一种常见的办法是采纳 IP 进行划分，将告警依照 IP 聚类后，采纳该算法的确能够找出零碎中常常同时呈现故障的 IP。但这一办法也存在两个问题，首先不是所有告警都具备 IP 信息，这使得此类办法的应用存在肯定的限度条件，其次这些主机并不一定每次都呈现同样的故障，这使得该办法失去的关联规定并不精确。以上的两个问题使得采纳 IP 作为聚类维度尽管可行但并不总能失去好的后果，是否存在更适宜的维度呢？通过试验验证，咱们更心愿从故障的维度聚类告警，行将形容同一故障的告警聚合为一类，并通过频繁项集开掘类算法找出哪些常常一起呈现的故障。依据咱们的定义，警报与故障该当具备一一对应关系，因而理论应用过程中，咱们更加举荐用户抉择警报 ID 作为告警聚合的维度。 ...

关于数据处理:记录一次线上数据图源本地化操作的过程

最近学了一个比拟赞的电商我的项目，我的项目作者提供了残缺的示例数据，包含商品信息及配图，然而这些配图是固定的URL，商品详情为html，html中有img标签，img标签中也有url。依据过往教训这种在线CDN很容易挂掉，因而产生了把商品数据中的商品图片提取进去，放在本人的腾讯云服务器中的想法，保障可拜访性。演示数据[{ "ID": "b93e59e214fc4478ac72652a2c87fe54", "GOODS_SERIAL_NUMBER": "2300000059885", "SHOP_ID": "402880e860166f3c0160167897d60002", "SUB_ID": "402880e86016d1b5016016dcd7c50004", "GOOD_TYPE": 1, "STATE": 0, "IS_DELETE": 1, "NAME": "云南红提800g/盒", "ORI_PRICE": 18, "PRESENT_PRICE": 15, "AMOUNT": 10000, "DETAIL": "<img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112029_9395.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112029_3391.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112029_7603.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112029_4718.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_778.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_2602.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_7913.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_202.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_4296.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_6956.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112030_8200.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112031_3967.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20171225/20171225112031_5114.jpg\" width=\"100%\" height=\"auto\" alt=\"\" />", "BRIEF": null, "SALES_COUNT": 0, "IMAGE1": "http://images.koow.cc/shopGoodsImg/20171225/20171225112020_561.jpg", "IMAGE2": null, "IMAGE3": null, "IMAGE4": null, "IMAGE5": null, "ORIGIN_PLACE": null, "GOOD_SCENT": null, "CREATE_TIME": 1514172047397, "UPDATE_TIME": 1522037064430, "IS_RECOMMEND": 0, "PICTURE_COMPERSS_PATH": "http://images.koow.cc/compressedPic/20171225112020_561.jpg" }, { "ID": "e0ab2f6e2802443ba117b1146cf85fee", "GOODS_SERIAL_NUMBER": "4894375014863", "SHOP_ID": "402880e860166f3c0160167897d60002", "SUB_ID": "2c9f6c94609a62be0160a02d1dc20021", "GOOD_TYPE": 1, "STATE": 0, "IS_DELETE": 1, "NAME": "菓子町园道乳酸菌味夹心饼干（抹茶味）540/罐", "ORI_PRICE": 29.8, "PRESENT_PRICE": 29.8, "AMOUNT": 10000, "DETAIL": "<img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110655_230.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_329.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_2659.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_9521.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_8611.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_1390.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110656_7291.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_3919.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_2170.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_4402.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_1926.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_9438.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_4361.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110657_2730.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110658_314.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110658_8779.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110658_9878.jpg\" width=\"100%\" height=\"auto\" alt=\"\" /><img src=\"http://images.koow.cc/shopGoodsDetailImg/20180213/20180213110658_3471.jpg\" width=\"100%\" height=\"auto\" alt=\"\" />", "BRIEF": null, "SALES_COUNT": 0, "IMAGE1": "http://images.koow.cc/shopGoodsImg/20180213/20180213110648_2744.jpg", "IMAGE2": null, "IMAGE3": null, "IMAGE4": null, "IMAGE5": null, "ORIGIN_PLACE": null, "GOOD_SCENT": null, "CREATE_TIME": 1518491222336, "UPDATE_TIME": 1523174099461, "IS_RECOMMEND": 0, "PICTURE_COMPERSS_PATH": "http://images.koow.cc/compressedPic/20180213110648_2744.jpg" }]能够看到，数据比拟残缺，包含ID、编号、名称、价格、介绍等信息。如果想要提取JSON对象中的图片URL，对于其中的images1-images5对象比拟好解决，只须要遍历即可。对于DETAIL中的图片URL，因为URL混在html中，没有方法间接拿到，可通过正则匹配的模式获取。上面分步骤操作： ...

关于数据处理:改变人类使用数据的习惯五岁的-Kyligence-许下新愿望

扭转从来不是简略的事件，但 Kyligence 决定试一试。在 7 月 30 日举办的 Data & Cloud Summit 2021 行业峰会上，Kyligence 联结创始人兼 CEO 韩卿发表了 Kyligence 的全新愿景——“扭转人类应用数据的习惯”。他示意，面向未来的企业级数据服务与治理平台要让数据找到须要的人，而不再是人去找数据，通过人工智能、语音交互、智能举荐、常识图谱等各种新技术和新架构，进一步让数据为人服务。此外，Kyligence 发表了全新的 “智能数据云" 策略，将基于人工智能、云原生等技术构建下一代 AI 加强的数据服务与治理产品；并公布了最新产品 Kyligence v4.5，旨在通过更弱小、更高效、更便捷的数据智能平台，赋能企业数字化转型。智能 + 数据 + 云，Kyligence 策略全面降级数据仓库技术诞生数十年。但在云时代下，相干的行业假如曾经扭转。Kyligence 联结创始人兼 CEO 韩卿从以下几点进行了具体论述： 1. 数据的管理模式从集中式到分布式的扭转；2. 数据的应用对象从多数的决策者和专家，到一线业务人员和一般工作者的转变；3. 数据的生产形式从已知问题找答案，到通过智能举荐等性能来提供对未知问题的事后洞察。适应变动能力驾驭变动。面对海量数据、多个云平台、繁冗的数据源、技术间的整合和平台间的集成带来的难度，企业应如何做好数据管理和剖析？如何寻找有价值的数据？ Kyligence 正式发表策略全面降级 —— 致力于为企业客户打造 “智能数据云” (Intelligent Data Cloud) 平台：在做强剖析能力的根底上加强数据管理能力，以人工智能进一步代替人工工作，以云原生进一步代替基于 Hadoop 的基础架构，让数据服务与治理施展核心作用，帮忙企业智能治理最有价值数据，反对企业全面数字化转型。 “智能数据云，不仅是 Kyligence 近些年在寰球市场的业务实际，同时也是对云原生时代下技术发展趋势的思考和总结”，韩卿介绍道，“数据仓库在云时代的改革才刚刚开始，新的技术架构、新的应用形式、新的老本构造都将粗浅扭转这个行业。将来人类应用数据，该当和明天应用云计算一样简略、不便，只需关注数据自身，而无需关注到底在哪个平台上，真正实现数据的随取随用。” 目前 Kyligence 曾经反对微软 Azure，亚马逊 AWS 及华为云平台，并在踊跃布局其余私有云平台。此外，随着企业对公有云架构的需要低落，Kyligence 正式推出玄武打算，减速下一代基于 Kubernetes 及分布式对象存储等架构的公有云产品落地的过程，Kyligence 将为大型企业级客户提供公有云环境运行 AI 加强数据服务与治理的能力，并心愿更多的合作伙伴退出，联结共建。此外，Kyligence 还发表了 Kyligence Partner Network 合作伙伴打算，该打算将从培训认证、资源反对、推广单干等方面赋能合作伙伴，独特携手为寰球客户带来更优质的服务。 ...

关于数据处理:云原生时代企业多活容灾体系构建思路与最佳实践

简介：对于云原生的概念解读，大家常常会听到微服务、容器这些，那么这些技术跟企业容灾到底有什么样的关系？其实容灾的需要各行各业都有，比方金融行业对于容灾也有强烈的需要。然而怎么把容灾和多活能力构建起来，其实是每家企业都须要好好思考的。这篇分享心愿能给大家提供一些相干思路。对于云原生的概念解读，大家常常会听到微服务、容器这些，那么这些技术跟企业容灾到底有什么样的关系？其实容灾的需要各行各业都有，比方金融行业对于容灾也有强烈的需要。然而怎么把容灾和多活能力构建起来，其实是每家企业都须要好好思考的。这篇分享心愿能给大家提供一些相干思路。容灾零碎职能演进明天讲的多活，其实是容灾体系外面的一块，大家能够看一下整个容灾体系架构的演进：容灾 1.0：在原有利用零碎的构建过程中，业务零碎是基于传统架构部署在机房外面，那么相干的应急措施或者故障解决的方法呢？这个期间只思考到了数据备份，次要以冷备的形式。除了提供业务的机房，另外可能会思考到劫难场景做额定的机房。从零碎建设的角度，可能会抉择用独自的机房把数据同步到另外的机房做冷备，在呈现问题的时候切换。但在理论状况中，平时个别不会抉择切换机房，哪怕是每年做灾备零碎例行演练的金融行业，在生产过程中遇到零碎出了问题的时候都不太敢切换。容灾 2.0：更多地思考到了利用。比方云原生，或者再往下层利用在传统的 IOE 体系中，切换不仅仅是简略地切过去，把原来冷备的数据加载进去，而是心愿切过去的时候能够很疾速地把利用在另外的机房拉起来。为了实现数据层上的复制不会有太大延时，咱们通常会有双活的要求。然而个别做双活会有一些要求，比方间隔要求肯定范畴以内才能够做同城双活。双活更多会利用在 AQ 模式，即在生产这边做全业务，在另外机房做别的业务。容灾 3.0：心愿做成异地多活。多是什么？意思是不再局限两个机房，更心愿是三个或者更多的机房。比方阿里的业务散布在多个机房，怎么同时对外提供业务的撑持，这是须要对应技术支持的。而异地多活的意思就是不局限于间隔，比方 200 公里或者同城，因为现在的机房部署在全国各地。业务连续性以及容灾概述对于业务连续性来说其实有体系化的办法，指在容灾零碎建设上多年积攒下来的标准和领导，这其中有几个维度： 1、多活业务并不是跟原来的容灾一样，把对等在另外一个机房一样的业务间接拉过来，而是抉择有价值的业务。因为在容灾零碎建设中，要把所有的业务实现多活，在老本和技术实现上是十分艰难的。 2、实时性运行的保障，须要保障外围业务不会因为机房断电等各种起因进行服务。 3、M 代表保障体系。现在各行各业，可能都有本人不同的伎俩和治理的形式，而阿里提供的是将这一部分的货色转变为技术、工具和产品，让大家将来在构建多活能力的时候，能够很疾速地基于这套办法和产品构建业务的多活。 BCM 体系和 IT 容灾恢复能力是一个偏实际的指导性框架。从完整性来讲，顶部的业务连续性是指标，上面是各种实现形式。在底部能够看到例如 IT 打算，业务连续性呈现非凡问题解决故障的打算等，这些在原来做容灾的时候是会思考到的，而咱们是从多活的角度把这些货色思考在产品体系外面。这里提到的几个容灾形式，其实是比拟常见的：从冷备到同城双活、同城双活加异地冷备（两地三核心），这些在业内相对来说都是比拟标准的形式。而异地多活就好比在两地三核心的三个机房外面同时提供多活的能力，在以前的根底上，又跟原来传统的容灾有一些区别。多活在建设老本上与传统也有区别，比方构建异地多活的能力，在建设老本上比传统（例如同城双活和两地三核心）会有更多的投入。在构建多活能力的时候，其实也会思考到业务的理论状况。比方不同的行业，或者比方在多活方面只要求实现两边的读，那么不同状况下，建设老本以及对业务切换的工夫是有区别的。异地多活能力从横向时间轴来看的话能够做到分钟级切换，但如果基于冷备的话可能须要以天来切换。阿里为什么做多活在阿里的业务模式下，为什么要做多活的起因跟后面提到的相似。后面讲到的同城加冷备，如果不采纳多活就要建另外一个机房，老本十分高，因为那个机房只是用作平时的数据同步，并不处在运行状态，在这期间还须要不间断地更新生产零碎对应的版本和灾备零碎的版本。但理论状况下，原来的冷备或者两地三核心呈现故障的时候不敢去切换，因为很有可能切换后就无奈切回来。而做多活次要有三个次要的诉求： 1、资源。随着明天业务高速倒退，单地资源容量受限。咱们晓得云原生、云计算提供高可用、容灾的能力，然而云计算部署在不同的机房外面，跨地区多活的能力自身须要底层的基础设施来反对，咱们心愿把业务扩大到不受限于物理机房的限度，还达到多个机房同时接业务； 2、业务有多元化的需要，须要就地或异地部署的要求； 3、针对容灾事件。比方光缆挖断，或者天气起因机房供电散热的问题，这些都会导致单机房的故障。现在的需要心愿不受限于某个机房，而是有多个机房部署在全国各地处于不同的状态，依据业务模式能够灵便调控。因为这些诉求对多活的能力要求比拟迫切，所以阿里依据本人的业务需要和技术上的能力做了多活的计划和产品。多活架构的拆解多活架构的拆解 1、异地互备：明天大家讲云原生有多好，云计算有多好，没有多活能力这些技术其实就是闲置的状态。冷备状态时不工作，而在什么状态下要切到冷备大多要靠人的决策。因为层层上报对业务影响比拟大，比拟成熟的客户会有一些预案，比方什么样的影响和故障须要做这种切换，但实际上基于冷备模式的话个别不敢去做切换。 2、同城双活：有肯定的间隔限度，常见的双活模式在下层利用这一层，比方像云原生的 PaaS 层两面机房都能够散发。在数据这一层因为是同城能够用贮备的形式，主机房呈现问题数据库方面切到备机房，然而这个益处是两边机房的机器、资源都属于流动的状态。另外，机房处于流动的状态就不必放心生产的版本跟备机房的版本有辨别，不会不敢切。 3、两地三核心：除了思考同城提供这个问题，对于故障应答能力会更强，在异地建一个冷备的机房，这个跟冷备第一个计划有相似，冷备的机房平时是不必的，可能会做一些其余的同步，只有在故障产生的时候做切换。 4、异地多活：有多个数据中心同时对外提供业务的能力。因为间隔的局限，在数据层面的复制可能会受限于网络，导致延时的问题是肯定会存在的。这其中有很多技术问题要解决，比方怎么做到能够很疾速从北京机房切换到上海，底层的数据受物理限度状况下没有齐全同步怎么去切。咱们操作模式不像原来容灾的形式切换，而是要做一堆筹备工作和后续数据的弥补流程。咱们将这套货色交融到产品体系中，物理极限没有方法冲破咱们就用架构的模式来优化。递进式多活容灾架构对于要害外围业务，其实在做多活零碎或者我的项目的时候，对业务会做一些梳理，明天讲的是单元化的梳理。递进式多活容灾架构双读、两地三核心，个别状况下两个机房最多一半一半去分，这是最简略的。依照这种模式能找出业务切分的规定，比方能够依照用户号码，就像银行可能依照卡号或者用户所属地分成一半一半的业务。而在多活外面咱们心愿能够灵便去配，比方机房的解决能力多大，碰到的故障是什么样子，流量能够调成 50%、60% 或者其余比例。在多个机房也一样，能够统一分配流量接入的状况。 ...

关于数据处理:Tapdata-实时数据融合平台解决方案五落地

作者介绍：TJ，唐建法，Tapdata 钛铂数据 CTO，MongoDB中文社区主席，原MongoDB大中华区首席架构师，极客工夫MongoDB视频课程讲师。通过后面几篇文章，咱们从企业数据整合与分享的痛点，以及对数据中台的定义、技术需要以及技术产品的选项，都别离做了具体的论述。有了这么多解决方案，咱们来看一下，如果是基于一个 MongoDB 的计划会是怎么样？咱们方才只是讲的数据平台在做一些抉择，然而做一个欠缺的数据中台的话还须要很多其余模块，所以这外面是用到了另一个产品，就是Tapdata DaaS。通过 MongoDB 和 Tapdata DaaS 这样一个组合，一起来做这个中台的解决方案。这本章节里，咱们具体来介绍一下 tapdata DaaS 基于 MongoDB 的数据中台落地计划。为什么抉择 MongoDB 作为中台架构的数据平台咱们先来看MongoDB作为中台架构的平台劣势。 MongoDB 是一个多模数据库。所谓多模数据就是他一套零碎外面一套分布式集群，外面能够做很多的不同的事件，有的时候你能够把它作为一个内存数据库，能够把它作为一个目录数据库，也能够把它作为一个IOT的数据模型。就是说它的多模性个性是比拟有专长的，而且它的主动扩大能力也是非常适合这种中台的对立平台的需要。多模多态，对汇聚性也是十分重要，因为咱们须要撑持不同构造、半结构化、非结构化、甚至一些图片文件可能来做到这一些。另外，就是MongoDB的API敌对能力，采纳 JSON 作为传输格局。咱们晓得当初都是微服务，都是通过Data API的形式交付数据中台的数据。后面业务中台往往都是用微服务，也是通过这种RESTful API,那MongoDB的这种JSON模型对新一代的这种架构式有得天独厚的劣势，你会发现你花很少的工夫就能够把这个API构建好。另外，MongoDB 也原生提供这种 Streaming API 帮忙来做一些流解决的事件。所以MongoDB 作为一个中台的对立平台数据库，其实是有十分得天独厚的条件。当然，除了他的多表关联是可能是缺点。 MongoDB另外一个劣势就是它的对象模型。咱们的 JSON 模型就是十分靠近于咱们开发的对象，Json也好，或者是Java 里边的 Object，python 外面的 Dictionary。一个传统的数仓，或者是当初的数据中台的数据对立平台，要做很多的数据治理。比方要做一系列的建模的工作有概念建模、逻辑建模、物理建模。而且物理建模就是咱们所谓的物理层，那就波及到关系模型。治理一个逻辑对象，怎么样转化成五张表，十张表，20张表听从第三方批示，这外面其实是很简单，也会很花工夫。你要设计一个很好的模型，怎么样来撑持将来的业务，这也是为什么传统数仓会花那么多的落地我的项目代价来做这个事件。而MongoDB的解决方案能轻松地解决这方面的事件，这就是为什么 MongoDB 会受很多开发者的喜爱：MongoDB 在建模方面是一个十分独特的模式，它的模型是基于相似于这种逻辑模型的对象模型。你能够把它了解为差不多是一对一。业务人员个别都会明确这个概念，比方建模、逻辑建模，这些模型他们心里都无数。他们就是可能不懂那种种 DBA 说进去的的 Oracle 的这种建模形式，然而对于 MongoDB 来说，其实你只须要达到逻辑建模层的话，你就能够把这事件做了。而且这个模型建完了当前，间接能够用REST API的形式交付进来。从这一点上来说，它是有一个技术上是十分独到的一个先天性的劣势，尤其对咱们想做这种基于API的这种服务中台来说。 MongoDB 的读写拆散，HTAP反对全渠道业务需要。有一些开发者会说是 HTAP （Hybrid Transaction and Analytical Process），就是说又能够做剖析业务，也能够做的交易型的业务。在MongoDB外面，咱们怎么样来做这种事件呢？比如说一个集群外面，一个cluster，一个复制集，咱们有五个节点，四个Secondary，一个primary。右边的primary节点能够用来间接。间接跟咱们的手机或者是网页端的利用进行交互收集，采集数据，用户数据。那MongDB主动同步把的数据从primary同步到secondary外面。而后咱们还能够除去右边三个，作为失常的高可用集群来说，咱们还能够拿出两个节点专门用来做剖析，你看他这个use=analytics。就是一个标签，就比如说这两个节点是只是用来做于剖析型的，那这个时候咱们就能够用它来下面。加上咱们的BI connector，或者是间接用咱们的MongoDB charts和compass，间接能够对接MongoDB数据库做一些展现：kpi，dashboard等等。咱们也能够通过一些大数据接口，比如说spark connector 来做一些大型的machine learning或者是AI都是，有很多的这种利用场景，那这些都能够最实时的，在你最陈腐的数据上通过一个读写拆散的架构上来实现，你不须要再ETL。在MongoDB外面，这个ETL的需求量是十分非常少的，因为能够通过原生的这种同步来提供数据的汇聚，数据放到这个剖析集群外面。 ...