关于数据库:可信数据库大会不见不散

由中国信息通信研究院、中国通信标准化协会领导,中国通信标准化协会大数据技术标准推动委员会(CCSA TC601)、InfoQ 极客传媒联结主办的 2023 可信数据库倒退大会将于今日在北京国际会议中心隆重召开。 本届大会以“自主 · 翻新 · 引领”为主题,共设置 9 个论坛,除 7 月 4 日主论坛外,7 月 5 日分设 8 大分论坛。近百位行业协会领导、数据库学术大咖、产业链各环节数据库负责人、资深技术专家将齐聚本届大会。 KaiwuDB 将别离亮相 KaiwuDB 主论坛与在时序时空及图数据库分论坛。会前,小编采访了 KaiwuDB 两位嘉宾,一起看看来自大咖的会前 Tips: KaiwuDB CTO 魏可伟 Hi,各位好!我是 KaiwuDB CTO 魏可伟,很开心今天将在可信数据库大会和各位见面,本次想和大家聊聊对于“多模引擎、AI、IoT”等数据库关键技术。 面对当下工业 4.0 时代,如何减速数据价值化,晋升数据生产能力,成为将来数据库要害的发力点。一款真正合格抗打的数据除了须要满足海量数据存、储、管等根底需要,诸如 AI 预测剖析、关系型数据深度交融、云边端协同等高价值需要也是咱们致力于摸索的重点方向。 7 月 4 日下午,《打造多模引擎,AIoT数据库摸索之道》主题分享,欢送大家!  KaiwuDB 资深解决方案专家 周幸骏 哈喽,大家好!我是 KaiwuDB 资深解决方案专家周幸骏,从业 20 余年先后负责泛滥大型数据库我的项目方案设计与技术咨询工作。 本次加入可信数据库大会 - 时序时空及图数据库分论坛,也是第一次和大家正式见面。我将将围绕咱们“时序引擎”开展分享。 KaiwuDB 继续积攒在多元简单场景下的实践经验,保持摸索如何更好地开掘并开释数据中的新价值: 以“时序引擎”为一大外围根底,笼罩不同业务场景下数据从采集、解决、计算、剖析到利用的全生命周期业务需要。 到底如何盘活数据资产,真正做到“让数据会谈话”,为各行业构建扎实可信的数字底座?7 月 5 日下午,《打造外围时序引擎,开释数据新价值》主题分享,咱们不见不散!

July 4, 2023 · 1 min · jiezi

关于数据库:差点错过火山引擎VeDI帮这家企业成功挖掘200余条商机

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群与个体消费市场临时性需要大、决策参加人少等状况不同,企业消费市场往往因为长线需要简单、商品/服务的价格高、参加决策节点多,而导致购买决策链路漫长。 在企业市场场景中,一条营销线索的孵化少则须要几天,多则须要继续几个月跟进。 对大多数面向企业市场的产品来说,产品官网是面向客户展现产品特色、产品劣势、产品利用场景的次要阵地之一,同时也承当着品牌宣传、流动营销和线索收集等多种性能。 用户在登录官网时往往须要自主填写个人信息,同时在登录动作实现后,官网还会提供一份问卷调查,内容涵盖用户所在的企业名、企业目前遇到的问题、想要征询的产品,以及联系方式——从传统营销线索流转链路上来看,这些信息组合就能被认为是“原始线索”,能够间接下发到销售团队,进行下一步的分割追踪;但对谋求更高效率、更高转化的数智企业来说,仅仅从问卷获取的信息,还远远不够撑持对一条营销线索的判断。 于是,在用户提供的企业属性信息根底上,交融用户在官网内的全生命旅程特色,正在成为营销线索流转智能化的重要一环。 以火山引擎数智平台(VeDI)增长剖析DataFinder的利用场景为例,产品官网通过在产品页面、跳转Tab等要害节点部署埋点,当用户在这些节点产生行为(停留、点击、敞开)时都会以数据模式实现记录,从而可能直观地理解不同用户对不同内容的趣味水平。如用户在官网上抉择查看的大类是【大数据】,在进入【大数据】tab后又抉择查看了某款产品的tab,并且在该页面有了较长时间的停留;此外,用户还在官网的【新用户特惠】tab有点击和查看动作。 基于这些数据,大抵能够提炼出“企业级客户”“对某款产品有较大趣味”“官网新用户”“对优惠活动有较大趣味”等要害信息——目前,这些信息都能对立接入到火山引擎数智平台(VeDI)旗下的另一大数据产品,客户数据平台VeCDP,实现多维数据交融,为后链路的电话销售团队勾画出更具象全面的企业需要。 现阶段,VeCDP在商机流转场景中可能为企业输入包含以下三个外围能力: 一、客户数据交融:对多源数据进行交融,生成标签,构建无效的企业需要画像 数据交融:应用VeCDP将用户在官网的全生命旅程,以及曾经应用某款产品的行为数据、线索、交易订单等数据源接入并进行荡涤、关联交融,构建以对立的OneID为根底的客户数据档案;构建标签体系:基于曾经接入的数据源,在VeCDP中搭建实现整套标签体系,蕴含客户根底属性、线索和商机等根本信息类的标签,和偏好标签、价值预测模型标签,并反对多维度数据展示。二、线索二次孵化:自动化圈选高质量线索,联动火山引擎增长营销平台GMP、CRM(客户关系管理系统)进行营销下发 线索圈选:在标签体系搭建实现的根底上,官网经营人员能够通过VeCDP的可视化圈选性能,建设一系列自动化圈选标签的规定,按照既定规定即可主动生成对应的营销群体;同时,基于与GMP、CRM零碎的联动,VeCDP还能实现将营销群体推送至GMP进行后续的精准营销,也能够在CRM上间接获取营销群体,进行二次营销触达;保障数据安全、晋升线索二次孵化效率:在曾经使用【DataFinder+VeCDP】产品的企业中,基于VeCDP标签的整体营销策略曾经能够反对以“周”为单位的常态化运行,因为整套流程全副在线化,不须要再呈现数据的离线流转,因而在数据安全和效率晋升上都有极大的正向影响。三、全面欠缺CRM零碎:将用户标签输送至CRM并关联每条客户线索,构建360度企业客户数据画像 客户画像利用:在获得受权条件下,VeCDP能够全方位展现企业客户的多项要害信息,包含但不限于根底属性、标签、以及要害行为和对应的工夫点,在行为局部,还接入了实时数据源(DataFinder提供)实时洞察用户需要动静;重要标签设计:可能基于VeCDP的SQL标签创立性能,对标签进行定制化设计,如产出近7天用户浏览次数top3的产品、近7天用户拜访次数top3的文档页面等重点标签,并在用户画像页面进行置顶展现,不便使用者第一工夫理解用户的外围特点;画像能力放大:通过将veCDP上的用户画像嵌出至CRM零碎进行联动利用,销售员工在针对高质量线索进行电话营销时,能够在CRM中间接浏览企业画像,以疾速理解用户特点设计针对性更强的营销计划,晋升营销成果。数据显示,一家正在应用火山引擎数智平台(VeDI」产品和服务的企业,在其电话营销场景中,VeCDP+GMP的策略已笼罩90%以上的线索培养孵化工作场景,在最新的存量线索池二次线索孵化实际中,胜利转化200余条商机——在没有数据产品染指之前,存量线索池中的商机往往会被断定为“无需再跟踪”,而被错失,但基于包含DataFinder、VeCDP等产品在内的信息补充,以及GMP产品的自动化营销,原来不可能有商机产出的线索被胜利辨认,最终实现销售转化。 DataFinder、VeCDP等数智产品,正在帮忙企业更好地应用数据,并实现“以数据生产促数据生产,以数据生产助业务倒退” ,让企业的数据生产、数据生产和业务倒退,造成数据飞轮,正向循环。 据理解,数据飞轮是火山引擎基于字节跳动数据驱动理念下积淀的教训模式,可能帮忙企业转动盘活数字化实际价值,实现降本增效,截至目前已在互联网、金融、生产、汽车等多个行业历经实际。 点击跳转火山引擎数智平台VeDI理解更多

July 4, 2023 · 1 min · jiezi

关于数据库:火山引擎-DataLeap-构建Data-Catalog系统的实践一背景与调研思路

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群摘要Data Catalog 产品,通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和了解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Data Catalog零碎的构建和迭代过程,概要介绍外围设计以及局部要害实现。 背景元数据与Data Catalog元数据,个别指形容数据的数据,对数据及信息资源的描述性信息。在以后大数据的上下文里,通常又可细分为技术元数据和业务元数据。Data Catalog,是一种元数据管理的服务,会收集技术元数据,并在其根底上提供更丰盛的业务上下文与语义,通常反对元数据编目、查找、详情浏览等性能。元数据是Data Catalog零碎的根底,而Data Catalog使元数据更好的施展业务价值。 Data Catalog的业务价值火山引擎 DataLeap 套件下Data Catalog零碎次要服务于两类用户的两种外围场景。对于数据生产者来说,他们利用Data Catalog零碎来组织、梳理本人负责的各类元数据。生产者大部分是大数据开发的同学。通常,生产者会将某一批相干的元数据以目录等模式编排到一起,不便保护。另外,生产者会继续的在技术元数据的根底上,丰盛业务相干的属性,比方打业务标签,增加利用场景形容,字段解释等。对于数据消费者来说,他们通过Data Catalog查找和了解他们须要的数据。在用户数量和角色上看,消费者远多于生产者,涵盖了数据分析师、产品、经营等多种角色的同学。通常,消费者会通过关键字检索,或者目录浏览,来查找解决本人业务场景的数据,并浏览详情介绍,字段形容,产出关系等,进一步的了解和信赖数据。另外,Data Catalog零碎中的各类元数据,也会向上服务于数据开发、数据治理两大类产品体系。在大数据畛域,各类计算和存储系统百花齐放,概念和原理又千差万别,对于元数据的采集、组织、了解、信赖等,都带来了很大挑战。因而,做好一个Data Catalog产品,自身是一个门槛低、下限高的工作,须要有一个继续打磨晋升的过程。 旧版本痛点字节跳动Data Catalog产品晚期为能较快解决Hive的元数据收集与检索工作,是基于LinkedIn Wherehows进行二次革新 。Wherehows架构绝对简略,采纳Backend + ETL的模式。初期版本,次要利用Wherehows的存储设计和ETL框架,自研实现前后端的功能模块。随着字节跳动业务的疾速倒退, 公司内各类存储引擎一直引入,数据生产者和消费者的痛点都日益显著。之前零碎的设计问题,也到了须要解决的阶段。具体来说: 用户层面痛点: 数据生产者: 多引擎环境下,没有便捷、敌对的数据组织模式,来一站式的治理各类存储、计算引擎的技术与业务元数据数据消费者: 各种引擎之间找数难,元数据的业务解释零散造成了解数难,难以信赖技术痛点: 扩展性:新接入一类元数据时,整套零碎伤筋动骨,开发成本月级别可维护性:通过一段时间的修修补补,整个零碎显的很软弱,研发人员不敢轻易改变;存储依赖重,同时应用了MySQL、ElasticSearch、图数据库等零碎存储元数据,保护老本很高;接入一种元数据会减少2~3个ETL工作,运维老本直线回升 新版本指标基于上述痛点,火山引擎 DataLeap 研发人员从新设计实现Data Catalog零碎,心愿能达成如下指标: 产品能力上,帮忙数据生产者方便快捷组织元数据,数据消费者更好的找数和了解数零碎能力上,将接入新型元数据的老本从月级别升高为星期甚至天级别,架构精简,单人业余时间可运维 调研与思路业界产品调研站在伟人的肩膀上,入手之前火山引擎 DataLeap 研发人员针对业界支流DataCatalog产品做了产品性能和技术调研。因各个系统都在频繁迭代,数据仅供参考。 降级思路依据调研论断,联合字节已有业务特点,火山引擎 DataLeap 研发人员敲定了以下倒退思路: 对于搜寻、血统这类外围能力,做深做强,对齐业界领先水平对于各产品间特色性能,筛选适宜字节业务特点的做交融技术体系上,存储和模型能力基于Apache Atlas革新,应用层反对从旧版本平滑迁徙点击跳转大数据研发治理套件 DataLeap理解更多

July 4, 2023 · 1 min · jiezi

关于数据库:数据仓库性能测试方法论与工具集

数据仓库 v.s. 传统数据库随着 5G 网络和 IoT 技术的衰亡,以及越来越复杂多变的企业经营环境,都在促使着包含工业制作、能源、交通、教育和医疗在内的传统行业纷纷开启了数字化转型之路。因为长尾效应的存在,千行百业的数字化转型过程中必然会开释出比以往任何时候都要宏大的海量数据。那么如何对这些涌现的数据汇合进行无效的存储、剖析和利用,继而帮忙企业进行经营决策优化甚至发明出新的获客模式和商业模式造成竞争力,就成为了摆在企业主背后亟需解决的问题。 在这样的需要背景下,咱们也察看到近年来市场上正在呈现越来越多的数据仓库产品。数据仓库(Data Warehouse)是一种用于集成、存储和剖析大规模结构化数据与非结构化数据的数据管理系统。绝对于传统的仅用于数据存储的数据库(Database)而言,数据仓库更是一种专门设计的 “数据存储 + 数据分析 + 数据管理" 一体化解决方案,强调数据的易用性、可剖析性和可管理性,提供了包含:数据荡涤、整合、转换、简单查问、报表生成和数据分析等性能,用于帮忙企业实现基于数据的决策制定和数字化经营场景。 更具体而言,下列表格中从技术层面更粗疏的比照了两者的区别: 比照项传统数据库云原生数据仓库需要面向面向数据存储,次要用于反对事务处理以满足业务操作的需要。面向大规模数据存储与高效能数据分析,次要用于数据分析和决策反对和,以满足企业的报表、剖析和数据挖掘需要。数据结构和组织形式通常以表格的模式组织数据,采纳关系型数据模型,通过 SQL 语句进行数据操作。采纳星型或雪花型的构造,将数据组织成事实表和维度表,通过简单的查问和剖析操作进行数据处理。数据处理复杂性通常解决绝对较小规模和实时的数据。解决的数据量通常很大,并且波及到多个源零碎的数据集成和转换,须要解决简单的查问和剖析操作,同时兼容 SQL 语句。可扩展性从剖析到计划制订再到落地施行,周期较长。在线程度扩大,分钟级扩大。数据量级个别解决 TB 左右以下性能良好,随着数据量减少保护难度减少。反对 TB 至 PB 量级,通过平台治理性能进行运维实例治理和监控。DBA 保护老本工作量较大,中间件,SQL 优化性能剖析要求 DBA 有丰盛的技术教训。平台化运维治理,性能模块化解决,DBA 工作更便捷高效。数据分片援用中间件层须要手动保护分片规定,制订不当容易呈现数据歪斜。分布式数据库本身具备路由分片算法,散布绝对平均可按需调整。可见,在数据价值暴发的时代背景中,数据仓库在千行百业中都有着相应的利用场景,例如: 金融和银行业:利用数据仓库平台对大量的金融数据进行剖析和建模,继而反对危险评估、交易剖析和决策制定。批发和电子商务行业:利用数据仓库平台实现销售剖析、供应链剖析、客户行为剖析等,帮忙零售商理解产品销售状况、优化库存策略、晋升客户满意度,并进行个性化举荐和营销流动。市场营销和广告行业:利用数据仓库平台整合不同渠道的市场数据和客户行为数据,帮忙企业理解客户需要,反对指标市场剖析、广告成果评估、客户细分等工作。 基于以上起因,咱们也心愿可能与时俱进地去考查市场上的数据仓库产品的个性,并以此撑持公司技术选型工作。技术选型是一项零碎且谨严的工作内容,须要从性能、性能、成熟度、可控性、老本等多个方面进行思考,本文则次要关注在性能方面,尝试探讨一种可复用的性能测试计划,包含:性能指标、方法论和工具集这 3 个方面的内容。 数据仓库性能测试案例性能指标数据仓库的性能指标须要依据具体的利用场景来设定,但通常的会包含以下几个方面: 读写性能:掂量数据仓库在读取和写入数据方面的性能体现。包含:吞吐量(每秒解决的申请数量)、提早(申请的响应工夫)、并发性(同时解决的申请数量)等。程度扩展性:掂量数据仓库在大规模零碎中的程度扩大能力,可能随着客户端的并发增长而进行弹性扩大,并取得线性的性能晋升。数据一致性:测试数据仓库在分布式环境中的数据一致性保障水平。依据利用场景的不同,对数据强一致性、弱一致性、最终一致性会有不同的偏重。故障复原和高可用性:测试数据仓库在面对故障时的恢复能力和高可用性。能够模仿节点故障或网络分区等场景,评估数据仓库的故障转移和数据恢复性能。数据安全性:评估数据仓库在数据保护方面的性能。包含:数据的备份和复原速度、数据加密和访问控制等。集群治理和资源利用率:评估数据仓库在集群治理和资源利用方面的性能。包含:节点的动静扩缩容、负载平衡、资源利用率等。数据库管理工具性能:评估数据仓库管理工具在配置、监控、诊断和优化等方面的性能体现。在本文中次要关注读写性能方面的操作实际。 测试计划为了进一步欠缺测试流程,以及对国产数据仓库大趋势的倾向性,所以本文采纳了绝对不便获取且同样都是采纳了 Hadoop 作为底层分布式文件系统撑持的两款国产数据仓库产品进行测试: Cloudwave 4.0(2023 年 5 月发版)是一款由北京翰云时代数据技术有限公司推出的国产商业云原生数据仓库产品。StarRocks 3.0(2023 年 4 月发版)是一款应用 Elastic License 2.0 协定的国产开源数据仓库产品,另外,这两款产品的装置部署和操作手册的文档都十分详尽,请大家自行查阅,下文中次要记录了测试操作步骤,并不赘述根本装置部署的步骤。 Cloudwave:https://github.com/CloudwaveDatabase/cloudwaveStarRocks:https://github.com/StarRocks/starrocks测试场景在本文中首先关注利用场景更加宽泛的结构化数据的 SQL 读写场景。 测试数据集测试数据集则采纳了常见的 SSB1000 国际标准测试数据集,该数据集的次要内容如下表所示: 表名表行数(单位:行)形容lineorder60 亿SSB 商品订单表customer3000 万SSB 客户表part200 万SSB 零部件表supplier200 万SSB 供应商表dates2556日期表测试用例TestCase 1. 执行 13 条规范 SQL 测试语句。 ...

July 4, 2023 · 7 min · jiezi

关于数据库:SQL-Server中的NULL值处理判断与解决方案

摘要:在SQL Server数据库中,NULL是示意短少数据或未知值的非凡标记。解决NULL值是SQL开发人员常常遇到的问题之一。本文将介绍SQL Server中判断和解决NULL值的不同办法,以及一些解决方案,帮忙您更好地解决数据库中的NULL值状况。文章内容: 引言: 在数据库开发中,常常会遇到解决NULL值的需要。NULL示意缺失或未知的数据,因而须要非凡的解决形式来正确处理这些状况。SQL Server提供了多种办法和函数来判断和解决NULL值。在本文中,咱们将探讨各种办法,并提供一些解决方案,帮忙您更好地解决NULL值。 赘述:可能很多读者会认为不就是null值解决么,很简略,甚至在理论开发中都没有去思考过null值的解决。在 SQL Server 中,NULL 值是一个非凡的值,用于示意短少具体数据或未知数据。NULL 值在日常的数据库操作中常常被应用,但同时也会带来一些影响:须要非凡解决:因为 NULL 值的特殊性,咱们在编写 SQL 查问或程序逻辑时须要非凡解决 NULL 值。这可能减少代码的复杂性和保护老本。潜在的谬误:如果在解决 NULL 值时不小心,可能会导致谬误的计算结果或逻辑谬误。因而,在解决 NULL 值时须要分外小心,并确保代码的正确性。查问后果的影响:NULL 值可能会影响查问后果的准确性。在编写查问时,须要思考 NULL 值的存在,并依据须要进行相应的解决,以确保查问后果的正确性。接我将提供一些解决方案,帮忙大家或者初学者更好地解决NULL值:1.判断NULL值:IS NULL和IS NOT NULL运算符:介绍应用IS NULL和IS NOT NULL运算符来判断列是否为NULL。 可见。第一个后果是查问全表,第二则是应用IS NOT NULL ,判断name列不为空的值,第三个后果则是name为空的接着咱们查看一下执行打算,看看解决判断null时,是否应用了索引为了不便,我将应用两张表来演示,一张小表,一张大表 能够看出小表没有走索引,而大表走了索引,这是为什么呢?其实能够用一种常识来解释,比方你编写一本字典,然而呢,你这个字典就只有一个或者几个值,换句话说就是数据量很小,当你查字典的时候,间接翻字典,第一页就是,比你再去查什么拼音,偏旁啥的来得快,这就是因为sqlserver数据库引擎通过判断,扫描全表的效率表走索引块,然而对于nulll列是否会走索引,始终都有一致,这个咱们就不多做赘述,还是回到正题。COALESCE函数:COALESCE函数的用法和劣势,它能够简化对多个列或表达式进行判断的过程。应用这个函数能够判断多条件组合的状况,COALESCE(column1, column2, column3, 'Default')就是他的语法。下面的示例会查看column1、column2和column3,如果都为空,则返回'Default'。COALESCE会尝试依据参数的隐式转换规则来决定返回值的数据类型。综合来说,COALESCE非常灵活,特地实用于须要解决多个表达式的状况。然而,在某些特定状况下,如果只须要查看单个表达式并返回代替值,可能就不够简洁。 这就是一个简略用法,具体更简单的,能够在工作过程中去优化解决NULLIF函数:NULLIF函数能够用于比拟两个表达式,如果相等,则返回NULL;否则返回第一个表达式的值。 这个小的示例则能够看出NULLIF函数的应用2.解决NULL值:应用默认值:介绍应用默认值来代替NULL值的办法,例如应用ISNULL函数或COALESCE函数设置默认值。或者最高效的就是在表设计中,增加默认值,比方创立工夫字段应用getdate(),其余能够设置'' 空字符串或者0这种具备适度意义的默认值,例 如在我的数据库中0就是一个用于解决数值型的过渡值,空字符串就是一个用于解决字符型型的过渡值。应用CASE语句:CASE语句能够在查问中进行条件判断,并依据条件返回不同的后果,这也能够用于解决NULL值状况。应用适合的聚合函数:在聚合查问中,应用适合的聚合函数,例如SUM、AVG等,在解决蕴含NULL值的列时须要非凡解决。3.防止NULL值的问题:定义列的默认值:在创立表时,为列定义默认值,以防止插入NULL值。应用束缚:应用NOT NULL束缚或惟一束缚来确保列中不蕴含NULL值。数据荡涤和转换:在导入数据或进行ETL过程中,进行数据荡涤和转换,将NULL值转换为适合的代替值。4.注意事项和最佳实际:审慎解决NULL值:要意识到NULL值可能会对查问和计算产生意外后果,需谨慎解决。文档化解决策略:在数据库设计和开发中,倡议记录和文档化对NULL值的解决策略,以便后续保护和团队单干。  论断:在SQL Server中,正确处理NULL值是数据库开发人员必备的技能之一。本文介绍了判断和解决NULL值的多种办法和解决方案,帮忙您更好地解决NULL值的状况。依据具体情况抉择适合的办法,并遵循最佳实际来解决NULL值,将有助于进步数据库的性能和可靠性。正确处理NULL值对于数据的准确性和查问性能至关重要。通过应用适当的判断办法和解决方案,能够无效地解决NULL值,并防止潜在的问题。正当应用IS NULL、IS NOT NULL操作符、ISNULL函数、COALESCE函数、NULLIF函数和CASE语句,以及应用NOT NULL束缚、默认值和适合的数据类型,能够确保数据库中的NULL值得到正确处理。心愿以上内容对您撰写文章有所帮忙!

July 3, 2023 · 1 min · jiezi

关于数据库:火山引擎DataLeap数据质量解决方案和最佳实践二解决方案

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群DataLeap流批数据品质解决方案 产品性能架构火山引擎DataLeap流批数据品质解决方案有 4 个大的性能: 离线数据品质监控:解决批和微批监控场景,反对 Hive、ClickHouse、ES 等多种数据源,并有字段、唯一性等多种监控维度,容许通过 SQL 自定义维度聚合进行监控。流式数据品质监控:解决流式监控场景,反对 Kafka/BMQ 等数据源。数据探查:解决数据开发之前对数据内容存疑问题,反对 Hive 数据源。数据比照:解决新旧表数据一致性问题,反对 Hive/Hive SQL 数据源。零碎架构上图是DataLeap数据品质平台的零碎架构图,次要分为 5 个局部:Scheduler:内部调度器,触发离线监控。次要分两种类型: 对外提供 API 调用工作;定时调度,通过 calljob 调用数据。Backend:后端服务,偏服务层,解决业务逻辑。次要负责: 品质平台和内部的交互,所有 API 响应都是通过这一层进行;工作提交:用户在品质平台配置的规定会放到业务存储,Scheduler 被调用后,Backend 会将工作相干的参数配置进行工作提交;获取品质监控的后果并进行判断,而后和内部零碎进行交互,在须要时发送警报告诉用户。Executor:平台外围的工作执行模块,集成了一些引擎,例如数据探查应用 OLAP 引擎。品质监控局部应用 Griffin 的 Measure 进行数据统计。Monitor:是一个绝对独立的模块,次要进行状态服务的流转,提供反复报警等性能。Alert Center:品质平台强依赖于该平台。它是内部报警服务,接管各种报警事件。离线数据检测流程上面看一下离线数据的检测流程。离线数据的监控、探查、比照的执行流程统一,次要分为 4 步: 监控触发:调度零碎调用品质模块 Backend API;作业提交:Backend 以 Cluster 模式提交 Spark 作业至 Yarn;后果回传:作业完结 (胜利、失败),Driver 将后果 sync 至 Backend;音讯触发:Backend 依据后果触发相应动作 (例如:报警、音讯提醒)。咱们总结了一下Dataleap数据品质平台的劣势: 调度零碎低耦合:数据品质平台没有和调度零碎强绑定,个别能够用业务零碎的 API 实现相互调用。事件触发高效,Backend 程度扩大能力强:Backend 是无状态的实例服务,如果品质监控的业务零碎较多,Backend 能够采纳程度扩大的形式部署,接管申请并提交作业。没有 Quota 限度:平台自身没有保护数据品质监控独自须要的资源队列,而是把这个权限凋谢给用户,用他们本身的资源做资源监控。这样就把 Quota 问题转换成了用户资源问题。当然任何一个工具都不可能是完满的,数据品质平台临时还有一些待晋升的中央:非 CPU 密集型查问较重:整个平台的设计是以工作提交的形式实现离线场景的需要。然而起初咱们发现其实不须要启动 Spark 的作业依然会启动一个 Spark 作业,如 ES SQL 查问,这个查问是很重的。依赖 Yarn 做调度稳定性不高:平台上的工作在资源不短缺或被挤占的状况下,会呈现工作运行或调用很慢。流式监控执行对于流式数据的监控,咱们抉择了 Flink 引擎,因为流式数据不同于离线数据,不能用快照的形式低成本拿到过程。所以咱们要依赖一些内部的时序数据库再加规定引擎来展现对数据的监控。平台上流式数据监控的流程为: ...

July 3, 2023 · 1 min · jiezi

关于数据库:当大模型遇到数据仓库-HashData助力LLM规模化应用

6月30日,由 IT168主办的第十六届中国零碎架构师大会(SACC2023)在北京揭幕。本届大会以“数字转型 架构演进”为主题,议题涵盖AIGC大数据、多云多活、云老本等多个热门畛域。 在会上,酷克数据首席科学家杨胜文发表了题为《当LLM遇到数据仓库》的宗旨演讲,分享了对大模型热潮的察看和思考,并介绍了借助酷克数据研发的下一代高级剖析和数据迷信工具HashML,简化从数据处理、模型微调到常识加强的智能利用构建流程,助力LLM在企业实现规模化落地利用。 杨胜文示意,目前百亿级参数LLM曾经具备优良的语言了解和生成能力。在LLM技术还在疾速演进的过程中,绝对于千亿级参数模型,百亿级参数模型具备非常明显的老本劣势,成为现阶段推动LLM在企业低成本、规模化落地的一个重要选项。 “一方面,通过模型的低成本私有化部署,能够解决很多企业对数据安全担心的问题。另一方面,企业能够更加不便地利用数据仓库中已有的数据对模型进行微调,并联合HashData对向量数据的存储和高效检索的反对,疾速构建常识加强的智能利用。”杨胜文介绍,在具体实施过程中,企业能够通过简略易用、算法丰盛、性能卓越的AI开发工具HashML,让数据科学家、数据工程师、利用开发者无门槛地应用LLM。 酷克数据首席科学家杨胜文LLM热潮下的冷思考自去年11月底ChatGPT公布以来,国内外很多厂商都加大了对大语言模型的研发投入,各种模型与利用如雨后春笋,层出不穷。据中国科学技术信息研究所统计,截止往年5月,国内已公布10亿参数规模以上的大模型79个,俨然进入一场新的军备竞赛。 对于这波大语言模型引发的AI热潮,学术界尚存诸多不同的认识。有些科学家认为,应该暂停大型AI试验,免得给人类社会带来潜在的危险和危害。有些科学家认为,自回归语言模型并不能让机器实现人类程度的智能,无需适度放心,实现通用人工智能(AGI),须要有别的技术路线。 只管学术界仍有争议,但这并未影响LLM利用遍地开花。围绕ChatGPT,开发者和企业不仅能够通过API拜访OpenAI提供的服务来构建本人的AI利用,也能够在ChatGPT中应用各种插件,从而让ChatGPT变得更加弱小。OpenAI也在近期推出了ChatGPT App,反对语音输入,并对更多国家和地区凋谢了服务。谷歌、微软等跨国公司也相继发表在全线产品接入大语言模型能力。 在国内,不少企业通过与AI服务提供商单干,尝试在产品研发或IT零碎中引入大语言模型能力。 杨胜文示意,只管大模型的利用前景非常广阔,但并非所有企业和创业者都能够在这个畛域取得成功,清静过后最终仍将回归到场景价值,回到企业对于老本与收益的思考上来。站在客户的角度,须要思考抉择适合的场景,以较低的老本进行利用试点,来验证能够取得的收益,而不是一开始就要求客户投入大量的启动资金。 “对集体消费者而言,个别通过聊天服务和基于大语言模型的各种效率工具,根本可能满足大多数需要。”杨胜文示意,“但对于企业客户而言,往往须要将大模型的能力与自研产品或IT零碎做集成甚至深度交融,这外面会面临一些问题。” 他指出,目前企业应用千亿级参数大语言模型通常有两种形式,拜访私有云服务或私有化部署,这两种模式各有其优缺点。私有云服务的长处在于能够疾速接入,可灵便抉择服务提供商,但面临着监管合规、数据透露危险、专属模型老本昂扬等问题;私有化部署能够解决企业对数据安全担心的问题,企业也能够利用自有数据更加不便地对根底模型进行微调定制,但同样也面临应用老本高的问题,千亿级参数大模型对计算资源和技术人员程度都会有较高的要求。 杨胜文示意,在LLM技术还在疾速演进的明天,应该充分发挥以后大语言模型的劣势能力,也就是卓越的语言了解和生成能力。百亿级参数模型不论是推理还是微调,都有显著的老本劣势,是推动LLM在企业低成本、规模化落地的一个重要选项。同时,日益凋敝的开源生态也为百亿级参数模型在企业应用落地发明了条件。以后曾经呈现了一些由钻研机构和初创公司公布的开源模型,成果体现良好且遵循对商业应用十分敌对的开源协定。 HashML大幅升高LLM利用门槛数据作为企业十分重要的资产,如何通过数据分析、开掘、建模,开释数据价值,是以后企业数字化建设的一个要害话题。数据仓库是企业实现数据存储、剖析、解决和计算的外围场合。 长期以来,数据仓库次要用来满足企业的描述性剖析需要,而业务价值更高、同时技术复杂度更高的预测性剖析和决策性剖析,目前仍未取得广泛应用。过来,行业内已经尝试在数据仓库中实现诸如机器学习这样一些高级剖析能力,但传统的In-Database机器学习解决方案反对的算法品种无限,且偏传统的算法居多,对深度学习的反对十分弱,运行效率也整体欠佳。 相比传统架构的数据仓库,HashData采纳存算拆散的架构,不仅可能通过SQL计算引擎对传统的数仓业务提供很好的反对,还可能借助ML/DL计算引擎实现对机器学习和深度学习的高效反对,其中包含对大语言模型微调和推理的反对。HashML就是酷克数据利用HashData弱小的计算引擎打造的下一代In-Database高级剖析和数据迷信工具。 图1 HashML次要性能概览HashML通过以下个性为企业提供了简略易用、成果优异的AI开发体验:1、HashML提供了宽泛的算法反对,特地是通过对深度学习框架的反对,可能反对各种深度神经网络算法,也对大语言模型的微调、推理以及基于大语言模型的智能利用搭建提供了良好的反对;2、新算法的开发和引入变得非常容易,客户仅需关注神经网络构造的定义和实现,就能开发一种全新的深度神经网络算法;3、HashML反对分布式并行训练和推理,可能依据数据规模和模型复杂度灵便调整并行度,大幅提高了模型训练和推理的效率;4、HashML反对GPU减速,通过多机多卡分布式计算可能进一步晋升运算效率;5、HashML提供规范、对立、简洁的API接口,大幅升高了利用门槛;6、HashML反对Python和SQL两种编程语言接口,开发者能够依据集体偏好自主抉择;7、HashML通过Python接口可能与凋敝的数据迷信生态相交融,为数据科学家和机器学习工程师提供便捷的开发工具。 HashML作为HashData云数仓的一个扩大实现,与数仓共享对立的存储和计算资源,随数仓的部署提供开箱即用的AI能力,大幅升高了零碎部署的老本和复杂度,为开发者提供了对立的数据查问、剖析、建模环境。 “HashML首要设计指标就是简略易用,心愿客户可能无门槛应用各种经典和最前沿的AI算法和模型能力来解决理论业务问题。”杨胜文示意,LLM与HashData为代表的业界当先的企业数据仓库相结合,使得从数据处理、模型微调到常识加强的智能利用构建的全流程变得更简略,推动LLM走向规模化利用。 图2 基于HashData的LLM低成本落地计划在会上,杨胜文介绍了HashData与LLM相结合的两个利用案例:常识加强的智能问答(见图3)和Text2SQL(从自然语言生成SQL,见图4)。在常识加强的智能问答利用案例中,用户能够通过收集整理文档,并对文档进行解析、分块、编码,结构向量知识库。当用户输出一个问题时,对话机器人首先基于问题去知识库查问相干信息,而后结构适合的Prompt去申请大语言模型并取得生成的后果。当知识库存在与问题高度相干的信息时,语言模型就能够基于对这些信息的了解和摘要,生成高质量的答复。 图3 基于向量知识库的智能问答在Text2SQL利用案例中,因为根底模型在自然语言转SQL方面的能力绝对较弱,须要对根底模型进行微调。为此,团队筹备了大略十几万条训练语料,利用HashML封装的LoRA办法进行了微调,在一张V100的卡上进行训练。为了实现更好的成果,在和机器人交互的时候,除了提供用户输出的查问申请,还须要提供实现该查问所需的数据表的Schema信息。Schema信息能够由用户提供,也能够在理论生产场景中,由机器人连贯数据库主动获取。 图4 Text2SQL:从自然语言生成SQL展望未来,杨胜文认为,将来大语言模型倒退方向必然是多元化、普惠化,每个企业都能够利用大语言模型来晋升智能化程度,实现降本增效。数据与大语言模型的紧密结合,将会为企业和社会发明微小的价值。以HashData为代表的企业数据仓库,为这种联合提供了一个人造的平台。企业能够在自有数据上通过模型微调和利用翻新,开释大语言模型的利用后劲,进而充沛开释数据价值,实现新的增长点。基于数据仓库和大语言模型构建面向场景的智能利用,将成为企业智能利用开发的新范式。

June 30, 2023 · 1 min · jiezi

关于数据库:芒果TV-x-StarRocks极速统一的流批处理架构全新进化助力数据分析乘风破浪

作者:黄立超、刘波澜 芒果TV产品技术核心数据技术部资深大数据研发工程师 StarRocks小编导语:在引入 StarRocks 之前,芒果 TV 的智慧经营平台架构采纳云上 EMR 平台,Hive 存储历史数据,Kudu 存储实时数据,用 Presto 做对立的查问引擎。随着业务复杂度减少,该架构面临很大的挑战,架构扩散简单,业务开发运维老本很高,查问性能也逐渐遇到瓶颈。在降级到 StarRocks 对立湖仓架构后,极大的简化了整体数据分析架构,同时综合查问性能晋升 10+ 倍。芒果 TV 是湖南广电旗下的互联网视频平台,为年老用户带来陈腐综艺和内容剧集的高质量长视频内容。小芒是芒果 TV 旗下新潮国货内容电商平台,也是芒果 TV 长视频内容 IP 电商变现之路上的一颗新星。芒果智慧经营平台次要负责芒果 TV 会员、广告业务以及小芒的数据建设,为数据分析人员提供自助的实时数据用户行为剖析,业务数据的个性化报表搭建,自定义用户分群计算等数据分析服务,致力于突破数据孤岛,驱动产品和业务智能与增长。 原有架构与痛点智慧经营平台数据源次要有用户行为数据与业务数据。用户行为数据由客户端埋点上报,通过 Flume 发送到 OSS 与 Kafka 原始日志 topic。OSS 数据荡涤后写入 Hive,作为离线历史数据。Kafka 数据通过 Flink 实时荡涤后写入 Kudu,作为实时数据。业务数据次要是后端服务业务库中的 MySQL 数据,通过自研数据同步平台,实时同步到 Kudu。智慧经营平台应用 Presto 作为查问引擎,将历史数据与实时数据合并,再与业务数据进行关联,提供自助式实时查问服务。 原有的技术架构中,Kudu 存储引擎满足秒级低提早批量数据插入与实时查问。数据由离线局部(Hive 表)和实时数据(Kudu 表)两局部组成,Kudu 中只保留少部分数据,这样 Kudu 存储引擎数据合并压力会小很多,整个零碎也就更加稳固。公司各部门都有本人保护的业务数据表,Presto 的联邦查问可能帮忙疾速的买通各业务数据。Presto 架构简略,可能疾速扩容应答流量压力。 随着数据业务的一直倒退,用户查问的数据量、Query 的复杂度,查问并发度都急剧增大,原有架构存在一些问题: Presto 查问性能个别,无奈满足业务方心愿能疾速获取数据的需要。数据关联组件多、保护老本高。资源应用老本较高。Presto 高并发反对不够,coordinator 容易成为瓶颈。短少 Bitmap 数据类型,在标签计算方面存在一些有余。引入 StarRocks在 2022 年年底咱们开始新的技术架构探讨和布局,咱们秉承“既要”、“又要”准则。新的数据架构既要能解决以后架构的问题,又要可能满足将来数仓存算拆散与引擎一体化的要求。 数据架构的抉择实质上就是数据引擎的抉择。那么满足咱们“既要”“又要”要求的现实数据引擎须要达到哪些条件呢?上面这些是咱们抉择新的数据引擎的规范: ...

June 30, 2023 · 2 min · jiezi

关于数据库:莲子数据与阿里云开源-PolarDB-合作助力制造业数字化转型

6 月 11 日-13 日,2023 凋谢原子寰球开源峰会在北京举办。峰会上,阿里云颁布 1+4 开源策略,数据库作为重要组成部分, 阿里云瑶池数据库与各开源社区领导者和数据库领域专家一起,围绕开源数据库技术中的“云原生、Serverless、HTAP、多模、AI+DB”等关键技术潮流和翻新场景展开讨论,独特探讨开源数据库在新一波技术浪潮中的发展趋势。 开源数据库技术正在日益受到重视,并成为数据技术源头翻新的支流力量,这源于社区和企业的共同努力。PolarDB 作为阿里云瑶池外围自研云数据库,于 2021 年正式开源。截止目前,PolarDB 开源社区建设了 11 个 SIG 组,吸引了 2 万名多贡献者和社区用户,同时吸引了韵达、莲子数据、网易数帆、龙蜥、武汉大学、乘数科技等 50 多个生态搭档。往年,阿里云还正式公布了“数据库 PB 开源人才打算”,旨在将 PolarDB 打造为具备寰球影响力的开源数据库。 PolarDB 作为开源的云原生分布式数据库, 撑持了阿里巴巴双十一业务, 同时作为云产品为宽广企业提供了高质量的服务。为了更好的为宽泛用户提供服务, 在开源后须要生态的独特建设与反对,PolarDB 开源社区正一直致力与高校、培训商、服务商、产品集成、工具、新闻媒体、机构等产学研单位一起投入到开源数据库生态的建设当中, 相互支持, 为产业提供翻新的土壤。 因云而聚,携手共赢,莲子数据与泛滥科技公司一起成为 PolarDB 开源社区的生态成员,作为 PolarDB 开源数据库的生态单干企业,莲子数据库一体机联合 PolarDB 的生态能够赋能宽广工业企业,近期在工业数字化利用的一个理论案例就活泼体现了软硬深度联合的价值。 某企业用户是一家领有自主知识产权的国际化工业技术创新公司,其生产的次要产品包含为世界五百强企业产品提供的高级传感器。其生产制作基地在中国,研发工程师和数据科学家大部分在海内,用户的外围工业技术具备十分强的竞争力,在寰球行业链条中属于前沿翻新方向。因为生产制作全过程采纳了类半导体的生产工艺和技术,具备全自动高效生产的特点,其生产制作过程既有须要精细管制各工艺过程的流程化工属性,又有精细光刻及化学解决的基于机理反馈的物理、化学过程,因而须要对制作过程中产生的大量工艺控制数据、过程检测数据进行实时的计算、剖析和解决,既要理解以后生产的产品其过程管制程度、品质情况,同时要进行实时缺点剖析,疾速定位不良品产生的起因。 由此该企业的 IT 负责人提出其在产线本地部署的工业数据平台须要具备如下能力个性:1.边缘计算集群须要具备对多个异构数据源数据进行实时归集,对多维度的数据进行实时处理计算的能力。2.边缘部署,云边协同。边缘侧和云端采纳统一的数据处理架构,便于其简单的生产制作工程寰球布局。3.产品导入后其产线将疾速扩张,因而边缘侧零碎服务须要满足灵便弹性扩容,按需随时减少服务节点,而无须停产线重新部署零碎。4.边缘计算集群需具备弱小的实时数据处理剖析的能力,反对人工智能模型计算。5.应用层反对低代码开发环境。零碎移交用户后,毋庸装备业余的 IT 人员,用户的研发、工艺、品质和数据工程师能够在新产品和新工艺的开发过程中,通过配置形式,实现软件系统的利用,放慢其研发迭代的速度和效率。 该企业用户在宽泛比照市场各种支流服务器计划和各类数据平台的优缺点之后,软硬一体化的莲子边缘计算一体机最终入围用户的实施方案,一体机上部署了基于 PolarDB 最新社区版本内核生态定制的分布式数据仓库,算力和存储扩容随用户需要的减少只需简略减少服务计算节点。软件系统兼容性良好,能够按需部署在寰球支流云计算平台,与工厂边缘侧的零碎完全一致,实现无缝云边协同。一体机预装的莲子智能数据管道零碎,能够通过零碎初始化配置,实时获取生产过程、品质检测、产品设计、物料、设施及治理数据,并做实时转换 ELT 解决,根本平替了传统互联网行业数据中台中最外围的技术性能。数据计算为并行计算模式,对已知机理的数据进行分层分类解决,疾速响应工艺和品质工程师对过程和品质的剖析。对那些未知的须要持续摸索的数据,能够传输用户到建设的存储数据湖中,用于研发过程的数据挖掘和 AI 剖析。 目前该我的项目已顺利落地一期,企业用户应用这个数据平台反对其日常生产的过程,在超过半年的生产环境运行过程中没有呈现零碎不稳固的问题,同时整体零碎简直低于 INTEL 同类零碎功率一个数量级,肉眼可见的超低功耗也体现了绿色环保的节能个性,设施无需规范 IDC 空调制冷环境即可在常温下长年稳固牢靠运行,合乎工业行业双碳节能减排的政策要求。利用开发平台采纳低代码配置形式后,用户正在用这样一个翻新平台工具反对新产品和新工艺的开发,疾速响应市场的变动和需要。随着该数据平台生产数据量的迅速增长,第二期将利用大模型计算计划与数据平台对接,以工业 AI 的伎俩,来进步用户的产品设计和制程管控的能力。

June 30, 2023 · 1 min · jiezi

关于数据库:火山引擎AB测试推出智能流量调优实验助力汽车行业破局营销困境

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群2023年是汽车行业挑战加剧的一年,在这样一个改革期间,多家车企都在进行翻新技术和策略调整,实现灵便的科学决策,在倒退拐点中减速布局。许多企业数字化降级平台也开始着重发力,据悉,近期火山引擎AB测试平台DataTester推出了具备智能调优能力的AB试验性能,能帮忙车企在营销环节占得先机、蓄力破局。 当商业链路的营销逻辑从“货场人”变成了“人货场”,用户在每个营销环节上的动作都会牵动车企主机厂的心。汽车作为高客单价的重资产行业,转化流程尽管同样是“意识→认知→认同→转化”,但行业的营销又有很大的不同:低廉的价格对用户来说决策会更加审慎,思考会更加全面;对主机厂车商而言,散失一个潜客都意味着高额老本。 在用户的“意识、认知”阶段,营销投放所带来的精准用户十分重要,但车企在投放中常会遇到这样的难题:投放素材如何抉择能力ROI更高?空间大、外观丑陋、价格低、性能好,到底应该突出哪一点?传统投放会经验的“转化成果比照阶段”,对高客单价的汽车行业而言,用一部分流量测试成果,而后再决定投放计划的试验会节约不少潜客机会;且处在不同场景、时段下的人群,所偏好的广告计划也并非变化无穷。现实的做法是能依据用户的实时点击反馈,进行素材的实时调整和流量的实时调配,达到转化效率最高。这样的投放模式难度高、实现度简单,传统投放很难实现。 为了进步企业营销投放的ROI,火山引擎AB测试DataTester推出了MAB智能调优试验,区别于以“取得统计上显著的计划”为指标的传统AB试验,失落转化的机会成本较高,新型MAB智能调优试验则能够在试验过程中实时动静调整,放弃转化成果始终最优。车企在营销投放时利用MAB智能调优试验后,可大幅升高转化环节中的流量损耗。除了汽车行业之外,在高客单价的商品营销中,例如房产、装修、珠宝等行业,同样都可应用火山引擎DataTester的MAB试验,晋升流量转化的ROI,减小在营销环节潜客因不必要的损耗而散失。 作为助力企业科学决策的A/B测试平台,DataTester目前服务了包含美的、失去、凯叔讲故事等在内的上百家企业,为业务的用户增长、转化、产品迭代、经营流动等各个环节提供迷信的决策依据,将成熟的“数据驱动增长”教训赋能给各行业。 点击跳转火山引擎A/B测试理解更多

June 30, 2023 · 1 min · jiezi

关于数据库:拈花云科基于-Apache-DolphinScheduler-在文旅业态下的实践

作者|云科NearFar X Lab团队 左益、周志银、洪守伟、陈超、武超 一、导读无锡拈花云科技服务有限公司(以下简称:拈花云科)是由拈花湾文旅和北京滴普科技独特孵化的文旅目的地数智化服务商。2022年底,拈花云科NearFar X Lab团队开始测试DolphinScheduler作为交付型我的项目和产品我的项目的任务调度工具。本文次要分享了拈花云科在任务调度工具的抉择、迭代和实际过程中的教训,心愿对大家有所启发。 二、业务背景咱们的服务对象次要是国内各个景区、景点,业务范围涵盖文旅行业的多个板块,如票务、交通、批发、住宿、餐饮、演绎、游乐、影院、KTV、租赁、服务、会务、康乐、康养、电商、客服、营销、分销、安防等。因为业务零碎起源较多,多零碎下的数据源类型差异化较大,所以在施行数据我的项目时咱们须要可能反对多种数据起源(Mysql、Oracle、SqlServer、Hive、Excel……)的数据集成工作。同时依据大部分景区为国有化的特点,咱们也须要具备可能提供私有化交付部署及SAAS化数据中台产品解决方案的双重服务撑持能力。 三、DolphinScheduler 调度零碎选型过程在团队成立之初为了疾速构建MVP业务版本,咱们沿用了团队共事之前用过的Kettle调度计划。该计划下通过Kettle实现可视化调度的配置及对于异构数据的集成工作,通过Python 调用HQL脚本实现基于Hive的传参数据计算。基于MVP的构建,咱们也开始思考,在咱们的整体中台架构下该须要一个什么样的调度零碎,以及除了调度这件事自身咱们还须要哪些性能和能力。带着这些问题咱们开始整顿本人的需要,以及每个需要下有什么样的产品能够适配。 调度零碎须要撑持的利用场景文旅业态下的数据应用场景与其它业态下的应用场景大体雷同,次要分为以下四类: 调度零碎须要撑持的我的项目类型咱们抉择的调度零碎须要同时具备施行类我的项目、SAAS产品两种需要下的数据中台撑持能力 基于以上需要咱们进行了调度零碎的选型比照。网上有十分多对于Oozie、Azkaban、Airflow、DolphinScheduler、Xxl-job、Kettle等调度选型的文章及介绍,在此不过多的开展他们的优缺点。咱们感觉每个产品的设计都有它本身的考量,都有实用与不实用的场景。联合咱们本身的应用需要最终咱们抉择了应用DolphinScheduler作为数据中台的调度平台。 次要起因如下: High Reliability(高可靠性)高可靠性是咱们看重的第一要点,因为不论是施行我的项目还是SAAS产品,只有零碎稳固产品才能够失常运行。DolphinScheduler通过去中心化设计、原生 HA 工作队列反对、过载容错能力反对提供了高度持重的环境。在咱们半年的应用过程中也验证了其十分稳固。High Scalability:(高扩展性)因为咱们要反对施行我的项目/SAAS产品两种场景下的应用,DolphinScheduler的多租户反对很好的符合了SAAS场景下资源隔离的应用需要。同时其扩缩容能力、高度的调度工作下限(10万+)都能很好的撑持咱们业务的扩展性需要。丰盛的数据集成能力DolphinScheduler提供的工作类型曾经远远涵盖了咱们常常应用的工作类型(DataX、SeaTunnel的反对自身就涵盖了较多的Source2Target同步/推送场景)。反对Kubernetes部署上文提到在私有化的部署形式下客户的部署环境大不相同,对于施行团队来说,如果可能简略、高效、统一的实现部署则会极大的进步我的项目投递部署效率,同时也能缩小很多因环境起因而产生的问题。不仅仅是调度在调研DolphinScheduler的过程中咱们发现,除了调度自身这个环节,联合DCMM(数据管理能力成熟度评估模型)的国标8个能力域,DolphinScheduler在数据品质模块也做了很多实现,这无疑又命中了咱们对于数据品质能力建设的需要。同时Apache DolphinScheduler的服务架构中还有AlertServer服务。作为整体数据中台计划来说前期齐全能够将所有报警需要集成在Apache DolphinScheduler的报警服务中,防止多零碎反复造轮子。从这些点思考DolphinScheduler它不仅仅是一个调度工具而更像是一个数据开发平台。(期待随着社区的迭代会有更残缺的生态实现)问题解决难度DolphinScheduler社区十分的沉闷,在退出DolphinScheduler社区群后每天都能够看到十分多的搭档在交换对于Apache DolphinScheduler应用过程中的问题,社区人员也都踊跃的予以回复。同时Dolphinscheduler又是咱们国产开源软件,所以齐全不用放心存在沟通上的阻碍。四、基于DolphinScheduler的我的项目实际1、DolphinScheduler ON KubernetesDolphinScheduler反对多种部署形式:单机部署(Standalone)、伪集群部署(Pseudo-Cluster)、集群部署(Cluster)、Kubernetes部署(Kubernetes)。在我的项目施行的场景下因为客户提供的部署环境变幻无穷,咱们须要一种稳固、疾速、不挑环境的部署形式。Apache DolphinScheduler on K8S的部署形式很好的满足了咱们的需要,此部署形式能极大的进步整体我的项目的部署效率及动静扩展性。 Kubernetes是一个开源的容器编排平台,能够实现容器的自动化部署、扩缩容、服务发现、负载平衡,能够进步DolphinScheduler的可用性、可扩展性和可维护性Kubernetes能够反对多种存储类型,包含本地存储、网络存储和云,能够满足DolphinScheduler多节点共享长久化存储需要Kubernetes能够反对多种调度策略,包含亲和性、反亲和性、污点和容忍,能够优化DolphinScheduler的资源利用率,进步工作执行效率。Kubernetes能够反对多种监控和日志计划,包含Prometheus、Grafana、ELK等等,能够不便地对DolphinScheduler的运行状态和性能进行监控,剖析和告警在部署Apache DolphinScheduler on K8S 的过程中咱们也曾遇到过一些问题,上面是咱们总结的一些Kubernetes部署要点: 自定义镜像 FROM dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-alert-server:版本号# 如果你想反对 MySQL 数据源COPY ./mysql-connector-java-8.0.16.jar /opt/dolphinscheduler/libsdolphinscheduler-api FROM dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-api:版本号# 如果你想反对 MySQL 数据源COPY ./mysql-connector-java-8.0.16.jar /opt/dolphinscheduler/libs# 如果你想反对 Oracle 数据源COPY ./ojdbc8-19.9.0.0.jar /opt/dolphinscheduler/libsdolphinscheduler-master FROM dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-master:版本号# 如果你想反对 MySQL 数据源COPY ./mysql-connector-java-8.0.16.jar /opt/dolphinscheduler/libsdolphinscheduler-tools FROM dolphinscheduler.docker.scarf.sh/apache/dolphinscheduler-tools:版本号# 如果你想反对 MySQL 数据源COPY ./mysql-connector-java-8.0.16.jar /opt/dolphinscheduler/libsdolphinscheduler-worker ...

June 29, 2023 · 4 min · jiezi

关于数据库:Bytebase-VS-Yearning

下文对 Bytebase 和 Yearning 两个数据库管理工具进行了多维度比拟。 产品功能定位Yearning:性能较为繁多的独立数据库审核工具,适宜小团队进行简略的 SQL 审核,若要应答简单需要必须进行大量二次开发,用户群更偏差 DBA。 Bytebase:以 DevOps 理念打造,面向开发者与 DBA 的一站式数据库变更合作平台,同时强调管控与效率,除了面向 DBA 的管控能力外,提供了较多面向研发团队的提效性能,尤其有弱小的 SQL 变更版本治理与变更公布能力,并实现了与上下游研发工具预集成。 产品状态Yearning:提供了较为简单的图形化界面,集成了大量开源工具。 Bytebase:基于 Web 的全图形界面,能够在任意电脑关上,同时提供 API 接口、Terraform provider、命令行等多种模式应答不同研发治理流程。 次要性能比照SQL 审核标准 审核流程 变更公布 查问与优化 平安与治理 局部性能具体比照1. 变更流程展现Yearning 简略的单库单环境变更流 Bytebase 工单驱动的变更公布 多环境的流水公布 2. 变更后果剖析Yearning 不提供后果剖析,只有简略的工单展现 Bytebase 图形化查看变更历史 清晰的可视化差别比照,同时能够查看变更后的残缺表构造 3. SQL 审核Yearning 一次只能对一条语句进行审核 Bytebase 在 GitLab/GitHub 提交代码时,开发者进行 SQL 预审核 执行前的实时审核 提醒谬误所在行 4. 审核标准配置Yearning 一套规定应答所有数据库 ...

June 29, 2023 · 1 min · jiezi

关于数据库:Apache-Doris-在头部票务平台的应用实践报表开发提速数十倍毫秒级查询响应

作者|国内某头部票务平台 大数据开发工程师 刘振伟 本文导读: 随着在线平台的倒退,票务行业逐步实现了数字化经营,企业能够通过在线销售、数字营销和数据分析等形式晋升经营效率与用户体验。基于此,国内某头部票务平台为了更好地解决和剖析各剧院的票务销售、分销渠道、用户画像等数据,决定引入 Apache Doris 开启实时数仓构建之旅。本文将具体介绍该票务平台基于 Apache Doris 实时数仓的搭建过程与报表开发场景下的利用实际,并分享实时数仓如何在报表开发和查问两方面晋升性能,如何在系统维护和数据处理方面放弃低成本运行的收益与成绩。 近年来,文化产业在寰球范畴内疾速倒退,成为了经济增长的重要支柱。剧院票务作为文化产业的重要组组成部份,也失去了更多的关注。随着在线平台的倒退,票务行业逐步实现了数字化经营,企业能够通过在线销售、数字营销和数据分析等形式晋升经营效率与用户体验。 基于此,国内某头部票务平台为了更好地解决和剖析各剧院的票务销售、分销渠道、用户画像等数据,决定搭建实时数据仓库,并建设高效快捷的数据分析系统,将零碎利用于惯例业务报表、敏感数据监控以及票务举荐等利用。心愿通过数据报表对剧院票务进行精细化地剖析与解决,最终赋能营销策略、把握市场需求,并达到票务销量增长。本文将具体介绍该票务公司引入 Apache Doris 实时数仓的搭建过程与报表开发场景下的利用实际,并分享在数据导入、数据开发、数据查问与零碎运维等方面的收益成绩。 为什么引入 Apache Doris思考到剧院票务在各类上演上线后会呈现订单激增的状况,实时数仓的时效性非常要害。票务平台冀望数仓在报表开发和查问两方面可能提供高效性能,同时在系统维护和数据处理方面放弃低成本运行。 因而,咱们票务平台对于市面上罕用于报表开发的数据仓库(Apache Hive、Clickhouse、Apache Doris)进行了具体比照与剖析。 在初步理解后,首先放弃了 Apache Hive 。次要因为 Apache Hive 是离线数仓,对数据进行批量解决,报表依照 T+1 的调度周期展现后果,无奈满足实时数据更新的要求。在进一步理解后也排除了 Clickhouse 选项。一方面 Clickhouse 对 SQL 查问语法不够敌对,尽管反对了 Join 语义,但在进行多表 Join 时体现性能低,简单的关联查问会引起内存溢出,无奈满足咱们对报表查问的需要。另一方面,Clickhouse 的架构简单,对于组件依赖重大,容易呈现集群稳定性的问题。在面对海量新增数据时,业务人员须要对系统一直进行调优,不仅减少应用老本,还会减少运维治理的难度。 因而,在多方面理解和比照后,咱们发现 Apache Doris 更合乎票务平台业务需要,特地是在应用形式、架构设计、数据导入与解决方面都具备极大劣势,具体表现为: 简略易用: Apache Doris 基于 MySQL 协定,反对规范的 SQL 查问语法,使开发人员可能疾速上手应用。Doris 的架构十分精简,整体部署只有 FE 与 BE 两种角色,并且反对污浊装置,使架构无需再依赖其余组件。灵便配置监控: Doris 通过获取专门的 URL 来制订监控规定以达到优化集群状态和性能监控的目标。通过及时调整 FE、BE 角色的配置参数,始终确保数仓稳固疾速地运行。数据模型丰盛: 通过应用 Doris 自带的三种数据模型,能够无效地减速 ETL 开发过程。业务人员能够基于不同的数仓分层选用适合的模型来实现高效的数据导入,也能够依据不同的业务场景抉择适合的模型进行报表开发。查问性能更优: Doris 的物化视图和物化索引性能能够实现预计算成果,并在命中物化视图时实现疾速响应,达到秒级或毫秒级的查问展现。此外,在进行大表 Join 时,Doris 还提供多种优化机制,进一步晋升查问效率。基于 Apache Doris 搭建数据平台如何构建实时数仓 ...

June 29, 2023 · 2 min · jiezi

关于数据库:深入了解-KaiwuDB-负载行为数据采集

KAP 基于数据库系统外部反馈的各项数据指标,可帮忙用户全面把握 KaiwuDB 集群的整体运行状况,实时监测集群相干性能,可提供整体资源和集群状态角度的系统监控。 除此之外,KaiwuDB 数据库外部开发实现基于负载业务的行为数据采集性能,为 KAP 提供更加全面的数据反对,为用户提供更为多元化的信息,不便用户监控 KaiwuDB 外部的业务负载解决状况,领导用户进行 SQL 调优等。 一、技术架构从 SQL 起源、执行状况、打算内容、资源应用等角度收集负载的行为数据信息,之后将采集到的信息进行部分缓存、批量长久化。具体流程如下图所示: 二、行为数据采集通过收集 SQL 语句执行过程各阶段行为数据信息,记录数据库解决负载业务的具体执行状况,进步 KaiwuDB 数据库可观测能力。行为数据指标次要包含如下内容: Workload:Application name 等 session 局部信息 Application name:利用名称Statement:语句的整体执行状况、行数、工夫 Statement content:SQL 语句的文本内容Statement params:SQL 语句常量化参数Total elapsed time:SQL 语句从进入 KaiwuDB 到返回后果总用时Total affected rows:SQL 语句的影响行数Retry count:事务重试次数计数Resoure:整体内存应用等 session 相干资源数Memory、Disk、CPU、Coroutines 等资源状况 Node:节点信息LogicPlan:逻辑打算构建工夫、算子、谓词等 LogicalPlan time:从语法树生成逻辑打算用时Stats Profile:表相干信息Access Pattern:拜访模式LogicalOperator:算子信息Predicate:谓词信息PhysicalPlan:物理打算构建工夫、算子执行等相干信息 PhysicalPlan time:从逻辑打算生成物理打算用时ProcessorSpec:Input/Output 数据起源和去向Type:算子类型三、开关管制负载行为数据采集贯通整个 SQL 语句执行的生命周期,不可避免地对 SQL 语句的执行效率产生负面影响。因而咱们细化对行为数据采集指标的管制开关,以适配不同用户的行为数据采集需要,做到无关指标屏蔽采集,尽可能减少数据采集带来的性能损耗。 开关设计: 全局开关 sql.workloadinfo.enabled:管制所有负载行为数据是否采集;利用开关 sql.workloadinfo.application_name_list:管制仅对 application_name_list 内指定利用触发的负载业务进行行为数据采集;用户开关 sql.workloadinfo.user_name_list:管制仅对 user_name_list 内指定用户触发的负载业务进行行为数据采集;采集次数开关 sql.workloadinfo.maxcollectnum:管制对同一起源的雷同 SQL 语句的最大采集次数。四、利用洞察剖析基于这些负载角度的行为数据信息,咱们能够实现如下洞察剖析: ...

June 29, 2023 · 1 min · jiezi

关于数据库:深度分析企业大数据分析的选型需要关注哪些能力

随着信息时代的到来,企业对于企业大数据分析的需要日益晋升,促使市场上呈现了越来越多的企业大数据分析相干的软件工具。在具体选型时,给企业造成了不小的困扰。这里,就以间断四年入围Gartner魔力象限报告,取得国内宽泛认可的瓴羊Quick BI为例,为大家重点剖析一下,企业大数据分析的选型须要特地关注哪些能力。 首先是数据处理的高效性。一款杰出的企业大数据分析工具须要具备高效的数据处理能力,这样能力疾速地对每日业务流动中产生的大规模数据进行解决和剖析,满足业务倒退所需。比方瓴羊Quick BI,在自主研发的“Quick减速引擎”的帮忙下,数据处理速度方面做到了亿级数据,亚秒级响应。 其次是数据的多样性。咱们抉择的企业大数据分析的工具应该反对多种数据类型和数据源,这样能力和企业现有的数据库更好兼容。就像瓴羊Quick BI一样,它可能解决结构化数据、半结构化数据和非结构化数据,并可能与不同的数据源进行数据拉通,解决企业中的“数据孤岛”问题。 再者是数据可视化能力。干燥繁杂的数据难以起到帮忙企业决策的作用,因而,企业大数据分析的工具应具备良好的可视化与交互性能,可能将简单的数据分析后果以直观的图表和可视化界面展现进去。在这方面,应用过瓴羊Quick BI的用户肯定深有体会。瓴羊Quick BI内置了40多种可视化图表以及数据大屏等可视化性能,这让企业管理人员、业务人员在利用瓴羊Quick BI的剖析后果时异样轻松。 最初是数据安全性。大数据时代,数据安全问题是企业经营的红线。所以,企业大数据分析的工具选型肯定要关注其平安性能,确保其具备良好的安全性和隐衷爱护机制,反对数据加密、权限管制和审计等平安性能,可能对波及用户隐衷、商业秘密的数据进行平安存储和传输,避免数据的泄露和滥用。在这方面,瓴羊Quick BI为客户提供了欠缺的权限治理与权限配置性能,可能帮忙企业客户搭建企业数据安全体系,无效保障商业数据及客户信息的平安。 综上,一款杰出的企业大数据分析的工具应具备高效、多样、可视化和安全性这些根本特点。大家在选型的时候能够依据这些维度再联合本身的须要进行工具的抉择。

June 28, 2023 · 1 min · jiezi

关于数据库:一文读懂火山引擎AB测试的实验类型3多链接实验

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群一. 概述多链接试验,也称为Split url试验,用户依据分流后果拜访不同版本的url。 举个例子:当您有两个不同款式的落地页 https://example.com/1.html 和 https://example.com/2.html,想要比照这两个页面的转化成果时,能够抉择将 https://example.com/1.html设置为对照版本链接,https://example.com/2.html 设置为试验版本链接。试验开始运行后,将对照版本链接推送给用户。如果为两个版本各调配50%的流量,那么用户拜访对照版本链接 https://example.com/1.html时,有50%用户进入原始版本,其余50%用户会进入试验版本,跳转到 https://example.com/2.html。如果间接拜访 https://example.com/2.html 将不会进入试验。前置条件及限度 :目前火山引擎DataTester多链接试验反对在Web及H5页面开启。创立多链接试验,须要装置「A/B 测试」的Web/H5/WAP SDK。试验类型:多链接试验的试验类型为客户端试验。 二. 利用场景市场同学对不同广告落地页进行测试,以期比对各落地页的转化率,选出优胜页面。经营同学对不同内容页进行测试,尤其是H5流动页,以期比对各流动页带来的转化状况,从而选出优胜流动页。产品同学对不同的注册流程页面进行测试,以期比对不同流程带来的用户注册流失率状况。三. 操作演示疾速理解火山引擎DataTester多链接试验创立流程 四. 操作阐明在试验列表页点击“+创立试验”,抉择多链接试验,进入试验创立流程。 在多链接试验中,只须要依据理论场景配置对照版本及试验版本的url即可,其中 对照版本是分流的根本url, 此处填写的url及url匹配形式是决定用户拜访的页面是否能够命中试验的根据,命中试验后会拜访到哪个版本是分流服务决定的。 url参数传递阐明:多链接试验中提供了「重定向时保留原始url的参数和锚点」选项,当用户勾选后,用户到访地址url中的参数及锚点将会保留并与用户最终理论命中的版本中url的参数和锚点合并,若参数值有抵触则会以填写的url中的参数值及锚点值为准。举个例子,用户勾选了「重定向时保留原始url的参数和锚点」则在 简略匹配 的状况下,填写的对照版本url为: https://app.test.com?param1=origin#frag1试验版本url为: https://miniapp.test.com/path?param1=redirect#frag1则重定向后果如下表:点击跳转火山引擎A/B测试理解更多

June 28, 2023 · 1 min · jiezi

关于数据库:生鲜电商十年老将食行生鲜-通过火山引擎数智平台提升15下单用户

援用更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群 近日,前瞻产业研究院公布《2023 年中国生鲜电商行业全景图谱》(以下简称“图谱”) ,图谱显示2013-2022 年我国生鲜电商行业交易规模放弃快速增长态势,其中,2022 年我国生鲜电商市场规模达 5601.4 亿元,同比增长 20.25%。 作为国内生鲜新批发领跑品牌之一,创建于2012年的食行生鲜向上游严格把控供应链,向上游踊跃部署自提冷柜——在为用户提供“优质释怀菜”的同时,被动突破“最初100米”的提货门槛,逐步成为生鲜电商行业模式新范本。食行生鲜供应链流程:以销定采-集约化配送-冷柜自提 2023年3月底,食行生鲜与火山引擎数智平台(VeDI)正式实现单干交付,火山引擎数智平台为食行生鲜提供了客户数据平台VeCDP,帮忙食行生鲜进一步洞察用户需要,并为其提供所需、优质、牢靠的服务。 目前,食行生鲜的用户能够通过APP和小程序两种路径在线下单,下单实现后食行生鲜随即开启洽购流程。数据显示,陈腐蔬菜从田地到送达用户所在小区,最快可管制在8小时以内——与个别搁置用户家门口不同,食行生鲜目前在苏州、无锡两座城市投放了超过3000台冷柜,当商品送达用户所在社区后会第一工夫搁置冷柜,以避免食材长期裸露在空气中导致色泽、口感、状态扭转,同时还将站内信息、短信二次告诉用户,及时支付。 本次单干中火山引擎数智平台向食行生鲜输入的客户数据平台VeCDP,将聚焦食行生鲜APP场景,针对不同用户的需要和偏好,拆解出更合乎用户属性的服务标签,洞察不同用户群体的需要差别,从而匹配更精准的营销流动和服务。 如针对牛肉类产品,VeCDP能够根据历史购买数据为食行生鲜整合对应用户人群,并且可根据购买频次、购买类型(不同部位商品)、购买数量细化拆分出不同的用户标签。当有牛肉类商品价格稳定或者优惠活动时,食行生鲜可随时调用已有的标签或及时创立新标签,进行对应人群圈选,并联动后链路营销动作,将相干信息及时推送给与牛肉类商品强相干人群。 这样做的益处在于,既能精准地将信息推送给最感兴趣的用户,为用户带去最优惠的商品价格;又能防止打搅对此类信息不感兴趣的用户群体,无效防止信息轰炸对用户的打搅。 “应用火山引擎数智平台VeDI的数据产品曾经继续3个月,咱们很快乐食行生鲜正在产生的一些新变动,”食行生鲜数据智能负责人胡枏芳示意,“生鲜电商在国内还是一个可继续成长的行业,食行生鲜也心愿可能借助像VeCDP这样的数智产品,帮忙咱们一直拓展服务边界,让用户释怀,让用户称心。” 数据显示,在将VeCDP投入APP内的精准营销场景应用后,食行生鲜各品类下单人数池增长约15%左右。 除了VeCDP,火山引擎数智平台VeDI目前还向企业级市场推出包含增长剖析DataFinder、AB测试DataTester、大数据研发治理套件DataLeap等在内的笼罩企业数据全生命周期的产品矩阵,仅在精准营销场景下就可笼罩用户拉新、老客唤醒、营销触达等多个业务场景和底层数据建设,实现批发企业数据生产和数据生产互相循环的数据飞轮,从而推动业务的倒退。 据理解,数据飞轮是字节跳动在数据驱动理念下积淀的教训模式,可能帮忙企业转动盘活数字化实际价值,实现降本增效。 点击跳转火山引擎客户数据平台理解更多

June 28, 2023 · 1 min · jiezi

关于数据库:15-年开源路从大厂搬砖到创业挖坑

上个月回蚂蚁做了一场无关开源的分享,让我讲讲来到公司本人做开源守业后的感想。 正好借着端午节的工夫,也更残缺地回顾一下本人职业生涯 15 年来和开源结缘的经验。 邂逅 Cappuccino 08 年加入工作后,第一个投入精力的开源我的项目是 Objective-J 和 Cappuccino 框架,因为我的第一份工作是 Mac 利用开发,应用的是 Objective-C + Cocoa 框架。Objective-J 和 Cappuccino 是 Web 版的 Objective-C,Cocoa。这个对于我这样一个不想再独自学习 JS, CSS 这些,但又想开发 Web 利用的人来说很有吸引力。尤其是我的项目背地的公司 280 North 还专门做了一个网页版 PPT 软件 280slides.com 来展现他们这套计划的能力。 280 North 这家公司的名字取自 280 公路,它是连贯硅谷外围地带和旧金山的两条高速公路之一,另一条是 101。但因为 280 沿途风景优美,所以大家更喜爱走 280。 我空下来工夫就在捣鼓 Cappuccino,那时共事还发动了 CocoaHeads 北京的社区,我也去给大家分享了一下 Cappuccino,这也是我至今惟一一次加入的线下社区分享。起初 280 North 还出了一个 Web 版的 Xcode,尽管要免费,我也立即去充值了信奉。 即便放到明天来看,Cappuccino 的技术和设计品尝都不过时,就连它商业化产品采纳的名字也和 MongoDB 一样,都叫 Atlas。也起初没过多久 280 North 这家公司就被摩托罗拉以 2000 万美金收买了,而公司就只有 3 集体。 ...

June 28, 2023 · 2 min · jiezi

关于数据库:Go-语言中-Context-的作用和使用方法详解

KDP(数据服务平台)是一款由 KaiwuDB 独立自主研发的数据服务产品,以 KaiwuDB 为外围,面向 AIoT 场景打造的一站式数据服务平台,满足工业物联网、数字能源、车联网、智慧产业等行业外围业务场景下数据采集、解决、计算、剖析、利用的综合业务需要,实现“业务即数据,数据即服务”,助力企业从数据中开掘更大的商业价值。 在开发数据服务平台的实时计算组件时,可能会遇到这样的问题:实时计算组件向用户提供自定义规定性能,用户注册多个规定运行一段时间后,再批改规定的定义并重新启动,会产生协程泄露。 一、实在案例本文将用伪代码全面介绍开发数据服务平台的实时计算组件过程中,可能遇到的协程泄露问题。 //规定的大抵数据结构type DummyRule struct{ BaseRule sorce []Source sink []Sink //flow map key:flow 名称,value:flow 实例 flow map[string]Flow ...}上述 DummyRule 是本次示例的规定数据结构,它蕴含多个数据起源 Source,多个数据指标 Sink,及数据流 Flow。规定具体过程如下图: 1 和 2 是两个源,首先别离用加法解决 1 和 2 两个源;其次调用 Merge 操作合成一个流;接着进行 Fanout 操作,生成两个雷同的流,别离流入7 和 8;最终通过 7 和 8 的数字类型转成字符串,别离写入到 out1.txt 和 out2.txt 文件中。 type Source struct{ consumers []file.reader out chan interface{} ctx context.Context cancel context.CancelFunc ...}上图是 Source 类数据源的伪代码,consumers 是用来读取文件数据的读取器,out 是用来传递给下一个数据流的通道,ctx 是 Go 的上下文。consumers 读取文件数据是一个独自的协程,读取的数据将放入 out 中,期待下一个数据流的生产。 ...

June 27, 2023 · 3 min · jiezi

关于数据库:StarRocks-Friends-上海站活动回顾

6月17日, StarRocks & Friends 上海站流动如期而至,近百位社区小伙伴参加交流活动;针对 StarRocks 存算拆散、StarRocks 在业界的利用实际、以及 StarRocks 与 BI 联合、湖仓一体布局等话题开展强烈的交换互动。 本文总结了技术交流活动的要害内容和视频材料,感激社区每一位小伙伴的反对和参加,将来咱们也会持续与大家分享更多优质的内容! StarRocks & Friends 上海站精彩回顾议题一:深刻摸索 StarRocks 存算拆散架构讲师简介:蔡小华,StarRocks Active Contributor StarRocks 3.0 版本正式反对存算拆散架构,能更好的解决存算一体架构面临的老本、弹性、资源隔离等挑战。基于存算拆散架构,通过采纳S3/HDFS等共享存储,帮忙用户节俭 80% 的存储老本,并实现秒级弹性伸缩,在后续版本还会提供 Multi-warehouse 的能力,不同的 workload 通过不同的 Warehouse 来承载,实现资源隔离,按需弹性。 以后多位社区用户已在实在业务场景测试了存算拆散架构,导入、查问性能均能满足业务需要,在开启本地 Cache 时,存算拆散架构能达到跟存算一体架构雷同的性能。 https://www.bilibili.com/video/BV12m4y1Y7Av/?spm_id_from=333.... 议题二:StarRocks 在携程的利用实际讲师简介:魏宁,携程大数据平台开发专家 在携程 OLAP 零碎演进中,StarRocks 凭借其极速查问性能、架构简略易运维、反对规范 SQL等特点,在酒店实时业务数据、酒店调价、机票 fltinsight、火车票指标平台和酒店核算等十几个业务中失去了广泛应用,基于 StarRocks 的计划相比原有计划有10+倍性能晋升。 随着 StarRocks 在携程的应用规模不断扩大,携程大数据平台通过 Tablet 治理、大表治理、导入治理、SQL 优化等伎俩确保 StarRocks 在携程的稳固运行,上线至今0故障。将来携程会持续与 StarRocks 社区深刻单干,推动湖仓交融一体化,实现高效的数据管理。 https://www.bilibili.com/video/BV1Pz4y1v7G9/?spm_id_from=333.... 议题三:利用 StarRocks 构建中欧财产将来数仓讲师简介:崔深圳,中欧财产数据平台负责人 面对一直减少的数据复杂度、业务模块增多以及数据要求进步等需要,通过一年多的摸索,StarRocks 已成为中欧财产数据平台的对立 OLAP 引擎,通过 StarRocks 特有的主键模型(2000+张主键模型表上线服务),在保障高查问性能的状况下反对实时更新/删除,胜利反对理财师服务、数据分析服务、用户服务等多个业务场景的稳固运行。 StarRocks 的利用升高了零碎整体复杂性、运维老本,中欧财产将继续关注 StarRocks 物化视图、存算拆散、主从集群同步等性能,并与 StarRocks 社区独特摸索将来数仓解决方案。 ...

June 26, 2023 · 1 min · jiezi

关于数据库:日均调度-10W-任务实例DolphinScheduler-在蔚来汽车一站式数据治理开发平台的应用改造

大家好我是张金明,在蔚来汽车负责大数据平台研发工程师。这次和大家分享的是 Apache DolphinScheduler 在蔚来汽车一站式数据治理开发平台的利用和革新,接下来我将从背景、利用现状和技术改造三个方面去分享一下。 背景业务痛点在蔚来汽车构建一个对立的数据中台之前,咱们面临这样一些业务痛点和窘境: 数据不足治理,数仓不标准、不残缺 没有对立的数据仓库,无全域的数据资产视图存在数据孤岛;工具散乱,用户权限不对立、学习老本高 用户须要在多个工具之间切换,导致开发效率升高底层运维老本高;数据需要响应周期长,找数难、取数难 无沉淀的数据资产与中台能力,反复解决原始数据;业务数据需要从提出到获取后果的周期长基于这些痛点和问题,咱们构建了一个公司层面的业务中台,外部叫做 DataSight。 咱们能够看到,最底下是咱们的一些根底组件;往上一层,这些根底组件次要是撑持了一些数据接入与开发的模块;再向上是咱们的数据治理,以及数据资产与应用层。其中,Apache DolphinScheduler 这个调度器在公司次要利用于交互的模块,就是数据开发和数据运维两个模块。 数据开发中,调度工作开发次要就是用到了 Apache DolphinScheduler,通过 API 和调度器进行交互。 利用现状作业现状目前,咱们的机器共有 9 台,别离是两台 Master机器,是8c 和 32G;六台 Worker 机器,16c 和 64G,以及一台 Alert 机器,8c 和 32G。 版本是更新到了 Apache DolphinScheduler 2.0.7,后续的指标是降级到 2.0.8 版本,2.0 版本曾经可能撑持咱们的业务了,整体的稳定性还是比拟好的。 咱们其实是从 2022 年 4 月份开始才真正地在线上运行 Apache DolphinScheduler,直到明天大略运行了一年一个月多的工夫,日均的调度工作流实例大略在 4w+,日均调度工作实例大略在 10w+ 左右,次要节点是 Spark 节点、SparkSQL、prestoSQL、Python 和 Shell,其中 Spark 节点占比约 70%。 目前这些节点曾经可能撑持咱们的大部分业务,后续咱们可能会把 DolphinScheduler 自带的一些节点加到咱们的数据开发模块外面来。 技术改造为了适应咱们业务的需要,咱们对 Apache DolphinScheduler 进行了一些技术改造。首先是稳定性方面的工作。 稳定性滚动重启+黑名单机制+精准路由这个革新是因为咱们遇到的一些痛点,首先,大家晓得,DolphinScheduler 的 Worker 重启机制在重启时会把所有的工作给 kill 掉,而后去Restart 这个工作,把这个 kill 的工作散发到新的 Worker 机器上。这样会导致工作执行工夫较长。这不合乎咱们的预期。 ...

June 26, 2023 · 2 min · jiezi

关于数据库:图书搜索领域重大突破用Apache-SeaTunnelMilvus和OpenAI提高书名相似度搜索精准度和效率

作者 | 刘广东,Apache SeaTunnel Committer 背景目前,现有的图书搜寻解决方案(例如公共图书馆应用的解决方案)非常依赖于关键词匹配,而不是对书名理论内容的语义了解。因而会导致搜寻后果并不能很好地满足咱们的需要,甚至与咱们期待的后果天壤之别。这是因为仅仅依附关键词匹配是不够的,因为它无奈实现语义了解,也就无奈了解搜寻者真正的用意。 那么,有更好的办法能够让咱们更加精确、高效地进行图书搜寻吗?答案是有!本文中,我将介绍如何联合应用Apache SeaTunnel、Milvus和OpenAI进行类似度搜寻,实现对整个书名的语义了解,从而让搜寻后果更加精准。 应用训练有素的模型来示意输出数据被称为语义搜寻,这种办法能够扩大到各种不同的基于文本的用例,包含异样检测和文档搜寻。因而,本文所介绍的技术能够为图书搜寻畛域带来重大的冲破和影响。 接下来我来简略介绍几个与本文相干的概念和用到的工具/平台,便于大家更好地了解本文。 什么是Apache SeaTunnelApache SeaTunnel是一个开源的、高性能的、分布式的数据管理和计算平台。它是由Apache基金会反对的一个顶级我的项目,可能解决海量数据、提供实时的数据查问和计算,并反对多种数据源和格局。SeaTunnel的指标是提供一个可扩大的、面向企业的数据管理和集成平台,以满足各种大规模数据处理需要。 什么是MilvusMilvus是一个开源的相似向量搜索引擎,它反对海量向量的存储、检索和类似度搜寻,是一个针对大规模向量数据的高性能、低成本的解决方案。Milvus能够在多种场景下应用,如举荐零碎、图像搜寻、音乐举荐和自然语言解决等。 什么是OpenAIChatGPT是一种基于GPT(Generative Pre-trained Transformer)模型的对话生成零碎,是由OpenAI开发的。该零碎次要应用了自然语言解决、深度学习等技术,能够生成与人类对话类似的自然语言文本。ChatGPT的利用范畴很广,能够用于开发智能客服、聊天机器人、智能助手等应用程序,也能够用于语言模型的钻研和开发。近年来,ChatGPT曾经成为了自然语言解决畛域的钻研热点之一。 什么是LLM(Large Language Model)大语言模型(Large Language Model)是一种基于深度学习技术的自然语言解决模型,它能够对一段给定的文本进行剖析和了解,并生成与之相干的文本内容。大语言模型通常应用深度神经网络来学习自然语言的语法和语义规定,并将文本数据转换为间断向量空间中的向量示意。在训练过程中,大语言模型利用大量的文本数据来学习语言模式和统计法则,从而能够生成高质量的文本内容,如文章、新闻、对话等。大语言模型的应用领域十分宽泛,包含机器翻译、文本生成、问答零碎、语音辨认等。目前,许多凋谢源代码深度学习框架都提供了大语言模型的实现,如TensorFlow、PyTorch等。 教程重点来了!我将展现如何将Apache SeaTunnel、OpenAI的Embedding API与咱们的矢量数据库联合应用,来通过语义搜寻整个书名。 筹备步骤在试验之前,咱们须要去官网获取一个OpenAI的token,而后在去部署一个Milvus的试验环境。咱们还须要筹备好将用于这个例子的数据。你能够从这里下载数据。 通过SeaTunnel将数据导入Milvus首先,将book.csv放到/tmp/milvus_test/book下,而后配置工作配置为milvus.conf并放到config下。请参考疾速使用指南。 env { # You can set engine configuration here execution.parallelism = 1 job.mode = "BATCH" checkpoint.interval = 5000 #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"}source { # This is a example source plugin **only for test and demonstrate the feature source plugin** LocalFile { schema { fields { bookID = string title_1 = string title_2 = string } } path = "/tmp/milvus_test/book" file_format_type = "csv" }}transform {}sink { Milvus { milvus_host = localhost milvus_port = 19530 username = root password = Milvus collection_name = title_db openai_engine = text-embedding-ada-002 openai_api_key = sk-xxxx embeddings_fields = title_2 }}执行如下命令: ...

June 26, 2023 · 2 min · jiezi

关于数据库:焱融构建多云数据存储平台-重塑云中数据活力

多云已成为企业 IT 架构新常态,是企业向云演进的最佳抉择。大型企业抉择云化能够进一步晋升 IT 建设程度,而中小企业则能够实现信息化治理节约资金投入,防止陷入简单 IT 架构建设的困境。随着企业云化演进的一直实际,企业在继续摸索抉择最佳建设模式。最后,繁多云平台被企业宽泛采纳,但随着云平台撑持的业务类型增多,繁多云平台的架构也暴露出诸多问题。一方面是不同云厂商的各自劣势,另一方面, 繁多云供应商也减少了企业对数据安全的担心,这包含多私有云和多公有云。企业能够依据工作负载的要求,抉择私有云或者企业自建数据中心进行部署。 私有云因其灵便、可扩大、成本低等劣势,成为越来越多企业抉择的数据中心。弹性伸缩是私有云中一个要害个性,它能够让企业在业务需要变动时主动调整资源应用,从而更好地反对业务倒退。而企业自建数据中心可实现对数据的管控及独立管制经营,具备企业外围竞争力的业务可无效防止被厂商锁定,同时进一步施展企业自有平台的能力,帮忙企业把握上云的主动权。 企业多云 IT 架构演进面临的挑战企业要实现多云 IT 架构转型,须要突破跨云数据共享、数据流动、对立数据管理的瓶颈,企业用户采纳多云建设模式之后,数据被扩散在不同的云平台中,利用是无奈实现跨云的数据调用,这就造成多个数据孤岛,无奈构建以数据为核心的企业数字化架构。企业用户依据利用的类型、数据处理和平安需要,抉择将不同的利用和数据部署在企业本地数据中心或私有云上,这就须要企业构筑跨云的对立数据管理和流动,以实现数据存储和治理的最佳效率。其中数据管理和流动包含全局数据调度、混合云容灾/备份/分级存储。 简而言之,企业抉择多云 IT 架构,推动数字化转型与倒退,重点是要解决如何最大化实现跨云和跨数据中心的资源共享,以及如何实现数据对立治理和驱动数据流动等外围问题。 企业构建多云 IT 架构的整体思路随着以 5G、IoT、云计算、大数据、AI 为代表的新技术在数字化转型中的深刻利用,企业 IT 架构走向“传统 IT+公有云+私有云+边缘”的混合架构。存储作为 IT 数据基础设施底座,存储的读写性能决定了下层利用的性能和用户的体验,同时也是驱动数据流动的重要引擎。构建先进的数据存储平台也是企业实现多云 IT 架构转型的要害一环,企业须要关注以下几点建设方向: 企业须要利用各家云供应商的技术劣势,减速数字化利用开发,并抉择利用和存储拆散的 IT 架构,以实现跨云的数据共享。推动存储厂商将业余存储以软硬件一体或者纯软件的形式部署到私有云平台,帮忙企业实现数据的跨云平滑演进。企业布局跨云的数据对立治理平台,实现全局数据视图、全局数据调度、混合云容灾/备份/分级,使数据依照不同的服务等级寄存在存储的最佳地位,并疾速高效流动起来。企业和存储厂商应踊跃拥抱容器等最新云技术,发展联结翻新,更好地施展多云的最优获益。近年来,人工智能、HPC 、大数据等技术也在彼此交融协同,利用场景不断丰富,催生了泛滥新的利用与翻新,如迷信智能 AI for Science,高性能数据分析 HPDA 等,并在疫情防控、危险人员辨认、主动驾驶、新药研发、劫难气象预测等畛域减速落地。晚期的 HPC/AI 利用次要集中在科研单位、重点院校、大型企业和 AI 公司等,大多运行在企业自建 IDC 的高性能计算集群环境中。随着 AI 与 HPC 计算机科学的一直倒退,单纯依附自建计算机集群资源已无奈满足技术演进的需要,广泛面临着扩展性不佳、性能呈现瓶颈、治理保护难的痛点。企业心愿可能联合公共云架构,通过高性能、高弹性、灵活性、免运维与低成本的云上算力,解决在建设高性能计算集群时始终面临着的诸多挑战。所以越来越多的企业客户开始将 AI、HPC 利用往云上搬迁。 AI、HPC 利用所产生的非结构化数据,例如视频、语音、图片文件等的容量正在从 PB 到 EB 级逾越。例如,1 台基因测序仪每年产生数据达到 8.5PB,1 颗遥感卫星每年采集数据量能够达到 18PB,1 辆主动驾驶训练车每年产生训练数据达到 180PB。而私有云上存储产品状态次要是两类:一类是分布式块存储:次要为云主机提供存储空间,如 AWS EBS 等;另一类是分布式对象存储:为云主机快照数据、网盘、大数据等利用提供存储空间。却短少匹配大规模 AI/HPC 计算集群的分布式文件存储产品,所以要实现 AI、HPC 利用在云上胜利落地,首先要解决来自数据面的挑战: ...

June 26, 2023 · 2 min · jiezi

关于数据库:倒计时-1-天-SphereEx-即将亮相-2023-亚马逊云科技中国峰会快来旁观超强剧透

2023 年 6 月 27 - 28 日, “因构建·而可见” 2023 亚马逊云科技中国峰会将在上海隆重举行,SphereEx 将携面向新一代数据架构的数据库加强引擎:SphereEx-DBPlusEngine 亮相亚马逊云科技中国峰会,展现分布式数据库、数据安全、信创替换三大解决方案,分享来自金融、电商、新批发等重点行业的数据架构落地实际,为企业的商业翻新减速助力。 上面让咱们来看看 SphereEx 在本次展会的看点~ 三大重磅解决方案SphereEx 作为一家真正连通所有数据库的企业级数据架构总体解决方案提供商,将携带成熟的企业级数据库加强引擎数据架构整体解决方案亮相,包含顶层打算及施行落地、国产代替等。 通过多年的积淀,目前,产品曾经在金融、电商、物流、智能制作、政企等多个行业企业的生产环境中应用,成为诸多公司的数据计算架构外围组件,取得了企业级用户的认可。 一、分布式数据库解决方案解决问题:解决了海量数据、高并发、低提早、多元异构场景下的数据库扩大问题海量规模:如 TB 级别以上,单表千万记录以上高并发:如 TPS > 2000低提早:毫秒级响应无规范:对立数据库开发、运维、治理入口计划能力:异构存储引擎、分布式事务、混算引擎、灵便分片策略、弹性伸缩、在线重分片二、数据安全解决方案解决问题:解决数据合规和平安问题,合乎一直趋紧的合规需要不改变原有代码,疾速实现业务迁徙提供全链路数据安全解决方案,含辨认、存储、利用、逃生通道为企业提供跨平台、异构环境、多云的数据安全解决方案计划能力:数据加密、数据脱敏、多粒度权限、行为审计、敏感数据辨认。三、信创替换解决方案帮忙推动企业实现自主翻新革新,解决国产信创替换顺利完成最初一公里问题能力加强:填补信创库分布式能力,扩充应用场景适配宽泛:可对接所有国产库,满足多元化信创选型现状平滑逃生:数据双写,实现在传统、信创栈逃生迁徙,躲避危险迁徙革新:异构接入,冲破信创的革新难点,降本增效计划能力:计划转换、异构双写、数据比照、灰度切流、数据库上云。大咖现场精彩分享SphereEx 联结创始人 & CTO 潘娟 将在大会期间将向业界介绍如何充分发挥弹性伸缩、主动备份、容错解决等云计算的劣势,进步分布式数据库的可靠性和性能。同时,也将分享在分布式数据库利用中安全性的重要性和实际办法,从多个方面爱护数据的安全性。 期待与业界分享这些无关架构和性能的最佳实际,一直推动分布式数据库技术不断进步并为客户带来真正的商业价值。 精彩乏味的互动流动扫描下方二维码预约参观,通过二维码进行预约的小伙伴在展会现场可凭借手机号支付精美礼品一份!还能够在现场参加抽奖,更多好礼等你拿! 更多解决方案和最新技术尽在上海世博核心 5层 S-4参展商专区 C16 展台SphereEx 期待您的光临热切期待您的到来!————————————————版权申明:本文为CSDN博主「SphereEx」的原创文章,遵循CC 4.0 BY-SA版权协定,转载请附上原文出处链接及本申明。原文链接:https://blog.csdn.net/SphereEX/article/details/131399495

June 26, 2023 · 1 min · jiezi

关于数据库:云原生时代数据治理的变革与创新

随着数字化过程的深刻,企业对数据的依赖日益加深,数据资源的重要性愈发凸显。如何管好、用好数据,做好数据治理工作,施展数据资源价值,成为企业提质增效过程中的重要议题。 在本次直播中,咱们介绍了数据治理体系、技术框架及云原生数据平台在数据治理畛域的劣势。以下内容依据直播文字整顿成稿。 传统数据治理体系及框架在数字化转型中,策略驱动是基本,数据治理是根底,数据智能是方向。 数据治理就是从组织、治理、技术的角度继续扭转数据应用行为的过程,贯通整个数据生命周期。数据治理的基本指标是确保数据安全,晋升数据价值。 同时,数据治理更是一个体系,其关注于信息系统的执行层面,以整合信息科技部门与业务部门的常识和意见为目标,通过数据治理组织对企业的信息化建设进行全方位的监管,从而迭代数据资产价值,赋能业务倒退,达成业务策略,保障数据安全,升高隐衷泄露的危险。 数据治理体系波及企业的组织、治理、技术等多个层面,和业务部门关系严密。通常,企业的数据治理工作都是由业务部门牵头,IT部门辅助执行。  图1 数据治理体系架构图如上图所示,数据治理体系分为三个层级,别离是数据治理对象、数据治理工作和数据治理撑持。 数据治理的对象围绕主题进行划分,不同企业的数据主题不尽相同,与企业本身组织和部门设置密切相关,这里不再开展形容。 数据治理撑持包含企业的组织架构、在数据治理过程中的角色、企业外部基于数据治理相干的制度与流程以及IT 技术架构与平台。 数据治理工作,次要蕴含主数据管理、数据规范治理、数据品质治理、数据资产治理、数据安全治理、数据生命周期等。其中,主数据管理、元数据管理和数据品质治理是重点所在。 主数据管理主数据是指形容外围业务实体的数据,如客户、产品、员工、账户等,具备高业务价值的、可在逾越各个业务部门被重复使用的数据,并且存在于多个异构的利用零碎中。 主数据管理将从企业多个业务零碎中整合最外围、最须要共享的数据(即主数据)集中进行荡涤和丰盛,并以服务的形式把主数据分发给企业范畴内的操作型和剖析型利用。 主数据管理的目标是为了保障在跨零碎和跨平台应用数据的时候,主数据可能保持一致。 数据品质治理数据品质管理体系包含数据品质的判断以及所有对数据品质起到保障晋升作用的流动、流程,力求实现全方位数据品质治理。 其中,数据品质优化晋升是面向存量数据,按业务零碎或者主题分批对数据进行剖析、荡涤,进步既有数据品质的数据品质治理流动。数据品质治理的管控,首先须要企业外部制订相干的规章制度,并将数据依照不同的主题域指定相应的归口部门,确保数据品质是的继续晋升。 图2 数据品质问题归因溯源通过上方的鱼骨图能够看出,数据品质问题产生的起因有很多,其中人员、流程、业务零碎前段录入属于原生数据品质问题;业务零碎后端数据库设计、数据抽取、数据加载等属于次生数据品质问题。 针对原生数据品质问题,能够通过进步录入的自动化和易用性等伎俩,升高前端输出时出错的机率。 对于次生数据品质问题,通过在数据流转过程中退出一些埋点校验,进行数据比对,防止数据出错。 元数据管理元数据用来形容数据的数据,相当于书籍的目录,是数据的解释阐明信息,使数据的使用者能够理解数据的特色、内容、作用,以及获取形式等信息,并对数据是否能满足应用需要做出适当的评估。 在数据治理体系中,元数据可分为业务元数据、技术元数据、操作元数据和治理元数据四种类型。元数据管理分为采集、治理、分类、服务四个层面,波及规范制订、补充保护、治理分类、血统剖析、查问统计等诸多环节。 对于大型企业,元数据的规模比拟宏大,要实现元数据管理须要投入大量的人力和工夫,工程周期往往以年为单位。此外,企业数据治理还波及数据规范、数据安全、数据生命周期等,这里不再开展赘述。 数据治理面临的难题随着新技术的不断涌现和数据量的极速增长,传统数据治理体系在施行时面临着以下挑战: 元数据管理老本高:业务元数据的施行须要业务人员的染指与辨认,每个数据平台都要录入,数据流转的操作元数据也须要进行录入,导致记录老本高。数据品质难以保障:数据在平台间流转的过程中会产生次生数据品质问题,须要进行大量的埋点校验工作。数据规范落标简单:每个数据平台都要进行数据规范的查看,跨平台的数据规范一致性难以保障。数据同步策略简单:主数据平台必须向多个数据平台同步主数据,须要简单的同步策略,否则可能面临主数据的版本不统一问题。敏感数据难以集中治理:须要定期对每个数据平台的敏感数据进行辨认,数据跨平台流转还须要加密解密,保护艰难。数据服务响应周期长:数据服务要通过多个数据平台进行加工和etl,拉长了数据服务的响应工夫。   云原生数据平台下的数据治理以后,云计算对企业IT架构产生了深刻影响和改革,云原生平台可能在很大水平加重上述数据管理与治理累赘,缩短响应周期,基于云原生平台的数据治理应运而生。 图3 云原生平台体系与数据治理如上图所示,与传统数据体系相比,云原生数据平台体系具备以下特点: 一站式麻利数据服务:通过一站式的数据门户,疾速检索数据资产,麻利开发新的数据服务与产品,疾速公布上线,和用户互动迭代更新,滚动积淀企业的数据资产价值。云原生数据平台:采纳存算拆散架构,原生反对OneData,保障企业外围数据的一致性,升高数据治理的复杂度;依据业务状态,实现资源弹性伸缩、动静调度与高并发,满足各种业务场景的灵便要求。同时具备自愈能力,进步零碎可用性。云原生大数据撑持平台:为云原生化的数据平台提供稳固撑持,实现存算拆散、弹性调度、更好的资源隔离等能力,同时也反对混合云等多种异构环境部署,保障业务的灵活性,帮忙企业疾速实现业务指标。随着新技术的一直成熟,利用场景一直减少,业务模式一直复杂化,全域数据治理的理念日益受到企业的器重。全域数据涵盖了企业相干的内外部数据,与企业的业务和商业性质非亲非故。 云原生数据平台的“存算拆散”,实现了企业内的全域数据交融,整合了扩散的数据平台,彻底消除了数据孤岛景象,并且能够集中进行数据安全治理,缩小安全漏洞产生环节,同时也缩小了次生数据品质问题;针对全域数据一站式地治理主、元数据、数据规范、数据架构与模型,大幅升高数据治理的复杂度;同时,云原生的数据资产服务也使业务变得更加麻利,适应市场的瞬息万变,一直迭代数据资产,从而达成数字化转型。 目前,HashData作为国内当先的云原生数据平台,已在金融、电信、政务、能源、交通等泛滥畛域实现大规模商用,帮忙企业高效、便捷地发展全域数据治理工作。 图4 HashData在国有大行生产落地实例以某国有大行为例,应用HashData云原生数据平台整合了所有P9剖析平台,将全域数据依照主题域进行划分,实现了数据集中管控,数据架构交融对立。 同时,上收所有分公司的数据平台,对立提供全域数据与计算资源。基于共享存储管理着全行对立的、面向剖析的企业级数据视图,按利用场景的不同建设多个计算集群,任意计算集群在受权后均可访问共享存储中的任意数据,以实现业务加工计算或在线查问剖析。 因为数据平台对立,能够在全行内应用对立的数据模型最佳实际,防止不同技术栈产生的模型差别,缩小了次生数据品质问题和元数据操作,大幅升高了数据管理老本。 将来咱们期待为各行各业带来最新的云原生技术实际,赋能企业实现OneData,轻装上阵开释数据价值!

June 26, 2023 · 1 min · jiezi

关于数据库:h2database-BTree-设计实现与查询优化思考-京东云技术团队

h2database 是应用Java 编写的开源数据库,兼容ANSI-SQL89。既实现了惯例基于 BTree 的存储引擎,又反对日志构造存储引擎。性能十分丰盛(死锁检测机制、事务个性、MVCC、运维工具等),数据库学习十分好的案例。 本文实践联合实际,通过BTree 索引的设计和实现,更好的了解数据库索引相干的知识点以及优化原理。 BTree 实现类h2database 默认应用的 MVStore 存储引擎,如果要应用 基于 BTree 的存储引擎,须要特地指定(如下示例代码 jdbcUrl)。 以下是惯例存储引擎(BTree 构造) 相干的要害类。 org.h2.table.RegularTableorg.h2.index.PageBtreeIndex (SQL Index 本体实现)org.h2.store.PageStore (存储层,对接逻辑层和文件系统)BTree 的数据结构能够从网上查到具体的形容和解说,不做过多赘述。 须要特地阐明的是:PageStore。咱们数据查问和优化要害的缓存、磁盘读取、undo log都是由 PageStore 实现。能够看到具体的文档和残缺的实现。 BTree add index entry 调用链提供索引数据新增的调用链。同样的,索引的删除和查问都会波及到,不便 debug 参考。org.h2.command.dml.Insert#insertRows (Insert SQL 触发数据和索引新增)org.h2.mvstore.db.RegularTable#addRow (解决完的数据Row, 执行新增)org.h2.index.PageBtreeIndex#add (逻辑层减少索引数据)org.h2.index.PageDataIndex#addTry (存储层减少索引数据)org.h2.index.PageDataLeaf#addRowTry (存储层新增实现)// 示例代码// CREATE TABLE city (id INT(10) NOT NULL AUTO_INCREMENT, code VARCHAR(40) NOT NULL, name VARCHAR(40) NOT NULL);public static void main(String[] args) throws SQLException { // 留神:MV_STORE=false,MVStore is used as default storage Connection conn = DriverManager.getConnection("jdbc:h2:~/test;MV_STORE=false", "sa", ""); Statement statement = conn.createStatement(); // CREATE INDEX IDX_NAME ON city(code); 增加数据触发 BTree 索引新增 // -- SQL 实例化为:IDX_NAME:16:org.h2.index.PageBtreeIndex statement.executeUpdate("INSERT INTO city(code,name) values('cch','长春')"); statement.close(); conn.close();}Code Insight联合上述的示例代码,从索引新增的流程实现来理解BTree 索引的个性以及应用的注意事项。从底层实现剖析索引的运行,对 SQL 索引应用和优化有进一步意识。表增加数据 public void addRow(Session session, Row row) { // MVCC 管制机制,记录和比对以后事务的 id lastModificationId = database.getNextModificationDataId(); if (database.isMultiVersion()) { row.setSessionId(session.getId()); } int i = 0; try { // 依据设计规范,indexes 必定会有一个汇集索引(h2 称之为scan index)。① for (int size = indexes.size(); i < size; i++) { Index index = indexes.get(i); index.add(session, row); checkRowCount(session, index, 1); } // 记录以后 table 的数据行数,事务回滚后会相应递加。 rowCount++; } catch (Throwable e) { try { while (--i >= 0) { Index index = indexes.get(i); // 对应的,如果产生任何异样,会移除对应的索引数据。 index.remove(session, row); } } throw de; }}① 同Mysql InnoDB 数据存储一样, RegularTable 必有,且只有一个汇集索引。以主键(或者隐含自增id)为key, 存储残缺的数据。 ...

June 26, 2023 · 4 min · jiezi

关于数据库:DataLeap的全链路智能监控报警实践二概念介绍

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群概念介绍基线监控依据监控规定和工作运行状况,DataLeap的基线监控可能决策是否报警、何时报警、如何报警以及给谁报警。它保障的是工作整体产出链路,外围指标包含: 笼罩链路中的所有工作;升高工作监控配置老本;防止有效报警。 保障工作个别抉择有SLA要求的工作作为保障工作退出基线,DataLeap通过保障工作的依赖拓扑图主动监控上游工作,造成须要监控的工作链路。 工夫定义承诺工夫:最晚实现工夫,即SLA。预警余量:基线SLA Buffer,耗费预警余量即触发基线预警。预警工夫:工作承诺工夫 - 预警余量,即工作预期最晚实现工夫。预测运行时长:基于工作历史的执行状况预测当前任务执行的运行时长。承诺最晚开始工夫:承诺工夫-工作预测运行时长。预警最晚开始工夫:预警工夫-工作预测运行时长。各工夫的关系如下图所示: 监控范畴DataLeap的基线默认监控的范畴包含:基线保障工作及保障工作上游的所有工作。如下图所示,保障工作D,E及它们所有的上游节点都会纳入基线监控范畴,而工作C,F不受基线监控。值得阐明的是,DataLeap的基线监控容许用户配置基线监控只笼罩“指定我的项目”下的工作,此时基线监控的范畴就只蕴含了保障工作及这些我的项目下的上游工作。 基线实例和工作相似,基线也有业务工夫的概念。对工作来说,一个业务工夫会生成一个工作实例;而对基线来说,一个业务工夫会生成一个基线实例,负责监控同一业务工夫下保障工作的实例及其依赖的所有上游工作实例的运行状态。天基线和小时基线每天生成实例的规定如下:天基线:每天生成一个基线实例,其业务工夫与该基线保障工作的业务工夫雷同;小时基线:承诺工夫有两种设置形式:对立承诺和分时承诺。如果是对立承诺,则生成基线实例的个数为24个,每个基线实例的承诺工夫统一;如果是分时承诺,则每天生成N个基线实例,其中N为用户配置的监控业务工夫范畴蕴含的业务工夫数量,N的范畴是[1,24]。 基线实例状态平安:工作在预警工夫之前实现。预警:工作在预警工夫未开始运行,但还未达到承诺工夫。破线:工作在承诺工夫仍未运行实现。其余:基线实例敞开或者基线没有关联工作时,基线实例所处的状态。 报警类型基线监控反对十分丰盛的报警类型:基线预警:基线监控的链路上,首个没有在基线预警工夫节点开始运行的节点。基线破线:“基线破线”报警需满足以下两个条件: 工作节点的上游(蕴含间接和间接上游)没有呈现过破线;该工作没有在破线工夫节点开始运行。破线加剧:“执行变慢导致破线加剧”报警触发需满足以下两个条件: 工作所在链路已发送首次“基线破线”报警工作运行耗时相较于预测运行耗时有所增加,具体来说:a. 当工作理论开始工夫早于基线破线开始工夫时,将“破线开始工夫 + (预测运行耗时 * (1 + N%))”作为检测时间点,如果工作达到检测时间点时还没有运行实现,则触发告警;b. 当工作理论开始工夫晚于破线开始工夫时,将“工作理论开始工夫 + (预测运行耗时 * (1 + N%))”作为检测时间点,如果工作达到检测时间点时还没有运行实现,则触发告警。保障工作预警工夫未实现:基线预警工夫达到(承诺工夫-预警余量),查看基线所有保障工作是否实现运行,若有保障工作未运行实现,且基线之前无预警、破线报警,则触发报警。保障工作承诺工夫未实现:基线承诺工夫达到,查看基线所有保障工作是否实现运行,若有保障工作未运行实现,则触发报警。工作失败事件:基线监控链路上,任意工作,重试完结仍失败,则触发失败事件。监控链路上的工作,产生失败事件则触发该报警。 基线事件基线监控工作(保障工作及其上游工作),在执行过程中,若呈现失败、变慢等状况,将被当作基线的异样事件,进行记录。变慢事件: 辨认基线监控工作(保障工作及其上游)运行变慢的状况。辨认条件为:工作运行时长较该工作的预测运行时长上涨了X%,则视为一个变慢事件。失败事件: 辨认基线监控工作(保障工作及其上游)运行失败的状况,辨认条件为:工作运行过程中呈现过失败,则视为一个失败事件。基线事件的状态蕴含“新发现”和“已复原”两种。当基线监控的工作产生变慢或者失败事件时,基线事件状态更新为“新发现”;但如果工作最终实现了的话,基线事件的状态会被更新为“已复原”。 点击跳转大数据研发治理套件 DataLeap理解更多

June 26, 2023 · 1 min · jiezi

关于数据库:首个国人主导的开源数据集成工具揭秘-Apache-顶级项目-SeaTunnel-背后的故事

“将来十年,世界的开源要看中国。” 在 CSDN《开源访谈录》的采访中,Apache 孵化器导师、Apache SeaTunnel PMC Member& Mentor 代立冬说下了这样的一句话,从他在 Apache 孵化器里看到的我的项目来看,由来自中国的开发者主导的开源我的项目比重越来越大。 代立冬自己与“侠之大者”的郭炜一起,种下的 SeaTunnel 在开源之力的作用下,曾经成为了 Apache 顶级开源我的项目,而这也是第一个由国人主导的数据集成畛域的我的项目。 5 年时光悄悄而逝,近 25 万行代码,200 余位贡献者,寰球合作。在这背地,有哪些鲜为人知的故事,经验过哪些挫折?为什么要立下“这个轮子我造定了”的豪言壮语?在本文中,郭炜和代立冬一起为咱们揭开了 SeaTunnel 如何从无到有,走向开源,走向世界。 同时,郭炜、代立冬、刘天栋与咱们相约 CSDN,分享 Apache 顶级我的项目的经验与教训,一起共赴开源将来。欢送扫码观看直播回放。 作者 | 郭炜、代立冬 责编 | 唐小引 出品 | CSDN(ID:CSDNnews) 2023 年 6 月 1 日,在儿童节这天,首个由国人主导的开源数据集成工具 Apache SeaTunnel 正式发表从 Apache 软件基金会孵化器毕业成为顶级我的项目。历经 18 个月的孵化,这个我的项目终于水到渠成。但也正如一个“呱呱坠地”的婴儿一样,Apache SeaTunnel 新的旅程,其实才刚刚开始。 从最早的 Waterdrop 到现在的 Apache SeaTunnel; 从实时数据处理系统到新一代一站式高性能、分布式、海量数据集成解决方案工具; 从 2018 年 1 月的第一行代码到现今的 24.5 万行代码; 从不到 10 人的贡献者到 200+ 位贡献者; ...

June 25, 2023 · 3 min · jiezi

关于数据库:SeaTunnel毕业首个国人主导的数据集成项目成为Apache顶级项目

采访嘉宾 | 郭炜、高俊编辑 | Tina 北京工夫 2023 年 6 月 1 日,寰球最大的开源软件基金会 Apache Software Foundation(以下简称 ASF)正式发表 Apache SeaTunnel 毕业成为 Apache 顶级我的项目 (TLP, Top Level Project)。 Apache SeaTunnel 于 2021 年 10 月申请加入 Apache 孵化器,不到 2 个月,便以“全票通过”的优良体现正式成为 Apache 孵化器我的项目。2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决定,完结了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级我的项目。 这是首个由国人主导并奉献到 ASF 的大数据集成畛域的顶级我的项目,为了理解我的项目的起源、倒退过程,以及开源心得,InfoQ 采访了 Apache SeaTunnel 我的项目的要害成员。 采访嘉宾简介: 郭炜,Apache 基金会成员;Apache DolphinScheduler PMC Member;Apache SeaTunnel Mentor。 ...

June 25, 2023 · 3 min · jiezi

关于数据库:SeaTunnel-发布成为-Apache-顶级项目后首个版本-232进一步提高-Zeta-引擎稳定性和易用性

近日,Apache SeaTunnel 正式公布 2.3.2 版本。此时间隔上一版本 2.3.1 公布已有两个多月,期间咱们收集并依据用户和开发者的反馈,在 2.3.2 版本中对 SeaTunnel Zeta Engine 进行了 Bug 修复,进步了引擎的稳定性和应用效率。 此外,新版本还对 Connector-V2 中的连接器进行了性能和性能优化,同时 SQL Transfrom 反对了自定义 UDF 函数,Zeta Engine 也提供了通过 Rest API 的形式进行集群的监控和查问操作。 本文将为大家介绍 Apache SeaTunnel 2.3.2 版本更新内容具体情况。 Release Note: https://github.com/apache/seatunnel/blob/2.3.2-release/release-note.md下载地址:https://seatunnel.apache.org/download新性能本次更新,Zeta Engine 反对了以 RestAPI 的形式获取工作和零碎的监控信息,用户能够通过调用 HTTP 申请到任意节点实现数据信息申请,加强了工作的监控能力。 详情可参考:https://seatunnel.apache.org/docs/2.3.2/seatunnel-engine/rest... 此外,2.3.2 版本中 SQL Transform 反对了自定义 UDF 函数,具体用法请参考:https://seatunnel.apache.org/docs/2.3.2/transform-v2/sql-udf Core[Core] [API] 反对将字符串转换为List<T>选项 (#4362)[Core] [API] 在创立源、接收器和转换之前增加选项查看到FactoryUtil中 (#4424)[Core] [Shade] 增加guava shade模块 (#4358) Connector-V2[Connector-V2] [CDC] [SQLServer] 反对多表读取 (#4377)[Connector-V2] [Kafka] Kafka源反对跳过数据反序列化失败 (#4364)[Connector-V2] [Jdbc] [TiDB] 增加了TiDB目录 (#4438)[Connector-V2] [File] 增加了文件Excel的源和接收器 (#4164)[Transform-V2] 增加了UDF SPI和一个示例实现,用于SQL转换插件 (#4392)[Transform-V2] 反对复制字段列表 (#4404)[Transform-V2] 为FieldMapperTransform增加了CatalogTable反对 (#4423)[Transform-V2] 为ReplaceTransform增加了CatalogTable反对 (#4411)[Transform-V2] 为FilterRowKindTransform增加了Catalog反对 (#4420)[Transform-V2] 为FilterFieldTransform增加了CatalogTable反对 (#4422)Zeta Engine[Zeta] 反对Factory和Plugin SPI的混合应用 (#4359)[Zeta] 增加了通过作业ID获取运行中作业信息的REST API (#4140)[Zeta] 增加了获取系统监控信息的REST API (#4315)[Transform V2 & Zeta] 使SplitTransform反对CatalogTable和CatalogTable演变 (#4396)改良Apache SeaTunnel 2.3.2 版本对 Zeta 引擎进行了稳定性修复,解决了内存占用过高不开释的问题,同时解决了大量资源占用问题,对性能也做了相应的优化。 ...

June 25, 2023 · 2 min · jiezi

关于数据库:2023年6月墨天轮中国图数据库排行榜TGS-开新局创邻和字节多点突破露锋芒

鸿鹄不坠青云志,鲲鹏展翅九万里。 2023年 墨天轮中国图数据库风行度排行 曾经炽热出炉,本月中国图数据库排行榜共有31个数据库参加排名,相比往年1月新增3个数据库。本月图数据库榜单前十变动较大:TuGraph 立足翻新跃榜首,Galaxybase 步步为营向前三,PandaDB 低调行事正破浪。 依据 DB-Engines 数据库模型风行度数据,图数据库近十年的受欢迎水平相比其余数据库模型遥遥领先。2019年底,中国图数据库市场减速倒退,各厂商开始纷纷布局,减速图数据库落地利用。目前中国图数据库仍处于起步阶段,但在疾速发展期。中国图数据库厂商次要分为四类:传统厂商(例如达梦等)、新兴厂商(例如创邻科技、海致星图等)、跨界厂商(例如西方国信等)、云厂商(阿里云、腾讯云等)。 图1:2023年6月中国图数据库排行榜TOP10得分详情表 一、榜单十强展风采在本月图数据库榜单前十强中,有四个数据库都处于回升趋势,别离是 TuGraph、Galaxybase、PandaDB 以及 ByteGraph。前十强强烈角逐,踊跃布局。接下来一起看看本月图数据库榜单前十的别样风采。 TuGraph本月排名较上月回升三个位次,位列榜首,新增18个专利。 其是蚂蚁团体联结清华大学自主研发的大规模全栈图计算零碎,是高效存储、计算和剖析海量图数据的一站式平台,反对在线、近线和离线模式,可能在万亿边图上进行实时查问。2022年9月,TuGraph 正式开源。近日,“2022年中国开源翻新大赛”颁奖典礼中, TuGraph 荣获了二等奖。由北京大学王选计算机研究所数据管理实验室邹磊传授团队研发面向 RDF 常识图谱的开源图数据库系统 ——gStore本月以30.95分荣获图数据库排行榜的榜眼。 gStore 通过11年的潜心研发,自从开源以来,取得了宽泛的关注。目前其曾经利用于金融、政府大数据、电信欺诈检测等多个我的项目。星环科技推出的一款为企业级图利用而打造的分布式图数据库StellarDB曾经间断三个月稳居榜单第三。 其用于疾速查找数据间的关联关系,并提供弱小的算法剖析能力。自往年1月,StellarDB 4.1公布后,新增了十多种图算法,可能满足更多用户的需要。近日,星环科技动向频繁,StellarDB 也受到了更多人的关注。排名回升两位至排行榜第四的Galaxybase,本月得分26.18分。 近日,创邻科技凭借全自主知识产权的的前沿技术翻新成绩与优良的国产化代替解决方案,获评“2022-2023年度数据库信创先锋”奖项。目前 Galaxybase 已服务了政务、金融、能源等行业蕴含五大行、头部股份制银行、城商行、农商行、电网、腾讯等在内的头部客户。腾讯云数图TGDB(Tencent Graph Database)是腾讯云推出的原生分布式并行图数据库,以原生形式实现属性图,高效存储关联数据,反对千亿级节点大图的高效查问和关联剖析。其本月以23.60分位居榜单第五。TGDB 诞生于2020年6月1日,通过近三年的倒退,TGDB 依附深厚的技术积淀,在墨天轮图数据库排名中始终处于上游。Alibaba GDB本月排名较上月降落至第六名。其是一种反对属性图模型,用于解决高度连贯数据查问与存储的实时牢靠的在线数据库。GDB 采纳阿里云的基础设施,打造了一个 Cloud-Native 的图数据库。是国内惟一进入Forrester Wave 评测报告的图数据库产品。PandaDB是中科院计算机网络信息中心推出的基于智能属性图模型的异构数据智能交融管理系统。其本月排名较上月回升一位至第七。PandaDB 在成立不到两年的工夫里胜利取得1200万元天使轮融资,通过四年的倒退,PandaDB 在图数据库赛道曾经渐显劣势。GDMBASE是蜀天梦图保持通过自主研发、原始翻新,为大数据应用领域带来的一款分布式图数据库管理系统根底软件产品。其本月以不到一分的强劲劣势退居榜单第八。GDMBASE 是达梦成立的子公司推出的图数据库产品,达梦因上市热度始终居高不下,GDMBASE 也吸引了越来越多的人关注。CSGGraph是南方电网数字电网研究院有限公司研发的图数据库产品,已通过信通院图数据库根底能力测评。其曾经间断两个月位列中国图数据库排行榜第八。 CSGGraph 是去年8月参加排名的数据库,平时宣发上比拟低调,然而在墨天轮图数据库排行榜始终占据位置劣势。字节跳动自研的分布式图数据库ByteGraph本月排名较上月回升一位胜利进军榜单前十。 2018年8月,字节跳动外部开始自研图数据库 ByteGraph 的开发。ByteGraph 我的项目的发动是为了抖音外围的社交关系问题。近五年,ByteGraph 在通过外部应用后,目前反对500多个业务集群,服务器规模曾经达到上万台服务器。二、新权势发奋图强本月中国图数据库排行榜整体排名变动较大,各家数据库厂商抢抓时机,继续翻新。本月中国图数据库榜单十名之后,KGraph、Ultipa Graph、FASGraphDB 等三个数据库排名回升显著。 图2:2023年6月中国优良图数据库得分详情表 KGraph是快手研发的一款单机千万QPS的分布式图数据库,于2019年底开始调研开发。本月排名较上月回升两位至第13名。KGraph 最早是为了解决举荐团队的问题而诞生的,目前曾经稳固利用在了社交举荐、电商举荐、平安等多个业务场景。Ultipa Graph是 Ultipa(嬴图)推出的高性能实时图数据库,本月排名较上月回升7个位次,现位列图数据库排行榜第15名。通过四年的钻研,这支由清华校友组建并创研的 Ultipa 图数据库系统获得了重要的停顿。在其成立一年半的工夫里,Ultipa 胜利取得两笔融资。有了资本的注入,Ultipa 正在大踏步的迈进。FASGraphDB是中科金审于2021年8月推出的自主研发的大规模分布式原生图数据库产品,本月排名较上月晋升6位至第21名。FASGraphDB 直观敌对的用户交互为业务人员提供易于剖析研判的环境,实用于解决简单数据,理清数据之间的关联和逻辑关系的业务场景。三、抓先机大展宏图2007年工业界第一款图数据库——Neo4j 问世,标记着图数据库的诞生。尔后,随着图数据库技术一直成熟,市场上涌现了越来越多的图数据库产品。寰球图数据库市场规模在 2022 年达到14亿美元。IMARC 团体预计到 2028 年该市场将达到 48 亿美元,2023-2028 年的增长率 (CAGR) 为 21.2%。依据赛迪参谋公布的《2022年中国图数据库市场钻研报告》,2022年中国数据库市场高速倒退,规模达到了2.8亿元,在寰球图数据库市场中占比20%。在中国图数据库市场减速倒退期间,图数据库技术有了变动。 ...

June 25, 2023 · 1 min · jiezi

关于数据库:火山引擎-Dataleap-数据质量解决方案和最佳实践一数据质量挑战

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群什么是数据品质狭义上来说,数据品质的定义是数据满足一组固有个性(品质维度)要求的水平。业界通常有 6 个维度: 完整性:指数据的记录和信息是否残缺,是否存在缺失的状况。数据缺失次要包含记录的缺失和记录中某个字段信息的缺失,两者都会造成统计后果不精确,所以说完整性是数据品质最根底的保障。在做监控时,须要思考两个方面:数据条数是否少了;某些字段的取值是否缺失。完整性的监控,多呈现在日志级别的监控上,个别会在数据接入的时候来做数据完整性校验。准确性:指数据中记录的信息和数据是否精确,是否存在异样或者谬误。个别准确性的监控多集中在对业务后果数据的监控,比方每日的沉闷、支出等数据是否失常。一致性:指同一指标在不同中央的后果是否统一。数据不统一的状况,多呈现在数据系统达到肯定的复杂度后,同一指标会在多处进行计算,因为计算口径或者开发人员的不同,容易造成同一指标呈现不同的后果。及时性:在确保数据的完整性、准确性和一致性后,接下来就要保障数据可能及时产出,这样能力体现数据的价值。及时性很容易了解,次要就是数据计算出来的速度是否够快,这点在数据品质监控中能够体现在监控后果数据是否在指定工夫点前计算实现。规范性:指数据是否依照要求的规定进行存储,如邮箱校验、IP 地址校验、电话格局校验等,具备肯定的语义意义。唯一性:指数据是否有反复,如字段的惟一值、字段的反复值等。咱们对数据品质有一些流程和标准,并针对上述一些维度开发了一套数据品质平台汇合在 Dataleap 中,次要关注数据品质及其生产链路。上图展现了在数据开发的流程中,Dataleap 数据品质平台能够提供哪些性能:数据探查:能够依据各种维度来查看数据明细和散布状况。数据比照:开发同学可能常常会发现线上表和测试表不统一,所以咱们在工作上线的环节提供了数据比照的性能。工作监控:监控线上数据,提供报警和熔断性能。数据品质平台最有代表性的性能是:对数据开发平台产出的 Hive 表数据进行主键反复检测,如果存在反复则进行报警。数据品质监控最有用的场景是避免数据问题蔓延到上游。举个例子:数据工作产出一张 Hive 表,该表可能会同步一些信息到 Hive metastore(HMS)。HMS 的主从架构可能存在肯定的提早,假如 HMS 呈现问题,上游工作可能会读到脏数据,这时如果咱们应用数据品质监控,就能及时发现问题,阻止上游工作运行。 数据品质挑战目前咱们的数据品质挑战有哪些?能够通过几个用户 case 理解一下。 User Story 1某流量级产品商业化零碎,M 级日志条数/秒;心愿秒级监控日志提早、关键字段空值,T+1 检测日志稳定率。User Story 2某外部业务零碎,日志存储 ES;心愿每 5 分钟检测上一周期日志稳定状况。User Story 3某外部指标平台,业务数据由 Hive 定期同步到 ClickHouse;心愿每次同步工作后查看 Hive 与 ClickHouse 中的指标是否统一。 通过下面的介绍,大家应该也大抵分明了以后数据品质须要解决的问题。可能有些同学会说,数据品质平台我也做过,问题归总起来也不简单,总而言之就是对数据进行各种计算,比照计算来的阈值即可,个别间接依赖于 Spark 引擎或者 Hive 引擎计算即可。的确,其实这也是咱们 Dataleap 数据品质最开始的样子。那为什么会演变到目前这样,咱们面临了一些什么问题? 首先是场景需要非常复杂: 离线监控不再多说了,大家都相熟,次要是不同存储的数据品质监控,比方 Hive 或者 ClickHouse 。字节跳动外部的广告系统对时效性和准确性要求很高,用广告同学的话说,如果用微批零碎 10 min 才做一次检测,可能线上损失就上百万了甚至千万了。所以广告零碎同学对实时性要求绝对较高。另外一个是简单拓扑状况下的流式提早监控。最初是微批,指一段时间内的定时调度,有些 Kafka 导入 ES 的流式场景,须要每隔几分钟比照下前一周期。此外,字节跳动各种产品会产出海量的日志数据,咱们须要用无限的资源来满足大家对品质监控的需要。面临这些挑战,咱们的解决方案是什么?请持续关注下篇文章。

June 22, 2023 · 1 min · jiezi

关于数据库:Tapdata-重磅更新已就绪全托管云服务上线应用场景再扩展

继 5 月举办的 「连贯 1 次孤岛,服务 N 个场景」主题产品发布会后,Tapdata Live Data Platform 现已实现性能个性的全面降级,并基于本身产品能力积极探索在利用场景层面的落地实际及有限可能。援用在去年 6 月的 Tapdata 2.0 发布会上,自带 ETL 的实时数据平台 Tapdata LDP 带着最新的开源打算同大家见面。尔后近一年的工夫里,Tapdata 团队在 2.0 版本的根底上继续优化,不断改进与欠缺,以满足一直变动的用户需要和市场竞争的挑战。终于迎来了此次产品能力更加齐备,性能体现更加优良的新版本。置信它将为大家带来更好的应用体验和更加欠缺的服务,在将来的新一阶段为数据利用发明新的惊喜。点击这里即可观看残缺回放 企业信息化倒退 30 余年,带来的不仅有效率降级等经营优化,还有越来越无奈疏忽的数据孤岛难题。 在这三十年间,企业投入了大量资金和人力等资源老本,构建了各种各样的信息化零碎来辅助企业倒退经营。据统计,均匀每家大型企业所领有的业务零碎数量大概为 463 套,小型企业和中型企业也是从几十套到上百套不等。这些业务零碎大多独立为营,非但不能为明天的数字化需要提供帮忙,还会造成新的麻烦和困扰,也就是如何让企业本身的数据真正能为企业所用的问题。 听起来是个如“唾手可得”般简略的需要,但哪怕只是想要基于业务经营、生产销售、或是客户反馈等信息进行洞察,从而制订相应的干涉措施,晋升客户体验,也远非易事,因为你会发现这些这些数据其实都来自于不同的业务零碎,很难站到一个整体的视角来总结法则,或是从中发现问题的答案。这时往往就须要技术团队出手,来反对这些业务层面的诉求。 一、新十年的数据架构想要把数据用起来,常见的形式次要有两种,一是大数据平台,二是近年来较为支流的古代数据栈,但二者解决问题的思路十分不同。 大象团队大数据:Go for Big 前者从建设一个大数据平台或大型数据中台的雄伟打算登程,一步步立项、做后期调研,收集尽可能多的业务需要后,再着手建设,过程中可能还须要招聘相应人才部署施行,一番筹备工作之下,数月也只是弹指一挥间。而一个残缺的大数据我的项目往往须要破费 1-2 年的工夫,投入数百乃至千万级的总成本,才有可能真正落地并施展功效。 事实上,孕育自互联网大厂的大数据解决方案,无论是价值点还是痛点都十分明确,一方面它的确在过来十年以业余的形象满足了咱们普遍存在的数据需要;另一方面,随着咱们对数据价值与外延的了解日益粗浅,也暴露出较为惨重、部署简单、运维老本高、须要大量计算资源等问题,它对业务问题的响应较慢,无论是开发还是查问数据都是如此,获取洞察的周期也十分长。除此之外,大数据平台次要负责收集历史数据,与新产生的数据相比价值无疑要小得多。因而,会给企业带来 90% 的数据只能发明 10% 的业务价值这样的后果。 小兔团队走麻利:Go for Quick 后者古代数据栈走的则是麻利路线。首先,明确须要依赖数据解答的几个问题,再将这些问题围绕数据这条主线,拆分出要害的细分需要。例如最终目标是基于数据做洞察,第一步,须要将藏着答案的这部分数据收集上来;第二步,将数据存入数仓,按需进行剖析等解决;第三步,可能须要用 BI 来展现第二步中失去的数据后果。此时,咱们就能够轻松地依据每一步的需要,调研并别离抉择最适宜本身理论状况的工具和产品,对应地实现各个分步。 如果在选型时再能无意识地在云上做抉择,只消数日就能够实现初步搭建,顺利对接零碎,并开始尝试做一些根底的数据分析;数周就能够落地晚期我的项目原型,后期投入大略在数千或数万元,尽管间隔残缺、成体系的数字化平台还有肯定间隔,但这样一个好的结尾将给予企业更多持续投入的信息,而这个我的项目也得以一直迭代上来。 这便是古代数据栈的实质——因为云数仓衰亡而呈现的一系列数据工具生态系统。这些工具将整个数字化建设过程拆分成了各个模块,让企业可能从眼下的问题登程,依据业务需要进行选型再组合,而不是像过来那样,一口气建设一个大一统的数据平台或数据中台。因此具备如下特点: 云原生、可托管:极速搭建,低估算开始,可疾速扩大可组合、可插拔:抉择多,无锁定,企业能够依据本身特定需要,在不同模块下抉择最适宜产品,打出现实的组合牌自助服务:流程短,易迭代,见效快,无需供应商侧或技术人员的染指或从旁反对,即可自助上手综合来看,古代数据栈对于企业想要降本增效实现数字化而言具备非常明显的先天劣势。 二、Tapdata Live Data Platform:古代数据栈理念践行者 作为行业首个基于毫秒级实时同步能力,实现 DaaS(数据即服务)架构的数据集成及服务平台,Tapdata 便是这一理念很好的践行者,其在古代数据栈架构中的定位是数据采集、解决和筹备阶段,也就是在数据源和数据业务指标之间,负责将数据采集过去后进行加工解决,并在抽象化后实现建模,供上游应用。 上图展现了基于 Tapdata LDP 的古代数据栈架构,Tapdata 在其中扮演着位于数据源和数据分析、数据利用两头的一个数据筹备平台的角色。与一般的数据集成工具相比,Tapdata 多了一些缓存和共享服务的能力,目标是可能让它更高效地对一些罕用共享数据进行屡次复用,从而为企业带来降本增效的成果。 ...

June 21, 2023 · 2 min · jiezi

关于数据库:StarRocks-统一-OLAP-引擎在滴滴的探索实践

作者:余辉,滴滴出行 OLAP 团队负责人/专家工程师;李明皇,滴滴出行高级软件开发工程师 倒退历程滴滴的 OLAP 零碎晚期由用于实时监控零碎的 Apache Druid (以下简称 Druid)和离线减速应用的 Apache Kylin(以下简称 Kylin)逐渐倒退起来。在 2018 年后开始全面倒退,过后次要应用 Druid、Kylin 和 Presto 等引擎,用于承接实时监控、实时看板和数据分析等场景。随着业务使用量和业务复杂度的晋升,原有的这些引擎因为性能、稳定性、易用性、保护老本等起因,曾经无奈满足各种简单的应用需要,查问性能和稳定性难以满足。 在 2020 年后引入过后业界宽泛应用的 ClickHouse 引擎。ClickHouse 是一款开源 OLAP 的列存数据库, 号称比 MySQL 快 100-1000 倍,最大的特色是高性能的向量化执行引擎,单机性能强悍。通过 ClickHouse,反对了过后网约车、 逆风车、青桔单车、橙心优选等多个业务线经营看板、实时剖析等场景。通过长时间的倒退和迭代, ClickHouse 和 Druid 成为过后滴滴外部次要的 OLAP 引擎,也初步让 OLAP 产品在滴滴外部发展壮大。 选型随着在滴滴外部应用 OLAP 场景的一直减少,次要涵盖监控报表、日志剖析、离线减速和实时数仓这四个场景。原有的基于 ClickHouse 和 Druid 建设的 OLAP 零碎裸露的问题越来越多。次要有: 保护艰难:在 OLAP 场景中保护的引擎和组件有 5 个之多,每个引擎应用形式,运维形式不一样。导致难以保护, 难以倒退。应用不便:不同引擎特点不同,它们针对的场景比拟繁多,用户难以依据业务场景正确抉择引擎。另外,对于 ClickHouse 从能用到用好难度很大,经常出现查问性能未达预期。稳定性压力大:引擎多投入人力无限,问题频频产生,无无效解决方案。很多业务场景混合在一个集群中,短少资源隔离机制,服务稳定性难保障。用户需要难以满足:局部用户有批改和删除数据的需要,现有引擎无奈满足。对于高 QPS 场景,复杂度高查问场景、 Join 等场景,查问性能不能满足需要。(上图为引进 StarRocks 之前的 OLAP 现状)针对下面这些问题,咱们于 2022 年开始引入 StarRocks。StarRocks 是新一代全场景 MPP 数据库,应用向量化、 MPP 架构、 CBO、智能物化视图、可实时更新的列式存储等技术,实现多维、实时、高并发的数据分析。StarRocks 在 GitHub 上已有 4.7k Star,并且增长迅速,社区也十分沉闷。在国内各大互联网公司也有较为宽泛的应用。 ...

June 21, 2023 · 2 min · jiezi

关于数据库:Star-History-月度开源精选|2023-年-5-月

收集完五月的 Star History 精选之后咱们诧异地发现竟然有那么多好玩好用的我的项目,无论是低代码,或是能够帮你少写代码,即使不是业余开发者也能够上手了! WindmillWindmill 能够看做是 Airplane 的开源替代品 / Temporal 的低代码替代品,反对把 Python/Typescript/Go/Bash 脚本疾速转换为外部工作流或应用程序。比方自动化用户注册后主动发邮件,跟踪用户流动,依据他们的应用触发特定操作这些工作流(能够流程化的事儿都交给机器了),因为是低代码工具,所以只有大量编程教训的用户也能够应用。 Windmill 有个 Hub,大家能够在 Hub 分享脚本,其他人能够通过 Windmill 轻松转换为外部应用程序,这个能吸引寻找特定问题解决方案的用户,对 SEO 和转化率应该也很有帮忙(模板库就是 Notion 取得新用户的重要步骤)。 器重用户没有徒劳,一个月前他们某用户把 Windmill 投稿到了 HN,在首页间接待了 14h。 Formbricks之前在钻研 Prisma 的应用案例,而后就发现了 Formbricks,是个问卷调研工具,Typeform 开源替代品。 其实一开始 Formbricks 叫 snoopForms,尽管市场上也有不少收费的 Typeform 替代品,然而他们的公布问题相当不错:一个月内 GitHub 取得了 1k+ ⭐,Hacker News 和 Product Hunt 上也都引起了关注,公布后两个月播种几千个注册($179 的早鸟优惠也卖出好几份)。他们把胜利归结为开源(数据安全,可定制,无供应商锁定)和低代码(用户能够是非开发者/开发者)。 对于考察问卷而言,问题、询问的机会和形式都很重要,须要钻研和施行最佳办法,以从正确的用户获取正确的见解,这些工作往往由产品经理实现(非开发者),所以作为一个低代码工具,用户能够间接把考察嵌入产品而不须要更改利用程序代码,比方间接在用户勾销订阅的时候询问为何勾销? Easy EmailEasy Email 是 Zalify(数据驱动为外围的海内电商自动化营销 SaaS)开源的拖拽式邮件编辑器,能够将结构化 JSON 转换为 HTML,它应该也是 Zalify 内置的一个性能?用户能够间接编辑发送邮件了。 看到这个 logo,不能说跟 Gmail 截然不同,只能说是有那么一丁点神似。 ...

June 21, 2023 · 1 min · jiezi

关于数据库:稳从数据库连接池-testOnBorrow-看架构设计-京东云技术团队

本文从 Commons DBCP testOnBorrow 的作用机制着手,管中窥豹,从一点去剖析数据库连接池获取的过程以及架构分层设计。 以下内容会依照每层的作用,贯通剖析整个调用流程。 1️框架层 commons-poolThe indication of whether objects will be validated before being borrowed from the pool. If the object fails to validate, it will be dropped from the pool, and we will attempt to borrow another. testOnBorrow 不是 dbcp 定义的,是commons-pool 定义的。commons-pool 具体的定义了资源池应用的一套标准和运行流程。 /** * Borrow an object from the pool. get object from 资源池 * @see org.apache.commons.pool2.impl.GenericObjectPool#borrowObject(long) */public T borrowObject(final long borrowMaxWaitMillis) throws Exception { PooledObject<T> p = null; // if validation fails, the instance is destroyed and the next available instance is examined. // This continues until either a valid instance is returned or there are no more idle instances available. while (p == null) { // If there is one or more idle instance available in the pool, // then an idle instance will be selected based on the value of getLifo(), activated and returned. p = idleObjects.pollFirst(); if (p != null) { // 设置 testOnBorrow 就会进行可用性校验 if (p != null && (getTestOnBorrow() || create && getTestOnCreate())) { boolean validate = false; Throwable validationThrowable = null; try { // 具体的校验实现由实现类实现。 // see org.apache.commons.dbcp2.PoolableConnectionFactory validate = factory.validateObject(p); } catch (final Throwable t) { PoolUtils.checkRethrow(t); validationThrowable = t; } if (!validate) { try { // 如果校验异样,会销毁该资源。 // obj is not valid and should be dropped from the pool destroy(p); destroyedByBorrowValidationCount.incrementAndGet(); } catch (final Exception e) { // Ignore - validation failure is more important } p = null; } } } } return p.getObject();}2️应用层 commons-dbcpdbcp 是特定于治理数据库连贯的资源池。 ...

June 21, 2023 · 3 min · jiezi

关于数据库:MySQL一个关于derived-table的bug描述与规避

关联文章:MySQL对derived table的优化解决与应用限度一、Bug形容共事遇到一个有意思的语句,说一条SQL在MySQL8.0.25版本运行出的后果显著与给定的where条件不符,而在8.0.26版本上是失常的,语句上加了一个无关的用户变量后在8.0.25版本上后果才是正确的,想不通这是怎么回事,这么有意思的事件天然引起了我的趣味,借此机会深刻理解了一下MySQL对于derived table的优化。为了不便演示成果,让小伙伴们关注到景象的实质,我将语句进行了简化解决。上面是模仿的表构造与数据。 create table t1(id int,c1 varchar(100));insert into t1 values(1,'gg张三');insert into t1 values(2,'bb李四');insert into t1 values(3,'cc王五');insert into t1 values(4,'dd刘麻子');insert into t1 values(1,'gg张三');insert into t1 values(2,'bb李四');SQL语句: SELECT temp.type FROM (SELECT SUBSTRING(t.type, 3) type FROM (SELECT distinct t1.c1 type FROM test.t1 ORDER BY t1.c1) t) temp WHERE temp.type='张三' ORDER BY temp.type DESC;在MySQL8.0.25版本的运行后果如下: mysql> SELECT temp.type -> FROM (SELECT SUBSTRING(t.type, 3) type -> FROM (SELECT distinct t1.c1 type -> FROM test.t1 -> ORDER BY t1.c1) t) temp -> WHERE temp.type='张三' -> ORDER BY temp.type DESC;+--------+| type |+--------+| 李四 |+--------+1 rows in set (0.01 sec)在MySQL8.0.26版本的运行后果如下: ...

June 21, 2023 · 3 min · jiezi

关于数据库:实践教程之如何使用-PolarDBX-参数模板

PolarDB-X 为了不便用户体验,提供了收费的试验环境,您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验,PolarDB-X 也提供收费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。 本期试验将领导您如何应用PolarDB-X参数模板。 本期收费试验地址 本期教学视频地址 装置环境本步骤将领导您如何装置Docker、kubectl、minikube和Helm3。 1.装置Docker。1.1 执行如下命令,装置Docker。curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun1.2 执行如下命令,启动Docker。systemctl start docker2.装置kubectl。2.1 执行如下命令,下载kubectl文件。curl -LO https://storage.googleapis.com/kubernetes-release/release/$(curl -s https://storage.googleapis.com/kubernetes-release/release/stable.txt)/bin/linux/amd64/kubectl2.2 执行如下命令,赋予可执行权限。chmod +x ./kubectl2.2. 执行如下命令,挪动到系统目录。mv ./kubectl /usr/local/bin/kubectl3.装置minikube。执行如下命令,下载并装置minikube。 curl -LO https://storage.googleapis.com/minikube/releases/latest/minikube-linux-amd64 sudo install minikube-linux-amd64 /usr/local/bin/minikube4.装置Helm3。4.1 执行如下命令,下载Helm3。wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/helm-v3.9.0-linux-amd64.tar.gz4.2 执行如下命令,解压Helm3。tar -zxvf helm-v3.9.0-linux-amd64.tar.gz4.3 执行如下命令,挪动到系统目录。mv linux-amd64/helm /usr/local/bin/helm5.装置MySQL。执行如下命令,装置MySQL。 yum install mysql -y装置配置参数模板的 PolarDB-X本步骤将领导您如何创立一个简略的Kubernetes集群并部署PolarDB-X Operator ,应用Operator部署一个残缺的配置有参数模板的PolarDB-X集群,具体文档请参考通过Kubernetes装置PolarDB-X 和 配置参数模板 。 1.应用minikube创立Kubernetes集群。minikube是由社区保护的用于疾速创立Kubernetes测试集群的工具,适宜测试和学习Kubernetes。应用minikube创立的Kubernetes集群能够运行在容器或是虚拟机中,本试验场景以CentOS 7.9上创立Kubernetes为例。 阐明:如果您应用其余操作系统部署minikube,例如macOS或Windows,局部步骤可能略有不同。 1.1 执行如下命令,新建账号galaxykube,并将galaxykube退出docker组中。minikube要求应用非root账号进行部署,所以您须要新建一个账号。 useradd -ms /bin/bash galaxykube usermod -aG docker galaxykube1.2 执行如下命令,切换到账号galaxykube。su galaxykube1.3 执行如下命令,进入到home/galaxykube目录。cd1.4 执行如下命令,启动一个minikube。阐明:这里咱们应用了阿里云的minikube镜像源以及USTC提供的docker镜像源来减速镜像的拉取。 ...

June 20, 2023 · 32 min · jiezi

关于数据库:火山引擎数智平台最新直播活动ByteHouse技术架构与最佳实践分享

数据的时效性,正深刻影响着企业的倒退。 以大型半导体制造厂商为例,不同于惯例工厂生产流水线,半导体制作通用的无人实验室生产模式高度依赖机械臂作业,且对整个生产调度链路中的精密度要求十分高,这背地次要依附MES(Manufacturing Execution System,制造执行系统)实现。因而,MES 零碎数据推送或信号下发的工夫距离,间接关系到机械臂空转工夫,继而影响整个实验室的产能。通常状况下,MES零碎数据推送或信号下发的工夫距离需管制在10分钟左右——如果能将数据推送达到秒级实时,生产速度无望实现百倍增长。 在批发行业,数据时效性带来的影响则更为直观。 批发行业中,珠宝商品因为客单价高、交易频率低等特色,往往更依赖线下门店渠道实现销售,但因为商品信息可能存储在多套渠道/库存零碎中,在门店一线销售人员接待顾客的过程中,会呈现难以精确、实时获取对应商品的残缺订单信息或订单最新状态,导致无奈及时反馈是否有库存、是否须要调货,以及调货所需等待时间等信息,从而散失潜在订单。企业对包含数据丰富性、时效性、易用性等在内的需要越来越急切,也倒逼了近年来国内数据技术的疾速倒退。 目前,以云原生数仓为核心的古代数据栈时代曾经悄悄到来。现阶段,我国大部分企业的数字化转型曾经到了新阶段,对数据的利用也提出的全新要求,特地是对数据的实时剖析、实时部署需要更加强烈——云原生数据仓库在为企业实现云原生、智能运维、弹性资源等方面提供了强有力的撑持,并逐渐成为现在企业数字化根底建设中的要害“底座”。 6月20日14:00,火山引擎数智平台(VeDI)线上直播栏目《超话数据》,将聚焦云数仓技术架构,分享源自字节跳动外部最佳实际的ByteHouse云数仓版本技术解密,以及截至目前在多个行业企业的实践经验。 同时,还将带来ByteHouse最新福利政策,欢送扫码报名理解:

June 20, 2023 · 1 min · jiezi

关于数据库:我们还需要-SRE-吗

在 「一文讲透研发,SRE,运维,DevOps 的区别」里,咱们讲了几大工种的区别,这篇咱们重点讲一下 SRE (Site Reliability Engineering)。 SRE 的衰亡SRE 最早起源于 2003,由 Google 提出。SRE 既是一种理念,也是一套围绕这个理念的实际,由这个实际也诞生了一个新的工种,同样叫 SRE。SRE 的衰亡有多方面的起因: 地利 - 互联网在线服务大规模遍及。一边服务复杂度极具晋升,一边稳定性的要求越来越高。天时 - 由 Google 带头的一批头部科技公司背书,尤其是 2016 年 Google SRE 团队撰写的 Site Reliability Engineering: How Google Runs Production Systems 堪称行业里最经典的著述。人和 - Ops 们须要找新的前途,因为云服务等基础设施的欠缺毁灭了传统运维 (IT Ops) 的大量工作。SRE 和 Dev 间的生产关系对于 SRE 和 Dev 之间的关系,网上读到的一个精彩形容: 再具体一点,咱们能够拿 DORA 的四大外围指标来看: Deployment frequency (部署频率)Lead Time for Changes (从代码提交到最终公布耗时)Change Failure Rate (公布失败率)Time to Restore Services (服务复原工夫)前两个指标指向的是 Velocity (速度),后两个指向的是 Stability (稳定性)。Dev 的指标是优化迭代速度,而 SRE 的指标则是优化稳定性。DORA 报告里提到的精英团队能做到即快又稳,但这也是相对而言的。毕竟大家都晓得,变更是造成生产故障的第一大根因,这也是为什么许多团队会定下周五不公布的规矩。每一个研发组织还是要在 Velocity 和 Stability 之间做衡量,这也天然导致负责 Velocity 的 Dev 和盯着 Stability 的 SRE 团队间产生摩擦。正好前不久 Google SRE 团队又发表了一篇文章 How Google SRE And Developers Collaborate 着重谈了这点: ...

June 20, 2023 · 3 min · jiezi

关于数据库:一文讲透研发SRE运维DevOps-的区别

研发,SRE ,运维是工种,而 DevOps 是体系。如果拿足球来打比方,研发,SRE ,运维对应的就是前锋,中场,后卫这样的地位,而 DevOps 则是诸如 4-3-3 这样的阵型。 研发也叫研发工程师,工程师,Software Engineer (SWE),Software Developer 或者简称 Developer (Dev)。主要职责是写代码,实现软件业务性能。比方打车性能就是研发工程师用代码实现的。研发次要和代码打交道。 运维Operations (Ops), Production Engineer (PE)。次要负责机房治理,装机,网络,监控报警,故障应急。晚期运维很大比例的工作是和物理机器设备打交道,须要大量的手动操作,操作危险也很高,起初逐步引入软件或者本人写一些脚本,代码来自动化工作。近 10 多年随着云服务逐步取代物理机,传统运维的职能被大幅度缩减,成为了一个逐步要沦亡的工种。 SRESite Reliability Engineer (SRE),个别不翻译 (线上稳定性保障工程师?)。这是由 Google 在 2003 年提出来的。这个工种诞生的背景有这么几个: 像 Google 这样大规模线上服务简单,服务稳定性要求高。研发通常更关注把货色做进去上线,但对于后续线上的保护少一个心眼。而且往往为了尽早上线,会疏忽上线后的稳定性问题。传统运维须要转型。1 和 2 促使须要一个专门的工种,而 3 则提供了 SRE 的稳固起源。因为 SRE 是在研发和运维之后呈现的工种,所以第一批的 SRE 就是从那两个工种里转型而来。又因为 SRE 的很大一部分工作还是保障业务稳定性,所以从运维转型而来的占大多数。 简略来说,SRE 是传统运维的升级版,区别于传统运维的中央: 不再负责和物理设施打交道,这部分交给云服务了。通过体系化的伎俩来保障业务稳定性,比方构建自动化工具,和研发团队一起制订 SLO (Service Level Objective),让单方有能够一起恪守的契约,来保障服务的衰弱度。工程研发能力。SRE 也能够说是具备研发能力的运维,有些 SRE 还具备很强的研发能力,比方监控软件 Prometheus 的作者就曾是 Google 的 SRE。 上图描述了研发 (Dev),SRE,运维 (Ops) 的穿插关系。研发和运维基本上是没有交加的,而 SRE 就像后面说的是具备研发能力的运维,但整体还是更偏运维一点。 ...

June 20, 2023 · 1 min · jiezi

关于数据库:HHDBCS快捷命令功能

作为用户,常常要应用不同的命令来查询数据库信息,而品种繁多的命令、数据库、表格,须要咱们对数据库十分的理解和相熟——这对于老手来说及其不敌对。于是便会造成如下场面:须要频繁应用搜寻软件查问。 因而,HHDBCS研发团队开发了一个实用功能:快捷命令窗口。 在首页,点击快捷窗口即可。 能够看到,对于常用命令有具体的解释,以及应用操作阐明。 输出命令,点击执行。 随即呈现后果。后记: 随着大数据时代的到来,大多数人都能意识到,大数据的利用,可能大幅的晋升工作效率,实现许多人力所不能及的工作。而数据库的应用须要不低的门槛——这成为了一条鸿沟,使许多用户不能超越。所以,化繁为简,使数据库落地于理论,服务于用户,晋升工作效率,节约用户的精力和工夫——这便是恒辉人正在做的事。而咱们也将一直致力开发新性能,期待HHDBCS可能帮忙所有须要的人轻松驾驭数据

June 20, 2023 · 1 min · jiezi

关于数据库:Apache-Doris-125-版本正式发布

敬爱的社区小伙伴们,咱们很快乐地发表,Apache Doris 于 2023 年 6 月 19 日迎来 1.2.5 版本的正式公布!在 1.2.5 版本中,Doris 团队曾经修复了自 1.2.4 版本公布以来近 210 个问题或性能改良项。同时,1.2.5 版本也作为 1.2.4 的迭代版本,具备更高的稳定性,欢送大家下载体验。 GitHub下载:https://github.com/apache/doris/releases/tag/1.2.5-rc01 官网下载页:https://doris.apache.org/download/ Behavior ChangedBE 启动脚本会查看零碎的最大文件句柄数需大于等于 65536,否则启动失败。BE 配置项 enable_quick_compaction 默认设为 true。即默认开启 Quick Compaction 性能。该性能用于优化大批量导入状况下的小文件问题。当对表的动静分区属性进行批改之后,将不再立刻失效,须要对立期待下一次动静分区表任务调度时才可失效(默认调度工夫是 10 分钟,因而最晚将在10分钟后失效)。Improvement优化 bthread 和 pthread 的应用,缩小查问过程中的 RPC 阻塞问题。FE 前端页面的 Profile 页面减少下载 Profile 的按钮。新增 FE 配置 recover_with_skip_missing_version,用于在某些故障状况下,查问跳过有问题的数据正本。行级权限性能反对 Catalog 表面。Hive Catalog 反对 BE 端主动刷新 kerberos 票据,无需手动刷新。JDBC Catalog 反对通过 MySQL/ClickHouse 零碎库(information_schema)下的表。Bug Fixes修复低基数列优化导致的查问后果不正确的问题修复若干拜访 HDFS 的认证和兼容性问题。修复若干浮点和 decimal 类型的问题。修复若干 date/datetimev2 类型的问题。修复若干查问执行和布局的问题。修复 JDBC Catalog 的若干问题。修复 Hive Catalog 的若干查问相干问题,以及 Hive Metastore 元数据同步的问题。修复 show load profile 后果不正确的问题。修复若干内存相干问题。修复 CREATE TABLE AS SELECT 性能的若干问题。修复 JSONB 类型在不反对 avx2 的机型上导致 BE 宕机的问题。修复动静分区的若干问题。修复 TopN 查问优化的若干问题。修复 Unique Key Merge-on-Write 表模型的若干问题。致谢有 58 贡献者参加到 1.2.5 的欠缺和公布中,感激他们的辛苦付出: ...

June 19, 2023 · 1 min · jiezi

关于数据库:实践教程之如何对-PolarDBX-的存储节点发起备库重搭

PolarDB-X 为了不便用户体验,提供了收费的试验环境,您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验,PolarDB-X 也提供收费的视频课程,手把手教你玩转 PolarDB-X 分布式数据库。 本期试验将领导您如何对PolarDB-X的存储节点发动备库重搭。 本期收费试验地址 本期教学视频地址 前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署,应用PolarDB-X Operator装置PolarDB-X,并且能够胜利链接上PolarDB-X数据库。 筹备业务数据本步骤将领导您如何筹备业务数据。 1.设置本地转发。 1.1 执行如下命令,设置端口转发并放弃过程存活。 nohup kubectl port-forward svc/polardb-x 3306 > forward.log 2>&1 &1.2 执行如下命令,查看输入日志,确认是否转发胜利。 cat forward.log返回后果如下,示意转发胜利。 2.执行如下命令,获取登录明码。 kubectl get secret polardb-x -o jsonpath="{.data['polardbx_root']}" | base64 -d - | xargs echo "Password: "返回后果如下,你可查看到明码。 3.执行如下命令,建库。 阐明:您须要将命令中的{上文取得的明码}替换为上一步骤获取的明码。 mysql -h127.1 -upolardbx_root -p{上文取得的明码} -Ac -e "create database sysbench_test"4.导入数据。 4.1 顺次执行如下命令,装置sysbench。 #回到root用户 exit #装置sysbench sudo yum -y install sysbench#登录到galaxykube su galaxykube cd阐明:您可通过sysbench --help查看是否装置胜利。 ...

June 19, 2023 · 2 min · jiezi

关于数据库:KaiwuDB-受邀出席大型企业数字化转型峰会暨工赋山东济南峰会并发表演讲

6月16日,由山东省相干政府机构领导,浪潮主办的“2023 大型企业数字化转型峰会暨‘工赋山东’济南峰会”在济南胜利举办。 政府无关单位负责人、社会各界专家学者、省内数字化龙头企业及浪潮旗下服务数字化转型的优良产业单位代表等 500 余人到场参会,独特探讨以后宏观经济局势与产业转型降级大趋势下,如何搭乘“数字化转型”东风,助力企业取得高质量倒退。 KaiwuDB CTO 魏可伟受邀缺席峰会并做《浪潮 KaiwuDB,打造数字化转型外围数据引擎》主题分享。 魏可伟做数据库助力数字化转型分享 KaiwuDB 是自研的分布式多模数据库产品,满足工业物联网、数字能源、智慧产业等行业外围业务场景的数据采集、解决、计算、剖析、利用的综合业务需要,为上述行业畛域提供数字化赋能,实现“业务即数据,数据即服务”,助力企业从数据中开掘更大的商业价值。 作为国内数据库畛域的新生力量,KaiwuDB 已胜利入选中国信通院软件供应链厂商和产品名录,成为大数据技术标准委员会成员单位;并在成立短短一年工夫内通过信息技术产品自主原创性测评,累计取得 16 项自有产品软著受权,并于近期斩获 2023 数博会“优良科技成果”奖项。 所有的技术创新都是为了更好地服务场景实际。KaiwuDB 陆续服务了山东某重工企业数据库迁徙及零碎革新建设项目、工业互联网大数据中心建设项目、某车企青岛超级工厂数字化能源管理平台建设项目,及山东省市级大数据局数据库建设项目等。 将来,KaiwuDB 将减速技术创新、场景浸透、产业赋能,紧跟新一代信息技术的翻新聚变,助力搭建自主欠缺的数字底座,重塑企业数字化外围竞争力。

June 19, 2023 · 1 min · jiezi

关于数据库:openGemini顺势而动蓄势而发

6月11日,2023凋谢原子寰球开源峰会在北京亦创国内会展中心举办,在开源数据库分论坛上,华为云数据库翻新实验室主任张文亮受邀做主题技术分享《openGemini:开源分布式时序数据库技术摸索与实际》。 趁势而动张文亮主任讲到,随着5G、物联网、云计算等技术的疾速倒退,各行业数据量出现爆发式增长。每天要存储数百GB甚至TB级遥测数据,并能疾速响应下层的数据分析业务,这不是轻易一种数据库都能够做到的。时序数据库是一种针对时序数据特点和业务特点专门优化的垂直畛域数据库,是一种更优的抉择。 遥测数据及其业务特点决定了传统的数据库或大数据解决方案无奈满足业务对数据的存储剖析诉求,并且在根底软件国产化的浪潮推动之下,openGemini趁势开源,专一于海量遥测数据存储与剖析,提供高性能、高扩大、低成本的开源解决方案。 蓄势而发做根底软件,如同铸剑,一旦从剑尖开始打磨,你就会缓缓看出藏在灰暗后的光耀。现在openGemini优异的性能体现,得益于华为云外部业务的长期一直打磨。 数据库技术倒退了几十年,分布式架构和整体解决流程根本不会有大的变动,已很难获得更大的冲破。openGemini写入和查问的过程看起来比拟传统,但这并不意味着性能也到了天花板。 因为各个开源产品的定位和在读写流程中应用的技术和优化措施不同,造就了不同的性能和产品差异化竞争力。openGemini的定位是高性能、分布式时序数据库,专一于海量遥测数据的存储和剖析,意味着openGemini须要在架构和技术上实现大并发和高吞吐能力。 在架构设计方面,采纳经典的MPP架构,可通过横向扩大来加大并发解决。在数据查问方面,把OLAP的技术引入进来,比方向量化执行,用于减速查问的数据处理效率。在写数据方面,采纳LSM Tree数据结构,将随机写转为程序写以晋升写入性能。 此外,在联合遥测数据和剖析业务特点所做的工程优化方面,openGemini也做得比拟有特色,例如通过数据的后聚合,把最罕用的一些统计指标(First、Last、Min、Max …)提前计算并存储在数据文件头中,防止剖析时大量反复计算的工作;再比方对Index的优化,放弃HashMap,应用MergSet数据结构,索引构建工夫更短,查问性能更优,反对工夫线更多,占用内存资源更少。 总结目前openGemini已在华为云SRE、IoT服务产品部、计算产品线、终端等多个产品线的10+业务中应用,其中华为云SRE在全网共部署了超过25套集群,最大集群规模为70节点,反对每秒4000万条数据写入,每秒5万次并发查问,日存储数据20TB。 openGemini尽管开源工夫不长,但已受到业界的宽泛关注,目前曾经领有了首批5家社区用户正在进行基于openGemini业务革新和适配,10+家正在针对openGemini进行性能测试,陆续将会有社区用户案例公布。 欢送大家试用和反馈 开源地址:https://github.com/openGemini 官网:http://opengemini.org

June 19, 2023 · 1 min · jiezi

关于数据库:TBB-开源库及并发-Hashmap-的使用

线上沙龙 - 技术流第 32 期回放来啦本期直播咱们邀请 KaiwuDB 高级研发工程师康俊,为大家分享 TBB 开源库及并发 Hashmap 的应用。康俊老师在 Raft 一致性协定优化、分布式存储与调度、高可用双活容灾、多 Region 天文分区等分布式解决模块研发畛域具备丰盛教训,现负责 KaiwuDB 根底数据结构研发与设计。 欢送大家点击观看本次直播回放,通过理解 TBB 开源库及学习如何应用并发 Hashmap 容器,为多线程操作下的代码开发提供数据的高性能并行计算,同时还能保障数据并发操作的平安 ↓↓↓ https://www.bilibili.com/video/BV1n8411Z7p2/?vd_source=700806... 直播重点回顾01 TBB 开源库在多线程环境下,数据操作将面临一个问题,即如何保障并发操作下数据的平安。应用 std 提供的规范容器,须要开发者通过加锁形式保障并发平安,无疑将减少代码开发的难度。 而 TBB 是 intel 应用规范 C++ 编写的开源并行计算库,编写该库是为了实现数据并行计算的能力。应用 TBB 提供的 C++ 模板库,能够使用户不用关注线程,只需关注工作自身。 在 TBB 内划分为了多个模块,包含算法模块、流程图模块、任务调度模块、容器模块、线程部分存储模块、内存调配模块、互斥模块、工夫模块、同步原语模块等。 算法模块:提供通用的并行算法,如parallel_for, parallel_for_each, parallel_invoke;容器模块:提供对常见容器的线程平安版本实现,如 Hashmap, vector, queue;内存调配模块:提供内存调配相干的函数;同步原语模块:提供对原子操作、mutex、lock 等同步原语的封装;任务调度模块:提供对算法和工作驱动的调度引擎。02 TBB 并发容器在容器模块中,蕴含了 concurrent_vector、concurrent_queue、concurrent_bounded_queue 等多个并发容器,通过应用这些容器,能够实现不同业务间的并发操作平安。 03 并发 Hashmap 介绍及应用容器模块也蕴含 concurrent_hash_map,它是一种反对多线程并发应用的 Hashmap 容器,有着较好的并发操作性能。该容器保留具备惟一 Key 的键值对,并且反对并发插入、查找、擦除等性能。 同时,该容器反对迭代器性能。应用并发 Hashmap 容器,能够在保障并发操作性能的同时,保护并发操作数据的平安。

June 19, 2023 · 1 min · jiezi

关于数据库:开战在即与全球伙伴一起打造你的数据应用TiDB-Future-App-Hackathon-2023-来啦

2023 TiDB Future App Hackathon 来啦!本届 Hackathon 的主题为:Code, Innovate & Build Amazing Data Applications —— 开释你的创造力、构建突破性的利用、在寰球范畴内寻找你的队友、体验最新最 in 的 Serverless 技术,更有 总计 $36k 奖金 等你来拿! 本次大赛须要参赛者基于 TiDB Serverless 进行利用的开发, TiDB Serverless 专为规模化交易、实时剖析和混合工作负载以及流量激增的应用程序而构建,能够主动扩缩容以满足实时需要 。开发人员只需点击几下,就能够部署和配置一个具备残缺性能的 Serverless TiDB 数据库。TiDB Serverless 与 MySQL 高度兼容,开发人员能够持续应用他们相熟的 MySQL 开发框架和工具。 无论你对数据、人工智能、物联网、跨平台开发或任何软件工程的畛域感兴趣,在 2023 TiDB Future App Hackathon 上,你都能充分发挥想象力、创造力,在 TiDB Serverless 上构建可扩大的、弱小的、高性能的应用程序都将更加简略! 报名即日开启,承受这份来自 TiDB 的邀请,和咱们一起在代码世界中翻新,体验 Serverless 的魅力,打造专属你的 Data Application! 筹备好体验 TiDB Serverless,开启你的 2023 TiDB Hackathon 了吗?欢送关注 PingCAP 订阅号,后盾回复 【Hackathon2023】 获取入群形式,退出赛事交换群,获取更多反对! ...

June 17, 2023 · 2 min · jiezi

关于数据库:平凯星辰重磅支持-2023-开放原子全球开源峰会开源数据库分论坛成功召开

2023 年 6 月 11 日至 13 日,以“开源赋能,普惠将来”为主题的 2023 凋谢原子寰球开源峰会开幕式暨高峰论坛在北京胜利举办。企业级开源分布式数据库厂商平凯星辰联结创始人兼 CTO 黄东旭受邀缺席峰会参加开源论道圆桌,负责开源数据库分论坛出品人。平凯星辰作为发动单位,响应凋谢原子云原生工作委员会倡导参加成立典礼,并设置平凯星辰展区,展现开源门路教训及开源生态构建实际。 图:平凯星辰联结创始人兼 CTO 黄东旭 作为开源畛域一年一度的盛事,凋谢原子寰球开源峰会是凋谢原子开源基金会本着以开发者为本的开源我的项目孵化平台、科技公益性服务机构的定位,立足中国,面向世界发动的大会,峰会依靠国际化平台,汇集政、产、学、研、用、创、投、金等各畛域的劣势资源,共商开源倒退大计,共筑开源倒退将来,凝聚共建、共治、共享的倒退共识。 本届峰会以“开源赋能,普惠将来”为主题 ,设置了开幕式、高峰论坛、20 余场分论坛,以及开源成绩及重点项目展览,并设有云原生工作委员会成立典礼、开源教育委员会发动倡导、国内开源社区揭牌等重磅环节。 黄东旭受邀缺席开幕式暨高峰论坛的开源论道圆桌 ,围绕中国开源在寰球开源畛域的现状、中国开源走向寰球机会和挑战、中国开源倒退要害门路和里程碑及将来倒退等话题,分享了平凯星辰在成立之初就保持的开源门路教训及开源生态构建实际。黄东旭示意,最近几年,有越来越多中国企业主导的开源我的项目开始踊跃尝试融入到寰球开源合作中。从公司成立的第一天起, TiDB 就开始尝试寰球商业化。在这个过程中, 开源成为构建信赖的根底,成为减速商业化的重要途径 。目前,公司曾经向包含中国、美国、欧洲、日本、东南亚等国家和地区,超过 3000 家企业提供服务,波及金融、运营商、制作、批发、互联网、政府等多个行业。 峰会期间, 工业和信息化部党组成员、副部长张云明与北京市相干领导,凋谢原子开源基金会理事长孙文龙等基金会领导在平凯星辰余梦杰的陪同下,巡视了平凯星辰展区 。平凯星辰在寰球率先公布了基于 AIGC 的数据库产品 Chat2Query,受到了参观领导们的关注。目前,平凯星辰数据库产品 TiDB 在 GitHub 上曾经取得超过 34100 个 Star。过来两年,平凯星辰在 2021 寰球数据库开源我的项目活跃度排名中,TiDB 位列中国第一、寰球第三;平凯星辰也是惟一一家同时取得中国科协 2021 “科创中国开源翻新榜”三个奖项的公司(开源产品、开源机构、开源社区)。 凋谢原子云原生工作委员会成立在新一代数字科技的倒退和引领下,寰球数字化正在进入减速过程中,开源和云扮演着越来越重要的角色。云原生作为一种全新技术,在当下受到越来越多的器重与推崇。它的呈现与利用,在推动业务快速增长、晋升服务效力等方面产生了踊跃影响,也让越来越多的政企纷纷步入云原生转型行列。 开幕式上,凋谢原子开源基金会理事长孙文龙发动倡导,号召国内云产业相干企业、机构, 独特发动凋谢原子云原生工作委员会 ,共建、共治、共享,推动云原生技术的翻新倒退。 平凯星辰作为发动单位之一,响应倡导并加入了成立典礼。 工委会将通过构建开源、凋谢的云原生技术生态,摸索云原生技术创新,推动云原生技术在中国倒退,赋能千行百业的数字化转型。 图:凋谢原子开源基金会云原生工作委员会成立典礼 开源数据库分论坛胜利举办作为数字化转型的外围根底软件,数据越发成为最贵重的资源,而数据库则是治理和应用这些资源的要害工具。在寰球范畴内,开源数据库技术正在日益受到重视,并成为数据技术源头翻新的支流力量,这源于社区和企业的共同努力。 本次峰会中, 黄东旭负责主题为“开源凋谢生态如何推动数据库技术自主翻新”的开源数据库分论坛出品人 ,分论坛汇集了 中国工程院院士倪光南、 凋谢原子开源基金会副秘书长刘京娟、国家工业信息安全倒退钻研核心软件所技术专家佟伟、平凯星辰联结创始人兼 CTO 黄东旭、阿里云数据库产品事业部负责人 ACM、CCF、IEEE 会士 (Fellow) 李飞飞、安全科技数据库总工程师汪洋、华为云数据库翻新 LAB 主任、华为云数据库首席翻新专家张文亮、腾讯云数据库副总经理王义成、万里数据库 CTO 娄帅、浪潮 KaiwuDB CTO 魏可伟等领导、行业专家、开源社区领导者和数据库领域专家分享他们的见解和教训,围绕开源数据库技术中的“云原生、Serverless、HTAP、多模、AI+DB”等关键技术潮流和翻新场景展开讨论,独特探讨开源数据库在新一波技术浪潮中的发展趋势。 ...

June 17, 2023 · 1 min · jiezi

关于数据库:使用-Easysearch-还原-Elasticsearch-快照数据

本文次要验证 Elasticsearch 快照在 Easysearch 中进行数据恢复。 筹备测试数据索引 别名 模版 生命周期策略 创立快照PUT /_snapshot/my_backup{ "type": "fs", "settings": { "location": "/infini/test/es_backup" }}PUT /_snapshot/my_backup/snapshot_1{ "indices": "*", "ignore_unavailable": false, "include_global_state": false}GET /_snapshot/my_backup/snapshot_1ignore_unavailable:如果 indices 列表中的索引不存在,则是否疏忽该索引而不是使快照失败。默认值为 false 。include_global_state:是否在快照中蕴含集群状态(包含索引模版、生命周期配置、长久化配置等)。默认值为 true ,倡议设为 false。复原快照POST /_snapshot/my_backup/snapshot_1/_restore{ "indices": "*", "ignore_unavailable": false, "include_global_state": false, "include_aliases": true, "ignore_index_settings": [ "index.lifecycle.indexing_complete" ]}ignore_unavailable:如果 indices 列表中的索引不存在,则是否疏忽该索引而不是使还原操作失败。默认值为 false 。include_global_state:是否还原群集状态。默认值为 false 。include_aliases:是否复原别名及其关联索引。默认值为 true 。index.lifecycle.indexing_complete 配置不反对,疏忽掉。数据验证索引 通过 gateway 进行数据比对 path.data: datapath.logs: log#show progress bar#progress_bar.enabled: trueelasticsearch: - name: source enabled: true endpoints: - http://192.168.3.185:29200 - name: target enabled: true endpoints: - https://192.168.3.185:9205 basic_auth: username: admin password: adminpipeline: - name: index_diff_service auto_start: true processor: - dag: mode: wait_all parallel: - dump_hash: #dump es1's doc sort_document_fields: true indices: ".infini_activities-000004" ##须要比对的索引名 scroll_time: "10m" elasticsearch: "source" # query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2" # fields: "doc_hash" output_queue: "source_docs" batch_size: 5000 slice_size: 1 # hash_func: "xxhash64" - dump_hash: #dump es2's doc indices: ".infini_activities-000004" scroll_time: "10m" # fields: "doc_hash" # query_string: "_id:c8es70pu46lgfdgmja9g-1646117763293610802-2" batch_size: 5000 slice_size: 1 # hash_func: "xxhash64" elasticsearch: "target" output_queue: "target_docs" end: - index_diff: diff_queue: "diff_result" buffer_size: 10 text_report: true #如果要存 es,这个开关敞开,开启 pipeline 的 diff_result_ingest 工作 source_queue: "source_docs" target_queue: "target_docs"#pipeline:# - name: diff_result_ingest# processor:# - json_indexing:# index_name: "diff_result"# elasticsearch: "source"# input_queue: "diff_result"./gateway-linux-amd64 -config data_check.yml ...

June 17, 2023 · 2 min · jiezi

关于数据库:Mysql面试看这一篇就够了

面试不懂Mysql那可是举步维艰,快来看看上面的这些Mysql面试题,看看你能保持到哪里?1.说说mysql主从同步怎么做的吧?首先先理解mysql主从同步的原理: master提交完事务后,写入binlogslave连贯到master,获取binlogmaster创立dump线程,推送binglog到slaveslave启动一个IO线程读取同步过去的master的binlog,记录到relay log中继日志中slave再开启一个sql线程读取relay log事件并在slave执行,实现同步slave记录本人的binglog因为mysql默认的复制形式是异步的,主库把日志发送给从库后不关怀从库是否曾经解决,这样会产生一个问题就是假如主库挂了,从库解决失败了,这时候从库升为主库后,日志就失落了。由此产生两个概念: 全同步复制主库写入binlog后强制同步日志到从库,所有的从库都执行实现后才返回给客户端,然而很显然这个形式的话性能会受到重大影响。半同步复制和全同步不同的是,半同步复制的逻辑是这样,从库写入日志胜利后返回ACK确认给主库,主库收到至多一个从库的确认就认为写操作实现。2.说下mysql的索引有哪些吧,聚簇和非聚簇索引又是什么?索引依照数据结构来说次要蕴含B+树和Hash索引。假如咱们有张表,构造如下: create table user( id int(11) not null, age int(11) not null, primary key(id), key(age));B+树是左小右大的顺序存储构造,节点只蕴含id索引列,而叶子节点蕴含索引列和数据,这种数据和索引在一起存储的索引形式叫做聚簇索引,一张表只能有一个聚簇索引。假如没有定义主键,InnoDB会抉择一个惟一的非空索引代替,如果没有的话则会隐式定义一个主键作为聚簇索引。 这是主键聚簇索引存储的构造,那么非聚簇索引的构造是什么样子呢?非聚簇索引(二级索引)保留的是主键id值,这一点和myisam保留的是数据地址是不同的。 最终,咱们一张图看看InnoDB和Myisam聚簇和非聚簇索引的区别 3.能说下myisam 和 innodb的区别吗?myisam引擎是5.1版本之前的默认引擎,反对全文检索、压缩、空间函数等,然而不反对事务和行级锁,所以个别用于有大量查问大量插入的场景来应用,而且myisam不反对外键,并且索引和数据是离开存储的。 innodb是基于聚簇索引建设的,和myisam相同它反对事务、外键,并且通过MVCC来反对高并发,索引和数据存储在一起。 4.你晓得什么是笼罩索引和回表吗?笼罩索引指的是在一次查问中,如果一个索引蕴含或者说笼罩所有须要查问的字段的值,咱们就称之为笼罩索引,而不再须要回表查问。 而要确定一个查问是否是笼罩索引,咱们只须要explain sql语句看Extra的后果是否是“Using index”即可。 以下面的user表来举例,咱们再减少一个name字段,而后做一些查问试试。 explain select * from user where age=1; //查问的name无奈从索引数据获取explain select id,age from user where age=1; //能够间接从索引获取5.锁的类型有哪些呢mysql锁分为共享锁和排他锁,也叫做读锁和写锁。 读锁是共享的,能够通过lock in share mode实现,这时候只能读不能写。 写锁是排他的,它会阻塞其余的写锁和读锁。从颗粒度来辨别,能够分为表锁和行锁两种。 表锁会锁定整张表并且阻塞其余用户对该表的所有读写操作,比方alter批改表构造的时候会锁表。 行锁又能够分为乐观锁和乐观锁,乐观锁能够通过for update实现,乐观锁则通过版本号实现。 6.你能说下事务的根本个性和隔离级别吗?事务根本个性ACID别离是: 原子性指的是一个事务中的操作要么全副胜利,要么全副失败。 一致性指的是数据库总是从一个一致性的状态转换到另外一个一致性的状态。比方A转账给B100块钱,假如两头sql执行过程中零碎解体A也不会损失100块,因为事务没有提交,批改也就不会保留到数据库。隔离性指的是一个事务的批改在最终提交前,对其余事务是不可见的。 持久性指的是一旦事务提交,所做的批改就会永恒保留到数据库中。 而隔离性有4个隔离级别,别离是: read uncommit 读未提交,可能会读到其余事务未提交的数据,也叫做脏读。 用户原本应该读取到id=1的用户age应该是10,后果读取到了其余事务还没有提交的事务,后果读取后果age=20,这就是脏读。 read commit 读已提交,两次读取后果不统一,叫做不可反复读。 repeatable read 可反复复读,这是mysql的默认级别,就是每次读取后果都一样,然而有可能产生幻读。serializable 可串行化,个别是不会应用的,他会给每一行读取的数据加锁,会导致大量超时和锁竞争的问题。7.那ACID靠什么保障的呢?A原子性由undo log日志保障,它记录了须要回滚的日志信息,事务回滚时撤销曾经执行胜利的sql ...

June 16, 2023 · 2 min · jiezi

关于数据库:曝光Apache-SeaTunnel-Catalog-功能设计为何能大大简化用户启用步骤

Catalog(目录)提供了对于数据库、表格和拜访数据所需的信息的元数据,以及对立的 API 来治理元数据,验证连贯,让元数据对 Sources(数据源)、Sinks(数据汇)和 Web 可拜访。 Catalog 让用户可能援用其数据系统中的现有元数据,并主动映射到 SeaTunnel 的对应元数据。总之,Catalog 大大简化了应用用户现有零碎开始应用 SeaTunnel 的步骤,并显著加强了用户体验。 Catalog 性能的重要性目前,许多现有性能都是基于 Catalog 实现的,例如 CDC(变更数据捕捉)多表同步性能,咱们应用 Catalog 获取表格和字段列表。 Apache SeaTunnel 目前正在设计一个叫做 SaveMode 的性能,它是由连接器实现的,用于反对指标表中现有表格构造和数据的解决。这些性能也是基于 Catalog 实现的。 Catalog 是如何设计的?如何实现一个新的 Catalog?以下是具体介绍。 Catalog API初始化操作留神:目录名称目前没有被应用,预计会提供给 Web 后端进行保留和查问。 Javapublic interface CatalogFactory extends Factory { String factoryIdentifier(); OptionRule optionRule(); Catalog createCatalog(String catalogName, ReadonlyConfig options); } public interface Catalog extends AutoCloseable { void open() throws CatalogException; void close() throws CatalogException; }数据库操作javapublic interface Catalog extends AutoCloseable { // -------------------------------------------------------------------------------------------- // 数据库 // -------------------------------------------------------------------------------------------- String getDefaultDatabase() throws CatalogException; boolean databaseExists(String databaseName) throws CatalogException; List<String> listDatabases() throws CatalogException; void createDatabase(String databaseName, boolean ignoreIfExists) throws DatabaseAlreadyExistException, CatalogException; void dropDatabase(String databaseName, boolean ignoreIfNotExists) throws DatabaseNotExistException, CatalogException; }表格操作javapublic interface Catalog extends AutoCloseable { // -------------------------------------------------------------------------------------------- // 表格 // -------------------------------------------------------------------------------------------- List<String> listTables(String databaseName) throws CatalogException, DatabaseNotExistException; boolean tableExists(TablePath tablePath) throws CatalogException; CatalogTable getTable(TablePath tablePath) throws CatalogException, TableNotExistException; void createTable(TablePath tablePath, CatalogTable table, boolean ignoreIfExists) throws TableAlreadyExistException, DatabaseNotExistException, CatalogException; void dropTable(TablePath tablePath, boolean ignoreIfNotExists) throws TableNotExistException, CatalogException; }这里是一个曾经实现的示例。 ...

June 16, 2023 · 2 min · jiezi

关于数据库:Committer-迎新这次是来自阿里云的同学

截至明天,Apache DolphinScheduler 我的项目在 GitHub 上的 Star 数已冲破 10.6K,贡献者人数也冲破了 470 人。社区的一直壮大,离不开每位 Contributor 的反对。 最近,Apache DolphinScheduler 又迎来一位新 Committer,他是来自阿里云的开发工程师,尽管参加 Apache DolphinScheduler 社区奉献并不久,但却是一位“积极分子”。他为社区奉献了近程日志存储机制、资源核心减少对于云对象存储的反对等性能,还一直沉闷在社区解决问题,快来认识一下这位同学吧! PROFILE程鑫 公司:阿里云 职位:开发工程师 Github ID: rickchengx 从事畛域:大数据调度零碎开发 兴趣爱好:健身 社区奉献盘点a. 近程日志存储机制以及相应的不同存储类型插件(包含 OSS, S3 等)b. 资源核心减少对于云对象存储的反对c. 局部权限查看、UT、k8s 工作类型等内容 对话社区Q: 当初与 Apache DolphinScheduler 结缘,背地有什么乏味的故事吗? A: 作内容与大数据调度零碎无关,因而在应用Apache DolphinScheduler的过程中,将一些bugfix / improvement / feature也奉献给开源社区。在社区参加奉献的过程中,也结识了许多气味相投的敌人,学习到了很多新的常识。 Q: 源有多长时间了?开源为什么吸引你? A: 源约有半年。在开源社区中,大家都是平等凋谢的,大家能够一起奉献、探讨、review 代码,帮忙开源软件不断进步、欠缺。参加开源社区奉献的过程,也是集体价值失去体现的过程。 Q: 基于 DolphinScheduler 进行过二次开发?开发计划是否能够介绍一下? A: 日志存储、资源核心减少对云对象存储的反对等方面的性能已回馈开源社区。 Q: phinScheduler 社区奉献给您的第一印象是怎么的?您心愿在这里有何播种? A: 我的第一印象是平等、凋谢、容纳。社区里的 committer 和 PMC 会非常热心地 review代码、给出倡议。我心愿通过我的奉献,能让 DolphinScheduler 变得更好。 ...

June 16, 2023 · 1 min · jiezi

关于数据库:WhaleStudio-完成与偶数科技云原生分布式数据库-OushuDB-的产品兼容性认证

近日,白鲸开源「WhaleStudio v2.0」已通过与北京偶数科技产品云原生分布式数据库 OushuDB v5.0 的互相兼容性测试,并取得受权证书。 白鲸开源与偶数科技的联结测试结果显示,通过产品的性能、兼容性测试,WhaleStudio v2.0 在云原生分布式数据库 OushuDB v5.0 上整体运行稳固,满足性能及兼容性测试要求。 WhaleStudio 是白鲸开源科技依据寰球当先的 DataOps 理念打造的新一代数据集成调度工具,它由两大外围组件组成,WhaleScheduler 与 WhaleTunnel,将寰球当先的调度开发组件与数据集成组件集成在一起提供给用户寰球当先的残缺解决方案。目前,WhaleStudio 反对私有云、公有云和混合云,已与 AWS、阿里云、华为云等国内外头部云厂商达成单干,全面反对云原生,帮忙企业更好地适应大数据和云原生大时代下的数据处理与治理,同时反对传统数据仓库 Teradata,Greenplum,Oracle Datawarehouse Edition,DB2 Enterpirse Edition,反对开源的数据湖 Hudi,Iceberg 等,让企业用户实现数据湖、数据仓库、云的一体化调度。 OushuDB 由偶数科技自主研发,兼容国产软硬件平台,符合国家信创规范。新一代执行器显著晋升批处理和按需即席查问效率,采纳计算存储拆散架构,解决了传统数据库高老本、高门槛、难保护、难扩大的问题。 WhaleStudio 与偶数科技云原生分布式数据库 OushuDB 实现产品兼容,将进一步晋升 WhaleStudio 的云原生能力。 本文由 白鲸开源科技 提供公布反对!

June 16, 2023 · 1 min · jiezi

关于数据库:CQ-社区版-v210-发布-新增数据发布变更内置脱敏规则等功能

Hello,社区的小伙伴们,又到了每月版本公布工夫。 本次社区版更新带来了新性能 「公布变更」,以及内置脱敏规定、受权粒度细化、连接池治理、变更链接密钥等,信息量不少,一起来看! 公布变更 大量数据变更的便捷操作社区版 v2.0.0,咱们减少了「数据变更」模块,针对大量数据变更提供「数据勘误」性能,用户在发现大量谬误数据时可发动数据勘误申请。 而本次更新,咱们针对 大量数据变更 减少了 「公布变更」 性能,在进行重大数据变更如大批量数据批改、零碎失常版本升级、数据迁徙等状况下,可提交「公布变更」申请。 「公布变更」变更 SQL 反对间接输出 SQL 语句和上传附件两种形式,反对的 SQL 文本包含变更 「执行 SQL」 和 「回退 SQL」,对输出和上传的 SQL 文件可进行 SQL 查看。 此外,与数据勘误不同的是,公布变更还减少了 「模仿环境验证」,在正式的数据变更前,须要进行在测试环境对数据变更做验证,保证数据变更后各项指标体现失常,再进行正式公布。 丰盛的内置脱敏规定本次更新减少了零碎 内置脱敏规定,蕴含 身份证号、银行卡号、发票号、IP地址等10种罕用规定。可依据选定的脱敏规定在后果集展现中实现动静脱敏。 新增 变更连贯密钥 性能,保障脱敏后数据的构造完整性,对立算法秘钥,比方主外键关系。确保同一连贯下应用的脱敏规定中的加密算法应用的密钥的一致性,确保主外键关系。 细粒度受权 至表层级新增细粒度受权,社区版 v2.0.0 受权粒度仅到 schema 级别,本次更新新增了 表层级 的受权,可针对单表进行用户 拜访权限配置、拜访工夫限度 等 连接池治理连贯治理模块新增连接池治理,可治理连接池的应用状况,查看连贯的执行SQL、执行打算等 欠缺的集体核心设置集体模块新增集体具体信息展现,包含头像、零碎角色、账号注册工夫、上次登录工夫等信息 集体模块新增 平安设置,包含邮箱绑定、OTP绑定、登录设置、登录放弃工夫设置 集体文件夹新增 系统文件,用于 保留零碎中导出的文件,DBA 角色可查看零碎中所有的导出文件,其余用户只能看到本人导出的文件,选中单个文件双击即可下载。 社区问题修复在动静脱敏模块,有小伙伴提出的“动静脱敏后导出数据还是未脱敏的”问题已修复。 对于版本升级版本 =2.0.0 可间接降级至 v2.1.0版本 =1.5.0 能够更新至最新版,权限数据会清空,须要重新配置权限,连贯信息和用户信息会保留版本 <=1.4.2 不反对更新至最新版,须要卸载老版本再装置最新版,不反对数据迁徙更新手册:https://bintools.yuque.com/org-wiki-bintools-xniowl/do4ums/mm8fhvynmymduaqe ...

June 16, 2023 · 1 min · jiezi

关于数据库:2023年6月中国数据库排行榜OceanBase-连续七月踞榜首华为阿里谋定快动占先机

群雄逐鹿,酣战墨坛。 2023年6月的 墨天轮中国数据库风行度排行 炽热出炉,本月共有273个数据库参加排名。本月排行榜前十变动不大,能够用一句话概括为:OTO 组合间断两月开局,传统厂商GBase南大通用乘势而上,其余数据库暂居原位。 本月排行榜解读文章 「专家观点」 板块邀请到科大讯飞技术核心运维部高级DBA专家,Oracle ACE,中国数据库联盟外围搭档/MVP,中国Oracle用户组(ACOUG)核心成员戴明明解读本期排行榜。 图1:2023年6月排行榜TOP10得分详情表 一、巨头齐聚竞前十在本月排行榜前十中,除了传统中国数据库厂商 GBase南大通用反超 TDSQL,其余数据库都凭借深厚的积淀维持着上个月的排名。本月排行榜第四至七名之间分数差距较上月有所放大,这一赛段后续或会迎来大洗牌。OceanBase 自2022年12月摘得桂冠后,间断七个月问鼎墨天轮榜首,且本月得分超过700,这表明其仍处于疾速发展期。接下来具体看看排行榜前十名的得分以及排名状况。 OceanBase 本月得分701.02分,间断七个月问鼎榜首,上月新增三篇论文。 其始终保持科技翻新,重视平安能力建设。近日,OceanBase 凭借当先的数据一致性、数据访问控制、数据加密、高可用等数据库原生平安能力,胜利入选 IDC 公布的《中国数据库原生平安能力洞察 2022》钻研报告。且其频频在业内大会上亮相,在数据库行业内的影响力逐步扩充。以647.12分取得墨天轮榜眼名称的 TiDB,自上月末胜利中标建设银行国产数据库小机下移我的项目后,就吸引了泛滥潜在用户的眼光。 其在宣发上继续秉持低调理念。通过多年的打磨,TiDB 企业级分布式数据库曾经具备了成熟且可继续倒退的生态系统,并在银行、保险、证券等金融机构中有着泛滥胜利的落地案例。openGauss 本月以616.85分放大了与第二名的差距,间断两个月稳居排行榜第三。 上月,openGauss 继续聚合数据库行业劣势力量。openGauss Developer Day 2023在京举行、开源之夏2023正式开启,其继续密切联系厂商和从业者,深耕中国数据库行业生态建设。达梦本月得分515.97分,在市场开辟方面有了重要停顿。 上月,达梦陆续与国电南自、水利部南自所建设单干关系。依据公开的营收数据及第三方报告排名,从销售金额角度,达梦在政府端国产化份额中当先。在政府端后行先试的趋势下,达梦具备显著的竞争性劣势。人大金仓本月以495.43分维持着榜单第五的劣势位置。 自2023年2月人大金仓回升两位至第五名后,其操之过急,间断五个月稳坐榜单第五。上个月,人大金仓胜利助力某大型运营商租赁核算零碎、晋商银行新一代手机银行降级上线。作为数据库畛域国家队,人大金仓保持翻新为先,深耕金融行业多年,已服务上百家金融机构。GaussDB 紧追不舍,以7.39分的强劲分数劣势位列榜单第六。 华为云GaussDB是华为基于多年研发教训,联合数据库云化革新技术,打造出的企业级分布式数据库。其已在多家大客户中规模化商用,历经华为终端云、华为流程IT、寰球TOP银行、政企等严苛场景的考验。近年来,其瞄准金融行业,软硬联合,将数据库性能施展到极致并拿下了重要领地。PolarDB 本月以469.39分排名第七,新增80篇专利、45篇论文。2017年9月 PolarDB 正式问世,其一诞生就集泛滥翻新技术于一身。PolarDB 采纳了自研的分布式存储引擎设计,底层应用了RDMA的高速网络,后续又借助开源放大劣势。近年来,PolarDB 一直引入先进的技术,衍生了泛滥数据库学术成绩。GBase南大通用产品齐全,本月以1.96分的分数劣势位列榜单第八。 上月,2023年第一期GBase数据库有奖征文大赛正在炽热发展中,且陆续收到了泛滥用户的投稿,极大地丰盛了相干内容。南大通用自研的 GBase 系列数据库曾经为金融、电信、政务、能源、交通、国防、企事业等畛域,上万家用户提供了产品和服务。以305.1分位列榜单第九的 TDSQL 市场喜报连连。 近日,湖州银行新外围零碎我的项目群胜利投产上线。该零碎基于腾讯云数据库 TDSQL 建设,是浙江首个基于国产分布式数据库投产的银行新外围零碎。腾讯云目前曾经与中国人民银行以及六大国有行建设了单干关系,头部商业银行中90%在数字化转型中采纳了腾讯云的计划,其中7成波及外围或要害业务畛域。AnalyticDB 间断四个月蝉联榜单第十,本月得分225.70分,新增26篇论文。 AnalyticDB 是阿里云自主研发的云原生数据仓库,能够毫秒级针对千亿数据进行即时的多维分析透视。目前,AnalyticDB 在金融行业中曾经有诸多实际落地,从点到面逐渐晋升金融机构数据能力。二、群雄逐鹿争上游在本月排行榜第十名至第五十名这一区间,超五成的数据库排名都处于上行趋势。小编仅在此筛选了局部数据库的得分和排名,一起来看看它们的最新动静。 图2:2023年6月排行榜优良数据库得分详情表 金篆信科旗下 GoldenDB 分布式数据库本月排名较上月回升一位至第13名。自中兴去年4月设立数据库公司金篆信科后,GoldenDB 减速蓄力。上个月,GoldenDB 公布了 v7.1版本,此版本反对多模SQL引擎,反对更多类型数据的存储和应用。且其胜利入围“2022年信息技术利用翻新解决方案(典型解决方案)”。二十一年的厚积薄发,GoldenDB 逐步占据劣势位置。神舟通用排名较上月回升一位,以1.42分的强劲劣势紧跟在 GoldenDB 之后。航天软件的胜利上市,其拟募资1.52亿元用于神通数据库系列产品研发降级建设项目,给神舟通用注入了资本的生机。此外,随着国产化过程的放慢,传统厂商神舟通用本就具备先发性劣势,因而热度也在继续攀升。SelectDB 本月排名回升五位至第22。SelectDB 是飞轮科技基于 Doris 内核研发的云原生发行版,是运行在云上的实时数据仓库,在成立一年半内胜利融资三次。2023年6月1日,SelectDB厂商「飞轮科技」实现新一轮数亿元融资。实时性作为 SelectDB 的要害个性,在目前数据量爆发式增长的背景下,其是合乎行业需要的。YashanDB 本月排名较上月跃升16位进入了前三十的竞技圈。其排名自往年4月起就放弃间断回升的趋势,作为深圳计算迷信研究院自主设计研发的新型数据库管理系统,其在技术实力上是不容小觑的。这一支新权势在学院派的奠基之下热度居高不下。本月榜单上的黑马 ByConity 是新增参加排名的数据库。ByConity 是字节跳动开源的云原生数据仓库,于2020年正式问世。其首次参加墨天轮数据库排名就获得了第31名的问题。近日,云原生数据仓库 ByConity 正式发表开源,这一行动将吸引更多的潜在用户理解 ByConity 。ArgoDB 是星环全新推出的一款分布式闪存数据库产品,它能够代替 Hadoop + MPP 混合架构,一站式满足企业对大数据平台的各种诉求。其本月排名较上月回升9个位次至第36名。近日,向星力·将来数据技术峰会 (FDTC)在上海举办,这一峰会吸引了泛滥的潜在用户理解星环科技旗下的数据库产品。KaiwuDB 是浪潮集团控股的数据库企业,本月排名较上月跃升34个位次,现位列榜单第49。面对资源按需弹性和数据多样化解决的新时代需要,KaiwuDB 1.0时序数据库使用实时就地运算等外围专利技术,专为工业物联网、数字能源、交通车联网、智慧产业等场景设计,真正能解决用户的痛点。三、向量数据库风口已至AI 技术一直向前倒退,其将向量数据库推向新的风口。华福证券公布的《向量数据库:大模型引发爆发式增长》报告中指出,预计2025年向量数据库占非结构化数据处理需要约三成,数据向量化后存储将带来较大收缩。中国数据库市场规模2022年约300亿人民币,预计到2025年将达到约500亿人民币。目前中国的向量数据库还处于萌芽期间。依据墨天轮排行榜6月最新数据,已有6个中国向量数据库参加排名。本月向量数据库排名前三别离是 Milvus、cVector、Vearch。 图3:2023年6月向量数据库排行榜详情表 Milvus 是 Zilliz 旗下的一款为可扩大的相似性搜寻而建设的开源向量数据库。其始终稳居墨天轮向量数据库榜首。它具备高可用、高性能、易拓展的特点,用于海量向量数据的实时召回。Zilliz 是向量数据库畛域寰球最早的开拓者,在寰球领有超过 1000 家的企业用户,是 OpenAI 和英伟达最近公布的向量数据库的官网合作伙伴,在一年前B+轮融资时估值就曾经靠近7亿美金了。南京云创大数据科技股份有限公司公布的 cVector 向量计算一体机,这是一款自主研发的亿量级人脸特征向量高速比对计算一体机,反对亿级大规模人脸1:N比对场景。本月排名较上月回升4位位列向量数据库榜单第二名。Vearch 本月摘得向量数据库榜单探花,其是京东研发的一款分布式向量数据库,可用来存储、计算海量的特征向量,为 AI 畛域的向量检索提供根底零碎撑持与保障。该零碎可能宽泛地利用于图像,音视频和自然语言解决等各个机器学习畛域。近日多家向量数据库厂商传来融资喜讯,次要归功于 AI 发明的新机遇。向量数据库一个很重要的性能是拓展大模型的边界。随着向量数据库的引入,其外部存储的最新的信息向量可能极大地拓展大模型的利用边界。向量数据库能够使得大模型放弃准实时性,进步大模型的适用性,并使得大模型可能动静调整。也就是说,向量数据库使得大模型的长期记忆失去了可能。 ...

June 15, 2023 · 1 min · jiezi

关于数据库:数据库架构是否该随着公司估值一起变化

2020 年,因为 Figma 一直退出新性能,筹备第二条产品线和用户一直增长导致数据库流量每年以 3x 速度增长,咱们的基础设施遇到了增长瓶颈。很分明的是,本来的基础设施无奈扩大以满足新需要,咱们用了单个大型 Amazon RDS 数据库来存储元数据,比方权限、文件信息和评论等,尽管能够丝滑解决大多外围合作性能,但只有一个数据库的话限度很大。尤其在高峰期,流量达到 65% 以上时,单个数据库查问量过大导致 CPU 利用率回升。随着应用靠近极限,数据库提早变得越来越不可预测,重大影响用户体验。 如果数据库齐全饱和,Figma 就会进行工作。 咱们离宕机还挺边远,但作为基础设施团队,咱们得被动辨认并解决可扩展性问题。须要一种解决方案以缩小潜在的不稳固因素,并为将来的规模铺平道路。在施行该解决方案时,性能和可靠性是首要思考因素;咱们的团队旨在构建一个可继续倒退的平台,使工程师可能疾速迭代 Figma 而不影响用户体验。如果说 Figma 的基础设施是路线,那咱们不能敞开高速公路来进行工作。 咱们从一些修复开始,先缩短一下路线的生命,并为一个更残缺解决方案打下基础: 将数据库降级到最大实例(从 r5.12xlarge 到 r5.24xlarge),以最大化 CPU 利用率。创立多个读取正本以扩大读取流量。为新用例建设新数据库以限度原始数据库增长。增加 PgBouncer 作为连接池器来限度新增连贯(曾经达到上千)所产生影响。 <center style="font-size:14px;color:#C0C0C0">咱们退出了 PgBouncer 作为连接池</center> 尽管以上措施改善了些许,但也有局限性。剖析了数据库流量后,咱们发现写入操作,比方收集、更新或删除数据对耗费了大量数据库利用率。此外,并非所有数据读取都能够挪动到正本中,因为应用程序对复制提早滞后的敏感度不同。因而,从读和写两个方面来看,咱们仍须要给原始数据库减压。是时候解脱渐进式变动并寻找长期解决方案了。 摸索之路首先,咱们摸索了程度扩大数据库的可能。Figma 应用的数据库管理系统是 Postgres,很多风行的托管解决方案并不兼容。如果咱们决定应用可程度扩大的数据库,那要么找到一个兼容 Postgres 的托管解决方案,要么自托管。 迁徙到 NoSQL 数据库或 Vitess (MySQL) 要简单的双重读写迁徙,特地是对于 NoSQL 来说还要进行工程浩大的应用程序端更改。如果用反对 Postgres 的 NewSQL 数据库,咱们将会是云上分布式 Postgres 中的最大单集群,咱们不想冒险成为第一个遇到缩放问题的客户。对于托管计划,咱们能管制的比拟少,因而在没有通过针对咱们规模级别的压力测试就依赖它们会带来更多危险。如果不必托管计划,那就得自托管。但因为迄今为止咱们始终依赖托管计划,在团队可能反对自托管所需大量培训和投入,这意味着老本,也会扩散咱们次要关注的可扩展性 - 这才是个生死攸关的问题。 在决定不采取程度分区的两种后退门路之后,咱们决定垂直分区。这同时具备短期和长期效益:垂直分区当初能够缓解原始数据库的压力,并为当前程度划分子集提供了一条路。 咱们的分区办法在开始前,咱们首先须要确定要将哪些表分区到本人的数据库中。有两个重要因素: 影响:挪动表应该可能解决大部分工作负载隔离性:这些表不应与其余表严密相连为了掂量影响,咱们参考了查问的均匀沉闷会话(AAS),它形容了在某一时刻给定查问的沉闷线程数量的平均值。咱们通过以 10 毫秒距离查问 pg_stat_activity 来计算 AAS,以辨认与查问相关联的 CPU 期待,并按表名聚合信息。 每个表「隔离」的水平对于是否容易进行分区至关重要。当咱们将表移到另一个数据库同时,咱们也失去了重要性能,例如原子事务、FK 验证和连贯表。因而,挪动表可能会须要开发人员从新编写 Figma 中很多代码,老本较高。咱们最好通过辨认易于分区的查问模式和表来制订策略。 然而,从后端角度看这很艰难。Ruby 作为咱们应用程序后端,服务了大部分 Web 申请,它们生成了大部分数据库查问语句,开发人员应用 Active Record 编写这些查问语句。因为 Ruby 和 Active Record 的动态性,仅通过动态代码剖析很难确定哪些物理表受到 Active Record 查问的影响。首先,咱们创立了运行时验证器,这些验证器连贯到 Active Record。这些验证器将生产查问和事务信息(例如调用者地位和波及的表)发送到 Snowflake(咱们的云上数仓)中进行解决。咱们应用此信息查找常常援用雷同组表格的查问和事务。哪儿工作负载老本高,那这些表就作为垂直分区的次要候选项。 ...

June 15, 2023 · 1 min · jiezi

关于数据库:信也科技发布Plink实时计算平台助力构建企业级实时数仓新篇章

近日,信也科技推出新一代实时数据开发一站式平台Plink(下称“Plink平台”)。该平台基于Apache Flink我的项目自主研发,通过近年来的技术演进,现已具备高可用、高吞吐、灵便扩大等特点。Plink平台整合了Kafka、Hadoop和传统MPP数据库,以行业内多个业务的技术痛点为出发点,深度赋能业务零碎,在实时风控、实时营销、实时剖析等场景上广泛应用,场景覆盖率超过80%,解决效率进步近100%。 三大零碎层级 搭建实时计算平台架构Plink平台交融泛滥开源的大数据基础架构,并在迭代中保障了对历史技术栈兼容,依照性能个性次要分为引擎层、平台层、应用层三大层级。 1.引擎层:满足多业务场景下的技术兼容Plink平台以Kafka、Hadoop、Hive等罕用的大数据组件作为根底,并集成Hudi数据湖技术,构建了古代实时数仓的基础架构,同时也提供了对Mongo、Starrocks、Influxdb等组件的反对,充沛满足了多种业务场景下的技术兼容。除此之外,零碎还引入了图数据库用于撑持计算作业的血缘关系存储与剖析须要。 2.平台层:真正意义上反对Flink流批一体平台层是该零碎自研的外围,外部交融了项目管理、作业开发与治理、UDF治理、数仓设计、元数据管理、数据血统等相干性能,在多个方面集成了企业外部的开发标准与上线流程,保障开发人员平安标准操作。同时零碎也反对了多种Flink作业开发以及流批运行模式,从真正意义上反对了Flink流批一体。 3.应用层:显著进步开发效率与规范性在Plink平台的基础架构之上,平台集成了Flink CDC、指标零碎、OLAP数据库等组件,对企业外部的各大业务场景做了深度定制,在理论业务场景开发过程中,大大降低了开发人员的技术门槛和开发周期,显著进步开发效率和规范性。 四大外围特色 保障平台作业衰弱安稳运行Plink平台基于全场景的数仓设计思维,制订了一套集成化的作业开发公布流程,并买通了全链路数仓血统图谱,同时也构建了欠缺的作业指标监控体系,独特保障作业标准、安稳、衰弱运行。 1.全场景的数仓设计与治理Plink平台在设计之初,就充分考虑到向数仓建设方向迈进,并基于数仓设计思维,内置了数仓设计模块与元数据管理性能,反对对离线数仓和实时数仓元数据的对立治理,极大进步了作业开发便利性,升高了数仓设计与作业开发成本。 2.集成化的作业开发公布流程平台交融了Git代码管理系统和CICD标准,具备较强的作业开发治理能力,并提供对多环境、多版本的作业开发反对,同时也交融了信也科技外部项目管理与上线流程,具备“开发-测试-预发-生产”的一站式公布能力,极大进步了作业开发与上线标准水平。 3.全链路的数仓血统剖析能力自研Jar包作业的血统解析和Flink SQL血统解析模块,并采集传统离线作业的血统数据,基于图数据库买通了实时数仓和离线数仓的血统视图,构建数仓级别的全链路血统剖析,极大地提高了数据分析与问题解决能力。 4.欠缺的监控运维保障体系平台基于Flink Metrics和时序数据库,构建了欠缺的作业指标监控体系,对作业运行状态、资源占用等进行全面监控,并落实衰弱度评分机制,针对不同的作业等级,反对多种形式的作业异样预警能力,大大保障了作业的衰弱安稳运行。 将来,信也科技将交融已有的传统数仓平台,并踊跃引进数据湖、混合架构等最新前沿技术成绩,推动实时数仓平台建设,同时也将增强行业交换,分享最新研究成果,被动参加到社区开源我的项目建设中,更多地为团体业务零碎赋能,助力行业向实时化、智能化高质量倒退。

June 15, 2023 · 1 min · jiezi

关于数据库:2023年5月国产数据库大事记墨天轮

本文为墨天轮社区整顿的2023年5月国产数据库大事件和重要产品公布音讯。 目录5月国产数据库大事记(工夫线)产品/版本公布兼容认证代表厂商大事记排行榜新增数据库厂商流动5月国产数据库大事记(工夫线)5月4日,湖北省青年文明号组委会印发《对于确定2022-2023年度湖北省青年文明号创立个体的告诉》,武汉达梦数据库股份有限公司产品研发测试中心获批立项“湖北省青年文明号创立个体”。 5月4日,创邻科技入选“2023年度第一批浙江省专精特新中小企业名单”。 5月5日音讯,近日,湖州银行新外围零碎我的项目群胜利投产上线。该零碎基于腾讯云数据库TDSQL建设,是浙江首个基于国产分布式数据库投产的银行新外围零碎。湖州银行新外围胜利投产标记着腾讯云TDSQL在金融外围零碎数据库替换畛域打造了又一个标杆案例。 湖州银行基于腾讯云数据库TDSQL的技术能力,采纳双核心双活的架构和一主三正本、数据强同步的部署形式,实现零碎灾备复原工夫接近于零和数据零失落,并可能满足高并发业务操作需要。实测数据显示,新零碎业务解决能力晋升10倍以上、代发速度晋升11倍、日终解决能力晋升90%,大大晋升了金融服务质效。5月5日,武汉达梦数据库股份有限公司(简称“达梦数据”)与水利部南京水利水文自动化研究所(简称“南自所”)签订策略单干协定。单方携手,必然能开辟国产数据库在我国水利行业信息化建设的全新场面。 达梦在数据整合、大数据治理方面有着丰盛的市场和我的项目教训,深刻行业十余年,参加多项国家重大水利工程我的项目建设,在公检法司、国土资源等行业打造了泛滥行业当先的标杆案例。5月5日音讯,近日,TDengine 正式签约路特斯科技,打造出属于高性能跑车畛域的高效、牢靠和灵便的数据处理解决方案,帮忙路特斯科技更好地解决在业务减速扩张中的爆发式增长的车辆数据、实现数据架构的降级。 目前该利用我的项目曾经在路特斯科技上线,用来解决路特斯科技车辆数据,最终数据通过 TDengine 企业版提供的边云协同性能进行解决,且得益于 TDengine 的高吞吐量的读写、高压缩比、海量车端数据的多级存储。5月6日,人大金仓《“每一行代码皆可掌控”,人大金仓打造数据库“国家队”》一文被人民日报报道。 5月8日音讯,曹伟,花名鸣嵩,原阿里巴巴OLTP和 NoSQL数据库产品总负责人,曾经独立守业,成立杭州云猿生数据有限公司。 曹伟,2011年退出阿里数据库团队,作为核心成员历经双11、RDS等阿里数据库改革历程,主导云数据库 POLARDB和HybridDB产品的自主研制,并在 SIGMOD、VLDB等顶级国内学术会议上发表多篇一作文章,他也是中国计算机学会数据库专委会委员。5月8日音讯,近日,达梦与国电南京自动化股份有限公司(简称“国电南自”)签订2023年数据库框架洽购协定。 国电南自作为中国电力高科技第一股,被誉为中国电力自动化产业的摇篮和孵化器,是我国5大发电央企之一中国华电团体直属单位。本次数据库框架洽购协定的签订,充分体现了国电南自对达梦实力的认可。5月8日,首届“高新优品”品牌发布会在济南高新区隆重举行。大会同期公布首届高新优品遴选名单,瀚高股份入选首批“高新优品”企业,瀚高平安版数据库v4.5获评“高新优品奖”,执行总裁丁召华荣获“产品菁英品控奖”。 5月8日,2023西湖论剑·数字平安大会商用明码利用论坛上公布“2022年度杭州商用明码利用优良案例”,其中由中国移动通信集团浙江有限公司和中挪动信息技术有限公司联结申报的《基于磐维数据库的CRM营销零碎商用明码利用案例》荣获二等奖。 5月9日,“2023京东云城市峰会·武汉站”在武汉光谷召开。峰会期间,达梦数据与京东科技信息技术有限公司(简称京东科技)签订策略单干协定。 达梦皮总示意,心愿单方联合彼此在行业畛域的劣势,在产品、服务、市场等方面进行单干,独特打造软硬件一体化的解决方案,并借助京东云在云计算市场的整体优势,带动达梦公司产品在私有云、公有云市场的利用。5月9日音讯,近日,盘古云课堂签订阿里巴巴开源CLA协定, 正式退出阿里云PolarDB 开源数据库社区。 5月10日音讯,近日,国内权威市场钻研机构 IDC 正式公布《中国数据库原生平安能力洞察 2022》钻研报告,OceanBase凭借当先的数据一致性、数据访问控制、数据加密、高可用等数据库原生平安能力,作为中国数据库的代表厂商入选此报告。入选该报告,意味着 OceanBase 原生平安能力的卓越体现失去了国内权威机构的认可。 OceanBase 提供了全面的平安体系,包含身份标识与甄别、访问控制、数据安全、资源管控、监控预警、平安审计等性能,并从数据一致性、网络传输、用户认证、操作审计、存储平安、高可用等多个方面全面爱护客户数据的平安。5月10日,AntDB数据库团队推出“线上体验室”,“线上体验室”可让用户在线模仿实操AntDB,间接上手即可体验操作,实现课后考试颁发专属证书;无需任何下载或配置,不便生态用户进行适配与测试。实验室课程共9个章节,内容涵盖历史沿革、利用对象及装置部署、语法兼容、容灾备份等实操过程中可能波及的常识,深入浅出地让用户进行AntDB数据库的线上体验。 关上AntDB数据库官网,点击首页banner“在线体验”或者间接点击“信息中心”即可进入实验室页面,开启体验之旅。5月11日,由赛迪网、《数字经济》杂志社主办的2023首届数字驱动翻新峰会(DDIS 2023)在北京胜利举办。峰会上,创邻科技凭借全自主知识产权的的前沿技术翻新成绩与优良的国产化代替解决方案,获评“2022-2023年度数据库信创先锋”奖项。 通过长期的实际和考验,创邻科技的产品性能和综合实力曾经受到行业和市场的高度认可,现已取得“2023数字中国翻新大赛·信创赛道全国二等奖”、“2023爱剖析·信创产品及服务创新奖”、“2022信创产业实干者”等多个信创畛域权威奖项。并且2022年,创邻科技胜利入选Gartner、IDC、Forrester、CB Insights四大国内顶级研报,成为国内图数据库厂商的“第一人”。此次再获信创行业奖项,再次印证了创邻科技当先的产品实力与继续创新能力。5月11日音讯,近日,由金仓数据库撑持的晋商银行新一代手机银行实现全面降级并顺利上线。在金仓数据库的整体利用与撑持下,晋商银行新一代手机银行面向逾三百万用户,可能7*24小时高效稳固运行,各项性能均匀响应工夫小于0.5秒,事务处理90笔/秒,交易错误率为“0.00%”,继续晋升用户体验。 5月11日音讯,近日,人大金仓与新疆大学举办实习实训基地签约及揭牌典礼,人大金仓向新疆大学软件学院捐献了教育版《金仓数据库管理系统V8.0》软件。 5月11日,2023透明湖论坛顺利召开。会上,北京市透明湖研究院联结人大金仓、龙芯中科、统信软件、金山办公、同方计算机等企业,围绕数字办公典型利用场景,面向平安需要与翻新需要,独特打造了从指令集、CPU、操作系统,到数据库、根底软硬件、明码平安、办公协同生态等全栈式自主翻新计划。 作为国内首个基于Wintel、AA体系之外的第三套自主信息技术体系打造的数字办公全栈式计划,该计划在技术上具备内生平安体系的撑持,在组织上依靠透明湖研究院及翻新核心提供深度适配的服务保障,在过程中协同北京市翻新联合体相干企业各自劣势,具备自主开源翻新底座、明码平安翻新体系、利用兼容翻新计划、产业协同翻新生态四大特点。5月12日音讯,近日,星瑞格受权集成商福建升腾资讯有限公司签订人保财险外围数据库软件维护服务合同。星瑞格SinoDB曾经间断五年为人保财险提供外围数据库服务。 5月14日音讯,近日,由工信部等部门联结主办的数字技术交融翻新利用研讨会在福州市举办。本次研讨会重磅公布了2022数字技术交融翻新利用解决方案征集工作成绩,金篆信科旗下GoldenDB分布式数据库凭借“面向要害行业重点利用的国产信创分布式数据库解决方案”胜利入围“2022年信息技术利用翻新解决方案(典型解决方案)”。值得一提的是,这也是GoldenDB分布式数据库间断第三年获此殊荣。 5月15日音讯,GBASE南大通用与长亮科技强强联合,携手推出了交融、智能、牢靠的国产化金融数据仓库解决方案,受到金融机构的宽泛认可。 该联结解决方案以南大通用GBase 8a MPP Cluster V9为外围构件,辅以长亮科技数据开发平台、数据交换平台、企业级调度平台、数据资产治理平台、数据服务平台,打造海量数据计算及简单模型剖析的技术平台,实现跨业务畛域数据的集中采集、存储和共享,全面、及时、精确展示要害零碎的运行状况与趋势,助力金融机构全面开掘数据价值。5月15日音讯,近日,人大金仓与新疆大学携手共建的《数据库原理与技术—金仓KingbaseES版》课程胜利获评“国家级一流课程”,这标记着课程的教学质量在国内处于领先水平,将进一步推动国产数据库人才生态的倒退。 5月16日音讯,业内惟一取得过国家科技进步奖的企业——人大金仓失去了北京播送电视台(北京卫视)《北京新闻》节目的特地报道。 5月15日音讯,人大金仓助力靖江市人民医院率先落地“刷脸”就医。全流程“刷脸”就医对数据库各方面性能提出更高要求,金仓数据库基于数据块级逻辑工夫优化的多版本并发管制机制,联合多种锁模式,无效进步零碎吞吐量;并提供分区裁剪前置、索引空间和性能优化、执行打算缓存等技术,大幅缩减了事务响应工夫。 此次医疗“刷脸”就医零碎的胜利施行,标记着OLTP数据库联结翻新我的项目的可行性失去了验证,也突破了医疗行业数据库对国外产品的依赖,为将来更多外围业务零碎采纳国产数据库提供了贵重的方法论领导和施行教训,为院方各部门踊跃稳当推动自主可控OLTP数据库的利用提供了样板工程。5月17日,近期,由金仓数据库撑持的某大型运营商租赁核算零碎实现整体降级并胜利上线,正式提供面向团体及上司31个省、自治区及直辖市各级单位的租赁核算相干服务。 本零碎性能验证过程中,工程师充分利用KES内置统计视图和配套的性能诊断优化工具,对KES数据库联合业务特色进行了针对性优化。最终,在测试的7个外围场景中,KES性能相比Oracle别离晋升了0.5~16.4倍。5月17日,由山东省市场监管局、山东省倒退改革委、山东省委宣传部、日照市人民政府独特主办的“好品山东 品质惠享——2023中国品牌日”(山东)流动在日照市举办。瀚高股份凭借“以翻新为导向,以顾客为核心,以品质为基石的强交融品质管理模式”入选山东省首批品质管理模式推广名单。 ...

June 14, 2023 · 2 min · jiezi

关于数据库:从-Google-删库到蚂蚁跑路Care-与-Fear-点燃的-Flare

Bytebase 第一次实现融资后写了一篇文章,次要讲了从行业层面做 Bytebase 的逻辑。一年过来了,这一年咱们所处的开源/infra/数据库/企业服务赛道从热点归于平静,尤其在国内,又习惯性地反馈适度,间接降到冰点。但从寰球来看,整体行业其实是在持续减速倒退的,年初咱们的一篇「苍狼白鹿,星霜几度|万字长文回顾 2022 年数据库行业」在中英文渠道都取得了不少的关注,而明天这篇文章想讲一段集体的经验,回到做 Bytebase 的初心。Enjoy。 注释2015 年某一天下午,Google 加州山景城总部 CL2 一楼,Google 云数据库工程团队所在地。彼时一个工程师正盯着屏幕,校对着一组亟待修复的数据库实例,筹备采取下一步口头。「啪」,沐浴在加州阳光下的金手指敲下了按键,指令立马顺着 Google 盘根错节的网络,横穿大半个美国,飞奔到了千里之外的爱荷华数据中心。眼看着待办工作上又划掉了一项,工程师习惯性地往后靠了靠座椅。只是紧接着几秒之后,就看到他把头伸到了屏幕前,双眼瞪大,紧盯着眼前的文字: Instance XXX has been successfully deleted. 升迁,跳槽,转行,这些都能够作为职业生涯的宰割点。而对我来说,一个重要的宰割点,就是 2015 年这个敲下指令的霎时,因为在这一刻,我也可怜毕业,退出了误删过生产数据库的大军。多年当前,我仍然能很清晰地回顾出之后的每一个口头细节,先是后背立马冒出冷汗,僵滞了几十秒的工夫,脑海疾速检索各种急救计划,无果之后,从工位起身,走到 TL 旁边,强装镇定地通知对方本人刚误删了数据库。TL 深思了片刻,而后说到,这个是有版本治理的,能够尝试复原一下?我被一下子点醒,慌乱之中,竟然忘了这套当年 Google 云开创团队写的基于 Bigtable 上的 Megastore 上的 VFS,存储性能尽管蹩脚,然而实现了强悍的增量变更和版本化,所以撤销误删数据库,只有一个简略的版本回退,相当容易。 劫后余生后,可能伤疤也是兵士的功勋章,我承当起了更多治理数据库的职责,再加上业务自身的倒退,万级,十万级,始终到 2018 年来到 Google 的时候,我负责的曾经是寰球首屈一指体量的数据库实例集群。而接下来的一站,则是回到中国,退出过后如日中天的蚂蚁金服,也连续我在 Google 的数据库老本行,负责蚂蚁外部的数据库平台。蚂蚁的数据库平台业务次要分为三块,一个是面向 DBA 的运维治理平台,一个是面向业务研发和 DBA 协同的开发者平台,还有一个是做数据库诊断的智能平台。通过这几个平台,收拢了所有蚂蚁外部开发者和 DBA 们对数据库的变更和运维操作。 尽管本人不再像在 Google 那样,在一线操作数据库,但压力却又高了一个数量级。毕竟负责的平台要保驾护航的,是那些撑持着支付宝,余额宝,花呗这些国民级利用的外围数据库。一开始退出时,团队同学先给我这个外来和尚科普了下国内等保的概念,而后指着屏幕上的数据库列表通知我,看,这几个都是最高等保级别的,肯定要好好看着,可都是能要了公司命的!到起初慢慢和大家混熟后,他们再给我讲当年出了重大的数据库事变后,7x24 连轴转,享受着全程被所有总裁们站在身后围观的待遇。 置身于这样的环境中,偶然我也会产生一种仿佛能手握着一家千亿美金估值公司命根子的错觉,但下一秒马上被钉钉里的告警告诉拉回打工人的事实。蚂蚁的技术水位整体比不上 Google,但这套外部的数据库平台,有些方面却还是当先的(最近不又中了一篇 SIGMOD)。毕竟业务场景是工具平台最好的试炼,蚂蚁撑持的业务事关民生,金融,保险,蚂蚁在业务层面的创新力也强于 Google。数据库平台团队,每天就在被各种变态的业务场景践踏中走向成熟。但饶是如此,身为局中人,本人当然也晓得平台自身的各种不欠缺。记得有一次线上 P1 故障,就是因为一个危险操作按钮,没有加二次确认,导致了 DBA 的误操作。蚂蚁外部的故障是要定责的,定责又是和绩效挂钩的。所以到了故障复盘会那天,业务方和数据库团队坐在一起,后面的根本都是铺垫,最初定责的那一刻才是低潮,开始相互甩锅。但锅总有甩不掉的时候,我在数据库团队呆了一年,而这一年里背的故障,比我其余整个职业生涯加起来的还要多。但当我辞别团队的时候,却还是由衷地感激大家,没有提前终结我在蚂蚁的生涯。 数据库团队之后,我被调去了开发者工具部门,起初又去了生产力协同平台。不同部门有各自的精彩和挑战,但在数据库团队时的压力无疑是最大的。在微小的压力背后,会暴露出更实在的兽性,有些是负面的,但也有不少的善意。比方咱们和业务团队掰扯故障定责败了,就把故障带回到数据库团队外部消化。到了外部所有还是好磋商的,DBA,平台,引擎这几块的主管在一起,盘一下身上曾经背的故障,再联合往年团队的状况,匀一下。蚂蚁的技术在整个业界其实还是挺当先的,然而蚂蚁的业务总又是走在技术的后面,许多时候都是没条件先硬上。所以故障分完,马上大家都还是要背靠背去支援前线的业务。这样一年下来,数据库团队背的故障数总是遥遥领先。到了这里,就又体现了老板们的治理智慧,因为还是会给数据库团队一些关照,如果真的依照故障数打绩效,那数据库团队根本就年年认领 3.25 了。 ...

June 14, 2023 · 1 min · jiezi

关于数据库:中国电子报专访简丽荣模型热将引发云计算与数据库行业大变革

随着LLM智能涌现的产生和API的爆发式倒退,各行各业都在关注如何用好通用模型,如何调校好适宜本人的行业利用。LLM最重要的输出是数据,最频繁的接口是数据库。模型利用的遍及会对数据库产生哪些影响?大模型时代对企业的数据管理能力和范式提出了哪些新的要求? 围绕这些问题,酷克数据联结创始人兼CEO简丽荣承受了《中国电子报》的专访,解读大模型时代云计算和数据库行业的改革与时机。以下为专访全文: 以后,大模型引发的AI再造产业趋势曾经势不可挡,对于撑持AI的底层数据库而言更是如此。“以ChatGPT为代表的超大语言模型的迅速利用将引发云计算与数据库行业的大改革。”北京酷克数据科技有限公司(简称“酷克数据”)联结创始人兼CEO简丽荣近日在承受《中国电子报》记者专访时示意。 大模型热潮将扭转云计算和数据库市场竞争维度,减速企业IT架构向分布式和并行化发展的趋势,这也合乎“东数西算”的政策导向。同时,大模型将会推动多云化的遍及,具备中立性、产品反对多云部署的独立数据库厂商将无望从中受害。 数据处理全链路将被重塑AI大模型是基于海量多源数据打造的模型,须要通过一直地训练从大量标记和未标记的数据中捕捉常识,并将常识存储到大量的参数中,以建设对各种工作进行高效解决的技术架构。它具备通用、可规模化复制等诸多劣势,是实现AGI(通用人工智能)的重要方向。 “‘数据仓库’‘数据平台’和‘大模型’实质上都是为了更好地答复决策问题。从某种意义上讲,它们之间是相辅相成的。”简丽荣示意,一方面,数据仓库成熟的数据管理、荡涤、并行处理技术,能够无效晋升训练、微调大模型所需训练数据的解决流程;另一方面,数仓作为人造的事实数据或常识治理平台,能够为生成式AI提供正确答案所需的上下文,无效解决大模型普遍存在的“幻觉”问题。数仓和大模型的有机联合,能够更好地帮忙企业实现辅助决策。 区别在于,大模型解决数据的形式显著不同于当初支流的数据仓库、数据平台。数据仓库、数据平台往往会把原始数据编制成二维表格,而后进行数据荡涤、规整、补全等解决,最终通过简单的SQL实现商业智能。而大模型则须要一直把原始文本信息用提醒的形式进行投喂,让其进行深度学习,从而实现对工作的高效解决,这与传统的基于二维表格的模式存储、治理数据齐全不同。 简丽荣剖析称:“传统数据处理须要耗费大量人力、物力以及工夫,而且有很多环节非常容易出错,如数据荡涤、数据血统剖析、主数据管理、数据品质、数据治理、ETL、数据分析、数据库运维等。以ChatGPT为代表的通用人工智能模型的迅速利用,将会大幅晋升数据处理全链路各个环节的自动化水平。” 比方,Text2SQL(即Text-to-SQL,指将自然语言文本转换成结构化查询语言的过程),就是借助大模型的能力,主动依据自然语言生成结构化查询语言,实现BI(商业智能)工作,晋升数据工程师工作效率。 简丽荣示意:“大模型的呈现,一方面,让大家开始思考如何利用模型的能力去重构数据处理全链路的各个环节,以实现更高水平的智能化、自动化;另一方面,也促使大家开始思考如何将数据仓库、数据平台的数据处理规定与大模型进行适配,从而更好地反对大模型的训练、调优、部署、推理及利用。” 云计算资源生产模式将被扭转家喻户晓,大模型训练的关键在于算力、数据和算法。简丽荣认为,云计算平台正是提供这三个因素最合适的平台。首先,大模型须要大量算力,特地是高端GPU;其次,须要海量的数据,特地是一些高质量的数据;此外,大模型还须要算法的反对,Model as a Service将成为一种新的PaaS服务。这些都是新的需要,也是云平台最善于做的事。所以,大模型的呈现将会十分无效地提振云计算市场。同时,领有更强GPU算力的云厂商会更具竞争劣势。 简丽荣指出,大模型的呈现,将会对自然语言解决、计算机图像,甚至主动驾驶造成颠覆性的影响,扭转这些畛域的整个软件和硬件技术栈,从而给云计算市场带来全新的资源生产模式。以SaaS服务为例,大模型对低代码的冲击将会非常明显。低代码(或零代码)外围价值是通过利落组合解决软件开发慢、门槛高的问题。然而,大模型的呈现颠覆了低代码的整个开发模式。“低代码可能笼罩的利用场景是无限的,将来后盾的技术栈会被大模型彻底颠覆。”简丽荣示意。 像ChatGPT之类的大模型能够通过自然语言形容间接创立应用程序,AI生成代码的速度远超人工,甚至还能够通过对话继续提出改良倡议。此前,已经估值130亿美元的AI写作工具Grammarly在ChatGPT公布后就呈现了网站用户直线降落的状况。 简丽荣认为,AI利用的大规模推广实际上减少了IT行业的竞争维度,不同的企业在不同的维度下面的竞争力是不一样的。IT层会更加多元化,这天然也会推动多云的遍及水平。将来,大部分一般的非科技企业用户只须要调用云厂商提供的MaaS服务(模型即服务)来构建本人的垂类模型和利用,而一些大型企业用户出于数据安全、行业监管要求、老本、自主可控等因素,可能会更偏向于建设本人的根底平台来实现专有模型训练和推理工作。 大模型减速数据库散布化和并行化随同“模型热”的衰亡,宏大的数据量带来了存储和计算资源的压力,这要求数据库自身严密跟云计算技术联合,通过元数据、计算和存储层解耦,从而充分发挥云平台的弹性和扩大能力。 简丽荣认为,在大模型暴发的背景下,数据库须要提供能够横向的并发拜访能力、多范式的数据处理剖析能力(包含反对申明式语言SQL,过程式语言Python/R,图计算、全文检索、流式计算、高性能计算、机器学习和人工智能)和海量异构数据(结构化数据、半结构化数据、非结构化数据以及实时数据)的存储管理能力。 在这种趋势下,基于云原生架构的数据仓库将成为将来数据库行业倒退的重要方向,而大中型企业思考到高可用以及议价能力等因素,通常会抉择多云部署的模式。 “这种趋势对咱们做多云数据库的企业也有显著影响,用咱们的外围产品HashData云数仓为例,设计之初,咱们对多云部署场景的思考是通过将零碎的不同组件解耦,升高对特定接口的依赖,不便对接各种凋谢的云平台,满足企业数据在不同云平台流转的需要。”简丽荣说,“咱们当初在开发加强HashData数据仓库反对向量数据存储和解决检索能力的性能组件,再联合云数仓的高扩展性、高可用和高弹性,实现更好地撑持和扩大大模型的利用场景。”简丽荣示意。 与此同时,分布式和并行化潮流将进一步减速。“大模型的利用将进一步减速数据库行业的分布式和并行化潮流,而且在一个更深更广的层面上进行分布式和并行化。”简丽荣示意,“更深指的是更多异构的算力资源须要并行化,包含CPU、GPU、DPU等,更广指的是相似‘东数西算’工程,这些都要求数据系统可能更好地提供共享和合作能力。” 此外,除了相似ChatGPT一样的To C的状态外,大模型在企业级市场将更多地以个性化、独立部署的状态呈现,也就是说各行各业甚至同一家企业不同的部门都会有各自的大模型实例,相似行业专家。在这样的背景下,须要在数据库内核集成深度学习和大模型的能力。 “无论是数据分析全链路的各个环节还是数据库本身的运维工作,都十分耗时和依赖教训,咱们正在尝试利用大模型训练数据库畛域的专家系统,冀望晋升数据分析和数据库智能运维能力,实现在数据库范畴内有相似于‘主动驾驶’一样的性能。”简丽荣示意。

June 14, 2023 · 1 min · jiezi

关于数据库:快速把握企业数据分析从瓴羊Quick-BI开始

瓴羊Quick BI是一款功能强大的商业智能工具,它在多设施可视化、零代码利用、办公协同与信息分享以及中国式报表搭建方面体现出了优良的能力。其多设施可视化、零代码利用、办公协同与信息分享、中国式报表搭建等性能的搭载,大幅晋升企业数据分析能力,为企业用户提供了高效便捷的数据可视化解决方案。 瓴羊Quick BI的“Quick减速引擎”性能更新,它能够帮忙企业用户们实现高效的企业数据分析与疾速展示。该减速引擎目前可能反对3种减速模式,别离是全表减速、预计算、实时减速。在速度方面,瓴羊Quick BI的全表减速性能能够做到亿级数据、亚秒级响应,大大提高了数据分析的速度和效率,能够将客户数据库里的数据疾速抽取到Quick引擎的高性能列式存储引擎中。该性能反对全量模式和增量两种模式,能够满足不同场景下的需要。预计算模式能够依据用户的历史查问记录对相干的查问进行预聚合,之后一旦客户发展相干查问,就能间接返回后果,大大提高查问的速度和效率,该性能波及的技术手段包含历史查问记录剖析、数据预聚合、高性能存储等。瓴羊Quick BI的实时减速模式采纳的技术手段包含内存计算、多线程并行计算、实时数据更新等,对用户数据进行聚合和计算,从而达到实时减速的目标。 通过应用瓴羊Quick BI的企业数据分析性能,企业用户们能够更加高效地进行数据分析和展示,从而更好地把握市场动态和业务趋势,为企业的倒退提供无力的反对。

June 13, 2023 · 1 min · jiezi

关于数据库:TiDB-71-LTS-发版为关键业务提供业务稳定性和多租户场景支持

TiDB 7.1 是 2023 年度公布的首个 LTS(Long Term Support) 版本,会集了来自 20+ 个实在场景带来的性能加强,累计优化和修复 140+ 性能,旨在晋升要害业务的稳定性和性能,帮忙开发人员和数据库管理员进步生产力并进一步升高总体领有老本(TCO)。用户可在生产环境中应用 TiDB 7.1。 半年版本回顾TiDB 7.1 LTS 间隔上一个 LTS 版本 6.5 曾经过来了整半年,在这期间,咱们对产品的要害能力做了大量的加强和优化,其中最重要的个性有: ● TiDB 7.0 提供了基于资源组的资源管控(Resource Control) :这使得 TiDB 在针对多租户场景有了很好的应答。事实上,常常有用户心愿借助 TiDB 的可伸缩个性将多套业务零碎归一到一个集群中,从而使得集群治理、资源利用都能失去无效的改良。资源管控个性提供了对多租户的反对,并解决了不同租户间资源争抢的问题。在新版本中,用户能够很不便地借助这个功能完善数据库整合的应用场景。 ● Multi-RocksDB 个性 :借助将繁多 TiKV 实例中的 RocksDB 拆成多份,TiKV 的写吞吐晋升近三倍;此外,在新架构中数据分片(Region)大小将变得更大,由此减小保护分片所带来的开销,缩小单位存储所需的固定 CPU 耗费,更节省成本。这使得大写入吞吐,或者须要大量寄存温数据的 Data Serving 场景下,TiDB 的体现失去了实质的晋升。 对于这些重要的重量级个性,在新版本中也将继续失去打磨和增强。这半年中,TiDB 在一些要害场景的性能也失去长足晋升: ● 数据导入 Lightning 性能晋升近 30% ; ● 实在业务测试下,Analyze Table 性能晋升 42%+ ; ● 规范测试 TPC-H 和实在业务测试下,TiDB 剖析能力别离晋升 15% 和 25% ; ...

June 13, 2023 · 2 min · jiezi

关于数据库:百亿大表-Join-提速-300倍Apache-Doris-在约苗数据平台的实时数仓建设实践

本文导读: 约苗平台是国内目前最大的成人预防接种治理服务平台。近年来,随着各性能的不断完善,用户数量一直增多,越来越多注册数据、疫苗类别点击数据、页面浏览时长等数据被生成和积攒,如何无效利用这些数据进行解决剖析,对于约苗进步工作效率、优化经营决策有着不容小觑的作用。基于此约苗平台历经三代架构演进,最终通过 Apache Doris 重构了数据平台架构,对立了数据源进口,实现了近 300 倍的查问提速,目前已在音讯零碎、经营平台、数据平台、日志零碎中失去宽泛的利用,接入近百亿的数据量,并且在继续减少中。 作者:李俊龙,马太科技(约苗平台)研发工程师 四川马太科技有限公司是一家扎根于疾病防控畛域,具备业余的研发与经营团队的互联网公司,长期致力于改善和晋升中国公众疾病防控程度,助力“衰弱中国2030”。旗下领有国内用户量最大的成人疾病预防信息与服务平台“约苗”(以下简称“约苗平台”)。“约苗平台”使用互联网+模式流传衰弱科普知识,为疾病防控提供先进的服务和管理工具。围绕公共卫生服务机构的疾病预防业务,发展政策、疾病教育及预约服务。倒退至今已是国内最大的成人预防接种治理服务平台,作为连贯公共卫生服务机构与公众的桥梁,现已连靠近 5000 家公共卫生服务机构和 4000 余万用户,累计提供 2000 余万次疫苗预约服务,并产生科普内容阅读数 3.3 亿次。 业务背景随着约苗平台各性能的不断完善,用户数量一直增多,越来越多注册、疫苗类别点击、页面浏览时长等数据被生成和积攒,如何无效利用这些数据进行解决剖析,对于进步工作效率、优化经营决策、减少下单率有着不容小觑的作用,因而咱们决定搭建约苗数据架构,通过数据分析处理结果赋能业务倒退,从而进步企业竞争力。 基于此,咱们踏上了数据架构搭建及优化之路,为满足不同场景下的数据处理和剖析需要,相干场景对数据架构提出了以下几点要求: 用户行为剖析 : 通过用户浏览内容或页面的时长进行用户分层、把握用户行为爱好,通过对新用户的增量和用户活跃度进行统计,以便工作人员调整经营策略,进步用户留存率和活跃度。在该场景下,要求所有查问须要在 5s 内返回后果。平台告诉: 约苗平台音讯推送服务蕴含 App 推送、内置告诉、短信、信公众号推送,在该场景下,冀望可达到毫秒级查问响应,解决 **C 端告诉查问提早的问题。市场报表统计: 市场部每天需对相干业务进行报表统计,但因为数据量微小,通常会呈现查问速度较慢的问题,这将重大影响产出计算,冀望能够实现秒级查问响应。为了满足要求,约苗的数据架构曾经经验了三代演进。第一代架构基于 Elasticsearch,第二代架构引入了 ClickHouse,目前正在应用的是基于 Apache Doris 的第三代架构。本文将具体介绍这三代架构的演进历程和搭建教训。 基于 Elasticsearch 的第一代架构 第一代数据架构是基于 Elasticsearch 来构建的,次要用于解决来自业务各零碎和日志零碎的数据。其中,业务数据首先存储在 MySQL 中,而后应用 Flink CDC 对 MySQL Binlog 监听,将数据同步到 Elasticsearch 中。当展现层发动聚合申请时,Elasticsearch 中的数据进入聚合层对应的服务中实时计算,最终将后果输入到展现端。 架构搭建完后咱们立刻投入生产来验证成果,但在应用中咱们发现 Elasticsearch 在高并发读取和写入的过程中提早十分高,而为改善该问题,咱们又增设了多套集群配置,但依然于事无补。除此之外,Elasticsearch 得数据查问性能也会随着数据增长而降落。在这个状况下,如果想要进步 Elasticsearch 响应速度,还需进一步减少集群配置,以进步 Elasticsearch 集群负载能力,老本投入十分大。 引入 ClickHouse 的第二代架构 基于上述问题,咱们对架构进行了降级。为防止架构演进对代码带来过大冲击,咱们保留了第一代架构中根本的数据同步逻辑,在其根底上减少了 Apisix、Kafka、ClickHouse 同步流程,在此基础上对 Flink 同步流程进行了优化。为了升高 Elasticsearch 的压力,咱们将日志数据、行为数据和文件系统数据进行了整体的迁徙都 ClickHouse 。在 ClickHouse 同步流程中,咱们应用 APISIX 的 Kafka-Logger 对行为采集和日志零碎的数据进行间接上报,应用同步工具对上报数据进行荡涤过滤,最终存储到 ClickHouse中。在应用 Flink 同步时,咱们引入了 RabbitMQ 音讯组件来保障数据同步的稳定性(因历史起因未应用 Kafka,倡议尽量应用对立的音讯队列组件)。 ...

June 13, 2023 · 2 min · jiezi

关于数据库:魏可伟受邀参加-2023-开放原子全球开源峰会

6月11日-13日,2023 凋谢原子寰球开源峰会在京举行。作为开源行业年度盛事,本次峰会以“开源赋能,普惠将来”为主题,汇集政、产、学、研等各畛域劣势,汇聚顶尖大咖,共话开源将来。 KaiwuDB CTO 魏可伟受邀缺席峰会并做《构建“快人一步”的 AIoT 数据库》主题分享,联合数据库技术中的分布式、HTAP、多模、AI4DB 等关键技术潮流及物联网时代的翻新数据场景,与在场行业专家、技术爱好者独特探讨数据库在新一波产业浪潮中的发展趋势。 KaiwuDB CTO 魏可伟发表主题演讲 大会回放链接 ↓↓↓,滑至3:08:26即可查看 KaiwuDB 专场直播>>https://gongyi.cctv.com/2023/06/12/VIDERNrWZTGWjO0nTtfhkRcb23... 划重点一、KaiwuDB 的需要摸索与解决之道KaiwuDB 在实践中发现,物联网畛域的数据管理场景不仅对数据库提出了海量时序数据处理、程度扩大、高基数的需要,还包含与高价值关系型数据深度交融、云边端协同、疾速响应并实时控制、AI 趋势剖析及辅助决策等深度诉求。 作为一款分布式、多模、反对云边端协同的 AIoT 数据库产品,KaiwuDB 领有"就地计算"专利技术,基于 MMIO(内存映射)技术实现“所存即所用”,反对百万级数据秒级入库,千万记录查问毫秒级响应,1 秒实现 20 亿记录数据摸索,10 秒实现 500 万记录数据 15 层下钻,切实保障 IoT 场景海量时序数据的高速入库、极速查问。 KaiwuDB 多模架构反对时序数据、内存数据、关系型数据在同一数据库中对立存储、解决及 AI 智能剖析,基于对立的算子和通信协议实现模型的主动抉择和主动转换,真正实现“以一当多”。同时,KaiwuDB 还具备 SQL 反对、数据压缩、智能预计算、订阅公布、集群部署等个性,及高可用、低成本、易运维等特点。 二、从实际中来,到场景中去KaiwuDB 牵手山东某重工企业联结打造的离散制造业 IIoT 解决方案,切实有效地帮忙该团体厂区建设了对立设施数据采集服务能力、数据压缩及分级存储能力、设施运行状态实时剖析、启停管制、循环参数调整能力等。通过上述解决方案,山东某重工已实现:1. 对立汇聚存储并治理来自 PLC、数控机床、拧紧机、淬火机场、机器人、加注机等共计 200+ 设施、3w+ 采集点产生的数据; 对设施状态集中监控剖析,及时发现设施问题并缩小异样停机,设施故障率升高 65%、利用率晋升 20%,加工效率晋升 20%,设施投入老本缩小 10%;底层数据与下层经营治理数据的互联互通,造成了工厂级数据共享机制,实现了数据驱动经营管理效率的大幅晋升。履践致远,开物成务。将来,KaiwuDB 将继续开掘 AIoT 畛域需要,深耕物联网产业一直衍生的翻新数据场景,致力成为“更懂”物联网的数据库,推动数据库产业继续倒退,共创数据新价值。

June 13, 2023 · 1 min · jiezi

关于数据库:DataLeap的全链路智能监控报警实践三-系统实现

零碎实现整体架构 基线治理模块:负责基线创立、更新、删除等操作,治理基线元信息,包含保障工作,承诺工夫,余量及报警配置等);基线实例生成:零碎每天定时触发生成基线实例,生成实例的同时依据保障工作,由下而上逐层遍历 (BFS)所有上游工作并生成基线监控埋点。生成基线监控埋点的过程中,会计算每个工作节点的预测运行时长,承诺工夫,预警工夫,预警最晚开始工夫,承诺最晚开始工夫。此外,零碎会给基线监控工作增加基线出错/变慢报警规定,当工作执行触发规定后,通过根底报警服务发送基线报警事件;监控埋点校验:系统维护一个提早队列,依据校验工夫点(预警最晚开始工夫,承诺最晚开始工夫以及破线加剧工夫校验点),定时触发监控埋点校验工作实例运行状态,如果在工夫点实例未运行胜利,产生基线预警/破线报警事件,发送给根底报警服务发送报警。因为基线实例生成和基线埋点检测是基线监控的外围模块,因而本文只着重介绍下这两个模块。基线实例生成每天固定工夫点(如22:00),依据基线类型及业务日期生成对应的基线实例。针对每一个基线实例,零碎依据该基线实例对应的监控链路(工作DAG),由保障工作为终点,自下而上逐层(BFS)计算各工作对应的监控埋点实例的校验工夫节点,包含预测运行时长、 预警工夫、承诺工夫、预警最晚开始工夫,承诺最晚开始工夫。如上图所示,上游工作(B)的预警工夫为其子工作实例埋点的预警最晚开始工夫,工作节点中的数字示意工作的预测运行时长,如节点A(1.5h),示意A的预测运行时长是1.5小时。如上图所示,基线保障工作为A,承诺工夫为9:00,用户设置的预警余量为0.5h,联合零碎推算出该工作本次的预测运行时长为1.5h。因而,工作A监控埋点的预警工夫为8:30(9:00-0.5h),预警最晚开始工夫为7:00(8:30-1.5h),承诺最晚开始工夫为7:30(7:00+0.5h)。上下游工作之间监控埋点的各工夫节点办法如上图所示,满足:上游工作的承诺(预警)工夫 = 上游工作的承诺(预警)最晚开始工夫。上图示例只是现实状况,但实际上工作链路会非常复杂,如跨层依赖、循环依赖十分常见。此外,工作链路也是有可能动态变化的,上游依赖新增或者缩小也是个普遍现象。因而,基线实例生成时,须要针对上述情况进行解决,以保障基线监控的有效性和合理性。上面,咱们针对每种场景介绍基线监控算法的解决办法。基线监控的工作链路变动了怎么办?目前,基线监控算法是通过基线实例生成时刻该基线监控的工作链路“快照”来生成监控埋点实例的,暂未针对监控埋点生成完结后,基线笼罩的工作链路发生变化的状况进行解决。即,用户操作工作并不扭转曾经生成的基线监控埋点实例的信息(计算得来的各种工夫及工作与基线的映射关系等),而是等到下一次生成基线实例的时候从新去计算。具体实现时,零碎会将工作DAG进行缓存(1h),以进步埋点实例生成的效率。基线笼罩的工作链路存在跨层依赖怎么办?因为在计算监控埋点实例的时候是由下至上逐层计算的,能够了解为是个部分计算,无奈获取整个工作链路的全貌。因而,如果基线笼罩的工作链路中存在跨层依赖,那么同一业务工作实例上的监控埋点的工夫点须要不断更新至最早值。如下图所示,工作A依赖工作C和E,工作C依赖于工作E,而工作A又间接依赖于工作E。保障工作A的埋点实例计算完结之后,能够计算工作B、C、D、E的埋点实例信息;而当计算工作C的埋点实例信息时,工作E的埋点实例须要依据工作C的埋点实例信息进行更新。这样能力保障整个工作链路监控的合理性。基线笼罩的工作链路存在循环依赖怎么办? 基线笼罩的工作链路中存在循环依赖,个别是因为某两个工作之间在业务工夫存在offset导致的。如下图所示,比方工作B 业务工夫23:00的实例依赖工作C 业务工夫23:00的实例,而工作C 业务工夫23:00的实例又依赖于工作A 业务工夫22:00的实例。对于这种状况,解决准则为:只保留工作最新业务工夫(latest_task_time)对应的埋点实例,早于latest_task_time的业务工夫对应的埋点实例间接抛弃。这是思考到对更早工夫点的实例进行监控的意义不大,因为前一天的基线监控曾经发现出问题并触发告警了。 基线埋点校验基线实例生成完结后,将生成的监控埋点实例保护到一个提早队列BaselineTimeQueue里,Delay工夫节点、监控埋点实例校验阶段及对应阶段触发的报警类型三者之间的关系如下图所示: 基线监控埋点实例的初始阶段为基线预警校验阶段(CHECK_START_WARNING_TIME),其Delay工夫点为预警最晚开始工夫(earliest_start_time_for_warning)。当达到earliest_start_time_for_warning工夫节点时,监控埋点对应的工作仍未开始运行,且该工作是该基线监控链路上的首个满足条件的工作,则基线实例的状态由安全更新为基线预警,并发送基线预警报警。无论是否触发报警,监控埋点实例的状态都会从CHECK_START_WARNING_TIME流转至基线破线校验阶段(CHECK_START_COMMIT_TIME),并且从新放至提早队列中,期待基线破线的校验。当达到承诺最晚开始工夫(earliest_start_time_for_commit)工夫节点时,监控埋点对应的工作仍未开始执行,且该工作是该基线监控链路上的首个满足条件的工作,则基线实例的状态由平安/基线预警更新为基线破线,并发送基线破线报警。在基线破线校验完结之后,须要判断是否须要进入基线破线加剧校验阶段: 如果当前任务或其上游存在破线工作,且当前任务曾经开始执行,则基线实例状态更新为基线破线加剧查看阶段(CHECK_OVERTIME_INTENSIFY),Delay工夫为基线破线加剧校验工夫节点(overtime_intensify_time),即工作理论开始工夫 + (预测运行耗时 * (1 + N%));如果当前任务尚未开始执行,则基线实例状态更新为期待基线破线加剧查看阶段(CHECK_WAIT_OVERTIME_INTENSIFY),此时Delay工夫为期待基线破线校验工夫节点(wait_overtime_intensify_time),即破线开始工夫 + (预测运行耗时 * (1 + N%))。当达到wait_overtime_intensify_time工夫节点进行校验时,若工作仍未开始执行,则查看阶段放弃不变,wait_overtime_intensify_time减少 30 秒,从新入队期待下次查看。当达到overtime_intensify_time工夫节点进行校验时,若工作仍未运行胜利,则触发基线破线加剧报警,并将基线实例的状态更新为FINISH_WITH_UNSAFE,埋点监控完结;若工作已运行胜利,则不触发报警,并将基线实例的状态更新为FINISH_WITH_SAFE,监控完结。总结将来,咱们将持续针对基线监控进行优化,如基线要害路径分析、基线实例生成效率优化等,一直进步基线监控算法性能,欠缺基线链路剖析能力,一直晋升用户体验,致力于向火山引擎DataLeap用户提供更弱小的全链路监控运维能力。

June 13, 2023 · 1 min · jiezi

关于数据库:DBA-抓包神器-tshark-测评

想窥探神秘的网络世界的神秘,tshark 助你一臂之力! 作者:赵拂晓 爱可生 MySQL DBA 团队成员,相熟 Oracle、MySQL 等数据库,善于数据库性能问题诊断、事务与锁问题的剖析等,负责解决客户 MySQL 及我司自研 DMP 平台日常运维中的问题,对开源数据库相干技术十分感兴趣。 本文起源:原创投稿 爱可生开源社区出品,原创内容未经受权不得随便应用,转载请分割小编并注明起源。罕用抓包工具tshark、tcpdump 和 Wireshark 都是网络抓包工具,它们能够在网络上捕捉和剖析数据包。 tcpdump一个开源的,基于命令行的网络抓包工具。它能够捕捉和剖析网络数据包,运行在简直所有的 Unix 和 Linux 零碎上;能够抓取实时网络通信中的数据包,而后通过过滤器及其他参数,对数据包进行解析和解决。 tsharkWireshark 的命令行版本,也是一个开源的网络分析工具。它能够在命令行下捕捉和剖析网络流量数据,并应用 Wireshark 的过滤器来提取所需的数据,还反对与各种脚本语言(如 Python 和 Perl)联合应用,以自动化剖析过程。 Wireshark是一个风行的网络协议分析器,反对从在线网络或本地文件中捕捉数据包,并提供了图形化用户界面来展现数据包内容;能够解析并显示各种网络协议,并提供了弱小的剖析工具以及过滤器;与 tshark 和 tcpdump 相比,Wireshark 的劣势在于它提供了敌对的 GUI 界面,使用户更轻松地进行网络协议的剖析和调试。 小结以上这些工具都能够间接捕捉和剖析网络数据包,但它们在应用形式和性能上略有不同;通常,咱们会先用 tcpdump 或 tshark 在指标服务器上抓包生成 pcap 文件,再将其拿到装有 Wireshark 的主机上进行剖析,本文将会分享 tshark 和 Wireshark 的一些应用技巧。 三次握手和四次挥手TCP 协定中的三次握手和四次挥手是 TCP 连贯建设和敞开的过程。 三次握手客户端向服务器发送 SYN 报文(申请建设连贯)服务器收到 SYN 报文后,回复 SYN+ACK 报文(批准建设连贯)客户端收到 SYN+ACK 报文后,再回复 ACK 报文(确认连贯建设) 四次挥手客户端向服务器发送 FIN 报文(申请断开连接)服务器收到 FIN 报文后,回复 ACK 报文(确认收到申请)当服务器确认数据曾经全副发送结束后,它会向客户端发送 FIN 报文(敞开连贯)客户端收到 FIN 报文后,回复 ACK 报文(示意确认收到敞开申请),至此,整个 TCP 连贯就被彻底敞开了 ...

June 13, 2023 · 10 min · jiezi

关于数据库:连续两年PingCAP-入选-Gartner-云数据库客户之声获评卓越表现者最高分

近日,寰球权威信息技术钻研与咨询机构 Gartner 公布了云数据库市场畛域 2023 Gartner® Peer Insights™“Voice of the Customer” 报告,PingCAP 在报告中取得的客户总体评分达到 4.9 分(满分 5 分), 在所有入选企业中位列第一,间断两年获评“卓越表现者”最高分 。 起源:Gartner Peer Insights‘Voice of the Customer’: Cloud Database Management System Gartner® Peer Insights™ 是一个专门针对企业级软件的客户评审和评级平台。客户能够依据应用教训对产品进行匿名评估,公开的评论都通过严格的验证和审核,其后果可帮忙企业管理者和决策者做出更正确的购买决策。云数据库在治理存储在云中的数据和优化各种用例的交易和剖析解决方面施展着关键作用。作为面向寰球的点评平台,Peer Insights 上的点评代表着寰球客户对云数据库的多维度需要,更具参考价值。 本次报告展现了来自寰球的 金融、服务、游戏、物流、批发等多个行业 的客户在产品性能、部署运维、服务反对等多个维度上对 TiDB 产品及服务的综合评估后果。这些评估充分体现了寰球客户对 TiDB 的高度认可,并违心举荐同行业客户尝试应用 TiDB,使得 TiDB 成为货真价实的“卓越表现者” (Strong Performer)。 "PingCAP 在 Gartner Peer Insights ‘Voice of the Customer’报告中被评为卓越表现者,反映了咱们对灵活性、可靠性、可扩展性和多种部署形式的器重,"PingCAP 创始人兼 CEO 刘奇示意。"这一认可证实了咱们对客户的承诺以及在产品开发、服务和反对方面的继续翻新。在咱们致力满足客户需要并推动业务成绩的过程中,用户的反馈提供了重要的意见。" Gartner Peer Insights 报告依据供应商的整体体验、用户趣味和采纳得分进行评估。PingCAP 被列入左上角象限的 "卓越表现者",表明 TiDB 在整体体验方面超过了市场平均水平。 此外,PingCAP 在亚太地区的客户抉择中怀才不遇,取得了最高分评级。 PingCAP 的胜利源自其当先的开源分布式关系型数据库 TiDB。TiDB 是一款定位于在线事务处理/在线剖析解决的交融型数据库产品( HTAP: Hybrid Transactional/Analytical Processing),实现了一键程度伸缩,分布式事务,强一致性的多正本数据安全,实时 HTAP 等重要个性。在解决企业面临的挑战的同时,帮忙他们可能通过实时剖析做出前瞻的商业决策。 ...

June 13, 2023 · 1 min · jiezi

关于数据库:KaiwuDB-数据库高可用方案及落地实现

数据库停机将会带来诸如客户散失、名誉受损、经济损失等严重后果,对于终端用户而言,不论是打算内或是计划外的停机,都是难以承受的。因而,用户逐步意识到抉择生产数据库除了思考性能、性能、易用性等维度,高可用性也成为一项至关重要的评估规范。 一、什么是数据库的高可用高可用,英文翻译为”High Availability”。从字面上了解,即是须要做到服务 full-time 的继续可用。 工业畛域内有一套测量零碎可用性的规范,即大家所熟知的 SLA (Service Level Agrement),即“几个 9” 的可用性。举例说明:某利用可用性 4 个 9 ,即服务可用性达 99.99% 。 换言之,当遇到上述的故障后,可在 0.01% 的工夫内解决。如果以年为运行工夫单位,那么不可用工夫是 53 分钟 (3652460*0.01%)。不同利用的可用性差异次要体现在面对各种故障时,高可用是否设计得足够好。 二、KaiwuDB 高可用技术计划从技术原理角度讲,常见的高可用技术计划包含:数据周期性备份、磁盘同步、主备架构基于分布式多正本协定实现的集群模式等多种模式,其中各计划各有优劣。 KaiwuDB 反对主备架构以及分布式部署两种模式,并且反对包含时序数据以及关系型数据在内的多种数据的高可用,并且提供表级别/库级别的高可用反对,可能从多方面满足用户高可用需要。 更多精彩内容可移步至微信公众号“KaiwuDB”

June 13, 2023 · 1 min · jiezi

关于数据库:数据库的-Schema-变更实现

一、缩小元数据变更的措施元数据变更是数据库治理中不可避免的工作项,缩小元数据变更次数可升高数据库保护和治理老本,加重对业务的影响。这里咱们能够优先思考以下 3 点: 精密打算在数据库设计和开发阶段,精密设计元数据结构可无效防止设计不合理或不充沛的状况;防止适度设计为升高保护难度和变更次数,元数据结构设计该当秉承简略、实用、合乎业务需要的准则,防止适度设计;合并应用束缚在设计元数据结构时,合并应用束缚,包含主键、外键、唯一性束缚、非空束缚等能够保证数据的完整性和一致性。二、MySQL Metadata Lock 流程由 LEX 和 YACC 依据语句的类型给须要拜访的表初始化 MDL 锁申请;MDL_context 调用 acquire_lock 发动 MDL_request;顺利获取到 MDL_ticket,就实现了 MDL 的获取,能够持续查问过程。如果无奈获取到,就须要进行锁期待;每个线程在进入锁期待前,会进行一次死锁检测,防止以后线程陷入死等。三、PT-OSC 流程创立一个与原表构造雷同的空表,表名是 _new 后缀;批改步骤 1  创立的空表的表构造;在原表上加三个触发器:delete/update/insert,用于复制数据时,将原表中要执行的语句在新表中执行;将原表数据以数据块的模式复制到新表;将原表重命名为 old 表,并把新表重命名为原表名,而后删除旧表;删除触发器。四、F1 Schema 变更算法租约:F1 约定了数分钟的 Schema 租约,在租约过期前所有服务器要实现变更操作,如果超时没有实现则认为服务器下线进行工作;中间状态:把一次 Schema 变更拆解为多个逐渐递进的中间状态,使两两中间状态可兼容,整个变更过程转化为演化过程。五、OSC 流程图 第 1 步:将元数据由 Absent 状态演进到 DELETE_ONLY 状态,Version 加一,同时增加的 Mutation 只对 Delete 操作可见;第 2 步:通过 waitToUpdateLeases 函数期待集群的其余节点将元数据更新到  Version2,这期间 Version2 的元数据和 Version1 共存,此时在节点 2 插入数据,因为 DELETE_ONLY 状态下 Mutation 对 insert 操作不可见,所以不会减少索引数据;第 3 步:Mutation 将由 DELETE_ONLY 状态演进到 WRITE_ONLY 状态,同时 Version 加 1,此时 Mutation 对 Insert 和 Delete 操作可见;第 4 步:再次期待其余节点将表元数据更新到 Version3;第 5 步:只有须要做数据回填的 DDL 语句才会执行,比方减少索引、删除列、减少带默认值的列等;第 6 步:Mutation 将变成索引并增加到表元数据中,以后节点实现变更操作;第 7 步:再次期待其余节点获取到最新的表元数据,此次变更操作完结。 ...

June 13, 2023 · 1 min · jiezi

关于数据库:深入学习-Linux-操作系统的存储-IO-堆栈

一、Linux 存储堆栈图当应用 read() 和 write() 零碎调用向内核提交读写 I/O 申请操作时须要经验的步骤:1)首先,申请通过虚构文件系统,虚构文件系统提供了对立的文件和文件系统的相干接口,屏蔽了不同文件系统的差别和操作细节;2)其次,适配以后磁盘分区的文件系统,常见文件系统有 ext2/3/4、FATfs、sysfs、debugfs 等;3)再次,内核将 I/O 申请交给 I/O 调度层进行排序和合并解决。通过 I/O 调度层加工解决后,将 I/O 申请发送给块设施驱动进行最终的 I/O 操作;4)最初,通过总线协定对数据进行下盘或者读取操作。 二、零碎调用函数与存储介质替换SQL 查问执行过程:客户端发送一条查问给服务器服务器优先查看查问缓存,如果命中了缓存,则立即返回缓存中的后果,否则进入下一阶段服务器端进行 SQL 解析、预处理,再由优化器生成对应的执行打算依据优化器生成的执行打算,再调用存储引擎的 API 来执行查问最初将后果返回给客户端 三、操作系统对于优化存储堆栈的参数1) dirty_background_ratio:内存能够填充“脏数据”的百分比这些“脏数据”后续将写入磁盘,后盾过程会清理脏数据。比方现有 32G 内存,那么有 3.2G 的内存能够待着内存中,假如超过 3.2G 就会有起初过程来刷盘;2) dirty_ratio 是相对的脏数据限度,内存里的脏数据百分比不能超过这个值如果脏数据超过这个数量,新的 IO 申请将会被阻挡,直到脏数据被写进磁盘。这是造成 IO 卡顿的重要起因,但也是保障内存中不会存在适量脏数据的爱护机制;3) dirty_expire_centisecs 指定脏数据能存活的工夫默认数值是 30 秒。当后盾过程在刷盘时,它会查看是否有数据超时,如果超时就会触发刷盘操作,尽量躲避数据在内存中贮存过久后的失落危险。 四、IO 优化在 KaiwuDB 中的利用实际1) 通过观察 CPU 应用状况并借助火焰图,发现 KaiwuDB 内核程序过程内的性能瓶颈点,包含但不限于:a. 过程服务压力与后盾服务解决能力不匹配;b. 操作系统参数设置不匹配导致 CPU 占用低; 2) 通过 iostat 和 vmstat 察看磁盘性能工具,发现过程写入速度与后盾处理速度、磁盘处理速度不匹配,须要进行参数调优; 3) 借助 KaiwuDB 外部的日志及性能统计工具(Trace 功能模块和监控工具 KAP),发现某些利用及服务的性能瓶颈,调整优化过程程序逻辑。 ...

June 13, 2023 · 1 min · jiezi

关于数据库:2023-可信数据库发展大会近百位行业大咖将出席演讲

以后,寰球数字经济减速倒退,以信息技术和数据作为要害因素的数字经济成为寰球新一轮科技反动和产业改革的重要引擎,作为数字经济的数据底座和根底软件的重要一员,数据库产业正经验前所未有之大变局。随同政策布局无力领导、技术一直演变交融以及利用需要日益丰盛,数据库向着更高效、更稳固和更平安方向倒退。 近年来,寰球范畴内创新型数据库企业和产品不断涌现,市场格局悄悄产生改革;我国数据库产业和生态日益凋敝,人才供应一直晋升,数据库利用翻新工作热火朝天推动,曾经获得肯定踊跃成绩,我国数据库产业正在进入高质量发展期。 此外,在这个数据因素时代,数据安全和数据可信的重要性日益突出。以金融行业为例,金融机构在日常经营中会积攒大量的客户和财务数据,这些数据中可能蕴含大量敏感信息,如何爱护数据的平安和可靠性成为了金融机构亟待解决的问题。再如数据密集型的电信行业,波及海量用户数据,对数据的完整性和平安要求极高。总之,数据库可信生态的构建在各行各业都变得更加重要。 为进一步深刻贯彻党的二十大对于“实现高水平科技自立自强,进入创新型国家前列”总体部署,落实《国家标准化倒退大纲》《“十四五”数字经济倒退布局》《“十四五”国家信息化布局》《“十四五”软件和信息技术服务业倒退布局》《“十四五”大数据产业倒退布局》等政策要求。 由中国信息通信研究院、中国通信标准化协会领导,中国通信标准化协会大数据技术标准推动委员会(CCSA TC601)主办的“2023 可信数据库倒退大会”(下文称“大会”)将于 2023 年 7 月 4 日 -5 日在北京国际会议中心隆重召开,将有近百家企业参加本次大会,独特推动数据库产业高质量倒退。 本届大会以“自主 翻新 引领”为主题,共设置 9 个论坛,除7月4日主论坛外,7月5日分设金融行业、电信行业、互联网行业、汽车行业、云原生与开源数据库、搜寻与剖析型数据库、数据库运维及生态工具、时序时空及图数据库 8 个分论坛。 近百位行业协会领导、数据库学术大咖、产业链各环节数据库负责人、资深技术专家将齐聚本届大会,带来极为丰盛的主题演讲内容,独特论道我国数据库自立自强之路,摸索新形势下我国数据库产业可继续、高质量倒退办法,分享成功经验和案例,与将要到场的 1000+ 位开发者及关注数据库倒退的行业人员独特探讨可信数据库的将来。 本届大会曾经确定有以下 70+ 位大咖缺席并进行主题分享。KaiwuDB 将现身大会,为大家介绍“数据库的道与术”,敬请期待! 目前本届大会继续炽热报名中,参会席位无限。如果你想来到现场聆听“可信数据库规范及生态建设的重要力量”们的技术干货内容分享,想与业内专家深入探讨产业跃迁门路,请移步至“KaiwuDB”微信公众号。

June 13, 2023 · 1 min · jiezi

关于数据库:PostgreSQL-中的虚拟文件描述符

因为每个操作系统限度了一个过程能关上的文件数(例如:ubuntu 为1024),因而过程能取得的文件描述符是无限的。对于常常须要关上许多文件的数据库过程来说,很容易会超过操作系统对于文件描述符数量的限度。 为解决这个问题,PostgreSQL 中应用了虚构文件描述符 (VFD) 机制,通过 VFD 治理实在的文件描述符,帮忙过程解脱操作系统的限度。 typedef struct vfd{ int fd; unsigned short fdstate; ResourceOwner resowner; File nextFree; File lruMoreRecently; File lruLessRecently; off_t fileSize; char *fileName; int fileFlags; mode_t fileMode;} Vfd;VDF 中各字段含意:fd 记录该 VFD 所对应的实在文件描述符,如果以后 VFD 没有关上文件,则其值为 VFD_CLOSED (-1)。fdstate 标记位:如 FD_DELETE_AT_CLOSE,表明该文件在敞开时要被删除。nextFree:指向下一个闲暇的 VFD,其数据类型 File 示意其在 VFD 数组中的下标。lruMoreRecently:指向比该 VFD 最近更罕用的虚构文件描述符。lnuLessRecently:指向比该 VFD 最近更不罕用的虚构文件描述符。fileSize:以后文件大小。fleName:该 VFD 对应文件的文件名,如果是闲暇的 VFD 则 fileName 为空。fileFlags:该文件关上时的标记,包含只读、只写、读写等。fileMode:文件创建时所指定的模式。VFD 数组 VfdCache 作为 LRU 池管理文件描述符,并依据须要关上和敞开理论的 OS 文件描述符。LRU 池应用数组实现,数组元素是 VFD 构造体,数组大小会依据须要增长(最大1024)。 static Vfd *VfdCache;static Size SizeVfdCache = 0; ...

June 13, 2023 · 1 min · jiezi

关于数据库:助力长城汽车数据管道平台连接数据孤岛加强数据一元化Apache-DolphinScheduler-的角色定位

讲师简介长城汽车-IDC-数据中台部-刘永飞 高级工程师 我是长城汽车 IDC-数据中台部的刘永飞,给大家分享一下咱们自研的一个数据同步工具平台,以及在应用这个工具过程中遇到的问题。明天的分享次要有四个局部: 咱们自研的数据管道工具平台的定位和性能;DolphinScheduler 在这个数据管道平台中的利用;总结了咱们在应用 DolphinScheduler 时遇到的一些问题;对于数据管道平台的总结。数据管道本章节我将介绍一下咱们自研的数据管道平台,包含技术架构、反对多种数据源、反对多种管道、次要界面、引擎设置、数据类型映射、人工告警和推广几个方面。 平台简介数据管道是一个基于分布式技术构建的数据传输平台,反对多种数据源海量数据的实时、离线的形式传输。 数据管道可通过简略的页面配置即可实现数据传输,操作过程简略且高效,升高用户应用门槛;内设告警机制,传输工作出现异常可第一工夫通过钉钉将信息发送具体责任人。 咱们从立项之初,其实是为了解决长城汽车在数据方面的一些问题,次要指标就是连贯数据孤岛,减速数据的一元化。大家晓得但凡波及到数据,数据孤岛问题就是一个绕不开的问题,咱们就心愿可能通过数据管道连贯好各个业务线、各个领域、各个系统,真正的突破数据孤岛。另一个指标就是减速数据一元化了,数据一元化是长城汽车在数智化转型过程中一个要害指标,做数据一元化的第一步就是数据的疾速会集,咱们也可能承当好这个疾速会集数据的角色。 技术架构给大家介绍一下咱们的这个管道平台的技术架构。 整个架构中,最右边是一个数据源的源端,也就是整个数据的终点。最左边就是数据源的目标端,是数据的目的地。通过两头的这个数据管道,能够实现数据的传输,两头最下边就是数据管道资源池。 在数据管道中有一个资源池的概念,咱们把它分为公共资源和私有化资源。公共资源是咱们平台提供的,公共资源也做到了资源队列隔离,相互之间不会有影响。如果用户对于资源有特殊要求,咱们也反对用户提供机器,提供私有化的资源。 在资源之上就是管道引擎层,引擎层中是咱们自研的数据传输引擎,细节就不在这里体现了。最下面的 web 层,咱们提供了我的项目级隔离,工作治理、资源管理、日志查看、告警等能力,更加敌对的让用户应用咱们平台。 反对多种数据源截止到以后的V2.1.4版本,数据管道平台能够反对 23 种数据源,基本上涵盖了支流的关系型数据库常见的大数据组件。 反对多种管道在现有反对的 23 种数据源根底上,细分到离线工作、实时工作的全量同步、增量同步维度后,数据管道平台可反对将近 900 种管道。 以常见的关系型数据库 MySQL 做为数据源为例,一共能够反对 38 个管道。 操作简略、容易上手这是数据管道的 UI 界面,咱们自研的初衷就是要简略,通过简略的交互,用户录入源端数据源、目标端数据源,连通性测试通过后,就能够进行工作的创立了。通过简略的页面配置,用户很快就能够创立出一个可能反对大数据量同步的工作。 次要界面这是数据源的治理用户界面,你能够依据你想要的类型进行对应的数据源连贯参数创立,上面这张图以一个离线工作创立工作为例,来展现新建工作设置的界面。 引擎设置数据管道平台能够依据工作应用的计算引擎(Spark/Flink)来设置工作运行过程中所需的资源参数。 数据管道平台能够依据工作应用的计算引擎(Spark/Flink)来设置工作运行过程中所需的资源参数。 数据类型映射指标库设置时能够不便的进行源端字段和指标端字段的映射。咱们收集了Spark/Flink的数据类型映射字典,用于进行源端数据类型到指标数据类型的转换。 工作告警用户在创立工作的时候开启告警设置并抉择告诉用户后,如果工作执行失败,会在第一工夫将告警信息发给告诉用户的钉钉账户。 如果用户曾经在数据管道平台处于登录状态,则点击”查看谬误日志”能够间接跳转到工作实例的提交日志界面,查看日志详情。 不便、丰盛的日志查看在工作创立胜利,设置工作”上线”后,点击”手动运行”便能够运行工作了。数据管道平台提供了丰盛的日志治理性能,供用户查看工作执行信息。用户能够通过平台生成的日志链接很不便的查看工作向集群提交时的提交日志、工作在集群运行时的运行日志,如果是实时工作,还能够间接跳转到 Flink的web UI 进行工作信息的查看。 推广成绩目前该产品曾经在咱们外部的一些部门及子公司进行了应用,创立工作 300+ 个,每日近 2000 个工作实例运行 。 DolphinScheduler 在数据管道平台中的利用次要流程咱们的数据管道依赖了 DolphinScheduler(V3.0.0)的能力,用户在数据管道上创立工作、运行工作,会经海豚调度器进行调度,提交工作流后,最终工作将在集群中执行。对大家能够看到,最左侧就是数据管道平台创立数据源,创立工作,数据管道依据不同的数据源获取模板,更新模板,绑定配置文件,最终在数据管道上点执行工作,就会依赖 DolphinScheduler 的能力去执行工作流,提交工作,并在 Yarn 集群中执行。同时在这个过程中,DolphinScheduler 会收集到提交工作的日志,咱们利用这个能力,在咱们的平台上能够查看工作的实时日志。 数据管道应用了哪些DolphinScheduler的API服务数据管道前台应用了咱们自定义的 UI 界面,后盾的许多性能应用了DolphinScheduler 的 API 服务,包含我的项目相干的操作,工作状态相干、数据源相干等,具体如下图所示: 数据管道创立工作会生成工作流定义数据用户在数据管道上创立工作之后会生成一个 Resource Name,还有一些配置文件。配置文件会上传到资源核心,上传胜利之后会有一个Resource ID,之后咱们会组装数据格式,把它合成工作所须要的参数,而后再组装进去一个工作节点的定义,造成一个工作节点定义列表。工作节点关系就造成工作节点关系列表,工作节点地位就造成工作节点地位列表。工作的执行类型、全局参数等数据组装起来之后,到 DolphinScheduler 创立性能的定义接口,这样创立工作流的流程就做完了。 ...

June 13, 2023 · 1 min · jiezi

关于数据库:如何安全地变更数据库-Schema

最近 Reddit 的 r/golang 下有人问了一个如何做数据库 schema 变更的问题,不到一天,就有了超过 40 条回复。 数据库 schema 变更始终是让程序员头疼的问题,但又不得不面对,毕竟业务要倒退,产品要迭代,增加新的性能往往须要去批改数据库的构造,比方增加一个新的字段来保留新的信息,那么这就波及到数据库 schema 的变更。 先看提问者的 2 个问题: 问题 1 - 短少变更的可见度 因为可能就开发者或者 DBA 间接连到数据库,就执行了变更语句,具体执行了什么语句,什么时候执行的这些只有当事人本人晓得(或者说当事人回过头来也可能遗记了)。 问题 2 - 保障变更的唯一性和排他性 一个利用通常代码会部署多个正本,但都连着同一个数据库。从提问者的形容看,他们以后是在新的代码版本启动时,去尝试变更数据库的。那么问题来了,当多个新代码版本的正本同时启动时,到底如何保障只有其中一个正本能够对数据库进行变更,而其余正本先期待着呢。 提问者最初也在问有没有举荐的变更最佳实际和工具,能够用于生产环境。从最佳实际角度,次要就 2 点: 像看待代码变更一样看待数据库变更把代码变更和数据库变更拆散而 Bytebase 就是联合这套最佳实际的数据库变更工具。 像看待代码变更一样看待数据库变更咱们先来看一下典型的代码变更流程: 在 GitLab / GitHub 这样的代码平台提交变更申请,GitLab 里叫 MR (Merge Request),GitHub 上叫 PR (Pull Request)。如果有配的话,MR / PR 会先通过一系列的主动检察,比方最简略的比方代码是否能够编译,是否合乎编码标准,以及一系列的自动化测试。会有一个或多个评审人对代码进行审核 (Code Review)。审核通过后,代码就提交到仓库了,提交历史也被记录了一下。通过手动或者主动的流程,代码会被打包成一个新版本,业余的术语叫做制品(Artifact)。代码部署零碎会把新版本依照事后配置的流程,逐步部署进来。通常先部署到测试环境,在测试环境里,会运行一些集成测试,也可能会有 QA 团队进行手工测试。在测试环境通过后,就会部署到预发环境,在预发环境验证后,最终会部署到生产环境,当然在生产环境,往往也会一点点的逐渐更新,也就是所谓的灰度公布。后面介绍的也就是大家当初所熟知的利用 CI/CD 流程,演绎进去不长,但其实也是花了业界 20 多年才摸索出了这套现在约定俗成的计划,解决了代码变更和公布里的协同,可见度,可靠性,效率等一系列问题。 而数据库的变更因为波及到数据也就是状态(state)的变更,尽管流程上能够借鉴代码变更的思路,但还是更加简单的。Bytebase 就是这样一套把代码变更的流程引入到数据库变更的工具。 可视化的变更审核界面 Bytebase 提供了可视化的变更审核界面,开发者和 DBA 能够在同一个界面上对于数据库变更进行合作。 主动 SQL 审核规定 ...

June 13, 2023 · 1 min · jiezi

关于数据库:超高效液相色谱仪Nexera-UHPLC-LC30A的应用分享

超高效液相色谱仪Nexera UHPLC LC-30A,高效液相色谱是目前利用zui多的色谱分析办法,因为其高拆散度、高灵敏度、速度快、色谱柱可重复利用、流出组分易收集等长处,被广泛应用到生物化学、食品剖析、医药钻研、环境剖析、有机剖析等各种畛域。 超高效液相色谱仪Nexera UHPLC LC-30A简介:Nexera与惯例LC兼容,并实现了杰出的扩展性、超疾速、高拆散,是面向未来的UHPLC。全面提高所有根本性能,不仅实现了惯例•疾速—超疾速•高拆散剖析,还为绿色LC、自动化零碎等不断扩大的利用提供超群绝伦的性能。 Nexera在宽流量范畴内实现超高压剖析,是前所未有的真正全能LC。超高效液相色谱仪Nexera UHPLC LC-30A 技术参数:最高压力 130MPa(19,000psi) 最高通量 2300个样品/日 高扩展性岛津超高效液相色谱仪Nexera UHPLC LC-30A次要特点:在所有区域展示杰出的保留工夫重现性实现高拆散极低的穿插净化Nexera作为MS前端安装的LC零碎施展出卓越性能通量max化: 1、超高速/超高拆散度剖析,接受max压力高达130MPa。 2、超疾速进样,通过重叠进行,使进样工夫最短,每次进样仅需10秒。 3、样品容量最大化,Nexera换架器,可解决多达4600种样品;多路零碎(MPX) 性能优化: 1、微量分析时,穿插净化zui小化:以最小的接触面积通过进样针;能够应用多种溶剂(最多4种)彻底荡涤样品流路和进样针外表。 2、以zui小的体积,准确并精确地进样:应用高分辨率计量泵间接进样;计量泵独立于流路之外。 3、在超疾速条件下,保障良好的梯度重现性:高分辨率梯度管制;MiRC混合器的无效混合机制。 4、实用于UHPLC的平衡色谱柱加热:IHB管制的柱间温度散布最小化;通过微体积预热器,无效预热。 扩展性最大化: 1、可降级的UHPLC组件设计:通过组合罕用的HPLC组件,能够自在地配置零碎。 2、应用自动进样器,对样品进行主动前解决:能够进行柱前衍生、内标物增加以及样品浓缩。 3、低温剖析:柱温高达150℃;低温促使新技术的利用,比方绿色色谱法(Green LC)。 4、高速LCMS剖析:与超疾速LCMS、LCMS-2020相结合。  

June 13, 2023 · 1 min · jiezi

关于数据库:深度解读-KaiwuDB-的排序操作

一、单节点执行在单节点环境执行一条简略的 SQL 语句 SELECT * FROM NATION ORDER BY N_NAME。NATION 是一张小表,只有 25 条记录;对第 2 列 N_NAME 进行升序排列。 1. 形象语法树上述示例中的 SQL 语句通过分析器解析后失去 AST,如下图所示: 2. 逻辑打算将 AST 转换成一个树状构造的 Plan,称之为逻辑查问打算。形象语法树中的每一个语法元素都被转换成一个查问逻辑单元,例如 scanNode, sortNode, joinNode 等。 逻辑打算能够通过一系列规定进行优化,称之为 RBO(Rule Base Optimization)。 举一个简略的例子,SQL 语句 SELECT FROM t WHERE a + 1 > 4 通过规定改写能够转换为 SELECT FROM t WHERE a > 3 。从数据库的打算角度,两者有很大差异。 前者只能扫描全表,每次读取一条记录并计算表达式判断是否合乎过滤条件;后者能够利用 a 列索引信息缩小扫描范畴,即便没有索引也不须要每次进行表达式计算。 例子中的逻辑打算很简略,就是扫描节点 Scan 和排序节点 Sort。命令 Explain SELECT * FROM NATION ORDER BY N_NAME 显示如下: ...

June 13, 2023 · 4 min · jiezi

关于数据库:TiDB-x-Catalyst丨秒级洞悉数据价值TiDB-帮助客户成功-SaaS-厂商提升用户体验

导读Catalyst 是一家总部位于纽约的 SaaS 守业公司,它提供了一个直观且灵便的客户胜利平台(Custom Success Platform),可帮忙客户胜利团队汇聚客户数据,洞悉客户健康状况,推动客户留存和业务增长。目前 Catalyst 已实现了 B 轮融资。 本文为“寰球极限场景与翻新场景应用 TiDB 的最佳实际”专题第三篇,分享 TiDB 如何为 Catalyst 升高了保护老本并提供更好的客户体验。 业务特点Catalyst 整合了来自包含 Salesforce、Mixpanel、 PostgreSQL 等不同起源的海量数据,并将其纳入 Catalyst 生态系统中进行解决、剖析并生成可参考执行的数据洞察。 Catalyst 次要解决三种类型的数据:事务型数据、只读数据和时序数据。 事务型数据次要包含外部创立的笔记和工作,以及从 Salesforce、Zendesk 和其余平台收集的内部数据。只读型数据次要是指从 Jira 和 Zendesk 等平台收集的工单数据。时序型数据是 Catalyst 最重要和最辣手的数据类型之一。能解决这一类型的数据,也是 Catalyst 团队数据库选型的重要需要之一。以前的数据架构及其瓶颈Catalyst 最后应用 PostgreSQL 来解决从内部收集的所有数据。然而,随着其业务的增长和数据源的迅速扩充,PostgreSQL 无奈跟上其需要。Catalyst 最后试图通过将数据存储为 JSON 文档来补救这一缺点,但查问性能受到了重大影响。 随后,该团队转向了 pre-caching 计划。他们采纳 Elasticsearch 来存储后果,以便更快地响应客户的查问。然而,因为 Elasticsearch 不反对 SQL 格调的 JOIN, Catalyst 必须在将所有内容存储在 Elasticsearch 之前进行预计算。随着存储数据量减少,老本也急剧回升。 为了解决这些问题并拓展业务增长,Catalyst 团队决定从新设计整个数据处理和存储系统。他们也是这个时候发现了新一代分布式关系型数据库 TiDB。 数据层重构Catalyst 的新架构分为五个数据层:数据摄取层、数据湖层、Spark 层、数据服务层和 Web 应用层。原始数据通过摄取层进入,并持续进入数据湖层。Spark 层组合数据对象,执行预计算,确保数据有意义。数据服务层存储所有预处理过数据以供客户查问。因为间接影响用户体验,数据服务层对 Catalyst 来是最重要的,也成为 Catalyst 对新数据栈迫切需要的中央。数据服务层以下的各层不须要是实时的。然而,在数据服务层,Catalyst 须要亚秒级的提早,以便客户可能迅速取得后果。 ...

June 13, 2023 · 2 min · jiezi

关于数据库:libpq-SDK-发送-SQL-和解析结果

本次技术贴将具体解说:当用户建设连贯后,如何发送 SQL 语句、获取后果对象、查看错误信息等。 一、PGconn 对象当用户通过 PQconnectdb, PQconnectdbParams, PQsetdbLogin 尝试与 PostgreSQL 服务器建设连贯后,无论胜利与否,libpq 会返回一个 PGconn 对象给用户,该对象封装了连贯的信息,比方: dbName — 数据库名称pguser — 用户名status — 连贯状态errorMessage — 错误信息用户能够通过 PQstatus (<PGconn对象>) 获取到连贯状态,如果状态为 CONNECTION_OK ,即阐明曾经胜利连贯数据库,并且状态衰弱;若连贯失败,能够通过 PQerrorMessage (<PGconn对象>) 获取到谬误的具体信息。 在之后发送 SQL Command 等操作中,都须要将 PGconn 对象作为入参才能够进行。 二、命令执行函数在胜利连贯数据库并且获取到 PGconn 对象后,用户即可应用 PQexec 上传命令并且期待后果: PGresult PQexec(PGconn conn, const char *command) 通过 PQexec 返回来的 PGresult 对象和 PGconn 是相似的逻辑:PGresult 外面封装了单个 SQL 命令的查问后果,比方: Tuples — 元组resultStatus — 后果状态errMsg — 错误信息用户能够通过 PQresultStatus (<PGresult 对象>) 获取到后果状态,如果状态为 PGRES_COMMAND_OK,阐明曾经胜利执行了命令,然而没有返回任何的值;如果状态为 PGRES_TUPLES_OK,阐明胜利执行命令,并且返回值曾经存在了 tuples 中。 ...

June 13, 2023 · 2 min · jiezi

关于数据库:KW-喜报-KaiwuDB-斩获-2023-数博会优秀科技成果奖

5月26日,大数据畛域的国家级盛会——2023 中国国内大数据产业博览会(以下简称“2023 数博会”)在贵阳隆重揭幕。作为大会最重磅的环节之一,“2023 当先科技成果发布会”于数博公布核心场地举办,向全行业公布 70 余项兼具科学性、创新性、前瞻性、引导性的优良产业科技翻新成绩。 KaiwuDB“离散制造业 IIoT 标杆解决方案”从寰球多个国家和地区的 350 余项科技成果中怀才不遇,获颁 2023 数博会“优良科技成果”奖。 KaiwuDB“优良科技成果”奖牌 数博会当先科技成果奖已正式取得国家科学技术处分工作办公室批准,胜利列入国家级社会化迷信处分目录,是目前国内惟一的大数据畛域社会科技处分,其专业性、权威性、引领性获业界统一认可,是大数据产业倒退的重要风向标。 KaiwuDB“离散制造业 IIoT 标杆解决方案”以 KaiwuDB 就地计算专利技术为底座,搭建了“多快优智”的“1+3+N”计划体系,旨在为宽广离散制造业企业建设性能优越、稳固牢靠的数据基础设施,以数据驱动生产经营治理智能化与优化。目前该计划已率先在山东某重工厂区建设示范利用,帮忙该业务零碎实现海量数据实时剖析,建设价值包含设施故障率升高 65%、利用率晋升 20%,加工效率晋升 20%,设施投入老本缩小 10% 等;同时,建设起工厂级数据共享机制,实现底层数据与下层经营治理数据互联互通,通过数据驱动经营管理效率的进步,实现降本增效。 离散制造业 IIoT 标杆解决方案 将来,KaiwuDB 将持续砥砺前行,让当先的数据库技术落地更多理论利用,进一步助力市场推动数据因素价值化,助推数字经济场景多元连贯,推动数字经济倒退。

June 12, 2023 · 1 min · jiezi

关于数据库:KW-新闻-KaiwuDB-发布智慧矿山解决方案

5月21日,天津第七届世界智能大会(WIC)圆满闭幕。作为智能畛域的国家级盛会,WIC 汇聚了寰球出名院士、顶级学者、产业首领分享先进技术和实践经验,推动智能技术创新单干。KaiwuDB 受邀缺席大会并正式公布智慧矿山解决方案。 图1 浪潮 KaiwuDB 公布智慧矿山解决方案 划重点01 一般矿山如何真正走向“智能矿山”?近几年,政策端继续提出建设自动化、信息化、智能化的矿山,促成矿山产业向“平安、绿色、高效”转型降级的整体指标。 KaiwuDB 在矿山智能化实地调研中发现:配备智能化革新、智能零碎基站建设等硬件设施已根本实现落地;而信息交互零碎、数据管理系统等软件平台建设仍是矿山企业信息化能力的薄弱环节。 以后,矿山生产零碎中各业务环节独立进行信息化实际,以致于不足对立的数据管理系统,数据孤岛重大;硬件设施及各业务零碎产生的海量数据无奈失去深层次的利用,管理者决策不足数据根据,未能参考矿山各类业务指标、工况数据等实现对运行态势、隐患危险的实时掌控及经营治理。 因而,煤矿企业急需建设一套基于生产数据资源化、性能模块化、利用微服化、运维智能化的对立软件平台,实现数据交融互通,分类建设、分级管控,实现自动化与信息化的深度交融。 02 KaiwuDB 智慧矿山解决方案,旨在从生产经营、老本管控、危险预警等多维度为矿企决策层提供精准、实时的数据撑持。KaiwuDB 打造的矿企智能综合管控平台,依靠多模数据库架构及就地计算专利技术,实现海量监测数据的高性能读写和多源异构数据的汇聚整合,买通矿企采、选、冶、产、供、销全流程数据汇聚治理。 联合 KDP(数据服务平台)云边端一体化的服务能力及 AI 赋能的数据库自治技术,实时剖析开掘数据价值,根据原煤产量打算及盈亏临界点剖析达成生产精益经营治理,根据气体检测预警剖析及平安生产动静诊断提供安全隐患预测。 预期建设价值包含危险区域作业人员简直清零,保障作业安全性;节俭能耗、升高 IT 收入、晋升整体效率近 30%,实现降本增效的总体目标。 图 2 KaiwuDB 矿企智能综合管控平台 03 矿山智能化建设是推动能源反动综合改革的重要抓手,也是传统矿企行业实现高质量倒退的必然选择。KaiwuDB 智慧矿山解决方案充沛整合矿山企业各零碎全生命周期数据,疾速开掘数据背地的价值,落地丰盛的数据利用场景;辅助矿企领导策略管控与决策,包含全面灵便的经营剖析、监管防备化解重大危险、业务优化与翻新等场景撑持;造成数据驱动的闭环迭代生态,让矿山经营通明可视、资源调度疾速有序、生产平安高效协同,晋升矿山运作效率和整体产能。 将来,KaiwuDB 将深刻推动更多智慧矿山建设项目的落地实际;利用前沿数据库技术实现人、机、环等全生产因素的精准定位和全面感知,保障平安生产,实现业务零碎数据交融贯通,建成实质平安、资源粗放、绿色高效的智慧新矿山,助力国家煤矿产业数字化倒退,让更多矿山人享受数字化智慧成绩。

June 12, 2023 · 1 min · jiezi

关于数据库:OceanBase-安全审计之身份鉴别

本文次要以 MySQL 和 OceanBase 比照的形式,来介绍 OceanBase(MySQL 模式)平安体系中对于身份甄别的相干内容,包含身份甄别机制、用户名组成、明码复杂度、明码过期策略等。 作者:金长龙 爱可生测试工程师,负责 DMP 产品的测试工作。 用户鉴权OceanBase下的身份甄别机制OceanBase 数据库目前只反对明码验证形式,应用的是 MySQL Authentication Protocol(MAPI) 协定进行用户鉴权。该协定基于客户端机器上的 MySQL 客户端帐户实现身份验证,要求客户端具备正确的用户名和明码能力连贯到 OceanBase 服务器。上面是身份鉴权的具体过程: 客户端发动连贯申请到 OceanBase 服务器OceanBase 服务器发送随机字符串 (Nonce) 给客户端客户端应用发送来的随机字符串以及正确的用户名和明码,进行哈希加密计算客户端将加密后的 Token 发送回 OceanBase 服务器OceanBase 服务器验证客户端发送的解码后果是否正确如果解码后果正确,OceanBase 服务器容许客户端连贯服务器;否则回绝连贯申请留神:OceanBase 数据库以后反对的 MySQL 客户端版本为 5.5、5.6 和 5.7。当应用 MySQL 8.0 客户端连贯 OceanBase 时,须要在连贯命令上加 –default_auth=mysql_native_pasowrd。起因是 MySQL 5.6、MySQL 5.7 的默认加密算法是 mysql_native_password,而 MySQL 8.0 的默认加密算法是 caching_sha2_password。用户命名用户命名规定一个 user 由 user_name 和 host 独特组成,这点 MySQL 和 OceanBase 是统一的;MySQL 用户名不能超过 32 个字符,OceanBase 用户名不能超过 64 个字符。上面咱们看两个命名规定的例子。 ...

June 12, 2023 · 2 min · jiezi

关于数据库:KW-新闻-KaiwuDB-受邀亮相-IOTE-2023-第十九届国际物联网展

5月17日,IOTE 2023 第十九届国内物联网展在上海拉开序幕,寰球超过 350 家参展企业到场展现先进的物联网技术和产品,行业专家、领军企业代表等人物齐聚一堂,共话 IoT 将来趋势。KaiwuDB 受邀亮相参展并就《工业物联网产业数字化转型的摸索实际》这一主题发表演讲。 分享工业物联网场景实际 划重点01 在工业 4.0 时代,如何让“哑巴”设施数据会谈话成为攻坚难题作为工业 4.0 的外围驱动力,工业物联网是物联网的拓展,其背地的理念是从新定义如何连贯、监控、剖析工业设施中“哑巴”设施多年来产生的数据并对其采取行动,以期更快、更精确地做出业务决策。 然而,企业施行工业物联网我的项目之时仍存在诸多顾虑与困扰:数据品质与管理水平不高,零碎林立导致数据孤岛重大,资金投入难以负荷海量数据长期存储,数据分析流于外表且后果无奈整合出现。降本增效的愿景美妙,但想要从无穷尽的物联网数据中无效开掘价值并非易事。 工业物联网场景下的数据库,须要在收集、解决宏大简单数据量的同时满足计算端的性能需求,实现毫秒级的实时数据分析,多维度、深层次开掘数据论断,从而领导生产管理决策。 02 KaiwuDB 聚焦 AIoT 多模数据库的初衷—心愿帮忙用户“存好数据,用好数据”KaiwuDB 面向工业物联网场景需要,提供以时序解决能力为一大外围,联合剖析、AI 和云边端协同能力的数据库产品和服务,旨在用数据帮忙企业判断趋势,辅助决策甚至实现主动疾速响应。 KaiwuDB 作为一款分布式、多模、反对云边端协同的 AIoT 数据库产品,领有就地计算专利技术,具备每秒百万级写入、毫秒级数据读取能力,满足海量、高并发的时序数据写入及疾速查问和简单查问的需要;同时具备集群部署、高可用、低成本、易运维等个性,全面满足工业物联网场景的数据需要。 03 保持行业摸索,KaiwuDB 让“哑巴”设施闭口谈话。将来,任重而道远通过对工业物联网垂直场景需要的深刻摸索,KaiwuDB 推出了离散制造业解决方案、数字能源解决方案,并别离在山东省某重工厂区、青岛某汽车产业园内重点零碎落地部署,大幅晋升厂区零碎数据入库性能,多场景、多源异构数据查问剖析性能,无效节约存储及人力老本、晋升工厂设施应用效率,让“哑巴”设施闭口谈话,助力企业打造当先的数智化工厂。 同时,KaiwuDB 工业物联网场景解决方案也已助力工业互联网大数据中心胜利实现落地实际,无效晋升工业互联网大数据资源的治理、服务和平安程度,施展数据对工业经济的翻新引擎作用;对于促成工业互联网翻新倒退,晋升数据驱动的政府治理能力也具备重要意义。 有品质的翻新并非只有技术的更新,同样来自对场景需要的深刻开掘。将来,KaiwuDB 将继续开掘物联网衍生的场景需要,并紧跟数据库新热点、新场景、新平安要求,一直强化产品服务性能,欠缺生态协同,保障疾速部署与极致交付,充沛助力企业实现治理精细化、决策科学化和服务高效化。

June 12, 2023 · 1 min · jiezi

关于数据库:执行器Query-执行详解

一、次要流程本期次要为大家分享,在通过语法、词法剖析并生成 AST 语法树后的执行流程,下图是残缺流程展现: 图 1 整体流程图 一个 Query 语句执行,从 connExecutor 接管,再到解析实现的 AST 语法树,最初执行胜利返回后果,预计共要通过优化、生成逻辑打算、生成物理打算、分布式执行打算、收集后果返回 5 个步骤。 通过形象的例子来形容这项流程:“往年过节回家,回家的行程未确定”,“应该乘坐什么交通工具回到”等,这些便是咱们须要执行的语句。 语句解析后,由 connExecutor 接管语句,会生成一个初步打算,比方先坐火车,再转乘飞机,下飞机之后再坐客车回到家,这个初步打算可了解为逻辑打算。 确定初步打算,还须要确定具体打算,比方须要坐 xxx 次高铁到 xxx 地,转 xxx 班次 xxx 航班的飞机到 xxx 地,坐 xxx 号客车回家,这项具体打算可相当于物理打算。前面咱们依照具体打算执行,就相当于引擎执行物理打算,最初返回后果。 此篇文章次要介绍外围组件 connExecutor、逻辑打算和物理打算,为了不便大家了解,本文将通过围绕一条具体的 SQL 语句进行论述。 图 2 SQL 例句 二、外围组件connExecutor 是执行器的外围数据结构,在后期通过音讯辨认和散发来解决来自客户的不同类型 SQL 语句,下图是例句的 stmt 对象:图 3 例句 stmt 对象 connExecutor 负责查询处理来自于所给客户端的连贯申请,它应用了一个基于 PGsession 级语义的状态机,这个状态机用于对客户端的申请进行异步写操作,它从 stmtBuff 中承受输出的 statement,并通过 clientComm 接口进行后果的解决。 connExecutor 保护 stmtBuff 的游标,从而在同一时刻进行指令的执行和后果解决。这个游标总是指向正在解决的 statement。 而在游标生成前,相应 statement 的后果曾经产生,游标之后的 statement 就会被放在执行队列之中筹备被执行,connExecutor 还负责删除不再须要被执行的 statements。 ...

June 12, 2023 · 1 min · jiezi

关于数据库:一文走进-SQL-编译语义解析

一、概述SQL引擎次要由三大部分形成:解析器、优化器和执行器。解析器的次要作用是将客户端传来的命令解析编译成数据库能辨认运行的命令,其次要由词法解析、语法解析和语义解析三局部形成,如下图所示。 本文将重点介绍 KaiwuDB 语义解析局部,其输出为 AST 语法树,输入为可供优化器应用的 Expr 表达式。KaiwuDB 中的语义解析次要包含: 查看数据库或表是否存在查看语句所需的特定权限对语句中的表达式进行语义解析查看 DDL 语句所申请的 schema change 的有效性二、语义解析 KaiwuDB 中的语义解析次要包含以下流程: 查看查问是否为 SQL 语言中的无效语句解析名称,例如表名或变量名的值打消不必要的两头计算,例如用 1.0 替换 0.6 + 0.4,这也被称为常数折叠确定用于两头后果的数据类型其代码流程介于 parser 和 memo 构建之间,将 parser 输入的 AST 中的对象进行语义解析,语义解析的输入作为 memo 构建的输出。 接下来,将重点介绍查问语句的语义解析流程: Source and target analysis (指标解析)Permission check (权限校验)Semantic decomposition & validation (表达式拆分及其语义解析) 指标解析及权限校验1)接口门路:buildStmt() -> buildSelectStmtWithoutParent() ->  buildSelectClause() -> builtFrom() -> buildDataSource()2)外围接口为:ResolveDataSource 通过 object name 解析出对象描述符(元数据),Privilege check 应用 current username 来校验以后用户对该对象是否有相应权限。在实现指标解析和权限校验后,会为 select stmt 中的 from clause 构建 memo 表达式。这个行为看似不是语义解析应该做的,呈现在这里的起因是 KaiwuDB 的语义解析和局部逻辑打算优化是互相交融的。表达式拆分及其语义解析1)接口门路:buildStmt() -> buildSelectStmtWithoutParent() -> buildSelectClause()KaiwuDB 将 select stmt 中的各个局部拆分为表达式,并对其进行标量表达式的语义解析,从而实现 scalarExpr 的构建。例如: ...

June 12, 2023 · 1 min · jiezi

关于数据库:KW-新闻-KaiwuDB-亮相数字中国并发布离散制造场景解决方案

4月26-30日,以“放慢数字中国建设,推动中国式现代化”为主题的第六届数字中国建设峰会在福州市圆满召开。KaiwuDB 受邀亮相大会参展并公布“离散制作场景解决方案”,旨在以数字化计划驱动生产方式、治理形式改革,推动离散制造业物联网利用数字化转型,助力数字中国建设。 KaiwuDB 公布 “离散制造业解决方案” 2022年,我国要害畛域数字技术创新能力继续晋升,其中,作为数字经济“底层”技术的数据库技术及产品服务能力均获得重要停顿。作为数据库的新生力量,KaiwuDB 将 AIoT 作为策略外围,聚焦 AIoT 产业激发进去的新场景、新需要,深刻摸索前沿的数据库技术,搭建扎实的数字底座。 KaiwuDB 离散制造业解决方案,是 KaiwuDB 围绕配备制作企业理论生产业务流程,针对离散制造业面临的挑战及业务需要,以“多快优智”为特色打造的数据及数据服务一体化计划,旨在帮忙企业搭建性能优越、稳固牢靠的数据基础设施,以数据驱动生产经营治理优化,降本增效,打赢数字化转型之仗。“多”,即整体计划具备多模架构,反对多设施、多协定、多类型数据采集与存储;“快”,指数据入库、查问速度快,海量数据实时剖析快;“优”,指以“教训+数据”优化工艺流程,实现减员增效;“智”,指基于历史数据建设知识库及预测模型实现智能预测性保护,全方位解决离散制作场景下的数据难题。 KaiwuDB“离散制造业解决方案” 重工团体作为我国离散制造业的龙头企业,同时也是 KaiwuDB 工业物联网场景重要合作伙伴,已率先在厂区内多个重点零碎落地部署针对工业物联网场景的 KaiwuDB 离散制造业解决方案。 该计划帮忙重工团体实现了厂区设施故障率升高 65%、利用率晋升 20%,加工效率晋升 20%,设施投入老本缩小 10%,整体效益晋升近 40%;同时实现了工厂级数据共享,让离散制作简单场景的全面业务监控和风险管理成为可能。 将来,KaiwuDB 将继续打磨工业数字化模型,优化产品性能及服务能力;同时携手更多有数字化转型愿景的搭档企业构建转型新范式、新标杆,为更多的生态搭档赋能,通过开释数据价值,推动企业数字化转型和业务的高质量倒退。

June 12, 2023 · 1 min · jiezi

关于数据库:TCMalloc-技术细节详解

TCMalloc 是 Google 开发的 gperftools 中的一款内存调配工具,在 Golang 等诸多出名我的项目中均有应用。明天咱们一起走近技术细节,解密它的高效内核。 一、总体架构TCMalloc 依照内存大小区间划分为小/中/大三类,由不同的数据结构进行治理。 通过 SizeMap,还能够对小内存持续细分。SizeMap 将用户申请的不超过 256K 的内存大小映射到 85 种对齐的大小类型(size class),最小 8 字节,最大 256K,并记录了大小类型到 num_objects_to_move、class_to_pages 的映射关系。(这两个整型数值的意义详见后文)大块间断的内存依照 Page (8K) 为最小单位进行追踪,一个或多个间断的 Page 形成一个 Span。Page ID 与 Span 的映射关系由 Page Map(通过 radix-tree 实现,如下图)进行保护。 一个 Span 可能作为一块间断的中/大内存间接调配给用户应用,也可能决裂成小内存块(object)放到 Central Cache 或者 Thread Cache 中,再调配给用户。Span 构造体记录一个 Span 的详细信息,它包含: start 和 length:记录 Span 蕴含的 Page 范畴prev 和 next :Span 类型的指针,用于将 Span 连接成 Spanlistobjects :记录 Span 决裂成的小内存块的链表span_iter_space:记录 Span 在 SpanSet(Page Heap中的Span汇合)中的迭代器,不便 Span 从 SpanSet 中移除sizeclass 示意 Span 决裂成的小内存块的大小类型(0 示意没有决裂成小内存)refcount 示意 Span 决裂成的小内存块的援用计数,即调配给 Thread Cache 应用的 object 数量location 枚举变量记录 Span 所在的地位(pageID 相邻且 location 雷同的闲暇 Span 能够合并成更大的 Span)TCMalloc的总体架构以及申请开释内存的流程如下图所示,其中 System Allocator 应用的是 mmap 和 sbrk: ...

June 12, 2023 · 3 min · jiezi

关于数据库:MySQL-8029-instant-DDL-数据腐化问题分析

前言Instant add or drop column的主线逻辑表定义的列程序与row 存储列程序论述引入row版本的必要性数据腐化问题起因剖析Bug重现与解析MySQL8.0.30修复计划前言DDL 绝对于数据库的 DML 之类的其余操作,相对来说是比拟耗时、绝对重型的操作; 因而对业务的影比较严重。MySQL 从5.6版本开始始终在继续改良其DDL性能:引入了 online DDL,inplace DDL,instant DDL 等实用性极强的性能, DDL 目前对业务的影响继续升高。 MySQL 8.0.29 引入了 instant add/drop column 性能,反对在任意地位增加 column, drop column 也不须要表数据的任何模式的挪动, 只须要批改表的元数据就能够实现 add/drop column,所以 instant add/drop column 的操作是轻型操作,速度快,资源需求量少。 ALTER table drop column a, ALGORITHM=INSTANT; 8.0.29 引入了新的alter 算法 INSTANT。 然而这个新性能目前很不稳固,导致的问题比拟多; 而且通常都比较严重: 数据损坏,或者数据库无奈启动等。 本文是剖析其中的一个问题: 对表进行 instant drop 后,进行 update ,之后数据库停机,而后数据库无奈启动。 为剖析这个问题, 咱们会从 instant add/drop column 在 Innodb 的实现原理与细节方面来论述这个数据腐化bug的具体起因。 Instant add or drop column的主线逻辑因为这个性能的WorkLog无奈从官网获取,所以无奈失去精确的设计出发点,通过浏览相干代码,得出要实现这个性能,必须要解决以下关键点: ...

June 12, 2023 · 3 min · jiezi

关于数据库:赋能矿山-KaiwuDB-智慧矿山解决方案

行业背景随着勘探和矿产开发技术的进步以及能源需求量的大幅减少,矿山开发速度继续放慢。随之而来的诸多弊病,如矿山资源综合利用率低、治理形式粗放、平安和环境污染等问题日益突出,使得矿业智能化建设火烧眉毛。 近年来,政府机构十分重视采矿行业数字化建设,明确提出放慢建设自动化、信息化、智能化的矿山,促成矿山产业向“平安、绿色、高效”转型降级。 智慧矿山建设可助力企业实现生产管制少人化无人化、生产治理智能化、平安治理实质化,这也是全面晋升企业综合竞争力和可继续倒退能力的要害门路之一。 痛点与挑战1、生产平安面临严峻形势 因为矿山的生产环境特点,潜在隐患危险不易觉察。同时,相较于发达国家,我国在生产自动化与智能化程度上仍存在较大差距 矿山生产波及设施采集点位多、作业人员多,急需通过数字化建设晋升平安能力,保障资源开采和生产管理工作顺利开展,升高灾祸和事变频率 2、系统对数据处理性能要求高 矿产开采需对设施和人员进行实时监控与治理。在设施监控、设施告警、生产预警剖析、人员实时状态、应急处理等多种利用场景下,数据处理的实时性势必要争取大幅晋升用以满足理论需要 3、数据价值难以无效开掘 传统矿山信息化零碎采纳烟囱式部署,零碎融合度较差,数据无奈对立汇聚,更无奈进行深层次数据价值开掘 4、数据的高可用及可靠性受到挑战 受矿山地理位置及环境影响,数据采集与汇聚容易受网络不稳固因素影响,产生数据失落、数据乱序等状况,重大影响人、设施、资源三方面的平安监测、经营治理和开采作业 解决方案 1、一库多用,反对多模异构数据存储 KaiwuDB 反对关系型数据、时序数据、地理位置数据等多种数据类型存储,以一套数据库买通在采、选、冶、产、供、销全流程下多个业务系统对数据的计算与剖析能力。 2、提供高性能数据处理能力 利用 KaiwuDB 的就地计算、智能预计算等核心技术,可实现批量、高速、简单查问的疾速响应,千万级数据查问响应可达毫秒级,实现对采集数据进行精准疾速响应,保障平安生产与经营 3、多样化数据查问能力加持 KaiwuDB 反对流式计算、数据订阅公布、多种聚合查问、最新值查问等性能,可实现数据荡涤、加工及实时性展现,为矿山数字化零碎人员实时状态、设施运行状态、生产经营等业务场景提供撑持 4、反对数据深层次剖析开掘 KaiwuDB 和 KDP 提供数据实时处理、剖析、报表展示、定制数据服务、AI 及预测分析模型能力,助力设施预测性保护、气体预测性剖析、治理经营数据预测性剖析等场景需要,晋升矿山生产平安程度,保障人员生产平安 5、多样伎俩升高零碎复杂度,节约老本 交融 KaiwuDB 和 KDP 能力可实现数据多样化展现与治理,充分发挥数据实效性,升高安全隐患,并一步升高数字化零碎复杂度,节约建设和人员运维老本 6、反对数据压缩和残缺生命周期治理 反对数据降采样存储,反对时序数据 10 倍以上的压缩,大幅升高数据存储老本;数据生命周期治理性能的数据分级治理,可实现对数据的治理归档,无效节俭数据存储空间 计划价值1、深层次开掘数据价值 基于就地计算核心技术撑持矿区数据的高速汇聚、疾速解决、实时剖析,深层次开掘数据价值,助力智慧矿山的数字化、智能化建设 2、平安生产提质增效 保障一线人员的生命安全、职业衰弱以及设施的平安运行,实现简单环境下的数据存储与治理的可靠性、稳定性,晋升矿山数字化建设和平安管控程度,晋升人员和设施生产效率,升高经济老本 3、零碎操作便捷易保护 可视化界面数据库治理,无需技术人员即可实现数据库外部治理操作,便捷易上手。可视化数据摸索工具可帮忙实现数据的多维度摸索与数据分析展现,辅助矿区设施调优及综合决策 4、减速数字化、智慧化、绿色化建设 弱小的根底数据能力,可放慢建设以数据技术驱动智能决策,建成实质平安、资源粗放、绿色高效的智慧矿山

June 12, 2023 · 1 min · jiezi

关于数据库:浪潮-KaiwuDB-x-大数据中心-数据驱动政府治理能力快速提升

业务背景我国工业互联网大数据资源存在孤立、扩散、关闭等问题,数据价值未能失去无效利用,数据主权和数据安全面临重大威逼。 施展数据对工业经济的根底撑持和翻新引擎作用,可促成工业互联网的翻新倒退,减速数据驱动政府治理能力晋升,并进一步优化数据赋能实体经济的能力。 联合当下时代背景、数据量激增、业务场景简单多样等现实情况,如何优化大数据中心建设存在以下 3 大难题: 1、数字资源难共享数据资源遍布全国各地,数据间互相孤立、扩散、关闭,无奈无效整合、利用宏大的数据信息,难以满足数据资源共享需要 2、性能无奈撑持海量数据传统数据库架构存在程度扩大能力差、架构简单、利用开发成本高、性能存在瓶颈等弊病,无奈进一步满足海量数据日益增长与高并发需要 3、跨区域拜访存在重大提早跨区域数据中心建设带来更多的异地数据拜访—导致数据读写性能低、数据同步及读写的提早,无奈满足工业互联网大数据资源管理和服务零碎的利用需要 解决方案KaiwuDB 采纳多地多核心的数据库建设计划,采纳 Raft 机制保证数据一致性,采纳全国核心-分中心两级体系构建数据中心,集群规模达 30+ 节点。 同时采纳不同的容灾计划保障各数据中心的可靠性和可用性,数据利用层面全面改善集群的事务操作中的读写时延,剖析能力大大晋升。 建设价值1、通过 KaiwuDB 数据库集群实现异地多核心建设,已建成北京主、备核心、重庆分中心 2、单集群已部署 30+ 节点规模,最大可反对 4096 个节点,提供 40PB 的存储能力,集群能力大幅晋升 3、KaiwuDB 集群反对设置不同容灾级别,实现各个数据中心的高可靠性和高可用性 4、依靠多种级别分区能力,利用数据的多区域散布和优化机制无效改善了数据库集群的读写时延 5、KaiwuDB 数据库集群反对行列混存,满足 HTAP 场景需要, 实现在线交易 ( OLTP ) 和在线剖析 ( OLAP ) 两种业务模式

June 12, 2023 · 1 min · jiezi

关于数据库:KaiwuDB-受邀亮相山东省数字化转型论坛

4月21日,第十五届信博会暨中国(济南)数字经济高端峰会胜利举办。KaiwuDB 受邀缺席峰会重要论坛—山东省数字化转型论坛,并发表《工业物联网时代,数据库赋能企业数字化转型落地实际》主题演讲,与来自国内的 100 多位出名专家学者一起,围绕数字经济倒退新趋势、新热点话题进行对话,分享企业数字化转型降级解决方案及胜利案例。 目前,KaiwuDB 工业物联网场景解决方案已陆续助力包含工业互联网大数据中心、市级大数据局等在内的各大要害客户胜利实现落地实际。近日,又携手山东重工首发推出了面向离散制造业 IIoT 标杆解决方案;同期与河北工业大学开展产学研单干,推动新能源发电零碎数字化与智能化验证平台,全方位撑持河北工业大学一流学科中新能源方向建设。 离散制作利用场景解决方案及落地实际分享 工业 4.0 时代,物联网的外围价值是心愿可能以可扩大、高性能、高效的形式对海量数据进行治理剖析,从而撑持企业开掘更大的数据价值,实现数字化转型。 然而,工业物联网场景仍然存在着多重业务挑战,如:日常面对 TB 甚至 PB 级的数据写入对数据库性能要求高、数据孤岛重大、存储价格昂扬、计算性能有余等问题,导致数据分析治理不合理、数据价值开掘不充沛甚至数据节约,掣肘企业数智化发展。 工业物联网场景下的数据库,须要在收集、解决宏大简单数据量的同时满足计算端的性能需求,实现秒级的实时数据分析,多维度、深层次开掘数据论断,从而领导生产管理决策。 KaiwuDB 作为一款分布式、多模、反对云边端协同的 AIoT 数据库产品,领有就地计算专利技术,具备每秒百万级写入、毫秒级数据读取能力,满足海量、高并发的时序数据写入及疾速查问和简单查问的需要;同时具备集群部署、高可用、低成本、易运维等个性。 KaiwuDB 推出的“离散制造业 IIoT 标杆解决方案”以 KaiwuDB 就地计算专利技术为底座,搭建了“多快优智”的“1+3+N”计划体系,目前已率先在山东重工建设示范利用。 基于该计划,山东重工已实现对立汇聚存储并治理 3w+采集点产生的数据;并对设施状态集中监控剖析,设施故障率升高65%、利用率晋升20%,加工效率晋升 20%,设施投入老本缩小 10%。此外,底层数据与下层经营治理数据的互联互通,造成了工厂级数据共享机制,实现了数据驱动经营管理效率的大幅晋升。 KaiwuDB 离散制造业 IIoT 标杆解决方案 KaiwuDB 作为浪潮一大策略产品,已为工业物联网、数字能源、车联网、智慧产业等多畛域客户提供数字化赋能。将来,KaiwuDB 将持续砥砺前行,一直打磨产品,力争冲破更多数据库核心技术,继续打造更多标杆解决方案,为国内宽广企事业单位的数智化发展蓄势赋能。

June 12, 2023 · 1 min · jiezi

关于数据库:INFINI-Labs-产品更新-Easysearch-新增跨集群复制-CCR支持快照生命周期管理-SLM-功能等

INFINI Labs 产品重量级更新!!!本次更新了很多亮点性能,如 Easysearch 新增跨集群复制 (CCR)、反对快照生命周期治理 (SLM) 性能等;反对多集群、跨版本的搜寻基础设施对立管控平台 Console 新增了收费受权申请性能等。欢送大家下载应用。 Console 在线体验:http://demo.infini.cloud (用户名/明码:readonly/readonly)。 INFINI Easysearch v1.2.0INFINI Easysearch 是一个分布式的近实时搜寻与剖析引擎,外围引擎基于开源的 Apache Lucene。Easysearch 衍生自基于开源协定 Apache 2.0 的 Elasticsearch 7.10 版本。Easysearch 的指标是提供一个轻量级的 Elasticsearch 可代替版本,并持续欠缺和反对更多的企业级性能。 Easysearch 本次更新如下: Features正式公布快照生命周期治理 (SLM) API, 反对定时备份和删除快照,以及保留快照的个数减少跨集群复制 (Cross-cluster replication) 性能: 反对手动或主动复制索引反对暂停和复原复制索引反对勾销指定索引的跨集群复制Bug Fixsecurity 模块修复短少某些角色验证属性的问题Improvements兼容 ES6.0 版本的索引INFINI Gateway v1.15.0INFINI Gateway 是一个面向搜寻场景的高性能数据网关,所有申请都通过网关解决后再转发到后端的搜寻业务集群。基于 INFINI Gateway,能够实现索引级别的限速限流、常见查问的缓存减速、查问申请的审计、查问后果的动静批改等等。 Gateway 本次更新如下: Features减少 auto_generate_doc_id 在线过滤器,反对 index 主动生成 \_idBug Fix修复 floating_ip 谬误抢占的问题修复 elasticsearch 对 x-forwarded-for 的谬误笼罩问题修复 queue_consumer 在队列没有音讯时高 CPU 占用的问题INFINI Console v1.3.0INFINI Console 是一款十分轻量级的多集群、跨版本的搜寻基础设施对立管控平台。通过对风行的搜索引擎基础设施进行跨版本、多集群的集中纳管, 企业能够疾速不便的对立治理企业外部的不同版本的多套搜寻集群。 ...

June 10, 2023 · 1 min · jiezi

关于数据库:一文搞定-Apache-SeaTunnel-231-全流程部署使用

1 部署1.1 下载解压https://dlcdn.apache.org/incubator/seatunnel/2.3.1/apache-seatunnel-incubating-2.3.1-bin.tar.gz 下载结束之后上传到服务器下面并解压 # 解压到了/opt/module目录下tar -zxvf apache-seatunnel-incubating-2.3.1-bin.tar.gz -C /opt/module1.2 下载对应的connector在apache的仓库下载相应的connector,下载时每个jar包在不同的门路上面,放到/seatunnel-2.3.1/connectors/seatunnel目录下 https://repo.maven.apache.org/maven2/org/apache/seatunnel/ connector-assert-2.3.1.jarconnector-cdc-mysql-2.3.1.jarconnector-console-2.3.1.jar # 自带的connector-doris-2.3.1.jarconnector-elasticsearch-2.3.1.jarconnector-fake-2.3.1.jar # 自带的connector-file-hadoop-2.3.1.jarconnector-file-local-2.3.1.jarconnector-hive-2.3.1.jarconnector-iceberg-2.3.1.jarconnector-jdbc-2.3.1.jarconnector-kafka-2.3.1.jarconnector-redis-2.3.1.jar配置装置seatunnel的插件 vim seatunnel-2.3.1/config/plugin_config调用装置脚本的时候会在maven的地方仓库下载对应的jar包,尽量少放,下载太慢了,我放了这些 --connectors-v2--connector-assertconnector-cdc-mysqlconnector-jdbcconnector-fakeconnector-console--end--1.3 装置seatunnelsh bin/install-plugin.sh 2.3.1整个过程十分慢...应该是从maven地方仓库下载货色 ⭐1.4 补充一些jar包应用hive的话须要将这3个jar放入到seatunnel-2.3.1/lib目录下:hive-exec-2.3.9.jar# 下载链接# https://repo.maven.apache.org/maven2/org/apache/hive/hive-exec/2.3.9/hive-exec-2.3.9.jar# 留神这里是hive-exec-2.3.9.jar,不要从你的hive的lib目录下拷贝最新的jar包,就用这个seatunnel-hadoop3-3.1.4-uber-2.3.1.jar # 下载链接# https://repo.maven.apache.org/maven2/org/apache/seatunnel/seatunnel-hadoop3-3.1.4-uber/2.3.1/seatunnel-hadoop3-3.1.4-uber-2.3.1.jar seatunnel-hadoop3-3.1.4-uber-2.3.1-optional.jar# 下载链接# hhttps://repo.maven.apache.org/maven2/org/apache/seatunnel/seatunnel-hadoop3-3.1.4-uber/2.3.1/seatunnel-hadoop3-3.1.4-uber-2.3.1-optional.jar两头因为其余缘故我拷贝了一个hive框架/lib目录下的libfb303-0.9.3.jar放到seatunnel的lib目录下了。 应用mysql的话须要将mysql的驱动拷贝过去,应该是须要8系列的mysql驱动,我这里应用的是mysql-connector-java-8.0.21.jar2 测试样例2.1 官网demo fake to consoleseatunnel-2.3.1/config/v2.batch.config.template env { execution.parallelism = 2 job.mode = "BATCH" checkpoint.interval = 10000}source { FakeSource { parallelism = 2 result_table_name = "fake" row.num = 16 schema = { fields { name = "string" age = "int" } } }}sink { Console { }}运行命令 ...

June 9, 2023 · 2 min · jiezi

关于数据库:Meetup-报名|0617-StarRocks-Friends-与你相约上海

StarRocks & Friends 是由 StarRocks 社区发动的城市线下 meetup,旨在联结社区与行业的专家小伙伴们分享基于 StarRocks 的最佳实际、大数据分析的前沿技术和 StarRocks 生态交融等热门话题。不远千里奔赴,只为与你相聚。这个夏天,让咱们以技术会友,一起体验社区的魅力!StarRocks & Friends 第二站行将于下周六(6月17日)登陆上海。 这一次,咱们邀请到携程、唯品会、中欧财产、观远等行业专家为大家分享 StarRocks 如何在不同行业、不同场景为用户发明价值。 携程旅行网是中国当先的在线旅行服务公司, 本次咱们将与携程独特探讨如何通过 StarRocks 弱小的数据分析能力,为用户提供更好的服务和个性化体验,让旅行更加随心随便;在电商购物畛域,咱们与唯品会一起摸索 StarRocks 在唯品会异构 OLAP 场景的实际;在金融行业,中欧财产将分享实在的业务场景和教训,重点探讨如何基于 StarRocks 摸索并构建实时数仓,实现实时数据需要推动的数仓改革;此外,咱们也将探讨在大数据时代,如何通过 BI 工具进步业务生产力。如果你是大数据的从业者,或者对以上行业及业务场景感兴趣,我置信咱们有很多独特的话题能够交换。十分期待你的退出,与咱们一起深入探讨 OLAP 的外围挑战和最新技术!(扫描下方海报二维码即可报名) (报名通过后将收到短信告诉,入场签到时须出示短信作为入场凭证) 流动地点: 上海市华山路 328 号氪空间 B1 流动大厅 交通形式: 静安寺 地铁站11号口出-2/7/14号线 步行200米常熟路 地铁站7号口出-1/7号线 步行900米 StarRocks & Friends 杭州站精彩回顾: 在首站杭州站中,咱们荣幸地邀请到了滴滴出行、吉利汽车、聚水潭以及贝联珠贯等搭档们,为大家带来了丰盛的技术干货分享,现场的小伙伴们播种满满!如果你未能来到流动现场,可移步至 StarRocks 中文论坛获取 PPT 材料及观看演讲视频: https://forum.mirrorship.cn/t/topic/6990 开源之父理查德·斯托曼(Richard Stallman)曾说过:"分享常识是友情中最根本的行为,因为这是一种你能够无需失去本人的货色而给予别人的形式。" 所以,让咱们一起交个敌人吧!马上填写问卷提交你的分享议题,如果你的议题通过了,咱们还将提供你相干的交通和食宿补贴。在上一次发动的投票流动中,深圳以一票劣势胜出,让咱们下一站深圳见! https://tl-tx.dustess.com/skxTUasS8Z

June 9, 2023 · 1 min · jiezi

关于数据库:分布式数据库-Join-查询设计与实现浅析-京东云技术团队

绝对于单例数据库的查问操作,分布式数据查问会有很多技术难题。 本文记录 Mysql 分库分表 和 Elasticsearch Join 查问的实现思路,理解分布式场景数据处理的设计方案。 文章从罕用的关系型数据库 MySQL 的分库分表Join 剖析,再到非关系型 ElasticSearch 来剖析 Join 实现策略。逐渐深刻Join 的实现机制。 ①Mysql 分库分表 Join 查问场景分库分表场景下,查问语句如何散发,数据如何组织。相较于NoSQL 数据库,Mysql 在SQL 标准的范畴内,绝对比拟容易适配分布式场景。 基于 sharding-jdbc 中间件的计划,理解整个设计思路。 sharding-jdbcsharding-jdbc 代理了原始的 datasource, 实现 jdbc 标准来实现分库分表的散发和组装,应用层无感知。执行流程:SQL解析 => 执行器优化 => SQL路由 =\> SQL改写 => SQL执行 => 后果归并 io.shardingsphere.core.executor.ExecutorEngine#executeJoin 语句的解析,决定了要散发 SQL 到哪些实例节点上。对应SQL路由。SQL 改写就是要把原始(逻辑)表名,改为理论分片的表名。简单状况下,Join 查问散发的最多执行的次数 = 数据库实例 × 表A分片数 × 表B分片数Code Insight示例代码工程:git@github.com:cluoHeadon/sharding-jdbc-demo.git /** * 执行查问 SQL 切入点,从这里能够残缺 debug 执行流程 * @see ShardingPreparedStatement#execute() * @see ParsingSQLRouter#route(String, List, SQLStatement) Join 查问理论波及哪些表,就是在路由规定里匹配得进去的。 */public boolean execute() throws SQLException { try { // 依据参数(决定分片)和具体的SQL 来匹配相干的理论 Table。 Collection<PreparedStatementUnit> preparedStatementUnits = route(); // 应用线程池,散发执行和后果归并。 return new PreparedStatementExecutor(getConnection().getShardingContext().getExecutorEngine(), routeResult.getSqlStatement().getType(), preparedStatementUnits).execute(); } finally { JDBCShardingRefreshHandler.build(routeResult, connection).execute(); clearBatch(); }}SQL 路由策略启用 sql 打印,直观看到理论散发执行的 SQL ...

June 9, 2023 · 3 min · jiezi

关于数据库:openEuler22GreatSQLdbops玩转MGR

芬达,《芬达的数据库学习笔记》公众号作者,开源爱好者,善于 MySQL、ansible。背景openEuler 是什么openEuler22.03 LTS 是 openEuler 社区于 2022 年 3 月公布的开源操作系统(从零碎版本的命名不难发现吧)。openEuler 社区的经营由华为为主导,社区以寰球开源贡献者的单干,构建了这个高效、稳固和平安的操作系统。基于 Linux 内核的 openEuler 操作系统,反对 Kunpeng 以及其余处理器,旨在充分发挥计算芯片的后劲。它实用于数据库、大数据、云计算和人工智能等场景。通过社区单干,openEuler 构建了一个翻新平台,创立了一个反对多处理器架构的对立凋谢操作系统,并推动了软件和硬件利用生态系统的凋敝。 openEuler22.03 LTS 带来了一系列要害性能,包含基于 Linux Kernel 5.10 的深度优化、新型媒体文件系统、分层内存扩大、用户模式协定栈、云原生调度加强、QEMU 热补丁、KubeOS、加强的轻量级平安容器、加强的 iSulad、双立体部署、边缘计算反对、嵌入式镜像,以及 secPaver 等。 openEuler22.03 LTS 能够被视为国产操作系统翻新我的项目的首选零碎版本之一。 GreatSQL 是什么GreatSQL,作为 MySQL 分支 Percona 的延长,立志成为中国宽泛受欢迎的开源数据库。其上一版本基于 Percona Server 8.0.25 构建,而这次的新版本则应用 Percona Server 8.0.32 作为根底,引入了许多重要个性。新公布的 GreatSQL 8.0.32-24 版本减少了并行 load data、逻辑和 CLONE 备份加密、MGR 读写节点可动静绑定 VIP、SQL 兼容扩大、审计日志加强等重大个性。 GreatSQL 8.0.32-24 能够被视为国产开源数据库信创我的项目,并且解决 MySQL5.7 EOL 问题的重要代替计划之一。 对于 MySQL5.7 EOL 问题,能够翻阅我之前写的文章《阴谋论: MySQL 将死,国产数据库的春天?》dbops 是什么dbops 是一款提供生产级别 MySQL 部署的 playbook 工具,由芬达集体开发。 ...

June 9, 2023 · 6 min · jiezi

关于数据库:墨天轮国产关系型分布式数据库榜单解读

分布式关系型数据库概述作为数据库演进方向之一,分布式能力受到更多用户的关注。从技术架构演进来看,数据库正走过了从单机式、集中式到分布式的倒退过程,目前是多种架构并存的阶段。分布式架构以其更好的存储与计算扩大能力,受到更多的关注。在墨天轮社区的中国数据库风行度排行榜上,收集了国内160多家关系型数据库厂商产品。针对这些产品做个架构分类不难发现,从数量上来看,分布式与集中式架构不分伯仲,甚至分布式还稍有占优(如左下图)。如果思考到风行度因素,按架构分类统计相应数据库的风行度分数能够发现,分布式架构劣势更为显著(如右下图),这也阐明了分布式数据库产品受到更多风行关注。 从上述剖析来看,分布式产品正更多地受到关注,并已开始在用户场景落地。究其原因,可简略演绎为几点: 场景驱动。随着企业数字化转型深入,更多的数据被开掘,更多的场景被发现。上述变动对数据的重要载体-数据库来说,提出了更大存储规模与更强计算要求。分布式数据库的技术特点正能够满足上述要求。此外,随着数据价值被企业更加关注,对数据可用性、数据一致性要求更高,分布式数据库也有其可施展空间。业务驱动。随着业务互联网化,很多企业都面临着敏态业务疾速倒退问题。这对于数据库提出了更高弹性要求,如何疾速满足多变的业务诉求。分布式数据库通常采纳的存算拆散架构,可提供存储与计算资源的弹性伸缩能力,十分符合这一诉求。技术趋势。分布式技术倒退多年,在与数据库联合方面始终存在若干难点,但随着Google的三篇论文及工程化产品呈现,为分布式数据库的落地奠定了实践根底。很多分布式数据库产品正是踩着伟人的肩膀,疾速倒退起来。硬件倒退。分布式架构因其组件拆分,人造对网络有着更高的要求。过来受限于网络技术自身,很难达到很好的成果。但随着高带宽、低延时网络技术实现冲破,为分布式架构提供了良好的根底。此外,如高速存储、多核CPU等技术也助力了分布式技术在数据库畛域的疾速成熟。政策疏导。近年来,国家也非常重视根底软件的倒退,包含针对数据库产品。相干部门曾多次出台政策,明确指出要放慢分布式数据库产品的研发和利用推广。很多行业也明确提出的时间表,减速这一过程。分布式关系型数据库产品点评近年来分布式数据库产品倒退迅速,并且在多类场景中宽泛应用。在墨天轮榜单中,依照属性进行筛选能够发现,共收录有85款关系型分布式数据库。如下图是按应用场景进行分类统计,因局部产品反对多种场景,故进行反复统计。无论是OLTP、OLAP还是新兴的 HTAP 场景都有分布式架构产品。特地是OLAP、HTAP等畛域,因其承载数据规模及算力更大,分布式产品更有劣势。 从部署形式上来看,分布式架构产品多反对本地部署,同时也有局部产品反对云原生部署。从整体来看,依然是以本地部署形式为主,云原生的部署形式占多数,但相对而言分布式更容易利用云原生提供的计算与存储能力,因而将来将更多地反对云原生部署。 从分布式数据库厂家分类来看,大体可分为以下几类: 一是以 OceanBase、PolarDB、TDSQL 为代表的来自互联网大厂的产品;二是以 GaussDB、GoldenDB 为代表的传统大厂产品;三是以TiDB 为代表的新兴数据库厂商产品;四是以 GBase、AntDB为代表的传统厂商产品。上述几类厂商产品因其倒退路线、阶段不同,各产品差别也较大。 上面就作为支流的一些关系型分布式数据库产品加以点评。 OceanBaseOceanBase 近年倒退迅速,目前占据榜单首位。在22年底的4.0版本中,其率先提出了“单机分布式一体化”理念,升高分布式数据库应用门槛,让用户可依据业务倒退平滑过渡。在23年上半年最新的4.1版本,则将“面向开发者”定位凸显,强化其在易用性、兼容性、高性能等方面能力。目前OceanBase在金融、政企、互联网等诸多行业失去宽泛应用。特地是其良好的兼容能力,受到很多传统企业关注,将其作为信创革新的首选计划。 TiDBTiDB作为一款出名的开源分布式数据库产品,长期占据榜单前三名。在23年4月份,其正式公布了7.0版本。这一版本聚焦于帮忙用户通过可靠性能和简化数据库操作来疾速响应业务需要,从而满足客户的高期望值,并晋升开发人员和 IT 运维人员的生产力。重点个性包含多租户下的资源管控加强、TiFlash数据落盘稳固剖析负载、主动执行打算缓存、TiFlash反对存算拆散等。在产品经营上一方面通过与合作伙伴共建放慢国内落地步调,一方面继续扩充海内经营工作。 GaussDBGaussDB,是华为自研的企业级原生分布式关系型数据库,其重要是面向金融政企外围交易和企业生产零碎等简单场景。近年在传统畛域建树颇多,特地是在信创革新畛域,获得不少成绩。从产品倒退角度来看,GaussDB与榜单上另一款单机开源产品-openGauss,有着千头万绪的关联。目前Gauss系列已造成了商用数据库、开源数据库、基于开源数据库的第三方商用数据库的复合生态模式。当然从品牌建设角度,集体倡议还需进一步加强,造成品牌合力。 PolarDBPolarDB,是国内最早打出云原生数据库理念,并且实现工程化实际的代表产品。从晚期的存算拆散架构开始反对云根底环境;到近期的Serverless架构,多层解耦拆分,提供更为精密粒度的资源管理能力。走过了云原生的1.0、2.0到现在的3.0,也成为最具代表性的云原生数据库产品。其与云原生环境的紧密结合,提供了极致的分布式能力。其产品已在云平台及私有化环境大量应用。 TDSQLTDSQL,作为来自互联网利用的又一产品,晚期反对腾讯社交、游戏等场景;前期商业化后大量反对如金融等要害畛域客户零碎。特地是近期,其刚刚通过TPC-C基准测试,并发明了新的世界纪录,在业内引发宽泛关注。 GBaseGBase,作为老牌数据库厂商,很早就在分布式畛域布局。无论是其面向 OLAP 畛域的GBase 8a产品,还是面向交易及多模畛域的 GBase 8c\8s产品,都将分布式能力作为其外围能力之一。通过多年积攒,已在寰球数百家客户中应用。 AnalyticDBAnalyticDB,是阿里云的一款 OLAP 产品,也是阿里云的自研两大外围产品之一。其特点是反对超大规模、极致性能,可满足在万亿数据规模下的秒级数据分析能力,在很多波及国计民生畛域被宽泛应用。其良好的兼容性,也为用户升高应用门槛。近期其与 PolarDB 联结,造成颇具竞争力的 HTAP 解决方案。 AntDBAntDB,是亚信团体的一款分布式、面向 TP 和 AP 多场景产品。晚期在电信畛域失去宽泛实际,现已走向全行业。近期其回升势头很猛,也失去了很多关注。 GoldenDBGoldenDB,作为来自中兴研发的一款分布式数据库,长期以来始终比拟低调。其实在金融、运营商等很多要害畛域,曾经失去十分宽泛的应用。近期其推出的7.0版本,在 HTAP、自动化工具及云原生方向有重大进展,已成为一支不可漠视的力量。 除了上述产品外,还有些产品近年来提高很快,咱们也盘点下 DorisDoris,作为 OLAP 畛域近年来一款景象级开源产品,失去宽泛关注,其在墨天轮榜单上的排名半年便晋升了42个位次。开源活跃度很高,版本迭代迅速。其已孵化了多款商业产品,并都获得不俗的商业停顿,间接证实其产品能力突出。其生态用户宽泛,笼罩很多头部互联网公司。 PieCloudDBPieCloudDB,其墨天轮风行度排名相较2022年11月晋升了139名,外围团队来自于驰名的MPP数据库GreenPlum。其创造性地提出了全新eMPP分布式技术,实现云上弹性大规模并行计算。充分利用云根底施行,解决大规模数据分析的资源问题。近期其又公布基于eMPP分布式技术的存算拆散软硬件一体机,齐全反对国产化信创环境,标记其启动全面启动国产软硬件一体机商业化。 MatrixOneMatrixOne,定义为一款面向未来的超交融异构云原生数据库,其主打交融异构架构。一方面通过一份存储和一套计算引擎反对多种工作负载,一方面以对立技术架构,反对私有云、自建数据中心、边缘节点部署应用,利用乃至数据能够云上云下无缝迁徙。 YaoBaseYaoBase,是一款自研云原生NewSQL分布式数据库,其在墨天轮榜单上排名113位,相较半年前的172位提高显著。其提出的增量汇集零碎架构,在实现高并发事务处理的同时,兼顾简单事务处理能力的可扩展性,补救了现有NewSQL类零碎解决简单事务的短板。 CASICloud DBCPCASICloud DBCP(航天天域数据库管理系统),由北京航天紫光科技自主研发,是一款是采纳无共享架构的分布式交易型通用数据库系统。之前在航天畛域曾经有十分多的实际,可作为国产数据库信创替换的选型之一,其性能较国产传统数据库有着显著劣势。 分布式技术发展趋势及察看从分布式技术倒退来看,有一些明确的变化趋势。 云与分布式减速交融云,作为一种新的资源供应形式,在过来十几年失去了疾速倒退。其人造具备的海量资源疾速供应,与分布式架构对资源的需要不约而同。能够说两者的强强联合,能够更大施展出分布式架构的威力。咱们能够看到,一方面云厂商的云数据库产品大都采纳分布式架构;一方面十分多的分布式数据库产品也开始云及云原生化。 分布式多场景适配无论是传统的 OLTP 和 OLAP 业务,还是新兴的 HTAP 业务。只有是对规模、算力、一致性有着更好的要求,分布式架构都能够在肯定水平上解决。当然从应用场景来看,不同架构占比还有所差别。从察看来看,对于 OLAP、HTAP 场景,因其承载数据规模及算力要求更大,分布式产品更有劣势。 单机分布式一体化如果说分布式产品还有什么缺点,较高应用门槛是其中最为次要的。分布式架构人造带来的复杂性、高老本,对客户造成很大的困扰。单机分布式一体化,正是为了解决这一问题。一方面通过这一架构优化可极大升高分布式数据库的门槛,另一方面也可将扩大需要把握在客户手中。真正做到“丰俭由人”,将分布式数据库做到了普惠公众。 ...

June 8, 2023 · 1 min · jiezi

关于数据库:故障分析-一个因-SSL-配置导致的复制异常报错

在构建 MySQL 复制过程中,IO 线程始终连贯不上主库,重复确认复制账号的权限、账号密码都没问题,最终定位为 SSL 配置的问题。 作者:木板。某全国性股份制银行 DBA。善于 DB2,MySQL 和 Oracle 数据库的运行保护和调优、排错。本文起源:原创投稿 爱可生开源社区出品,原创内容未经受权不得随便应用,转载请分割小编并注明起源。故障背景在做 MySQL 同构的数据迁徙过程中,咱们通常只须要按流程搭建主从保持数据同步即可。个别构建复制只有网络没问题,根本都能顺利构建胜利。而这次踩了一个小坑,记录一下。共事反馈做完 change master 后,IO 线程始终显示连贯不上主库,曾经重复确认该复制账号的权限、账号密码都没问题,且也验证了通过 MySQL 客户端的命令行输出雷同的账号密码能失常连贯到主库,曾经做了以下场景的排除工作: 排除了账号密码谬误的问题排除了账号权限有余的问题排除了网络不通的问题故障剖析通过源端主库的谬误日志也能继续观测到该复制用户频繁的尝试连贯但都失败,谬误日志的报错仅告知用了明码但拜访受限,比拟惯例的报错信息。2021-06-07T16:56:54.812721+08:00 121 [ERROR] [MY-010584] [Repl] Slave I/O for channel '': error connecting to master 'repl@10.186.61.27:3310' - retry-time: 60 retries: 1 message: Access denied for user 'repl'@'10.186.61.27' (using password: YES), Error_code: MY-0010452021-06-07T16:57:54.817711+08:00 121 [ERROR] [MY-010584] [Repl] Slave I/O for channel '': error connecting to master 'repl@10.186.61.27:3310' - retry-time: 60 retries: 2 message: Access denied for user 'repl'@'10.186.61.27' (using password: YES), Error_code: MY-001045通过 mysql.user 表观测复制用户的权限细节,观测到该用户有一个非凡的属性设置,ssl_type=ANY 该设置引起了留神。基于官网文档得悉,该选项是用来管制用户是否开启 SSL 形式登录。如果为 ANY 则示意用该用户连贯时,必须应用 SSL 形式,否则无奈登录。 ...

June 8, 2023 · 2 min · jiezi

关于数据库:Apache-Doris-冷热分层技术如何实现存储成本降低-70

在数据分析的理论场景中,冷热数据往往面临着不同的查问频次及响应速度要求。例如在电商订单场景中,用户常常拜访近 6 个月的订单,工夫较长远的订单拜访次数非常少;在行为剖析场景中,需反对近期流量数据的高频查问且时效性要求高,但为了保障历史数据随时可查,往往要求数据保留周期更为长远;在日志剖析场景中,历史数据的拜访频次很低,但需长时间备份以保障后续的审计和回溯的工作...往往历史数据的利用价值会随着时间推移而升高,且须要应答的查问需要也会随之锐减。而随着历史数据的一直增多,如果咱们将所有数据存储在本地,将造成大量的资源节约。 为了解决满足以上问题,冷热数据分层技术应运而生,以更好满足企业降本增效的趋势。顾名思义,冷热分层是将 冷 热数据 别离 存储在 老本不同 的存储介质上,例如热数据存储在老本更高的 SSD 盘上、以进步时效数据的查问速度和响应能力,而冷数据则存储在绝对低成本的 HDD 盘甚至更为便宜的对象存储上,以升高存储老本。咱们还能够依据理论业务需要进行灵便的配置和调整,以满足不同场景的要求。 冷热分层个别实用于以下需要场景: 数据存储周期长:面对历史数据的一直减少,存储老本也随之减少;冷热数据拜访频率及性能要求不同:热数据拜访频率高且须要疾速响应,而冷数据拜访频率低且响应速度要求不高;数据备份和复原老本高:备份和复原大量数据须要耗费大量的工夫和资源。......更高存储效率的冷热分层技术自 Apache Doris 0.12 版本引入动静分区性能,开始反对对表分区进行生命周期治理,能够设置热数据转冷工夫以及存储介质标识,通过后台任务将热数据从 SSD 主动冷却到 HDD,以帮忙用户较大水平地升高存储老本。用户能够在建表属性中配置参数 storage_cooldown_time 或者 dynamic_partition.hot_partition_num 来控制数据从 SSD 冷却到 HDD,当分区满足冷却条件时,Doris 会主动执行工作。而 HDD 上的数据是以多正本的形式存储的,并没有做到最大水平的老本节约,因而对于冷数据存储老本依然有较大的优化空间。 为了帮忙用户进一步升高存储老本,社区在已有性能上进行了优化,并在 Apache Doris 2.0 版本中推出了冷热 数据 分层的性能。冷热数据分层性能使 Apache Doris 能够将冷数据下沉到存储老本更加低廉的对象存储中,同时冷数据在对象存储上的保留形式也从多正本变为单正本,存储老本进一步降至原先的三分之一,同时也缩小了因存储附加的计算资源老本和网络开销老本。 如下图所示,在 Apache Doris 2.0 版本中反对三级存储,别离是 SSD、HDD 和对象存储。用户能够配置使数据从 SSD 下沉到 HDD,并应用冷热分层性能将数据从 SSD 或者 HDD 下沉到对象存储中。 以私有云价格为例,云磁盘的价格通常是对象存储的 5-10 倍,如果能够将 80% 的冷数据保留到对象存储中,存储老本至多可升高 70%。 咱们应用以下公式计算节约的老本,设冷数据比率为 rate,对象存储价格为 OSS,云磁盘价格为 CloudDisk $1 - \frac{rate * 100 * OSS + (1 - rate) * 100 * CloudDisk}{100 * CloudDisk}$ ...

June 8, 2023 · 5 min · jiezi

关于数据库:百度离线资源治理

作者 |  百度MEG离线优化团队 导读  近些年挪动互联网的高速倒退驱动了数据爆发式的增长,各大公司之间都在通过竞争取得更大的增长空间,大数据计算的成果间接影响到公司的倒退,而这背地其实依赖宏大的算力及数据作为撑持,因而在满足业务迭代的前提下如何管制老本是公司十分重要的一环。 本文将介绍百度MEG(挪动生态事业群组)在离线资源降本增效方面用到的一些技术以及获得的一些成绩。 全文4478字,预计浏览工夫12分钟。 01 业务背景随着百度App的日活用户的持续增长,为了满足宽广用户对信息资讯更加精准的需要,MEG的各个业务模块对于离线算力和存储的需要也一直减少通过其驱动下层模型取得更好的成果,因而离线老本也逐年减少,如何满足业务增长的状况下最小化机器资源老本是本文重点关注的问题。就拿百度App后端举荐服务(后简称Feed)举例,领有离线大数据计算数百万核、分布式存储数百PB,老本以亿为单位,而且还在持续增长,因而咱们心愿可能在满足举荐成果的前提下优化升高离线的老本。整体离线计算次要分为两大类,即数据挖掘类和数据分析类,其中开掘类场景次要是通过python脚本提交的MapReduce工作为主,剖析类场景次要是Spark及SQL类为主,底层集群资源都是EMR,存储对立应用百度公司分布式文件存储Appendonly File Storage(后简称AFS)。 02 优化思路上面介绍下咱们的优化思路,在此之前说下整个离线的业务背景,次要从三个方面阐明,第一是管理混乱,队列失控、工作失控;第二是老本高,千万核计算、EB级的存储使用率低,同时增量的需要无奈满足;第三是效率,包含工作运行的效率和资源交付的效率,次要体现为队列拥挤,工作跑不动。 针对以上问题及痛点,首先针对管理混乱的问题咱们通过平台进行离线资源工作的全生命周期治理;其次是针对资源使用率低成本高的问题,咱们自研智能调度机制实现对不同使用率队列的削峰填谷,基于存算拆散技术实现疾速合池,通过潮汐算力分时调度优化白天缓和的算力供应增量业务,再就是与INF共建RSS技术并规模化落地优化混部资源的稳定性,还有就是针对EB级的存储进行动静扩缩容实现存储的优化和供应。整体的挑战是如何利用无限的资源满足有限的需要。 03 算力优化3.1 合池技术接下来介绍下算力优化的第一个优化点,合池技术,首先说下为什么要合池,因为碎片化的队列会导致弹性有余、使用率很难最大化,保护老本高。如下图所示,一个大概5w核的队列,它的峰值是达到下限了,然而均值很低,很难满足更大资源量然而执行较快的需要,因而一方面是冀望能把小的这种队列合并,另一方面晋升整体的使用率,如下图第二个队列,最终实现降本增效。 合池最大的挑战分两块,一是合池后如何保障工作的性能不进化,同时如何保障资源效率,二如何对业务无感通明合池。 接下来大抵粗略的说一下合池的过程,如下图所示:就是将等量资源的几个小队列进行合并,晋升队列的使用率下限,满足业务需要的同时退订一部分资源。 整体的技术计划次要包含两局部,一是智能调度,二是存算拆散技术,上面会离开介绍下这两项技术的实现。 3.1.1 智能调度如下图所示,智能调度的整体架构如下,首先一个基于python的client,负责将用户的程序、参数、环境依赖等等进行打包,而后通过智能调度零碎异步提交,零碎会依据工作维度多维的特色,比方优先级、并发、所需资源等信息联合资源实时的水位进行智能最优匹配,其中调度零碎比拟外围的也是首要的就是排序,即要解决先调度谁后调度谁的问题,如下图中的排序策略,首先是一个FIFO的队列模型,排序策略会依据工作的优先级、期待轮数进行加权,而后联合工作的并发系数进而计算出来先后顺序,优先级分位三挡,VERY-HIGH、HIGH、NORMAL,优先级越高权重越大,其次是期待的时长越长权重越大,越优先调度;有了程序后前面会依据工作要读取数据的地区就近匹配计算队列,缩小跨地区网络IO的开销,此外还有队列资源打满或异样等过滤策略,以及工作应用资源超限降级等策略,最初是针对排好序的工作进行队列调配,依据实时获取的队列资源水位联合工作提交所须要的资源量(并发数*单并发核数),调配好队列,工作会被worker正式提交到集群下面去。智能调度在整个合池过程中充当十分重要的角色,它能保障工作在合池后性能不进化,通过正当的编排,针对峰谷不一的资源进行打平调度,反复利用闲散资源晋升整体资源利用率。 3.1.2 存算拆散方才介绍的是调度提交的过程,此外在合池过程中另外一项外围的技术是存算拆散,它是解决碎片化队列疾速合池的要害,外围的点是说咱们会提前在各个集群新建一个计算的ugi,并且给这个ugi调配好计算所须要的长期存储并开明合池队列的计算权限,UGI存算拆散后,原来用户的UGI只作为读写数据应用,代理计算的UGI提前开明各集群的权限,并调配好两头存储,调度零碎会主动调度到有资源的合池队列,用户不须要改代码,合池透明化。 总结下合池当前的成果,资源池化当前,千万核计算资源整体的使用率从55%晋升到80%,增量供应和优化退订了数百万核资源,老本年化升高数千万。此外池化是得资源的交付效率大幅晋升,从之前周级、月级缩短到天级,工作的整体耗时通过正当的调度和编排也升高了30%。 3.2 潮汐算力接下来我介绍下算力优化的第二个优化点,潮汐,它的特点是体量大、数百万核、夜间特定时间段供应,成本低,收费用。能够用潮汐技术的场景包含策略模型调研类,数据回溯类等。如何把这部分资源充分利用好是我的项目的外围,次要通过如下三种形式实现潮汐的规模化利用,第一是显式的注册疏导,第二是对存量可在夜间运行工作的画像开掘,第三是对资源应用超限的分时管控,如下图所示: △潮汐规模化利用的形式 潮汐的挑战有两个,第一是如何对存量工作画像、怎么尽可能保障在潮汐登场前执行完,如下图所示,接下来重点介绍下计划,就是通过隐式开掘存量工作转潮汐,因为潮汐资源是0点供应5点准时登场,因而咱们冀望对一些存量例行的工作进行画像让它可能通过潮汐时间段减速实现算力优化,开释更多白天的算力,这里画像次要包含执行周期、频次、并发数、task总量等,利用这些信息给工作打一个潮汐的tag,在这个工作下次提交的时候应用一个工夫减速模型判断其是否能在潮汐登场前执行完,该模型次要是通过例行工作惯例的运行工夫以及map、reduce的数量、并发量等计算出一轮计算缩须要的工夫,而后乘以晋升并发量当前要跑的轮数,算进去减速后的预期实现工夫,而后判断是否能在潮汐登场前执行完,这块分两种状况,0-5点,5-24点,公式略有差别。 △潮汐工夫减速模型 上面介绍一下潮汐的第二个技术点,也即是后面提到的另一个挑战,如何保障潮汐工作刹时登场后不失败,第二天潮汐窗口降临后持续跑,解决方案是在现有的合池队列上进行扩大,在潮汐登场前提前升高并发,白天低速运行。 总结下潮汐在离线大规模利用的成果,首先是规模,目前潮汐的资源规模达到300W核,通过画像开掘存量转夜间实现了年化约600万老本的节俭。业务方面的话,有100+回溯、调研类工作通过潮汐实现了资源的满足,减速了模型调研的效率,晋升了模型的成果。 △潮汐队列断点续跑 3.3 RSS技术接下来我介绍下算力优化的第三个优化点,RSS(Remote Shuffle Service)技术的规模化利用,大背景是离线标准型资源稳固,但老本高、稀缺,而混部资源成本低容易供应,但稳定性差、失败率高容易被抢占,如下图所示,失败率比拟高。 △混部资源task失败率高 如果reduce2运行中被抢占,须要从所有上游map从新拉取数据,而上游map曾经被另一个工作占用,也须要从新排队计算因而造成时长减少,因而RSS技术的外围是把shuffle数据存近程文件系统,这样reduce被抢占的话间接从afs拉取map产出,map不须要重算,开启RSS的工作执行工夫根本与标准型资源性能持平。 04 贮存优化4.1 背景介绍存储资源估算逐年收紧,为应答接下来的业务增长,需要根本靠优化来满足。以后整个公司贮存空间的使用率大概为60%,从使用率维度看任然有肯定的晋升空间。Google Research于2021年发表了一篇名为Autopilot的论文《Autopilot: Workload Autoscaling at Google Scale》,核心思想是Quota Auto Resize By workloads,即依据理论quota应用状况动态分配,可引入一些简略的模型预测quota的需要变动量,该思维是咱们实现AFS Quota超售的根本技术撑持,即按理论应用调配同时保障应用的时候能调配到,这样最大的益处就是存储是一个可被全局调度的大池,既能最大化进步存储流转回收的效率又能够晋升整体存储的使用率进而达到老本优化的目标还能节俭大量的运维老本,堪称一箭三雕。 回到咱们理论的业务场景,大部分状况下业务申请估算都是依照全年需要的总量申请quota,理论交付后须要较长的工夫能力将资源的使用率晋升上来,这样就导致很大一部分quota的价值没有施展进去,闲置在那,其他人也不起来,因而咱们要实现quota的动态分配,实现资源全局最优。 4.2 Quota Resize上面介绍下基于quota resize的优化模型,它会针对使用率低的存量账号进行动静的缩容,增量需要不再一次性调配,而是初始大量,依据理论应用状况逐渐调配。 △quota resize简版计划 上面介绍下resize的整体流程,首先是收口增量需要,所有的需要申请通过平台流程核心进行,例如申请1P先初始化300T,容量治理服务会依据实时的资源应用水位联合滑动窗口通过团体云的升降配接口进行动静扩缩,外围的技术点是分钟级感知资源水位,和buffer池的预留设计以及基于滑动窗口的阶梯缩容机制。 ...

June 8, 2023 · 1 min · jiezi