数据库 | 乐趣区

关于数据库:数据库优化器与算子优化

优化器概念优化器是数据库中用于把关系表达式转换成执行打算的外围组件，很大水平上决定了一个零碎的性能优化器会蕴含一系列优化规定，这些优化规定能够对关系表达式进行等价转换，从而生成执行打算优化规定常见逻辑算子DataSource：数据源，也就是咱们SQL语句中的表，select name from table1中的table1Selection：抉择，Where 条件，如select name from table1 where id = 1中的where后的过滤条件Projection：投影，指搜寻抉择的列，如select name from table1 where id = 1中的列nameJoin：连贯，如select * from table1 table2 where table1.name=table2.name就是把两个表做Join，连贯条件是最简略的等值连贯，当然还有其余咱们熟知的inner join,left join,right join等等Sort：排序，如select * from table1 order by id外面的order by，无序的数据通过这个算子解决后，输入有序的数据Aggregation：分组，如select sum(score) from table1 group by name中的group by，依照某些列进行分组，分组后能够进行一些聚合操作，比方Max、Min、Sum、Count、Average等等Apply：子查问，如select * from (select id，name from table1) as t中的(select id,name from table1) as t，能够进行嵌套查问优化规定-谓词下推将外层查问块where子句中的谓词移入所蕴含的较低层次的查问块，从而可能提前进行数据过滤以及更好的应用索引举例比方对于表t1（100条数据），t2（100条数据），对于查问语句select * from t1,t2 where t1.a > 3 and t2.b >5 执行间接执行：执行时候是把t1和t2两个表做笛卡尔积，须要解决10000条数据，而后再依据条件进行过滤进行谓词下推：比方t1.a > 3的数据有10条，t2.b > 5的有5条，先进行过滤咱们所须要解决的数据条数则只有50条了，这就是尽量把过滤条件往下推到子节点上，就能够防止拜访很多数据，从而达到优化的成果对于算子的谓词下推DataSource算子，间接将过滤条件推给各个DataSource算子即可对于Join算子，则会首先进行简化，将外连贯转化为内连贯，收集连贯条件，辨别出哪些来自于Join的左节点哪些来自于Join的右节点，别离像左右节点进行下推留神点不能下推Limit，因为先进行Limit n再做Selection操作和先做Selection操作再Limit n失去的后果是不一样的 ...

关于数据库:IP归属地与网络发展

随着互联网的迅猛发展，IP地址显得越来越重要。每个设施连贯到互联网上都有一个惟一的IP地址，这个地址能够辨认设施所在的网络以及归属地。IP地址的归属地信息对于网络管理和平安具备重要意义，并且与网络倒退密切相关。 IP归属地是指依据IP地址所确定的设施所在的地理位置。IP地址由网络号和主机号组成，网络号示意设施所在的网络而主机号则示意具体的设施。通过查找网络号的归属地信息，咱们能够得悉设施所在的地理位置。这种归属地信息对于网络管理者来说十分重要，能够帮忙他们无效地治理网络资源。 IP归属地信息也对于网络安全十分重要。通过监控IP地址的归属地，能够发现异常的网络流动。例如，如果一个IP地址在很短时间内从不同的中央进行登录尝试那么这个IP地址很可能是一个黑客在进行攻打。网络管理员能够通过查找IP地址的归属地信息，追踪攻击者的地位进而采取措施爱护网络安全。除了网络管理和平安方面，IP归属地信息对于商业经营也具备重要意义。通过剖析IP归属地数据，企业能够理解用户所在的地理位置从而依据不同地区的需要制订相应的营销策略。例如，如果一个用户来自一个倒退中的城市企业能够依据该地区的特点推出适宜这个地区用户的产品或服务。这种个性化的营销策略能够进步企业的竞争力。在网络倒退方面，IP归属地信息的准确性和及时性也十分重要。随着互联网用户数量的一直减少，IP地址的应用也越来越频繁。因而，及时更新IP归属地信息至关重要。只有放弃精确的IP归属地信息，能力确保网络管理和平安的无效施行，并为商业经营提供精确的数据反对。总结来说，IP归属地与网络倒退密切相关。它在网络管理、平安和商业经营方面施展着重要作用。只有通过精确的IP归属地信息，能力更好地治理网络资源保障网络安全，并制订个性化的营销策略。因而，咱们应该器重IP归属地信息的准确性和及时性以推动网络的更好倒退。

关于数据库:破局主键重复问题的坎坷路-京东物流技术团队

随同着业务的一直倒退，逐步由单库单表向分库分表进行倒退。在这个过程中不可避免的一个问题是确保主键要的唯一性，以便于后续的数据聚合、剖析等等场景的应用。在进行分库分表的解决方案中有多种技术选型，大略分为两大类客户端分库分表、服务端分库分表。例如 Sharding-JDBC、ShardingSphere、 MyCat、 ShardingSphere-Proxy、Jproxy(京东外部已弃用)等等。在这个燥热的夏天，又忽然收到告警，分库分表的主键抵触了，这还能忍？不，坚定不能忍，必须解决掉！前面咱们缓缓道来是如何破局的，如何走了一条坎坷路…… 翻山第一步咱们的零碎应用的是ShardingSphere进行分库分表的，大略的配置信息如下：_（出于信息的平安思考，暗藏了局部信息，只保留的局部内容，不要在意这些细节能阐明问题即可）_ <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:sharding="http://shardingsphere.apache.org/schema/shardingsphere/sharding" xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd http://shardingsphere.apache.org/schema/shardingsphere/sharding http://shardingsphere.apache.org/schema/shardingsphere/sharding/sharding.xsd">  <bean id="database1" class="com.alibaba.druid.pool.DruidDataSource" destroy-method="close"> </bean> <bean id="database2" class="com.alibaba.druid.pool.DruidDataSource" destroy-method="close"> </bean> <bean id="database3" class="com.alibaba.druid.pool.DruidDataSource" destroy-method="close"> </bean> <sharding:inline-strategy id="databaseStrategy" sharding-column="cloum1" algorithm-expression="table1_$->{(Math.abs(cloum1.hashCode()) % 512).intdiv(32) }" /> <sharding:inline-strategy id="orderNoDatabaseStrategy" sharding-column="cloum2" algorithm-expression="table2_$->{(Math.abs(cloum2.hashCode()) % 512).intdiv(32) }" /> <sharding:inline-strategy id="businessNoDatabaseStrategy" sharding-column="cloum3" algorithm-expression="table3_$->{(Math.abs(cloum3.hashCode()) % 512).intdiv(32) }" />  <sharding:key-generator id="idKeyGenerator" type="SNOWFLAKE" column="id" props-ref="snowFlakeProperties"/> <sharding:data-source id="dataSource"> <sharding:sharding-rule data-source-names="database1,database2,database3"> <sharding:table-rules> <sharding:table-rule logic-table="table1" actual-data-nodes="database1_$->{0..15}.table1_$->{0..31}" database-strategy-ref="orderNoDatabaseStrategy" table-strategy-ref="order_waybill_tableStrategy" key-generator-ref="idKeyGenerator"/> <sharding:table-rule logic-table="table2" actual-data-nodes="database2_$->{0..15}.table2_$->{0..31}" database-strategy-ref="databaseStrategy" table-strategy-ref="waybill_contacts_tableStrategy" key-generator-ref="idKeyGenerator"/> <sharding:table-rule logic-table="table3" actual-data-nodes="database3_$->{0..15}.table3->{0..31}" database-strategy-ref="databaseStrategy" table-strategy-ref="waybill_tableStrategy" key-generator-ref="idKeyGenerator"/> </sharding:table-rules> </sharding:sharding-rule> </sharding:data-source> <bean id="sqlSessionFactory" class="com.baomidou.mybatisplus.extension.spring.MybatisSqlSessionFactoryBean"> <property name="dataSource" ref="dataSource" /> <property name="configLocation" value="classpath:spring/mybatis-env-setting.xml"/> <property name="mapperLocations" value="classpath*:/mapper/*.xml"/> </bean></beans>从下面的配置能够看出配置的是"SNOWFLAKE" 主键应用的是雪花算法，雪花算法产生的ID的组成总计64位，第一位为符号位不必，后41位为工夫戳用于区别不同的工夫点，在前面10位为workId用于区别不同的机器，最初12位为sequence用于同一时刻同一机器的并发数量。 ...

关于数据库:谈了千百遍的数据一致性-京东云技术团队

明天来说一个陈词滥调的问题，来看一个理论案例：现有业务中往往都会通过缓存来进步查问效率，升高数据库的压力，尤其是在分布式高并发场景下，大量的申请间接拜访Mysql很容易造成性能问题。有一天老板找到了你...... 老板：据说你会缓存？你：来看我操作。你设计了一个最常见的缓存计划，基于这种计划，开始对用户积分性能进行优化，但当你睡的正酣时，零碎轻轻进行了上面操作： 1、线程A依据业务会把用户id为1的积分更新成100 2、线程B依据业务会把用户id为1的积分更新成200 3、在数据库层面，因为数据库用锁来保障了ACID，线程A和线程B不存在并发状况，，无论数据库中最终的值是100还是200，咱们都假如正确 4、假如线程B在A之后更新数据库，则数据库中的值为200 5、线程A和线程B在回写缓存过程中，很可能会产生线程A在线程B之后操作缓存的状况（因为网络调用存在不确定性），这个时候缓存内的值会被更新成100，产生了缓存和数据库不统一的状况。第二天早上你收到了用户投诉，怎么办？人工批改积分值还是删库跑路？但凡处于不同物理地位的两个操作，如果操作的是雷同数据，都会遇到一致性问题，这是分布式系统不可避免的一个痛点。 1 什么是数据一致性？数据一致性通常讲的次要是数据存储系统，主从mysql、分布式存储系统等，如何保证数据一致性，比如说主从一致性，正本一致性，保障不同的工夫或者雷同的申请拜访这种主从数据库时拜访的数据是一致性的，不会这次拜访是后果A下次是后果B。 2 CAP定理说到数据一致性，就必须说CAP定理。 CAP定理是2000年由Brewer提出的，他认为分布式系统在设计和部署时，面临3个外围问题： Consistency：一致性。数据库ACID操作是在一个事务中对数据加以束缚，使得执行后仍处于统一状态，而分布式系统在进行更新操作时所有的用户都应该读到最新值。 Availability：可用性。每一个操作总是可能在肯定工夫内返回后果。后果能够是胜利或失败，肯定工夫是给定的工夫。 Partition Tolerance：分区容忍性。思考零碎效力和可伸缩性，是否可进行数据分区。 CAP定理认为，一个提供数据服务的存储系统无奈同时满足数据一致性、数据可用性、分区容忍性。为什么？如果采纳分区，分布式节点之间就须要进行通信，波及到通信，就会存在某一时刻这一节点只实现一部分业务操作，在通信实现的这一段时间内，数据就是不统一的。如果要保障一致性，就要在通信实现的这段时间内爱护数据，使得对拜访这些数据的操作都不可用。反过来思考，如果想保障一致性和可用性，那么数据就不可能分区。一个简略的了解就是所有的数据就必须寄存在一个数据库外面，不能进行数据库拆分。这个对于大数据量、高并发的互联网利用来说，是不可承受的。 3 数据一致性模型基于CAP定理，一些分布式系统通过复制数据来进步零碎的可靠性和容错性，也就是将数据的不同正本寄存在不同的机器。罕用的一致性模型有：强一致性：数据更新实现后，任何后续拜访将会返回最新的数据。这在分布式网络环境简直不可能实现。弱一致性：零碎不保证数据更新后的拜访会失去最新的数据。客户端获取最新的数据之前须要满足一些非凡条件。最终一致性：是弱一致性的一种特例，保障用户最终可能读取到某操作对系统特定数据的更新。 4 如何保证数据一致性？针对刚开始的问题，如果加以思考，你可能会发现不论是先写MySQL数据库，再删除Redis缓存；还是先删除缓存，再写库，都有可能呈现数据不统一的状况。（1）先删除缓存 1、如果先删除Redis缓存数据，然而还没有来得及写入MySQL，另一个线程就来读取； 2、这个时候发现缓存为空，则去Mysql数据库中读取旧数据写入缓存，此时缓存中为脏数据； 3、而后数据库更新后发现Redis和Mysql呈现了数据不统一的问题。（2）后删除缓存 1、如果先写了库，而后再删除缓存，可怜的写库的线程挂了，导致了缓存没有删除； 2、这个时候就会间接读取旧缓存，最终也导致了数据不统一状况； 3、因为写和读是并发的，没法保障程序,就会呈现缓存和数据库的数据不统一的问题。解决方案1：分布式锁在平时开发中，利用分布式锁可能算是比拟常见的解决方案了。利用分布式锁把缓存操作和数据库操作封装为逻辑上的一个操作能够保证数据的一致性，具体流程为： 1、每个想要操作缓存和数据库的线程都必须先申请分布式锁； 2、如果胜利取得锁，则进行数据库和缓存操作，操作结束开释锁； 3、如果没有取得锁，依据不同业务能够抉择阻塞期待或者轮训，或者间接返回的策略。流程见下图：利用分布式锁是解决分布式事务的一种计划，然而在肯定水平上会升高零碎的性能，而且分布式锁的设计要思考到down机和死锁的意外状况。解决方案2：提早双删在写库前后都进行redis.del(key)操作，并且设定正当的超时工夫。伪代码如下： public void write( String key, Object data ){ redis.delKey( key ); db.updateData( data ); Thread.sleep( 500 ); redis.delKey( key );}具体步骤： ...

关于数据库:深入MaxCompute人力家用MaxCompute-事务表20主键模型去重数据持续降本增效

简介： MaxCompute新增Transaction Table2.0（下文简称事务表2.0)表类型在2023年6月27日开始邀测，反对基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。作者：石玉阳人力家高级数据研发工程师业务简介人力家是由阿里钉钉和人力窝独特投资成立，帮忙客户进入人力资源数字化，依附产品技术创新驱动策略的互联网公司。公司次要提供包含人事管理、薪酬治理、社保治理、增值服务在内的人力资源SaaS服务，减速对人力资源畛域赋能，实现人力资源新工作形式。目前已服务电子商务、批发服务等畛域的多行业客户。人力家是一家典型的守业公司，目前处于一个竞争强烈的市场环境中，公司具备多产品性质，每个产品的数据具备独立性，同时为了配合外部CRM数据需要，更好地把数据整合，对于数仓团队来说是一个不小的挑战，对于数仓团队要求的是稳，准，及时响应。须要数仓团队既要满足外部的数据需要，也须要在计算的老本上实现优化。业务痛点在应用阿里云大数据计算服务MaxCompute过程中发现随着存量数据减少，增量数据去重老本越来越大，具体分析发现有如下4个起因增量数据量级少公司尽管是多产品，但每天新增的用户数据和历史变动的数据量绝对于历史全量数据的量级（GB）比拟下处于较小的数据量级（MB）。历史数据二次计算对于增量数据去重，每天利用昨日历史全量+今日新增数据开窗去重计算，但历史全量数据须要更新的数据局部其实很少，每次都须要把历史数据拉进去进行开窗去重计算，这无疑一笔比拟大的计算成本。开窗去重计算成本大应用row_number函数开窗去重获得业务主键的最新数据须要把昨日历史数据+今日数据合并计算，用户表有亿级别大小，但为了数据去重节俭存储老本和后续的建模运算，这部分老本是偏大的，其实大部分历史数据没有更新，实质上是不须要再次参加运算解决，每天一次的用户表去重单条SQL预估费用达到4.63元（按量付费）。全量拉取老本大如果每天全量拉取业务库数据，数据量是亿级别，但其实更新的数据量级少，对于业务端的db压力大，重大影响业务端db性能。 Transaction Table2.0数据去重改良MaxCompute新增Transaction Table2.0（下文简称事务表2.0)表类型在2023年6月27日开始邀测，MaxCompute反对基于事务表2.0实现近实时的增全量一体的数据存储、计算解决方案。人力家数仓研发团队开始第一工夫理解其个性和性能，人力家数仓团队发现其个性主键模型能够用来进行数据去重，缩小开窗计算成本问题，次要实现形式如下。每日增量用户根底信息开窗去重；因为主键表的主键不能为空，须要过滤出业务主键为空的数据；把每日增量数据开窗去重后的数据间接insert into 主键表，零碎会主动进行依照业务主键进行去重计算。具体改良实际措施整体比照去重SQL执行工夫(单位s）去重SQL预估老本(单位元）一般表1514.63Transaction Table2.0720.06老本和计算工夫比照1、建表语句和插入更新语句更新语句 2、老本和计算分区表去重运行预估老本：预估费用，不能作为理论计费规范，仅供参考，理论费用请以账单为准。主键表去重运行预估老本：预估费用，不能作为理论计费规范，仅供参考，理论费用请以账单为准。分区表计算工夫和资源事务表2.0主键表计算工夫和资源通过上述比照，用户表每天的计算SQL老本从4.63元降落到0.06元，计算工夫缩短一半，reduce_num明显增加，map端缩小，reduce端的数据量显著变多。合并小文件事务表2.0反对近实时增量写入和timetravel查问个性，在数据频繁写入的场景中，必然会引入大量的小文件，须要设计正当高效的合并策略来对小文件进行合并以及数据去重，解决大量小文件读写IO低效以及缓解存储系统的压力，但也要防止频繁Compact引发重大的写放大和抵触失败。目前次要反对两种数据合并形式： Clustering：只是把Commit的DeltaFile合并成一个大文件，不扭转数据内容。零碎外部会依据新增的文件大小、文件数量等因素周期性地执行，不须要用户手动操作。次要解决小文件IO读写效率和稳定性问题。 Compaction：会把所有的数据文件依照肯定策略进行Merge操作，生成一批新的BaseFile，雷同PK的数据行只存储最新的状态，不蕴含任何历史状态，也不会蕴含任何零碎列信息，因而BaseFile自身不反对timetravel操作，次要用于晋升查问效率。反对用户依据业务场景被动触发，也反对通过设置表属性由零碎周期性主动触发。综上面对主键外表对增量数据时，并不会马上对其进行小文件合并，这样会有大量的小文件产生，小文件会占有大量的存储空间且不利于数据查问速度，针对以上状况，咱们能够在insert into 后减少手动合并下主键表的小文件或者也可通过配置表属性依照工夫频率、Commit次数等维度主动触发Compaction机制，或期待零碎进行的Clustering合并。如果是每日的新增仅一次的数据更新，这里更举荐应用零碎的Clustering机制。留神点： desc extend table_name显示进去的file_num 和 size是蕴含回收站数据的，目前没方法精确显示，能够清空回收站数据或者Compaction 察看日志结尾的filenum数量。数据时空旅行查问和历史数据修复对于事务表2.0类型的表，MaxCompute反对查问回溯到源表某个历史工夫或者版本进行历史Snapshot查问（TimeTravel查问），也反对指定源表某个历史工夫区间或者版本区间进行历史增量查问（Incremental查问）, 须要设置acid.data.retain.hours才能够应用TimeTravel查问和Incremental查问。数据时空旅行查问1、基于TimeTravel 查问截止到指定工夫（例如datetime格局的字符串常量）的所有历史数据（须要设置） select * from mf_tt2 timestamp as of '2023-06-26 09:33:00' where dd='01' and hh='01';查问历史数据和版本号 show history for table mf_tt2 partition(dd='01',hh='01');查问截止到指定version常量的所有历史数据 ...

关于数据库:深度解析-PostgreSQL-Protocol-v30一

引言PostgreSQL 应用基于音讯的协定在前端（也能够称为客户端）和后端（也能够称为服务器）之间进行通信。该协定通过 TCP/IP 和 Unix 域套接字反对。《深度解析 PostgreSQL Protocol v3.0》系列技术贴，将带大家深度理解 PostgreSQL Protocol 3.0 版本（在 PostgreSQL 7.4 及更高版本中实现，无关晚期协定版本的形容请参考 PostgreSQL 文档的晚期版本，该系列文章不予赘述）相干的音讯传输格局和格局码、音讯反对的数据类型、音讯的格局、协定交互流程、谬误音讯和告诉音讯、反对的子协定等，相干的代码解读基于 PostgreSQL 代码仓库的 REL_14_STABLE 分支。 PostgreSQL 单个服务器能够反对多个协定版本，能够接管和解决多个不同版本协定的客户端的申请音讯。初始启动申请音讯通知服务器、客户端尝试应用的协定版本：如果客户端申请的次要版本不受服务器反对，则连贯将被回绝（例如，如果客户端申请协定版本 4.0，而服务器端反对的协定版本不存在 4.0，此时就会产生这种状况）；如果服务器不反对客户端申请的主要版本（例如，客户端申请版本为 3.1，但服务器仅反对 3.0，不反对 3.1 版本，此时就会产生这种状况），则服务器能够回绝连贯，或者能够应用蕴含其反对的最高主要协定版本的 NegotiateProtocolVersion 音讯进行响应。客户端能够抉择应用服务器端指定的协定版本持续连贯或停止连贯。为了高效地为多个客户端提供服务，服务器为每个客户端启动一个新的过程进行申请解决。在以后实现中，在服务器检测到客户端的 Socket 连贯后立刻创立新的子过程进行后续的解决，比方 SSL 通信加密协商、启动音讯、身份认证等流程。一、音讯传输的格局客户端和服务器所有的交互都是通过音讯流进行的。每一条音讯次要由三局部组成：音讯类型用于标记音讯的类型，是单个字符或者 1 位的数字。音讯类型长度占用 1 个字节。音讯长度音讯中除了音讯类型之外的字节长度。音讯长度占用 4 个字节。音讯长度的值蕴含了音讯长度自身的 4 个字节长度。计算方法：（1）音讯字节总长度减去 1 字节的音讯类型的长度；（2）音讯内容字节总长度加上音讯长度自身占用的字节数 4。音讯体音讯的具体 payload 内容，例如简略查问的 SQL 内容。须要留神的是，因为历史起因，客户端发送的第一条音讯（启动音讯）没有音讯类型的 1 个字节。服务器和客户端为了防止与音讯散失去同步，通常在尝试解决音讯内容之前将整个音讯读入缓冲区（应用字节计数）。如果在解决音讯内容时检测到谬误，就能够轻松复原。在极其状况下（例如没有足够的内存来缓冲音讯），接收器能够应用字节计数来确定在复原读取音讯之前要跳过多少输出字节长度。服务器和客户端都必须留神不要发送不残缺的音讯。这通常是通过在开始发送之前在缓冲区中编码整个音讯来实现的。如果在发送或接管音讯的过程中产生通信故障，那么惟一理智的做法是断开连接，因为复原音讯边界同步的心愿很小。二、音讯反对的数据类型PostgreSQL Protocol v3.0 的音讯中反对的数据类型只有以下 4 种： Intn(i)n 位二进制示意的整数，为网络字节程序（最高无效字节优先，MSB），n 示意该值占用的位数。如果指定了 i，则 i 是将呈现的确切值；如果未指定 i 值，该值是可变的。例如，Int16 示意一个值未指定的占用 16 位二进制位的整数（占用长度为 2 个字节，占用 16 位二进制）；Int32(42)示意一个值为 42 的占用 32 位二进制位的整数（占用长度为 4 个字节，占用 32 位二进制）。 ...

关于数据库:MySQL-redo-log恢复原理-StoneDB技术分享会-5

StoneDB开源地址 https://github.com/stoneatom/stonedb 设计：小艾审核：丁奇、李浩责编：宇亭作者：罗中天浙江大学-软件工程-在读硕士、StoneDB 内核研发实习生 2023 年 StoneDB 开源之夏我的项目当选学生 redo log 类型innodb 的 redo log 是带有逻辑意义的物理日志：物理指的是 redo log 是针对某一个页来说的，每条 redo log 都会有 Type、Space ID、Page Number 等信息，如下图所示；逻辑指的是一条 redo log 中可能形容的不是在页面上的某个偏移量的地位上写入若干个字节的数据，而是形容在页面上插入或者删除一条什么样的记录。 redo log 的通用构造为 Type (1) + Space ID (4) + Page Number (4) + BodyType 的最高位是一个 Single Record Flag 标记位，如果为 1，示意该 redo log 独自形成一个 mtr。 redo log 依据作用的对象，又能够分为作用于 Page 的 redo log，作用于 space 的 redo log 和提供额定信息的 redo log。作用于 page 的 redo log大多数的 redo log 属于这一类别，常见的有 MLOG\_1BYTE、MLOG\_2BYTES、MLOG\_4BYTES、MLOG\_8BYTES、MLOG\_REC\_INSERT、MLOG\_REC\_CLUST\_DELETE\_MARK、MLOG\_REC\_UPDATE\_IN\_PLACE 等。其中 MLOG\_1BYTE、MLOG\_2BYTES、MLOG\_4BYTES、MLOG\_8BYTES 形容了在页面的某个偏移量处写入若干个字节的数据；MLOG\_REC\_INSERT 形容了在页面上插入一条记录；MLOG\_REC\_CLUST\_DELETE\_MARK 形容了在聚簇索引的页面上删除一条记录（用户线程删除的操作只会打 delete 标记，物理删除的操作由 purge 线程来做）；MLOG\_REC\_UPDATE\_IN\_PLACE 形容了在聚簇索引的页面上原地更新一条记录（即批改的是非索引列的字段，二级索引上的更新不会产生该条日志，因为二级索引上的记录没有版本链，所以更新操作产生的 redo log 为 MLOG\_REC\_CLUST\_DELETE\_MARK + MLOG\_REC\_INSERT）。 ...

关于数据库:MySQL-Shell-8032-for-GreatSQL编译安装

0.写在后面1.筹备工作 1.1 筹备Docker环境1.2 下载源码包1.3 批改MySQL Shell源码包1.4 编译相干软件包2.筹备编译MySQL Shell 2.1 编译MySQL 8.0.322.2 编译MySQL Shell 8.0.322.3 运行测试3.写在最初延长浏览降级MySQL Shell for GreatSQL版本0. 写在后面GreatSQL 8.0.32-24已公布，配套的MySQL Shell也须要跟着降级一波，MySQL Shell版本从8.0.25降级到8.0.32后，也引入了一些不错的新个性。上面正式开始MySQL Shell编译工作。 1. 筹备工作1.1 筹备Docker环境参考编译环境要求 greatsql_docker_build(https://gitee.com/GreatSQL/GreatSQL-Doc/blob/master/greatsql_...) ，构建好一个Docker镜像环境，基本上照着做就行，这里不赘述。 1.2 下载源码包先下载筹备好下列几个源码包： antlr4-cpp-runtime-4.10-source.zip, https://github.com/antlr/website-antlr4/blob/gh-pages/download/antlr4-cpp-runtime-4.10-source.zipboost_1_77_0.tar.gz, https://boostorg.jfrog.io/artifactory/main/release/1.77.0/sou...mysql-8.0.32.tar.gz, https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0....mysql-shell-8.0.32-src.tar.gz, https://downloads.mysql.com/archives/get/p/43/file/mysql-shel...patchelf-0.14.5.tar.gz, https://github.com/NixOS/patchelf/releases/download/0.14.5/patchelf-0.14.5.tar.gzprotobuf-all-3.19.4.tar.gz, https://github.com/protocolbuffers/protobuf/releases/download/v3.19.4/protobuf-all-3.19.4.tar.gzrpcsvc-proto-1.4.tar.gz, https://github.com/thkukuk/rpcsvc-proto/releases/download/v1.4/rpcsvc-proto-1.4.tar.gz下载完后都放在 /opt/ 目录下，并解压缩。 1.3 批改MySQL Shell源码包关上链接：https://gitee.com/GreatSQL/GreatSQL-Doc/blob/master/greatsql_...，下载GreatSQL补丁包文件 mysqlsh-for-greatsql-8.0.32.patch。为了让MySQL Shell反对GreatSQL仲裁节点（ARBITRATOR）个性，须要打上补丁包： $ cd /opt/mysql-shell-8.0.32-src$ patch -p1 -f < /opt/mysqlsh-for-greatsql-8.0.32.patchpatching file mysqlshdk/libs/mysql/group_replication.ccpatching file mysqlshdk/libs/mysql/group_replication.h1.4 编译相干软件包1.43.1 antlr4-4.10编译antlr4须要依赖 uuid 库，先装置上： $ yum install -y libuuid libuuid-devel uuid接着开始编译antlr4： ...

关于数据库:MySQL到SelectDB的实时同步策略

随着数据分析在业务决策中变得日益重要，数据实时同步和剖析成为企业晋升竞争力的要害。MySQL 作为宽泛应用的关系型数据库，其数据存储丰盛，但无奈满足大规模数据分析和高并发查问的需要。而 SelectDB 作为一款专为大数据分析设计的分布式数据仓库，具备高性能、可扩大的特点，其优异的数据处理能力也在行业内广受关注。 01 在什么状况下须要把 MySQL 同步到 SelectDB？大数据分析需要：当您的业务数据量一直增长，MySQL 数据库曾经无奈满足大规模数据分析和查问的需要。实时数据仓库需要：如果您的业务须要实时数据分析和决策，MySQL 可能无奈提供足够的性能和实时性。SelectDB 通过其优良的实时数据同步和解决能力，使您可能在最短时间内获取最新的业务数据。简单多维分析：当您须要进行简单的多维分析、跨维度查问和简单聚合操作时，SelectDB 的分布式架构和优化的查问引擎能够显著进步查问性能，从而减速决策过程。数据存储优化： MySQL 在大数据场景下可能会面临性能降落和存储成本上升的问题。SelectDB 的列式存储和智能压缩等技术，可能高效存储大量数据，并在存储老本和性能之间找到平衡点。02 传统同步形式的弊病咱们的解决方案为上述问题提供了翻新的解决方案，确保您可能高效、精确地将 MySQL 数据实时同步到 SelectDB：停机工夫长：传统的同步形式通常要求同步期间进行业务，并且停机工夫高达数小时，对业务挑战微小。可靠性低：不提供同步过程的观测、诊断与修复能力，同步过程中如果源端在做构造变更容易导致同步异样。同步耗时长：传统 ETL 工具同步过程耗时长、复杂度高，无奈满足高频率的实时同步需要。难以保障数据准确性：不提供数据一致性比照能力，难以保障同步数据的一致性。数据提早：局部解决方案在大数据量、高并发状况下容易导致数据提早。03 NineData 的同步计划有什么亮点？咱们的解决方案为上述问题提供了翻新的解决方案，确保您可能高效、精确地将 MySQL 数据实时同步到 SelectDB：实时同步性能卓越： NineData 采纳先进的数据同步技术，确保数据实时同步到 SelectDB，极大地升高了数据提早，让您的决策基于最新数据。简略配置操作：提供直观的图形化界面，让您轻松配置同步工作，无需编写繁冗的代码，升高了操作门槛和出错机率。牢靠的数据一致性：通过配套的数据一致性比照机制，能够轻松发现同步过程产生的数据不统一的问题，同时提供一键修复性能，为您的业务数据提供牢靠的保障。灵便的定制选项：同步工作能够依据业务需要进行灵便定制，抉择全量同步或增量同步，满足不同场景的数据同步要求。可观测可干涉： NineData 提供弱小的监控告警零碎，及时告诉您同步工作的状态和问题，让您可能迅速响应并解决潜在的同步危险。04 操作应用4.1 一分钟疾速配置同步工作通过 NineData 的数据复制控制台，仅需轻点鼠标，即可轻松实现 MySQL 到 SelectDB 的同步工作配置。 4.2 治理同步工作您能够实时监控同步工作的各项指标，同时能够通过内置的数据比照性能对同步实现后两端的数据进行自动化的比照，保障两端数据的一致性。 NineData 还反对复制限流性能，如果复制工作占用了太多读写资源，能够对写入速率进行限度，保障线上业务的性能。 ▶︎ 查看工作详情 ▶︎ 查看各复制类型详情 ▶︎ 查看数据比照 ▶︎ 配置复制限流 4.3 配置工作告警通过配置工作告警，能够在工作异样的状况下实时获取异样揭示，以便及时处理。 4.4 批改同步对象您能够随时批改工作的同步对象，反对新增、缩小操作。 NineData 数据复制是上云、跨云数据迁徙、同步的利器，10 万笔记录/秒。提供多种数据库的实时数据复制，基于增量日志实时监听获取及解析技术，对源数据库简直无影响的状况下，实现数据近实时的复制。帮忙企业实现多环境数据库的数据迁徙、同城容灾、异地容灾、同构及异构数据实时同步等。 ...

关于数据库:IP归属地的作用

IP归属地指的是依据IP地址确定其所属的地理位置信息。在互联网时代，IP归属地成为了一个重要的工具和技术它在很多方面具备重要的作用。首先，IP归属地能够用于网络安全和网络管理。通过辨认IP归属地，网络管理员能够确定歹意IP地址的地位进而采取相应的防范措施确保网络的平安和稳固。此外，当网络呈现故障时网络管理员能够依据IP归属地信息疾速定位问题所在进步故障排查的效率。其次，IP归属地对于市场剖析和定位也具备重要意义。通过剖析来自不同地区的IP地址，企业能够理解用户的地区散布状况从而针对不同地区的用户制订适合的市场策略。例如，依据IP归属地企业能够推送特定地区的促销流动、优惠券等营销伎俩，进步市场笼罩和销售量。此外，IP归属地还能够用于广告投放和内容定制。依据用户的IP归属地信息，广告商能够将广告投放到适合的地区进步广告的转化率。同时，通过IP归属地网站和应用程序能够依据用户的地理位置提供相应的内容和服务加强用户体验和粘性。最初，IP归属地对于法律执法和取证也具备重要意义。警方和执法机构能够依据犯罪行为的IP起源确定立功嫌疑人的地理位置，从而追踪和抓捕犯罪分子。此外，IP归属地也能够作为法庭取证的重要依据帮忙司法机关确定证据的真实性和可靠性。总之，IP归属地在网络安全、市场剖析广告投放内容定制法律执法等方面起着重要作用。它不仅可能帮忙咱们更好地治理和保护网络安全，还可能为企业提供更精确的市场定位和广告投放策略同时也为警方和司法机关提供法律执法工作的无力反对。随着科技的一直倒退，IP归属地的作用将愈发重要和多样化。

关于数据库:KubeBlocks-060-发布KubeBlocks支持KafkaPulsar多款向量数据库MySQL读写分离啦

KubeBlocks v0.6.0 版本正式公布了！此版本引入了流计算引擎 Kafka、Pulsar 和向量数据库 Qdrant、Weaviate、Milvus，反对了 MySQL 读写拆散，晋升了交互式的参数治理体验。 HighlightsKubeBlocks 反对了 Kafka v3.3 Kafka 是一款开源的分布式事件存储和流计算零碎，为数据管道、流式剖析、数据集成提供了极高的可靠性、吞吐量和极低的提早，被广泛应用于日志收集和指标监控场景。KubeBlocks 反对了 Kafka v3.3，该版本发表 KRaft 曾经满足生产环境要求，可能提供更好的分区可拓展性和弹性，节俭了 ZooKeeper 带来的额定老本。除此之外，KubeBlocks 还反对将 MySQL 和 PostgreSQL 的数据变更推送至 Kafka，不便用户进一步加工解决。 KubeBlocks 反对了 Pulsar v2.11 Apache Pulsar 是一个开源的分布式消息传递和流解决平台。它旨在提供可扩展性、高性能和可靠性，以满足古代数据处理和实时消息传递的需要。KubeBlocks 反对了 Apache Pulsar v2.11，绝对于传统部署形式，KubeBlocks 可自动化实现故障转移、扩缩容等 day2 运维操作。 KubeBlocks 反对了 MySQL 读写拆散读写拆散旨在进步 MySQL 数据库集群的只读解决能力，将所有写入查问都将发送到主节点上，不批改数据的只读查问扩散到多个从节点上。读写拆散与 MySQL Raft Group 集群一起应用，它会自动检测主节点的变动，并应用集群以后的主节点来实现故障转移。通过设置 read_write_splitting_policy ，在 global 或 session 级别关上读写拆散个性，默认策略为 LEAST_CURRENT_OPERATIONS，将只读查问路由到读查问沉闷操作起码的从节点。MySQL Raft Group 集群最大反对 5 个节点。 KubeBlocks反对了风行的向量数据库治理生成式 AI 的火爆彻底点燃了向量数据库（Vector Database）市场，KubeBlocks 反对对向量数据库的一键拉起和管理控制。目前反对 Qdrant（v1.1.0），Weaviate（v1.18.0），以及 Milvus 的治理。 ...

关于数据库:谁能笑傲江湖聊聊8月份中国数据库排行榜与国产数据库选型

引言天下风波出我辈，一入江湖岁月催。有人说，有数据库的中央，就有“江湖”。已经多少前辈满腔热血投入国产数据库事业中，悠悠数十载，又如白驹过隙，最终不知几家欢喜几家愁。截止2023年8月份，墨天轮已收录286种国产数据库参加排名，国产数据库的倒退外表上热火朝天、暮气沉沉，实际上又是暗潮汹涌、危机四伏，走错一步，可能就会满盘皆输。对于数据库江湖的“恩恩怨怨”、“爱恨情仇”，且看上面2023年8月份墨天轮中国数据库风行度排行榜。国产数据库排名以下数据参考自墨天轮：https://www.modb.pro/dbRank 2023年8月共286个数据库产品参加排名，前十名别离是： 1：蚂蚁团体的OceanBase数据库 2：PingCAP公司的TiDB数据库 3：华为公司的openGauss数据库 4：阿里巴巴的PolarDB数据库 5：华为公司的GaussDB数据库 6：武汉达梦公司的达梦数据库 7：人大金仓公司的人大金仓数据库 8：南大通用公司的GBase数据库 9：腾讯云公司的TDSQL数据库 10：阿里云公司的AnalyticDB数据库数据库厂商：通过厂商能够看到，国产数据库厂商梯度曾经非常明显，前十名中，四大老牌国产数据库厂商有三家，别离是达梦、人大金仓，南大通用，均是2000年前后成立的，是研发国产数据库最早的一批，别离排名第6,7,8名。阿里系的有三个，别离排名第1，4，10名。华为有两个，别离排名第3,5名。腾讯有一个，排名第9名。 PingCAP公司2015年成立，和后面几家厂商相比，成立绝对较晚，公司综合能力稍差，但数据库产品TiDB非常强劲，属于国产数据库的“黑马”，间断长时间霸榜，本月居第二名。 db-engines排行榜： https://db-engines.com/en/ranking 420 systems in ranking, August 2023 国产数据库通过国外db-engines数据库热度排行榜来看，国产数据库排名均偏后，其中TiDB排名103名，OceanBase排名147名，国产数据库推向全世界仍有很长一段路要走。国产数据库统计国产数据库数量国产数据库产品数量简直每月都有增长，2020年9月统计104个，到2023年8月曾经增长到286个，依照市场规律，优胜略汰，预计最近几年会呈现显著的降落趋势，集体认为，最终齐全存活下来的国产数据库产品并不会太多，心愿好用的数据库产品可能及早推广进来。按模型统计关系型数据库仍占主导地位，也是竞争最强烈的赛道。模型关系型多模型键值列簇时序空间向量搜寻图数量17631244157632 按解决场景统计解决场景OLTPOLAPHTAP数量1083329 按技术架构统计技术架构集中式分布式数量116137 按部署模式统计部署模式本地部署云原生数量20047按开源/商业统计开源/商业开源商业数量48238双雄争霸 OceanBase vs TiDB自2020年1月起至今，TiDB累计霸榜34个月，直到2022年12月份，OceanBase终于一骑绝尘反超TiDB，摘得冠军，之后又是“极其仁慈”的间断霸榜九个月，本月得分609.61，比TiDB高出了20.09分，从热度排行榜来看，OceanBase仍有显著劣势。两个数据库产品都属于分布式数据库，但具体技术实现上还是有很大差别：简略做下比照：不能齐全说哪种技术肯定优于另一种技术，实用场景不同，适宜的技术也不同。两种数据库从技术上来看，各有优缺点，例如：分布式架构： TiDB 存储计算拆散长处：治理节点、计算节点、存储节点拆散，弹性扩缩容能力较强。毛病： 1.组件更简单，保护老本高； 2.和OceanBase对等架构相比，tidb计算节点无奈像传统数据库实现本地数据缓存，数据访问不能间接从计算节点本地获取，必须通过存储节点获取，当然，存储节点能够缓存，RocksDB 将存储在磁盘上的文件依照肯定大小切分成 block，读取 block 时先去内存中的 BlockCache 中查看该块数据是否存在，存在的话则能够间接从内存中读取而不用拜访磁盘。 ...

关于数据库:NineData-X-SelectDB-联合发布会即将上线

8月30日早晨19:00，由 NineData 和 SelectDB 独特举办的主题为“实时数据驱动，引领企业智能化数据管理”的线上联结发布会，行将如期上线！本次发布会将聚焦于实时数据仓库技术和数据开发能力，展现SelectDB新一代实时数据仓库产品如何解决实时数据分析的行业痛点，以及「NineData如何提供高效、智能、平安的数据管理能力」。单方将独特展现如何通过弱小的生态开发兼容性，对接丰盛的大数据生态产品，助力企业疾速发展数据分析业务，独特摸索实时数据驱动的将来企业智能化数据管理解决方案。 01 面向实时剖析的现代化数据仓库 SelectDB 姜国强SelectDB产品副总裁 ▶︎ 嘉宾简介姜国强，SelectDB 产品副总裁、云产品负责人，曾负责百度 Doris 团队存储引擎研发负责人、腾讯 ES/OLAP 产品研发负责人，具备超过十年的 OLAP 数据库内核研发、设计与团队治理教训。 ▶︎ 演讲纲要随着数字化时代的倒退，数据规模呈爆发式增长、数据类型变得更加简单多样、数据时效的重要性更加受到重视，这使得实时数仓技术正在产生着改革，而云原生时代的到来也对实时数仓带来了新的挑战。在这样的背景下，作为国内利用最为宽泛的开源实时数仓之一，越来越多用户期待 Apache Doris 针对云上基础设施提供更加深度的适配。在这样的背景，基于 Doris 内核研发的云原生存算拆散版本 SelectDB Cloud，在经验数百家企业的打磨后，后续也将开源到 Apache Doris 社区，届时 Apache Doris 将会以存算一体和存算拆散两种状态出现，以满足不同场景用户的需要。在本次演讲中，将为大家带来 Apache Doris 云原生存算拆散架构设计的思考与实际。 ▶︎ 内容亮点面向云上全新基础设施，数据分析架构的演进存算一体和存算拆散两种架构的设计思考将来实时数据仓库倒退的趋势和前景02 NineData数据复制，减速实时数仓构建 陈长城（天羽） 玖章算术技术副总裁 ▶︎ 嘉宾简介陈长城，曾任阿里云数据库中台负责人和阿里云数据库生态工具部总经理，前阿里云资深技术专家。率领阿里云数据库基础设施实现三次架构改革，从去 IOE 到分布式、异地多活、容器化和存储计算拆散，是历年双 11 大促的数据库外围负责人和容量、架构规划者。主导云原生工具体系架构降级并打造一站式治理能力。发表过多篇技术专利和 VLDB、ICDE 数据库顶会论文。 ▶︎ 演讲纲要本议题将依据企业数字化转型背景下面临的数据管理挑战，介绍多云数据管理平台 NineData 的产品架构及它解决的问题。重点介绍多云多源的数据复制能力，联合实时数仓构建场景重点介绍NineData数据复制的技术架构和外围个性，论述 NineData 在数仓集成方面做的性能优化和灵便的ETL能力，揭秘 NineData 在实时性、鲁棒性、可观测可干涉方面的技术设计和劣势，以及 NineData 的典型客户场景案例。 ...

关于数据库:实操教程-触发器实现-Apache-DolphinScheduler-失败钉钉自动告警

作者 | sqlboy-yuzhenc 背景介绍在理论利用中，咱们常常须要将特定的工作告诉给特定的人，尽管 Apache DolphinScheduler 在平安核心提供了告警组和告警实例，然而配置起来绝对简单，并且还须要在定时调度时指定告警组。通过这篇文章，你将学到一个简略的办法，无需任何配置，只须要在用户表（t_ds_user）表中减少字段钉钉名称（dignding_name），创立用户时指定用户的手机号码和保护对应的钉钉名称，就能轻松实现 Apache DolphinScheduler 工作失败时钉钉告警到指定的人。装置插件plpython3upsql etl -U postgrescreate extension plpython3upip装置requestscd /opt && wget https://bootstrap.pypa.io/get-pip.pypython get-pip.pypip install requests创立发送钉钉的存储过程plpython3u为不受信语言，所以只能被超级用户应用sqlcreate or replace function tool.sp_send( message json ,webhook varchar ,secret varchar ) returns text language plpython3u security definer as $function$import requestsimport jsonimport timeimport hmacimport hashlibimport base64import urllib.parse"""/* * 作者 : v-yuzhenc * 性能 : 给钉钉发送一条音讯 * message : 须要发送的音讯，json格局，详情参考https://open.dingtalk.com/document/robots/custom-robot-access * webhook : 钉钉机器人的webhook * secret : 钉钉机器人的secret * */"""v_timestamp = str(round(time.time() * 1000))p_secret = secretsecret_enc = p_secret.encode('utf-8')string_to_sign = '{}\n{}'.format(v_timestamp, p_secret)string_to_sign_enc = string_to_sign.encode('utf-8')hmac_code = hmac.new(secret_enc, string_to_sign_enc, digestmod=hashlib.sha256).digest()v_sign = urllib.parse.quote_plus(base64.b64encode(hmac_code))# 钉钉自定义机器人的webhook地址p_webhook = webhookwebhook_url = p_webhook+"&timestamp="+v_timestamp+"&sign="+v_sign# 要发送的音讯内容p_message = json.loads(message)# 发送POST申请response = requests.post(webhook_url, data=json.dumps(p_message), headers={"Content-Type": "application/json"})# 打印响应后果return response.text$function$;alter function tool.sp_send(json,varchar,varchar) owner to tool;grant execute on function tool.sp_send(json,varchar,varchar) to public;测试发送钉钉的存储过程select sp_send('{ "msgtype": "actionCard", "actionCard": { "title": "我 20 年前想打造一间苹果咖啡厅，而它正是 Apple Store 的前身", "text": "![screenshot](/img/bVc9rHN) \n\n #### 乔布斯 20 年前想打造的苹果咖啡厅 \n\n Apple Store 的设计正从原来满满的科技感走向生活化，而其生活化的走向其实能够追溯到 20 年前苹果一个建设咖啡馆的打算", "btnOrientation": "0", "btns": [ { "title": "内容不错", "actionURL": "https://www.dingtalk.com/" }, { "title": "不感兴趣", "actionURL": "https://www.dingtalk.com/" } ] }}'::json); ...

关于数据库:320-终极预告云原生支持新增-Spark-on-k8S-支持

视频贡献者 | 王维饶视频制作者 | 聂同学编辑整理 | Debra Chen Apache DolphinScheduler 3.2.0 版本将公布，为了让大家提前理解到此版本更新的次要内容，咱们曾经制作了几期视频和内容做了大抵介绍，包含《重磅预报！Apache DolphinScheduler 3.2.0 新性能“剧透”》、《3.2.0 版本预报！Apache DolphinScheduler API 加强相干性能》、《3.2.0 版本预报！近程日志解决 Worker 故障获取不到日志的问题》。明天，咱们来介绍另一个用户也很关注的云原生相干性能更新。 https://www.bilibili.com/video/BV1e8411Q789/?vd_source=e59b22... 明天为各位介绍一下 Apache DolphinScheduler 3.2.0云原生的相干新性能，次要分为两个局部：对K8S工作类型的加强对Spark on K8S新性能的反对K8S工作类型加强咱们次要是介绍三个新性能：反对自定义标签反对自定义节点选择器反对工作日志的实时收集对于前两个性能，因为K8S自身提供了对各类对象去定义Label的能力，使得用户也能够更好地进行对象的治理。另外，用户也能够去定义节点选择器，将对象调度到指定节点上。这两个性能在生产环境中对用户是有很大的帮忙的。因而，3.2.0版本也抉择去实现反对这两个性能。日志实时收集其实是对3.1.X版本的改良。之前，Apache DolphinScheduler只会在任K8S工作执行失败的时候去收集开端起几行谬误日志，但显然实时收集全量日志是对用户更加敌对的一个性能。咱们跑一个K8S类型的工作，来看一下这三点加强的成果（见视频 01:11s-03:06s）。 Spark on K8S反对在3.2.0版本中，Apache DolphinScheduler将反对Spark提交到原生K8S集群的模式。以当时定义好的一个Spark on K8S的工作流为例，在这个Spark工作中，咱们会发现曾经增加了一个新的抉择框—Namespace。如果用户抉择了Namespace，即它非空时，咱们认为用户是期待把这个Spark工作提交到K8S集群上做执行。同样地，在这个工作中，用户也能够去自定义他们的Option，具体能够参考Spark官网，依据本人K8S集群的状态去定义他们的Option。在Spark on K8S的工作中，咱们也会实时地收集Driverpod日志，并对Driverpod进行生命周期治理。如果当前任务是执行胜利的状态，咱们会将Pod删除掉；如果执行失败，Pod会保留在集群中，供用户做诊断剖析。查看运行状态（见视频04:03s-结尾）。本文由白鲸开源科技提供公布反对！

关于数据库:Apache-SeaTunnel-233-版本发布CDC-支持-Schema-Evolution

时隔两个月， Apache SeaTunnel 终于迎来大版本更新。此次公布的 2.3.3 版本在性能和性能上均有较大优化改良，其中大家期待已久的 CDC Schema evolution（DDL 变更同步）、主键 Split 拆分、JDBC Sink 主动建表性能、SeaTunnel Zeta 引擎反对作业配置反对变量替换和传参等都是更新的亮点。这些性能和优化使得 Apache SeaTunnel 具备了更弱小的数据同步能力，大幅晋升了 SeaTunnel 的性能。本文将具体介绍本次更新的具体情况。CDC 相干更新反对 Schema evolution对于 CDC 方面的重要更新，是在架构层面反对了 Schema evolution（DDL 变更同步），这是从架构层面对 DDL 变更事件进行了形象，包含 Source 和 Sink 中相干接口的增加。另外，咱们在 Zeta 引擎中增加了 DDL 变更事件与checkpoint 相干的解决流程。至此，在架构层面，SeaTunnel 曾经满足了反对 DDL 变更同步的所有前提条件，后续就是不同的连接器实现相应的接口，进行 DDL 变更同步的适配工作。 SeaTunnel CDC 相干设计，可参考《解读重要性能个性：新手入门 Apache SeaTunnel CDC》。 Split 拆分优化在本次更新之前，CDC Source 读取时只能基于数值类型的主键列进行 Split 的拆分，而在理论应用场景中，很多表没有主键，或者主键的数据类型是字符串类型，这会导致无奈进行 CDC 同步。本次更新增加了两个重大 feature：一个是反对惟一索引作为 split 拆分字段；另一个是反对字符串类型的字段进行split拆分。这意味着只有 source 表中领有主键列或者惟一索引列，并且列的类型是数值或者字符串，就能主动进行 split 的拆分，从而疾速实现 CDC 的读取。另外，新版本对于基于字符串类型列进行 split 拆分的算法进行了优化，通过测试，一张领有 4 亿行，60 个字段的 MySQL 数据表，针对字符串类型主键的 split 拆分由原来的 3 个小时缩短到 20 分钟。在 JDBC Source 的 partition 拆分中，咱们增加了同样的算法，从而让 JDBC Source 针对字符串类型的 split 拆分也失去了优化。 ...

关于数据库:使用了代理IP能够被识别出来吗

随着互联网的倒退和全球化的推动，网络安全问题日益凸显。为了保障本人的隐衷和平安，很多人开始应用代理IP来暗藏本人的实在IP地址。然而，应用代理IP是否真的可能将本人的身份暗藏起来呢？这是一个备受关注的问题。首先，咱们须要理解什么是代理IP。代理IP是一种网络技术，它通过在用户和网站之间建设一个两头服务器将用户的申请转发给指标网站从而暗藏用户的实在IP地址。通过应用代理IP，用户能够绕过一些限度、屏蔽或防火墙，达到浏览、拜访被封闭的网站的目标。然而，只管代理IP可能在肯定水平上暗藏用户的实在IP地址然而通过一些技术手段依然能够对应用代理IP的用户进行辨认。一种常见的辨认形式是查问IP地址信息每个IP地址都是惟一的，而且具备肯定的地理位置信息。通过查问IP地址信息，能够得悉该IP地址属于哪个地理位置这就可能裸露用户的实在地理位置。此外，还有一些其余的识别方法。例如，网站能够通过剖析用户的浏览行为、登录记录和用户代理标识等信息，来判断用户是否应用了代理IP。通过剖析用户的申请频率、申请门路等数据，也能够揣测出用户是否应用了代理IP。尽管应用代理IP可能无奈齐全暗藏用户的实在IP地址，然而它依然具备肯定的平安和隐衷爱护作用。对于一些一般的网络流动，应用代理IP曾经足够爱护用户的隐衷。然而对于一些敏感信息或重要的网络操作，倡议应用更加牢靠的平安技术如VPN、TOR等，来进一步爱护个人隐私。总之，应用代理IP可能在肯定水平上暗藏用户的实在IP地址然而依然存在被辨认的可能性。在应用代理IP时，用户应该留神本人的网络行为防止留下可被辨认的痕迹。同时，对于一些重要的网络操作倡议应用更加牢靠的平安技术来进一步提高隐衷爱护程度。网络安全是一个一直倒退的畛域，咱们须要保持警惕，并踊跃采取措施爱护本人的网络隐衷。

关于数据库:myloader导入更快吗并没有

0.论断后行1.背景介绍2.测试过程3.后果比照附录myloader还默认禁用binlog了0. 论断后行重要论断先说：导入大批量数据时，采纳GreatSQL 8.0.32-24中新增并行load data个性是最快的，对于该个性的形容详见：Changes in GreatSQL 8.0.32-24。 1. 背景介绍前几天我用MySQL官网提供的airportdb库中的weatherdata表做测试，论断是相比原生快了约5倍。群里有小伙伴反驳说用myloader更香，于是就有了本次测试。因为weatherdata表较小，表空间只有228MB，所以我改用sysbench表做测试，该表共600万行数据，表空间约1.5GB，其余信息如下： greatsql> show create table myload\G*************************** 1. row *************************** Table: myloadCreate Table:CREATE TABLE `myload` ( `id` int NOT NULL AUTO_INCREMENT, `k` int NOT NULL DEFAULT '0', `c` char(120) NOT NULL DEFAULT '', `pad` char(60) NOT NULL DEFAULT '', PRIMARY KEY (`id`), KEY `k_2` (`k`)) ENGINE=InnoDB AUTO_INCREMENT=6194244 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;greatsql> show table status like 'myload'\G*************************** 1. row *************************** Name: myload Engine: InnoDB Version: 10 Row_format: Dynamic Rows: 5930876 Avg_row_length: 233 Data_length: 1385168896Max_data_length: 0 Index_length: 153894912 Data_free: 7340032 Auto_increment: 6194244 Create_time: 2023-07-08 09:25:02 Update_time: 2023-07-08 09:25:33 Check_time: NULL Collation: utf8mb4_0900_ai_ci Checksum: NULL Create_options: Comment:2. 测试过程本次测试基于GreatSQL 8.0.32-24版本，其余相干信息如下： ...

关于数据库:ip地址查询进行企业网络数据管理

在古代企业中，数据管理变得越来越重要。企业须要理解和管制其网络上的各种数据流动，以爱护敏感信息并进步网络安全性。IP地址查问是一种罕用的技术，能够帮忙企业无效地管理网络数据，并辨认潜在的威逼。 IP地址查问是通过查找特定IP地址的相干信息来确定该地址的起源和归属地的过程。这些信息能够包含IP地址的所有者、注册人和物理地位等。在企业网络数据管理中，IP地址查问能够用于以下几个方面。首先，IP地址查问能够帮忙企业确定网络流动的起源。通过查找特定IP地址的相干信息，企业能够理解到该地址是属于哪个公司或组织。这对于企业来说十分重要，因为它能够帮忙企业辨认来自不同起源的网络流量并作出相应的决策。例如，企业能够依据IP地址的起源来限度或容许某些网络流动。其次，IP地址查问能够用于网络安全监控。通过定期查问IP地址的信息，企业能够辨认出潜在的网络威逼。例如，如果企业发现某个IP地址被标记为歹意流动起源那么企业能够采取相应的措施来阻止或限度该IP地址的拜访。这有助于进步企业的网络安全性，爱护敏感信息免受攻打。此外，IP地址查问还能够用于网络性能优化。通过查找IP地址的物理地位，企业能够理解到用户的地理位置信息。这对于企业来说十分有价值，因为它能够帮忙企业依据用户的地理位置优化网络服务和内容散发。例如，企业能够依据用户所在地区提供更快的服务响应或依据用户的地理位置提供相干的地理信息。最初，IP地址查问还能够用于法律合规。在某些状况下，企业可能须要定期查问IP地址以满足法律合规的要求。例如，在某些国家或地区，企业可能须要记录和报告特定IP地址的流动以合乎当地的法律和监管要求。IP地址查问能够帮忙企业满足这些要求，并确保其网络数据管理合乎相干的法律和法规。

关于数据库:为什么要使用IP地址进行定位

IP地址定位是一种以互联网协议地址（IP地址）为根底的技术，它可能精确地确定一个设施在互联网上的地位。这种技术的利用范畴十分宽泛，从个人用户到企业机构甚至是国家平安和网络安全等畛域都须要应用IP地址定位。首先，IP地址定位的最大作用是帮忙用户追踪和定位设施的地位。对于个人用户而言，当手机或电脑失落时能够通过IP地址定位的技术找回失物。同时，企业机构也能够通过IP地址定位来追踪和治理设施增强对网络资源的管制和爱护。此外，对于网络安全和国家平安等畛域而言IP地址定位更是一种重要的伎俩能够追踪和定位歹意攻击者和网络犯罪分子爱护网络安全和国家平安。其次，IP地址定位还能够实现对网络服务的优化和定制。通过依据用户的IP地址定位，网络服务提供商能够依据用户的地理位置和需要将服务内容、速度和用户体验进行优化和定制。例如，通过IP地址定位能够实现地区部分化的广告投放使得广告更具针对性和成果性。同时，通过IP地址定位还能够实现依据用户所在地区提供相应语言、货币内容等个性化服务。再次，IP地址定位对于剖析和钻研用户行为和趋势具备重要意义。通过对大量用户的IP地址进行定位和剖析，能够理解不同地区的用户爱好、生产能力社会经济情况等信息。这些数据对于企业市场定位、产品设计市场营销等方面具备指导作用。同时，对于学术研究和社会考察等畛域而言通过IP地址定位能够取得更加精确和全面的数据有助于钻研人员进行数据分析和推断。然而，随着互联网的倒退和技术的提高IP地址定位也面临着一些挑战。例如，隐私权爱护成为了一个重要的问题因为通过IP地址定位能够追踪用户的实在身份和行踪。因而，对于IP地址定位技术的应用和治理须要增强相干的法律法规和政策的制订爱护用户的隐私权和信息安全。

关于数据库:SphereEx-DBPlusEngine-更全面更便捷的-ShardingSphere-的商业版功能全览

ShardingSphere 开源我的项目发展史Apache ShardingSphere，作为寰球出名的根底软件开源我的项目，最早可追溯到 2015 年。其最后版本是由国内出名互联网公司外部我的项目孵化而成，其目标是为了解决数据库程度拆分而产生的分布式问题。在 2016 年正式开源，逐步失去了更多公司的关注和奉献，我的项目规模和影响力逐渐扩充。在 2018 年， Apache 基金会孵化器；并于 2020 年成为顶级我的项目胜利孵化。到目前，Apache ShardingSphere 在寰球领有宽泛影响力，并保持高速增长中。其领有了良好的生态圈，大量来自社区贡献者和用户独特促成我的项目的继续沉闷倒退。应用畛域已不再局限于数据分片，而是宽泛扩大到数据安全、数据治理、流量管制等多畛域，成为企业构建数据基础设施的利器。 SphereEx 商业版本 DBPlusEngine 发展史作为一款景象级开源产品，Apache ShardingSphere 在开源畛域获得了微小的胜利，但受限于开源模式局限，企业级用户在应用上仍存在诸多难点和痛点。为了更好地促成软件技术本身的倒退与创立，同时为企业带来更大的商业价值。Apache ShardingSphere 外围团队于 2021 年成立了开源商业化公司—— SphereEx，心愿通过开源商业化这一模式一方面反哺开源社区，继续推动开源我的项目的稳固、高速倒退；另一方面通过基于开源构建的商业产品(命名为 SphereEx-DBPlusEngine )，服务宽广数字化转型中的企业，为企业带来更大商业价值。通过两年多的商业倒退，SphereEx 公司已实现基于开源版本的加强企业版并取得行业多畛域 KOL 认可，实现初步的商业化落地。目前公司产品已笼罩分布式数据库、数据安全、信创替换革新等多场景，用户包含金融、生产、领取、物流、媒体、游戏、政企等多行业用户，帮忙宽广用户解决了底层数据基础设施的诸多痛点。商业产品亮点技术能力数据库兼容性在开源版本中，已反对常见的开源数据库，包含 MySQL、PostgreSQL 及 openGauss 及局部海内商业数据库。在 SphereEx-DBPlusEngine 中，针对用户自主翻新类需要，更多减少了对国产商业数据库及云数据库的反对。用户可基于这些商业数据库产品，实现如分布式、数据安全等能力。此外，针对剖析类场景，SphereEx-DBPlusEngine 还反对包含支流剖析型数据库和大数据平台(如 Hive 、Presto )的反对。数据分片开源产品中已内置了包含范畴、哈希等惯例分片算法。在 SphereEx-DBPlusEngine 中，重点在加强分片的易用性，减低分片难度及更为贴近业务侧。一方面在 SphereEx-DBPlusEngine 中提供如主动分片性能，即用户无需指定分片策略，零碎主动实现分片，这样可大大降低分片设计保护量；另一方面通过一键分片性能，解决从非分片到分片及不同分片形式间的迁徙难点，实现业务在线无感切换。此外，针对来自业务方的非凡分片需要，商业版本也提供定制加强能力，可实现更为贴近业务的“最优分片策略”。分布式事务当面临海量数据规模下，数据分片是必要的抉择，那么分布式事务就不可避免。开源产品，仅实现对根本分布式事务的反对能力，但要想在正式生产环境中应用还需利用侧做不少工作，如复原日志长久化，复原自动化等。在 SphereEx 的 SphereEx-DBPlusEngine 中，针对分布式事务局部做了特有加强，达到生产可用级别，解决了包含事务异样回滚、强一致性事务保障等痛点，解决用户在线实用问题。数据加密开源产品仅反对根本的加密能力，提供了 MD5 、AES 等根本加密算法。在 SphereEx-DBPlusEngine 中，突出在商业加密算法、密钥治理、数据加密切换、更强的密态计算等环节能力。在加密算法方面，除了反对根本算法外，还反对了包含国密算法在内的更多加密算法。在密钥治理方面，可实现对接多种密钥治理形式，满足在私有化、云及有软硬联合方面的诉求。针对用户最为关怀的加密革新方面，除了实现利用免革新加密外，可提供数据的一键洗数能力，实现在线平滑过渡。为解决用户针对危险的担心，还提供如反洗数、同步双写、明文生产等能力。针对传统企业用户依赖的存储过程，还反对了存储过程的主动改写能力，实现库内计算的主动加解密。此外，SphereEx-DBPlusEngine 还能够与敏感数据辨认工具联动，提供一站式的辨认、革新、迁徙。读写拆散开源产品中反对无限读写拆散能力，在 SphereEx-DBPlusEngine 中，不仅反对依据 SQL 语义的读写拆散能力及判断是否处于事务中，处于事务中的语句会路由到主库执行。还加强了诸如延时探测和高可用感知能力。针对普遍存在的主从提早问题，可设置阈值，依据提早状况抉择路由到主库还是从库。通过这样的解决形式，可更好地满足实时性要求较高的查问场景。此外，配合高可用感知能力，如果数据库产生异样，可灵便切换到其余可用数据库，利用齐全无感知。数据库网关SphereEx-DBPlusEngine 可提供基于数据库之上的多种网关能力，包含数据库防火墙、数据双写、数据归档能力。数据库防火墙，通过用户定义的规定，可实现对语句的精准管制，防止低效、高危语句的执行。如可实现在数据分片状况下，查问语句必须带有分片键等策略，保障执行效率。数据双写，则是提供针对异构数据源的反对，可实现不同数据库的强统一同步写入，保证数据的冗余保留，进步数据可用性。数据归档，则是提供冷热数据拆散能力，可依照工夫策略将冷的数据归档在独立存储中，以实现更好的经济性；同时还提供全局拜访能力，即在数据分层状况下依然可提供残缺数据的查问能力。混合计算SphereEx-DBPlusEngine 实现基于异构数据库之上的混合计算能力，可提供包含 HTAP、联邦查问、缓存一体化、冷热数据归档与计算能力。在 HTAP 方面，可实现针对 TP 与 AP 数据库的混合计算，可依据负载、数据规模、老本等抉择不同的执行引擎，并实现语句主动改写。在联邦查问方面，可实现跨多种不同数据库引擎的计算能力，在算子尽量下推的前提下也提供了下层算子汇聚计算能力。在缓存一体化方面，实现缓存与数据库的对立拜访接口，实现从 SQL 接口拜访缓存的能力，并实现数据从数据库到缓存的同步。在冷热数据归档与计算方面，可实现按归档策略主动数据分层，不同层数据保留在不同存储引擎中，并通过 SphereEx-DBPlusEngine 实现对立查问。权限角色开源产品提供了基于用户的受权能力。在 SphereEx-DBPlusEngine 中，提供与数据库“等效”的受权能力，包含基于用户角色的受权、对库表列细粒度权限管制，为用户打造跨数据库平台之上的数据权限治理提供保障。用户可齐全基于此能力打造公司级数据对立权限管控。此外，为进一步升高用户应用老本，SphereEx-DBPlusEngine 还提供对接第三方认证受权零碎的能力，可疾速接入如 LDAP、SSO 等零碎。弹性伸缩在散布架构下，资源伸缩能力很要害。因开源产品提供的是一组无状态的计算节点，可实现最根本的计算节点扩容。在 SphereEx-DBPlusEngine 中，其采纳规范的存算拆散架构，反对对计算节点、存储节点的扩缩容能力，可依据用户须要扩大或膨胀节点资源。其中对应存储节点上的数据，可同步采纳数据重散布策略，实现资源开释。在重散布过程中，从全量数据迁徙、增量数据迁徙、数据品质比对、元数据切换的全过程全副自动化。如果是采纳 Kubernetes 环境，则可更充分利用这一资源供应形式，实现包含负载与语句管制，实现资源的主动伸缩。高可用高可用能力，是可能将软件应用在要害业务零碎的次要考查要求。之前的开源版本，基于无状态的计算节点，是局部实现计算节点的高可用。在 SphereEx-DBPlusEngine 中，更进一步欠缺了上述能力并有所补充。基于计算节点，提供了计算节点自愈能力；针对存储节点，则实现对接多种存储端的感知与自愈能力，实现在数据库异样时，通过高可用能力实现利用无感知切换，这也是与开源版本的区别之一。元数据去中心化存储在 Kubernetes 环境下，SphereEx-DBPlusEngine 提供去中心化存储的能力，用户不须要自行部署注册核心。通过商业版本的无状态 Mate 组件，可齐全代替如 ZooKeeper、Etcd 等组件，防止了繁琐的运维工作。监控诊断监控诊断能力，是用户疾速发现问题、解决问题的根据。开源产品中，通过与第三方工具集成，提供肯定的链路跟踪能力。在 SphereEx-DBPlusEngine 中，则实现了监控、诊断的性能闭环，提供从多维度监控到全链路跟踪能力。包含从主机、利用、语句多种维度，从计算、存储、治理核心等多对象的残缺监控及图形化展现能力。对更进一步的剖析，则通过内置的链路剖析能力来实现。数据集成数据集成，对使用者疾速上手应用，疾速融入到现有数据环境很重要。在 SphereEx-DBPlusEngine 中，则提供多种集成形式。一方面可通过数据的导入导出，实现数据的离线流转；一方面通过如 insert ... select 的语句能力，实现外部数据集成。此外，通过全局 CDC (change data capture) 能力，实现更为广大的、跨零碎的数据集成能力，可与包含 Kafka 等平台集成，实现数据集成流转。控制台 & DistSQL软件的易用性十分重要。在开源版本中，用户次要是通过配置文件和 DistSQL （这是一品种 SQL 的扩大）的形式进行治理，存在肯定的应用门槛。在 SphereEx-DBPlusEngine 中，提供了图形化治理控制台，可在其上实现从装置部署、日常治理、备份复原、监控诊断等诸多能力，进一步升高用户应用门槛。此外，针对 Kubernetes 环境，还提供了操作资源的 operator，不便用户疾速构建。 ...

关于数据库:不容错过-IvorySQL外部贡献者计划开启寻找开源锦鲤

在广袤的开源世界中，泛滥优良的开发者默默耕耘，为技术提高奉献着本人的力量。然而，有时候机会就像一条微小的锦鲤，忽然跃出水面，让你成为众人注目的焦点。这一次，你的机会来了，你就是IvorySQL要找的锦鲤！为IvorySQL代码做奉献，赢取「“象牙币”，换取等价奖金！」你的每一行代码、每一个改良都将为IvorySQL削减新的生机和可能，享受这个过程，置信本人的能力，你将成为IvorySQL重要外围开发成员。无论你是有教训的开发者还是刚刚入门的老手，咱们都欢迎您的退出！ PART.01 参加步骤 1、登录GitHub，进入IvorySQL的我的项目主页 https://github.com/IvorySQL 2、抉择/创立您想要奉献的Issue点击页面中的“Projects”按钮，而后点击“IvorySQL Developer Event 2023”进入本次开发者流动的Issue列表，抉择/创立您想要奉献的Issue。 3、提交代码，实现合并将对应我的项目的代码Fork至您的集体 GitHub 账户，创立一个新的Branch进行代码批改，本地测试实现后提交PR，期待维护者Review，符合标准的PR将被Merge，Merge后即视合入PR实现。留神：PR内容中需增加对应的Issue编号--“#xxx”。提交PR后，您可将PR链接粘贴至对应Issue评论中，有助于维护者更快Merge您的PR。Dear Developer:如果您发现了master分支上新的问题或者违心提交新的性能，欢送到 IvorySQL 我的项目中创立新的 Issue，并分割咱们的工作人员将该 Issue退出到本次开发者流动中的Issue 列表中。By IvorySQL PART.02 流动处分 PART.03 评比规定您的代码将会由IvorySQL代码评审委员会进行严格审核并给出审核意见，咱们会依据合入PR代码进行综合评估排名，并发放相应的荣誉和奖金。IvorySQL社区坚守公开通明的准则，将对奉献人员及其奉献代码进行公示，确保流动的偏心和公正。流动周期：8月24日--10月13日 24：00 Dear Developer:在您提交Issue或PR后，咱们倡议与对应我的项目保护人员通过评论等形式进行交换，无效沟通有助于放慢PR的合入过程，确保您的奉献可能及时被接收。By IvorySQL 00000 流动交换群小助理微信 *有任何问题请分割下方小助理微信（IvorySQL_official）。*流动具体操作指南，请查看：https://kdocs.cn/l/cnFjqyrwWvQD*如流动交换群二维码过期，请增加小助理微信进入流动交换群。*注：本次流动最终解释权归IvorySQL社区所有

关于数据库:活动-塑造软件新生态-赋能发展新变革GreatSQL-受邀2023国际软博会

塑造软件新生态，赋能倒退新改革。 8月31日-9月2日，第二十五届中国国内软件博览会将于天津梅江会展中心召开。本届软博会由中国电子信息行业联合会主办，聚焦寰球软件前沿技术与产业倒退方向，充沛展现软件赋能数字经济、信息技术利用翻新、工业互联网平台、智能制作及元宇宙等多畛域倒退成绩，为全国乃至寰球软件行业高质量倒退聚智聚“力”。大会围绕“塑造软件新生态赋能倒退新改革”主题，发展1+1+N+1流动，即：1场开幕式暨主题峰会、1场软件人之夜、N场平行流动、1个软件成绩主题展和多场公布流动，邀请国家部委领导、两院院士、专家学者、软件及信息技术行业大咖、国内领军企业、软件百强企业、独角兽企业等130余家企业及诸多专家学者参展，预计吸引超万名观众加入。 GreatSQL作为国内自主开源数据库社区，受邀亮相本届软博会开源区展览。现场参观 GreatSQL 展位，即能理解社区最新开源成绩，参加互动流动还可支付多重社区精美周边。开源之门为您关上 GreatSQL诚意邀您畅游、共建、共享开源世界 8月31日-9月2日快来现场参加互动吧！社区互动与礼品：扫码关注 GreatSQL 社区公众号并胜利注册社区网站账号，即可获取社区精美小礼品一份！现场参加回复社区论坛茶话会“唠嗑 IT 防汛——机房遇到暴雨怎么办？”，发表乏味经验，可支付社区神秘定制周边一份！对于 GreatSQL 社区： GreatSQL 社区成立于 2021 年，由万里数据库发动，致力于通过凋谢的社区单干，构建国内自主开源数据库版本及开源数据库技术，推动中国开源数据库及利用生态凋敝倒退。社区旗下主开源我的项目 GreatSQL 是实用于金融级利用的国内自主开源数据库，具备高性能、高牢靠、高易用性、高平安等多个外围个性，能够作为 MySQL 或 Percona Server 的可选替换，用于线上生产环境，且完全免费并兼容 MySQL 或 Percona Server。 Enjoy GreatSQL :) ## 对于 GreatSQL GreatSQL是实用于金融级利用的国内自主开源数据库，具备高性能、高牢靠、高易用性、高平安等多个外围个性，能够作为MySQL或Percona Server的可选替换，用于线上生产环境，且完全免费并兼容MySQL或Percona Server。相干链接： GreatSQL社区 Gitee GitHub Bilibili GreatSQL社区：社区博客有奖征稿详情：https://greatsql.cn/thread-100-1-1.html 技术交换群：微信：扫码增加GreatSQL社区助手微信好友，发送验证信息加群。

关于数据库:IP应用场景是如何分配的

IP地址利用场景的调配是通过互联网号码调配机构（IANA）和各地区互联网注册管理机构（RIR）来进行的。IP地址查问：IP66，以下是一些常见的利用场景和调配形式：互联网服务提供商（ISP）：ISP是通过RIR调配肯定数量的IP地址来向用户提供互联网接入服务。这些IP地址能够是公共IP地址（用于公共互联网连贯）或专用IP地址（用于公有网络连接）。企业和组织：企业和组织能够通过ISP或者间接向RIR申请IP地址。他们能够应用这些IP地址来搭建本人的外部网络，或者为本人的服务提供公共互联网连贯。个人用户：个人用户通常是通过ISP来取得IP地址。ISP会提供一个公共IP地址给用户，以便他们可能连贯到互联网。服务器和虚拟主机：服务器和虚拟主机提供商通常会从ISP或者RIR取得一批IP地址，用于为用户提供互联网托管服务。每个服务器或虚拟主机通常会被调配一个惟一的IP地址。挪动设施和物联网：挪动设施、传感器和其余物联网设施通常会通过挪动网络或者无线网络连贯到互联网。这些设施能够取得一个长期的IP地址，或者通过网络运营商提供的特定形式进行寻址。通过这种形式，IP地址在互联网中被正当调配以确保能够为所有连贯到互联网的设施提供惟一的标识，并保障网络失常运行。

关于数据库:当高并发来袭StarRocks-Query-Cache-一招搞定

您是否已经遇到这样的状况？每天早上或业务流动高峰期，大量用户涌入报表平台或数据利用，心愿查看特定业务畛域的最新指标或趋势。这些用户可能会基于宏大的数据集进行大量相似的聚合查问，造成集群的 CPU 负载继续攀升，从而导致查问性能一直下滑。针对这种高并发且出现肯定法则的查问，是否存在一种办法能够让集群在解决时智能地“精简计算量”呢？ 1、StarRocks Query Cache（查问缓存）为了解决这一问题， StarRocks 研发了 Query Cache（查问缓存）。它的作用是将本地聚合的两头后果缓存在内存中，以供后续复用。当执行查问时，StarRocks 会优先查看 Query Cache。如果发现雷同查问语义的后果曾经存在于缓存中，就能够间接复用这些两头后果，防止反复计算，从而节俭了磁盘拜访和局部计算开销，无效晋升查问性能。值得注意的是，Query Cache 并不是 Result Cache，它缓存的是查问过程中的聚合两头后果而不是最终后果，因而大大晋升了缓存的命中率。即使对于不完全一致的查问，也能起到减速作用。据测试结果显示，在高并发场景下，Query Cache 能够将查问效率进步 3 至 17 倍，从而无效加重集群的负载压力，提供更疾速的查问响应工夫，使得整个零碎在高峰期仍然可能放弃高性能运行。（Query Cache 机制） 2、面向更多场景设计，最大限度晋升缓存复用率StarRocks 的 Query Cache 在设计时就思考了如何可能让缓存的信息最大水平失去复用。整体来讲，下列三个场景均能够利用到 Query Cache：语义等价的查问扫描分区重合的查问：基于谓词的查问拆分仅波及追加写入（无删除及更新）数据的查问：多版本缓存能力（1）语义等价的查问相似上图的例子，左图的子查问与右图在语义上是等价的，因而在执行了其中一个后，另一个查问就能够复用缓存中的后果减速查问。语义等价还蕴含十分多的场景，更多例子请见：(https://docs.starrocks.io/zh-cn/latest/using_starrocks/query_cache)#语义等价的查问（2）扫描分区重合的查问：基于谓词的查问拆分在上图的两个查问中，ts 是分区列，查问仅在分区列的筛选区间上有区别，并且其中一部分区间是重叠的。在执行任意查问时，StarRocks 会将谓词中的区间依照分区来切割，并依照分区级别缓存聚合两头后果。在下次执行时，就能够复用有重叠的分区后果，达到查问减速的成果。更多例子请见：https://docs.starrocks.io/zh-cn/latest/using_starrocks/query_cache#扫描分区重合的查问（3）仅波及追加写入数据的查问：多版本缓存能力除了上述在不同查问中尽可能复用 Cache，还有一类场景须要思考：如果数据变动了该如何应答？Query Cache 能够在只有追加写入（append）的场景下被复用。总体来说，随着数据导入，Tablet 会产生新的版本，进而导致 Query Cache 中缓存后果的 Tablet 版本落后于理论的 Tablet 版本。这时候，多版本 Cache 机制会尝试把 Query Cache 中缓存的后果与磁盘上存储的增量数据合并，确保新查问可能获取到最新版本的 Tablet 数据。更多例子请见：https://docs.starrocks.io/zh-cn/latest/using_starrocks/query_cache#仅波及追加写入数据的查问3、在这些场景上，Query Cache 能事倍功半依据下面的解说，能够看出相比基于后果的 Result Cache，基于聚合两头后果的 Query Cache 可能被更大程度地利用。因此 Query Cache 就更实用于以下的查问场景： ...

关于数据库:IP网络战争分为哪些层面

IP网络和平是指通过互联网进行的攻打和进攻行为，旨在毁坏对方的网络基础设施和信息系统。这种和平能够分为多个层面，以下是其中的几个重要层面：1.物理层：物理层是网络通信的根底，包含网络设备和通信线路。在物理层的网络和平中，攻击者会试图毁坏对方的网络设备或者烦扰通信线路以减弱对方的网络性能。这种攻击方式经常会导致网络的瘫痪，甚至影响到整个国家的通信零碎。 2.链路层：链路层是网络中负责数据帧传输的档次，次要负责数据的传输、谬误检测和修改等性能。在链路层的网络和平中，攻击者会烦扰数据的传输例如截获或批改数据包以及伪造和坑骗网络设备。这种攻击方式能够导致数据泄露、数据篡改以及网络的不稳固。 3.网络层：网络层是负责数据包在网络中传输的档次，次要负责数据包的路由和转发。在网络层的网络和平中，攻击者会试图阻止对方的数据包传输或者将对方的数据包重定向到谬误的目的地。这种攻击方式会导致数据流量的中断或碰壁，影响网络的可用性和可靠性。 4.传输层：传输层负责数据的分段和重组，以确保数据的牢靠传输。在传输层的网络和平中，攻击者会试图烦扰数据的传输例如通过拒绝服务攻打使对方的服务不可用或者批改数据包以获取敏感信息。这种攻击方式会对网络的稳定性和安全性造成重大威逼。 5.应用层：应用层是网络中最高档次的协定，负责用户应用程序的交互和数据传输。在应用层的网络和平中，攻击者会通过各种伎俩烦扰对方的应用程序例如通过网络钓鱼攻打获取用户的个人信息或者通过恶意软件攻打感化对方的计算机系统。这种攻击方式对用户的隐衷和平安造成重大威逼。总结起来，IP网络和平涵盖了物理层、链路层网络层传输层和应用层等多个层面。在每个层面上都存在着各种攻打伎俩和进攻策略，保障网络的稳定性和安全性成为了当下互联网倒退的重要课题。只有通过一直的技术创新和单干，能力有效应对IP网络和平的挑战。

关于数据库:精彩回顾｜ACDU-中国行杭州站数据库主题交流活动成功举办

8月19日下午，【ACDU 中国行·杭州站】在杭州西溪万怡酒店圆满落下帷幕。本次流动由中国数据库联盟（ACDU）联结墨天轮社区主办，蚂蚁团体 OceanBase 及亚信科技 AntDB 资助反对。六位数据库行业领军人物围绕「数据库技术揭秘及利用实际」这一主题，聚焦数据库技术的外围因素、数据库降本增效、智能运维等热门话题开展了精彩的分享。本次流动吸引了200余位技术从业者线下参加，现场氛围热烈、激情磅礴。（本次大会PPT在文末下载）。目前成千上万的企业面临着指数级递增的海量存储需要和挑战，同时企业须要降本增效，进行更好更智能的数据决策。如何走好“降本增效”的要害一步？ OceanBase 资深研发总监庄明强（华庭）以《聊聊数据库降本增效的思考》为题论述了他的观点。首先，从用户需要登程，他认为用户对数据库的性价比非常看重，然而真正能留住用户的是产品的稳定性和应用性。其次，庄明强具体介绍了 OceanBase 在降本增效方面的摸索和实际。OceanBase 在存储引擎设计、行列混合存储、云原生方面的钻研能真正晋升其硬实力。最初，他示意 Serverless 能为用户升高应用老本的同时，在将来也会面临微小的技术挑战。 OceanBase 资深研发总监庄明强近年来，PostgreSQL 受到越来越多用户的欢送和认可，欠缺的软件生态是其风行度居高不下的关键因素之一。PG中文社区常委 & 乘数科技创始人唐成从PG最弱小的四个生态方面登程（插件生态、高可用生态、备份生态以及衍生版本），剖析了PG极具生态劣势的起因。分享伊始，他总结了 PostgreSQL 领有丰盛插件的五大理由。其有弱小的插件框架，用户写一个简略的C语言函数，就能够作为 SQL 函数应用。此外，他还介绍了PG自带的插件以及一些好用的第三方插件。在高可用、备份分享环节，他剖析了罕用的几种高可用计划、备份工具的优劣性，从不同维度比照，现场观众受害良多。 PG中文社区常委 & 乘数科技创始人唐成随着数据库规模急速扩充，传统的数据库运维形式曾经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求。AntDB 数据库始于2008年，经验了15年精心锻炼，已在通信运营商外围零碎数十年如一日安稳运行，平安高效。AntDB 数据库售前解决方案专家吴勇强率领咱们现场揭秘 AntDB 数据库稳与效的“利器”。AntDB Universal Database（通用型数据库）有5款产品，可作为整体框架提供全副能力，也能够拆分为独立模块独自销售。吴勇强认为国产数据库运维目前面临三座大山，堪称是困难重重。大部分的国产数据库，都采纳分布式的部署架构；新的数据库类型，新的数据格式；国产数据库底子薄，积攒少，这些因素的叠加无疑给运维工作减少了难度。AntDB 通过提供一站式的服务、智能化运维服务以及配套知识库，可能解决运维难题。 AntDB 数据库售前解决方案专家吴勇强引擎内核是数据库的重要组成部分。阿里云瑶池旗下的云原生数据库PolarDB MySQL版作为当先的云原生数据库，继续聚焦数据库引擎内核翻新。阿里云数据库资深技术专家、开源我的项目 Pika 作者陈宗志（暴跳）带来《PolarDB云原生数据库MySQL引擎内核揭秘》主题演讲。他具体介绍了 PolarDB 的三大核心技术（共享存储、物理复制、一写多读）、内核优化（锁优化、IO门路优化、并行InnoDB）以及企业性能。PolarDB 通过在内核一直引入备份复原、HTAP等能力，一直为用户提供最优解。阿里云数据库资深技术专家、开源我的项目 Pika 作者陈宗志（暴跳）分布式数据库作为数据承载工具，为数字化转型提供了无力的撑持。分布式数据库产品的劣势为其带来微小的发展潜力。在国产化时代，分布式数据库在拥抱时机的同时，在行业利用和生态建设上仍有很多挑战。沃趣科技合伙人&CTO 魏兴华认为在通用畛域，关系型数据库仍然是王者；在特定畛域，NoSQL大杀四方。他总结了不同分布式数据库的特点以及几个典型基于中间件的分布式数据库演变之路。魏兴华示意分布式数据库具备易运维、极强的容错能力、符合中国文化、找对场景等四点劣势。最初，魏兴华示意分布式数据库在面临微小挑战的同时，云、海内市场、精准定位场景等将为分布式数据库添光加彩。沃趣科技合伙人&CTO 魏兴华流动的序幕，观众们激情不减。Oracle ACE/OCM 白玉山率领在场的观众一起挖掘了5个被忽视的 Oracle 宝藏个性。Oracle 数据库在当今市场依然具备劣势位置，把握一些技术的应用能大大地升高 DBA"删库不跑路“的危险。他次要介绍了闪回技术应用场景、DATAGUARD 技术应用场景、RAC 群高可用的非常规应用场景、SQL 主动优化的应用、过程(锁)期待的查问等5个方面的知识点。 Oracle ACE/OCM 白玉山 ...

关于数据库:Oracle-19c-启动和关闭实例保存PDB状态

简介：十年以上 MySQL Oracle DBA从业者，MySQL 5.7 OCP，微信号: jinjushuke以后有一个PDB 关上模式为READ WRITE [oracle@DGMOGGM19C ~]$ sql sys@192.168.3.107:1521/pdb1 as sysdbaSQLcl: Release 19.1 Production on Wed Aug 23 10:19:47 2023Copyright (c) 1982, 2023, Oracle. All rights reserved.New version: 23.2.0 available to downloadPassword? (?) Connected to:Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - ProductionVersion 19.3.0.0.0SQL> show pdbs;CON_ID CON_NAME OPEN MODE RESTRICTED 3 PDB1 READ WRITE NO SQL> connect / as sysdbaConnected.SQL> show pdbs;CON_ID CON_NAME OPEN MODE RESTRICTED ...

关于数据库:千万级数据深分页查询SQL性能优化实践-京东云技术团队

一、零碎介绍和问题形容如何在Mysql中实现上亿数据的遍历查问？先来介绍一下零碎配角：关注零碎，次要是保护京东用户和业务对象之前的关注关系；并对外提供各种关系查问，比方查问用户的关注商品或店铺列表，查问用户是否关注了某个商品或店铺等。然而最近接到了一个新需要，要求提供查问关注对象的粉丝列表接口性能。该性能的难点就是关注对象的粉丝数量过多，不少店铺的粉丝数量都是千万级别，并且有些大V粉丝数量可能达到上亿级别。而这些粉丝列表数据目前全都存储在Mysql库中，而后通过业务对象ID进行分库分表，所有的粉丝列表数据分布在16个分片的256张表中。同时为了不便查问粉丝列表，同一个业务对象的所有粉丝都会路由到同一张表中，每个表的数据量都可能达到 2 亿+。二、解决问题的思路和办法数据库表构造示例如下： CREATE TABLE follow_fans_[0-255] ( id bigint(11) NOT NULL AUTO_INCREMENT COMMENT '自增id', biz_content VARCHAR(50) DEFAULT NULL COMMENT '业务对象ID', source VARCHAR(50) DEFAULT NULL COMMENT '起源', pin VARCHAR(50) DEFAULT NULL COMMENT '用户pin', ext VARCHAR(5000) DEFAULT NULL COMMENT '扩大信息', status TINYINT(2) DEFAULT 1 COMMENT '状态，0是生效，1是失常', created_time DATETIME DEFAULT NULL COMMENT '创立工夫', modified_time DATETIME DEFAULT NULL COMMENT '批改工夫', PRIMARY KEY(id), UNIQUE INDEX uniq_biz_content_pin (biz_content, pin) ) ENGINE = InnoDB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8 COMMENT = '关注粉丝表';Limit实现因为同一个业务对象的所有粉丝都保留到一张数据库表中，对于分页查问列表接口，首先想到的就是用limit实现，对于粉丝数量很少的关注对象，查问接口性能还不错。然而随着关注对象的粉丝数量越来越多，接口查问性能就会越来越慢。起初通过接口压测，当业务对象粉丝列表数量达到几十万级别的时候，查问页码数量越大，查问耗时越多。limit深分页为什么会变慢？这就和sql的执行打算无关了，limit语句会先扫描offset+n行，而后再抛弃掉前offset行，返回后n行数据。也就是说limit 100000,10，就会扫描100010行，而limit 0,10，只扫描10行。查问 sql 示例如下： ...

关于数据库:NineData中标移动云数据库传输项目2023

近日，玖章算术NineData智能数据管理平台胜利中标《2023年挪动云数据库传输服务软件我的项目》，中标金额为406万。这标记着玖章算术NineData平台已胜利落地顶级运营商行业，并在数据管理方面实现了大规模利用实际。对于挪动云挪动云作为云计算国家队，挪动云始终践行 " 为国建云 " 使命，不断创新自主研发，建设全栈产品自研能力，构筑安全可靠的云服务根基，综合实力位于国内云服务商第一梯队。往年，中国信息通信研究院公布了《云计算白皮书》（2023）数据显示，挪动云中国私有云 laaS 市场跃居 Top 3。通过弱小的IaaS根底能力、全栈产品自研能力和宏大的算力网络资源，挪动云帮忙政务、金融、教育、医疗、工业能源等重点行业打造超120个行业融云解决方案，累计服务超200万政企客户，赋能千行百业。挪动云向客户提供安全可靠的根底算力资源及治理平台，为中国数字化转型构筑松软的云底座。 NineData胜利中标此次，NineData依靠稳固高效的产品能力，深度了解并充沛满足挪动云客户对数据库传输的需要痛点。此次投标，对NineData进行残缺的能力测试，测试表明，在超高压的测试环境下，NineData充沛展现了产品的欠缺度、强劲性能及成熟度。最终，NineData在面对多家强有力的竞争对手的状况下，凭借在稳定性、高可用、技术服务等方面的卓越体现，在挪动云我的项目的测试中技术评分遥遥领先，胜利中标。挪动云我的项目的中标，不仅是对NineData数据传输能力的认可，更是对其全面产品能力和安全可靠的必定。NineData数据复制反对多种同异构数据源之间的离线、实时数据复制。适宜数据迁徙、数据库扩缩容、数据库版本升级、异地容灾、异地多活、数据仓库及数据湖数据集成等多种业务场景，NineData致力于为客户提供更加稳固、更智能的数据管理服务。对于NineDataNineData是新一代的云原生智能数据管理平台，蕴含了数据复制、SQL开发、数据备份以及数据比照等多种性能。NineData采纳当先的云原生与AIGC技术，为云与AI时代的架构设计提供了智能数据管理平台。作为业界首个反对跨云和本地IDC无缝买通的平台，可能帮忙客户轻松实现数据上云、跨云数据实时传输、ETL、数据备份、企业级智能SQL开发、数据库研发标准、生产变更以及敏感数据治理等性能，从而让客户的数据应用更加平安高效。

关于数据库:探索GreatADM图形化部署MGR的全新体验

摘要：在DBA的日常工作中，疾速部署数据库高可用架构，且标准化地入网部署数据库是一项重要的根底工作。本文将介绍常见的部署MGR的形式，并重点介绍万里数据库的GreatADM数据库治理平台进行图形化、可视化、标准化的部署过程，以进步交付效率和品质，给DBA提供一种全新的体验。（本文浏览大概须要4-6分钟）引言常见的数据库入网交付的形式和各自优缺点形式一：手动部署这是最根本的部署形式，须要手动在每个节点上装置、配置cnf和治理各节点，命令交互太多。尽管借助社区版的 MySQL Shell 操作绝对简略，但对于大规模部署，手动操作可能消耗大量工夫和人力，并且容易呈现配置谬误和一致性问题。形式二：批量管理工具应用配置管理工具（如Ansible、Puppet、Chef等）能够实现自动化的数据库装置部署，来解决批量交付时反复的劳动。通过编写配置文件和定义工作，配置管理工具能够主动执行装置、配置和启动MGR的步骤。这种形式能够进步部署效率并确保一致性，但对于初学者来说，配置管理工具的学习和配置可能须要肯定的工夫和学习老本。形式三：GreatADM数据库治理平台也是明天要介绍的配角。GreatADM提供了图形化、可视化、标准化、流程化的部署MGR的能力，极大地简化了部署过程。说到这里大家可能脑子有诸多疑难： GreatADM是什么？都有哪些性能？能解决什么问题？支不反对国产操作系统？怎么部署数据库流程是什么？装置平台麻烦吗？哪里能够下载到？我暂且先只回复第一个问题，其余的大家可在文章中或者GreatSQL社区历史文章中发现。技术干货 | 从DBA视角看数据库运维治理平台 GreatADM是什么？GreatADM(GreatDB Administrator Platform )是一款万里数据库治理平台。反对基于GreatDB 、GreatSQL、MySQL多种集中式计划全生命周期的治理的软件。接下来咱们就来入手边实际边看。 Let's go文章整体内容，围绕如何图形化交付MGR，以及交付之后GreatADM都有哪些性能，疾速理解如何上手，以及集体感觉应用的几个性能点。一、GreatADM本身的装置二、图形化部署MGR的流程三、作为DBA集体感觉不错的3个点四、总结回顾一、GreatADM数据库治理平台的疾速装置1.装置和配置GreatADM 首先解压软件包拿到GreatADM软件包为一个zip的压缩包，解压之后失去一个adm_install.sh的shell装置脚本和一个GreatADM的主程序包。 GreatADM反对在多个国产操作系统装置部署，如麒麟、欧拉、龙蜥、统信、BClinux等。 2.配置装置脚本这里须要配置装置的主机IP，以及WEB拜访GreatADM的端口和主机的操作系统用户名和明码，本次用是root，也能够应用sudo user明码等信息。命令：vim adm_install.sh a)、ADM_IP_ARRAY=(172.17.139.50 ) 如果是高可用装置，此处能够配置多个IP地址，GreatADM反对平台服务高可用配置和故障自切换。反对间接装置部署在近程主机上。 b)、ADM_WEB_PORT=80 默认浏览器拜访治理页面端口，可按需自定义 **c)、SSH_USER=rootSSH_PASSWORD=abc123** 本地装置是将GreatADM平台单机部署。如果配置双机高可用，则须要后行配置双机之间的ssh互信认证，而后调整认证形式，填写公钥文件门路即可 **SSH_AUTH=pubkeySSH_KEY_FILE=/root/.ssh/id_ras** 平台元数据库配置，默认无需配置，内置sqlite3作为根底元数据的数据库，轻量且易用，个别倡议反对20台主机以下公有规模。如果超过20台主机，可思考接入ADM本身部署的数据库中，目前简略测试了一下在16C 16G 500G/SSD配置下，应用GreatSQL作为元数据库，创立和纳管了40多套万里GreatRouter高可用集群、主从、MGR等多类架构大概130+台主机，无压力。 3.执行装置命令： sh adm_install.sh install 装置实现之后，可通过登录http://172.17.139.50:80来拜访GreatADM的治理页面 4.登录图形界面首次登录GreatADM，须要批改默认的初始密码，用户账号能够是邮箱地址、能够是用户名。默认平台超管为：用户名adm和adm@greatdb.com两种能够登录，如下二、应用GreatADM部署GreatSQL MGRGreatADM治理平台默认对MySQL数据库架构的4大分类，并且反对用户已自建的MySQL5.7/8.0的对立纳管到平台和复制拓扑主动探测和拓扑绘制。反对GreatDB、GreatSQL、Percona Server、MySQL类型的数据库类型。 A、GreatDBRouter三节点: 对应万里GreatDB数据库企业版高可用解决方案 B、PAXOS高可用复制: 反对MGR、以及GreatSQL MGR+VIP计划 ...

关于数据库:KaiwuDB-荣获哈佛商业评论-2023高能韧性团队奖

8月18日，《哈佛商业评论》中文版携手 FESCO 胜利举办“第九届人才经济论坛”暨“2022-2023 高能团队奖颁奖典礼”。论坛秉承前沿的寰球视线及权威的治理理念，挖掘并展现外乡企业组织治理的最佳实际，并重磅揭晓第二届“高能团队奖”评比后果。KaiwuDB 研发团队从来自国内百余家优良企业的参评团队中怀才不遇，荣膺“高能韧性团队”奖。 “高能团队奖”是由《财经》旗下《哈佛商业评论》中文版联结 FESCO 于 2021 年末首次发动的针对组织治理的重磅奖项，旨在寻找和表彰企业中有卓越体现和不凡能量的团队，并挖掘创新性的组织管理模式；以期在世纪疫情冲击及寰球竞争变局的大背景下为企业组织治理提供借鉴教训，从而产生更大的社会价值。 KaiwuDB 是本届评比，也是“高能团队奖”设立以来惟一一家入围的数据库服务企业。自创建之初， KaiwuDB 秉承“以技术为引擎驱动产品倒退，冲破行业瓶颈”的理念，力争在产、学、研、用等各个层面实现新的破局。同时，独创推出“就地计算”专利技术，并在分布式计算、多模数据库架构、自适应时序引擎、超速剖析引擎、数据库自治优化等 8 大核心技术上实现冲破； KaiwuDB 长期聚焦客户倒退和产业提高，紧跟国家策略关注的产业畛域及重点业务场景，依靠底层数据库技术、精细化我的项目管控、麻利开发流程、跨地区多团队协同等，先后承当多项省、市级政府及国内大中型企业数据库迁徙革新及数字化能力建设项目。 KaiwuDB CTO 魏可伟示意，“十分荣幸代表团队来支付这次奖项，感激业界对 KaiwuDB 研发团队在麻利翻新、策略执行、组织效力等方面的认可，这份荣誉属于 KaiwuDB 的每一位研发人员，是整个团队兢业进取、勠力同心的成绩。咱们将持续秉承匠心打磨、潜心研发的理念，减速实现研发、产品、业务、经营的高效协同，晋升工程施行能力及团队文化认同，力争为行业带来先进的研发管理机制、造就输送更多高质量人才，同时为客户提供精准欠缺翻新的数据服务解决方案。”

关于数据库:Easysearch-跨集群复制实战

在之前的文章中，有通过网关实现容灾的案例。明天给大家介绍 Easysearch 的跨集群复制性能。该性能可在集群之间复制数据，利用场景包含但不限于以下举例：灾备同步：将数据同步到灾备核心，灾备核心可对外提供查问服务。读写拆散：繁多集群读写压力都较大时，为了防止读写相互烦扰造成性能降级，可将读压力分流到另外的集群。就近查问：在多地核心之间复制数据，利用只需连贯本地 ES 集群读取数据，防止网络延时和烦扰。跨集群复制应用 active-passive 模型，由指标集群被动拉取数据变动到本地，因而对源集群影响很小。先决条件源集群和指标集群都必须装置 cross-cluster-replication 和 index-management 插件。装置插件参考这里。如果指标集群的 easysearch.yml 文件中笼罩了 node.roles，确保它也包含 remote_cluster_client 角色，默认已启用。演示环境源集群( leader 集群 ): 192.168.3.45:9200指标集群( follower 集群 ): 192.168.3.39:9200两个集群都已启用 security 性能。设置集群间证书互信将两个集群的证书合并到一个文件，将文件放到 config 目录下。 cat ca-A.crt ca-B.crt > trust-chain.pem更新 easysearch.yml 文件，变动如下。 #security.ssl.transport.ca_file: ca.crtsecurity.ssl.transport.ca_file: trust-chain.pem设置跨群集连贯在指标集群建设源集群的连贯信息。在 INFINI console 的开发工具中，选中指标集群，执行以下命令。 PUT /_cluster/settings?pretty{ "persistent": { "cluster": { "remote": { "primary": { "seeds": ["192.168.3.45:9300"] } } } }}开始复制首先在源集群创立测试索引 test , 并向索引写入数据。如果有测试索引，此步可省略。 POST /_bulk?pretty{ "index" : { "_index" : "test", "_id" : "1" } }{ "field1" : "value1" }{ "create" : { "_index" : "test", "_id" : "2" } }{ "field2" : "value2" }而后在指标集群，创立一个名为 follower-test 的索引来复制源集群中 test 索引的内容。follower-test 可更换成本人想要的名字。 ...

关于数据库:IP地址能定位到家里吗

定位IP属地的技术能够帮忙咱们确定一个IP地址所对应的大抵地理位置，然而它并不能准确到家里。尽管IP地址能够提供一些无关用户所在地的根本信息，然而要定位到具体的家庭住址是十分艰难的。首先，IP地址是由互联网服务提供商（ISP）调配的，而一个ISP笼罩的范畴往往十分宽泛。一个ISP可能为数百万用户调配同一个IP地址，这意味着多集体可能在同一个地理位置上共享同一个IP地址。因而，无奈通过IP地址确定一个具体的家庭住址。其次，即便咱们只关注一个特定的IP地址即一个家庭住址也很难通过IP属地定位来确定其准确地位。因为IP地址定位是基于数据库和算法来实现的，这些数据库和算法往往只能提供一些大抵的信息例如城市或地区。这是因为IP地址并不是为了定位目标而设计的，而是为了帮忙网络通信而调配的。此外，IP地址的地理位置可能会发生变化。用户可能会更换ISP，或者ISP可能会重新分配IP地址这可能导致一个IP地址的地理位置与理论地位不统一。因而，IP属地定位的准确性也受到了肯定的限度。总结而言，只管IP属地定位能够提供一些无关用户所在地的大抵信息但要定位到具体的家庭住址是十分艰难的。这是因为IP地址的覆盖范围宽泛、定位精确度无限以及IP地址的地理位置可能会发生变化等因素的限度。因而，如果须要精确定位家庭住址还须要应用其余更专门的定位技术或服务。

关于数据库:一张图读懂TuGraph-Analytics开源技术架构

作者：范志东 TuGraph Analytics（外部我的项目名GeaFlow）是蚂蚁团体开源的分布式实时图计算引擎，即流式图计算。通过SQL+GQL交融剖析语言对表模型和图模型进行对立解决，实现了流、批、图一体化计算，并反对了Exactly Once语义、高可用以及一站式图研发平台等生产化能力。开源我的项目代码目前托管在GitHub，欢送业界同仁、大数据/图计算技术爱好者关注咱们的我的项目并参加共建。我的项目地址：https://github.com/TuGraph-family/tugraph-analytics GeaFlow论文【SIGMOD 2023】：GeaFlow: A Graph Extended and Accelerated Dataflow System 概览本文心愿通过一张图形容分明TuGraph Analytics的整体架构脉络和要害设计思路，以帮忙大家疾速对TuGraph Analytics我的项目的轮廓有个整体的意识。闲言少叙，间接上图。 TuGraph Analytics开源技术架构一共分为五个局部： DSL层：即语言层。TuGraph Analytics设计了SQL+GQL的交融剖析语言，反对对表模型和图模型对立解决。Framework层：即框架层。TuGraph Analytics设计了面向Graph和Stream的两套API反对流、批、图交融计算，并实现了基于Cycle的对立散布式调度模型。State层：即存储层。TuGraph Analytics设计了面向Graph和KV的两套API反对表数据和图数据的混合存储，整体采纳了Sharing Nothing的设计，并反对将数据长久化到近程存储。Console平台：TuGraph Analytics提供了一站式图研发平台，实现了图数据的建模、加工、剖析能力，并提供了图作业的运维管控反对。执行环境：TuGraph Analytics能够运行在多种异构执行环境，如K8S、Ray以及本地模式。DSL层DSL层是一个典型的编译器技术架构，即语法分析、语义剖析、两头代码生成(IR)、代码优化、指标代码生成（OBJ）的流程。语言设计：TuGraph Analytics设计了SQL+GQL的交融语法，解决了图+表一体化剖析的诉求。具体语法设计能够参考文章：DSL语法文档语法分析：通过扩大Calcite的SqlNode和SqlOperator，实现SQL+GQL的语法解析器，生成对立的语法树信息。语义剖析：通过扩大Calcite的Scope和Namespace，实现自定义Validator，对语法树进行束缚语义查看。两头代码生成：通过扩大Calcite的RelNode，实现图上的Logical RelNode，用于GQL语法的两头示意。代码优化：优化器实现了大量的优化规定（RBO）用于晋升执行性能，将来也会引入CBO。指标代码生成：代码生成器Converter负责将Logical RelNode转换为Physical RelNode，即指标代码。Physical RelNode能够间接翻译为Graph/Table上的API调用。自定义函数: TuGraph Analytics提供了大量的内置零碎函数，用户也能够依据须要注册自定义函数。自定义插件: TuGraph Analytics容许用户扩大本人的Connector类型，以反对不同的数据源和数据格式。Framework层Framework层设计与Flink/Spark等同类大数据计算引擎有肯定的相似性，即提供了类FlumeJava（FlumeJava: Easy, Efficient Data-Parallel Pipelines）的对立高阶API（简称HLA），用户调用高阶API的过程会被转换为逻辑执行打算，逻辑执行打算执行肯定的优化（如ChainCombine、UnionPushUp等）后，被转换为物理执行打算，物理执行打算会被调度器散发到分布式Worker上执行，最终Worker会回调用户传递的高阶API函数逻辑，实现整个分布式计算链路的执行。高阶API：TuGraph Analytics通过Environment接口适配异构的分布式执行环境（K8S、Ray、Local），应用Pipeline封装了用户的数据处理流程，应用Window形象对立了流解决（无界Window）和批处理（有界Window）。Graph接口提供了动态图和动态图（流图）上的计算API，如append/snapshot/compute/traversal等，Stream接口提供了对立流批处理API，如map/reduce/join/keyBy等。逻辑执行打算：逻辑执行打算信息对立封装在PipelineGraph对象内，将高阶API对应的算子（Operator）组织在DAG中，算子一共分为5大类：SourceOperator对应数据源加载、OneInputOperator/TwoInputOperator对应传统的数据处理、IteratorOperator对应动态/动态图计算。DAG中的点（PipelineVertex）记录了算子（Operator）的要害信息，如类型、并发度、算子函数等信息，边（PipelineEdge）则记录了数据shuffle的要害信息，如Partition规定（forward/broadcast/key等）、编解码器等。物理执行打算：物理执行打算信息对立封装在ExecutionGraph对象内，并反对二级嵌套构造，以尽可能将能够流水线执行的子图（ExecutionVertexGroup）构造对立调度。图中示例的物理执行打算DAG被划分为三部分子图构造别离执行。调度器：TuGraph Analytics设计了基于Cycle的调度器（CycleScheduler）实现对流、批、图的对立调度，调度过程通过事件驱动模型触发。物理执行打算中的每部分子图都会被转换为一个ExecutionCycle对象，调度器会向Cycle的头结点（Head）发送Event，并接管Cycle尾结点（Tail）的发回的Event，造成一个残缺的调度闭环。对于流解决，每一轮Cycle调度会实现一个Window的数据的解决，并会始终不停地执行上来。对于批处理，整个Cycle调度仅执行一轮。对于图解决，每一轮Cycle调度会实现一次图计算迭代。运行时组件：TuGraph Analytics运行时会拉起Client、Master、Driver、Container组件。当Client提交Pipeline给Driver后，会触发执行打算构建、调配Task（ResourceManagement提供资源）和调度。每个Container内能够运行多个Worker组件，不同Worker组件之间通过Shuffle模块替换数据，所有的Worker都须要定期向Master上报心跳（HeartbeatManagement），并向时序数据库上报运行时指标信息。另外TuGraph Analytics运行时也提供了故障容忍机制（FailOver），以便在异样/中断后能继续执行。State层State层设计相比于传统的大数据计算引擎，除了提供面向表数据的KV存储形象，也反对了面向图数据的Graph存储形象，以更好地反对面向图模型的IO性能优化。 State API：提供了面向KV存储API，如get/put/delete等。以及面向图存储的API，如V/E/VE，以及点/边的add/update/delete等。State执行层：通过KeyGroup的设计实现数据的Sharding和扩缩容能力，Accessor提供了面向不同读写策略和数据模型的IO形象，StateOperator形象了存储层SPI，如finish（刷盘）、archive（Checkpoint）、compact（压缩）、recover（复原）等。另外，State提供了多种PushDown优化以减速IO拜访效率。通过自定义内存治理和面向属性的二级索引也会提供大量的存储拜访优化伎俩。Store层：TuGraph Analytics反对了多种存储系统类型，并通过StoreContext封装了Schema、序列化器，以及数据版本信息。长久化层：State的数据反对长久化到近程存储系统，如HDFS、OSS、S3等。Console平台Console平台提供了一站式图研发、运维的平台能力，同时为引擎运行时提供元数据（Catalog）服务。标准化API：平台提供了标准化的RESTful API和认证机制，同时反对了页面端和利用端的对立API服务能力。工作研发：平台反对“关系-实体-属性”的图数据建模。基于字段映射配置，能够定义图数据传输工作，包含数据集成（Import）和数据散发（Export）。基于图表模型的图数据加工工作反对多样化的计算场景，如Traversal、Compute、Mining等。基于数据加速器的图数据服务，提供了多协定的实时剖析能力，反对BI、可视化剖析工具的接入集成。构建提交：平台通过工作和作业的独立形象，实现研发态与运维态的拆散。工作开发实现后执行公布动作，会主动触发构建流水线（Release Builder），生成公布版本。工作提交器（Task Submitter）负责将公布版本的内容提交到执行环境，生成计算作业。作业运维：作业属于工作的运行态，平台提供了作业的操纵（启停、重置）、监控（指标、告警、审计）、调优（诊断、伸缩、调参）、调度等运维能力。作业的运行时资源会由资源池统一分配和治理。元数据服务：平台同时承载了引擎运行时的元数据服务能力，以实现研发与运维的自动化。元数据以实例维度进行隔离，实例内的研发资源能够依据名字间接拜访，如点、边、图、表、视图、函数等。系统管理：平台提供了多租户隔离机制、细粒度用户权限管制，以及系统资源的治理能力。执行环境TuGraph Analytics反对多种异构环境执行，以常见的K8S部署环境为例，其物理部署架构如下：在TuGraph Analytics作业的全生命周期过程中，波及的要害数据流程有：研发阶段：Console平台提供了实例下所有的研发资源的治理，用户能够在创立工作前，提前准备所需的研发资源信息，并存储在Catalog。构建阶段：工作创立实现后，通过公布动作触发构建流水线，用户的JAR包、工作的ZIP包等会上传到RemoteFileStore。提交阶段：作业提交时，Console会依据作业的参数配置、运行时环境信息，以及近程文件地址等创立KubernetesJobClient，既而会拉起Client Pod，Client会拉起Master Pod，Master会拉起Container Pods和Driver Pod。所有的Pod拉起后，Client会把作业的Pipeline发送给Driver执行，Driver最终通过Cycle调度的Events与Containers交互。所有的Pod启动时都会从RemoteFileStore下载版本JAR包、用户JAR包、作业ZIP包等信息。Driver对DSL代码编译时，也须要通过Console提供的Catalog API操作Schema信息。运行阶段：作业运行时，各个组件会上报不同的数据和信息。Master会上报作业的心跳汇总信息，Driver会上报作业的Pipeline/Cycle指标以及错误信息，Container会上报作业的Offset、指标定义以及错误信息等。RuntimeMetaStore存储作业的Pipeline/Cycle指标、Offset、心跳汇总、谬误等信息。HAMetaStore存储各个运行组件的地址信息。DataStore存储State数据和作业FailOver时所需的元数据信息。MetricStore存储运行时指标信息。监控阶段：Console会次要查问RuntimeMetaStore和MetricStore存储的信息用于作业的运行时监控。清理阶段：作业重置/删除时，Console会对作业的RuntimeMeta、HAMeta以及局部Data做清理操作。总结心愿通过以上的介绍，能够让大家对TuGraph Analytics开源技术架构有个比拟清晰的理解，咱们十分欢送开源社区的技术爱好者参加到我的项目的建设中来。 ...

关于数据库:分库分表之拆分键设计-京东物流技术团队

家喻户晓，在事实世界中，每一个资源都有其提供能力的最大下限，当繁多资源达到最大下限后就得让多个资源同时提供其能力来满足应用方的需要。同理，在计算机世界中，繁多数据库资源不能满足应用需要时，咱们也会思考应用多个数据库同时提供服务来满足需要。当应用了多个数据库来提供服务时，最为要害的点是如何让每一个数据库比拟平均的承当压力，而不至于其中的某些数据库压力过大，某些数据库没什么压力。这其中的关键点之一就是拆分键的设计。 1 程度、垂直拆分在关系数据库中，当单个库的负载、连接数、并发数等达到数据库的最大下限时，就得思考做数据库和表的拆分。如一个简略的电商数据库，在业务初期，为了疾速验证业务模式，把用户、商品、订单都放到一个数据库中，随着业务的倒退及用户量的增长，单数据库逐步不能撑持业务（MySQL中单记录容量超过1K时，单表数据量倡议不超过一千万条），这时就得思考把数据库和表做出拆分。 1.1 垂直拆分简略的说就是将数据库及表由一个拆分为多个，如咱们这里的电商数据库，能够垂直拆分为用户数据库、商品数据库和订单数据库，订单表能够垂直拆分为订单根本信息表，订单收货地址表、订单商品表等，每一个表里保留了一个订单的一部分数据。 1.2 程度拆分简略的说就是将一个库、一个表扩大为多个库，多个表，每一个拆分后的表中保留的仍然是一个订单的残缺信息。如电商数据库，咱们按程度拆分数据库和表后，每一个拆分后的数据库表与现有未拆分前的都保持一致。 1.3 罕用拆分办法上述仅从实践上解说了可行的程度、垂直拆分办法，在理论的生产上，咱们拆分个别是依照程度拆表、垂直拆库这一准则进行，在业务比较复杂的场景下也会对表进行垂直拆分。 2 拆分键的选取分库分表的要害项之一是拆分键的选取，个别状况下，拆分键的选取遵循以什么维度进行查问就选取该维度为拆分键。如：订单表就以订单号作为拆分键，商品表就以商品编号作为拆分键。拆分键选取后，对于一些非拆分键的单条件查问，咱们须要怎么反对呢？在这里提供3种办法供参考。 2.1 等值法对于非拆分键的单条件查问，对这一个单条件的赋值，能够将其值与拆分键保持一致。比方在电商场景中，用户下订单后，须要通过物流给用户把商品送到用户手上。对于用户来说仅能看到订单信息，订单上展现的物流信息用户也是通过订单号查问而来；但对于物流零碎来说，其零碎里的业务主键（拆分键）是运单号，此时，运单号如果和订单号雷同，即可完满解决这一问题。订单表和运单表的根本数据模型如下： 1）订单表 2）运单表在订单表中，拆分键order\_id与运单表中的拆分键waybill\_code值雷同，当按订单号查问运单表里的运单信息时，能够间接查问拆分键waybill_code获取订单对应的运单信息。 2.2 索引法对于罕用的非拆分键，咱们能够将其与拆分键之间建设一个索引关系，当按该条件进行查问时，先查问对应的拆分键，再通过拆分键查问对应的数据信息。订单表的索引法查问表模型如下： 1）索引表例：用户user001在商城上购买了一支笔下单的订单号为10001，商家发货后，物流公司给的运单号是Y0023 2）该用户的订单表、运单表模型如下：订单表：运单表：索引表：当查问用户（user001）的下单记录时，通过用户编码先查问索引表，查问出user001的所有下单的订单号（10001），再通过订单号查问订单表获取用户的订单信息；同理，依据运单号（Y00232）查问订单信息时，在索引表里先查问到对应的订单号，再依据订单号查问对应的订单信息。 2.3 基因法拆分键与非拆分键的单号生成规定中，存在雷同规定的局部且该局部被用作拆分键来进行库表的定位。比方：订单号生成时，生成一个Long类型的单号，因为Long是64位的，咱们能够用其低4位取模来定位该订单存储的数据库及表，其余表的拆分键也用Long类型的低4位取模来定位对应的数据库及表。还是用订单表和运单表的模型做解释如下： 1）订单表 2）运单表当通过订单表里的订单号查运单表时，通过订单号的低4位定位到该订单号在运单数据库及表的地位，再间接通过脚本查问出订单号对应的运单信息。 3 拆分键的生成拆分键选取后，接下来是拆分键的生成，拆分键的生成有多种形式，倡议依据业务量及并发量的大小来确定拆分键生成的规定，在这里介绍几种罕用的拆分键生成规定。 3.1 数据库自增主键在并发量不大的状况下，咱们能够应用MySQL数据库里的自增主键来实现拆分键。 3.2 UUID在Java里，能够应用Java自带的UUID工具类间接生成，UUID的组成：UUID=以后日期和工夫+时钟序列+全局惟一的IEEE机器辨认号组成。其中，全局惟一的IEEE机器辨认号个别是通过网卡的MAC地址取得，没有网卡时以其余的形式取得。UUID生成的编号不会反复，但不利于浏览和了解。 import java.util.UUID;public class UUIDTest { public static void main(String[] args) { UUID uuid = UUID.randomUUID(); System.out.println(uuid.toString()); }}3.3 雪花算法雪花算法生成的ID是一个64位大小的整数，构造如下：从其构造能够看出，第一位是符号位，在应用时个别不应用，前面的41位是工夫位，是由工夫戳来确定的，前面的10位是机器位，最初的12位是生成的ID序列，是每豪秒生成的ID数，即每毫秒能够生成4096个ID。从该构造能够看出，10位机器位决定了应用机器的下限，在某些业务场景下，须要所有的机器应用同一个业务空间，这可能导致机器超限；同时，每一个机器调配后如果机器宕机须要更换时，对ID的回收也须要有相应的策略；最为要害的一点是机器的工夫是动静调整的，有可能会呈现工夫回退几毫秒的状况，如果这个时候获取到这个工夫，则会生成反复的ID，导致数据反复。 4 晋升总结单数据库不能满足业务场景的状况下，次要的思路还是要进行拆分，无论是NoSQL还是关系数据库，随着业务量的增长，都得须要把多个服务器资源组合成一个整体独特来撑持业务。数据库拆分后，如果业务上有多个简单查问条件的需要，个别就得把数据同步到NoSQL数据库里，由NoSQL来提供反对。无论什么时候，数据库提供的次要能力是存储能力，对于简单的计算需要，个别是须要在业务逻辑里实现。 ...

关于数据库:CQ-社区版-230-发布-自动授权分级授权审计上卷下钻等

Hello，大家好，又到了一月一度的社区版发版工夫。本次公布 CQ 社区版 v2.3.0，性能上次要增强了 CQ 的三大模块能力：受权、审计和数据源操作。咱们一起来看下具体做了哪些晋升~ tips：版本升级福利继续发放中～ 1 受权能力增强主动受权在权限集中，可依照相干用户属性、权限失效工夫进行策略配置，据此实现主动判断触发权限失效。操作举例： step1：在「主动受权」中创立一个权限集「test」，对该权限集进行权限配置 step2：针对该权限集进行「策略配置」，设置该权限对「cqUser」部门的用户在周六失效分级受权治理新增分级受权治理性能，即资源分组治理。 DBA 角色可将不同类型的资源按需要场景进行分组，并设置其余用户为管理员（高级用户），高级用户可对被受权资源进行权限管控、数据保护治理等，同时，高级用户还能够对本人手上的资源进行再调配。 2 脱敏能力增强脱敏配置脱敏配置新增导入导出性能，反对批量导入脱敏配置脱敏扫描新增脱敏扫描性能，可定时扫描脱敏数据 3 审计能力增强上卷下钻新增上卷下钻性能，审计模块反对不同维度的上卷下钻，满足审计信息的聚合、巡航审计归档新增审计归档，反对在配置文件中自定义归档时长（月） 4 数据源能力增强新增数据字典（反对四大库：MySQL、SQLServer、Oracle、PG），SDT 树反对数据字典搜寻数据源 GuassDB、达梦、PolarDB、Oceanbase、MariaDB 新增文本导入和SQL导出性能数据源 redis 新增复制按钮数据源 Mongodb 反对后果集导出性能新增连贯批量导入性能 4 Bug 修复修复 SQLServer 数据源 uniqueidentifier、bit、timestamp 三种字段类型导出修复 SQLServer 数据源导出报错的问题修复 mariadb 的 INTEGER 和 INTEGER UNSIGNED 导出降级 nginx 版本防止破绽对于版本升级版本 >=2.0.0 可间接降级至 v2.3.0版本 =1.5.0 能够更新至最新版，权限数据会清空，须要重新配置权限，连贯信息和用户信息会保留版本 <=1.4.2 不反对更新至最新版，须要卸载老版本再装置最新版，不反对数据迁徙更新手册：https://bintools.yuque.com/org-wiki-bintools-xniowl/do4ums/mm... 彩蛋-降级福利参考 CloudQuery 官网文档，装置部署 2.3.0 最新版本，装置部署胜利并记录应用过程中的倡议，增加小助手（wx：bintoolsassistant）反馈部署胜利截图和倡议，即可取得 Tools 社区帆布袋+精美周边任选一份（电脑支架、鼠标垫二选一）。（不限量） ...

关于数据库:网关和ip地址一样吗

网关和IP地址并不是一样的。尽管它们在网络中表演了不同的角色，但却密切相关相互依赖。 IP地址是一个由32位或128位二进制数字组成的标识符，用于惟一标识一个网络设备。它是网络通信中十分重要的一部分，能够帮忙数据包在网络中正确地传递。IP地址被分为几个类别，如IPv4和IPv6其中IPv4是目前宽泛应用的版本。网关，又称为默认网关或路由器是连贯多个网络的设施。它充当一个中介，使得数据包能够在不同网络之间传输帮忙数据从源设施达到指标设施。网关通常具备两个或多个接口，每个接口连贯到不同的网络。尽管网关和IP地址不是雷同的概念，但它们之间有着亲密的关联。在IP网络中，每个设施都有一个IP地址而网关则是设施要发送数据包到其余网络时所需的指标地址。当设施要发送数据到不同的网络时，它会将数据包发送到网关网关会依据指标IP地址将数据包路由到正确的网络中。换句话说，网关是一个重要的中转站它容许不同网络之间的通信。它在网络中起着要害的角色，帮忙设施连贯到互联网，并且还提供了一些安全性和治理性能。网关是数据包进口的中央，也是数据包进入网络的中央它通过将数据包传递给正确的指标IP地址来实现这个过程。在大多数家庭和办公网络中，路由器通常充当网关的角色。路由器负责把数据包从本地网络发送到互联网上的其余网络它还能够提供网络地址转换（NAT）性能，将多个本地设施的IP地址转换成单个内部IP地址来与互联网通信。此外，网关还能够设置一些安全性和治理性能比方防火墙和访问控制列表（ACL）。这些性能能够爱护网络免受未经受权的拜访和歹意攻打。

关于数据库:聊聊数据库中的烂索引

背景索引是数据库中用于减速查问的罕用组件，它通过对数据冗余和重组织来减速SQL查问。通常来说，失当的索引能够晋升零碎的查问性能。对于索引存在一些误会，如：索引总是能晋升查问性能，因而索引越多越好，比方下图中的例子只看收益，不看代价是不行的。分布式数据库系统个别反对两类索引：由分布式全局事务保护的全局索引、由本地事务保护的本地索引。这两类索引都会不同水平影响零碎的写入性能，下图展现了建设不同数量的索引时，对系统的写入性能的影响。能够看出创立1个全局索引，就会使零碎的写入性能升高至原来的约30%；单看MySQL，在创立8个索引（本地索引）的状况下，写入性能会升高至原来的85%（援用自咱们的历史文章TiDB、OceanBase、PolarDB-X、CockroachDB二级索引写入性能测评，感兴趣的读者可深刻浏览）。因而，在咱们享受索引带来的查问减速收益时，还需关注其引入的保护开销。特地是当引入一个索引没能带来预期收益、或者带来的开销远大于其带来的查问减速收益时，索引反而成为一种累赘。咱们称这类索引为烂索引，避开它们能够帮忙数据库取得更好的写入性能。回顾文章结尾举例的表 warehouse，你能看出其中有几个烂索引吗？咱们先讨论一下利用中常见的烂索引，而后在文末颁布答案。低频拜访索引和许久未拜访索引新建的索引并未依照预期目标被数据库优化器应用时，就是一个烂索引，它暗藏在数据库中，耗费着写入性能，却并未带来查问性能增益，及时发现这类索引并进行清理是十分必要的。此外，还有一些索引在一段时间内被高频应用，但随着业务的变动，这些索引不再被应用，但却始终被遗留下来，这也是烂索引。对于上述情况，PolarDB-X提供了INFORMATION_SCHEMA.GLOBAL_INDEXES视图，用于查问表中全局索引被应用的状况，有了它，哪些全局索引在“磨洋工”，哪些全局索引“收工又出力”，高深莫测。低选择性索引索引的选择性是指不反复的索引值的个数（也常被称为基数）和数据表的记录总数(#T)的比值，可由定义晓得它的取值范畴在 1/#T 到 1 之间。索引的选择性越高则查问效率越高，因为选择性高的索引能够帮忙数据库在查找时过滤掉更多有效的行。一个侧面例子是主键索引，因为主键是不反复的，因而其选择性为最大值1，数据库利用主键查找数据时效率很高。一个背面的例子是，在性别、isDelete等属性上建索引。如何发现这些低选择性的索引呢？最间接的方法是人工查看每个索引的实在含意，排除掉“性别”“Delete标记”之类含意的索引。此外对于全局索引，PolarDB-X反对用INFORMATION_SCHEMA.GLOBAL_INDEXES视图查看全局索引的基数和记录总数，咱们能够依据这两个指标算出索引的选择性。反复索引反复索引是指在雷同的列上依照雷同的程序创立了同类型的索引，Polardb-X不会禁止用户创立多个反复的索引。因为数据库在写入数据时，须要同步保护索引，因而多个反复的索引就须要数据库别离保护，此外优化器在优化查问语句时，也须要对这些反复索引一一思考，这会影响性能。刻意引入反复索引的场景不常见，但不小心引入却是可能的。如上面的SQL是PolarDB-X中的单表，用户可能想创立一个主键，而后为其加上unique限度，而后再加上索引以供其查问应用，实际上上述写法会创立出3个互相反复的索引，其实并不需要这么做。一些索引从定义上来看是非反复索引，但从成果上来看，又是反复的。比方上面的建表语句，一些用户可能会将查问SQL的where条件用到的列都建成索引，因而创立了索引 idx_id_name 。然而通常数据库在构建索引的时候，都会在索引的value属性中填入主键，以不便回表。因而索引 idx_name 的数据中是蕴含了主键 id 的，idx_name 和 idx_name_id成果雷同。请防止构建这样的索引。冗余索引冗余索引和反复索引有所不同，如果创立了索引 (A, B)，再创立索引 (A)，后者就成了冗余索引。因为(A) 是 (A, B)的前缀索引，优化器应用索引时存在“最左匹配准则”，即会优先应用索引中的左侧列进行匹配，索引 (A, B) 是能够当做索引 (A) 来应用的。冗余索引常常产生在为数据表增加新索引的时候，一些用户更偏向于增加新索引，而不是在现有索引上进行扩大。咱们该当优先思考在已有的索引上做扩大，而非随便增加新索引。如果确需增加新索引，也该当分外留神新引入的索引是否是一个冗余索引，又或者新索引是否会让旧有的索引变成冗余索引。当然，一味地扩大现有索引也不可取，可能会导致索引长度过长，从而影响其余应用该索引的SQL，这是一个trade off。除了思考“最左匹配准则”，咱们还需注意unique束缚。在有unique束缚的状况下，一些看起来冗余的索引，实际上却并不冗余。这里索引 idx_id_name 是无奈齐全代替索引 idx_id 的，因为索引 idx_id 除了不便依照id进行查找的作用外，还能够束缚id不反复，而索引 idx_id_name 只能保障 (id, name) 不反复。全局索引分区规定反复像PolarDB-X这样的 Shared-Nothing 架构的分布式数据库个别会引入“分区”的概念，用户在建表时指定一个或若干个列为分区键，数据会在数据库外部依照分区键进行路由，从而将数据存储至不同的DN节点。如果一个查问语句的where条件中蕴含分区键，优化器就能够疾速定位到一个具体分区并进行数据查找，但如果查问语句的where条件不含分区键，该查问就须要扫描全副分区，这有些相似于单机mysql的全表扫描，全分区扫描对于分布式数据库来说开销很大。在理论数据库投入生产应用时，一个维度的分区往往不够灵便，将查问语句的where条件限度在必须蕴含“分区列”不够自在。分布式数据库个别会反对全局索引，它冗余了主表上的局部数据，并采纳与主表不同的分区键，查问时首先依据全局索引的分区键定位到一个分区，而后从分区中查到主表的分区键和主键，最初回表失去残缺数据。全局索引让用户的查问语句不再受到“where条件必须蕴含主表分区列”的限度，且能防止全分区扫描的代价。从上文可知，用好全局索引的前提是设计良好的全局索引的分区形式，尤其是要防止全局索引和主表的分区形式反复，比方上面的表构造中，全局索引g_id和主表tb4的分区形式完全一致，g_id让零碎付出了写入代价，却没有带来查问性能的增益。全局索引分区大小不平均全局索引须要指定分区键，它的数据是依照分区规定寄存于PolarDB-X的不同DN节点中的。构想，如果全局索引的分区规定设计的不够好，就会导致分区不均，一些DN节点存储大量数据，且接受大量的读写负载，而另一部分DN节点处于闲暇状态。这造成了资源节约，且会使数据库系统过早地达到性能瓶颈。如下图，假如有一个业务零碎建设了 seller_order 卖家订单信息表，该业务零碎的特点是绝大部分订单来自于少数几个大卖家。咱们只关注 seller_order 表上的全局索引 g_seller_id，它应用卖家的seller_id做分区键。咱们假如有个大卖家的订单量占全副零碎的一半，其在全局索引g_seller_id上的数据被路由到P5分区。能够看到P5分区会接受其它分区数倍的负载。 ...

关于数据库:使用-Feature-Flags-与可观测工具实现数据库灰度迁移

场景形容很多企业会遇到数据库降级、或数据库迁徙的状况，尤其是在自建数据库服务向云数据库服务、自建机房向云机房、旧数据库向新数据库迁徙等场景。然而，咱们须要在整个移植过程中保障其稳定性、防止数据遗失、服务宕机等状况，最常见的移植办法之一就是数据库双写移植操作。解决方案如下图所示，这个双写移植的过程为：原始阶段，程序只对一个旧数据库进行读写。在现有的读写旧数据库的代码程序根底上，须要增加读写新数据库的代码。例如，在某个表中插入一条数据时，咱们须要把这条数据同时插入到新旧两个数据库中。通常状况下，咱们会并行执行这两个插入操作，以尽可能放弃服务的原有调用解决工夫。当一个写数据库申请进来，咱们将其写入旧数据库的同时，将一个很少的百分比流量写入新的数据库。将写入新数据库的流量比迟缓进步，直到 100% 为止。在这个过程中如果呈现问题，能够及时回滚，并在不影响生产环境服务的状况下进行修复。写移植实现后，开始逐渐放量从新的数据库中读取数据返回给服务，如先容许 10% 的流量在新数据库做读操作。在这个过程中测量性能的同时对比后果，如果在读操作中遇到问题，能够马上回滚新数据库的读流量，并在不影响生产环境服务的状况下进行修复。直到在新数据库实现 100% 的读写操作一段时间没有问题后，就能够进行与旧数据库相干的代码服务了。在实际操作过程中，不止新旧数据库的操作流量要逐步凋谢，实际上新的数据库的读写代码也须要逐渐的更新到生产环境服务中，以确保可迭代的稳固平滑移植。实际办法与工具整个过程中，除了本身零碎架构的设计外，有两个特地的工具在其中起到重要环节：负责可灵便、实时、稳固放量、回滚的 Feature Flags 服务 (FeatBit)。在整个过程中全方位（反对无侵入和针对性埋点模式）的监测服务异样与及时报警的可观测服务 (观测云)。应用 FeatBit 实现实时的数据库移植申请流量管制如下代码所示，为某一个服务的数据库读取操作分流的示例伪代码：第 6 行代码，调用 _fbService.BoolVariation("read-sport-olddb") 办法取得流量管制返回值，如果为 true，则将读取旧数据库的 Query 函数增加到并行任务执行队列中。第 9 行代码，调用 _fbService.BoolVariation("read-sport-newdb")办法取得流量管制返回值，如果为 true，则将读取新数据库的 Query 函数增加到并行任务执行队列中。第 19 行代码，为应用 FeatBit Feature Flags SDK 同时运行两个数据库读取操作，并将后果进行比照验证，依据执行状况返回正确值，并向观测云发送相干异样数据。public async Task<List<Sport>> GetSportsByCityAsync(int cityId, int pageIndex, int pageSize){ var tasks = new List<Task<List<Sport>>>(); // 当读取 Sport 相干业务的旧数据库开关返回 true 时，则增加读取工作到执行工作队列 if (_fbService.BoolVariation("read-sport-olddb")) { tasks.Add(GetSportsByCityQueryAsync(_oldDbContext, cityId, pageIndex, pageSize)); } // 当读取 Sport 相干业务的新数据库开关返回 true 时，则增加读取工作到执行工作队列 if (_fbService.BoolVariation("read-sport-newdb")) { tasks.Add(GetSportsByCityQueryAsync(_newDbContext, cityId, pageIndex, pageSize)); } // 同时执行两个读操作（为了防止新增数据读取减少申请工夫），并将后果进行比照并返回 // 如果后果不统一，则返回旧数据库读取后果，并进行记录 return await _fbService.RunAndCompareDbTasksAsync( tasks, timeoutDelayForNewDB: 3000, // 设定新数据库的最长等待时间，防止不良体感 (timeoutInfo) => { }, // 当新数据库调用超时，发信息至观测云 (unMatchInfo) => { }, // 当返回后果不统一时，发信息至观测云 (exception) => { } // 当出现异常时，发信息至观测云 );}在把相似于上述的代码逐渐的集成到咱们的我的项目中之后，就能够通过 FeatBit 提供的 Feature Flags 控制中心来管制每一个对应的数据库移植的双写双读放量工作了。例如咱们先将 feature flag read-sport-from-newdb 放量调整到 5%，若在一段时间未在观测云中察看到异样情况，增大放量百分比至 10% （如下图）。 ...

关于数据库:NineData-x-SelectDB-完成产品兼容互认证

近日，新一代实时数据仓库厂商 SelectDB 与云原生智能数据管理平台 NineData 实现产品兼容互认证。通过严格的联结测试，单方软件齐全互相兼容、功能完善、整体运行稳固且性能体现优异。基于本次的单干，单方将进一步为数据管理与大数据分析业务的交融继续助力，帮忙企业实现数字化转型，提高效率和降低成本，更好地满足客户业务需要并放弃外围劣势。对于 SelectDBSelectDB 成立于 2022 年初，外围团队成员来自百度、腾讯、阿里、亚马逊、字节跳动、蚂蚁金服等国内外头部互联网和云计算公司。公司的外围业务包含研发和推广开源实时数据仓库 Apache Doris，为 Apache Doris 用户提供技术支持商业服务，以及推出基于 Apache Doris 内核的 SelectDB 商业产品。在产品性能方面，SelectDB 具备实时性、云原生、开源等特点。为应答各行各业高并发、高吞吐、低延时等实时数据分析场景，SelectDB 的实时性可精准满足大数据处理和利用的需要，成为解决行业痛点、具备行业普适能力的实时数据仓库。在实时性之外，新一代的实时数据仓库 SelectDB 还需具备开源、云原生的特点。在云原生的特点上，飞轮科技已推出 SelectDB Cloud。通过云原生存算拆散的架构，为企业提供分钟级弹性伸缩、高性价比、简略易用、平安稳固的一键式部署和应用体验。飞轮科技现已有近百家客户，笼罩互联网、金融、批发、智能制作等畛域。并且，飞轮科技启动了寰球合作伙伴打算，截至目前，曾经与数十家生态搭档开启单干，并已陆续推出数据中台、BI 利用等解决方案。对于 NineDataNineData 是新一代的云原生智能数据管理平台，提供了数据复制、SQL 开发、数据备份以及数据比照等多种性能，帮忙用户轻松实现混合云、多云数据源的对立治理。NineData 的数据复制性能反对数十种同异构数据源之间的实时复制，提供单向和双向实时同步性能，实用于实时数仓构建、数据迁徙、异地容灾、异地多活、数据库扩缩容、数据库版本升级以及数据仓库实时数据集成等多种业务场景。能够满足企业多种场景下数据流动需要，让企业能更专一于本身业务的倒退。 SelectDB X NineData 的技术交融面对企业数字化转型过程中的新需要，SelectDB 提出“新一代实时数据仓库”的理念，致力于解决实时数据分析的行业痛点，为客户提供高性能、简略易用的企业级实时数据仓库产品与服务。 SelectDB 兼容 MySQL 协定，为 Ninedata 提供数据集成的标准协议，帮忙企业疾速发展数据分析业务。此外，SelectDB 反对大数据生态的诸多数据源、数据格式，并且可能对接丰盛的大数据生态产品，比方 Spark、Kafka、Flink、Hive、Iceberg 等，具备弱小的生态开发兼容性。 NineData 侧提供了高效、平安的数据开发能力，包含可视化表结构设计、智能 SQL 开发窗口、数据导入导出，推出数据库到 SelectDB 的实时数据同步及数据品质检测能力，为企业提供实时、精确的数据同步解决方案。比照传统计划，NineData 数据复制通过疏导式的链路配置形式，用户可在 1 分钟就可实现数据复制创立，并启动全自动化的数据实时集成。同时，链路的可观测、可干涉能力也保障了链路的长期稳固运行。在 SelectDB 与 NineData 的强强联合下，单方将为用户带来更加极致的实时数据复制体验及数据分析体验，晋升数据挖掘利用及数据分析的时效性，助力企业构筑业务竞争力。在将来，单方将独特致力于帮忙企业轻松实现海量数据的治理、实时集成、实时剖析，推动数据产业翻新降级，继续引领数字化时代的技术潮流。总结将来，SelectDB 和 NineData 将继续深入单干，独特摸索数据管理和大数据技术的翻新利用。SelectDB 将利用玖章算术的 NineData 平台，帮忙用户晋升本身产品的数据管理能力和数据处理效率。同时，玖章算术将充沛依靠 SelectDB 技术劣势，一直扩大技术生态和利用场景，独特为企业提供更为智能、高效、稳固的数据管理服务。 ...

关于数据库:Oracle数据库经纬度坐标查询优化与结果错误原因分析SQL中WKT超长文本字符串处理

一、Oracle几何空间数据对象和其余数据库的差别和MySQL、PostgreSQL等数据库相比，Oracle数据库的天文几何空间更难学习和上手应用，我总结的一点起因是Oracle Spatial文档中论述了太多的和其余数据库不通用的几何对象构建、查询方法，须要独自深刻学习钻研Oracle Spatial文档，常识碎片化重大，实现一个雷同性能可能有N个性能相近的函数能够给你调用（茴香豆的茴字的N种写法），学习老本太高，还稍不留神就容易踩坑。 WKT（Well Known Text）是通用的几何空间对象的文本示意办法，相比于同样通用的GeoJSON文本，WKT更简略，易于了解也容易生成，重要的是简直所有反对天文几何空间的数据库都反对WKT文本。 MySQL、PostgreSQL中可用ST_GeomFromText('wkt',SRID)来结构几何对象SQLServer中可用geometry::STGeomFromText('wkt',SRID)来结构几何对象Oracle中可用SDO_GEOMETRY('wkt',SRID)来结构几何对象，但此处有坑SQL语句中手写的单个文本字符串长度，在Oracle中也有限度，测试发现SQLPlus中最长的手写单个文本长度3000左右，SQL Developer中32767左右，超过了长度SQL就没法执行，间接报语法解析谬误，这在其余数据库中是闻所未闻的。简单的一个地理坐标边界图形的WKT可能有上百KB甚至上MB的超长文本，这在Oracle中单纯的应用SQL语句将会是一个很大的挑战。本地测试所应用的数据库版本：Oracle Database 21c Express Edition Release 21.0.0.0.0在线测试所应用的Live SQL版本：Live SQL 23.3.1, running Oracle Database 19c EE Extreme Perf - 19.17.0.0.0 （也有坑）Oracle Spatial参考文档地址：https://docs.oracle.com/en/database/oracle/oracle-database/21/spatl/index.html开源省市区坐标边界数据（可导入Oracle）：https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov github可换成gitee二、Oracle查问一个经纬度坐标是否在边界外部2.1 查问条件边界几何图形：POLYGON ((53 20, 52 20, 52 23, 57 23, 57 20, 56 20, 56 22, 53 22, 53 20))，相似一个倒过去的凹字坐标点：POINT (55 21)，这个点位于凹进去的外面，但不在凹字外部查问这个坐标点是否在图形外部，后果该当是不在外部。 2.2 查问后果谬误，仿佛是仅做了MBR匹配编写查问语句，这里间接给出雷同一个图形的顺时针和逆时针两种写法： declare -- 定义坐标点 p SDO_GEOMETRY:=SDO_GEOMETRY('POINT (55 21)',4326); -- 定义边界几何图形（顺时针），如果你的WKT是这种，那放到Oracle外面就惨了 g1 SDO_GEOMETRY:=SDO_GEOMETRY('POLYGON ((53 20, 52 20, 52 23, 57 23, 57 20, 56 20, 56 22, 53 22, 53 20))',4326); -- 定义边界几何图形（逆时针），合乎Oracle坐标程序要求 g2 SDO_GEOMETRY:=SDO_GEOMETRY('POLYGON ((53 20, 53 22, 56 22, 56 20, 57 20, 57 23, 52 23, 52 20, 53 20))',4326); v1 clob; v2 clob;begin -- 计算坐标点和2个边界的地位关系 select SDO_ANYINTERACT(g1,p),SDO_ANYINTERACT(g2,p) into v1,v2 from dual; dbms_output.put_line('g1:'||v1 ||' '|| 'g2:'||v2); -- 查看2个边界是否无效（ST_IsValid） dbms_output.put_line('g1 IsValid:'||SDO_GEOM.VALIDATE_GEOMETRY_WITH_CONTEXT(g1,0.0000001)); dbms_output.put_line('g2 IsValid:'||SDO_GEOM.VALIDATE_GEOMETRY_WITH_CONTEXT(g2,0.0000001));end;SQL Developer中执行后输入后果（和Live SQL中测试后果雷同）： ...

关于数据库:MySQL运行时的可观测性

1.说在后面的话2.装置employees测试库3.观测SQL运行状态3.1 观测SQL运行时的内存耗费3.2 观测SQL运行时的其余开销3.3 观测SQL运行进度感知SQL运行时的状态1. 说在后面的话在MySQL里，一条SQL运行时产生多少磁盘I/O，占用多少内存，是否有创立长期表，这些指标如果都能观测到，有助于更快发现SQL瓶颈，点燃潜在隐患。从MySQL 5.7版本开始，performance_schema就默认启用了，并且还减少了sys schema，到了8.0版本又进一步失去加强晋升，在SQL运行时就能察看到很多有用的信息，实现肯定水平的可观测性。上面举例说明如何进行观测，以及次要观测哪些指标。 2. 装置employees测试库装置MySQL官网提供的employees测试数据库，戳此链接(https://dev.mysql.com/doc/index-other.html)下载，解压缩后开始装置： $ mysql -f < employees.sql;INFOCREATING DATABASE STRUCTUREINFOstorage engine: InnoDBINFOLOADING departmentsINFOLOADING employeesINFOLOADING dept_empINFOLOADING dept_managerINFOLOADING titlesINFOLOADING salariesdata_load_time_diff00:00:37MySQL还提供了相应的应用文档：https://dev.mysql.com/doc/employee/en/ 本次测试采纳GreatSQL 8.0.32-24版本，且运行在MGR环境中： greatsql> \s...Server version: 8.0.32-24 GreatSQL, Release 24, Revision 3714067bc8c...greatsql> select MEMBER_ID, MEMBER_ROLE, MEMBER_VERSION from performance_schema.replication_group_members;+--------------------------------------+-------------+----------------+| MEMBER_ID | MEMBER_ROLE | MEMBER_VERSION |+--------------------------------------+-------------+----------------+| 2adec6d2-febb-11ed-baca-d08e7908bcb1 | SECONDARY | 8.0.32 || 2f68fee2-febb-11ed-b51e-d08e7908bcb1 | ARBITRATOR | 8.0.32 || 5e34a5e2-feb6-11ed-b288-d08e7908bcb1 | PRIMARY | 8.0.32 |+--------------------------------------+-------------+----------------+3. 观测SQL运行状态查看以后连贯/会话的连贯ID、外部线程ID： greatsql> select processlist_id, thread_id from performance_schema.threads where processlist_id = connection_id();+----------------+-----------+| processlist_id | thread_id |+----------------+-----------+| 110 | 207 |+----------------+-----------+查问失去以后的连贯ID=110，外部线程ID=207。 ...

关于数据库:数据库变革HashData云数仓实现事务级实时性

8月16-18日，第十四届中国数据库技术大会（DTCC 2023）在北京召开。酷克数据资深解决方案架构师陈义贤在“数据库内核•技术创新”专场发表题为“分布式数仓的TP能力摸索—HashData UnionStore”的演讲，介绍HashData以Log is database的思路在分布式数据仓库晋升TP性能革新中的技术计划及将来倒退布局。演讲精彩观点:1、在数据业务化的背景下，企业对数仓实时性能力提出越来越高的要求，OLAP和OLTP会产生进一步的交融。2、存算拆散架构将成为将来数据架构的根本要求，云原生架构的核心理念是将存算拆散，应用对象存储来保留一份全域数据，所有计算集群均为无状态，按需申请应用，也能够兼容各种不同计算引擎，满足各类不同业务的需要。3、存算解耦后，应用不同引擎离开解决数据成为可能：Log is database的理念能够大幅优化数仓的OLTP能力，通过将数据随机写入的操作剥离，以日志数据为中介载体，缩小了简单的锁定和同步操作，大幅晋升了并发能力，同时缩小随机拜访带来的老本。以下为本次演讲文字实录（节选）：近些年，随着企业IT建设从信息化演进到数字化，企业对数据利用的需要也经验三个阶段：在1.0阶段，以数据统计查问为主，在此基础上构建相应的零碎，服务于部门级的利用。在2.0阶段，企业通过数仓整合远端利用数据，再进一步的进行加工，实现商业智能，为企业决策层提供撑持。随着大数据技术的倒退，企业数据利用曾经进入3.0阶段。在这一阶段，数据利用越来越丰盛，可能更好地服务于企业整体员工。上述的三个阶段仍是处于信息化阶段，数据只是在业务零碎经营产生的副产品。而随着企业数据衍生的价值越来越大，企业在进行零碎设计之前，就须要思考如何更好地治理数据资产。在这样的的背景下，利用零碎成为了物理世界和数字世界的映射的媒介。同时，随同着AI技术的成熟，将来企业数据利用会越来越智能化和自动化，可能主动优化企业的经营策略和业务流程，达成麻利业务的能力。随着数据业务化的倒退，对数据平台的时效性、准确性和一致性提出了更高的要求，OLTP和OLAP将会进一步地交融。传统MPP分布式数仓晋升OLTP能力的尝试目前，MPP数仓晋升OLTP 能力次要分为两个技术路线：第一种是在TP利用场景，由2PC转为间接派发，缩小prepare阶段的实例期待，从而晋升单条数据增删改的性能。这种形式的毛病是随着数据分析负载的减少，会额定加大零碎开销，造成比拟大的提早。另一种形式是针对单条记录增删改的数据应用行存表，晋升并发性能。传统分布式MPP架构数据库，会将工作并行的散布到多个服务器和节点上，并在实现计算后，将后果返回并汇总，从而实现对海量数据的剖析解决。随着业务的增长，企业须要减少服务器去晋升整个集群的数据处理的能力。因为传统分布式MPP架构计算存储紧耦合，当繁多集群达到肯定的规模时（个别为200），即便再追加新的计算节点，集群总体性能都会受制于旧的节点，岂但不会回升，反而呈现降落。存算拆散架构将成为将来数据架构的根本要求“存算拆散”技术的呈现，很好地解决了传统MPP架构数据库的“痛点”。云原生架构的核心理念就是存算拆散，应用对象存储来保留一份全域数据，所有计算集群均为无状态，按需申请应用，也能够兼容各种不同计算引擎，满足各类不同业务的需要。图1：HashData在某国有大行存算拆散落地计划示意图以HashData云数仓为例，多个集群共享对立的元数据、对立的数据存储，由对立的元数据集群提供与数据资产目录的动静连贯。当底层数据发生变化的时候，数据资产目录能够同步进行更新，为企业数据资产经营、数据治理以及数据安全治理提供了相应的撑持能力。同时，得益于存算拆散的架构，HashData通过一致性哈希来防止数据从新逻辑分组，通过共享存储防止数据从新物理散布，能够实现集群的秒级主动扩缩容。 HashData UnionStore技术创新存算解耦后，应用不同引擎离开解决数据成为可能：“Log is database”（日志即数据库）是一种基于日志的数据库架构思维，它能够晋升 OLTP零碎的性能。Log is database通过将数据随机写入的操作剥离，计算集群只将WAL日志提交至HashData UnionStore集群，由UnionStore集群解决日志数据，并重放生成新的页数据，这样缩小了简单的锁定和同步操作，能够大幅晋升并发能力，同时也缩小随机拜访。 Log is database晋升数仓TP性能体现在以下几个方面：缩小磁盘随机拜访：传统的数据库系统须要将数据写入磁盘的数据文件中，这可能导致频繁的磁盘随机拜访，对性能造成负面影响。而日志数据库将所有的数据更改操作都追加到日志中，这样能够将磁盘写入操作转变为间断的程序写入操作，大大减少了磁盘的随机拜访，进步了性能。异步提交：传统的数据库系统在每个事务提交时都须要将数据写入磁盘，这会引入较高的提早。而日志数据库采纳异步提交的形式，即先将数据更改操作写入日志，而后异步地将日志中的操作批量写入磁盘。这种形式能够缩小磁盘写入的次数和提早，进一步晋升性能。并发管制优化：日志数据库能够利用日志记录事务操作的个性来进行并发管制的优化。多个事务能够并发地写入日志，而不须要进行简单的锁定和同步操作。这种并发管制的优化能够进步零碎的并发性能和吞吐量。批处理优化：日志数据库通常将多个操作合并成批处理操作进行解决。通过批处理操作，能够缩小磁盘写入的次数，进一步提高性能。例如，将多个更新操作合并成一个批处理操作，能够缩小每个操作的开销和磁盘拜访次数。重放优化：日志数据库能够通过重放日志来复原和重建数据库状态。在系统启动时，能够通过重放日志中的操作，依照程序将数据更改利用到数据库中，从而疾速复原数据库的统一状态，而无需执行大量的随机拜访和数据恢复操作。图2：HashData UnionStore架构图在内核层面，HashData对UnionStore集群进行了以下优化：Wal Service：在数据库中，WAL是一种持久性存储技术，它能够确保数据库在重启或解体时不会失落数据。在WAL机制下，数据库在写入数据之前，会首先写入一份日志记录，用于记录写入的数据信息。为了保障日志长久化之后的可靠性，日志通常会保留三正本。由leader节点负责接管计算集群申请，本地长久化同时将日志发送到follower节点，当所有节点都实现日志长久化之后，leader节点才会返回给计算集群。 Safekeeper为每一个租户启动了Wal Writer线程，负责进行日志长久化以及状态监控、选举。Safekeeper leader会为每个follower启动一个Wal Syncer线程，专门负责同步日志以及发送心跳。 Page Service：次要负责从Wal Service(safekeeper leader)获取曾经长久化日志并进行解析，通过重放日志去批改page数据；此外还会对计算集群提供更新后的Page读取服务。 Page存储模式：引入了快照机制，Page Service将以后日志作为page的delta log，通过base page+delta log形式来构建对应page的多版本。Time Travel：HashData通过UnionStore对底层数据存储的快照化设计，联合重做日志，赋予数据仓库“工夫旅行”的能力。比方应用LSN 700读取Page1，则Page Service 会先获取base page，而后依据LSN 700确定delta log范畴，而后将日志按程序apply到base page v2，生成对应page版本返回。图3：Time Travel示例图Time Travel可广泛应用于以下场景，为数据库的操作治理提供极大的便当：复原数据库对象：通过追溯Page版本和LSN，能够将数据恢复到任意工夫点。误删除的表，Shcema和库，能够间接将数据恢复到误操作之前工夫点。查问历史数据：能够查问任意工夫点的数据，简略疾速。获取数据在某个时间段的变更历史、增量统计用于决策分析；例如通过CDC数据入库，能够在不制作拉链表的状况下，间接抉择统计数据的工夫点。历史数据克隆：创立任意工夫点数据的拷贝，辅助数据模型训练。基于某个工夫点训练后果创立多份数据拷贝，应用不同参数进行训练，比照训练后果。图4：HashData云原生对立架构HTAP数据平台通过以上技术创新和优化，HashData将能够反对数据跑批、流式计算、混合负载、数据增删改高效转化等利用场景，达成准实时数仓的能力，更好地助力企业构建onedata体系。

关于数据库:ip归属地在电商行业应用

在电商行业中，IP归属地能够利用于以下方面：1.避免欺诈和欺骗：IP归属地能够用于辨认用户的实在地理位置，从而辨认潜在的欺诈和欺骗行为。例如，如果一个用户应用不同的IP地址进行屡次购买可能是为了进行虚伪交易或歹意刷单。 2.区域定向广告：通过剖析用户的IP归属地，电商平台能够依据用户所在地区提供相应的广告和举荐内容。例如，当用户拜访一个电商网站时依据其IP归属地能够显示当地的促销流动和左近的实体店信息。 3.价格定位和物流治理：不同地区的人们对商品的需要和领取能力可能有所不同。通过剖析用户的IP归属地，电商平台能够依据不同地区的市场需求和生产能力来设定商品价格，并优化物流治理，进步配送效率。 4.地区剖析和市场钻研：通过剖析用户的IP归属地，电商平台能够理解用户所在地区的生产习惯、需要偏好等信息，从而进行地区剖析和市场钻研为产品开发和市场营销提供数据反对。须要留神的是，尽管IP归属地能够提供一些有用的信息但并不能齐全确定用户的实在身份和地理位置因为IP地址能够被假装或者应用代理服务器暗藏实在信息。因而，在利用IP归属地的数据时，还须要联合其余的身份验证和反欺诈措施来加强安全性和准确性。

关于数据库:NineData成功通过AWS-FTR认证构建更安全稳定的数据管理平台

近日，NineData 作为新一代的云原生智能数据管理平台，胜利通过了 AWS（Amazon Web Service）的 FTR 认证。NineData 在 FTR 认证过程中表现出色，胜利通过了各项严格的测试和评估，在数据安全治理、技术利用、流程标准等方面均达到 AWS 寰球技术要求。什么是 FTR，为什么要做 FTR？FTR（Foundational Technical Review）是亚马逊云服务针对合作伙伴解决方案相干进行的一项技术审核，涵盖了架构设计审核、安全性审核、性能测试与优化以及老本评估等多个方面，用来帮忙合作伙伴辨认和纠正产品或解决方案中的相干危险。通过该审核流程，用户能够确保其在 AWS 上的资源和服务满足 AWS 的规范和要求，进步服务质量并升高谬误危险，全面晋升用户的体验。 NineData 胜利通过 AWS FTR 认证，是客户能够放心使用的数据管理工具。FTR 认证不仅要求 NineData 具备欠缺的数据管理能力，还对产品架构设计、数据安全、技术利用等方面进行全面考查，确保其合乎行业标准和法规要求。NineData 在安全措施的剖析和应答策略上针对性地制订了应答策略，以升高数据泄露和安全漏洞的危险。NineData 在性能、技术指标和架构设计上严格把关，通过高标准的数据管理和流程管控，为客户提供平安、稳固、高效的数据管理服务。 NineData 为企业提供平安高效的数据管理对于客户来说，抉择通过 FTR 认证的 NineData 作为企业的数据管理工具，意味着能够享受到一个平安、牢靠、高效的数据管理服务。NineData 采纳了当先的云原生与 AIGC 技术，提供了 SQL 开发、数据复制、数据备份、数据比照等数据管理性能，并与企业数据源买通，构建出更智能的数据管理服务。 NineData 反对 MySQL、ClickHouse、PolarDB、GaussDB、Redis、SQLServer、Kafka、ElasticSearch 等多种数据源治理，能够帮忙企业实现平滑的数据上云、跨云迁徙、ETL 等需要。此外，NineData 还交融了企业敏感数据爱护、数据库研发标准、生产环境变更公布等操作流程，能够齐全替换 Navicat、DBeaver、Yeaning、Archery 等产品，提供了全方位的数据智能治理服务，为客户发明数据价值。小结将来，NineData 将继续晋升数据管理能力，以“客户第一，高效稳固”的准则为企业提供智能、高效、平安的数据管理服务。通过一直地翻新和技术研发，帮忙企业在数字化时代用好数据和云。

关于数据库:KaiwuDB-CTO-魏可伟回归用户本位打造小而全的数据库

8月16日，KaiwuDB 受邀亮相第十四届中国数据库技术大会 DTCC 2023。KaiwuDB CTO 魏可伟承受大会主办方的采访，单方独特围绕“数据库架构演进、内核引擎设计以及不同技术路线”开展深度探讨。以下是采访的局部实录 ↓↓↓ 40 多年前，企业的数据量还没有如此宏大，会抉择把要害业务数据放在关系型数据库中。随着软硬件的倒退，计算和存储老本一直升高，数据库技术进入新的倒退阶段。以 IoT 场景为例，这是一个由各种新技术互相交织造成的“泛”行业，看似宽口进，实则门槛高。 IoT 与 5G、工业 4.0、工业物联网、车联网、人工智能等造成“组合拳”，为各个行业的数字化转型赋能，但也导致业务零碎的复杂性攀升。当数据来自时序、文档、空间、图等多个数据源，各数据源又面向不同的数据库系统、接口服务等，导致最终的数据采集不残缺，呈现数据不统一的景象。所谓“术业有专攻”，专库专用在一段时间里成为“专宠”，但也造成了数据孤岛。通常状况下，一家企业应用的关系型数据库是 A 家，时序数据库又是 B 家，同时可能还有 C 家的 AI 平台。这意味着企业须要领有身兼多种技能的开发运维人才；否则，一旦波及到新性能及多个产品之间的协同，就会影响迭代速度。如果能用一套数据库去替换原来多套不对立的数据库类型，来解决业务的复杂性以及开发和运维老本一直攀升的问题，那企业面临的很多问题也将迎刃而解。多模数据库可能就是一个好答案。一、多模架构，用“小而全”为用户减负“从传统关系型数据库主导市场，到 NoSQL 数据库衰亡，再到时序数据库，图数据库，向量数据库百花齐放，明天的多模数据库旨在化繁为简，反对多种数据模型对立治理。”魏可伟示意，多模式数据库是数据管理系统一直演进的后果，多种类型的数据库系统混用带来的开发和运维压力，使得企业不得不做出新的抉择。以后，业内支流的多模数据库可大抵归结为 2 种路线：粘合式即大而全的平台式多模，把各种不同类型的数据处理引擎，包含关系引擎，集成在一起，下层以中间件的模式对外提供一个对立接口，进行数据的散发、转换等工作。然而现实情况是，很多大而全的性能在理论业务场景中基本用不上。具体到下层的引擎，为了实现多模的能力，粘合式路线会把所有引擎都拉到一个中间层，再做数据搬动，给开发和运维带来极大的压力。成长式以关系型数据库为主，为了解决图、文档等 NoSQL 数据扩大出新的能力；同时，除了关系型数据库厂商，图数据库、空间数据库厂商也在基于本人的本行向新的能力扩大，这都属于成长式。这种模式绝对实用于有一个传统利用，又想基于原有利用做大量的异构数据扩大的状况。比方：金融行业的交易解决是日常利用，同时须要扩大大量的空间数据库满足业务需要，这种业务场景更适宜用成长式数据库。但成长式多模架构在前期扩大能力上存在肯定局限，此前主体数据库架构可能基本就不反对新性能的扩大。有别于上述两种情景，KaiwuDB 自研原生多模零碎，从顶层设计上人造具备横向交融、纵向精专的能力。依靠"就地计算"、"原生 AI"等核心技术，KaiwuDB 疾速反对时序数据、内存数据、关系型数据等在同一数据库中对立汇存、解决及 AI 智能剖析。其中，最大特色是对立的 SQL 语法、对立的数据库命令、对立的开发运维工具、对立的平安认证，可能将不同数据库性能充沛交融，实现一库多用，进而升高用户的应用老本，用魏可伟的话说，就是“小而全”。 KaiwuDB 始终在思考多模架构到底做到何种水平能力满足 IoT 畛域用户的需要而又能做到简略易用？首先，时序数据处理的性能和扩大能力肯定是高要求，同时要想方法升高存储老本；其次，要提供合乎 IoT 数据特色的数据管理工具以及数据库自治的能力；最初，要以剖析为先、以 AI 为先，可能从海量数据中挖掘出数据价值，为 IoT 业务场景提供业余的服务。此种背景下，KaiwuDB 给本人的定位是，在设计上有横有纵，打造一个“又融又专”的多模架构。 “融”指针对不同的数据类型，开发能施展最大性能的专用数据处理引擎，例如 KaiwuDB 时序引擎，利用“就地计算”技术能够实现每秒数百万级的数据写入，毫秒级响应千万级数据的剖析查问。 “专”指交融多个专用引擎以反对 IoT 业务场景，在多个专用引擎之间造成对立的优化，对立的治理，同时又依据 IoT 数据处理的特点建设“快速通道”。 ...

关于数据库:Bytebase-260-支持通过-LDAP-配置-SSO支持-RisingWave-数据库

新性能反对通过 LDAP 配置 SSO。反对减少多个只读连贯。Schema 模版反对列类型束缚。反对 RisingWave 数据库。库表同步性能反对 TiDB。数据脱敏性能反对 SQL Server。SQL 审核 CI 性能反对 Azure DevOps。改良反对设置数据库的环境与所属实例的环境不统一。反对通过角色查看我的项目成员。反对在增加我的项目查问/导出数据角色时，抉择特定的数据库。优化 Postgres 慢查问日志交互。优化实例详情页的布局。优化 SQL 编辑器的导航。社区Bytebase CEO 陈天舟缺席「直播｜MySQL vs. PostgreSQL，谁是世界第一？」墨天轮回放：https://www.modb.pro/video/8261Bytebase X RisingWave Meetup 8月12日线下流动，Bytebase CEO 陈天舟演讲局部：https://www.bilibili.com/video/BV1KP411s77r/感激 @TennyZhuang 提交 PR feat: support to use RisingWave as instance #7427感激 @1aal 提交 PR fix: fix bytebase helm chart #7481感激 @kanzihuang 提交 PR fix: sql export for bit type #7444 装置及降级参考降级指南。如果从之前版本升级，获取新版本后，重新启动降级即可。你能够拜访官网：https://www.bytebase.com/，收费注册云账号，立刻体验 Bytebase。

关于数据库:分析商务报表使用什么工具

传统的BI剖析商务报表存在的问题随着数字化转型的深刻推动，企业面临着海量数据的挑战和时机。数据是企业的重要资产，可能帮忙企业洞察市场动态、优化业务流程、晋升客户满意度、发明竞争劣势。然而，传统的BI（商业智能）工具往往不能满足企业对数据分析的需要，因为它们存在以下问题：数据源接入艰难。传统的BI工具往往只能反对无限的数据源类型，无奈适应云上、本地、云端等多种环境的数据源接入，导致数据孤岛和数据不统一的问题。数据分析效率低下。传统的BI工具往往须要简单的SQL语句或编程技能来进行数据查问和加工，无奈实现疾速响应和实时剖析，导致数据价值散失和决策提早的问题。数据可视化成果繁多。传统的BI工具往往只能提供简略的图表和报表展现，无奈满足不同场景和用户的个性化需要，导致数据难以了解和沟通的问题。数据安全治理有余。传统的BI工具往往不足精细化的数据权限管控能力，无奈实现面向各级用户群组的权限管制和敏感数据防透露，导致数据安全危险和合规问题。 Quick BI剖析商务报表的劣势为了解决这些问题，阿里云推出了Quick BI这一智能剖析套件，它是一个专为云上用户量身打造的新一代智能BI服务平台。Quick BI具备以下劣势：丰盛的数据源接入。Quick BI反对线上、本地、云端等多种环境的数据源接入，包含阿里云数据库、自建数据库、上传本地文件、API数据源等，能够实现跨源、异构的数据关联及查问。弱小的数据引擎。Quick BI内置高速数据云计算引擎，10亿级数据可实现亚秒级计算和响应。同时，Quick BI还具备专利技术的高性能查问减速引擎撑持，能够反对多种减速模式，如抽取减速、索引减速等。丰盛灵便的数据可视化剖析组件。Quick BI内置超40种丰盛的图表，同时领有灵便的OLAP多维分析能力。用户能够通过拖拽式操作和丰盛的图形属性设置来构建可视化报表。Quick BI还提供穿插表、指标看板、饼图等近40种可视化组件，并反对自在上卷下钻、联动跳转、智能机器人预警预测剖析等性能。企业级的数据权限管控平台。Quick BI反对面向各级用户群组的精细化权限管制，包含角色权限、资源权限、集中受权、数据行列权限、申请与审批权限等。Quick BI还反对公开、嵌入及空间共享等满足不同的数据分享场景需要，并能实现仪表板数据下载、订阅推送等性能。无缝对接挪动端&大屏终端。Quick BI能够与钉钉、企微、飞书等挪动办公平台无缝集成，通过预警推送等形式，实现高效挪动办公。Quick BI还能够在PC端配置实现后，主动在挪动端和大屏终端适配展示，实现数据的全方位展现和利用。 Quick BI剖析商务报表的案例因为Quick BI具备以上劣势，它曾经成为阿里云用户臻选的数据可视化剖析工具，也是中国首个且惟一一个入选寰球Gartner ABI魔力象限的BI产品。Quick BI曾经累计服务了上万家企业客户，涵盖互联网、批发、金融、教育等多个行业，帮忙他们实现了数据分析和报表开发的效率晋升和价值发明。例如：老板电器通过整合散落的各类数据，构建对立的大数据平台零碎，实现经营、商品、流量、店铺、订单、营销等各类场景剖析，从各类整体指标概览，再到分层细节指标数据的比照剖析，实现数据领导业务精细化经营。拼多多通过Quick BI搭建了一个全域数据分析平台，实现了从用户行为到业务成果的全链路剖析，从而晋升了用户体验和商家服务水平。中国银行通过Quick BI构建了一个金融交易动静实时剖析平台，实现了对交易量、交易金额、交易类型等多维度的监控和剖析，从而晋升了危险管制和决策能力。综上所述，Quick BI是一个专为云上用户量身打造的新一代智能BI服务平台，它能够提供海量数据实时在线剖析服务，反对拖拽式操作和丰盛的可视化成果，帮忙您轻松自如地实现数据分析、业务数据探查、报表制作等工作。Quick BI曾经成为阿里云用户臻选的数据可视化剖析工具，也是中国首个且惟一一个入选寰球Gartner ABI魔力象限的BI产品。有越来越多的企业应用Quick BI剖析商务报表，是因为它能够帮忙他们晋升数据分析和报表开发的效率和价值，实现数字化转型和竞争劣势。

关于数据库:AI巨浪下数据技术如何驱动智能未来

引言数据技术是大数据时代的外围驱动力，也是推动各行各业数字化转型和智能化降级的关键因素。随着云计算、人工智能、区块链等新兴技术的一直倒退和交融，数据技术也呈现出多模态、混合解决、自动化治理等新的趋势和特点。 8 月 19 日（周六），第八届 Techo TVP 开发者峰会暨 NPCon 新程序员大会 —— “数据驱动智能智能赋能将来”来了，本次大会由腾讯云 TVP 与 CSDN 联结主办，旨在搭建一个数据技术的交换和展现平台，邀请出名数据技术专家、行业领导者，独特探讨数据技术的最新进展和倒退方向，分享数据技术在各个领域的翻新摸索与利用，为推动数据技术的倒退和利用提供思维和实际的启发。峰会简介Techo TVP 开发者峰会，是面向宽广开发者的大型技术交换盛会，旨在通过最用心的分享、最前沿的洞察、最理论的观点，为开发者敌人献上一场“最有料、乏味、且有用”的开发者峰会。最有料：每一期大会，都将展示一个技术畛域的倒退全景，在这里，一天带你鸟瞰全局。最乏味：再硬核的技术，也因开发者而领有了温度，在这里，咱们更懂你的需要与感触。最有用：不能复用的技术分享只是看上去美妙，咱们心愿每一位开发者在参会完结后，都能失去一些能够马上用到的解决方案。8 月 19 日（周六），北京中关村皇冠假日酒店（北京市海淀区知春路106号），第八届 Techo TVP 开发者峰会暨 NPCon 新程序员大会 —— “数据驱动智能智能赋能将来”将带来全天候、全方位、沉迷式分享，从趋势分享到最佳实际，与你独特探讨数据技术的最新进展和利用。参会形式辨认下图二维码或点击文末左下角「浏览原文」，即可收费报名加入本次 Techo TVP 开发者峰会，8 月 19 日（周六），北京中关村皇冠假日酒店（北京市海淀区知春路106号），TVP 与你相约，不见不散！大会现场更有 Cherry 机械键盘、JBL 蓝牙音响、腾讯定制噗噗盲盒、鹅厂周边公仔等精美礼物，所有到场参会的开发者皆有机会参加抽奖。你还在等什么，快扫码报名参会吧！报名胜利后，增加云小助微信：tvp1215，回复关键词：数据，可提前进群参加互动，抽取礼品大奖！结语TVP 自成立以来，始终秉承着“用科技影响世界”的愿景，致力于搭建连贯技术专家与宽广开发者的桥梁，让技术普惠大家，践行科技向善的初心和本心。咱们心愿通过本次“最有料、乏味、且有用”的 Techo TVP 开发者峰会，携手畛域技术大咖，与宽广开发者敌人一起，开启数据驱动智能的新篇章。

关于数据库:Apache-SeaTunnel社区迎来新Committer

采访&编辑 | Debra Chen 个人简介姓名：马骋原公司：恒生电子GitHub ID：rewerma集体善于钻研畛域：java中间件、微服务、大数据等您为社区提交了什么奉献？具体计划能够形容一下吗？为SeatTunnel提交SQL Transform plugin的PR，通过SQL解析器生成物理执行打算，自建函数库执行数据转换逻辑。当初与Apache SeaTunnel结缘，背地有什么故事吗？通过DolphinSchedule结缘SeaTunnel。您参加开源有多长时间了？开源为什么吸引你？参加开源大概有7年工夫，看到本人的RP被宽广开发者认可并应用有肯定的成就感。您之前做过数据集成平台调研吗？有做过SeaTunnel与其余竞品的比照剖析吗？有对Canal、DataX等组件有深刻的了解。自身也是Canal的Commitor。您所在公司是否应用过SeaTunnel？应用场景是什么？公司目前征筹备引入SeaTunnel以替换DataX，次要是面向数据采集和转换的场景。您是否基于SeaTunnel进行过二次开发？开发计划是否能够介绍一下？目前有打算对SeaTunnel进行二次开发，移除局部连接器插件，适配外部相干数据源的连接器，扩大Transform的能力。 SeaTunnel社区奉献给您的第一印象是怎么的？您心愿在这里有何播种？社区比拟沉闷，常常能看到很多比拟好的idea和RP。您还心愿参加SeaTunnel社区能对您的个人成长提供什么样的反对？学习到更多新技术。当前期待SeaTunnel做出哪些新的优化和改良？数据采集性能的晋升；Transform计算能力的扩大。您对社区Committer角色的了解是什么？Committer应该在社区中做什么/起到什么作用？代码奉献和审核：Committer是社区中次要的代码贡献者之一，负责提交新的代码和性能，以及对社区成员的代码进行审核和批准。他们负责确保代码的品质和安全性。项目管理：Committer对我的项目的整体开发和停顿负有责任，他们协调社区成员的工作，治理开发进度，并确保我的项目按计划推动。解决问题和提供反对：Committer通常是社区中经验丰富的开发者，他们负责解决简单的问题和提供技术支持，帮忙其余社区成员克服难题。负责新的角色，你对将来SeaTunnel将来的倒退（我的项目开发和社区倒退两方面）有哪些倡议？取得推选成为Committer的一员，我感到十分荣幸和感谢。这是对我过来在我的项目中所做奉献的认可，也是对我可能持续为我的项目做出更大奉献的信赖和激励。对于我的项目的倒退，我心愿咱们可能持续放弃团结和单干的精力。让咱们独特保持高质量的代码，继续优化和改良我的项目，为用户提供更好的体验。同时，我也激励大家积极参与社区的交换和探讨，分享教训和见解，让咱们独特成长和提高。本文由白鲸开源科技提供公布反对！

关于数据库:JDBC-Vertica-Source-Connector-使用文档

反对以下引擎SparkFlinkSeaTunnel Zeta 要害个性批处理准确一次性解决列投影并行处理反对用户自定义拆分反对查问 SQL 并实现投影成果形容通过 JDBC 读取内部数据源数据。反对的数据源信息DatasourceSupported versionsDriverUrlMavenVerticaDifferent dependency version has different driver class.com.vertica.jdbc.Driverjdbc:vertica://localhost:5433/verticaDownload数据库依赖请下载与 'Maven' 对应的反对列表，并将其复制到 '$SEATNUNNEL_HOME/plugins/jdbc/lib/' 工作目录中 例如，Vertica 数据源：cp vertica-jdbc-xxx.jar $SEATNUNNEL_HOME/plugins/jdbc/lib/数据类型映射Vertical Data typeSeaTunnel Data typeBITBOOLEANTINYINT TINYINT UNSIGNED SMALLINT SMALLINT UNSIGNED MEDIUMINT MEDIUMINT UNSIGNED INT INTEGER YEARINTINT UNSIGNED INTEGER UNSIGNED BIGINTLONGBIGINT UNSIGNEDDECIMAL(20,0)DECIMAL(x,y)(Get the designated column's specified column size.<38)DECIMAL(x,y)DECIMAL(x,y)(Get the designated column's specified column size.>38)DECIMAL(38,18)DECIMAL UNSIGNEDDECIMAL((Get the designated column's specified column size)+1, (Gets the designated column's number of digits to right of the decimal point.)))FLOAT FLOAT UNSIGNEDFLOATDOUBLE DOUBLE UNSIGNEDDOUBLECHAR VARCHAR TINYTEXT MEDIUMTEXT TEXT LONGTEXT JSONSTRINGDATEDATETIMETIMEDATETIME TIMESTAMPTIMESTAMPTINYBLOB MEDIUMBLOB BLOB LONGBLOB BINARY VARBINAR BIT(n)BYTESGEOMETRY UNKNOWNNot supported yet源选项NameTypeRequiredDefaultDescriptionurlStringYes-The URL of the JDBC connection. Refer to a case: jdbc:vertica://localhost:5433/verticadriverStringYes-The jdbc class name used to connect to the remote data source, if you use Vertica the value is com.vertica.jdbc.Driver.userStringNo-Connection instance user namepasswordStringNo-Connection instance passwordqueryStringYes-Query statementconnection_check_timeout_secIntNo30The time in seconds to wait for the database operation used to validate the connection to completepartition_columnStringNo-The column name for parallelism's partition, only support numeric type,Only support numeric type primary key, and only can config one column.partition_lower_boundLongNo-The partition_column min value for scan, if not set SeaTunnel will query database get min value.partition_upper_boundLongNo-The partition_column max value for scan, if not set SeaTunnel will query database get max value.partition_numIntNojob parallelismThe number of partition count, only support positive integer. default value is job parallelismfetch_sizeIntNo0For queries that return a large number of objects,you can configure the row fetch size used in the query toimprove performance by reducing the number database hits required to satisfy the selection criteria. Zero means use jdbc default value.common-options No-Source plugin common parameters, please refer to Source Common Options for details提醒如果未设置 partition_column，则会在繁多并发中运行；如果设置了 partition_column，则将依据工作的并发性进行并行执行。 ...

关于数据库:Apache-DolphinScheduler-支持使用-OceanBase-作为元数据库啦

DolphinScheduler是一个开源的分布式任务调度零碎，领有分布式架构、多任务类型、可视化操作、散布式调度和高可用等个性，实用于大规模分布式任务调度的场景。目前DolphinScheduler反对的元数据库有Mysql、PostgreSQL、H2，如果在业务中须要更好的性能和扩展性，能够在DolphinScheduler中应用OceanBase数据库作为元数据库进行替换。节点数量和规模能够自在调整，实现无缝扩大和缩减。一. OceanBase数据库OceanBase数据库是阿里巴巴自主研发的分布式关系型数据库，具备以下特点：分布式架构：OceanBase采纳分布式架构，可程度扩大，反对PB级别的数据存储和解决。高可用性：OceanBase采纳分布式正本机制，实现数据的冗余备份，保障在节点故障时仍能提供可用的服务。高性能：OceanBase采纳多维度优化技术，包含数据存储、查问优化、分布式事务等方面，可大幅晋升数据库的性能。强一致性：OceanBase采纳基于Paxos协定的多正本一致性算法，实现强一致性的分布式事务处理。兼容SQL：OceanBase反对规范的SQL语言，包含DDL、DML和DQL等命令。可扩展性：OceanBase反对在线扩容和缩容，可依据业务需要自在调整节点数量和规模。安全性：OceanBase采纳多层安全策略，包含明码加密、数据加密、访问控制等，保障数据库的安全性。总之，OceanBase数据库具备高可用、高性能、强一致性等个性，实用于大规模、高并发的业务场景。二. DolphinScheduler反对OceanBase数据源在DolphinScheduler中应用OceanBase做数据源在调度业务上的劣势：高性能：OceanBase能够解决大规模数据，而且在数据存储和解决方面都采纳了多维度优化技术，所以绝对于其余数据库，其有更高的性能体现，能够疾速地解决数据。高可靠性：OceanBase是一个分布式数据库，通过多节点的数据冗余备份，当某个节点产生故障时可能主动切换，保障服务的高可靠性。事务处理：如果业务须要原子性的操作，OceanBase能够提供强一致性的分布式事务处理，从而保证数据不会呈现不统一的状况。散布式调度：DolphinScheduler本身是分布式任务调度零碎，和OceanBase分布式架构互相匹配，能够充分利用Oceanbase的分布式个性，提供更高效率的调度服务。可扩展性：DolphinScheduler和OceanBase都反对在线扩容和缩容，能够依据业务需要自在调整节点数量和规模，实现无缝扩大和缩减。应用OceanBase作为数据源能够带来高性能、高可靠性、高安全性和弱小的扩展性，和DolphinScheduler联合应用，将会为调度业务的稳定性、可靠性、可扩展性带来更优良的体现。三. OceanBase具体兼容Mysql的哪些个性数据类型：OceanBase反对MySQL的常见数据类型，如整数、浮点数、日期和工夫、字符串等。SQL语法：OceanBase反对MySQL的常见SQL语句，如SELECT、INSERT、UPDATE、DELETE等命令。存储引擎：OceanBase反对InnoDB存储引擎，从而能够兼容MySQL的事务和锁定个性。存储过程：OceanBase反对MySQL的存储过程个性，包含存储过程、存储函数和存储触发器等。工具和驱动：OceanBase反对MySQL的常见工具和驱动，如MySQL Workbench、Navicat和JDBC等。四. DolphinScheduler更换为OceanBase元数据库的步骤创立OceanBase数据源，包含主机地址、端口号、用户名、明码等信息；阿里私有云：在阿里云官网申请私有云的OceanBase实例，申请胜利后可在控制台-云数据库OceanBase版-实例列表页面看到状态为运行中的实例：进入实例能够看到数据库实例和下方的代理私网、公网地址；右上角能够新建数据库和新建账号，非超级账号须要在账号治理页面批改权限才可拜访数据库，此账号和明码会作为服务内连贯OceanBase数据库的数据库账号密码：创立胜利后在面板登陆数据库或应用其余数据源连贯工具或应用命令行登陆数据库并执行SQL验证是否可用：进入OceanBase后创立DolphinScheduler数据库，执行表初始化SQL文件：dolphinscheduler/dolphinscheduler-dao/src/main/resources/sql/dolphinscheduler_mysql.sql；批改DolphinScheduler的配置文件，将原有的MySQL数据源替换成新的OceanBase数据源；本地启动Api服务：批改dolphinscheduler-api模块配置文件中的数据库地址本地启动Standalone服务：批改dolphinscheduler-standalone-server模块配置文件中的数据库地址同上服务器部署：批改 /apache-dolphinscheduler-3.1.2-bin/bin/env/dolphinscheduler_env.sh中的数据库地址启动DolphinScheduler，失常拜访登陆并其余模块都可失常操作即可验证OceanBase元数据库连贯胜利且失常应用：五. 切换过程中须要留神哪些事项1.外键束缚在应用DolphinSchedulerSQL文件dolphinscheduler_mysql.sql初始化数据库时，SQL的开始会设置 SET FOREIGN_KEY_CHECKS=0 不查看外键束缚，须要留神的是OceanBase社区版4.0之前是不反对DDL语句的外键束缚的。例官网版本V3.1.1，所以在这里咱们要留神下OceanBase的版本兼容性。 2. 数据迁徙后插入报错报错信息如下: 报错信息 Caused by: java.lang.ArrayIndexOutOfBoundsException: 0 at com.mysql.cj.protocol.a.NativePacketPayload.readInteger(NativePacketPayload.java:398) at com.mysql.cj.protocol.a.NativePacketPayload.readString(NativePacketPayload.java:605) at com.mysql.cj.protocol.a.NativeServerSessionStateController$NativeServerSessionStateChanges.init(NativeServerSessionStateController.java:112) at com.mysql.cj.protocol.a.result.OkPacket.parse(OkPacket.java:66) at com.mysql.cj.protocol.a.NativeProtocol.readServerStatusForResultSets(NativeProtocol.java:1691) at com.mysql.cj.protocol.a.TextResultsetReader.read(TextResultsetReader.java:116) at com.mysql.cj.protocol.a.TextResultsetReader.read(TextResultsetReader.java:48) at com.mysql.cj.protocol.a.NativeProtocol.read(NativeProtocol.java:1600) at com.mysql.cj.protocol.a.NativeProtocol.readAllResults(NativeProtocol.java:1654) at com.mysql.cj.protocol.a.NativeProtocol.sendQueryPacket(NativeProtocol.java:1000) at com.mysql.cj.NativeSession.execSQL(NativeSession.java:666) at com.mysql.cj.jdbc.ClientPreparedStatement.executeInternal(ClientPreparedStatement.java:930) ... 157 common frames omitted这种状况在切换为OceanBase数据库之后在数据插入时可能会产生。初始化数据时局部数据会带着ID将数据插入表中，之后再次插入数据此时默认主键自增从0开始，这时会呈现默认自增步长从10001开始的状况如下： ...

关于数据库:320-版本预告远程日志解决-Worker-故障获取不到日志的问题

Apache DolphinScheduler 3.2.0 版本曾经跃然纸上，8 月中下旬，这个大版本就要和用户见面了。为了让大家提前理解到此版本更新的次要内容，咱们曾经制作了几期视频和内容做了大抵介绍，包含《重磅预报！Apache DolphinScheduler 3.2.0 新性能“剧透”》、《3.2.0 版本预报！Apache DolphinScheduler API 加强相干性能》。明天，咱们来介绍另一个用户比较关心的新性能——Remote logging（近程日志），看看是否能帮忙你的工作变得更简略吧！ https://www.bilibili.com/video/BV1U14y1q74N/?spm_id_from=333.... 明天由为大家介绍 Apache DolphinScheduler 3.2.0 的一个新个性，叫做 Remote logging。咱们会从三个局部来阐明这个性能，第一，它是什么，解决什么问题；第二，它如何配置；第三，咱们怎么去应用它？近程日志是什么？解决什么问题？在没有这个性能之前，咱们的工作日志流向是这样子的，工作运行完的时候，Worker 会将日志写到 Worker 本地，当用户须要去查看工作日志的时候，咱们会发送申请这个 Worker 的日志，而后展现给用户。当一些意外状况呈现，导致这个 Worker 的日志不存在，或者是这个 Worker 不存在的时候，用户在页面上就看不了日志了。然而有了 Remote Logging，这个问题就能失去比拟好的解决。它整体的流程如下所示：咱们只是减少了这条线的局部以及上面 Remote Logging 的局部，当咱们的 Worker 将日志写到本地的时候，会有个异步线程将写到本地的 log 同步到 Remote Logging。当一些意外状况产生导致日志失落，但用户想要看日志详细信息的时候，咱们会有个申请将日志从远端拉到本地，而后本地返回。为什么咱们要设置这样一个动作呢？这样做首先能保障接口的一致性，就是日志全部都是从 Worker 发送给 API Server，而后去读取的。其次是尽量减少咱们远端的带宽，只有当本地日志缺失的时候，咱们才会去下载远端的日志。如何配置？接下来咱们疾速阐明一下如何配置 Remote Logging。在咱们的发版文件里会有对于如何启动和配置的简略介绍。首先，咱们要批改 Common Properties 文件，将这个 remote.logging.enable 设置存储并且设置为你想要存储的远端存储介质。目前咱们反对了 OSS、S3 和 GCS。其次就是一些第三方远端存储的配置，比方 AccessKey、Secret 以及对应的 bucket 和 region 等。 ...

关于数据库:IP地址与互联网发展

互联网的倒退曾经扭转了咱们的生存形式和商业模式，而IP地址定位则是使互联网更加精准、智能化的关键技术。本文将探讨IP地址定位对互联网的影响，包含便捷的位置服务、精准的广告投放个人隐私爱护等方面。便捷的位置服务IP地址定位技术使得咱们能够通过互联网获取到精确的地位信息，为咱们的生存带来了微小的便当。比方，咱们能够通过手机地图定位性能找到目的地不再须要纸质地图或向陌生人询问路线。此外，许多应用程序也利用IP地址定位来提供当地的天气、交通等实时信息，帮忙咱们更好地安顿行程。精准的广告投放IP地址定位技术使得广告商可能更精确地将广告投放到指标受众背后。通过剖析用户的IP地址，广告商能够理解用户所处的地理位置、语言偏好兴趣爱好等信息，从而制订更有针对性的广告策略。这不仅进步了广告的投放成果，也缩小了用户受到无用广告烦扰的状况。个人隐私爱护然而，IP地址定位技术也引发了个人隐私爱护的问题。只管IP地址自身并不波及个人身份信息，但通过剖析用户的IP地址依然能够获取到肯定水平的个人行为数据。为了爱护个人隐私，一些国家和地区曾经出台了相干法律和政策限度或标准了IP地址定位技术的应用范畴和数据收集形式。IP地址定位技术的倒退与利用给互联网带来了踊跃的影响。它使得咱们的生存更加便捷、广告更加精准，同时也引发了个人隐私爱护的问题。咱们须要在利用IP地址定位技术的便当的同时，增强对个人隐私的爱护确保技术的正当应用。通过正当标准和政策疏导，IP地址定位技术将为互联网的倒退和社会的提高提供更大的价值。

关于数据库:Doris-Summit-2023-正式启航议题征集-合作伙伴招募火热进行中

在数字化过程一直演进的时代，数据出现暴发增长。在这数据洪流之中，数据实时剖析的重要性愈发凸显，并成为企业胜利的要害因素。作为专一于实时剖析的开源实时数据仓库 Apache Doris，从开源至今已走过 6 个年头，这些年里 Apache Doris 始终稳步向前，并在这两年获得了令人瞩目的停顿。在 Doris Summit 2022 年度峰会上，社区颁布了 2023 年 Roadmap，并在此指引下，Apache Doris 实现了从 1.0 到 2.0 具备里程碑意义的版本逾越。在这一年里，Apache Doris 通过继续技术创新，实现了微小的性能飞跃，盲测性能 10 倍晋升。同时一直拓展利用场景边界，除更好适配常见剖析场景外，还冲破了日志检索剖析、Data Serving、湖仓一体等场景痛点，为用户提供了宽泛灵便的解决方案。值得关注的是， Apache Doris 还将在往年实现存算拆散架构的全面变革。不久前飞轮科技发表将 SelectDB Cloud 存算拆散架构全副代码奉献至 Apache Doris 社区，这一动作不仅是对社区的反哺，也为 Apache Doris 迈向将来云原生架构奠定了松软的根底。作为社区的次要保护团队，咱们心愿将这些贵重的技术创新、利用实际和多场景解决方案分享给更多的用户，旨在促成技术交换和思维碰撞，并为各企业提供可借鉴的实践经验。因而，咱们正式组织发动 Apache Doris 社区年度技术峰会——Doris Summit 2023，也是 Apache Doris 社区的首次线下峰会，并打算于 2023 年 10 月 21 日（周六）在北京举办。这将是一个汇集技术精英、行业首领和社区专家的重要盛会，您将有机会与 Apache Doris 社区的近百名技术首领、10w+ 大数据开发者独特：探讨前沿技术与将来趋势：与寰球顶级的技术专家探讨数据分析畛域最前沿的技术与将来趋势，探讨其在理论利用中的后劲和倒退；分享标杆案例及解决方案：各行业标杆用户将共享在生产实践中获得的成绩及教训，并分享在不同场景下的解决方案，给你灵感与启发；建立联系与促成交换单干：与气味相投的行业专家建立联系，促成常识交换、凋谢合作与技术创新，独特推动行业倒退提高。议题投递Doris Summit 将为所有社区成员提供一个自在平等的交流平台，在此咱们正式发动演讲议题的征集。在这里，您能够与寰球开发者分享您的远见卓识，与顶级技术专家面对面交换，摸索将来实时剖析新趋势。议题方向：核心技术实现行业最佳实际生态解决方案商业合作伙伴除此之外，咱们还将与您一道摸索更多话题，包含 “新一代日志存储与剖析”、“联邦剖析与湖仓一体”以及“面向云上基础设施的架构变革”等。如果你对以上内容方向有积攒和独特见解，咱们都诚挚欢送你的退出！投递形式：挪动端：扫描下方二维码/点击文末浏览全文进行投递 PC 端：复制下方链接到浏览器进行投递 ...

关于数据库:MySQL-的解析器以及-MySQL80-做出的改进-StoneDB技术分享-2

设计：小艾审核：丁奇编辑：宇亭作者：柳湛宇（花名：乌淄）浙江大学-软件工程-在读硕士、StoneDB 内核研发实习生一、MySQL 的解析器MySQL 所应用的解析器（即 Lexer 和 Parser 的组合）是嵌入了 C/C++语言的 yacc/lex 组合，在 linux/GNU 体系上，这一组合的实现是 GNU Bison/Flex，即 Flex 负责生成 tokens， Bison 负责语法解析。对于 Bison，请参阅[1] Bison 本是一个自底向上（Bottom-Up）的解析器，然而因为历史起因，MySQL 语法编写的规定是以自顶向下（Top-Down）的，这将会产生一些问题，咱们首先简要介绍这两种解析模式。二、自底向上与自顶向下解析模式更多具体解说，请参阅[2] 当咱们在议论自底向上和自顶向下两种解析模式时，场面是咱们手上曾经有了编写实现的语法规定和将输出语句词法解析实现后的 token 数组，而之后的工作总体上就是构建语法解析树。以下 yacc 语法束缚和匹配序列（「例 1」）用于展现两种解析模式的不同。 exp1: 'a' 'b' | 'b' 'c';exp2: 'x' 'y' 'z' | 'a' exp3;exp3: 'c' 'd' | exp1 'd';以a b c d作为输出序列。自底向上（Bottom-Up）解析模式自底向上的解析模式相似于进行「拼图」。对每一个入栈后 token 组成的序列，都尽可能尝试将其规约（reduce）成一个语法规定中规定的表达式并将新的表达式压栈。在达到 token 数组开端时，栈中的表达式应且仅应匹配一个顶层表达式，如果因为规约程序不符合实际表达式程序而无奈匹配到顶层表达式，则该当进行回溯并尝试新的规约抉择。对于例 1，自底向上解析模式的解析步骤为： a不能被规约（没有能够匹配a的表达式子项）a b能够被规约：exp1 c d被规约为exp1 exp3exp1 exp3无奈被规约达到序列开端，须要回溯a b规约为exp1exp1 c无奈被规约exp1 c d能够被规约:因而，exp1 c d无奈被规约达到序列开端，须要回溯因而，a b无奈被规约a b c能够被规约：a b c能够被规约为a exp1a exp1 d能够被规约a exp1 d能够被规约为a exp3a exp3能够被规约：a exp3能够被规约为exp2达到序列开端， a b c d胜利匹配表达式exp2自顶向下（Top-Down）解析模式自顶向下的表达式相似于「多叉树的先序遍历」。对于给定的每一个 token 子序列，都尝试断言（Assertion）其匹配一个表达式，并进一步递归地考查： ...

关于数据库:快照隔离级别原理-StoneDB-技术分享-1

设计：小艾审核：丁奇编辑：宇亭作者：罗中天（花名：德里克）浙江大学在读硕士、StoneDB 内核研发实习生 ANSI SQL-92 规范中规定了四种事务隔离级别和三种异象：读未提交（Read Uncommitted）、读已提交（Read Committed，简称 RC）、可反复读（Repeatable Read，简称 RR）和串行化（Serializable），其中读已提交解决了脏读，可反复读解决了脏读和不可反复读，串行化解决了脏读、不可反复读和幻读。上述这些内容是为人所熟知的，故不是本文的配角。本文的配角是快照隔离级别（Snapshot Isolation，简称 SI），同时引入新的异象写偏斜（Write Skew）。SI 不属于 SQL 规范的一部分，是对 SQL 规范的补充。在将 SI 思考进去当前，能够失去如下表格中的内容「隔离级别」「写写关系」「写读关系」「读写关系」「存在的问题」失落更新写不阻塞写写不阻塞读读不阻塞写脏写/脏读/不可反复读/幻读/写偏斜读未提交写阻塞写写不阻塞读读不阻塞写脏读/不可反复读/幻读/写偏斜读已提交写阻塞写写阻塞读读不阻塞写不可反复读/幻读/写偏斜可反复读写阻塞写写阻塞读读阻塞写幻读快照写阻塞写写不（齐全）阻塞读读不（齐全）阻塞写写偏斜串行化写阻塞写写阻塞读读间隙阻塞写无留神，上表中的读已提交、可反复读中的局部内容和 innodb 中的有些不符，起因是 innodb 中的 RC 和 RR 包含快照读和以后读两种状况，具体会在上面进行剖析。接下来本文次要围绕 SI，论述 SI 的实现形式 MVCC、SI 的异象写偏斜、将 SI 和 RR 混在一起的“罪魁祸首”——Innodb 中的 RR 等内容。 SI 的实现形式一般而言，SI 是用多版本并发管制（Multi-Version Concurrency Control，简称 MVCC）实现的。MVCC 自身有多种实现形式，并不是所有的 MVCC 都能实现实践上的 SI，比方 Innodb 中的 MVCC 其实就没有齐全实现 SI，因为它没有齐全解决幻读，对于 Innodb 中的 MVCC 的具体分析请见本文上面的大节。除了 MVCC 之外，SI 中的每个事务须要调配 2 个工夫戳，一个在事务开始的时候调配，一个在事务完结的时候调配。 ...

关于数据库:融入数据浪潮KaiwuDB-期待与您共赴-DTCC-2023

2023年8月16日-18日（本周三至周五），KaiwuDB 将亮相第十四届中国数据库技术大会 DTCC 2023。大会以“数智赋能共筑将来”为主题，设置 2 大主会场，20＋技术专场，邀请超百位行业专家，重点围绕 HTAP 与多模数据库利用、图数据技术、云原生数据库、实时数仓等内容开展分享和探讨。转瞬间，间隔上次与大家线下见面已过来了近两年。在这段时间里，产品在一直的迭代，但始终不变的是咱们致力于解决大家可能会遇到的切实难题。本次，咱们也诚挚邀请新老朋友们光临相见，期待与你们开展一次真挚的 face to face。会前 Tips亮点1：本次大会 KaiwuDB 将在8月17日上午9:55于主论坛会场，为大家带来《从多模到 AI，KaiwuDB 摸索精通万物之路》主题分享，敬请期待。亮点2：大会期间，KaiwuDB 将亮相北京国际会议中心 2 楼 11 号展位，为大家带来全系产品家族及最新利用案例。会场散布平面图展台现场会有咱们业余的技术老师做 1V1 咨询服务，欢送相干领域专家、用户、搭档莅临指导，进一步理解 KaiwuDB。当然，精美限量周边从不缺席，诚邀大家线下做客。现场展位图

关于数据库:StoneDB受邀参加2023可信数据库发展大会同业界大咖共话云原生与开源数据库

由中国信息通信研究院、中国通信标准化协会领导，中国通信标准化协会大数据技术标准推动委员会（CCSA TC601）、InfoQ 极客传媒联结主办的 2023 可信数据库倒退大会将于 2023 年 7 月 4 - 5 日在北京国际会议中心隆重召开。杭州石原子科技有限公司（下文简称“石原子科技”）旗下的一体化实时 HTAP 开源数据库 StoneDB 将会亮相本次会议。届时，将由石原子科技- 解决方案核心总经理- 祁国辉老师在7月5日的云原生与开源数据库分论坛上带来《基于MySQL生态的下一代HTAP数据库的翻新和实际》的主题演讲，欢送大家参会交换。* 此外，石原子科技还受邀加入7月4号的中国信通院2023上半年“可信数据库”评测证书颁发及评测察看解读论坛和7月5号的电信行业数据库翻新利用论坛、汽车行业数据库翻新利用论坛，与行业搭档共建凋敝生态。本届大会以“自主 · 翻新 · 引领”为主题，共设置 9 个论坛，除 7 月 4 日主论坛外，7 月 5 日分设金融行业、电信行业、互联网行业、汽车行业、云原生与开源数据库、搜寻与剖析型数据库、数据库运维及生态工具、时序时空及图数据库 8 个分论坛。近百位行业协会领导、数据库学术大咖、产业链各环节数据库负责人、资深技术专家将齐聚本届大会，带来极为丰盛的主题演讲内容，与将要到场的 1000+ 位开发者及关注数据库倒退的行业人员，独特论道我国数据库高水平自立自强之路。在本次大会上，你将听到，但不仅只听到：中国顶尖学府对数据库前沿技术的了解和实际；各畛域顶尖大厂分享成功经验和案例；资深专家们一起探讨将来数据库的产业和技术趋势；……至今，百余个议题已实现打磨，诚挚邀请各界数据库技术实践者来到现场：本届大会以“自主翻新引领”为主题，共设置9个论坛，除7月4日主论坛外，7月5日分设金融行业、电信行业、互联网行业、汽车行业、云原生与开源数据库、搜寻与剖析型数据库、数据库运维及生态工具、时序时空及图数据库8个分论坛。近百位行业协会领导、数据库学术大咖、产业链各环节数据库负责人、资深技术专家将齐聚本届大会，带来极为丰盛的主题演讲内容，独特论道我国数据库自立自强之路，摸索新形势下我国数据库产业可继续、高质量倒退办法，分享成功经验和案例，与将要到场的1000+位开发者及关注数据库倒退的行业人员独特探讨可信数据库的将来。本届大会曾经确定有以下 70+ 位大咖缺席并进行主题分享：是不是曾经开始期待本次数据库行业盛宴，凝听嘉宾们的睿智见解啦？那连忙筹备筹备来参会吧！为迎接各位远道而来的行业搭档，咱们筹备了这份超具体的 2023 可信数据库倒退大会参会指南，帮忙您顺利参会。请您仔细阅读，倡议一键珍藏，以备查问！工夫和地点会议工夫：2023 年 7 月 4 日 -5 日会议地点：北京国际会议中心 2 层北京国际会议中心 ...

关于数据库:沉潜蓄势厚积薄发StoneDB57V104版本正式发布特性增强稳定性大幅提升

很快乐向大家发表，StoneDB-5.7-V1.0.4 版本明天正式公布了！自三月份公布 1.0.3-GA 版本后，咱们的研发同学把大量的精力投入到了 1.0.4 版本的研发中，在本次版本中，咱们对 StoneDB 的稳定性做了大幅的优化晋升，新增了一些实用个性并修复了一批已知Bug，欢送大家返回 Github/Gitee 下载体验： Github： https://github.com/stoneatom/stonedb/releases/tag/5.7-v1.0.4-alpha Gitee： https://gitee.com/StoneDB/stonedb/releases/tag/5.7-v1.0.4-alpha 当然，从上游讯息和将来趋势上看，MySQL 5.7 版本的生命周期曾经靠近序幕（存量市场是否会被疾速迭代有待察看，不过增量市场势必会用新、用好、用低成本、用高效能），所以，StoneDB 团队在过来的一年里除了踊跃做 5.7 版本的存量市场，咱们其实很早就开始布局了 8.0 的版本布局，在往年的 6 月初，咱们就顺利地公布了 StoneDB-8.0-V1.0.1 版本，后续的研发重点也会逐步以 8.0 为主代替 5.7 的骨干开发地位，同步上游，继续加强 AP 能力，趁势而行，满足更多的增量市场需求。以下，是本次版本的公布日志： Release Notes for StoneDB-5.7-V1.0.4-alpha 稳定性修复在导入数据时候，增量数据导致的 crash(「#1805」)修复在 union all 字句后果集导致的 crash(「#1875」)修复在大数据量状况下应用聚合函数导致的 crash(「#1855」)修复主从复制下的内存溢出导致的 crash(「#1549」)新个性 2.1 反对 insert/update ignore 语法个性当更新 Tianmu 时候，对于主键抵触的记录将被跳过，而后执行后续的更新操作。例如： CREATE TABLE t1 (id int(11) NOT NULL auto_increment,parent_id int(11) DEFAULT '0' NOT NULL,level tinyint(4) DEFAULT '0' NOT NULL, PRIMARY KEY (id)) engine=tianmu; INSERT INTO t1 VALUES (3,1,1),(4,1,1);执行 update ignore t1 set id=id+1; 语句会疏忽 PK=3 的更新，因为更新后的主键会与 PK=4 抵触。继续执行 PK=4 的更新，更新后 PK=5。 mysql> CREATE TABLE t1 (id int(11) NOT NULL auto_increment, parent_id int(11) DEFAULT '0' NOT NULL, level tinyint(4) -> DEFAULT '0' NOT NULL, PRIMARY KEY (id)) engine=tianmu; Query OK, 0 rows affected (0.01 sec) mysql> INSERT INTO t1 VALUES (3,1,1),(4,1,1); Query OK, 2 rows affected (0.01 sec) Records: 2 Duplicates: 0 Warnings: 0 mysql> update t1 set id=id+1; ERROR 1062 (23000): Duplicate entry '4' for key 'PRIMARY' mysql> select * from t1; +----+-----------+-------+ | id | parent_id | level | +----+-----------+-------+ | 3 | 1 | 1 | | 4 | 1 | 1 | +----+-----------+-------+ 2 rows in set (0.00 sec) mysql> update ignore t1 set id=id+1; Query OK, 2 rows affected (0.00 sec) Rows matched: 2 Changed: 2 Warnings: 0 mysql> select * from t1; +----+-----------+-------+ | id | parent_id | level | +----+-----------+-------+ | 3 | 1 | 1 | | 5 | 1 | 1 | +----+-----------+-------+ 2 rows in set (0.00 sec)2.2 ROW 格局反对 Load 语句转换为 write row当 StoneDB 作为主机时候，Load 语句将以 insert into 的形式被写进 binlog。 ...

关于数据库:被保留的IP地址是什么有哪些

被保留的IP地址是指在互联网地址调配中被指定为不能被公共应用的一些非凡IP地址。这些保留的IP地址被限度在特定的公有网络中应用，用于外部通信和公有网络间的连贯。被保留的IP地址被定义在互联网工程工作组（IETF）公布的文档中，通过这些保留地址的应用能够更无效地治理和爱护互联网中的地址资源。上面是一些常见的被保留的IP地址：1.10000至10255255255：这是在IPv4中被保留的公有IP地址范畴之一。这段地址被用于在局域网、企业网络和组织外部的网络中进行外部通信。2.1721600至17231255255：这是另一个在IPv4中被保留的公有IP地址范畴。与10.000/8相比，这个范畴能够反对更多的网络。3.19216800至192168255255：这是IPv4中最罕用的被保留的公有IP地址范畴。在许多家庭网络和小型办公室中，都会应用这个地址范畴来配置局域网。 4.127000至127255255255：这是被保留给回环接口的地址范畴。回环接口是每台计算机上的一个虚构网络接口，用于在本地机器上进行外部通信。通过应用这个地址范畴，计算机能够发送和接收数据而无需通过网络适配器。 16925400至169254255255：这个地址范畴被用于主动配置IP地址。当设施无奈从DHCP服务器获取IP地址时，它能够主动调配一个在这个范畴内的IP地址以便持续进行网络通信。此外，在IPv6中也有一些被保留的地址范畴，例如：1.::1：这是IPv6中回环地址的示意办法。fc00::/7：这是IPv6中被保留的公有地址范畴，相似于IPv4中的公有地址范畴。 3.fe80::/10：这是IPv6中用于链路本地地址的范畴。这些地址只能在单个链路上应用，用于设施之间的通信。被保留的IP地址在网络中起到重要的作用，爱护了互联网地址资源的无效调配和应用。同时，它们也为外部网络和特定用处提供了安全性和隔离性。理解这些保留的IP地址范畴，有助于网络管理员更好地治理和配置公有网络，并确保网络的平安和稳定性。

关于数据库:图文结合丨带你轻松玩转MySQL-Shell-for-GreatSQL

一、引言1.1 什么是MySQL Shell ?MySQL Shell 是 MySQL 的一个高级客户端和代码编辑器，是第二代 MySQL 客户端。第一代 MySQL 客户端即咱们罕用的 MySQL 。除了提供相似于 MySQL 的 SQL 性能外，MySQL Shell 还提供 JavaScript 和 Python 脚本性能，并包含与 MySQL 一起应用的 API 。MySQL Shell 除了能够对数据库里的数据进行操作，还能够对数据库进行治理，特地是对MGR的反对，应用MySQL Shell 能够十分不便的对MGR进行搭建、治理、配置等 1.2 什么是MySQL Shell for GreatSQL ?MySQL Shell for GreatSQL 的呈现是因为在 GreatSQL 8.0.25-16 版本的时候引入了MGR仲裁节点（投票节点）的新个性，MySQL提供的MySQL Shell无奈辨认该个性，因而咱们提供了 MySQL Shell for GreatSQL 版本，以下就称为MySQL Shell for GreatSQL 然而！因为 JS 库中含有商业库，所以GreatSQL社区在编译的时候就没有加上 JS 的脚本性能。大家应用的时候不要始终输出\js说怎么切换不过来了 :)不过Python模式的语法和JavaScript模式的语法是大同小异的，举个例子： JavaScript 语法Python 语法var c=dba.getCluster()c=dba.get_cluster()c.status()c.status()c.setPrimaryInstance()c.set_primary_instance()不过就是变量名命名格调些许不同而已，实质上是没有区别的。本文也将应用 GreatSQL Shell-8.0.25-16 中 Python 模式来带你玩转 MySQL Shell for GreatSQL ...

关于数据库:通过查询IP地址反诈骗

网络安全曾经成为当今社会中一个十分重要的问题。随着互联网的遍及和倒退，人们在网络上的流动也越来越频繁。然而，这也给网络欺骗分子提供了更多的机会和空间来施行各种欺诈行为。为了爱护本人的财产和隐衷平安，咱们须要采取一些措施来防备网络欺骗。其中一种罕用的办法就是通过查问IP地址来反欺骗。首先，咱们须要理解IP地址是什么。IP地址是一个用于标识计算机或其余网络设备在网络中地位的数字标识每个设施都有一个惟一的IP地址，它相似于咱们在现实生活中的家庭地址能够帮忙咱们找到设施在网络上的具体位置。通过查问IP地址能够帮忙咱们辨认和确认网络欺骗。当咱们收到一封可疑的邮件或信息时，咱们能够通过查问邮件或信息中蕴含的IP地址来获取更多信息。在查问过程中，咱们能够失去IP地址的所在地、所属网络服务提供商等详细信息。如果咱们发现IP地址对应的地理位置与邮件或信息中宣称的不符，或者IP地址所属的网络服务提供商是一个不信赖的提供商，则很有可能是一个网络欺骗的宣称。具体来说，咱们能够通过以下几种形式来查问IP地址。首先，咱们能够应用在线IP地址查问工具：https://www.ipdatacloud.com/?utm-source=Lik&utm-keyword=?1094 。这些工具能够帮忙咱们疾速、精确地查问IP地址的所在地和网络服务提供商。其次，咱们能够通过应用网络安全软件来查问IP地址。许多网络安全软件都提供了IP地址查问性能，能够帮忙咱们辨认和阻止无害的IP地址。最初，咱们还能够通过查问网络日志来获取IP地址的更多信息。网络日志是一种记录网络流动的文件，能够帮忙咱们跟踪和追溯网络欺骗的起源。通过查问IP地址反欺骗不仅能够帮忙咱们爱护本人的财产和隐衷平安，还能够帮忙咱们帮助警方追捕网络犯罪分子。然而，咱们也须要留神查问IP地址的机会和办法。首先，咱们应该在收到可疑邮件或信息后立刻查问IP地址以防止被网络诈骗者逃脱。其次，咱们应该抉择可信的查问工具和软件以确保查问后果的准确性和可靠性。最初，咱们还应该被动学习和理解网络欺骗的常见伎俩和特色以进步咱们的辨认和反馈能力。

关于数据库:一键获取测试脚本轻松验证-TDengine-30-IoT-场景下-TSBS-测试报告

不久前，基于 TSBS，咱们公布了 TDengine 3.0 测试报告系列第一期——《DevOps 场景下 TDengine 3.0 比照测试报告》，报告验证了 TDengine 基于时序数据场景所设计的独特架构，在 DevOps 场景下带来的性能劣势以及老本管制程度。本期咱们持续探寻在 IoT 场景下，TDengine 比照 TimescaleDB、InfluxDB 在写入和查问上的性能体现——《IoT 场景下 TDengine 3.0 性能比照剖析报告来啦！》，给有时序数据库（Time Series Database）选型需要的开发者做参考。本期报告显示，在全副的五个场景中，TDengine 写入性能均优于 TimescaleDB 和 InfluxDB。写入性能最大达到 TimescaleDB 的 3.3 倍，InfluxDB 的 16.2 倍；此外，TDengine 在写入过程中耗费了起码计算（CPU）资源和磁盘 IO 开销。在查问方面，对于大多数查问类型，TDengine 的性能均优于 InfluxDB 和 TimescaleDB，在简单的混合查问中 TDengine 展现出微小的劣势——其中 avg-load 和 breakdown-frequency 的查问性能是 InfluxDB 的 426 倍和 53 倍；daily-activity 和 avg-load 的查问性能是 TimescaleDB 的 34 倍和 23 倍。为了便于大家对报告后果进行验证，本篇文章将会对测试数据及环境搭建等环节进行一一论述，不便有须要的开发者取用复制。此外，本测试报告中的数据在筹备好物理环境后，能够由脚本一键执行生成，测试步骤在本文中也有波及。一、测试背景1、测试场景介绍在本期测试报告中，咱们应用了 TSBS 的 IoT 场景作为根底数据集，在TSBS 框架下模仿虚构货运公司车队中一组卡车的时序数据，针对每个卡车的诊断数据（diagnostics）记录蕴含 3 个测量值和 1 个（纳秒分辨率）工夫戳、8 个标签值；卡车的指标信息（readings）记录蕴含 7 个测量值和 1 个（纳秒分辨率）工夫戳，8 个标签值。数据模式（schema）见下图，每 10 秒对生成的数据进行一条记录。因为 IoT 场景引入了环境因素，所以每个卡车存在无序和缺失的工夫序列数据。 ...

关于数据库:全方位对比-Postgres-和-MySQL-2023-版

依据 2023 年 Stack Overflow 调研，Postgres 曾经取代 MySQL 成为最受敬佩和渴望的数据库。随着 Postgres 的发展势头愈发强劲，在 Postgres 和 MySQL 之间做抉择变得更难了。如果看装置数量，MySQL 可能仍是寰球最大的开源数据库。 Postgres 则自夸为寰球最先进的开源关系型数据库。因为须要与各种数据库及其衍生产品集成，Bytebase 和各种数据库密切合作，而托管 MySQL 和 Postgres 最大的云服务之一 Google Cloud SQL 也是 Bytebase 创始人的杰作之一。咱们对 Postgres 和 MySQL 在以下几个维度进行了比拟：许可证 License性能 Performance性能 Features可扩展性 Extensibility易用性 Usability连贯模型 Connection Model生态 Ecosystem可运维性 Operability 除非另有阐明，下文基于最新的次要版本 Postgres 15 和 MySQL 8.0 (应用 InnoDB)。在文章中，咱们应用 Postgres 而不是 PostgreSQL，只管 PostgreSQL 才是官网名称，但被认为是一个谬误的决定。许可证 LicenseMySQL 社区版采纳 GPL 许可证。Postgres 公布在 PostgreSQL 许可下，是一种相似于 BSD 或 MIT 的自在开源许可。即使 MySQL 采纳了 GPL，仍有人放心 MySQL 归 Oracle 所有，这也是为什么 MariaDB 从 MySQL 分叉进去。 ...

关于数据库:数据泄漏事件层出不穷如何有效避免

在数字化飞速发展的明天，数据曾经成为了各个行业的外围资源。大量的数据被收集、存储和剖析，为企业提供了丰盛的商业洞察和决策依据。然而，数据的海量增长也带来了许多数据安全问题，导致个人隐私和商业秘密泄露的危险日益加剧。近年来，不少知名企业和学校都曾遭逢过数据泄露事件，引发了社会各界对于数据安全的高度关注。 2023 年 7 月 10 日，Razer数据库遭窃！黑客10万美元发售 Razer 数据！黑客宣称窃取的数据中包含源代码、加密密钥、数据库拜访登录信息和后端拜访凭据。当月 10 号，中国人民大学一名毕业生因盗取学校内网数据，制作颜值打分网站引发了宽泛关注，此事件迅速登上了热搜榜，该同学目前已被依法刑事拘留。 2023 年 5 月，特斯拉 100 GB 秘密数据泄露，这些数据蕴含超过10万个到职和在职员工姓名，以及私人电子邮件地址、电话号码、员工工资、客户的银行信息和生产的机密细节的多个表格，其中更是波及特斯拉CEO埃隆·马斯克的社保号码。 2023 年 1 月，电信运营商 T-Mobile 发表其遭逢的网络安全事件造成 3700 万用户个人信息遭泄露，T-Mobile 可能也会因而次数据泄露而承当大量费用，而这曾经不是 T-Mobile 的第一个数据安全漏洞。...... 非法拜访、数据泄露、数据篡改和数据失落等......这些事件引发了宽泛的担心和对数据安全的关注。为了防止数据泄露，数据库安全管控成为一项至关重要的工作。如何通过数据库管控措施来防止数据泄露事件的产生？强化访问控制首先，建设严格的访问控制是数据库管控的根底。对于敏感数据和要害零碎，只有通过受权的人员能力拜访。采纳基于角色的访问控制（RBAC）模型，将拜访权限调配给特定的角色，能够确保只有具备相应权限的人员可能进行数据的读取、批改或删除操作。此外，细粒度的权限管制也是要害，能够对不同的数据和性能进行粗疏的权限划分，确保每个用户只能拜访其所需的数据和性能。加密敏感数据其次，加密技术在数据库管控中施展着重要作用。对于敏感数据的存储和传输，应采纳弱小的加密算法进行加密。通过对数据进行加密，即便数据被未经受权的人员获取，也无奈读取其实在内容。同时，正当应用密钥治理和访问控制，确保只有受权人员可能解密和应用加密数据，进一步提高数据的安全性。施行审计和监测此外，数据库审计也是防止数据泄露的要害措施之一。通过记录和监控数据库的操作日志，能够追踪和审计对敏感数据的拜访和操作。及时发现异常行为和潜在的平安威逼，并采取相应的措施进行处理，有助于避免数据泄露事件的产生。数据库审计还能够为平安团队提供无关数据拜访模式和趋势的重要信息，从而进一步欠缺数据库管控策略。数据备份和复原另外，数据备份和劫难复原也是防备数据泄露的重要伎俩。定期进行数据备份，并将备份数据存储在平安的离线环境中，能够避免因硬件故障、自然灾害或人为谬误等导致的数据失落。同时，制订和施行欠缺的劫难复原打算，确保在数据泄露事件产生时可能迅速复原零碎，并最大限度地缩小数据的损失和影响。 CloudQuery 如何通过强化访问控制，保障数据安全？作为业界当先的面向企业的数据库安全解决方案，CloudQuery（简称：CQ）致力于打造一站式安全可靠的数据操作平台，旨在帮忙企业平安、高效地应用数据库，晋升研发与 DBA 、运维的合作效率，为企业外围数据提供更平安的拜访管控与审计，避免数据越权拜访、数据透露、数据误删除等。对立平安管控提供对立的数据库开发与治理平台，实现数据库拜访入口对立、治理入口对立，对数据拜访行为进行对立、平安管控。角色和权限治理 CloudQuery 能够通过定义不同的用户角色和调配相应的权限来实现访问控制。这意味着只有被受权的用户能力拜访特定的数据和资源。例如，管理员能够有齐全的拜访权限，而其余用户只能拜访他们须要的特定数据。拜访策略 CloudQuery 能够定义拜访策略，这些策略能够具体规定谁能够拜访哪些数据，以及他们能够进行哪些操作。例如，一个策略可能只容许特定用户读取某个数据库的数据，但不容许他们批改或删除数据。认证和受权 CloudQuery 能够通过认证和受权机制来验证用户的身份并确定他们的拜访权限。这可能包含用户名和明码的验证，以及应用如 OAuth 或 JWT 等规范的受权协定。审计日志 CloudQuery 能够记录所有的拜访和操作，生成审计日志。这些日志能够用来监控用户的行为，检测任何可疑的流动，以及在产生数据泄露时帮忙确定泄露的起因。数据加密 CloudQuery 能够应用加密技术来爱护存储和传输的数据。这意味着即便数据被非法拜访，也无奈读取其内容，从而爱护数据的机密性。API 平安 CloudQuery 的 API 能够应用各种安全措施，如 SSL/TLS 加密，API 密钥，拜访令牌等，以避免未经受权的拜访。欢送进入 CQ 文档核心理解产品性能、装置部署手册、用户操作手册、版本更新日志等......CloudQuery 产品官网：https://www.cloudquery.club/#/ 流动举荐7 月 19 日，咱们将发展第一期「CQ 用户说」栏目直播，本期直播邀请到某大型保险公司 DBA 王珂进行 CloudQuery 应用分享！欢送关注 BinTools社区视频号预约直播 ...

关于数据库:SUFS-存储资源使用量预测服务

本期将由 KaiwuDB 高级研发工程师孙路明博士为大家介绍《SUFS: 存储资源使用量预测服务》，本文将公布于 ICDE 2023。一、背景介绍1. 存储资源使用量预测的意义在典型的 IT 服务或利用中，计算、网络、存储是撑持下层应用服务的三个根底，保障存储系统的可用性对服务和利用的稳固运行有重要意义。存储系统可用性的一个重要方面就是有足够的容量，能够满足写入、存储的需要，所以正当布局存储系统的空间资源就十分重要。为了布局存储系统资源，就须要对资源的使用量进行预测，在预测的根底上进行资源的布局、扩缩容等操作。因为目前很多存储是以云服务的模式提供的，对存储资源进行预测对于服务的提供商和使用者都很重要。对服务商来说，精确的预测资源使用量能够帮忙他们在保障服务的 SLA 同时防止额定的开销；对用户来说，能够在满足本人业务需要的状况下更正当的申请配额（Quota）或者购买资源。本文关注的存储系统范畴比拟宽泛，包含传统的文件存储、各式各样的分布式存储系统，比方最典型的 HDFS，也包含各种数据库系统，比方 MySQL 这类关系型数据库或者各类的 NoSQL 数据库等等。 2. 存储资源使用量预测的现状和挑战当初一些存储系统的容量布局比拟依赖启发式规定或者人的教训常识，对将来的使用量预测的不准，这种不精确又能够分为高估（ overestimation）和低估（underestimation），这两种不精确也会产生不同的影响。如果高估了将来的资源用量，那就会过多的配置存储资源，导致空间节约和不必要的开销；如果预测的偏低，那可能会造成存储资源有余，重大的话会导致数据无奈写入和数据失落的危险，影响零碎的可用性。如下图所示，造成启发式规定或传统时序预测模型在存储资源使用量预测工作中无奈提供精确预测的起因次要有两个：不同存储系统、同一存储系统的不同用户，其存储使用量曲线的模式区别十分大存储资源使用量中存在突增突降，对模型预测产生极大的影响因而，本文提出了一种加强的 LSTM 神经网络应答存储资源使用量时序数据中的突增突降问题，提出了自适应的模型集成计划解决不同零碎、同一零碎内不同用户存储资源使用量模式差别大的挑战。二、SUFS 架构与算法如上图所示，SUFS 在不同的存储系统中应用 Agent 采集存储空间使用量的历史数据并存储，在对数据进行预处理后，应用自适应模型集成办法对将来多天的存储资源使用量进行预测，依据预测后果提供资源的监控告警、容量布局、动静扩缩容等服务。 1.加强 LSTM 神经网络LSTM（Long Short-Term Memory）是一种循环神经网络 RNN 的变体，本文提出的加强的 LSTM 神经网络，在一般 LSTM 神经网络的 Input Gate 前退出额定的一个信号量，该信号量的值与磁盘使用量的值是否为突增突降无关，而判断是否突增突降应用了 IQR 测验办法。其工作原理为：如果 IQR 判断以后的磁盘应用量值是突增或突降，则该信号量是一个极小的值，在 LSTM 外部就能够管制以后使用量不对已有状态产生影响，使得模型疏忽掉这些渐变；而当没有遇到突增突降时，这个加强的 LSTM 神经网络模块与一般 LSTM 无异。此外，这个神经网络还思考到属于同一用户或服务的存储资源应用具备相似模式的景象，通过存储资源实体编码嵌入网络，将这种先验常识退出到模型的预测中。 2.自适应模型集成算法为了在一个对立的预测服务中实现不同模式时序数据的预测，这篇文章提出了一种自适应的模型集成办法：模型集成（Model Ensemble）：机器学习的一种范式，在模型集成时，通常会训练多个模型解决雷同的问题，并且把这些模型的后果联合起来以取得更好的后果。这些被集成的模型称为弱学习器或者叫基模型，当基模型被正当的组合起来的时候，咱们能够失去更精确或者更鲁棒的预测后果。一些常见的模型集成办法包含 Bagging、Boosting、Stacking 等，本文中用到的办法属于 Stacking 这一类，是将多个基于不同算法的基模型的预测后果，通过某种形式将后果组合起来。 ...

关于数据库:MobPush-工作台操作指南查看推送数据

推送详情查问进入“MobPush”的"详情"模块，查问推送整体的详情推送详情查问进入“MobPush”的"推送记录"模块点击“详情”按钮，查看推送详情状况

关于数据库:我们搬家啦新家园新征程新篇章

7月10日KaiwuDB 上海新总部开业典礼暨“浪潮数据库产业联结实验室”揭牌典礼于上海市浦东新区顺利举办新起点，新征程，新篇章 https://www.bilibili.com/video/BV1ah4y1Z7DF/?aid=658295469&ci... 剪彩仪式7月10日，上海浦东新区科技和经济委员会副主任夏玉忠，上海市经济和信息化委员会软件处副处长何炜，张江高科技园区开发股份有限公司副董事长、总经理何大军，浪潮高级副总裁、山东浪潮数据库技术有限公司党支部书记、董事长刘伟华，浪潮院士、山东浪潮数据库技术有限公司总经理、浪潮 KaiwuDB 董事长张晖，浪潮 KaiwuDB 总经理黄越独特为 KaiwuDB 上海新总部停业剪彩。 KaiwuDB 上海新总部停业剪彩仪式 KaiwuDB 是浪潮重点孵化的要害畛域技术企业，承当着团体软硬协同建设，服务数实交融的重要使命。KaiwuDB 以分布式多模数据库为外围产品，为工业互联网、数字能源、车联网、智慧产业等各大重点行业提供稳固高性能的数据库产品及行业数字化解决方案，赋能宽广企事业单位数智化发展。揭牌典礼随后，上海市浦东新区科技和经济委员会副主任夏玉忠，浪潮集团高级副总裁、山东浪潮数据库技术有限公司党支部书记、董事长刘伟华为“浪潮数据库产业联结实验室”揭牌。新区科经委领导、浪潮高层为实验室揭牌浪潮数据库产业联结实验室是“产、学、研、用”深度交融的重要平台，面向数字经济高质量倒退的主战场，以实验室为根底发展核心技术攻坚、要害畛域场景钻研、高层次学术交流，旨在推动当先数据库技术在实在业务场景中的规模化利用，减速科研成果转化。通过“凋谢、流动、联结、竞争”的运行机制，打造有一流创新能力的数据库钻研基地，减速外围要害行业平安翻新产品代替，为“共赢浦东”提供技术撑持，助力浦东新区科技、经济双轮倒退。浦东新区是上海建设国内科创核心的核心区，始终站在中国乃至世界科技产业倒退的最前端，从政府部门到产业园区，长期对前沿科技产业放弃敏锐的嗅觉，继续一直引进国内外科技领军企业和翻新守业团队。张江高科作为浦东科创建设的外围承载，坐拥世界级重大科技基础设施、一流研究型大学和科研机构、跨国公司寰球研发核心。作为浪潮旗下数据库要害技术产业单位，KaiwuDB 自 2019 年团队初创以来，受到来自上海市、浦东新区各相干单位的高度重视与重点搀扶，团队一直壮大，产品减速翻新，紧跟浦东、张江建设要求，承当起硬核技术研发及科研成果转化的重任。随着上海新总部及浪潮数据库产业联结实验室的落成，KaiwuDB 将持续依靠浪潮在人才会聚、产学研交融等方面长期积攒的劣势，充分发挥本身业余技术能力，攻坚克难，在关键性技术落地畛域钻研冲破，为上海双创生态建设添砖加瓦，助力中国数据库产业及数字经济高质量倒退。

关于数据库:保护ip地址安全措施

互联网时代，IP地址的安全性成为了一个重要的问题。IP地址是用户在网络上进行通信和交换的重要标识，如果IP地址泄露或被歹意利用将会给用户带来很多麻烦和危险。因而，爱护IP地址的平安至关重要。本文将介绍一些爱护IP地址平安的办法和注意事项。首先，应用平安的网络连接是爱护IP地址平安的第一步。在应用公共Wi-Fi网络或其余不可信的网络时，尽量避免拜访敏感信息或进行重要操作因为这些网络往往存在平安危险黑客可能通过网络监听或中间人攻打获取用户的IP地址和其余敏感信息。因而，倡议在应用这些网络时应用加密通道来暗藏IP地址和加密通信确保数据传输的平安。其次，定期更新和降级操作系统和应用程序也是爱护IP地址平安的重要措施。操作系统和应用程序的更新和降级往往蕴含了对已知破绽和平安问题的修复，通过及时更新和降级能够无效升高黑客通过已知破绽攻打用户的危险爱护IP地址的平安。此外，合理配置防火墙和平安设置也是爱护IP地址平安的重要措施。防火墙能够监控和过滤网络流量，及时发现并阻止可疑的网络连接和攻打从而爱护IP地址的平安。此外，能够通过敞开不必要的网络服务、应用强明码和多因素认证等形式来增强零碎和账户的安全性，缩小黑客攻击的危险。另外，要留神爱护个人隐私信息防止将IP地址和个人身份信息关联在一起。在浏览网站、注册账户参加流动时，尽量抉择可信和平安的网站，并仔细阅读隐衷政策和用户协定。防止在不可信或不必要的场合提供集体IP地址和其余敏感信息，以避免被歹意利用或泄露。最初，定期监测和审查本人的IP地址和网络流动及时发现和解决平安问题也是十分重要的。能够应用网络安全工具或征询业余的网络安全机构来检测和排查网络危险，确保IP地址的平安。总之，IP地址的安全性是用户在互联网上进行通信和交换的根底保障为了爱护个人隐私和缩小网络危险用户须要采取一系列措施来爱护IP地址的平安如应用平安的网络连接、更新和降级操作系统和应用程序配置防火墙和平安设置爱护个人隐私信息和定期监测网络流动。只有综合使用这些办法，能力更好地爱护IP地址的平安。

关于数据库:再获认可万里数据库参编中国信通院数据库研究报告-GreatSQL入选中国数据库产业图谱

以后，寰球数字经济减速倒退，数据正在成为重组寰球因素资源、重塑寰球经济构造、扭转寰球竞争格局的要害力量。数据库作为存储与解决数据的关键技术，在数字经济浪潮下，不断涌现新技术、新业态、新模式。 7月4-5日，由中国通信标准化协会和中国信息通信研究院主办，大数据技术标准推动委员会承办，InfoQ联结主办的“2023可信数据库倒退大会”主论坛在北京国际会议中心隆重召开。会上，中国信息通信研究院正式公布《数据库倒退钻研报告（2023年）》。万里数据库作为数据库利用翻新实验室共建单位参加《数据库倒退钻研报告（2023年）》编制并入选《中国数据库产业图谱（2023年）》。与此同时，万里数据库主导成立的GreatSQL社区也凭借近两年在技术创新、生态建设方面的致力，以“技术社区”身份入选《中国数据库产业图谱（2023年）》。 GreatSQL社区成立于2021年，由万里数据库发动，致力于通过凋谢的社区单干，构建国内自主开源数据库版本及开源数据库技术，推动中国开源数据库及利用生态凋敝倒退，先后取得中国信通院”可信开源我的项目、可信开源社区“评测及“Gitee最有价值开源我的项目”等荣誉，可为金融、能源、央企、互联网等企业客户提供基于GreatSQL翻新技术的数智化解决方案。万里数据库参编《数据库倒退钻研报告（2023年）》万里数据库、GreatSQL入选《中国数据库产业图谱（2023年）》数据库产业的凋敝倒退离不开数据库利用翻新工作的扎实推动。将来，GreatSQL 将持续遵循“凋谢共享、共建共治”的开源理念，携手各开源组织联盟、开源我的项目，继续为开源事业添砖加瓦，为行业及客户发明更多价值，助力国家数字经济建设，推动开源事业为世界带来更多美妙。同时，社区将持续施展本身在数据库基础设施畛域的劣势，打磨产品、优化性能，一直提供优质的产品与服务质量，为千行百业科技翻新提供动能。 Enjoy GreatSQL :) ## 对于 GreatSQL GreatSQL是由万里数据库保护的MySQL分支，专一于晋升MGR可靠性及性能，反对InnoDB并行查问个性，是实用于金融级利用的MySQL分支版本。相干链接： GreatSQL社区 Gitee GitHub Bilibili GreatSQL社区：社区博客有奖征稿详情：https://greatsql.cn/thread-100-1-1.html 技术交换群：微信：扫码增加GreatSQL社区助手微信好友，发送验证信息加群。

关于数据库:技术分享-徐轶韬从MySQL57升级到MySQL-80

在6月20日举办的【墨天轮数据库沙龙-MySQL 5.7 停服影响与应答计划】中，甲骨文MySQL解决方案首席工程师徐轶韬分享了《从MySQL5.7降级到MySQL 8.0》主题演讲，本文为整顿内容。导读 2015年10月公布的MySQL5.7版本追加了JSON数据类型、多源复制等新性能，反对在线更改InnoDB缓冲、全文检索，并在运维方面反对syslog和DTrace。2023年10月将进入继续反对（Sustaining Support）阶段，不再公布小版本和新补丁。【墨天轮数据库沙龙】邀请到甲骨文MySQL解决方案首席工程师徐轶韬，为大家分享从MySQL5.7到MySQL8.0的降级步骤和注意事项等。徐轶韬甲骨文MySQL解决方案首席工程师MySQL解决方案首席工程师。为中国金融、政府、航空运输等行业的MySQL用户提供相干产品的售前征询，企业级产品服务介绍以及推广和遍及MySQL数据库在社区的应用。公众号“MySQL解决方案工程师”运营者和内容作者。书籍《MySQL高可用解决方案——从主从复制到InnoDB Cluster架构》作者。被Oracle收买后，MySQL始终遵循着其的开发规定，用户便能在立项阶段就基于产品周期匹配相应的版本。在规范反对服务阶段，社区版用户可能被定期进行版本保护，包含谬误修复、补丁更新等；在延长反对服务与继续反对服务阶段，产品只能提供无限的乃至进行服务，当超过9年后，不会进行任何的代码更改与继续反对服务。因而通常意义上来说，MySQL5.7停服意味着不会公布任何相干的补丁与代码。图1 Oracle系列产品生命周期的3个阶段 Oracle公司提供的产品(MySQL)原则上是平安的。然而，有时会发现极其常见的重大安全漏洞，甲骨文公司将迅速采取行动修复该破绽，并最终公布平安信息，包含对破绽的简要阐明、由此带来的危险、防止办法和提供补丁的工夫。但事实中存在着不同方面妨碍降级的因素。明天我分享的主题将从以下三个方面开展，降级前的筹备、操作程序(InnoDB, MyISAM)、降级带来的益处。图2 不进行降级的危险一、MySQL降级前的筹备如下图所示，在降级流程中首先确认不同版本的差别，包含关键字、参数与函数等等，实现后便进行MySQL降级与应用程序测试，最初须要制订生产环境上线打算，一系列操作的目标是升高并预防料想外的危险。图3 降级施行的流程 1、版本间的差别确认通过手册确认版本间的差别确认手册中”Upgrading MySQL”的”Changes Affecting Upgrades to MySQL x.x”局部留神Known issue(已知问题)和Incompatible change(非兼容性变更)MySQL 8.0 Reference Manual / 2.11.1.3 Changes in MySQL 8.0 https://dev.mysql.com/doc/refman/8.0/en/upgrading-from-previous-series.html MySQL 5.7 Reference Manual / 2.11.1.2 Changes Affecting Upgrades to MySQL 5.7 https://dev.mysql.com/doc/refman/5.7/en/upgrading-from-previous-series.html MySQL 5.6 Reference Manual / 2.11.1.2 Changes Affecting Upgrades to MySQL 5.6 https://dev.mysql.com/doc/refman/5.6/en/upgrading-from-previous-series.html通过发行一览确认差别每个版本的发行一览依照小版本变更进行记述现实状况下，确认版本间的全副发行一览例）从MySQL 5.6.29 到 MySQL 5.7.21 降级的状况 ⇒MySQL 5.6.30～5.6.39(最新版)、MySQL 5.7.0～5.7.21(最新版) 确认至多确认“Incompatible Change”记述的内容至多确认“Incompatible Change”记述的内容MySQL 8.0 Release Notes https://dev.mysql.com/doc/relnotes/mysql/8.0/en/ MySQL 5.7 Release Notes https://dev.mysql.com/doc/relnotes/mysql/5.7/en/ MySQL 5.6 Release Notes https://dev.mysql.com/doc/relnotes/mysql/5.6/en/ 图4 发行一览例(Version 8.0) ...

关于数据库:火山引擎数智平台最新企业实践北京汽车APP更好地洞察用户需求

“北京汽车正在为车企数字化降级跑出一条新通路。” 汽车行业的竞争向来强烈，随着数字化浪潮的继续推动，特地是一大批互联网背景的人物和企业入场，各大车企减速在数据智能利用上发力，以突破现在“用户越来越懂车，但车企却越来越难懂用户”的市场僵局。作为国内当先的车企之一，北京汽车对此早有感知，并踊跃拥抱变动。在往年上海车展上，北京汽车正式官宣品牌焕新策略，发表对立标识并从新梳理品牌矩阵，围绕用户“家庭、户外、乐趣”三大外围需要，进行“品牌价值、品牌辨认、产品布局、用户体验”全维度上新。这也预示着北京汽车将来将继续整合“研、产、供、销、服”整车全生态链，一直拓展户外出行场景，为用户带来更多以“家庭”为单位的优质服务和体验。这背地，数字化降级是要害。以北京汽车APP为例，作为用户感知北京汽车品牌的间接窗口，APP可能为用户直观展现北京汽车的全套服务体系，包含但不限于最新资讯、车况查问、服务揭示以及异样预警等。另一方面，APP也是北京汽车感知消费者的重要渠道。当用户在APP内通过行为交互产生多种维度数据后，北京汽车APP能够通过火山引擎数智平台（VeDI）提供的增长剖析DataFinder进一步剖析用户特色和潜在需要，并在此基础上构建以用户为核心的全方位服务和经营体系。 DataFinder是火山引擎数智平台聚焦北京汽车APP用户经营场景，为其提供的用户行为数据即席查问剖析产品，也是火山引擎往年推出的企业数智化转型全新模式“数据飞轮”落地的外围产品之一，具备弱小的数据采集和接入能力，可能帮忙企业在APP、小程序等多阵地洞察全域行为数据。北京汽车曾通过数据分析发现，有近2成车主是先注册北京汽车品牌的APP，而后再通过APP进行动向留资并最终实现购车，整个转化周期差不多是两个半月；而通过DataFinder的留存剖析，发现新老用户日留存差别较大，差距甚至超过40%，并且随着工夫的推移，新用户在拜访后的5天内，留存率降落呈现了拐点，即新用户的促活策略应在5天内实现。基于这项数据洞察，北京汽车对新用户在APP的全旅程链路做了经营策略的设计和安顿，使用户从注册开始，到之后的每一个步骤，看车、选车、试车、购车，都会有相应的经营团队以适合的营销形式投入正当的营销资源进行精细化经营。例如：对新注册用户分三类，车主、线索、访客，依据各自身份，别离设计了3类用户在5天内、5天后、上线、未上线的12个经营场景触达打算。半年内，这套经营策略便为北京汽车的外围KPI指标带来了显著晋升：包含拉新品质晋升超过了10%、线索转化效率晋升超过了30%、车主认证率也晋升超过了5%…… 此外，DataFinder还能帮忙北京汽车APP通过点击次数、留存时长，发现哪些内容最受欢迎用户欢送、哪些服务最受用户关注，同时还能基于用户散失数据判断APP内哪些跳转节点可能会对用户体验带来挫伤，从而一直优化APP内的内容和服务体系，让用户取得更优质的体验。北京汽车APP使用DataFinder洞察用户需要只是北京汽车数字化降级实际中的一道缩影，在品牌焕新的大策略下，北京汽车正在用更数智、更优质的用户服务全面落实“和悦、畅怀、乐活”品牌价值观，让每一个家庭的诗与远方不仅有驾趣、更充斥乐趣。截至目前，北京汽车曾经实现全国700+服务渠道、2个APP在线服务平台、3个信息数字化治理平台部署，在数字化架构的撑持下可随时响应用户各方需要，真正为用户打造出全方位的“智惠管家式”综合服务保障。点击跳转【增长剖析平台DataFinder】理解更多

关于数据库:IP地址中子网掩码和CIDR是什么意思

子网掩码（Subnet Mask）和CIDR（Classless Inter-Domain Routing）是在IP地址中用于确定网络和主机局部的参数。尽管这两个概念有些不同，但它们在IP地址的调配和路由方面都扮演着重要的角色。子网掩码是一个32位二进制数，用于将一个IP地址https://www.ipdatacloud.com/?utm-source=Lik&utm-keyword=?1059划分为网络局部和主机局部。它是由间断的1和0组成的，其中1示意网络局部0示意主机局部。例如，一个常见的子网掩码是255.2552550，它对应于32位二进制数11111111.111111111111111100000000。在这个子网掩码中，前24位是网络局部后8位是主机局部。子网掩码的作用是通过与指标IP地址按位与运算，判断指标IP地址是否在同一个网络中。如果与运算的后果等于网络局部的地址，那么指标IP地址与以后主机在同一个网络中。这样，网络中的主机就能够通过路由表进行转发将数据包发送到指标主机。 CIDR是一种用于示意IP地址范畴的办法，它将网络地址和子网掩码组合在一起示意为x.x/y的模式。其中，x.x是网络地址，y示意网络地址的长度（即网络局部和主机局部的分界线）。例如，192.16800/24示意网络地址为192.16800，子网掩码为255.2552550，意味着前24位为网络局部后8位为主机局部。 CIDR的呈现次要是为了解决IPv4地址空间有余的问题。通过应用不同的子网掩码长度，能够将一个IP地址空间划分为多个子网从而更无效地利用可用的IP地址资源。CIDR还能够简化路由表的规模，缩小网络设备的累赘和存储需要。在CIDR中，子网掩码的长度对应于IP地址中网络局部的位数。长度越长，可用的主机地址就越少但网络的数量也越多。例如，/24示意有256个IP地址可用，/16示意有65536个IP地址可用。子网掩码和CIDR是在IP地址中用于确定网络和主机局部的参数。子网掩码通过与指标IP地址按位与运算，判断指标IP地址是否在同一个网络中。CIDR则是一种示意IP地址范畴的办法，通过指定子网掩码的长度来实现网络划分和地址调配。它们的应用能够帮忙网络管理员无效地治理IP地址资源，进步网络的可扩展性和性能。

关于数据库:多模型构建的多层级权限管控体系

在论述 CloudQuery 权限体系之前，想先跟大家分享下咱们团队在客户侧收集到了的一些实在场景与诉求： - 对特定对象进行操作管控（SQL 命令）- 对某个字段实现准确动静脱敏- 对某一条 SQL 语句进行准确提权- 对高危命令进行拦挡- 实现用户登录时的数据精准过滤- 实现动静脱敏- 实现数据导出的管控- 实现后果集复制的管控- 实现数据订正的管控- 心愿能对数据库的拜访工夫做限度- 心愿能对用户查问的行数，次数做限度这些诉求涵盖了对数据库操作的权限治理、数据保护、拜访安全控制等，看上去这些需要如同比拟离散，但总结下来咱们能够将它们演绎为「不同维度的管控需要」。那让咱们来回顾下 CloudQuery 社区版 1.x 系列是如何来满足这些需要的。在产品状态上，CloudQuery 1.x 系列将用户的管控需要对立称为“权限”。在「数据库连贯治理」模块之下，通过数据操作权限、工夫权限、受限资源权限、动静脱敏治理以满足用户不同的“管控”诉求。然而，“权限”这个词蕴含了太多的需要，基于此前提， 2.x 系列中，咱们心愿以更加具体、明确的形式来援用它。在 CloudQuery 权限概念上，通过采纳不同的“术语”来辨别这些权限需要，所以咱们设计了全新「多模型、多层级」的权限体系。程序员眼中的"权限"有多种模型，包含 ACL、DAC、MAC、RBAC、ABAC，针对主体（人）与资源（数据库资源）不同模型对应着不同的交互体现。在进行权限革新之前，咱们围绕着管控需要、零碎菜单、性能菜单进行分类，拆分零碎与业务，并对20多种数据库的 SQL 语法和数据类型从新进行了整顿。性能介绍在 2.x 系列的产品中，咱们对业务进行拆分，将以往的权限治理分为两个不同的模块：数据库治理和数据保护，其中数据库治理又拆分成连贯治理与受权治理两局部，这样的拆分旨在实现更准确的管控目标。连贯治理连贯治理，是针对拜访数据库时创立的连贯进行治理。在连贯治理中，咱们减少了连贯管控与资源纳管。连贯管控：通过对连贯的治理和管制，能够确定以后数据库是否容许建设连贯。这个维度确保只有通过受权的主体可能拜访数据库，从而保障数据的安全性。资源纳管：对数据库中的资源进行纳管，将承载数据库对象的最小容易单位（schema）定义为纳管操作的最小单位资源。这样的定义有助于咱们以更精密的形式治理和管制数据库中的资源，并满足不同数据库类型和概念的管控诉求。![在这里插入图片形容](https://img-blog.csdnimg.cn/90e6582c176d40bfba6ed27858bfd07a....）受权治理受权治理，则是针对咱们纳管的资源进行受权管控。值得注意的是，受权治理又分为针对纳管资源的最大单位（schema）管控、针对最小单位（数据库对象）的细粒度受权。 schema的根底设置：咱们为每个连贯和资源分配惟一的标识符，以便在权限管制中精确定位和辨认这些资源。这些标识符能够包含测试环境标识、复核形式标识以及无权对象暗藏标识，以满足客户对不同管控形式的需要。平安设置：对每个资源和数据库对象，咱们提供了丰盛的拜访策略设置。客户能够依据具体需要，为每个资源定义拜访策略，如限度查问、进行二次复核等。这样的平安设置使得客户可能实现对资源的精细化治理。操作权限等级：咱们定义了不同的操作权限等级，以定义每个主体对资源的具体操作级别。大家能够发现 2.x 系列提供了默认的五个权限等级，包含无权限、仅拜访、仅查问、可编辑和可治理。默认的权限等级能够帮忙客户更不便地受权给不同的主体，也能够为咱们下一步受权革新提供根底的权限规范。细粒度受权：在数据库对象层级，咱们能够针对用户调配不同的细粒度权限，包含查问、批改、增加、删除、导入和导出等操作权限。同时，也反对对单个用户或批量用户进行权限治理。通过性能上的细分，咱们能够更加准确地治理和管制人员对数据库资源的拜访行为，确保数据的安全性和可控性。值得一提的是，在 2.x 系列中，咱们对权限一词进行了简化，它仅代表数据库 SQL 操作的聚合以构建权限体系。目前，咱们公布了资源受权视图，并打算在后续版本中推出主体受权和我的项目封装受权，以满足更多的受权需要。咱们致力于晋升权限体系的齐备性和灵活性，以满足用户在数据安全管控方面的多样需要。数据保护在 2.x 系列产品中，提供了数据保护性能，旨在加强数据的安全性和隐衷爱护。数据保护常常会波及两个关键词：数据脱敏和数据过滤。通常，数据查问后果以二维表的模式展现，其中类似类型的数据以列的形式存储。然而，数据保护的需要并不仅限于特定数据类型，而是实用于所有相干数据的展现和爱护。因而，咱们将对类似类型数据进行平安解决称为脱敏，而对相干展现数据进行平安解决称为过滤。简而言之，脱敏关注的是表的列，而过滤波及表的行。咱们的数据保护性能正是基于这两个概念而设计的。对于脱敏和过滤的实现，咱们采纳了两种技术形式，别离是前置规定和后置规定。前置规定应用 SQL 改写形式对数据进行解决，而后置规定则通过后果集命中形式进行改写。尽管后置规定绝对简略，但容易被绕过。因而，咱们倡议在应用时次要采纳前置规定，辅以后置规定来实现数据展现的爱护。通过这种组合形式，能更无效地确保数据的安全性。在 2.x 系列产品中，具体实现了以下数据保护性能： ...

关于数据库:为-BitCask-存储引擎实现过期删除功能

最近参加了一个不错的开源我的项目，是一个基于 BitCask 模型实现的 KV 存储引擎。我的项目地址：CouloyDB。大家感觉不错的话能够来一个小小的 star。因为性能上想向 Redis 看齐，所以打算实现过期主动删除的性能。我采取了小顶堆来实现过期删除，并且在 Get 的时候，也会进行惰性删除。工夫堆的实现堆中的每个元素都是一个 Job： type Job struct { Key string Expiration time.Time}其中记录了每个Key和它的过期工夫Expiration。堆的实现定义如下： type h struct { heap []*Job index map[string]int}index存储的是Key对应的Job在数组中的切片，用以疾速获取Job而无需遍历切片。在 Go 中能够通过实现heap.go中的接口来实现堆： type Interface interface { sort.Interface Push(x any) // add x as element Len() Pop() any // remove and return element Len() - 1.}具体实现能够查看CouloyDB/public/ds/timeHeap.go at master · Kirov7/CouloyDB · GitHub，这里就不给出具体代码了，重点留神实现的时候须要在接口办法里同样对 index 进行更新。实现了堆的接口之后，h构造体就能够应用堆的一些办法来操作了。额定对 h 封装了一层： type TimeHeap struct { heap h}TimeHeap实现了如下办法： ...

关于数据库:2023年6月国产数据库大事记墨天轮

本文为墨天轮社区整顿的2023年6月国产数据库大事件和重要产品公布音讯。目录6月国产数据库大事记 TOP106月国产数据库大事记（工夫线）产品/版本公布兼容认证代表厂商大事记排行榜新增数据库厂商流动相干材料6月国产数据库大事记 TOP10 6月国产数据库大事记（工夫线）6月1日，中国实时数据库厂商北京飞轮数据科技有限公司实现了又一轮数亿元融资。飞轮科技是一家基于 Apache Doris 的商业化公司，2022年1月成立，4月实现天使轮和天使+轮融资，由 IDG 资本、红杉中国等顶级 VC 投资，融资金额超过3亿元。飞轮科技为Apache Doris用户提供技术支持商业服务，并推出了推出基于Apache Doris内核的SelectDB商业产品。基于 Apache Doris，飞轮科技推出了SelectDB商业产品，以帮忙客户更快、更精确地进行数据处理和剖析。同时，该公司还推出了SelectDB云服务版，让客户更不便地应用其产品和服务。在这个实时数据仓库的市场上，飞轮科技凭借其独有的实时性特点，失去了宽泛的认可和好评。6月1日，国内出名科技产业智库甲子光年公布了《2023信创软件品牌影响力钻研报告》，新数科技入选信创软件生态图谱，并作为国内惟一数据库企业代表，实力入选“2023信创举荐厂商”。甲子光年《2023信创软件品牌影响力钻研报告》显示：将来行业倒退将以业务需要为主导，信创厂商的品牌影响力构建将成为拓展市场的关键因素之一；新一代数据库治理技术与服务器操作系统是信创根底软件的落地热点。6月1日音讯，近日，北京四维纵横数据技术有限公司（四维纵横 YMatrix）与用友网络科技股份有限公司（用友），发表达成产品策略单干协定。此次单方将施展各自所长，在产品及解决方案层面实现优势互补，将四维纵横 YMatrix 的超交融数据库技术整合进用友 iUAP 平台中，使 iUAP 可能以更加简洁灵便的底层架构进行部署，晋升平台的麻利响应能力，大幅升高交付及运维难度，并显著晋升数据查问、算法剖析和模型训练的执行效率。 6月1日，首届“百业万企”共铸诚信文化北京流动推动会胜利举办，会议期间公布了首批“北京市共铸诚信企业”名单，海量数据光彩在列。 6月2日音讯，近日，腾讯云原生数据库TDSQL-C Serverless性能和架构进行了全面降级，可笼罩更多高性能和超高负载、超大流量的业务场景，主动扩缩容刹时场景下慢查问时长升高30%保障业务“无毛刺”。与此同时，全新公布资源包付费模式，刊例价比照同规格包年包月产品降幅高达25%，Serverless按理论使用量计费的个性能帮忙用户最高降本80%。 TDSQL-C是腾讯云自研的新一代云原生关系型数据库，为企业提供极致弹性、高性能、高可用、高牢靠、平安的数据库服务，可实现超百万 QPS的高吞吐、海量分布式智能存储、Serverless秒级伸缩。6月2日，兴业证券公布投标布告，327.4万估算洽购达梦数据库及达梦数据库维保服务。本我的项目为兴业证券2023年度信息技术利用翻新集中式数据库洽购我的项目，累计需洽购22套达梦数据库受权、11套达梦数据守护集群组件、原厂运维服务（30人天）及三年原厂维保，洽购总预算为327.4万元人民币（含税）。6月4日音讯，达梦数据中标中国交通建设团体有限公司（简称中国交建）数据库框架洽购协定。为实现中国交建团体全线根底软件的对立管控，达梦数据库管理系统DM8、数据共享集群DMDSC、数据守护集群DMDataWatch将全面利用于中交团体及上司各分子公司，为中国交建经营治理和面向寰球业务提供数据库服务撑持。 6月4日音讯，近日，人大金仓胜利中标中储粮团体“技防技控储粮监管推广我的项目”，金仓数据库将撑持团体上司近300个粮库的数字化转型降级，助力用户晋升经营管理效率。 6月4-6日，由工业和信息化部主办的第三十一届中国国内信息通信展览会在北京国家会议核心召开。会中，GBASE南大通用凭借其数据库产品在电信行业的规模化稳固利用，被中国国内信息通信展览会授予“最受欢迎品牌奖”。目前，GBase数据库累计服务中国移动、中国联通、中国电信等电信用户100+，是在电信行业失去规模化利用的独立数据库服务商。GBASE在三大运营商中的使用量累计达到52+省份。其中，中国移动已有29+省份胜利使用，中国联通15+省份，中国电信8+省份。6月4日，由工业和信息化部主办的2023中国专精特新冠军国内论坛于北京国家会议核心举办。会上，优炫软件凭借当先的数据库研发实力、弱小的技术储备、丰盛的行业用户积攒及本地化服务实力入选中国"专精特新冠军"TOP100榜单。优炫软件研发的企业级平安可信数据库UXDB，具备自主知识产权，打造了事务型数据库、剖析型数据库。既能本地也能云端部署，借助数据库自治技术进行自动化治理和优化，基于这些丰盛的数据库产品和工具组合，能无效解决海量存储、高并发等问题，通过多种灵便的部署形式，满足客户多种业务场景需要。6月5日，IDC 公布的《2022年下半年中国关系型数据库软件市场跟踪报告》显示：2022年中国关系型数据库软件市场规模为34.3亿美元，同比增长23.9%。其中，私有云关系型数据库规模20.8亿美元，同比增长34.8%；本地部署关系型数据库规模14.6亿美元，同比增长10.3%。 IDC预测，到2027年，中国关系型数据库软件市场规模将达到102.7亿美元，2022-2027的5年市场年复合增长率（CAGR）为24.5%。 2022下半年在本地部署市场中，前五名厂商份额共计 53.6%，前十名厂商份额总计75.3%。 2022下半年中国关系型数据库本地部署模式市场厂商份额状况 2022下半年私有云关系型数据库的市场集中度更高，前五名厂商份额共计86.5%，前10名厂商份额共计96.1%。运营商在私有云市场的强势入局，曾经开始会对头部云厂商的市场份额造成挤压。 2022下半年中国关系型数据库私有模式市场厂商份额状况报告显示，2022全年阿里云市场份额（私有云+本地部署模式）达到27.1%位居第一，份额继续晋升，增速远高于市场平均水平，其中私有云模式市场份额高达42%，以绝对优势间断4年蝉联榜首，场份额大于第2到4名的总和，继续彰显当先劣势。报告显示，在本地部署模式下，华为云数据库凭借GaussDB以13.4%的市场份额排名国内第一。这也是自2020H1以来，GaussDB六次蝉联榜首。报告显示，在Top 5厂商中，腾讯云数据库整体支出同比增速、本地部署模式支出同比增速均位列第一。具体来看，腾讯云数据库整体支出增速超30%，在Top 5厂商中排名第一，整体市场份额、私有云模式市场份额均位居第二；在本地部署模式市场，腾讯云数据库的支出同比增速高达110%，远超该市场6.5%的均匀增速。 6月5日音讯，近日，Gartner 公布“Gartner Peer Insights™云数据库管理系统客户之声”报告，PingCAP 被评为卓越表现者。间断两年获评“卓越表现者”最高分，表明 TiDB 在整体体验方面超过了市场平均水平。本次报告展现了来自寰球的金融、服务、游戏、物流、批发等多个行业的客户在产品性能、部署运维、服务反对等多个维度上对 TiDB 产品及服务的综合评估后果。这些评估充分体现了寰球客户对 TiDB 的高度认可，97% 的客户违心举荐同行业客户尝试应用 TiDB，使得 TiDB 成为货真价实的“卓越表现者” （Strong Performer）。腾讯分布式 SQL (TDSQL) 列为卓越表现者象限，97%的客户示意违心举荐腾讯云的数据库产品和服务，被评为亚太客户之选。腾讯云数据库管理系统（DBMS）产品矩阵包含分布式OLTP数据库腾讯分布式SQL（TDSQL）、KV存储KeeWiDB、时序CTSDB、图KonisGraph、腾讯大数据套件TBDS。6月5日音讯，近日，北非华为云中资ISV圆桌论坛在摩洛哥马拉喀什召开。在北非中资ISV生态联盟公布典礼中，沃趣科技荣获北非华为云首届生态联盟成员奖。沃趣科技正在踊跃地借助于华为云的力量，参加到华为云北非多个我的项目的建设中，提供整体数据库RDS能力。 ...

关于数据库:火山引擎-DataLeap-套件下构建数据目录Data-Catalog系统的实践

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群摘要Data Catalog 产品，通过汇总技术和业务元数据，解决大数据生产者组织梳理数据、数据消费者找数和了解数的业务场景，并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Data Catalog零碎的构建和迭代过程，概要介绍外围设计以及局部要害实现。背景元数据与Data Catalog元数据，个别指形容数据的数据，对数据及信息资源的描述性信息。在以后大数据的上下文里，通常又可细分为技术元数据和业务元数据。Data Catalog，是一种元数据管理的服务，会收集技术元数据，并在其根底上提供更丰盛的业务上下文与语义，通常反对元数据编目、查找、详情浏览等性能。元数据是Data Catalog零碎的根底，而Data Catalog使元数据更好的施展业务价值。 Data Catalog的业务价值火山引擎 DataLeap 套件下Data Catalog零碎次要服务于两类用户的两种外围场景。对于数据生产者来说，他们利用Data Catalog零碎来组织、梳理本人负责的各类元数据。生产者大部分是大数据开发的同学。通常，生产者会将某一批相干的元数据以目录等模式编排到一起，不便保护。另外，生产者会继续的在技术元数据的根底上，丰盛业务相干的属性，比方打业务标签，增加利用场景形容，字段解释等。对于数据消费者来说，他们通过Data Catalog查找和了解他们须要的数据。在用户数量和角色上看，消费者远多于生产者，涵盖了数据分析师、产品、经营等多种角色的同学。通常，消费者会通过关键字检索，或者目录浏览，来查找解决本人业务场景的数据，并浏览详情介绍，字段形容，产出关系等，进一步的了解和信赖数据。另外，Data Catalog零碎中的各类元数据，也会向上服务于数据开发、数据治理两大类产品体系。在大数据畛域，各类计算和存储系统百花齐放，概念和原理又千差万别，对于元数据的采集、组织、了解、信赖等，都带来了很大挑战。因而，做好一个Data Catalog产品，自身是一个门槛低、下限高的工作，须要有一个继续打磨晋升的过程。旧版本痛点字节跳动Data Catalog产品晚期为能较快解决Hive的元数据收集与检索工作，是基于LinkedIn Wherehows进行二次革新。Wherehows架构绝对简略，采纳Backend + ETL的模式。初期版本，次要利用Wherehows的存储设计和ETL框架，自研实现前后端的功能模块。随着字节跳动业务的疾速倒退，公司内各类存储引擎一直引入，数据生产者和消费者的痛点都日益显著。之前零碎的设计问题，也到了须要解决的阶段。具体来说：用户层面痛点：数据生产者: 多引擎环境下，没有便捷、敌对的数据组织模式，来一站式的治理各类存储、计算引擎的技术与业务元数据数据消费者: 各种引擎之间找数难，元数据的业务解释零散造成了解数难，难以信赖技术痛点：扩展性：新接入一类元数据时，整套零碎伤筋动骨，开发成本月级别可维护性：通过一段时间的修修补补，整个零碎显的很软弱，研发人员不敢轻易改变；存储依赖重，同时应用了MySQL、ElasticSearch、图数据库等零碎存储元数据，保护老本很高；接入一种元数据会减少2~3个ETL工作，运维老本直线回升火山引擎 DataLeap 套件下构建数据目录（Data Catalog）零碎的实际摘要Data Catalog 产品，通过汇总技术和业务元数据，解决大数据生产者组织梳理数据、数据消费者找数和了解数的业务场景，并服务于数据开发和数据治理的产品体系。本文介绍了火山引擎 DataLeap 套件下Data Catalog零碎的构建和迭代过程，概要介绍外围设计以及局部要害实现。背景元数据与Data Catalog元数据，个别指形容数据的数据，对数据及信息资源的描述性信息。在以后大数据的上下文里，通常又可细分为技术元数据和业务元数据。Data Catalog，是一种元数据管理的服务，会收集技术元数据，并在其根底上提供更丰盛的业务上下文与语义，通常反对元数据编目、查找、详情浏览等性能。元数据是Data Catalog零碎的根底，而Data Catalog使元数据更好的施展业务价值。Data Catalog的业务价值火山引擎 DataLeap 套件下Data Catalog零碎次要服务于两类用户的两种外围场景。对于数据生产者来说，他们利用Data Catalog零碎来组织、梳理本人负责的各类元数据。生产者大部分是大数据开发的同学。通常，生产者会将某一批相干的元数据以目录等模式编排到一起，不便保护。另外，生产者会继续的在技术元数据的根底上，丰盛业务相干的属性，比方打业务标签，增加利用场景形容，字段解释等。对于数据消费者来说，他们通过Data Catalog查找和了解他们须要的数据。在用户数量和角色上看，消费者远多于生产者，涵盖了数据分析师、产品、经营等多种角色的同学。通常，消费者会通过关键字检索，或者目录浏览，来查找解决本人业务场景的数据，并浏览详情介绍，字段形容，产出关系等，进一步的了解和信赖数据。另外，Data Catalog零碎中的各类元数据，也会向上服务于数据开发、数据治理两大类产品体系。在大数据畛域，各类计算和存储系统百花齐放，概念和原理又千差万别，对于元数据的采集、组织、了解、信赖等，都带来了很大挑战。因而，做好一个Data Catalog产品，自身是一个门槛低、下限高的工作，须要有一个继续打磨晋升的过程。旧版本痛点字节跳动Data Catalog产品晚期为能较快解决Hive的元数据收集与检索工作，是基于LinkedIn Wherehows进行二次革新。Wherehows架构绝对简略，采纳Backend + ETL的模式。初期版本，次要利用Wherehows的存储设计和ETL框架，自研实现前后端的功能模块。随着字节跳动业务的疾速倒退，公司内各类存储引擎一直引入，数据生产者和消费者的痛点都日益显著。之前零碎的设计问题，也到了须要解决的阶段。具体来说：用户层面痛点：数据生产者: 多引擎环境下，没有便捷、敌对的数据组织模式，来一站式的治理各类存储、计算引擎的技术与业务元数据数据消费者: 各种引擎之间找数难，元数据的业务解释零散造成了解数难，难以信赖技术痛点：扩展性：新接入一类元数据时，整套零碎伤筋动骨，开发成本月级别可维护性：通过一段时间的修修补补，整个零碎显的很软弱，研发人员不敢轻易改变；存储依赖重，同时应用了MySQL、ElasticSearch、图数据库等零碎存储元数据，保护老本很高；接入一种元数据会减少2~3个ETL工作，运维老本直线回升新版本指标基于上述痛点，火山引擎 DataLeap 研发人员从新设计实现Data Catalog零碎，心愿能达成如下指标：产品能力上，帮忙数据生产者方便快捷组织元数据，数据消费者更好的找数和了解数零碎能力上，将接入新型元数据的老本从月级别升高为星期甚至天级别，架构精简，单人业余时间可运维调研与思路业界产品调研站在伟人的肩膀上，入手之前火山引擎 DataLeap 研发人员针对业界支流DataCatalog产品做了产品性能和技术调研。因各个系统都在频繁迭代，数据仅供参考。 ...

关于数据库:StarRocks被-Databricks-CEO-提及的数据库

Databricks 介绍Databricks是一家美国的大数据独角兽公司，由 Apache Spark 的创建者所创建。Databricks 开源了 Delta Lake--基于 Apache Spark 的下一代数据湖存储引擎。Delta Lake 是目前市面上支流的数据湖存储引擎之一，与 Apache Hudi 和 Apache Iceberg 并称为数据湖三剑客。在最近完结的 Databricks Data + AI Summit 上，Databricks CEO Ali Ghodsi 公布了 Delta Lake 3.0。这个新版本引入了一种名为通用格局（UniForm）的凋谢表格局，可读写三种风行的数据表格局，包含 Delta Lake、Apache Iceberg 和 Apache Hudi。这体现了 Databricks 拥抱凋谢数据生态的信心。凋谢表格局通过提供一个规范和对立的形式来拜访大数据集，而表格局的一统能够帮忙用户升高多种格局共存的技术老本。能够说，这个理念与 StarRocks 冀望构建的基于凋谢生态的，极速对立的湖仓剖析新范式不约而同！Ali Ghodsi 在主题演讲中提及了 StarRocks StarRocks--极速对立的湖仓新范式 01 StarRocks 的极致查问性能MPP 分布式执行Pipeline 并行执行框架向量化执行引擎CBO 优化器Global Runtime FilterMetadata CacheLocal Data CacheMaterialized View 对于 StarRocks 的极致性能曾经有很多材料介绍了，这里就不多加开展。大家能够通过文末文章链接理解更多细节。 02 利用StarRocks的 "House" 能力进一步晋升性能StarRocks 不仅仅是一个查问引擎，同时也领有一个弱小的存储引擎，如果你心愿进一步晋升查问性能或者查问并发能力，你能够将数据导入到 StarRocks 中，StarRocks 的本地存储领有丰盛的索引能力、实时更新能力和多表 colocate join 能力。 ...

关于数据库:WhaleStudio-完成与涛思数据-TDengine-产品相互兼容性测试认证

近日，WhaleStudio 与涛思数据 TDengine 产品已实现互相兼容性测试认证。白鲸开源与涛思数据的联结测试结果显示，Whalestudio 平台与涛思数据 TDengine 产品单方产品齐全兼容，整体运行稳固高效。 WhaleStudio 是白鲸开源科技依据寰球当先的 DataOps 理念打造的新一代数据集成调度工具，它由两大外围组件组成，WhaleScheduler 与 WhaleTunnel，将寰球当先的调度开发组件与数据集成组件集成在一起提供给用户寰球当先的残缺解决方案。目前，WhaleStudio 反对私有云、公有云和混合云，已与 AWS、阿里云、华为云等国内外头部云厂商达成单干，全面反对云原生，帮忙企业更好地适应大数据和云原生大时代下的数据处理与治理，同时反对传统数据仓库 Teradata，Greenplum，Oracle Datawarehouse Edition，DB2 Enterpirse Edition，反对开源的数据湖 Hudi，Iceberg 等，让企业用户实现数据湖、数据仓库、云的一体化调度。北京涛思数据科技有限公司 (TAOS Data）瞄淮日益增长的物联网数据市场，专一时时序空间大数据的存储、查问、剖析和计算，不依赖任何开源或第三方软件，开发了领有自主知识产权、100% 自主可控的高性能、分布式、反对 SQL 的时序数据库（Time Series Database）TDengine。它可宽泛使用于物联网、车联网、工业互联网、IT 运维等畛域，为这些行业提供了一个全栈、高性能、低成本的大数据平台。 WhaleStudio 与涛思数据 TDengine 产品实现兼容，将进一步扩充其数据库反对生态，进步用户物联网相干业务开发能力。白鲸开源白鲸开源科技是由 Apache DolphinScheduler 和 Apache SeaTunnel 开源我的项目外围团队和来自寰球范畴内的数据领域专家组建。咱们致力于打造下一代云原生 DataOps 平台，助力企业在大数据和云时代，智能化地实现海量数据的解决、调度和治理。经营开源我的项目目前，白鲸开源科技经营保护着曾经从 Apache 基金会毕业的大数据工作流调度平台 Apache DolphinScheduler，以及数据集成平台 Apache SeaTunnel，诚邀寰球搭档退出开源共建！ Apache DolphinScheduler：仓库地址：https://github.com/apache/dolphinscheduler官网：https://dolphinscheduler.apache.org/Apache SeaTunnel：仓库：https://github.com/apache/seatunnel官网：https://seatunnel.apache.org/ 本文由白鲸开源科技提供公布反对！

关于数据库:Apache-DolphinScheduler-荣获掘进技术引力榜2023-年度-ROBUST-开源项目奖项

通过缓和强烈的投票和严格的专家评审环节，“掘进技术引力榜”流动在上周的稀土掘金开发者大会上颁布了「2023 年度 ROBUST 开源我的项目」奖项的获奖名单，Apache DolphinScheduler 名列其中。 Apache DolphinScheduler 代表下台领奖（右三）掘金技术引力榜「2023 年度 ROBUST 开源我的项目」奖杯作为一款分布式易用的开源分布式任务调度零碎，Apache DolphinScheduler 的获奖不仅体现了其在技术创新和社区倒退方面的卓越体现，更彰显了开源社区的力量和价值。开源软件始终以来都扮演着技术创新和共享精力的重要角色。现在，Apache DolphinScheduler 荣获「2023 年度 ROBUST 开源我的项目」奖项，再次证实了它作为开源我的项目的卓越贡献和影响力。 Apache DolphinScheduler 作为一款分布式易用的开源分布式任务调度零碎，领有许多卓越的个性和翻新。首先，它反对多种任务调度形式，包含工夫触发、依赖触发、手动触发等，满足了不同场景下的任务调度需要。其次，Apache DolphinScheduler 具备可扩展性和高可用性，可能反对大规模工作的调度和治理。此外，它还提供了可视化的工作编排和监控性能，使用户可能轻松治理和监控工作的执行状况。这些个性使得 Apache DolphinScheduler 在任务调度畛域中怀才不遇，受到宽广开发者和企业用户的认可。 Apache DolphinScheduler 的获奖也凸显了开源社区的力量和价值。作为一个开源我的项目，Apache DolphinScheduler 依附宽广开发者的共同努力和奉献一直发展壮大。开源社区提供了一个共享常识和翻新的平台，使得 Apache DolphinScheduler 得以一直优化和改良。通过开源的形式，Apache DolphinScheduler 可能吸引寰球范畴内的开发者参加其中，独特推动我的项目的倒退。这种凋谢单干的精力不仅促成了技术的提高，也为用户提供了更加牢靠和稳固的软件产品。这次取得「2023 年度 ROBUST 开源我的项目」奖项，对 Apache DolphinScheduler 来说是一种必定和鞭策。将来，Apache DolphinScheduler 将持续致力于技术创新和功能完善，为用户提供更好的任务调度体验。同时，它也将持续与开源社区严密单干，吸引更多的开发者参加其中，为开源我的项目的倒退贡献力量。置信在开源社区和用户的反对下，Apache DolphinScheduler 将持续施展重要作用，推动任务调度技术的倒退和翻新。参加奉献随着国内开源的迅猛崛起，Apache DolphinScheduler 社区迎来蓬勃发展，为了做更好用、易用的调度，真挚欢送酷爱开源的搭档退出到开源社区中来，为中国开源崛起献上一份本人的力量，让外乡开源走向寰球。参加 DolphinScheduler 社区有十分多的参加奉献的形式，包含：奉献第一个PR(文档、代码) 咱们也心愿是简略的，第一个PR用于相熟提交的流程和社区合作以及感触社区的友好度。社区汇总了以下适宜老手的问题列表：https://github.com/apache/dolphinscheduler/issues/5689 非老手问题列表：https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22 如何参加奉献链接：https://dolphinscheduler.apache.org/zh-cn/community/developme... 来吧，DolphinScheduler开源社区须要您的参加，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是微小的。参加开源能够近距离与各路高手切磋，迅速晋升本人的技能，如果您想参加奉献，咱们有个贡献者种子孵化群，能够增加社区小助手微信(Leonard-ds) ，手把手教会您( 贡献者不分程度高下，有问必答，要害是有一颗违心奉献的心 )。增加社区小助手微信(Leonard-ds，好友申请注明“入交换群+姓名+公司+职位信息“，群里是实名制，仅用于验证身份) 增加小助手微信时请阐明想参加奉献。来吧，开源社区十分期待您的参加。 ...

关于数据库:社区星力量-平等包容耐性这对贡献小白来说很重要

截至明天，Apache DolphinScheduler 我的项目在 GitHub 上的 Star 数已冲破 10.7K，贡献者人数也冲破了 470 人。社区的一直壮大，离不开每位 Contributor 的反对。明天咱们来意识一位新的「社区星力量」！ PROFILE伏长海公司：珍岛团体CDP部门职位：开发工程师Github ID: fuchanghai从事畛域：6年JAVA练习生，数据集成，大数据调度社区奉献盘点DataX：增加Hive和Presto的解析，局部数据遇到非凡字段报错的解决；SUB_PROCESS类型节点状态异样的修复；将Swagger替换成OpenAPI；UT补充；工作报错死循环的问题；以及其bug批改。对话社区Q: 当初与 Apache DolphinScheduler 结缘，背地有什么乏味的故事吗？退出社区后，有哪些让你印象粗浅的事？ A: 我接触开源实际上也就三四年，然而我之前遇到的开源社区都不沉闷所以始终没有提过PR。DolphinScheduler其实是我第一次提PR的我的项目。这里我真的非常感谢梓豪大佬，我的第一个PR就是梓豪帮我review的。一个很简略UT批改因为不符合规范，review了一个月才合并，我已经一度的想放弃，还好梓豪每次都会给我激励。 Q：开源为什么吸引你？有什么对于参加开源的小故事能够分享吗？ A: 其实吸引我的起因，真的很简略。每一个渺小的，看起来微不足道的improvement，各位committer 和 PMC都会认真对待，急躁地提出倡议，容纳度很强。每次社区里的同学们的留言都会让我学到很多，晋升很多，也让我更在意细节。 Q: 您所在公司是否应用过 DolphinScheduler？应用场景是什么？ A: 珍岛团体是一家面向寰球企业提供营销软件及服务的公司，现已造成IaaS，PaaS，All-in-one AI SaaS智能营销云平台。在咱们CDP部门中，已将数据集成，可视化建模，标签体系，用户画像，多维特征分析，idMapping 等多个模块的调度交给DolphinScheduler解决。日间调度3W+工作，夜间调度5000+工作。目前咱们上线DolphinScheduler工夫还不长，用户不多，期待DolphinScheduler当前更加稳固的体现（小伙伴们夜间工作并发多，倡议最好调大工作状态的查看距离）。 Q: 基于DolphinScheduler的二次开发计划是否能够介绍一下？ A: 咱们在DolphinScheduler中增加了MQ，将各模块和DolphinScheduler解耦。依据业务需要，咱们还二开了近程调用DataX类型节点（DataX目前须要在worker-server的本地启动，这不是咱们想要的），在DataX中增加了多种JDBC数据源以及非JDBC数据源，实现了动静更新DataX开启自定义模板下的数据源信息，自定义告警邮件，以及日志相干性能的二开。 Q: DolphinScheduler社区奉献给您的第一印象是怎么的？您心愿在这里有何播种？ A: 社区给我的第一映像是平等，容纳，耐性。这对刚开始奉献的小白来说很重要。 Q: 您认为调度零碎最要害的需要是什么？ A: 我认为调度零碎最要害的就是稳定性，不能稳固的失常执行，调度零碎将毫无意义。 Q: 您继续在DolphinScheduler社区沉闷的能源是什么？ A: 晋升本人的能力，和优良的人同行，容纳敌对的环境。参加奉献随着国内开源的迅猛崛起，Apache DolphinScheduler 社区迎来蓬勃发展，为了做更好用、易用的调度，真挚欢送酷爱开源的搭档退出到开源社区中来，为中国开源崛起献上一份本人的力量，让外乡开源走向寰球。参加 DolphinScheduler 社区有十分多的参加奉献的形式，包含：奉献第一个PR(文档、代码) 咱们也心愿是简略的，第一个PR用于相熟提交的流程和社区合作以及感触社区的友好度。社区汇总了以下适宜老手的问题列表：https://github.com/apache/dolphinscheduler/issues/5689 非老手问题列表：https://github.com/apache/dolphinscheduler/issues?q=is%3Aopen+is%3Aissue+label%3A%22volunteer+wanted%22 如何参加奉献链接：https://dolphinscheduler.apache.org/zh-cn/community/developme... 来吧，DolphinScheduler开源社区须要您的参加，为中国开源崛起添砖加瓦吧，哪怕只是小小的一块瓦，汇聚起来的力量也是微小的。参加开源能够近距离与各路高手切磋，迅速晋升本人的技能，如果您想参加奉献，咱们有个贡献者种子孵化群，能够增加社区小助手微信(Leonard-ds) ，手把手教会您( 贡献者不分程度高下，有问必答，要害是有一颗违心奉献的心 )。 ...

关于数据库:智能电视APP鲜时光如何应用AB测试打造极致的用户观看体验

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群数字技术的倒退让智能电视普及率大幅晋升，2023年智能电视的市场渗透率已超90%，与智能电视相匹配的各类利用APP性能也更加丰盛。本文介绍面向智能电视及机顶盒的互联网电视利用——鲜时光APP的改版案例。鲜时光引入智能化内容举荐技术，并利用火山引擎AB测试DataTester优化APP频道计划，为用户打造极致的家庭电视观看体验。旧版鲜时光界面在旧版鲜时光界面中，设有“看大片”、“纪录片”、“动画片”3个长视频频道，产品从梳理的用户调研内容中发现，APP中没有间接的频道可能对至“电影”、“电视剧”、“综艺”类节目，观众查找内容门路简单；此外，目前“看大片”频道以人工经营模式为主，内容散发效率较低，观众不容易发现想看的视频。鲜时光团队心愿引入智能化举荐技术、设计全新的频道计划，并通过火山引擎AB测试进行策略验证。他们推出了3组新频道策略，新增了“电影”、“电视剧”等5个长视频频道，并设置了“人工配置”、“智能举荐”两种形式；到底哪组策略线上的观众应用体验更好，鲜时光要通过AB试验的数据来进行判断。 AB试验频道计划对照组：与当火线上统一，不扭转频道策略AB实验组1：保留当火线上频道，并新增3个长视频频道，展示内容以经营人工配置为主AB实验组2：去掉当火线上频道，但保留“看大片”频道，应用6个长视频、展示内容以举荐为主的频道AB实验组3：去掉当火线上频道，且不保留“看大片”频道，应用5个长视频、展示内容以举荐为主的频道在试验上线后，他们在火山引擎DataTester中实时观测各实验组的数据，理解产品的各项外围指标是否趋于优化。在AB试验计划施行时，鲜时光团队还对新用户、老用户进行了隔离试验。因为对于老用户来讲，曾经相熟了“看大片”频道，在原有的影响因素下来测试新的策略，可能影响老用户的应用习惯，从而影响AB测试的外围指标。对新用户而言，自身没有原有应用习惯在，试验数据体现上可能和老用户有所区别。因而鲜时光团队设计的4组试验，针对“新用户”、“老用户”两类人群辨别发展。从AB实验报告中，产品团队解读到如下论断：大盘生产数据方面，相比“经营为主”的频道内容展示形式，“举荐为主”的展示形式在频道生产方面有显著收益，“实验组2”、“实验组3”的长视频生产时长均显著增长；人均生产时长上涨次要来源于长视频生产；新增频道生产收益总体大于“看大片”频道下线的置换损失。他们发现以举荐为主的电影电视剧频道上线带动了产品整体大盘数据的显著晋升，同时非长视频生产指标均无负向影响；其中，举荐为主的频道视频散发还带来了LT（用户生命周期）上的减少，特地是新用户组多日留存均呈显著正向，且收益继续扩充未收敛。在这次AB试验后果的根底上，鲜时光团队持续针对“实验组2”和“实验组3”进行了二期试验，次要为了判断新增“电影”、“电视剧”举荐频道后，“看大片”频道是否仍需保留。二期AB试验数据显示，“实验组3”的大盘数据显著优于“实验组2”的大盘数据，即“看大片”频道下线后，产品大盘数据无负向稳定。基于上述论断，鲜时光APP确定了频道改版的计划：引入5个以举荐策略主导的新频道，并下线“看大片”频道。在新策略上线后，数据显示用户在鲜时光APP中的应用时长及应用体验均有显著晋升。整体改版过程中，DataTester帮忙产品团队高效、迷信地实现了决策。火山引擎DataTester源自字节跳动长期积淀，截至2023年6月，字节已通过DataTester累计做过240万余次AB试验，日新增试验 4000余个，同时运行试验5万余个。DataTester目前服务了包含美的、失去、凯叔讲故事等在内的上百家企业，为业务的用户增长、转化、产品迭代、经营流动等各个环节提供迷信的决策依据，将成熟的“数据驱动增长”教训赋能给各行业。点击跳转火山引擎A/B测试理解更多

关于数据库:精彩回顾｜2023-ACDU-中国行深圳站数据库主题交流活动成功举办

6月30日下午，【ACDU 中国行·深圳站】在深圳回酒店圆满落下帷幕。本次流动由中国数据库联盟（ACDU）联结墨天轮社区主办，围绕「数据库前沿技术揭秘及利用」这一主题，七位数据库行业的领军人物从数据库新个性解读、翻新与利用、智能运维等方面开展分享。本场吸引了200余位技术从业者线下参加，嘉宾们精彩纷呈的分享一直引发现场观众的激情互动与探讨（本次大会PPT在文末下载）。会议伊始，墨天轮社区负责人章芋文下台发言，首先他对远道而来的演讲嘉宾与参会的敌人示意了由衷的感激，他示意，中国数据库联盟（ACDU）依靠墨天轮社区为所有的数据库从业者及爱好者提供一个线上和线下的沟通平台，大家在这里分享常识、教训以及工作心得，从而推动行业、技术与生态的倒退，这是联盟及社区始终保持的能源，目前ACDU深圳用户组曾经拓展到了385人。墨天轮社区负责人章芋文随着数据库新技术一直向前倒退，DBA的职业角色从新被定义。南京基石数据技术有限责任公司CTO 徐戟（白鳝）以《新时代下数据库运维和DBA面临的挑战和时机》为题进行分享。数据库利用逐步多样化、平安可控逐步成为潮流，业务零碎数量和规模疾速减少，给运维人员带来了微小的挑战。在危机来长期，徐戟认为以后国产化的代替趋势产生了一些时机，将来数据库测试、迁徙、国产数据库培训师以及一线的国产数据库工程师的岗位需要将会大大增加。此外，他示意作为一名数据库从业者要积极关注技术发展趋势。会议中，他分享了数据库SAAS服务、基于常识图谱的知识库服务以及大语言模型等新的技术倒退方向。南京基石数据技术有限责任公司CTO 徐戟（白鳝） Greenplum 数据库内核资深研发工程师汤韬围绕《Greenplum Database 7 性能晋升的秘密武器》这一主题分享了他的见解。首先他介绍了基于PostgreSQL的MPP架构分布式数据库一GPDB7的次要个性：全新的资源管理组 for CPU、内存、磁盘I/O, 反对cgroup v1/v2、JIT即时编译技术，性能晋升等。其次他还将JIT晋升GPDB 7性能的原理及实现这一部分向与会者做了粗疏的解说，例如编译优化、表达式计算、元祖合成等基本思路。最初，他将JIT在GPDB 7中的应用这一部分做了简略的介绍。作为一款弱小而稳固的企业级分布式数据库，Greenplum Database 7 领有了更加弱小的“骨架”。 Greenplum 数据库内核资深研发工程师汤韬 MySQL 作为一款开源数据库，始终广受使用者欢送。腾讯科技总监，TDSQL 内核负责人姜承尧表明 MySQL 在寰球的劣势位置是毋庸置疑的。会议后期，他向大家分享了 MySQL 8.0 最能帮忙大多数用户晋升效率Top 3性能/个性，别离是Doublewrite优化、Doublewrite优化以及反对并行扫描。此外，他还与大家一起独特探讨了一个令人深思的问题：什么样的数据库是一款好的数据库产品?并与大家开展了热烈的交换。最初，姜承尧认为作为一款好的数据库产品，要满足自主可控、用户导向、人人受害等三个准则。腾讯科技总监，TDSQL 内核负责人姜承尧近年来，中国数据库行业涌现了泛滥“新星”，KunlunBase 就是其中之一。泽拓科技& KunlunBase创始人赵伟带来了《基于PostgreSQL内核加强和扩大的产品设计哲学》的主题分享。从外围个性的角度来说，KunlunBase 具备弹性伸缩的计算和存储能力、金融级高可靠性、HTAP 等特点。赵伟示意，KunlunBase 始终在一直晋升性能、可扩展性、效率，可能实现专业分工、宽泛连贯，一直晋升数据库从业人员的工作效率。 KunlunBase创始人赵伟此外，深圳计算迷信研究院自主设计研发的新型数据库管理系统——崖山数据库系统（YashanDB）发展势头迅猛，吸引了泛滥从业者关注。会议现场，YashanDB 技术总监王海峰以《深算院全自研数据库系统的设计与实际》为主题进行分享，率领大家揭秘 YashanDB 的前世今生。2013年，YashanDB 就有了良好的实践根底，后经深圳计算迷信研究院融入原创实践，打造成一款全自研产品。王海峰认为全自研能带来三大收益：讲清楚每一行代码前面的故事、根底软件全自研的代码灵便度高、自主可控。分享序幕，他还介绍 YashanDB将来将朝向自治、多模等方向后退。 YashanDB 技术总监王海峰 4月30日，openGauss 5.0.0版本正式上线。作为 openGauss 公布的第三个LTS版本，华为高级研发工程师，openGauss 数据库内核 Committer 熊小军率领与会者一探到底。他从 openGauss资源池化架构登程，表明了 openGauss 存算拆散，多节点共一份数据，去除日志复制开销，能使存储老本降落50%以上。“因为有了内存池化，openGauss 能反对数据一致性敏感型利用负载从单个节点通明扩大到多个节点，这个也就是高可用能力”，熊小军说道。接着他具体地解说了 openGauss 四高个性（高性能、高可用、高平安、高智能）中的两个个性：高可用、高智能。最初，他呐喊大家都能一起拥抱 openGauss 的生态。 ...

关于数据库:实践教程之-PolarDBX-分区管理

PolarDB-X 为了不便用户体验，提供了收费的试验环境，您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验，PolarDB-X 也提供收费的视频课程，手把手教你玩转 PolarDB-X 分布式数据库。本期试验将领导您如何进行PolarDB-X分区治理。本期收费试验地址本期教学视频地址前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署，应用PolarDB-X Operator装置PolarDB-X，并且能够胜利链接上PolarDB-X数据库。分区治理测试本步骤将带您体验PolarDb-X数据库中的分区治理能力。 1.筹备测试表。执行如下SQL语句，创立测试数据库part_manage并创立测试表。 -- 创立测试库create database part_manage mode='auto';use part_manage;-- 创立一个表组create tablegroup test_tg1;-- 创立表t1并绑定到表组为test_tg1create table t1 ( a int) partition by key(a) partitions 5 tablegroup=test_tg1;-- 创立表t2, 让它和t1一样绑定到表组test_tg1create table t2 ( a int) partition by key(a) partitions 5 tablegroup=test_tg1;-- 创立表t2，不指定表组create table t3 ( a int) partition by key(a) partitions 5;-- 手工绑定t3到表组test_tg，成果和在创立时指定是一样的 alter table t3 set tablegroup=test_tg1 force;-- 创立range分区的表t4create table t4 ( a int) partition by range(a) (partition p1 values less than(100), partition p2 values less than(500), partition p3 values less than(1000));-- 创立list分区的表t5create table t5 ( a int) partition by list(a) (partition p1 values in (1,2,3,4,5), partition p2 values in (6,7,8,9), partition p3 values in (10,11,12,13,14));-- 拆分形式创立表orders，order_details 默认将按主键hash拆分create table orders(order_id bigint primary key auto_increment, customer_id varchar(64) default null, create_time datetime not null, update_time datetime not null);create table order_details(order_detail_id bigint primary key auto_increment, order_id bigint not null, customer_id varchar(64) default null, create_time datetime not null, update_time datetime not null);-- 查看一下orders表的拆分形式show full create table orders;2.查看表的构造以及拓扑信息。2.1 执行如下SQL语句，查看表构造。 ...

关于数据库:信也科技推出国际业务图数据库多点关联构筑反诈防护墙

信也科技推出国内业务图数据库，“多点关联”构筑反诈防护墙近日，信也科技正式推出国内业务图数据库，帮忙解决国内业务倒退过程中关联关系日趋简单的难题，包含高效治理异构大数据、深度开掘简单网络以及推理预测隐性关联关系，为风控系统提供实时更新的关联变量查问服务。目前，信也科技国内业务图数据库曾经提供了海量节点数据、关联关系和关联变量查问服务，很好地反对了风控系统的关联变量查问需要。撑持风控系统实时关联变量查问如果把事实世界比喻成一张简单的网络，用户和用户之间通过各种事物，比方设施、地址、联系方式产生关联，这造成了海量的、简单的、互联的、多变的网状数据。在金融业务中，这些关联关系则成为判断欺诈用户、评估逾期危险的重要因素，也使得风控对于数据的关联查问需要日益减少、对实时性的要求也越来越高。然而，传统的关系型数据库往往无奈满足高效、实时的查问要求，耗时长且对线上数据库性能造成微小压力。信也科技国内业务图数据库的呈现，能无效帮忙解决这些难题。数据同步实现低提早、高可用起初，信也科技便以低提早、高可用为设计指标，将国内业务图数据库定位为线上数据的异构从库。同步程序简洁轻量，只将关联关系同步到图数据库，其余相干信息同步到文档型数据库MongoDB。综合思考Nebula的写入性能，信也科技基于Canal实现同步程序，利用Canal生产Binlog间接写入NebulaGraph，缩小两头链路，实现尽可能低的同步提早，通常可实现图数据比主数据提早10ms左右。数据同步性能同时反对历史数据加载和增量数据同步，只须要新增一个数据表到关联关系的配置，同步程序就能够开始进行历史数据加载，并且在历史数据加载实现之后切换到增量同步，确保了数据的完整性和实时性。该计划实现了主备高可用。当主同步节点呈现故障时，备用同步节点将被抉择为主同步节点，持续进行同步工作。同步程序示意图赋能国内业务助力反诈降级此前，信也科技国内业务推出了基于Huge Graph的明镜反欺诈考察前端零碎，次要服务于反欺诈考察和团案剖析。Nebula Graph是一款在实时写入和在线查问方面表现出色的开源分布式图数据库，信也科技基于这款数据库，并充沛联合国内业务的需要和现状，从新实现了图数据的数据存储局部，可反对实时更新的关联变量查问服务。因为明镜反欺诈零碎在设计之初就对图存储层做了封装和隔离，在国内业务的利用中，只需从新设计一个适配层，就能将其利用到国内业务图数据库之上，同步应用明镜反欺诈零碎成熟的关联考察、欺诈危险规定剖析等性能。反欺诈考察前端当今的金融环境下，金融风控的诸多场景都存在维度多、数据量大、关联荫蔽、潜在损失微小、损失难以追回等特点。信也科技国内业务图数据库对于关联查问的优化，将散落于各个系统孤岛中的客户、交易、行为数据构建成残缺的高维用户画像，赋能国内业务实现从单点视角到全局视图、从静态数据到动静智能的飞跃。接下来，信也科技将继续加强研发翻新，晋升风控系统的效率和准确性，助力风控系统数据分析和决策利用，推动金融科技行业高质量倒退。

关于数据库:多领域应用落地火山引擎ByteHouse加速云数仓升级

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群近日，火山引擎数智平台VeDI直播流动「超话数据」在线举办，来自火山引擎的产品及解决方案专家分享了以ByteHouse为代表的云数仓产品在字节跳动的演进过程、关键技术以及最佳实际，并通过五个步骤拆解，率领开发者疾速上手云数仓。现如今，企业正减速走向数字化、智能化，对数据的利用也提出了全新要求，特地是在数据实时剖析、实时部署方面的诉求更加强烈，而云数据仓库为用户实现云原生、智能运维、弹性资源等业务需要带来了很好撑持，成为明天企业数字化基础设施中的要害“底座”。ByteHouse则是这样一款云原生数据仓库。ByteHouse起初是基于开源ClickHouse引擎进行技术架构重构和优化，在字节跳动外部大规模利用，其中部署规模超过1万8000台，单集群超过2400 台，现已通过火山引擎对外输入。火山引擎ByteHouse 据ByteHouse产品专家介绍，面对企业级数据处理需要，相比起原生的ClickHouse，火山引擎ByteHouse基于独家自研的高可用引擎及查问优化器，能够为企业提供疾速、稳固、平安的查问服务和数据写入性能。在云原生架构下，火山引擎ByteHouse提供了极致扩大的对立数据分析平台，具备杰出的弹性伸缩和可扩展性，确保资源能够灵便地程度扩大；同时，ByteHouse反对多级资源隔离，为用户资源提供更安心的平安保障。除了高可用的根底能力，火山引擎ByteHouse还从业务角度登程提供了残缺的运维监控和排障能力，帮忙企业实现业务云上托管，升高运维老本。不仅仅具备弱小的技术能力和易用的产品个性，火山引擎ByteHouse在广告、气象、行为剖析等畛域曾经积攒丰盛的落地教训。在此次流动中，火山引擎解决方案专家通过广告、气象、行为剖析3个畛域案例，具体拆解云原生数据仓库如何能在业务场景中丝滑落地。首先，在广告受众预估畛域，为了帮忙广告主确定指标人群，判断投放价值，广告平台须要为广告主提供受众筛选能力，即依据不同筛选条件、标签或人群包，确定每次营销流动笼罩的人员类型、人员规模。其难度在于，广告平台用户体量大、人群包数量大，导致单个查问中波及多个人群包计算，使得查问复杂度高；另外，广告平台对数据实效性要求高，数据查问效率要达到秒级响应。面对此类需要，ByteHouse反对BitMap数据格式，升高人群包数据内存占用，配合uid的数据分片形式，晋升数据查问并发能力，实现高效的人群包交、并、补计算，满足QPS峰值查问需要，最终达到查问秒级响应的成果。火山引擎ByteHouse在广告受众预估畛域落地其次，在气象畛域，ByteHouse帮忙AI大模型与数字孪生公司大地量子实现对气象数据的精准预测。依据风向、湿度、温度、风力等历史气象数据，联合风场、云层等模型能力预测将来能源状况，是大地量子的次要利用场景。大地量子通过将现场采集及大模型生成的气象数据导入到ByteHouse中，由ByteHouse撑持GEO查问和空间计算能力，满足其对预测零碎以及交互式查问需要。目前，大地量子的均匀查问响应时长不仅在50毫秒以内，预测精准度也失去无效晋升。最初，在行为剖析畛域，极客邦科技则通过ByteHouse实现以用户为核心的精细化营销。作为致力于为数字人才提供全方位、高质量新闻资讯、课程内容、大会、领导等服务项目的企业，极客邦科技会依据用户画像、在端内的操作行为等数据为用户精准推送课程、流动，洞察用户全链路行为，以便提供更好服务。但随着用户数量变大且持续增长，数据查问需要更加简单，同时也面临疾速响应的问题，在技术层面遇到很多挑战。增长剖析平台DataFinder与云原生数据仓库数据仓库ByteHouse的组合应用则帮忙极客邦科技更好洞悉客户全链路营销旅途。ByteHouse的高可用引擎和查问优化器能够将用户表、事件表等数据高效去重、剖析和计算，再通过DataFinder SDK实现事件剖析、留存剖析、转化剖析等能力，实现用户精准洞察和营销能力降级。不仅仅在广告、气象等畛域落地，ByteHouse 还将继续通过翻新的技术和性能，帮忙更多行业构建高效、稳固和可扩大的实时数据分析平台，提供弱小的数据处理和剖析能力，助力企业更好实现数字化降级。点击跳转火山引擎ByteHouse理解更多

关于数据库:KaiwuDB-亮相-2023-可信数据库发展大会

关于数据库:直播｜StarRocks-31-新功能抢鲜看

自 StarRocks 3.0 公布以来，StarRocks 带来了一系列亮点性能--存算拆散、数据湖查问减速、算子落盘，导入、建表以及各项易用性优化等。而在全新的 StarRocks 3.1 版本中，咱们进一步晋升了湖仓剖析能力，其中蕴含：存算拆散架构反对主建模型，可实时更新数据；减少 Apache Iceberg sink 和 Apache Paimon 表面查问等性能;进一步简化数据导入、建表等流程，让用户能更快体验到极速剖析性能。 7 月 12 日（下周三）晚 19:00-20:30，社区邀请到 StarRocks Active Contributor 王司墨 & 阿里云高级开发工程师/StarRocks Committer 王日宇独特现身直播，与大家一起预览 3.1 版本性能及技术原理揭秘！欲知更多精彩，欢送预约直播，Join us now！参加互动赢积分：分享流动宣传文章至朋友圈，截图上传至论坛：10 积分+论坛随机抽奖直播间观看直播，截图上传至论坛：10 积分新用户注册论坛且批改用户名+昵称：10 积分老用户批改默认用户名+昵称：10 积分填写流动问卷：20 积分 https://tl-tx.dustess.com/2R8Ec4gOOZ 积分兑换： 20 积分可兑换：StarRocks 笔记本50 积分可兑换：StarRocks 随行保温杯更多具体规定，请返回论坛：https://forum.mirrorship.cn/t/topic/7708

关于数据库:6月中国数据库行业分析报告已发布首发空间搜索引擎数据库全球产业图谱

为了帮忙大家及时理解中国数据库行业倒退现状、梳理以后数据库市场环境和产品生态等状况，从2022年4月起，墨天轮社区行业剖析钻研团队出品将继续每月为大家推出最新《中国数据库行业剖析报告》，继续流传数据技术常识、致力促成技术创新与行业生态倒退，目前已更至第十四期，并公布了共计122页的2022年度剖析报告。墨天轮6月《中国数据库行业剖析报告》已正式公布（点击即可跳转，欢送大家下载查阅），本期报盘点了墨天轮“中国数据库风行度排行”、产品投融资及市场份额报告等业内资讯，并整顿了2023年上半年中国数据库中标一览表，以此展示以后数据库市场倒退前沿动静。本期报告重点聚焦空间数据库与搜索引擎数据库，介绍了其产品个性、倒退历程与发展趋势，并公布【寰球空间数据库产业图谱】与【寰球搜索引擎数据库产业图谱】，最初精选这两类数据库中的几款典型产品，介绍其原理特点与利用实际，以期率领大家更加全面、深度地理解技术倒退新趋势。一、数据库排行榜及前沿动静本章节目录 6月中国数据库风行度排名剖析2023年6月的墨天轮中国数据库风行度排行榜共273个数据库参加排名，榜单前十用一句话能够概括为：OTO 组合间断两月开局，传统厂商 GBase 南大通用乘势而上，其余数据库暂居原位。此外，在本月排行榜前三中，开源数据库 OTO 组合（OceanBase、TiDB 和 openGauss）已间断第二月开局。在本月排行榜第十名至第五十名这一区间，超五成的数据库排名都处于上行趋势。诸如金篆信科旗下 GoldenDB 分布式数据库排名较上月回升一位至第13名；神舟通用排名较上月回升一位，以1.42分的强劲劣势紧跟在 GoldenDB 之后；飞轮科技基于 Doris 内核研发的云原生发行版 SelectDB 排名回升五位至第22名；深圳计算迷信研究院自主设计研发的新型数据库管理系统 YashanDB 本月排名较上月跃升16位进入了前三十的竞技圈等。数据库行业倒退动静本月报告整顿了近期业内较受关注的投融资、新品公布等资讯，并对近期公布的市场份额报告进行了盘点。其中，新一代实时数据仓库公司「飞轮科技」发表实现第三轮融资，融资金额达数亿元。IDC 公布了《2022 年下半年中国关系型数据库软件市场跟踪报告》，其显示2022年中国关系型数据库软件市场规模为34.3亿美元，并预测，到2027年，中国关系型数据库软件市场规模将达到102.7亿美元。此外，Gartner 于近日公布了2022年数据库市场份额报告，相较于2021年，2022年 AWS 回升一位超过微软居第一；华为回升一位，紧跟阿里云。此外，为帮忙大家梳理以后中国数据库产品的市场竞争状况，本月报告整顿了截至2023年6月15日的中国数据库行业上半年的16次数据库中标我的项目状况，并制作成表格。因篇幅所限此处仅截取局部图片，具体内容可查阅报告。二、空间数据库的剖析及瞻望本章节目录现实生活中，大部分的数据库都具备空间属性。空间数据库（Spatial DBMS）是一种可能无效地存储、操作和查问空间数据的数据库管理系统，通常提供专用数据类型来存储空间数据，并提供空间索引来优化对空间数据集的拜访。目前，空间数据库广泛应用于智慧城市、气象、环境、农业和交通等畛域中。报告第二章则具体介绍了空间数据库的概念、特色、治理形式等技术要点，其中空间数据库的治理形式次要分为文件关系数据库混合治理计划、全关系式数据库治理计划、面向对象数据库治理计划、对象关系数据库治理计划这四种，计划各有优劣，在报告中对此进行了具体介绍，此处不再赘述。为了帮忙大家更好地把握空间数据的个性，报告从数据连续性、数据相关性、空间关系、记录长度、查问与操作等方与传统数据库进行了比照。此外，报告整顿了以后空间数据库的次要利用场景、面临的挑战与将来发展趋势，已期帮忙大家理解空间数据库的利用实际与倒退。最初，报告整顿公布了【寰球空间数据库产业图谱】，将之分为开源与商业数据库两类，并以中国和国外产品进行辨别。以下为图谱截图，下载报告可查看高清版。三、搜寻型数据库的倒退概述本章节目录搜索引擎数据库是一类专门用于数据内容搜寻的非关系数据库，应用索引对数据中的类似特色进行归类并进步搜寻能力，通常提供业余的办法例如全文搜寻、简单搜寻表达式和搜寻后果排名。随着我国数字化转型浪潮的进一步推动与数字经济的蓬勃发展，非结构化数据的占比将越来越高，搜索引擎数据库正成为非结构化大数据处理剖析畛域中重要的根底撑持软件。依据西方证券对寰球搜索引擎数据库的市场规模进行简略测算，预计2025年寰球搜索引擎数据库市场规模将达到82亿美元。报告第三章则对搜索引擎数据库的基本原理、关键技术以及倒退历程、市场规模等进行了梳理，受篇幅所限此处仅展现局部内容，具体内容可查阅报告。搜索引擎数据库诞生初期次要是为解决关系型数据库中长文本检索效率低下的问题，但随着技术的倒退，目前的搜索引擎数据库还能够解决常见的数值、日期等结构化数据，以及解决 IP、地理位置信息、图片、音视频等非结构化数据。凭借在数据查问效率方面的劣势，搜索引擎数据库在数据处理方面的位置越来越高，并在应用程序搜寻、网站搜寻、企业搜寻、智能问答、图像与语音搜寻、语义搜寻、业务剖析和平安剖析等方面有着宽泛的利用。且随着技术的倒退，搜索引擎数据库的响应速度以及可视化的能力都能有疾速的晋升。本章节则对搜索引擎数据库的具体利用场景及发展趋势进行了具体解读，此处仅作局部出现，具体内容可下载报告查阅。最初，报告整顿公布了【寰球搜索引擎数据库产业图谱】，同样以开源与商业、中国与国外两个维度进行辨别，望帮忙大家更深刻梳理把握这一数据库产业倒退，下载报告可查看高清版。四、中国数据库产品案例集报告最初一章则选取了几则典型的中国空间数据库与搜索引擎数据库产品作为案例，介绍其外围架构与、性能个性与利用实际等。首先是空间数据库中，介绍了超图软件推出的Yukon（禹贡）数据库，其基于openGauss数据库扩大天文空间数据的存储和治理能力，可提供业余的 GIS（Geographic InformationSystem）性能；星环科技的分布式时空数据库 Transwarp Spacture 现具备齐备的数据查问、剖析和开掘能力，可用于时空查问剖析、时空模式开掘、时空轨迹聚类等剖析场景；以及达摩院数据库与存储实验室联结阿里云独特研发的新一代地位智能引擎 GanosBase ，可提供挪动对象、空间/时空、遥感多模态数据混合存储、查问与剖析服务。此外筛选了几款搜索引擎数据库产品进行了展现，蕴含星环科技自主研发的企业级交互式数据检索统计分析平台 Transwarp Scope、分布式近实时搜寻与剖析引擎 INFINI Easysearch以及拓尔思推出的一款从内核到零碎齐全国产自研的搜寻型数据库 TRS Hybase 等。此处仅展现本章节中局部内容，大家能够下载报告获取更多内容。本文仅对6月《中国数据库行业剖析报告》的局部内容进行了摘录、整顿，更多残缺、具体内容大家能够下载报告全文理解，也欢送各位数据行业同道交换、探讨、建言献策，咱们一起见证、独特助力中国数据库产业的发展壮大！报告全文下载地址：https://www.modb.pro/doc/110449往期报告下载2022年4月-2023年6月中国数据库行业剖析报告合辑2022年中国数据库行业年度剖析报告更多精彩内容尽在墨天轮数据社区，围绕数据人的学习成长提供一站式的全面服务，继续促成数据畛域的常识流传和技术创新。增加社区墨天轮小助手（VX：modb666）可获取更多技术干货。

关于数据库:实践教程之使用-PolarDBX-进行-TP-负载测试

PolarDB-X 为了不便用户体验，提供了收费的试验环境，您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验，PolarDB-X 也提供收费的视频课程，手把手教你玩转 PolarDB-X 分布式数据库。本期试验将领导您如何应用PolarDB-X进行TP负载测试。本期收费试验地址本期教学视频地址前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署，应用PolarDB-X Operator装置PolarDB-X，并且能够胜利链接上PolarDB-X数据库。装置Benchmark-Boot平台1.在新关上的终端窗口中，应用root账户，在/root 目录下，执行Benchmark-Boot压测平台一键装置命令。 bash -c "$(curl -fsSL https://benchmark-boot.oss-cn-hangzhou.aliyuncs.com/setup.sh)" 阐明：其余部署装置形式可参考官网文档：https://doc.polardbx.com/tools/topics/benchmark-boot.html。在正式测试环境下，压测机应与数据库实例独立部署，防止资源争抢；且压测机应与数据库实例在同一个内网中，防止网络成为性能瓶颈。2.执行如下命令，验证装置是否胜利。 curl -X GET "http://127.0.0.1:4121/config/database" -H "accept: */*"返回后果如下，示意装置胜利。 3.在云产品资源列表中，找到ECS服务器的公网地址或弹性IP。 4.在您的本地应用的浏览器中，关上网址{ECS公网IP}:4121，拜访Benchmark Boot平台首页请关闭系统代理或浏览器代理进行拜访。如果本地浏览器呈现前端页面显示不兼容的状况，能够应用运气实验室远程桌面的Chromium网页浏览器，如下图所示。压测平台配置数据库连贯本章节操作均在Benchmark-Boot平台端通过白屏化操作实现。 1.配置数据库连贯：在左侧导航栏进入抉择运行压测>数据库连贯面板，在配置数据库连贯表格中填入以下信息。指标数据库的ip地址：在第4节连贯PolarDB-X集群中形容了获取办法。端口：在第4节连贯PolarDB-X集群中形容了获取办法。用户名：默认为polardbx_root。明码：在第4节连贯PolarDB-X集群中形容了获取办法。Sysbench库名：库名可自行输出任意非法名字。因为未手动创立Sysbench数据库，此处须要手动抉择建库模式——AUTO或DRDS；如果之前已在该PolarDB-X实例中创立了Sysbench数据库，建库模式抉择主动判断即可。TPC-C库名：注意事项同上。 2.提交配置后，平台将主动校验数据库是否能够连通，并主动创立对应压测数据库，页面会主动刷新并展现以后连贯数据库信息：压测平台运行Sysbench本章节操作均在Benchmark-Boot平台端通过白屏化操作实现。 1.导入Sysbench。 1.1 在左侧导航栏抉择运行压测>Sysbench面板，在导入Sysbench表格中填入以下信息。表数量：4。单表大小：100000。导入并发数：2。阐明：请参考以后PolarDB-X实例的规格，抉择适合的表数量和并发数；4张100000大小的表在并发数为2下的导入工夫约为1分钟 1.2 提交导入工作后，在实时数据-Sysbench面板，查看导入数据过程。 1.3 导入结束后，回到运行压测>Sysbench面板中，单击校验数据（该步骤可选）。 2.运行Sysbench。 2.1 进入运行压测>Sysbench面板，在运行Sysbench表格中填入以下信息。表数量：输出表数量，例如4。单表大小：输出单表大小，例如10000。并发数：可依据负载类型抉择适合并发数。运行时长：单位为秒。负载类型：此处示例为点查。工作形容：有意义的一段压测形容记录，不便后续后果查看与汇总。阐明：因为数据库实例是冷启动状态，能够进行一轮热身后，再开始性能测试后果的记录。 2.2 在压测Sysbench过程中，暂不反对并行启动工作。 3.查看Sysbench压测后果。 3.1 在左侧导航栏抉择压测后果>Sysbench面板，能够列表的模式查看历史工作。 3.2 可查看单个工作的QPS曲线具体后果，也可比照查看两次工作的执行后果。压测平台运行TPC-C本章节操作均在Benchmark-Boot平台端通过白屏化操作实现。 1.导入TPC-C。 ...

关于数据库:IP地址与智能家居

现在，WiFi、Zigbee、Bluetooth等无线技术被广泛应用于智能家居设施，他们间接或间接入互联网买通了无线技术之间的壁垒，物联网产业链蓬勃发展。芯片厂商布局IOT设施的解决方案，设施厂商推出了IOT互联操作平台，逐步形成残缺的智能家庭解决方案。然而设施厂商之间的IOT平台没有对立的操作标准，不同厂商的设施不能互相操作，限度了消费者的抉择范畴。IOT设施反对多平台则须要别离独自适配，厂商将付出额定的开发和保护老本，而这些老本最终会转嫁到消费者身上。各自为政的IOT平台显然妨碍了智能家庭和物联网的倒退，咱们迫切需要解决IOT平台之间的互操作问题。不同IOT平台的设施之间无奈互联互通，根本原因是不反对TCP/IP协定的无线设施（如Zigbee和Bluetooth）接入互联网都须要在应用层将音讯翻译给反对TCP/IP协定的设施（比方WIFI）。而应用层音讯格局和含意都是可定义的，各家IOT平台因为对设施行为没有对立标准导致无奈互联互通。IP是Internet的次要通信协议。IP为IP网络数据中继提供了外围机制，它的路由能力实现了网络互连。在物联网时代，咱们依然能够通过IP将不同网络技术整合在一起，。事实上针对低功耗网络的IP规范6LoWPAN根本曾经失去各种无线技术的反对，zigbee联盟2013年便颁布了基于IPv6的无线网状网络的凋谢规范Zigbee IP。蓝牙联盟也在2014年颁布蓝牙4.2标准时引入了IPv6协定。另外还有自身就是基于IPv6的无线网状网络Thread。IP地址信息查问：https://www.ip66.net/?utm-source=Lik&utm-keyword=?1124所以通过兼容性的IPv6便能够对立包含宽带、蜂窝、以太网、WLAN、Zigbee、BLUETOOTH和Thread等泛滥网络数据无缝传递，买通IOT平台之间的阻隔，真正实现设施、利用和云服务的互联互通。我司也基于这样的万物互联理念，继续推出各类协定产品和欠缺的物联网解决方案，推进物联生态的建设

关于数据库:蚂蚁技术研究院联合CCF发布首支数据库实验室专项基金推动分布式数据库创新发展

6月28日， CCF-蚂蚁科研基金数据库实验室专项（以下简称“数据库实验室专项”）正式公布并启动申报，面向寰球富裕翻新思维与科研能力的学者凋谢6项研究课题，攻坚数据库技术难点，推动相干畛域技术倒退与落地。申报截止工夫： 2023年8月15日24:00（北京工夫） 6月30日，2023年CCF中国数据库倒退策略研讨会（SiftDB23策略研讨会）在内蒙古呼伦贝尔举办，会议围绕“云原生与大模型”进行主题研究，“CCF-蚂蚁科研基金”数据库实验室专项在会上进行了申报课题解读。 CCF-蚂蚁科研基金“CCF-蚂蚁科研基金”于2020年由蚂蚁团体与中国计算机学会联结发动。基金面向寰球青年学者，设立人工智能、隐衷与平安、区块链、根底零碎、数据库及物联网等多个钻研方向，累计投入资金超3000万。基金自成立以来备受学界关注，截至2023年，“CCF-蚂蚁科研基金”累计公布超百个前沿科技领域课题，收到来自清华大学、北京大学、中国人民大学等在内的寰球数百所顶尖高校的数百位高校青年学者的申报，多项研究成果已在蚂蚁团体的业务场景失去理论利用。数据库实验室专项数据库实验室专项是“CCF-蚂蚁科研基金”框架下首支面向数据库业余畛域的科研基金，为寰球数据库畛域翻新人才搭建产教交融及学术交流的平台。该基金打算面向数据库外围引擎的次要方向开展钻研，设置的6项课题与前沿技术紧密结合，别离为：分布式数据库系统中自适应的索引举荐算法、基于机器学习的分布式数据库主动诊断调优机制钻研、基于OceanBase的多模态HTAP存储引擎及其查问机制钻研、新型硬件驱动的分布式数据库高性能存储引擎设计与优化、Sky Computing中跨多云的基于RDMA的分布式事务处理机制、面向私有云Serverless的弹性调度机制的设计与优化。申报课题解说会上，CCF-蚂蚁科研基金数据库实验室专项技术治理委员会委员陈群指出，数据库实验室专项基金所面向的问题更具体、更落地，蕴含的6大课题方向通过专委会谨严剖析与评估，“乏味且有用”。CCF-蚂蚁科研基金数据库实验室专项技术治理委员会委员陈群蚂蚁技术研究院数据库实验室主任、OceanBase CTO杨传辉围绕数据库实验室专项基金进行了分享，他认为科研不仅看论文产出，更要有用。蚂蚁技术研究院冀望通过科研基金的形式联结学术界独特围绕来自工业实际的实在问题，产出研究成果，并无望在将来两到三年落地于OceanBase理论业务场景，产生利用价值。蚂蚁技术研究院数据库实验室主任、OceanBase CTO杨传辉秉承着蚂蚁技术研究院“做有用、有想象力的科研”的使命，往年“CCF-蚂蚁科研基金”首支数据库实验室专项基金钻研需要均来自于工业界的实在场景，专一于蚂蚁团体分布式数据库OceanBase在业务场景中遇到的实在问题，旨在助力当先技术在实在业务场景中的规模化利用，减速科研成果转化。同时数据库实验室专项课题聚焦外围引擎的冲破，对于下一代数据库的技术路线和国家数据安全都有重大策略价值。蚂蚁技术研究院蚂蚁团体的成长受害于科技翻新与倒退的红利，科技也是蚂蚁团体发明将来的外围能源。为进一步强化和欠缺蚂蚁技术摸索和翻新机制，晋升技术布局的前瞻性，体现蚂蚁在前沿硬核技术畛域全力以赴、攻坚克难的信心，2021年，蚂蚁团体正式成立蚂蚁技术研究院，致力于前沿科学技术的摸索与钻研，下设六大实验室，别离为交互智能实验室、图计算实验室、数据库实验室、密码学实验室、程序设计语言与编译器实验室、计算零碎实验室。蚂蚁技术研究院心愿以数据库实验室专项为抓手，联结学界中坚力量，继续推动产学研深度交融，通过技术创新开启国产数据库产业的新征程，欢送寰球数据库科技人才提交我的项目申请。

关于数据库:KaiwuDB-获-2023-可信数据库发展大会双料荣誉

7月4日，由中国信息通信研究院（以下简称“中国信通院”）、中国通信标准化协会领导，中国通信标准化协会大数据技术标准推动委员会（CCSA TC601）、InfoQ 极客传媒联结主办的“2023 可信数据库倒退大会”在京召开，大会公布多项中国信通院及相干机构在数据库畛域的研究成果，助力我国数据库产业高质量倒退。中国信通院云计算与大数据研究所所长何宝宏正式公布《数据库倒退钻研报告（2023年）》暨《中国数据库产业图谱（2023年）》。《报告》涵盖中国数据库产业倒退态势介绍、数据库政策解读、数据库技术趋势分析等内容；《图谱》则全面主观地展示了中国数据库产业中的要害畛域、环节和代表企业，为社会各界提供了中国数据库倒退的一站式信息库。浪潮 KaiwuDB 作为成员之一参加《数据库倒退钻研报告（2023年）》编制工作并正式入选《中国数据库产业图谱（2023年）》，为展现中国数据库产业全貌奉献一份力量。《中国数据库产业图谱（2023年）》作为大会另一个重磅环节，中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇就 2023 上半年“可信数据库”评测后果进行解读并正式颁发评测证书。“可信数据库"系列评估评测是中国信通院自 2015 年推出的第三方权威评估评测体系，通过严格把关测评流程，筛选出优良的产品和优质的服务商，圈定了国内数据库产品和服务商第一梯队，已成为用户洽购选型领导和厂商产品标准化设计的重要风向标。通过产品材料审核、测试报告审核、参评厂商问难、质询与答疑、集中评议共五个严苛审查环节，经评审专家组统一认可，KaiwuDB 通过时序数据库根底能力专项评测，获颁“可信数据库”证书。 KaiwuDB 通过“时序数据库根底能力测试” KaiwuDB 是业内首款“面向 AIoT 的分布式多模数据库”产品，领有“多模数据库架构”、“就地计算”、“原生AI”等核心技术，反对时序数据、内存数据、关系型数据在同一数据库中对立汇存、解决及智能剖析。协同基于 KaiwuDB 构建的“行业级物联网实时信息交融平台”KDP，一站式满足物联网时代多模态数据交融带来的数据存储与治理的简单需要，充沛开掘数据价值，赋能行业数字化转型降级。目前，已为工业物联网、数字能源、车联网、智慧产业等疾速倒退重要畛域提供数字化赋能。 KaiwuDB 示意，将来将持续秉持初心，积攒先进技术及丰盛实践经验，与更简单、更多元的数字化场景需要相交融，继续打磨产品，优化性能，为广大客户提供更为优质的产品与服务体验。同时，作为中国数据库产业高速倒退的参与者与见证者，KaiwuDB也将积极参与产业钻研、生态共创，为行业培养更多专业人才，为促成中国数据库产业衰弱可继续倒退添砖加瓦，共筑数字经济可信底座。

关于数据库:CSDN-逃离计划-tds协议解析-1

什么是TDSTDS数据库是一个比拟少见的数据库类型。TDS指的是Tabular Data Stream，这是一种微软SQL Server应用的协定，实现了在SQL Server和客户端之间的数据交换。TDS也能够称为SQL Server的网络协议，因而TDS数据库也就是应用了TDS网络协议进行数据交换的数据库。 TDS相干材料TDS Protocol Documentation: 这是微软官网提供的TDS协定文档，具体介绍了TDS协定的各个方面，包含报文格式、命令集、数据类型等。官网文档通常是深刻理解一个技术的最佳抉择。OpenTDS: 这是一个开源的TDS协定库，其中蕴含了残缺的TDS协定实现以及各种常见的TDS命令的实现。你能够通过浏览源代码来深刻理解TDS协定的实现细节。FreeTDS: 这是一个用于Unix/Linux零碎的TDS协定库，同样提供了残缺的TDS协定实现，以及各种常见的TDS命令的实现。它的次要利用场景是在Unix/Linux下拜访SQL Server数据库。TDS Protocol: 这是一篇介绍TDS协定的博客文章，其中具体解释了TDS的报文格式和各种命令的含意。只管这篇文章发表于2009年，但它仍然是深刻理解TDS协定的好材料之一。Microsoft SQL Server TDS Protocol Documentation: 这是Michael Aspengren在1993年为Microsoft SQL Server 4.2所写的TDS文档。尽管早已不是最新的版本，然而这份文档详细描述了TDS协定的报文格式和命令定义。 sql server装置微软官网下载地址： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 微软官网针对sql server提供了多种不同的许可版本其中能够收费应用的是 Evaluation (收费，无生产许可，180 天限度)Developer (收费，无生产许可，可用作非生产环境的测试）Express (阉割版本）同时提供Linux版本 windows关上安装包点击装置，抉择根本类型接管软件装置许可抉择装置地位装置装置实现后，装置ssms 从官网下载ssms（数据库管理工具）关上装置关上测试LInux环境装置微软官网提供了linux装置教程，已red had系为例增加软件源sudo curl -o /etc/yum.repos.d/mssql-server.repo https://packages.microsoft.com/config/rhel/8/mssql-server-2022.repo装置( centos 7 中 make gcc，glibc版本低，从新降级须要破费很大的精力，因而搭建新的环境测试，装置部署环境 fedota38 ） sudo yum install -y mssql-server应用残缺门路运行mysql-conf setup sudo /opt/mssql/bin/mssql-conf setup抉择版本抉择语言设置明码设置完明码后，sqlserver 就曾经装置实现了，调用 systemctl status mssql-server能够查看服务状态遇到问题： mssql-server 启动失败，装置过程中呈现了很多问题，比方 fedora 中liblcap版本为2.4.0 而 mssql-server的依赖为2.4.2 ; /opt/mssql/lib中没有libcrypto与libssl的动静库，解决了这些问题后又呈现了配置初始化失败的问题，临时没找到解决办法，因不波及利用，只是搭建测试环境，暂缓解决。 ...

关于数据库:火山引擎DataLeap数据质量解决方案和最佳实践三最佳实践

更多技术交换、求职机会，欢送关注字节跳动数据平台微信公众号，回复【1】进入官网交换群最佳实际后面介绍了DataLeap数据品质平台的一些实现形式，上面为大家介绍一些咱们在数据量和资源这两个方面的最佳实际。表行数信息-优先 HMS 获取外部的离线监控中，表行数的监控占比十分大，可能至多 50% 以上的离线规定都是表行数的监控。对于表行数，之前咱们是通过 Spark，Select Count* 提交作业，对资源的耗费十分大。起初咱们对其做了一些优化。在工作提交的过程中，底层引擎在产出表的过程中将表行数记录写入相应分区信息中，咱们就能够间接从 HMS 分区里间接获取表行数信息，从而防止了 Spark 工作的提交。优化后的成果非常明显，目前对于表行数的监控，HMS 获取行数占比约 90 %，HMS 行数监控均匀运行时长在秒级别。注：这个性能须要推动底层服务配合反对，比方 Spark 须要把保留在本地 metric 外面的信息写入到 HMS 中，其余数据传输零碎也须要反对。离线监控优化这一块是基于 Griffin 的 Measure 来进行，Measure 自身有丰盛的性能，咱们对其进行了裁剪以节约耗时。次要的裁剪和优化包含：裁剪掉局部异样数据收集性能；优化非必要的 join 流程。另外，咱们也对离线监控的执行参数进行了优化，次要包含：依据不同的监控类型，增加不同的参数 (shuffle to hdfs 等)；依据监控个性，默认参数优化（上调 vcore 等）。举个例子：用户写了 SQL 进行数据的 join，执行引擎能够剖析出执行打算。对于 join 类的操作，shuffle 可能十分大，这种状况下咱们默认会开一些 Spark 参数。依据表行数来预判数据表的大小，如果判断数据表比拟大，会默认微调 vcore 和 memory。以上这些优化都能在肯定水平上晋升性能，目前平台上各类监控的均匀运行时长缩短了 10% 以上。引入 OLAP 引擎平台上很多数据表和业务表（除了日志表以外），在数仓下层的表监控数据量不是很大，这种状况很适宜进行 OLAP 的查问。这种状况下咱们在数据探查场景引入了 presto。之前在该场景下通过 Spark 做探查，引入 presto 之后通过疾速 fail 机制，大数据量、计算简单的探查工作 fallback 到提交 Spark 作业，探查工夫中位数从之前的 7min 缩短到目前的不到 40s，成果十分显著。流式监控反对抽样 & 单 Topic 多 Rule 优化Kafka 数据抽样个别流式数据的问题都是通用性问题，能够通过数据采样发现问题。因而咱们开发了数据采样的性能，缩小数据资源的占比耗费。Flink Kafka Connector 反对抽样，可间接操作 kafka topic 的 offset 来达到抽样的目标。比方，咱们依照 1% 的比例进行抽样，原来上 W 个 partition 的 Topic，咱们只须要 ** 个机器就能够撑持。单 Topic 多 Rule 优化最早的时候咱们是对一个 Topic 定义一个 Rule，而后开启一个 Flink 工作进行生产，执行 Rule。起初咱们发现一些要害的数据须要对多个维度进行监控，也就是要定义多个维度的 Rule，对每一条 Rule 都开工作去生产是十分耗资源的，所以咱们利用监控不是 CPU 密集型作业的个性，复用读取局部，单 slot 中执行多个 Rule，对 Topic 级别进行繁多生产，在一个工作中把相干 Rule 都执行完。将来演进方向本文介绍了Dataleap数据品质平台的实现和最佳实际，最初谈谈平台将来的演进方向。底层引擎对立，流批一体：目前平台的离线工作大部分是基于 Spark 实现的，流式数据采纳了 Flink 解决，OLAP 引擎又引进了 presto，导致这套零碎架构的运维老本比拟高。咱们看到 Flink 目前的 presto 能力和 Flinkbatch 的能力也在一直倒退，因而咱们后续会尝试切一些工作，做到真正意义上的对立引擎。智能：引入算法进行数据驱动。思考引入 ML 办法辅助阈值选取或者智能报警，依据数据等级主动举荐品质规定。举几个例子，比方咱们能够基于时序算法智能的稳定率监控来解决节假日流量顶峰和平时的硬规定阈值的晋升。便捷：OLAP 对性能晋升比较显著，然而目前咱们只用在了数据探查性能上。后续能够将 OLAP 引擎利用于品质检测、数据据探查、数据比照利用与数据开发流程。优化：比方通过繁多 Job，同时运行多个监控，将监控和数据探查联合。咱们当初在尝试将数据品质的规定生成和数据探查做联合，做到所见即所得的数据和规定的对应关系。点击跳转大数据研发治理套件 DataLeap理解更多 ...

关于数据库:MySQL的match函数在sp中使用的BUG解析

一、问题发现在一次开发中在sp中应用MySQL PREPARE当前，应用match AGAINST语句作为prepare stmt的参数后，发现执行第二遍call会导致数据库crash，于是开始入手考察问题产生的起因。注：本次应用的 MySQL 数据库版本为最新的debug版本。SQL语句示例： CREATE TABLE t1 (a INT, b VARCHAR(10));DELIMITER $$CREATE PROCEDURE p1()begin declare a VARCHAR(200); declare b TEXT; set a = 'Only MyISAM tables'; set b ='support collections'; set @bb := match(a,b) AGAINST ('collections'); prepare stmt1 from 'select * from t1 where ?'; execute stmt1 using @bb; end$$DELIMITER ;执行后果：mysql> call p1;ERROR 1210 (HY000): Incorrect arguments to MATCHmysql> call p1; 这里发现代码crash了ERROR 2013 (HY000): Lost connection to MySQL server during query二、问题调查过程1、首先查看谬误堆栈信息，能够看到Item_func_match::val_real函数的item->real_item()->type()不等于FIELD_ITEM引起的，打印堆栈看了一下，此时的item->real_item()为Item_splocal，显著不是FIELD_ITEM。 ...

关于数据库:信息网络安全大会公布7项团体标准

广东省计算机信息网络安全协会联结广东省粤港澳单干促进会主办的大会以“会议+展览”的模式充沛连贯了重点行业、要害信息技术基础设施平安建设信息技术利用翻新工作等场景以及优良平安企业，独特构建了平安、凋谢单干有序的大湾区网络安全生态圈。https://www.ipdatacloud.com/?utm-source=Lik&utm-keyword=?1059 在大会上，公布了7项个人规范包含《医疗机构网络安全事件应急处理标准》《衰弱医疗数据合规流通规范》《网络安全服务责任及损失评估规范》《医疗机构信息系统等级爱护定级工作指南》《SIM卡利用明码利用技术规范》《信息安全技术互联网利用系统安全能力成熟度模型》《信息安全技术，互联网利用系统安全成熟度模型》其中，《SIM卡利用明码利用技术规范》是中移互联提出的新平安解决方案，用于挪动利用场景下的身份认证。中移互联副总经理庄仁峰介绍说，他们推出了一种新一代SIM卡它是国产明码算法在挪动端的密钥平安载体。相比传统的云证书和软证书，这种超级SIM卡更平安比传统的U盾更便携易用。在主题演讲中，中国科学院院士郑建华指出网络安全曾经倒退到设施与设施的攻防阶段。随着网络化和数字化的深刻倒退，不仅影响到网络安全和数据安全还对设施设施和人身安全产生了影响例如近程医疗和植入式医疗系统面临着新的平安危险。中国工程院院士沈昌祥在《可信计算筑牢网络强国底座》的主题分享中示意，应优先洽购和全面应用平安可信的产品和服务以构建要害信息基础设施的平安保障体系。中国科学院院士王小云认为，明码技术对区块链的倒退起到撑持作用区块链技术能够保障大数据的平安并进行数据治理。区块链是一项变革性技术，不仅实用于链上数据也为群体工作模式带来了新的思路。

关于数据库:实践教程之如何使用-PolarDBX-进行数据导入导出

PolarDB-X 为了不便用户体验，提供了收费的试验环境，您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验，PolarDB-X 也提供收费的视频课程，手把手教你玩转 PolarDB-X 分布式数据库。本期试验将领导您如何应用PolarDB-X进行数据导入导出本期收费试验地址本期教学视频地址前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署，应用PolarDB-X Operator装置PolarDB-X，并且能够胜利链接上PolarDB-X数据库。 PolarDB-X导入导出形式汇总PolarDB-X常见的数据导出办法有： mysql -e命令行导出数据mysqldump工具导出数据select into outfile语句导出数据（默认敞开）Batch Tool工具导出数据（PolarDB-X配套的导入导出工具）PolarDB-X常见的数据导入办法有： source语句导入数据MySQL命令导入数据程序导入数据load data语句导入数据Batch Tool工具导入数据（PolarDB-X配套的导入导出工具）初始数据筹备1.倡议分屏，两个终端操作。单击右上角的分屏图标，创立两个终端，不便别离进行登录数据库和执行命令操作。阐明： a. k8s的操作即kubectl命令都须要在galaxykube用户下才可进行； b. 登录数据库和其它执行命令可在root或galaxykube用户下进行操作，留神文件门路就行。 2.执行如下命令，装置sysbench。curl -s https://packagecloud.io/install/repositories/akopytov/sysbench/script.rpm.sh | sudo bash sudo yum -y install sysbench阐明：可通过sysbench --help查看是否装置胜利。 3.执行如下命令，登陆数据库。应用连贯mysql -hip -Pport -uuser -ppassword -Ac登录PolarDB-X。 mysql -h127.0.0.1 -P3306 -upolardbx_root -p123456 -Ac4.执行如下命令，创立数据库。create database sysbench_int;5.通过sysbench导入初始数据。5.1 首先执行exit登出数据库。5.2 执行如下命令，通过sysbench导入初始数据。sysbench oltp_insert --mysql-host=127.0.0.1 --mysql-port=3306 --mysql-user=polardbx_root --mysql-password=123456 --mysql-db=sysbench_int --db-driver=mysql --tables=1 --table-size=100000 --report-interval=1 prepare6.将sysbench默认建出的单库单表改为分库分表模式。6.1 执行如下命令，应用连贯mysql -hip -Pport -uuser -ppassword -Ac登录PolarDB-X。mysql -h127.0.0.1 -P3306 -upolardbx_root -p123456 -Ac6.2 执行如下命令，先将原表改名。use sysbench_int;ALTER TABLE sbtest1 RENAME TO sbtest1_single;6.3 执行如下命令，手动创立分库分表。CREATE TABLE `sbtest1` ( `id` int(11) NOT NULL AUTO_INCREMENT BY GROUP, `k` int(11) NOT NULL DEFAULT '0', `c` char(120) NOT NULL DEFAULT '', `pad` char(60) NOT NULL DEFAULT '', PRIMARY KEY (`id`)) dbpartition by hash(`id`) tbpartition by hash(`id`) tbpartitions 2;6.4 执行如下命令，通过insert select执行到新的表中.INSERT INTO sbtest1 SELECT * FROM sbtest1_single;6.5 执行如下命令，可查看初始数据信息。show create table sbtest1;select min(id),max(id),count(id) from sbtest1;select * from sbtest1 limit 10;纯数据格式进行导入导出1.先执行exit登出数据库。2.通过mysql -e命令导出数据。2.1 执行如下命令，通过mysql -e命令从PolarDB-X导出数据。time mysql -h127.0.0.1 -P3306 -upolardbx_root -p123456 sysbench_int -N -e "SELECT id,k,c,pad FROM sbtest1;" > data_10w.txttime mysql -h127.0.0.1 -P3306 -upolardbx_root -p123456 sysbench_int -N -e "SELECT id,k,c,pad FROM sbtest1;" | sed 's/\t/,/g' >data_10w.csv2.2 执行如下命令，查看文件大小。ll -h wc -l data_10w.txt2.3 执行如下命令，查看数据格式。head -10 data_10w.txt3.通过LoadData语句导入数据3.1 执行如下命令，登录PolarDB-X。阐明：需加-local-infile 参数，能力执行LoadData语句。 ...