数据库 | 乐趣区

关于数据库:IP地址定位精度

随着互联网的倒退，ip地址定位的利用变得十分宽泛。然而很多人会对其精度具备疑难，上面对于ip地址的精度进行介绍。IP定位精度IP定位精度，是在定位胜利的前提下，对定位后果定位精度级别的形容，有6个级别，别离是洲、国家、省、市、区和街道。IP地址天文定位的精度个别为市级，最多可达到街道级。例如，对一个IP而言，若该IP的定位后果为北京市东城区东长安街，则该IP的精度为街道级；若该IP的定位后果仅显示北京市，则该IP的精度则为市级。进步IP地址定位精度的办法从技术的角度上讲，要实现超高精准度IP定位，是不容易实现的。因为IP地理位置定位技术基于多种形式组合而成，采纳将数据挖掘与网络测量相结合的总体模型，先划分IP地址利用场景，再进行IP地址定位技术架构的搭建，利用动静IP地址多区域定位算法，解决基准点数据利用率低的问题，能力造成街道级IP地理位置定位，这个过程非常复杂。当然，如果的确想进步IP定位的精准度，能够针对不同利用场景下的有基准点的IP（例如企业和住宅），通过利用动静密度聚类算法，实现高精准IP地址定位。

关于数据库:实践教程之如何对-PolarDBX-进行备份恢复

PolarDB-X 为了不便用户体验，提供了收费的试验环境，您能够在试验环境里体验 PolarDB-X 的装置部署和各种内核个性。除了收费的试验，PolarDB-X 也提供收费的视频课程，手把手教你玩转 PolarDB-X 分布式数据库。本期试验将领导您如何对PolarDB-X进行备份复原。本期收费试验地址本期教学视频地址前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署，应用PolarDB-X Operator装置PolarDB-X，并且能够胜利链接上PolarDB-X数据库。启动转账业务本步骤将领导您如何应用账户转账场景模仿业务流量。 1.执行如下命令，创立 transfer.yaml vim transfer.yaml2.按i键进入编辑模式，将如下代码复制到文件中，而后按ECS退出编辑模式，输出:wq后按下Enter键保留并退出。 ---apiVersion: v1kind: ConfigMapmetadata: name: transfer-test-polardbx-configdata: config.toml: | row_count = 100 initial_balance = 1000 verbose = true enable_cts = false for_polarx = true [transfer_simple] enabled = true threads = 1 [read_latest] enabled = false threads = 1---apiVersion: batch/v1kind: Jobmetadata: name: transfer-test-polardbxspec: backoffLimit: 4 template: spec: restartPolicy: Never volumes: - name: config-toml configMap: name: transfer-test-polardbx-config items: - key: config.toml path: config.toml initContainers: - name: database-init image: mysql:5.7 env: - name: USER value: polardbx_root - name: PASSWD valueFrom: secretKeyRef: name: polardb-x key: polardbx_root command: - mysql args: - -h$(POLARDB_X_SERVICE_HOST) - -P$(POLARDB_X_SERVICE_PORT) - -u$(USER) - -p$(PASSWD) - -e - drop database if exists transfer_test; create database transfer_test character set utf8; - name: data-init image: polardbx/transfer-test:latest env: - name: USER value: polardbx_root - name: PASSWD valueFrom: secretKeyRef: name: polardb-x key: polardbx_root volumeMounts: - mountPath: /config.toml name: config-toml subPath: config.toml readOnly: true command: [ "/transfer" ] args: - prepare - -config=/config.toml - -dsn=$(USER):$(PASSWD)@tcp($(POLARDB_X_SERVICE_HOST):$(POLARDB_X_SERVICE_PORT))/transfer_test containers: - name: test image: polardbx/transfer-test env: - name: USER value: polardbx_root - name: PASSWD valueFrom: secretKeyRef: name: polardb-x key: polardbx_root volumeMounts: - mountPath: /config.toml name: config-toml subPath: config.toml readOnly: true command: [ "/transfer" ] args: - run - -config=/config.toml - -dsn=$(USER):$(PASSWD)@tcp($(POLARDB_X_SERVICE_HOST):$(POLARDB_X_SERVICE_PORT))/transfer_test---3.执行如下命令，开启转账业务流量。 ...

关于数据库:白鲸开源贡献-Apache-SeaTunnel-Web-界面

近日，白鲸开源抉择在 Apache Seatunnel 周会中发表把 Web 界面奉献到社区，并制作了短视频简略介绍此次奉献将提供的性能，视频如下： https://weixin.qq.com/sph/AGudgd 接下来我带大家理解一下有那些性能。首先演示一下：同步工作定义，能够在这里对须要的工作进行创立于治理。通过画布能够十分直观地观测到当前任务的状态，同时能够检查和批改参数配置，也可疾速地查看表构造。同步工作实例，能够看到离线或实时的状态状况。更多对于 SeaTunnel Web 界面的信息，咱们将会在 SeaTunnel 正式版本公布时具体进行介绍，敬请期待！本文由白鲸开源科技提供公布反对！

关于数据库:3-分钟部署-SeaTunnel-Zeta-单节点-Standalone-模式环境

部署环境（MacOS/Linux）1.装置JDK环境目前SeaTunnel反对运行在JDK8及以上的环境。用户须要自行装置JDK环境。 2.下载安装包目前SeaTunnel的最新版本是2.3.1版本。这里咱们装置部署2.3.1版本，如果你须要下载其它版本，能够从https://seatunnel.apache.org/download中查问对应的版本。 mkdir ~/seatunnelcd ~/seatunnelwget https://dlcdn.apache.org/incubator/seatunnel/2.3.1/apache-seatunnel-incubating-2.3.1-bin.tar.gztar -zxvf apache-seatunnel-incubating-2.3.1-bin.tar.gz3.抉择须要的插件 SeaTunnel的安装包中默认不蕴含同步数据须要的连接器插件，用户须要先编辑config目录下的plugin_config文件，这个文件中形容了须要下载和装置的连接器插件，默认所有曾经反对的连接器插件都会下载和装置。咱们能够批改该文件，删除咱们不须要的插件，只保留咱们须要的插件。 cd ~/seatunnel/apache-seatunnel-incubating-2.3.1vi config/plugin_config 而后批改内容，本次我只须要JDBC，MySQL CDC，StarRocks ，Assert，Fake，Console这6个连接器，其它的删除，最终文件内容如下： --connectors-v2--connector-assertconnector-cdc-mysqlconnector-jdbcconnector-starrocksconnector-fakeconnector-console--end--4.运行下载安装命令上面咱们运行连接器下载安装命令，留神，这一步依赖你的机器上曾经装置部署了Maven并且机器能够连贯互联网，你能够通过如下命令确认是否装置了Maven： mvn如果显示如下信息，阐明Maven环境曾经装置部署好了，如果呈现问题报错，请先装置部署或修复Maven的问题再进行上面的部署。 Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)Maven home: /Users/gaojun/app/apache-maven-3.6.3Java version: 1.8.0_181, vendor: Oracle Corporation, runtime: /Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/jreDefault locale: zh_CN, platform encoding: UTF-8OS name: "mac os x", version: "10.16", arch: "x86_64", family: "mac"运行下载安装连接器插件的命令： cd ~/seatunnel/apache-seatunnel-incubating-2.3.1sh bin/install-plugin.sh 期待命令执行实现，连接器插件即下载安装实现。装置实现后可见~/seatunnel/apache-seatunnel-incubation-2.3.1/connectors/seatunnel/目录下曾经有了装置好的连接器插件。 5.启动一个单节点的SeaTunnel Zeta节点 cd ~/seatunnel/apache-seatunnel-incubating-2.3.1nohup sh bin/seatunnel-cluster.sh 2>&1 &通过jps命令咱们能查看过程是否曾经启动，过程名为SeaTunnelServer jps6.运行自带的离线批同步demo工作在config目录下有一个自带的离线批同步工作的配置文件v2.batch.config.template，该文件定义了一个作业，应用一个叫FakeSource的Source连接器生成数据，并将数据发送给Console这个Sink，Console Sink的作用是将接管到的数据打印到控制台。所以运行该作业能够看到在控制台中会打印数据，一共有32行数据将被打印，每条数据有两个字段(name, age)。v2.batch.config.template文件的内容如下: env { # You can set SeaTunnel environment configuration here execution.parallelism = 2 job.mode = "BATCH" checkpoint.interval = 10000 #execution.checkpoint.interval = 10000 #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"}source { # This is a example source plugin **only for test and demonstrate the feature source plugin** FakeSource { parallelism = 2 result_table_name = "fake" row.num = 16 schema = { fields { name = "string" age = "int" } } } # If you would like to get more information about how to configure Seatunnel and see full list of source plugins, # please go to https://seatunnel.apache.org/docs/category/source-v2}sink { Console { } # If you would like to get more information about how to configure Seatunnel and see full list of sink plugins, # please go to https://seatunnel.apache.org/docs/category/sink-v2}执行该demo作业： ...

关于数据库:OpenMLDB-v080-发布

公布日期2023 年 5 月 12 日 Release notehttps://github.com/4paradigm/OpenMLDB/releases/tag/v0.8.0 Highlights减少了从在线数据库到离线存储的主动同步工具。基于该工具，用户能够实现自动化的离在线数据源同步，免去了以前版本的手动同步机制搭建。应用形式参考产品文档：https://openmldb.ai/docs/zh/main/deploy/online_offline_sync.html 。咱们将会在近期推出技术博客，具体介绍该技术的架构和应用场景。减少了反对 Kubernetes 作为离线引擎的后端。在以前版本中，咱们仅反对基于 Yarn 集群运行离线工作，不少用户反馈心愿也能够在 Kubernetes 集群上运行离线引擎，因而在本版本中咱们引入了对于 Kubernetes 运行离线引擎的反对。应用形式参考产品文档 https://openmldb.ai/docs/zh/main/deploy/offline_integrate_kub...反对 Amazon S3 作为离线数据源。为了更好的反对基于 Amazon S3 云上存储的用户，本版本整合了对于 Amazon S3 的反对。应用形式参考产品文档 https://openmldb.ai/docs/zh/v0.8/integration/offline_data_sou...其余重要改良包含：减少了一系列的新的计算函数，包含 var_samp, var_pop, entropy, earth_distance, nth_value_where 和 add_monthsLAST JOIN 反对和 WHERE 以及 WINDOW UNION 子句一起应用round 函数加强，反对第二个可选参数，用于指定返回的小数位数SQL 上线部署反对新参数 SKIP_INDEX_CHECK，用于指定疏忽索引类型校验（在某些非凡场景下应用）。desc $table 命令后果展现加强，对于软拷贝能够展现链接信息若干重要 bugfix

关于数据库:未来源码Dart-3正式发布100健全的空值安全迄今为止最大版本

举荐语：自从 Flutter Forword 公布了 Dart 3 预览之后，大家对 Dart 3 的正式公布就始终翘首以待，这不仅仅是 Dart 版本号追上了 Flutter 版本号，更是 Dart 在 2.0 之后迎来的最大一次更新。Dart 3将只反对健全的Null平安，这意味着以前没有健全的Null平安的运行形式将不再被反对。对于 Flutter 开发者来说，Flutter 3.10 和 Dart 3.0 能够说是新的分水岭，更多具体介绍可见下方注释。 ——MobTech袤博科技根底技术平台iOS高级研发工程师张无忌 Dart 3 现已公布，这是迄今为止最大的 Dart 版本，蕴含了三个次要改良：实现了 100% 健全的空值平安；增加了记录、模式和类修饰符的新语言个性；以及对将来进行了预览，即通过 Wasm 编译扩充了对 Web 原生代码的平台反对。 100% 健全的空值平安 Dart 3 曾经成为了一种 100% 健全的空值平安语言。 100% 的空值安全性为 Dart 带来了健全的类型零碎。你能够置信，如果一个类型说一个值不是 null，那么它永远不可能是 null。这防止了某些类别的编码谬误，例如空指针异样。它还容许编译器和运行时以没有空安全性无奈实现的形式优化代码。尽管这种设计会使得迁徙变得有点艰难，但开发团队认为，他们为 Dart 做出了正确的抉择。空值援用能够追溯到 1964 年左右，过后英国计算机科学家 Tony Hoare 在 ALGOL 语言中引入了这个概念。但他本人却把空值援用称为本人的十亿美元谬误，因为它导致了数不清的谬误、破绽和零碎解体，可能在之后 40 年中造成了十亿美元的损失。预计绝大多数已迁徙到 null safety 的包和应用程序都能够与 Dart 3 一起应用。在多数状况下，Dart 3 中的大量相干清理可能会影响某些代码。一些旧的外围库 API 已被删除（#34233、#49529）并且一些工具已被调整（#50707）。 ...

关于数据库:大数据拥抱云原生-HashData助力资管数字化转型

5月16日，2023国内资管科技创业者与投资者大会“资管数据处理（大模型）技术”专场在上海举办。本次大会以“资产治理数智技术”为主题，邀请企业、高校、投资机构等各方发展产业交换与探讨，共享共创行业时机。酷克数据作为国内云原生数据仓库领军企业受邀参会，副总裁魏一在会上分享了大数据与资管行业联合的新思维、新技术、新实际。魏一示意，对于资管行业数据起源丰盛、非结构化数据占比高、机构散布广的特点，HashData云数仓是最匹配的数据分析平台计划。基于云原生架构，通过“存算拆散”和“湖仓一体”的成熟落地实际，HashData可能打消“数据孤岛”，交融内外数据源，灵便治理与剖析非构造数据，实现数据全局共享与高效拜访，为资管公司提供跨地区、跨部门的数据资源管理、弹性供应、多地多活部署能力，赋能资管公司充沛开释数据资源价值，取得倒退先机。大数据时代金融业数据管理的时机与挑战数据仓库是金融业的重要基础设施，在数据价值开掘过程中施展着至关重要的作用。魏一示意，金融行业信息与数据密集，对数据仓库要求极为严苛。以往，金融行业通常应用存算一体的MPP产品来建设数据仓库。然而，随着金融科技的推动和数据量的激增，高并发、海量数据、超高峰值等挑战接踵而至，导致数据资源存储、计算和利用等需要大幅晋升。近年来，金融行业面临线上化、无纸化、场景化的数字化改革，利用场景简单，数据规模日趋宏大，传统数仓无奈应答业务潮汐带来的弹性扩大，不能满足千万查问次数/天和百万表级复杂度查问。同时，传统数仓短少多AZ部署、跨站点容灾计划，已成为金融企业数字化转型过程中的掣肘。面对传统数据仓库带来的挑战，很多咨询机构都提出了多元化、混合架构的思路，技术上引入了纯软的MPP数据库和Hadoop。但随着金融业务负载越来越简单，需要越来越多，多元化平台无奈实现高并发、负载无奈隔离等缺点愈发凸显，难以满足弹性、高并发、高牢靠要求，同时还存在业务体验稳定、数据整合有余、数据撑持不佳、运维治理简单等毛病。魏一指出，大数据+云计算时代，金融行业亟需既能适应业务弹性变动、又能提供良好剖析体验的下一代数仓平台，为金融企业翻新倒退提供技术撑持。魏一认为，古代金融企业数据分析平台要具备多状态数据管理能力、多样化剖析计算能力和多维度的弹性伸缩能力，同时可能兼容结构化、半结构化、非结构化等不同状态、不同时效性的数据，进行多样化的计算和剖析，并依据业务需要变动进行弹性伸缩。云计算技术能够很好解决上述这些需要，国内外支流的私有云厂商也都推出了基于云原生架构的数据库产品。同时，Snowflake、Databricks等独立软件厂商也推出存算拆散、湖仓一体架构的产品。云原生数仓自诞生以来，迅速倒退成为行业支流趋势。多家市场调研机构公布的报告显示，云原生数据仓库的市场份额将超过传统数据仓库。Gartner预计，将来寰球75%的数据库都会运行在云端。 HashData助力金融行业提质增效以后，数字经济已成为我国经济倒退的重要引擎。对于金融机构而言，数据也成为贯通金融行业数字化转型的外围资源。随着金融信息化向数字化跃迁，数据库的撑持能力在肯定水平上决定着金融机构数字化转型中的成败。与传统MPP架构的数据库相比，云原生数据仓库对晋升企业数据分析的效率成效显著。独立征询公司Forresters对四家应用Snowflake的企业考察显示，三年工夫累计发明的价值超过2100万美金，ROI折合达到612%。其中，节约数据经营老本211万美金，节约数据库和基础设施经营老本595万美金。同时，Snowflake 可能大幅缩短计算工夫，进步利润，依据数据提供更好的决策。 HashData作为国内最早专一于云原生数仓研发的独立软件厂商，自2016年创建起就始终践行“云原生”理念，致力于打造世界一流的云原生数据仓库。 HashData云数仓采纳以Snowflake、Databricks和Google BigQuery为代表的业界当先的云原生大数据系统设计理念，围绕着对象存储和形象服务构建，通过元数据、计算和存储三者拆散，多集群共享对立数据存储层的架构，最大限度施展云计算劣势，利用云平台的弹性+分布式的特点，实现疾速部署、按需伸缩、不停机交付等，大幅升高企业进行大数据分析的门槛。作为企业级云原生数据仓库，HashData通过翻新的存储、计算、服务、应用层架构设计，提供了传统解决方案无法比拟的高并发、弹性、易用性、高可用性、高性能和扩展性，实现了云原生、利用松耦合、湖仓一体、近乎“零运维”等特点，能满足客户高平安、高牢靠、高扩大、智能化全方位需要，为金融机构提供性能全⾯、稳固牢靠、扩展性强以及性能优越的企业级数据库服务。多年来，HashData继续深耕金融外围场景，积攒下丰盛的实践经验。目前，HashData已在多家国有大型银行、股份制银行、头部券商等机构实现大规模商用落地，并撑持了寰球最大规模的金融行业单客户集群。以恒丰银行为例，通过引入HashData云数仓构建的“恒心零碎”，胜利解决了前几代产品资源节约、扩展性差、并发反对小、无奈疾速扩缩容、数据孤岛、数据冗余、运维工作量大等问题。相比旧零碎，恒心零碎实现了多方面的能力晋升，外围解决能力晋升6.38倍，卡业务交易每秒解决能力晋升23.8倍，线上领取业务交易每秒解决能力晋升17.7倍。同时，“恒心零碎”在满足行内布局新型数仓撑持利用计算服务需要的同时，节俭了30%左右的服务器老本。魏一示意，将来，HashData将继续构建全面的金融数字化能力，通过深刻企业业务场景的计划及服务能力，筑牢金融转型与翻新倒退的“数字底座”，推动金融数字化策略落地，助力上海建设金融科技核心和寰球资产管理中心。

关于数据库:MySQL触发器Trigger加载以及目前局限

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：亮文章起源：GreatSQL社区原创概念介绍首先须要晓得MySQL中触发器特点，以及表table相干触发器加载形式 MySQL中单个trigger仅反对单事件触发即单个触发器不反对相似insert or update等多事件语法操作，如果须要多事件都能被同一个表触发，只能别离建设多个对应trigger。触发器加载首先须要加载触发器分组列表Trigger_chain，后续再将具体触发器增加到Trigger_chain内。表table属性内可蕴含多个触发器分组列表Trigger_chain，Trigger_chain用于加载不同类别的触发器，次要类别有insert、update或delete类型。触发器分组列表Trigger_chain内m_triggers又可加载多个具体属于该分组的具体触发器。触发器分组列表Trigger_chain加载过程1.当关上表table时通过如下函数过程加载触发器分组列表Trigger_chain函数open_tables->open_and_process_table->handle_table->add_tables_and_routines_for_triggers2.跟踪add_tables_and_routines_for_triggers函数内参数定义查看TRG_EVENT_MAX定义enum enum_trigger_event_type {TRG_EVENT_INSERT = 0,TRG_EVENT_UPDATE = 1,TRG_EVENT_DELETE = 2,TRG_EVENT_MAX};查看TRG_ACTION_MAX定义enum enum_trigger_action_time_type {TRG_ACTION_BEFORE = 0,TRG_ACTION_AFTER = 1,TRG_ACTION_MAX};查看函数get_triggers内可知触发器加载存储形式是二维数组m_trigger_map内/// Triggers grouped by event, action_time.Trigger_chain *m_trigger_map[TRG_EVENT_MAX] [TRG_ACTION_MAX];综合TRG_EVENT_MAX和TRG_ACTION_MAX以及m_trigger_map能够看出目前MySQL触发器加载设计形式存在肯定的弊病，即TRG_EVENT分组只能按insert、update、delete辨别，单次触发事件只能触发执行对应分组内的触发器，对于须要扩大单触发器同时反对多事件的形式如：insert or update 、update or delete 等形式将须要较大的革新。触发器分组列表Trigger_chain增加具体触发器trigger过程1.关上过的table其触发器通过如下函数过程加载函数open_tables->open_table_entry_fini->check_n_load2.具体加载过程通过函数 check_n_load内调用load_triggers函数从磁盘加载曾经建好的触发器t。而后调用create_trigger_chain函数获取到后期曾经加载的触发器分组列表Trigger_chain。最初触发器分组列表Trigger_chain调用add_trigger增加具体触发器t至分组列表内。当指标表table有insert、update或delete操作时，即会触发执行对应分组列表Trigger_chain内相应分组的触发器。阐明：MySQL在新增和删除触发器的操作时都会敞开以后曾经关上的table句柄，在下次关上table时会从新load相应的trigger。 Enjoy GreatSQL :) ## 对于 GreatSQL GreatSQL是由万里数据库保护的MySQL分支，专一于晋升MGR可靠性及性能，反对InnoDB并行查问个性，是实用于金融级利用的MySQL分支版本。相干链接： GreatSQL社区 Gitee GitHub Bilibili GreatSQL社区：社区博客有奖征稿详情：https://greatsql.cn/thread-100-1-1.html 技术交换群：微信：扫码增加GreatSQL社区助手微信好友，发送验证信息加群。

关于数据库:TiKV-新架构Partitioned-Raft-KV-原理解析

作者：徐奇 TiKV 推出了名为“partitioned-raft-kv”的新试验性功能，该性能采纳一种新的架构，不仅能够显著进步 TiDB 的可扩展性，还能晋升 TiDB 的写吞吐量和性能稳定性。在上一篇文章中，咱们介绍了 Partitioned Raft KV 这一新试验个性带来的性能和可伸缩性大幅晋升。本文咱们将为大家介绍为什么它能够有如此大的劣势。架构以下是 TiKV 的架构。图 1 TiKV 架构 —— 逻辑数据分区一个 TiKV 集群由许多数据分区（也称为 Region）组成。每个 Region 负责特定的数据片段，由其起始和完结键范畴决定。它在不同的 TiKV 节点上领有 3 个或更多的正本，并通过 raft 协定进行同步。在旧的 raft 引擎中，每个 TiKV 中只有一个 RocksDB 实例用于存储所有 Region 的数据。partitioned-raft-KV 个性引入了一个新的物理数据布局：每个 Region 都有本人的 RocksDB 实例。图 2：物理数据布局比拟旧 Raft KV 引擎面临的挑战"Region" 是 TiKV 中的逻辑规模单元。每个数据拜访和治理操作，如负载平衡、扩大和放大都由 Region 进行分区。然而，在以后架构中，它是一个纯逻辑概念，物理上没有清晰的区域边界。这意味着：当须要将一个 Region 的数据从一个 TiKV 挪动到另一个 TiKV（也称为负载平衡）时，TiKV 须要在微小的 RocksDB 实例中进行扫描以获取该 Region 的数据。这造成了读扩充。当几个 Region 具备大量的写流量时，如果它们的键范畴扩散，那么很可能会触发 RocksDB 中的大型压缩，其中包含其余闲暇 Region 的数据。这引入了读和写扩充。例如，SST11 是一个 1MB 大小的 SST，只有 region1 的数据，但蕴含相当大的键范畴。当它被选中合并到 L2 时，SST21、SST22 和 SST23 都参加了压缩，它们蕴含了 region2、3、4 的数据。TiKV 的规模越大，读写扩充越大。 ...

关于数据库:秒级数据写入毫秒查询响应天眼查基于-Apache-Doris-构建统一实时数仓

导读：随着天眼查近年来对产品的继续深耕和迭代，用户数量也在一直攀升，业务的冲破更加依赖于数据赋能，精细化的用户/客户经营也成为晋升体验、促成生产的重要能源。在这样的背景下正式引入 Apache Doris 对数仓架构进行降级革新，实现了数据门户的对立，大大缩短了数据处理链路，数据导入速率晋升 75 %，500 万及以下人群圈选能够实现毫秒级响应，播种了公司外部数据部门、业务方的统一好评。作者：王涛，天眼查实时计算负责人业务需要天眼查的数据仓库次要服务于三个业务场景，每个场景都有其特点和需要，具体如下：亿级用户人群圈选：人群圈选场景中目前有 100+ 人群包，咱们须要依据 SQL 条件圈选人群包，来反对人群包的交并差、人群包实时圈选和人群包更新告诉上游等需要。例如：圈选出下单未领取超过 5 分钟的用户，咱们通过用户标签能够直观把握用户领取状态，为经营 & 营销团队提供更精细化的人群治理服务，从而进步转化率。多元流动撑持的精准营销：该场景目前反对了 1000 多个指标，可反对即席查问，依据流动成果及时调整经营策略。例如在“动工季”流动中，须要为数据分析 & 经营团队提供数据反对，从而生成可视化的流动驾驶舱。高并发的 C 端剖析数据：该场景承载了 3 亿+实体（多种维度）的数据体量，同时要求实时更新，以供用户进行数据分析。原有架构及痛点为满足各业务场景提出的需要，咱们开始搭建第一代数据仓库，即原有数仓：在原有数仓架构中， Hive 作为数据计算层，MySQL、ES、PG 作为数据存储层，咱们简略介绍一下架构的运行原理：数据源层和数据接入层： MySQL 通过 Canal 将 BinLog 接入 Kafka、埋点日志通过 Flume 接入 Kafka，最初由 DataX 把 Kafka 中的数据接入数据计算层 Hive 中；数据计算层：该层应用 Hive 中的传统的数仓模型，并利用海豚调度使数据通过 ODS -> DWD -> DWS 分层，最初通过 DataX 将 T+1 把数据导入到数据存储层的 MySQL 和 ES 中。数据存储层： MySQL 次要为 DataBank、Tableau、C 端提供剖析数据，ES 用于存储用户画像数据，PG 用于人群包的存储（PG 装置的插件具备 Bitmap 交并差性能），ES、PG 两者均服务于 DMP人群圈选零碎。问题与挑战： ...

关于数据库:2023年5月中国数据库排行榜OTO组合回归育新机华为高斯蓄势待发展雄心

路漫漫其修远兮，吾将上下而求索。 2023年5月的墨天轮中国数据库风行度排行炽热出炉，本月共有262个数据库参加排名。本月排行榜前十变动较大，能够用一句话概括为：openGauss 立足翻新夺探花；华为云GaussDB 云上之争成赢家；其余数据库自暴自弃居原位。从2023年5月起，排行榜月度解读文章新增「专家观点」板块，每期邀请一位 CIO、CTO、技术总监以及零碎架构师等数据库畛域的资深人士，对中国数据库排行榜排名整体变动以及行业趋势做出前瞻性剖析。首期墨天轮邀请到白鳝（徐戟）解读本期排行榜。图1：2023年5月排行榜TOP10得分详情表一、风起云涌前十强在本月排行榜前十强中，华为旗下两款产品 openGauss、GaussDB 保持翻新，排名有所回升。排行榜前三中 OceanBase 与 TiDB 之间的分数差距放大至37.02分，前三之争日趋激烈。接下来具体看看排行榜前十名的得分以及排名状况。 OceanBase 本月得分691.15分，间断问鼎榜首半年，上月新增一篇论文。其保持技术创新为先，OceanBase 4.0 入选2023数字中国建设峰会“十大硬核科技”、ICDE 2023收录 OceanBase 研究成果，这些荣誉都进一步表明 OceanBase 在数据库技术上的当先性。以654.13分位居榜眼之位的 TiDB，在生态建设和产品迭代上稳步向前，本月进一步放大与榜首之间的分差。上月，PingCAP 发表 TiDB 认证考试推出日语版，认证考试的多语种化将为其带来更多的潜在用户。此外，作为 TiDB 7 系列首个 DMR 版本，TiDB 7.0 的正式公布能帮忙用户通过可靠性能和简化数据库操作来疾速响应业务需要，并晋升开发人员和 IT 运维人员的生产力。反超达梦重回榜单第三的 openGauss 本月得分574.22分，与榜单第四名的分差迅速拉大至81.3分。自上月被达梦赶超后，其本月重视新闻宣发，重归往年3月排行榜劣势位置。openGauss 继续打造中国数据库根社区，成绩显著。上月由中国软件行业协会主办的第二届中国国内软件倒退大会在北京召开，openGauss 资源池化技术、多个商业发行版解决方案荣获了多个奖项和荣誉。达梦数据库通过四十余年的技术积淀和自主翻新，本月以492.92分位列榜单第四。达梦踊跃推动产学研用深度联合，上月与中信证券签订策略单干协定，将进一步推动在信息数据化服务、信息系统示范实验室建设等方面的单干，聚合劣势力量。此外，达梦数据库认证体系欠缺，也造就了一批批潜在用户。2023年人大金仓踊跃携手产业链上下游合作伙伴共建生态体系，并获得显著功效，本月以449.32分位列榜单第五。其上月联结深圳15所高校以及中国电信、中国移动、新华三、奇安信等企业，共建“深圳市教育技术信创实验室” ，减速推动教育数字化转型，此举将能造就更多数据库的高精尖人才。华为云GaussDB 本月以441.45分反超阿里云PolarDB，且距榜单第五只有7.87分的差距。 2020年7月20日，GaussDB 数据库业务、组织以及生态上都做了重大的调整。尔后，华为云GaussDB 一路高歌猛进，瞄准金融场景，目前曾经广泛应用于2500+大客户的外围业务中。以389.66分排名第七的 PolarDB 继续深耕云原生数据库畛域。上月PolarDB 以过硬的技术实力频频收到胜利助力搭档降本增效的喜报，且在行业内取得了多项荣誉。赛迪顾问公司举办的第24届IT市场年会中，云原生数据库 PolarDB 凭借业界当先的三层解耦、Serverless 等创新能力，荣获“新一代信息技术翻新产品”奖，该奖项表明其作为业界优质产品的技术先进性和示范带动性。腾讯云TDSQL 始终在深水区实际，助力客户实现数字化转型。其本月以307.26分间断六个月稳居排行榜第八。腾讯云TDSQL 在银行客户的占有率高，前期腾讯云将继续深耕金融畛域，并重点攻坚对数据库依赖较重的行业，像能源、交通行业。腾讯云这一策略的提出及施行，将扩充市场领地，热度也会随之水涨船高。GBase南大通用本月以279分间断三个月位列排行榜第九。上月，GBase南大通用除了播种市场喜报外，还斩获了一些荣誉。南大通用 GBase 8a MPP Cluster 中标人保财险“2022年根底软件产品及服务洽购”千万级我的项目、Gbase 8c 荣获“2022年软件行业典型示范案例”，这一系列动静新闻的宣发也让更多开发者关注南大通用。AnalyticDB 始终走在技术前沿，本月以185.84分间断三个月稳居榜单第十。作为阿里云自研的云原生数据仓库产品，失去了行业宽泛的认可。近日，AnalyticDB 获评2023网信自主翻新“尖锋榜”-优良产品奖，这是业界对其的必定。二、库中强人显身手在本月排行榜十名之后，局部数据库厉兵秣马、奋发图强，获得了肯定的问题。小编仅在此筛选了局部数据库的得分和排名，一起来看看它们的倒退动静。图2：2023年5月排行榜优良数据库得分详情表亚信科技旗下通用型企业级数据库产品 AntDB 以121.4分间断两个月维持榜单第11名。AntDB 数据库从第一代全自研内存数据库，到当初宽泛兼容SQL生态的分布式流式实时数仓，历经15年通信外围业务锻炼，造成了“多、久、快、稳”四大特点。近日，其荣获互联网周刊金i奖“2022年度产品”，并与神州云动、蓝凌软件等多款产品实现兼容互认证。这些音讯的宣发是其能在榜单上维持劣势位置的起因。MogDB 是一款具备 openGauss 成熟的内核基因，而且联合云和恩墨数年间为客户服务的教训而成的产品。本月 MogDB 排名较上月回升3个位次至第13名。自2022年12月起，其排名稳步回升，以迅雷不急自欺欺人之势直奔前十。近日，在2023数字中国翻新大赛·信创赛道全国总决赛颁奖中，云和恩墨的 MogDB 荣获“信创赛道最具发展潜力奖”，还荣获了“信创赛道华北赛区二等奖”，这些荣誉的授予足以证实其实力不容小觑。阿里云工夫序列数据库 Alibaba TSDB 本月排名较上月晋升7个位次。其是一种集时序数据高效读写，压缩存储，实时计算能力为一体的数据库服务，可广泛应用于物联网和互联网畛域，实现对设施及业务服务的实时监控，实时预测告警。Kyligence 由 Apache Kylin 开创团队于 2016 年开办，致力于打造下一代企业级智能多维数据库。其本月排名跃升10个位次至第22名。近日，Kyligence 胜利签约国内头部的运动鞋服零售商滔搏静止 TOP SPORTS，且已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发、医疗等行业客户，其正在蓬勃发展中。拓数派（OpenPie）推出的云原生数据库 PieCloudDB 本月排名急速回升46个位次至第41名，新增1个专利。作为一款云原生eMPP（elastic MPP，弹性大规模并行计算）数据库 PieCloudDB 兼备云原生数据库所特有的即开即用、麻利灵便、安全可靠等劣势，且具备弹性灵便、高性能、稳固成熟等特点，热度迅速回升。Hyperbase 是星环科技自主研发的实时 NoSQL 宽表数据库，反对百万级高并发、毫秒级低延时业务需要。其本月回升13个位次至第84名。其能够在一般便宜服务器集群上高效反对企业的高并发准确查问与范畴查问、流解决利用、全文搜寻以及高并发非结构化数据检索。三、分布式数据库技术发展趋势及利用数据库作为金融信息系统的外围基础设施，无力撑持金融业数字化转型。北京金融科技产业联盟公布的《分布式数据库金融利用倒退报告》中指出，以后的金融外围业务零碎出现由集中式走向分布式的发展趋势，将来分布式的数据库技术的倒退将出现五大发展趋势： ...

关于数据库:什么是IP库如何查询ip归属地

IP库也叫IP地址数据库，是由业余技术人员通过长时间通过多种技术手段收集而来的，并且长期有业余人员进行更新、保护、补充。IP库外面寄存了大量的IP地址，不便用户查问，比方，你晓得了某个IP，就能够查到这个电脑在哪个省那个市哪条街甚至哪个网吧反之，你晓得了一个中央，也能够查看这个中央有哪些IP段。IP地址分为IPV4和IPV6，他们的区别如下：IPV4数据 IP市级库：能够查问到所有国内的IP段，准确到县级市(局部固定IP准确到区县)。IP国家库：能够查问到国内上各个国家的IP段，准确到具体的国家，不能查到更深层的省市。IP省级库(无ISP)：能够查问到国内的IP段，准确到省(有个别数据只能确定是在国内，不能定位到省，含港澳台地区)。IP省级库(含ISP)：在省级IP库的根底上，能够进一步查问到该IP所属的ISP信息(只能查问到省，局部IP的ISP信息无奈确定)。省级定制IP库：能够查问国内某个省份的IP段，准确到地级市。每个省为一个单位，按省销售(能够查问到这些IP的ISP信息)。ISP定制IP库：能够查问某个ISP所辖IP段。每个ISP为一个单位，按ISP销售，不能查到省市信息。国内范畴IP库(大陆地区)：能够查问到所有国内的IP段，不能准确到更深层的省市及ISP信息。不蕴含港澳台地区。IPV6数据1.IPV6地址长度为128比特，地址空间增大了2的9 6次方倍;2.灵便的IP报文头部格局。应用一系列固定格局的扩大头部取代了IPV4中可变长度的选项字段。IPV6中选项局部的呈现形式也有所变动，使路由器能够简略路过选项而不做任何解决，放慢了报文处理速度;3.IPV6简化了报文头部格局，字段只有8个，放慢报文转发，进步了吞吐量;4.进步安全性。身份认证和隐私权是IPV6的要害个性;5.反对更多的服务类型;6.容许协定持续演变，减少新的性能，使之适应将来技术的倒退;最初IP数据云也反对API查问，查问地址：https://www.ipdatacloud.com

关于数据库:网易云商七鱼智能客服自适应-ProtoStuff-数据库缓存实践

需要背景目前，网易云商·七鱼智能客服数据库缓存应用了 spring-data-redis 框架，并由自研的缓存组件进行治理。该组件应用 Jackson 框架对缓存数据进行序列化和反序列化，并将其以明文 JSON 的模式存储在 Redis 中。这种形式存在两个问题：速度慢，CPU占用高在应用服务中，读写缓存数据时须要进行字符串的反序列化和序列化操作，行将对象转换为 JSON 格局再转换为字节数组，然而应用 Jackson 序列化形式的性能并不是最优的。此外，在线上服务剖析中发现，对于缓存命中率较高的利用，在并发略微高一点的状况下，Jackson 序列化会占用较多的 CPU 资源。存储空间大，资源节约对于 Redis 集群来说，JSON 数据占用的存储空间较大，会节约 Redis 存储资源。在对同类序列化框架进行调研后，咱们决定应用 ProtoStuff 代替 Jackson 框架。本文将简要介绍 ProtoStuff 的存储原理，并探讨在替换过程中遇到的一些问题。对于 ProtoStuff什么是 ProtoStuff？ProtoStuff 是一种基于 Google Protocol Buffers（protobuf）协定的序列化和反序列化库，它能够将 Java 对象序列化为二进制数据并进行网络传输或存储，也能够将二进制数据反序列化为 Java 对象。与其余序列化库相比，ProtoStuff 具备更高的性能和更小的序列化大小，因为它应用了基于标记的二进制编码格局，同时防止了 Java 序列化的一些毛病，例如序列化后的数据过大和序列化性能较慢等问题。因而，ProtoStuff 被广泛应用于高性能的分布式系统和大规模数据存储系统中。 Protostuff 的序列化编码算法与 Protobuf 基本相同，都采纳基于 Varint 编码的变长序列化形式，以实现对编码后的字节数组的压缩。此外，Protostuff 还引入了 LinkedBuffer 这种数据结构，通过链表的形式将不间断内存组合起来，从而实现数据的动静扩张，进步存储效率。 Varint 编码是一种可变长度的整数编码方式，用于压缩数字数据，使其更加紧凑。它应用 1 个或多个字节来示意一个整数，其中每个字节的高位都用于批示下一个字节是否属于同一个数。较小的数字应用较少的字节编码，而较大的数字则须要更多的字节编码。这种编码方式被广泛应用于网络传输和存储畛域。LinkedBuffer简略看一下 LinkedBuffer 的源码： public final class LinkedBuffer{ /** * The minimum buffer size for a {@link LinkedBuffer}. */ public static final int MIN_BUFFER_SIZE = 256; /** * The default buffer size for a {@link LinkedBuffer}. */ public static final int DEFAULT_BUFFER_SIZE = 512; final byte[] buffer; final int start; int offset; LinkedBuffer next; }byte[] buffer 是用来存储序列化过程中的字节数组的，默认的大小是 512，最低能够设置成 256。LinkedBuffer next 指向的是下一个节点。start 是开始地位，offset 是偏移量。 ...

关于数据库:阿里云数据库ClickHouse产品和技术解读

摘要：社区ClickHouse的单机引擎性能非常惊艳，然而部署运维ClickHouse集群，以及troubleshoot都不是很好上手。本次分享阿里云数据库ClickHouse产品能力和个性，蕴含同步MySQL库、ODPS库、本地盘及多盘性价比实例以及自建集群上云的迁徙工具。最初介绍阿里云在云原生ClickHouse的停顿状况。在2023云数据库技术沙龙 “MySQL x ClickHouse” 专场上，阿里云数据库ClickHouse技术研发刘扬宽，为大家分享一下《阿里云数据库ClickHouse产品和技术》的一些技术内容。刘扬宽，阿里花名留白，从事数据存储与数据处理系统研发十余年，先后在中科院计算所，中国移动苏州研发核心参加存储系统研发。2019年退出阿里云参加外部产品的存储计算拆散的架构降级。在云原生ClickHouse的研发中，承当存储模块的负责人，依据计算层拜访存储系统的特点，有针对地优化了存储系统，晋升了云原生ClickHouse的整体性能。本文内容依据演讲录音以及PPT整顿而成。首先来说，咱们的ClickHouse是在2019年中旬开源的。尽管开源工夫较晚，但它的回升势头十分迅猛。咱们能够看到在DB-Engine的关系型数据库类目中，ClickHouse排在第28位，相比去年回升了29位。在DB-Engine的趋势图中，红色曲线示意ClickHouse的增长状况。右侧是GitHub上的Star数，能够看到，尽管ClickHouse开源工夫较晚，但相比其余同类型的分布式数据库，其热度排名遥遥领先。让咱们来看看社区版ClickHouse的零碎架构。如后面的嘉宾所介绍，ClickHouse是一个Sharding架构。对于集群版的ClickHouse实例来说，首先须要创立分布式表，并在分布式表上定义Sharding key。数据将被下载到不同的计算节点上，并通过节点正本、复制同步机制来保证数据的高可用性。接下来，让咱们来看看查问的链路。用户在查问数据时，必须应用分布式表，并将查问散发到某个查问节点。查问节点会解析分布式表并找到对应的本地表，确定集群分布式表下载到哪些节点上，并将查问发送到这些节点上。而后，每个节点都会进行本地计算，并将两头后果返回给Push节点。最终，Push节点将所有两头后果进行汇总，并返回给用户。这就是ClickHouse上的分布式查问。 ClickHouse提供了多种表引擎，其中Meterialized MySQL次要应用ReplacingMergeTree进行去重操作，而MergeTree系列是其主打的就是表引擎。此外，其余的聚合表引擎，都是通过后盾合并数据，依据自定义的合并逻辑进行聚合运算，并一直地聚合数据。因为曾经在后盾实现了合并，所以间接查问这些数据的效率更高。在ClickHouse的其余社区生态或数据同步零碎中，创立这些内部表引擎有利于从其余零碎同步数据到ClickHouse。右侧的SQL示例展现了ClickHouse用户须要创立的本地表和分布式表，其中本地表必须蕴含排序键。另外，如果没有指定分区键，它将默认将整个表作为一个分区。用户能够依据某些字段的工夫属性或其余属性，指定数据的生命周期，并告知零碎哪些数据能够挪动到冷存储或删除。包含这个tbl能够作用于某些列，对这些列进行生命周期治理。例如，当数据达到某个确定的状态时，能够对其进行更高级别的压缩。在ClickHouse中，咱们有多个节点的分布式实例，必须定义分布式表，并指定Sharding key。默认的话，就是随机的rand Sharding key。开源的ClickHouse它的高性能以及高可用分布式存储，次要是从这些方面去实现的。首先它的高性能读取，在数据存储时，它会依据排序键有序地存储数据。而后索引是组建的轻索引，它是Block级别的大粒度索引，所以在剖析场景上是比拟适宜的。然而ClickHouse对于点查问来说，它的性能并不是很好。 ClickHouse具备高吞吐量，次要体现在可能反对多点写入，并且倡议用户进行攒批写操作。它采纳LSM树的构造进行写入，数据会被有序地写入到磁盘中，因而写入吞吐量靠近于IO带宽。另外，ClickHouse采纳P2P架构，并反对多种Sharding策略。在示例中，展现了rand任意表达式的一种策略。用户也能够依据业务须要，抉择基于group by或哈希的策略，将不同的数据分布到不同的节点上，有利于进行分布式查问中的join或log ajj操作。此外，ClickHouse反对后盾异步执行的Delete和Update操作。此外，因为ClickHouse采纳了纯列存储的形式，因而具备高压缩比，同时反对多种压缩算法。 ClickHouse实现高可用性的形式是通过设置任意数量的正本。外部数据同步是通过JK协调实现的，正本之间能够进行多点写入和多点查问，这是基于外部复制机制实现的。此外，ClickHouse反对不同数量的正本数，以适应不同Sharding策略的需要。 ClickHouse是专门为OLAP设计的一种存储引擎。它的底层存储格局是基于MergeTree的逻辑二维表，其中每行对应一个或多个数据目录下的PART（数据块）。在data目录下，会有许多索引文件，包含primary key index和其余索引文件。对于每个列，都有一组对应的数据文件（.bin）和数据索引文件（.mrk）。因而，每个数据块（block）的格局如下：命名规定为Part名称、Block ID、MergeLevel和Mutation Version（如果存在）。在读取数据的过程中，零碎会依据主键(private key)的索引(index)，构建对应要读取的mrk文件的偏移量(offset)。接着，依据命中的具体列和该列对应的mrk文件，定位到文件的偏移量(offset)，最终读取指标的数据块（block）。这个数据格式能够在互联网和相干资料中找到一些可供解析的内容参考。这张图能够看出，就是ClickHouse因为这个存储格局的设计，所以它在写入的时候，它的那个写入带宽是十分高的。 ClickHouse在剖析场景上的性能十分高，这归功于以下几点起因。首先，它进行了针对硬件的优化，采纳了多线程模型，可能让多机多核充分发挥CPU的性能。其次，它采纳了向量化执行，并应用了很多Codegen和SIMD指令，从而进步了向量化解决的性能。此外，它的列存特点使得它十分敌对于CPU-Cache。最初，它的C++代码在设计重构上也进行了很多优化，解决了许多细节。在剖析场景上，ClickHouse领有许多近似算法、抽样办法、丰盛的数据类型和反对窗口函数的性能。此外，它还具备查问队列和资源隔离的特点，尽管在这方面的体现绝对较弱。 ClickHouse具备事后建模的能力，次要体现在用户能够依据底表创立物化视图。这些物化视图能够定义为一些聚合MergeTree，在后盾一直地进行合并，依据建模的逻辑构造在后盾进行一些计算。这种建模形式可能大大提高前台查问的速度。这张图能够看出，ClickHouse在许多场景下都有粗疏的设计。例如，它在不同的场景中提供了聚合算子，而这些算子针对不同类型的数据提供了不同的计算逻辑。比如说，对于物理数据，依据不同的数据大小或物理个性，能够采纳不同的聚合算子。此外，它还能够自适应地应用不同的函数来解决不同的数据量。例如，对于惟一键的转换，如果数据量较小、中等或超大规模，它会抉择不同的函数进行解决。而后他在不同大小的一个内存应用上，它也会应用不同的内存调配函数，去做做内存调配。 ClickHouse的查问性能十分快。例如，在解决一百亿行数据时，它能够执行UV操作，这种性能十分可观。这里就是ClickHouse跟同类型的剖析型数据库的性能比照，这是官网颁布的一个PK的数据，查问速度还是很快，单表过滤分组聚合查问劣势显著。在这张图中，咱们能够看到 ClickHouse 在灰盒测试中的数据后果。这份测试数据是比拟晚期的，来自 2020 年，应用的是 2019 版本。通过工夫上的比照，咱们能够发现 ClickHouse 在灰化之后，查问速度是 Vertica 的两倍多。这里也是对Greenplum是不同版本和不同节点的一个比拟。而后这里是具体的一个性能数据，他是把get的数据集打包成了一个大宽表。接下来咱们也将会介绍ClickHouse的性能体现。须要留神的是，在Join场景下ClickHouse的性能绝对较弱。然而在大宽表的查问性能上是十分高，ClickHouse体现十分杰出，这个是引人注目的。而后再看一下咱们社区ClickHouse版对有很多客户用上来之后有以下这些痛点，他的写入是有一些限度，他举荐你要聚合bach，要高频的并发，小粒度写。而后它的那个数据一致性是保证数据最终一次性，就是批改完就会立刻可见，这个可见是指我那个多正本之间，它的数据全副是保障最终一致性的，如果是单机上，你去写完他返回提交胜利，你是能够立刻查的。而后它反对那个反对Delete/Update，然而异步失效的。而它不反对事务，最新版的这个ClickHouse社区版只反对part写入原子性。而后它须要后盾的合并来保障主键的唯一性。 ClickHouse在计算档次的限度，这个join不是他的劣势，须要依据不同场景批改SQL，进行专门的优化。此外，其优化器是否反对CPU优化也有待思考。用户接口不够敌对，创立表时须要同时建设本地表和分布式表，查问时只能查问分布式表，这些细节减少了用户应用ClickHouse的学习老本和困惑。此外，ClickHouse的建表习惯与大部分数据库不同，并且其数据类型与MySQL有较大差别。此外，ClickHouse采纳sharding架构，存储和计算不拆散，因而在弹性扩大容时不足弹性能力。第三点是运维方面的限度。ClickHouse相当于手动挡，因为其运维不够敌对。在扩缩容时，数据不会主动re-balance。在正本失败时，须要手动重建或复原。此外，数据迁徙工具也不足实时性，不反对备份复原的性能。对于批改配置，有些设置不能长久化失效，须要手动批改配置文件或重启server。ClickHouse的调优和运维难度较高，须要用户具备肯定的技术能力。因而，很多用户须要亲自查看源码并应用最新的C++规范开发，而开发者绝对较少，C++代码量也较大，门槛很高。接下来，进行第二局部，阿里云数据库的产品简介。阿里云数据库，产品定位是为最快最便宜的列式数据库，它在极致性能，最极低成本、简略灵便的架构、便捷的运维等，这几个指标上，去主打场景化的最佳解决方案。咱们的主打场景是海量数据分析业务，包含大宽表查问和数据hash对齐的join场景等性能，这些性能尽管有很多限度，但可能满足大部分用户的需要。同时，咱们的批量更新和删除操作，与其对应的part的key是有无关联，可能缩小后续的更新和删除操作的开销，进步性价比，特地是对于那些对性价比比拟敏感的用户来说。这份表格比照了阿里云数据库ClickHouse和开源ClickHouse在运维、数据生态专家反对以及内核研发等方面的差别。咱们发现，在运维方面，阿里云的ClickHouse提供了可视化的创立和理论治理集群的性能，而自建则只能手动部署。在Failover方面，咱们的零碎具备管控工作流，可能主动监控解决异常情况或主动拉起失败节点。容灾备份方面，阿里云数据库ClickHouse也提供了备份复原性能。在安全性上，咱们反对日志审计、白名单、RAM受权等性能，并提供公网SLB和阿里云云网络等平安保障措施。另外，咱们也反对通过SQL进行参数批改，并提供词典治理，管制台上能够间接操作。咱们还提供欠缺的监控和多指标报警体系，可能对慢SQL进行剖析。在程度或扩缩容节点方面，咱们能够主动迁徙数据。目前，咱们曾经实现了数据无需锁写的迁徙，并在切换SLB时进行了短暂的切换。在用户权限治理方面，咱们反对对反对RAM子账号受权。此外，在数据生态和数据接入方面，咱们反对阿里云外部的DMS, SLS, DTS, DataWorks, OSS，MysQL表面、ODPS、Kafka，这些数据能够从这些零碎中同步到ClickHouse行查问剖析。咱们还提供了专家服务反对，为用户业务提供设计和优化倡议，以及对问题的疾速解决。在内核研发方面，咱们关注社区版本的更新，对bugfix及时响应问题以及在前后兼容的状况下倡议用户降级。在内核优化方面，咱们的分层存储曾经在可拆散MPP架构的性能上实现，同时也能够在咱们的云产品上体验到。这就是开源自建会有很多的的用户痛点。咱们阿里云ClickHouse的冷热分层次要劣势在于老本。能够提供更高性价比的查问剖析引擎。用户在创立表时，能够通知零碎数据生命周期的关键字段，而后后盾会依据这些信息，将Data part的数据移至冷盘、OSS或HDD上。这样，相较于全副存储在ESSD上，整体老本将大幅升高。在咱们的存储设计中，针对用户进行数据过滤时产生的大量索引文件和小文件，咱们也进行了一些优化。咱们应用本地盘作为小文件的缓存（cache），这样在执行许多查问过滤操作时，不会间接拜访到OSS，从而进步查问剖析性能。同时，咱们拜访OSS采纳流式的IO，其吞吐量可达到200 MB至1 GB的带宽，这个带宽靠近或超过ESSD，而老本仅为ESSD的1/10。对于存储在OSS上的数据，主备节点共享一份存储数据。在存储与计算拆散的架构中，ClickHouse采纳存储磁化，并按量计费。在计算节点数量方面，咱们是实现了按需扩容。第三局部，咱们将持续介绍阿里云ClickHouse的重要性能个性。次要内容包含数据同步工具、多盘存储，以及自建ClickHouse如何迁徙到云端的工具介绍。在本文中，咱们将介绍如何在阿里云ClickHouse中创立从MySQL库同步到ClickHouse的工作。首先，在RDS管制台上，抉择剖析实例并进入到相应的界面。在此界面上填写RDS或MySQL的用户信息。接下来，在页面上勾选须要同步的库和表，而后点击“创立同步工作”。实现这些操作后，咱们便能够在管制台上看到同步工作的状态。对于习惯应用SQL创立工作的用户，能够参考页面右下角提供的SQL示例，创立MeterializeMySQL并配置同步表的白名单或黑名单以及其余设置。具体的配置信息可在阿里云的官网文档中查阅。创立并启动同步工作后，零碎将首先进行全量同步，随后进行增量同步。这样，用户便能够在ClickHouse中查问同步过去的表，并进行相干的数据分析工作。如果用户在阿里云的ODPS上有大量数据，而ODPS无奈进行查问剖析或运行批处理等非实时查问引擎工作，那么能够在ClickHouse中创立ODPS表面。接着，通过应用insert into select语句从ODPS表面同步数据到ClickHouse。实现同步后，便能够在ClickHouse中进行查问剖析。咱们将介绍阿里云ClickHouse产品，它是一款主打性价比的解决方案。该产品反对用户购买本地盘，这里有和高效云盘和ESSD在规格和价格上的比照剖析。咱们能够看到，HDD的老本要比高效云盘低一半，而ESSD的费用是本地盘的六倍多。但应用本地盘也存在肯定问题，即数据与计算是强绑定的，如果本地盘损坏，可能会有数据失落的危险。然而，对于一些用户在存储日志或纯监控场景中，或者容许数据失落的产品场景，它们能够承受这一限度。此外，有些用户对读写带宽有较高要求，而单个ESSD盘的ClickHouse在IO方面存在限度。阿里云的ClickHouse反对用户购买多个云盘或本地盘组成一个RAID零，也能够在ClickHouse配置中组建一个构造，底层应用LVM，从而提供多盘聚合带宽能力。在多盘性价比计划中，咱们提供了冷温热三层的分层存储。上面是一个分层存储的架构示意图。当数据须要立刻写入时，咱们会先将其写入云盘ESSD中，以便疾速合并。然而，一段时间后或者当达到特定的TTL时，数据会被挪动到本地盘。最初，如果工夫更长，数据会被挪动到OSS上。因而，咱们提供了三种不同的分层存储组合，以满足不同的应用场景。例如，将云盘与OSS组合应用能够实现冷热分层，依据TTL进行归档进冷存。而将云盘与本地盘组合应用则能够实现冷温分层，将最近N天的频繁查问TTL存储到本地盘中。咱们将依据用户的理论业务场景抉择最适宜的冷温热组合。 ...

关于数据库:PostgreSQL-大象-Slonik-的历史

Logo 很弱小。有什么比一个引人注目、令人难忘的 logo 更好的形式来给人留下你产品的印象呢？明天咱们就来答复一个问题：为什么 PostgreSQL 抉择大象作为它的标记？每个产品或公司都有本人的标记：一个可能辨认并概括其品牌实质的货色。随着工夫的推移，它逐步变成了品牌：你能设想没有金拱门的麦当劳吗？如果可口可乐的标记忽然变成了紫色的方块会怎么？ Logo 能唤起情感，这种情感会在消费者中产生强烈的连贯和虔诚感。它会留在你的脑海中，将图像与它所代表的特定产品分割起来。在这篇文章中，咱们从新回到 90 年代，追寻一下 Postgres 是如何与大象 Slonik 被分割在一起的。 Slonik 退出 Logo 动物园先来看看几个最受欢迎的科技界 logo。能够看出，抉择一种动物来代表一种技术并不是没有先例：让咱们来看看 Postgres 抉择大象的起因，以及他们 logo 的演变史。 PostgreSQL Logo 的演变1996.12.30 最后的 LogoPostgres 大象的进化过程是漫长的。最早的 Postgres 标记是一堵风雨飘摇的墙，PostgreSQL 正在破墙而出。下图是从 Postgres 的官方网站上检索到的，能够追溯到 1996 年。 1997.04.03 大象呈现了1997 年初，PostgreSQL 酝酿了大变动。一月就改名了：「Postgre95」被「PostgreSQL」所取代。这时，对于 logo 的正式探讨开始了；最终确定是一头大象，但也有过其余的想法，正如这条 1997 年的音讯提到的：日期: 1997-04-03 20:36:33一些其余的想法：衍生的：一把剑（源自《龙》的封面 -- Postgres 是一种工具）说明性的：一碗字母汤，用字母拼出 POSTGRESQL艰涩的：一把左轮手枪/被击中的人（Grosse Pt 是 Postgres 的变形词，也是 John Cusack 新电影名字的缩写）但如果你想要一个基于动物的标记，那么大象怎么样？毕竟阿加莎-克里斯蒂小说的题目说大象有忘性...David Yang1997.04.03这可能是音讯中提到的《龙》的封面在许多文化中，大象的确被誉为领有弱小的记忆力（阿加莎-克里斯蒂的《大象的证词》一书将此作为一个重复呈现的主题）。大象做 logo 能够有不同的解释，但最常见的是：大象，像数据库一样，是很棒的信息保留者。这个想法引起了人们的留神，但不是每个人都批准。上面的引文来自 1997 年 pgql-hackers 邮件组的探讨，显示了对大象想法的不同认识： ...

关于数据库:MySQL80-优化器介绍四

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：奥特曼爱小怪兽文章起源：GreatSQL社区原创往期回顾 MySQL8.0 优化器介绍（一） MySQL8.0 优化器介绍（二） MySQL8.0 优化器介绍（三） MySQL8.0在优化器上做了很多致力和优化，依然不足以保障每条sql，都能领有正当的执行打算，有些状况须要通过hint来干涉。MySQL8.0在hint的品种上进行了新增。本篇次要讲咱们能够有哪些办法影响优化器。优化器配置 Configuring the Optimizer有很多办法影响优化器。 configuration optionsmysql.engine_cost , mysql.server_cost 具体表字段的含意，怎么配置，配置后怎么失效的细节见官网。须要留神的是，配置完以上表后，得做一个FLUSH OPTIMIZER_COSTS; 的动作。另外还有两个重要参数 optimizer_prune_level 、optimizer_search_depth 值得注意。 Optimizer Switchesoptimizer switches 是一个复合的option 集。8.0.25 默认的optimizer switches mysql> show variables like '%swi%' \G*************************** 1. row ***************************Variable_name: optimizer_switch Value: index_merge=on,index_merge_union=on, index_merge_sort_union=on,index_merge_intersection=on, engine_condition_pushdown=on,index_condition_pushdown=on, mrr=on,mrr_cost_based=on,block_nested_loop=on, batched_key_access=off,materialization=on, semijoin=on,loosescan=on,firstmatch=on,duplicateweedout=on, subquery_materialization_cost_based=on, se_index_extensions=on,condition_fanout_filter=on, derived_merge=on,use_invisible_indexes=off,skip_scan=on, hash_join=on,subquery_to_derived=off,prefer_ordering_index=on, hypergraph_optimizer=off,derived_condition_pushdown=on1 row in set (0.00 sec)optimizer switches 只管能够会话级设置，但大多数状况下，咱们都当作一个全局参数在用。特地是5.7降级8.0，8.0小版本升级的时候，optimizer switches的查看必须作为一个独自项。后面的文章中曾经介绍了10多种优化器的策略、算法。更多细节参考（https://dev.mysql.com/doc/refman/8.0/en/switchable-optimizati...） Optimizer Hints（https://dev.mysql.com/doc/refman/8.0/en/optimizer-hints.html） Optimizer Hints的个性是5.7引入的，并在8.0做了扩大。能够通过hint 来影响查问打算的执行。 Hint 比optimizer switches的选项管制更精密，能够做到query block，table，index 三级。并且反对在查问期间更改配置选项的值，比会话级批改参数更细。比方能够限度一个sql的执行工夫： ...

关于数据库:MySQL-80不再担心被垃圾SQL搞爆内存

MySQL 8.0.28引入的新性能MySQL 8.0.28开始，新增一个个性，反对监控统计并限度各个连贯（会话）的内存耗费，防止大量用户连贯因为执行垃圾SQL耗费过多内存，造成可能被OOM kill的危险。首先，须要先设置零碎选项 global_connection_memory_tracking = 1，之后能够通过零碎状态变量 Global_connection_memory 查看以后所有连贯耗费的内存总量： mysql> show global status like 'Global_connection_memory';+--------------------------+---------+| Variable_name | Value |+--------------------------+---------+| Global_connection_memory | 1122912 |+--------------------------+---------+零碎选项 global_connection_memory_tracking 能够全局开启，也能够在单个会话中独立开启。如果是全局开启，则会针对所有连贯统计内存耗费状况，包含零碎外部线程，以及root用户创立的连贯；如果是单个会话中独立开启，则只会统计以后会话连贯的内存耗费。此外，InnoDB buffer pool不在统计范畴内。能够通过设置选项 connection_memory_chunk_size 来管制内存统计更新频率，该选项默认值为8KB，也就是当内存应用变动超过8KB时，才会更新统计后果。能够调整每个会话连贯可应用内存下限，由选项 connection_memory_limit 定义其限度，默认值及最大值都是 18446744073709551615，这个默认值太大了，等同于没有限度。如果线上常常运行垃圾SQL导致MySQL内存耗费过大的话，能够适当调低这个选项。如何在评估一条SQL可能要耗费多少内存呢？能够先调整选项值 connection_memory_limit = 2097152，即调低到2MB。而后以普通用户身份（没有SUPER、SYSTEM_VARIABLES_ADMIN、SESSION_VARIABLES_ADMIN等权限）执行相应的SQL，如果预估须要耗费的内存超过2MB，则会收回相似上面的报错，并且这个连贯会被杀掉断开： mysql> select @@global.connection_memory_limit;+----------------------------------+| @@global.connection_memory_limit |+----------------------------------+| 2097152 |+----------------------------------+mysql> select count(c) from t group by c;ERROR 4082 (HY000): Connection closed. Connection memory limit 2097152 bytes exceeded. Consumed 7079568 bytes.能够看到上述报错信息中提醒这条SQL须要耗费约 7079568字节的内存。当然了，实际上这条SQL须要耗费的内存不止 7079568字节，随着咱们细粒度逐渐上调 connection_memory_limit 选项值，最初会发现这条SQL须要耗费的内存约为 13087952字节。 ...

关于数据库:IP地址行业应用

网络防护IP归属地、IP利用场景等数据，无效辨认企业网络资产，帮忙企业屏蔽数据中心流量、机房流量、秒拨行为、攻击行为，无效帮忙企业网络资产普查，晋升企业网络安全防御能力。广告精准投放IP归属地及IP利用场景等数据，精准定位用户商圈、写字楼、住宅，无效帮忙互联网广告投放者更精准的广告投放，缩小广告老本、晋升收益，使互联网广告让真正须要的人看到，晋升成交率。广告反作弊广告费用逐年攀升，广告支出却越来越少？互联网广告反作弊帮你把关。联合IP利用场景与IP定位数据判断IP地址危险等级，帮忙企业屏蔽数据中心流量、机房流量、秒拔行为缩小广告主老本，晋升广告反作弊行为。P2P平台反“羊毛党”IP利用场景、高精准IP定位数据，过滤机器机房流量，在登陆、注册、领取等环节利用多重验证等伎俩帮忙企业无效屏蔽“羊毛党”“薅羊毛”行为，获利实在用户缩小互联网公司损失。互联网交易、领取反欺诈通过IP利用场景、IP地址扩散水平、用户行为及工夫综合判断IP地址危险水平，帮忙企业屏蔽数据中心流量、机房流量。在登陆、注册、领取等环节设置多重验证伎俩缩小交易、领取欺诈行为。互联网金融信贷风险管制利用IP利用场景、IP地位定位对互联网贷款用户进行贷前审核、贷中复查，贷后监控。无效辨认危险用户，对信贷业务开启多层危险管制，同时能够通过IP定位锁定欺诈者地位。地位大数据分析利用IP地址定位、IP利用场景数据，为大数据、连锁店、物联网等行业提供IP地位大数据分析。例如，物联网：通过IP地址定位剖析设施散布情况，优化设施部署；连锁店：通过店铺IP地址剖析店铺散布状况，综合剖析评估新店铺地位。

关于数据库:Apache-DolphinScheduler-发布-316-版本支持-SeaTunnel-Zeta-引擎

近日，Apache DolphinScheduler 公布了 3.1.6 版本。值得注意的是，此版本除了基于 3.1.5 版本进行了 bug 修复、Doc 欠缺外, 还进行了 SeaTunnel Zeta 引擎的反对。其中较为重要的为：修复依赖工作不正确的超时警报 #13822修复替换工夫变量参数 #13975修复流程实例 DAG 无奈显示依赖工作的问题 #13823master server 循环抛出空指针异样 #13878反对 SeaTunnel Zeta引擎，flink-v2, spark-v2 (#13086)全副 Changelog：https://github.com/apache/dolphinscheduler/releases/tag/3.1.6 下载 3.1.6 版本：https://dolphinscheduler.apache.org/zh-cn/download/3.1.6 Bug修复修复 13928 修复 CustomParams 输入框反复的问题 #14029Fix-13815 修复依赖工作不正确的超时警报 #13822[修复 13941]修复替换工夫变量 #13975BUG修复降级SQL中不正确的DML语句 (#13960)Fix-13780 修复流程实例 DAG 无奈显示依赖工作的问题 #13823[修复 13869]增加返回胜利判断 #13873[Bug] [worker] WorkerConfig 输入谬误 #14001OracleSouce 再次编辑，ConnectionType 为 null #13881修复-13596 在工作执行期间抛出谬误音讯通知用户找不到文件而不是 NPE (#13878)Fix-13828 修复工作组有两条默认记录的问题#13829修复导入工作流定义时打算工夫数据主键抵触问题 (#13926)修复依赖工作节点中的项、工作流和工作参数能够被搜寻到 (#13918)修复：当 sudo enable 为 false 时，执行命令会失败 (#13860)[Bug] [Cron] 解析 Cron 表达式谬误 #13841文档更新[doc] 批改 DinkyTask 图片为英文 (#14061)[doc] 更新 readme 文件和 Standalone Docker 疾速入门文档 (#14002)[doc] 更新资源本地文件系统文档 (#13982)[doc] 为 pydolphinscheduler doc 增加超链接 (#13907)新增性能Feature-13052 反对 Seatunnel flink-v2、spark-v2、seatunnel-engine (#13086) ...

关于数据库:Bytebase-现已支持-OceanBase-数据库

咱们很快乐发表，Bytebase 现已反对 OceanBase 数据库，携手为用户提供新一代的数据库变更治理体验。 OceanBase 是蚂蚁团体自主开发的分布式关系型（NewSQL）数据库，能提供金融级别的可靠性，交融了传统关系数据库和分布式系统的劣势，次要利用于金融行业，同时也实用于电力、能源、运营商、交通等行业场景。 Bytebase 是一款为 DevOps 团队筹备的数据库 CI/CD 工具，专为开发者和 DBA 打造，也是惟一被 CNCF Landscape 收录的 Database CI/CD 产品。治理 OceanBase 数据库变更在 Bytebase 主页点击「增加实例」，填入 OceanBase 数据库实例相干信息后，即可开始通过 Bytebase 治理你的 OceanBase 数据库。从 Bytebase 1.17.0 起，就能够治理 OceanBase 实例，反对：在 UI 和 GitOps 工作流中进行数据库 schema 和数据的变更。在数据库详细信息页面查看变更历史。在 SQL Editor 中查询数据库语句。具体的性能反对列表请查看 Bytebase 文档。亲手试试 OceanBase 你能够通过以下形式体验用 Bytebase 治理你的 OceanBase 数据库： Bytebase Cloud自部署应用过程遇到任何问题，欢送退出 Bytebase 用户群分享反馈 ❤️ 最初感激 @whhe 同学奉献的第一块砖！咱们也会一起逐步欠缺 Bytebase 对于 OceanBase 变更治理性能，独特为开发者提供极致的数据库开发体验。你能够期待在不久的未来即可领有的能力： ...

关于数据库:山东移动全业务域核心系统升级实现大幅降本增效

本文介绍了山东挪动引入 OceanBase 到山东省 BOSS/CRM 外围零碎畛域的相干状况。欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 中国移动通信集团山东有限公司（以下简称"山东挪动"）隶属于中国移动通信集团公司，组建于 1999 年 7 月，2000 年 11 月在美国纽约和香港上市，为中国移动（香港）有限公司边疆全资子公司之一。在省级运营商中，山东挪动按用户规模排名第二，随同着用户量的快速增长，山东挪动每天要解决超过 130 亿条信息数据，还须要继续将 16 万 5G 基站架设全省，面对互联网和 5G 时代下一直激增的用户数和并发量，经常出现容量有余的状况，分布式数据库降级转型火烧眉毛。随着挪动互联网的高度倒退以及 5G 时代的到来，数据量出现爆发式增长，咱们正进入一个大数据时代，数字化转型降级成为各企业间比赛的关键点。数据库作为数字化的外围基础设施，不仅是实现海量数据管理的底座，也是企业数智化转型降级的底层保障，必须通过大刀阔斧的革新，能力应答传统数据库越来越难以满足的海量数据需要，助力企业数智化转型，实现高质量倒退。在新的市场竞争格局下以及数据暴发的时代之下，为应答新的业务挑战和机会，山东挪动被动申请：积极开展外围业务数据库降级试点工作，率先把原生分布式数据库 OceanBase 引入山东省 BOSS/CRM 外围零碎畛域，试点验证数据库性能、性能、数据同步等指标数据，发展数据库迁徙、数据一致性验证、数据备份复原等测试，在夯实网络能力当先劣势的根底上，全面晋升数智化外围能力，为后续推广积攒教训。摸索引入 OceanBase目前我国现有的所有外围生产数据库绝大部分是集中式架构，不合乎云原生和算力网络技术架构继续演进方向，山东挪动也不例外。面对互联网和 5G 时代下一直激增的用户数和并发拜访需要，传统集中式数据库已无奈应答。此时，分布式数据库 OceanBase 成为了山东挪动发展数据库降级试点工作的“候选人”。分布式数据库代表着技术倒退的趋势，企业应用分布式数据库后，能够更高效地实现外围业务零碎的分布式技术改造，进步数字化程度，大幅升高企业洽购老本。基于此，山东挪动决定选取外围零碎模块，在不影响业务的前提下，在生产环境中进行数据库的降级工作。计费零碎是通信运营商最要害的外围业务零碎之一，日解决各类详单数据百亿条，数据处理性能和准确性至关重要。山东挪动过来应用的集中式数据库，面对互联网和 5G 时代一直激增的用户数和并发量，经常出现容量有余，性能无奈满足需要的状况，迁徙利用还须要在简单的业务逻辑中梳理数据库对象进行适配，这就须要一款数据库产品具备很高的兼容性，且能够主动做评估、转换并反对在线搬库，零碎数据类型、对象、存储过程仅大量批改达成利用适配，疾速实现利用切割，实现利用零碎平滑迁徙。针对山东挪动数据库的降级需要，OceanBase 的产品解决方案正好“切中要害”。自研一体化架构兼顾分布式架构的扩展性与集中式架构的性能劣势，用一套引擎同时反对 TP 和 AP 的混合负载，具备数据强统一、高可用、高性能、在线扩大、高度兼容 SQL 规范和支流关系数据库、对利用通明、高性价比等特点，且与支流国产 CPU、国产操作系统齐全适配，在胜利助力 400+ 行业客户实现要害业务系统升级的积淀下，也给予了山东挪动信念。通过宽泛的技术交换和选型综合思考后，OceanBase 最终成为山东挪动数据库降级的“不二人选”。外围数据库实现“换道超车”OceanBase 数据库为山东挪动提供了访问控制、通明加密、身份验证等能力，应用“阻止”、“检测”等技术独特保障系统安全，往年上线后，山东挪动入选了工信部“网络安全技术利用试点示范我的项目”名单，成为中国移动首个外围计费零碎全栈降级省公司。 OceanBase 的引入使得山东挪动外围业务数据库降级有了新的冲破，无效实现了老本压降，效力晋升，具体帮忙如下：基于 Paxos 协定和分区等技术整合多套原先的分散系统，多机房部署实现高可用和容灾，业务迁徙后不再须要搭建灾备零碎。通过性能无损的数据高压缩比，分区、读写拆散、LSM-Tree 存储等技术，晋升了 OLTP 事务效率。通过高兼容性和迁徙服务 OMS 保障了多个外围业务零碎的平滑迁徙，外围数据库源零碎数据类型、对象、存储过程仅通过大量批改便能达成利用适配，实现一站式数据库无损切割。应用一般 PC 服务器替换线下小型机+集中式存储等传统架构，相比原有的架构帮忙山东挪动大幅升高硬件老本，其中存储老本升高达 90%。山东挪动计费库通过在三个不同的物理数据中心分布式部署 OceanBase 服务节点，组成了一个逾越多数据中心的分布式数据库集群，任何一个数据中心断电、网络故障都不会影响数据库失常提供服务，从而具备了任一机房损毁而数据不失落、数据库服务不间断的原生容灾能力。计费零碎解决效率方面显著晋升，详单解决效率晋升 30%。在行业数字化转型背景下，平安可控技术是保障业务稳固的基本。 ...

关于数据库:破解分库模式下-Schema-变更难题-来自金融-SaaS-服务商长桥科技的管理实践

长桥科技（Longbridge Whale）是一家专一券商数字化倒退的金融科技公司，为券商提供新一代的一站式互联网证券交易云服务解决方案，其外围团队由来自新加坡及香港的资深金融管理者，以及来自阿里巴巴、字节跳动等科技公司技术专家组成。 SaaS 利用的数据库管理模式 SaaS 利用的数据库管理模式能够依据不同的需要和业务模式进行灵便配置，但根本能够演绎为两种模式：繁多数据库模式（Multi Tenancy）在繁多数据库模式下，所有的客户数据都存储在一个数据库中。这种模式的长处是简略易用，治理老本较低，但毛病是数据库扩大能力较弱，且无奈对不同租户间的数据进行无效的隔离。分库模式（Multi Single Tenancy）在分库模式下，不同的客户数据存储在独立的数据库或独立的实例中，甚至散布在不同地区的数据中心。这种模式易于扩大，可能应答更大的业务压力，更要害的是能满足各类合规要求，但也让数据库的日常治理难度大幅回升。分库模式下变更治理的次要难点对于金融类利用而言，租户间的数据隔离是一种很常见的诉求，因而多会采纳分库模式作为 SaaS 利用的数据库架构。如果一个租户对应一个独立的数据库，随着租户数的减少，单个利用治理的数据库会轻松的冲破百个甚至更多。这上百个数据库在 Schema 上是要求强统一的，但理论的变更治理过程中，难免会遇到如下问题：多库的批量公布一次性须要变更上百个甚至更多数据库，手工执行简直不可能，最罕用的应答办法就是编写脚本进行批量执行。然而脚本须要人工编写保护，编辑或执行忽略都可能造成重大的结果，当有人员流动须要交接工作时大量的“私人订制”脚本难以共享，甚至新员工须要从新编写一套本人的治理脚本。数据库 Schema 差别治理租户数据库实践上要求同构，但理论工作中因为开发团队手工治理变更脚本，或是一些临时性的紧急情况，局部库总会呈现或多或少的 Schema 差别，导致后续的对立变更常常在局部库上公布失败，排查过程费时费力。新租户库的 Schema 同步新业务租户的创立个别是由业务侧发动。在很多 SaaS 企业中，这一过程并不会第一工夫告诉治理团队，导致新租户库的纳管存在少则数小时多则数天的时间差，这一时间差足够产生大量的 Schema 差别。基于 Bytebase 变更管控能力破解 Schema 一致性难题作为金融 SaaS 服务商，长桥人造抉择了分库模式，随同着其业务的快速增长，数据库数量疾速减少，Schema 治理问题随之凸显，若不尽快解决，每一次变更轻则影响公布时效，重则影响业务运行。与许多科技公司相似，长桥基于开源计划建设了根底的数据库审核公布平台，但此类平台广泛欠缺 Schema 变更治理能力，无奈应答现阶段面临的窘境。为了从本源上解决此类问题，长桥引入了 Bytebase。批量解决已有数据库的 Schema 差别一次比对多个数据库因为业务曾经运行了一段时间，已有的租户库曾经存在局部 Schema 差别，靠人工肉眼比对上百个库是不可能实现的工作。而一些 Schema 比对工具只能对两个库之间或是若干表进行比对剖析，同样难以适应大规模比对需要。 Bytebase 提供了一套批量 Schema 比对计划，通过指定基准库，能够一次性将所有库进行比对，并一键生成变更工单，疾速将已有数据库的 Schema 差别抹平。杜绝将来变更产生 Schema 差别解决了历史遗留问题，须要在后续的变更中尽可能确保不再产生新的差别，或一旦产生差别能疾速发现，疾速解决。 Bytebase 从预防、告警、修复三个层面切入，提供了过程管控，自动检测与偏差修复等一系列性能来应答。变更一致性管控变更将一次公布到所有的指标库杜绝偏差的要害是做好变更管理工作，治理团队要求所有变更必须通过 Bytebase 进行。Bytebase 利用我的项目来组织数据库，对于同一个业务下的所有同构租户库都将被纳入同一个我的项目，并由业务开发团队自助实现变更。利用批量变更管理模式，原则上每一次变更都将利用到该我的项目下的所有数据库，任意一个指标库执行胜利，在同一次变更中将不再容许对脚本进行任何批改。 ...

关于数据库:100万数据如何快速的导入数据库

数据导出、导入是十分常见的开发操作，但在这个过程中，很多开发者都会遇到诸如数据乱码、数据格式不反对、数据量太大等问题。NineData 最新公布的数据导入性能，帮忙用户在保障数据残缺和精确的同时，轻松地将大量的数据从文件中导入到指标数据库中。 1. 性能介绍NineData 的数据导入性能能够帮忙用户将蕴含大量数据的文件导入到指标数据库中。具体的性能详情如下：反对的导入类型以及对应的文件格式：导入类型以及对应的文件提醒其中，CSV 和 EXCEL 类型文件的导入反对表头、字段映射、分隔符、导入模式等高级自定义设置。2. 操作演示操作演示登录 NineData 控制台，单击 SQL 开发 > 数据导入。创立数据导入并按表格配置工作（工作名称、数据源/库、导入类型、上传文件、执行人等），保留后跳转至工作详情页面。导入工作主动开始执行，期待零碎执行实现。提醒上述操作流程提供了一个很间接的数据导入计划，同时，NineData 企业版还提供了企业协同能力，为数据导入性能带来工作评审流程，用户须要期待评审实现才能够执行导入工作，晋升了企业数据的安全性。3. 应用场景NineData 的数据导入性能能够在以下场景下施展重要作用：内部起源数据导入：在企业须要从内部起源获取数据的场景下，NineData 数据导入性能能够帮忙用户将这些内部起源数据导入到指标数据库中，以便后续解决和治理。例如，一些电商平台须要从供应商的零碎中导入产品数据，NineData 数据导入性能能够帮忙他们疾速地将数据导入到数据库中。数据初始化：在新建数据库或者从新设置数据库构造时，须要将初始数据导入数据库中，NineData 数据导入性能能够帮忙用户将初始数据从文件中导入到指标数据库中，从而疾速初始化数据库。大批量数据更新：须要对数据库执行大规模数据更新的场景。例 1：企业须要将大量的平台订单数据导入到企业数据库，不便进行存储和剖析。例 2：企业须要将反复数据或有效数据删除或合并，或者须要对数据进行格式化或转换。例 3：企业须要批量更新产品价格、库存或其余要害业务数据。例 4：企业须要更新数据的工夫戳或数据的格局用于故障解决。数据导出、导入是十分常见的开发操作，但在这个过程中，很多开发者都会遇到诸如数据乱码、数据格式不反对、数据量太大等问题。NineData 最新公布的数据导入性能，帮忙用户在保障数据残缺和精确的同时，轻松地将大量的数据从文件中导入到指标数据库中。 4. 对于NineDataNineData 将通过继续的技术创新，以客户需要以及市场为导向，为开发者提供智能、高效、平安的数据管理体验，让每个人用好数据和云。如果各位有趣味，能够间接登录 NineData ( https://www.ninedata.cloud/) ，立刻返回应用体验。

关于数据库:Bytebase-200-提供基于-AI-的慢查询索引优化建议

新性能基于 AI 的慢查问索引优化倡议。反对 SSH 形式连贯 MySQL 实例。反对在库级别设置窃密变量并且在 SQL 变更脚本中应用。在 GitOps 模式下反对在代码仓库中对 MyBatis 3 XML 文件进行 SQL 审核。改良SQL 审核后果优先显示谬误级别后果。SSO 反对手动跳过自签名证书验证。 Bug 修复修复了一些 Oracle 11 的兼容性问题。社区新官网SQL 审核用研总结：MySQL/PostgreSQL/TiDB「SQL 审核」工作总结感激 @bun4uk 提交 chore: update role.go #5888 装置及降级参考降级文档。如果从之前版本升级，获取新版本后，重新启动降级即可。

关于数据库:查询ip地址的作用

IP地址查问的次要性能就是查问连贯到网络的计算机（或者手机）的IP地址及其所在的地位。IP地址查问能够查到以下信息：1、IP地址所属的国家和地区2、IP地址的ISP（互联网服务提供商）3、IP地址的准确地位（通常是城市级别）4、IP地址的使用者（如果可用）5、IP地址的经纬度坐标6、IP地址的时区7、IP宿主信息8、IP危险画像9、IP利用场景等IP地址是咱们进行互联网通信的根底，每一个联网的计算机都必须有一个IP地址。查问IP地址能够定位在因特网上存在的每台机器，从而得悉访问者的信息。例如：1、网站能够跟踪访问者的地位，并通过其IP地址确定他们感兴趣的页面；2、如果向用户的互联网服务提供商申请日志记录，它也能够用于标识特定的用户；3、如果互联网上呈现非法的行为，执法机构有权传唤ISP（互联网服务提供商），以便取得某个IP地址的所有者的姓名和联系方式，从而打击违法犯罪流动。

关于数据库:vika维格表更名为vika维格云再小的个体都有自己的多维表格

怀着冲动的情绪，在此向各位关怀咱们的用户与搭档发表： vika维格表已正式更名为「vika维格云」。顾名思义，「多维表格」进化成了「多维表格云」。这个新名字代表着咱们的产品曾经倒退到了一个全新的阶段。咱们将以此为契机，为用户带来更好、更多面的体验与服务，更好实现咱们的公司使命——让10亿人取得科技能力。咱们深信，人类的每一步后退都来源于技术与工具的倒退，咱们通过制作卓越的科技工具，帮忙人们更高兴地摸索生存、更愉悦地重塑工作。vika维格云不忘使命，依然会保持升高企业数字化老本、简化易用化软件系统，让用户高效实现工作，让更多人享受科技的翻新与乐趣。 01为什么改名？远不止多维表格当你还将vika维格云当做是个别的多维表格产品时，咱们曾经在累积中超过了这种概念。比方，vika维格云的利用场景宽泛，能够利用在项目管理、客户治理等各种业务场景。看起来像表格，但其实vika维格云的实质是一个「自动化的工作零碎」，能够解决你碰到的工作问题。同时咱们反对 API，这给产品提供了极大的内涵性和连接性，扩大了能力边界，作为数据库的属性更甚于表格。除此之外，咱们凋谢源代码，反对私有化，能够嵌入到你的软件系统中。无论是集体还是组织，都能够通过咱们的开源计划和私有化计划来定制本人的多维表格零碎，并将其嵌入到本人的软件系统中。最初，咱们还要强调一点：vika维格云反对私有化。无论是集体还是组织，都能够领有本人的多维表格云服务，并将其用于本人的工作中。能够看到，咱们的产品已超出了传统意义上的表格，须要一个更加贴切的名字来代表咱们的产品。而「维格」本来就有多维表格的缩写意义，现在改名为「vika维格云」，亦即「多维格表云」，更能体现其弱小、灵便和适应性强的产品个性。咱们置信，这次更名将为用户带来更好的体验和服务，也将帮忙咱们更好地实现公司使命。除此之外，针对创业者和合作伙伴，咱们还推出了「创业者搀扶打算」和「合作伙伴打算」，为服务降级和使命实现再推一把力。 02创业者搀扶打算与合作伙伴打算创业者搀扶打算咱们深知守业之路的不易，因而咱们为合乎资质的企业提供 5 折的产品优惠。只有你的企业是不超过 30 人的守业企业，就能够申请参加咱们的创业者搀扶打算。咱们心愿可能为创业者提供更好的反对，用vika维格云降本增效，让他们可能更加专一于本人的事业。戳这里提交申请合作伙伴打算咱们欢送各种类型的合作伙伴退出咱们的行列，独特推广vika维格云。作为咱们的合作伙伴，你将取得 51% 起的销售分成，并且每天都会调配数十条线索，享受培训、技术、市场和销售等全方位的反对。咱们置信，通过与各类合作伙伴的单干，能够更好地服务于用户，并且将vika维格云推向更宽泛的市场。 [[戳这里提交申请]](https://vika.cn/share/shrTzoCLvUq00zukPYuRA/fom4TzBXeFpNTbyqd7) 如果你对咱们的产品或打算感兴趣，欢送随时与咱们分割。感激大家始终以来对咱们产品的反对和信赖，一起期待vika维格云更加优良的将来吧。

关于数据库:Bytebase-20-把-DevOps-带进数据库

近期 AI 畛域的冲破让大家都很兴奋，但回到日常的工作中，开发者们还是须要解决许多的琐事。其中之一就是和数据库打交道，一件繁琐但又须要分外认真的工作，不然就容易造成 #删库跑路的事变。2 年前，咱们启动了 Bytebase 来解决这个问题，并且把我的项目开源在了 GitHub 上。相比于寰球范畴内的友商 Liquibase，Flyway，还是国内的 Yearning，Archery，Bytebase 的增长速度也都是更快的。而在 2022 年整个开源畛域，Bytebase 也是增长最快的我的项目之一，全球排名 24，中国区排名第 2。1 年前，Bytebase 开始商业化，这一年里咱们积攒了遍布寰球，来自各行各业的客户。明天咱们迎来了另一个里程碑，Bytebase 2.0。 1 到 12Bytebase 最早的版本只反对 MySQL，Bytebase 2.0 中曾经反对了 12 种数据库引擎： OLTP: MySQL, PostgreSQL, Oracle, SQL Server, MariaDBOLAP: ClickHouse, SnowflakeNewSQL: TiDB, OceanBase, SpannerNoSQL: MongoDB, Redis你能够部署一套 Bytebase 治理起整个公司里所有的异构数据库系统。Cloud 版本像 Bytebase 这样拜访数据库的服务，企业通常会部署在本人的公有网络里。Bytebase 从第一天开始就提供了简略的部署形式，整个 bytebase 前后端都被打包在一个二进制文件里，同时咱们也提供了 Docker 镜像和 Helm Chart，5 秒实现部署。另一方面，咱们也无奈否定 Cloud 部署的简便性，所以在提供私有化部署的的根底之上，咱们当初也推出了 Bytebase Cloud 版本。Bytebase Cloud 提供了和私有化部署一样的性能，只是免去了须要用户本人运维的累赘。通过 Cloud 版本，用户也能更加疾速地体验 Bytebase 的性能。只有拜访官网，收费注册后，跟着咱们的疾速指引就行了。开辟数据库变更治理 (DCM)创建 Bytebase 的初心，是因为咱们自身作为开发者，在市面上找不到让人称心的数据库变更治理计划 (Database Change Management / DCM）。通过了 2 年多的研发，Bytebase 当初曾经能够提供残缺的 DCM 解决方案，通过一系列独有的性能来建设数据库变更的最佳实际： ...

关于数据库:GreatSQL社区月报-202304

GreatSQL 是一个开源的 MySQL 技术路线数据库社区，社区致力于通过凋谢的社区单干，构建国内自主 MySQL 版本及开源数据库技术，推动中国开源数据库及利用生态凋敝倒退。为了帮忙社区的小伙伴们更好地理解 GreatSQL 社区的实时停顿，咱们决定每月更新公布一次 GreatSQL 社区月报。月报的次要内容包含：整顿展现最近一个月的社区小事动静，最近一个月内为我的项目提交过 Commit 的贡献者，并对近期重要的 PR 进行解析；同时还蕴含了社区上一个月公布的原创技术博客整顿分类。如果大家还心愿将来在社区月报中削减哪些内容，也欢送到“社区论坛→倡议反馈”版块中发帖提出：https://greatsql.cn/forum-39-1.html 社区大事件社区月度人物2023.04 月度妙笔生花（4 月奉献博客文章最多的 1 位用户） 2023.04 月度求知人物（4 月公布发问帖最多的 10 位用户） 2023.04 月度博学人物（4 月解答回复帖子最多的 4 位用户）社区线上/线下流动【GreatSQL 茶话会 03】你在应用哪一种MySQL高可用解决方案？(https://greatsql.cn/thread-264-1-1.html)流动 | GreatSQL 社区亮相 OSCAR 2023 开源生态沙龙通过可信开源社区成熟度评测 (https://mp.weixin.qq.com/s/3x9re75efsjbSyLQDk1m_g) 流动 | GreatSQL 社区亮相 2023 DTC 分享开源技术成绩实际(https://mp.weixin.qq.com/s/frEAdZ7GQj5Ny1_FSTyd5w)展会 | 万里数据库亮相 CITE 2023 聚焦信创生态展示科技翻新实力(https://mp.weixin.qq.com/s/96mf8rgEZMuySerA-MQLDQ)社区生态单干GreatSQL 社区通过中国信通院可信开源社区评估，获取可信开源社区认证 GreatSQL 开源数据库 & 海光 CPU 产品兼容性互认证 GreatSQL 开源数据库 & 中科可控服务器产品兼容性互认证我的项目停顿我的项目更新优化gt-checksum修复数个bug，筹备公布v1.2.2版本。定位剖析GreatSQL 8.0.25-17版本中InnoDB并行查问存在的bug，已确认，下个版本中修复。我的项目近期路线GreatSQL 8.0.32新性能代码合并测试中，预计5月中下旬公布新版本。gt-checksum v1.2.2版本还在测试验证中，预计5月上旬公布新版本。技术博客周边工具小白福利 | Windows 上如何疾速运行 GreatSQLopenEuler、龙蜥 Anolis、统信 UOS 零碎下编译 GreatSQL 二进制包应用 TPC-H 进行 GreatSQL 并行查问测试MySQL 常识课堂分布式编译系统的搭建MySQL 挪动数据目录后启动失败从零开始学习 MySQL 调试跟踪（1）从零开始学习 MySQL 调试跟踪（2）MySQL8.0 优化器介绍（二）MySQL8.0 优化器介绍（三）如果你也想要成为社区技术博客贡献者，欢送来此投稿：https://greatsql.cn/thread-100-1-1.html ...

关于数据库:MySQL好玩新特性离线模式

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：Yejinrong/叶金荣文章起源：GreatSQL社区原创持续吹MySQL 8.0~在以前，当须要对MySQL数据库进行保护操作时，通常须要先进行主从切换，而后批改设置并重启实例，敞开网络监听，只容许从本地socket形式登入，再进行相应的保护操作；有时候甚至还要批改相应的防火墙，或者罗唆敞开前端业务服务，总体比拟麻烦。从MySQL 5.7开始，反对设置为离线模式（offline_mode），再有保护操作需要就不必这么麻烦了。只需在线动静批改，可立刻失效，十分的简略粗犷： mysql> set global offline_mode = on; -- 关上离线模式，回绝内部申请mysql> set global offline_mode = off; -- 敞开离线模式，容许内部连贯申请当设置为离线模式后，普通用户将无奈持续发动连贯申请，甚至以后正在执行的SQL也会立刻被终止并被断开连接。 1. 无奈创立新连贯 $ mysql -h127.0.0.1 -uyejr -pxx -P4306 sbtestmysql: [Warning] Using a password on the command line interface can be insecure.ERROR 3032 (HY000): The server is currently in offline mode2. 即使是普通用户通过本地socket连贯，当启用离线模式后，也会被断开 $ mysql -S/data/MySQL/mysql.sock...mysql> show processlist;+-----+------+-----------+------+---------+------+-------+------------------+| Id | User | Host | db | Command | Time | State | Info |+-----+------+-----------+------+---------+------+-------+------------------+| 304 | yejr | localhost | NULL | Query | 0 | init | show processlist |+-----+------+-----------+------+---------+------+-------+------------------+1 row in set (0.00 sec)[sbtest]>select *,sleep(10) from t1 limit 3; -- 正在运行的SQL会立刻被终止，并断开连接ERROR 2013 (HY000): Lost connection to MySQL server during queryNo connection. Trying to reconnect...ERROR 3032 (HY000): The server is currently in offline modeERROR:Can't connect to the server3. 正在运行中的sysbench压测，也会被立刻断开 ...

关于数据库:查询IP归属地社交环境净化

IP归属地曾经在各个社交平台展示，这一措举，给互联网带来了什么影响，为什么要公开IP归属地，社交平台又如何通过通过查问IP地址信息，晋升本身网络安全和用户粘性社交平台纷纷发表展现用户的IP归属地，这意味着一批自我标榜在国外生存的网红现出“原形”，其IP地址显示在国内。还有一批网红带货博主也显示是在跨地区经营，让不少网友感叹本人所“信赖”的网红博主，原来始终在利用信息不对称坑骗本人。近年来，互联网飞速发展，也给某些不怀善意者以可乘之机。有人发表不实舆论、分布有害信息，又或是在热点事件暴发后假冒事发地当事人辟谣传谣、带歪舆论节奏，让网络空间变得乌烟瘴气，事件真相也难以展示在公众背后。社交平台显示用户IP归属地，能很大水平上消解特定期间呈现的具备强烈地区属性的非实在信息对公众的烦扰，缩小网络流言的生存空间。正如几大社交平台在上线此项性能时给出的解释，该动作能够“保护衰弱有序的探讨气氛，保障用户第一工夫获取真实有效信息的权利”。除了这些，社交平台还能够通过ip归属地解决以下问题社交行业存在的痛点：流动被薅羊毛营销老本高用户粘性不够1、产品设计无奈中转用户爱好2、好友匹配不准，用户粘性不够3、营销不精准拉新老本高4、平安风控、反欺诈能力低5、直播不晦涩网络调度不欠缺解决方案：营销流动反作弊利用IP利用场景、高精准IP定位数据，帮忙大数据企业过滤机器机房流量，在登陆、注册、领取等环节利用多重验证等伎俩帮忙企业无效屏蔽“羊毛党”“薅羊毛”行为，获利实在用户缩小公司损失。IP用户画像通过IP归属地区县级离线库、IP利用场景服务，为企业用户IP画像产品研发提供数据反对，提供企业IP画像产品数据中IP归属地、IP 利用场景数据的查问。帮忙企业更理解用户，为企业产品功能设计提供数据反对。好友地位匹配依据用户的IP地址进行地理位置(省市区)辨别，对注册用户做IP定位，就近匹配好友信息(例如:同城匹配、左近的人、左近动静等)，进步用户交友成功率，减少用户留存时长，加强平台用户粘性。互联网精准营销通过IP利用场景-数据中心-通过解析用户IP地理位置信息，统计用户起源地、沉闷用户聚集地，有针对性的进行用户增长营销流动。账户平安危险进攻依据用户IPv4归属地-通过IP数据云提供的IP利用场景-数据中心-离线库数据，判断IP利用场景所属类型，通过过滤掉数据中心IP地址，无效辨认真人IP用户，避免批量注册行为，晋升账户平安危险防御能力。网络安全危险进攻通过IP归属地区县级离线库、IPv归属地、IP利用场景服务，剖析拜访平台的IP地址，判断该IP的所属类型，通过过滤掉机房、爬虫IP地址，正确辨认真人用户，晋升对账户平安的危险防御能力。晋升直播体验对于有直播性能的社交软件，能够通过IP地址归属城市、运营商信息，正当调配服务器资源，就近接入服务器和CDN节点，进步音视频直播速度，晋升用户体验。

关于数据库:ChatGPT-再遭禁用-人工智能时代下数据安全如何保障

近日，三星电子发表禁止员工应用风行的生成式AI工具，起因在于4月初三星外部产生的三起波及 ChatGPT 误用造成的数据泄露事件。报道称，三星半导体设施测量材料、产品良率等内容或已被存入ChatGPT学习资料库中。去年11月上线以来， ChatGPT 始终是科技领域的焦点。上线短短5天，注册用户数就超过100万，一举成为史上增长最快的消费者利用。几个月来，不少企业将其嵌入工作环境，利用人工智能晋升工作效率，其中包含微软、亚马逊等行业巨头。4月份，三星电子也引入ChatGPT，后果不到20天就曝出文章结尾呈现的秘密数据外泄事件。人工智能弱小的存储、检索和生成性能对数据安全提出了更高要求，全面禁止并不是拥抱新技术的最佳抉择。AI 时代下，怎么更好地守护数据安全呢？追溯一起数据泄露事件背地的起因，往往会波及技术缺点和人为操作。保障数据安全，也要并行不悖。从技术上给数据库罩上“金刚罩”，保障数据流动严进严出；在治理上正当调配操作权限，审批操作流程，全方位进行管控。目前市场上的数据库管控产品曾经给出了解决方案，那么，作为一体化数据库安全管控平台的 CloudQuery 又是如何实现这些要求的？ 01.技术上：严格进出，细分权限对立拜访入口传统的权限管制中，通常是 DBA 为不同的人员调配不同权限的数据库帐号，领有帐号的人员在各自的环境中拜访数据库。而应用 CloudQuery，与数据库的通信连贯都建设在受信赖的部署服务器上，整个平台作为数据库的对立拜访入口。 CloudQuery 通过对立管控，收敛其余数据库拜访入口，反对用户便捷接入 HTTPS，在外网环境应用 HTTPS 协定拜访 CloudQuery，能够无效避免通信内容被窃听和篡改的危险。晋升数据操作效率的同时，在数据流向的各个环节提供对立的数据安全防护措施。权限管控 CloudQuery 反对细粒度的权限管控，如操作对象、操作类型、操作工夫、影响行数、操作次数等多因素进行管控，防止高权限账号滥用危险，限度越权操作、高危操作。数据导出权限 CloudQuery 严格遵循数据保护制度的企业级数据导出，包含精细化的权限管制，如查问与导出权限拆散，并能依据导出人的权限，管制导出数据对象（准确到字段级）、导出工夫（准确到分钟）、导出行数。数据导出时还将进行严格的行为审计，包含记录导出行为的发起人、客户端IP、SQL语句、执行工夫、导出工夫、影响行数等信息。审计人员可随时搜寻与查看导出记录以及导出数据。受限资源权限 ' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) CloudQuery 反对自定义高危操作，高危提权复核形式反对同步复核。设置胜利后，高危操作将被禁止，第一工夫爱护重要数据。动静脱敏 CloudQuery 反对数据动静脱敏。毋庸扭转生产数据库中的数据，即可根据用户级别、数据级别，对数据库返回数据进行差异化地脱敏，确保不同角色的用户可能差异化地拜访数据库中的敏感数据。具备以下外围性能：内置规定脱敏。依据提前设置的脱敏策略，主动对出现的后果集进行脱敏。此规定实用于所有数据，实用于所有没有明文数据查问权限的用户。指定字段脱敏。管理员能够设置脱敏策略，并对指定字段进行脱敏。数据导出脱敏。在对数据进行导出时，主动依据内置规定以及设定的脱敏策略对导出数据进行脱敏。敏感数据主动发现。数据库管理员可建设扫描工作，并依据扫描规定，从大量数据资源中疾速发现和定位敏感数据，并出现给管理员决定是否须要对该数据进行脱敏。 02治理上：提权审批，行为审计流程申请和审批三星此次数据泄露更大程度是因为外部员工的不当操作。据报道，三星DS部门的A职员，将有问题的原始代码复制到 ChatGPT，并询问了解决办法；同部门的B职员将为了管制产量、不良设施而编写的源代码输出到ChatGPT，并要求其优化。为了避免外部员工的越级提权和不当操作，CloudQuery 设有流程申请和审批模块。当普通用户须要某些权限时，须要向管理员发动流程申请。管理员可治理流程，如设置审批人、将审批进行转审、将审批流程自定义为一级/二级/多级审批等。通过审批人层层批准后普通用户才可进行提权操作，无效避免了外部员工不当操作引发的数据泄露。查看审计日志 CloudQuery 会记录应用过程中的语句明细和操作明细，针对数据库的操作行为，进行操作中的同步监控，操作后的全方位审计。蕴含系统管理类和平安行为的审计，并留存日志和记录，记录sql执行人账号、ip、语句等信息。CloudQuery 通过动静监测用户的操作行为，并通过页面展现具体的行为记录和平安趋势，实现精准的行为审计，保障企业数据安全。系统监控性能 CloudQuery 具备主机监控和容器监控性能，可对本身平台所在服务器运行状态进行监控，查看CPU使用率与总体率、分区状态、流量状态等。还反对对容器运行状态进行监控，管理者可随时登录，及时查看服务运行状态，防患未然应答数据安全事变。数据是数字化时代的金矿，数据安全是企业行稳致远不可或缺的保障。 CloudQuery 作为一体化数据库操作管控云平台，最大水平上确保了数据不透露、操作可管控的防护能力，为企业的智能化降级提供平安保障。

关于数据库:使用-SeaTunnel-搞定-TDengine-数据同步

在 4 月中旬的 SeaTunnel&TDengine 联结 Meetup 上，来自北京沃东天骏信息技ason术有限公司的架构师李宏宇，为大家带来了《应用SeaTunnel搞定TDengine数据同步》，通过 TDengine-Connector 解析与应用示例介绍了 SeaTunnel 与实时数据库 TDengine 同步集成的过程。演讲内容整顿如下：大家好，我叫李宏宇，目前次要关注的方向是数据仓库，包含构建、集成、开发，以及利用端，目前次要聚焦的一个更细分实时数仓畛域。明天跟大家分享的一个主题是咱们怎么样应用 SeaTunnel 这样一个数据集成和同步引擎，实现实时数据库 TDengine 数据的导入导出，以及同步集成的过程。本次分享大略分为以下几个局部： ● SeaTunnel 基本概念介绍 ● TDengine Connector 性能个性 ● TDengine Connector 读取解析 ● TDengine Connector 写入解析 ● TDengine Connector 应用示例 ● 如何参加奉献 SeaTunnel 基本概念介绍1 SeaTunnel 示例解说SeaTunnel 的基本概念，我感觉最好的形式办法就是把 SeaTunnel 应用的示例给大家间接展现进去，很多对于 SeaTunnel 的基本概念和重要概念都能够通过示例都能够引出来。 SeaTunnel 是一个什么样的引擎？它是一个国产的数据同步集成框架和引擎。目前，是SeaTunnel 在ASF 孵化器中处于孵化阶段。我集体认为 SeaTunnel 引擎最大的亮点和不便之处体现在它把整个数据集成这个畛域中的过程和逻辑的定义全副压缩到了 DSL 配置文件里，通过简略、清晰明了的配置文件，能够把整个数据集成的过程形容得很分明，并且把整个集成过程中可能会遇到的各种细节问题都做了封装，有了它，能够大幅度地简化数据集成的难度。上图展现了一个最根本的简略的数据集成，在 SeaTunnel 配置 1 个示例大略分成 4 个局部，env 次要是用于配置数据集成工作的环境信息，比方并行度、工作的执行模式等。其余三个包含 Source、Transform 和 Sink，别离对应数据从一个指标，通过一个转换过程，输入到另一个指标，所以，这 4 个局部就把整个数据集成的过程形容得很清晰。上图示意把配置文件保留好之后，丢到 SeaTunnel 引擎下来执行，就能够失去对应的执行后果。 ...

关于数据库:SeaTunnel-开源之夏学生项目申请开启单项最高获-12000-元奖金

告诉！开源之夏 2023 学生报名曾经正式开启！Apache SeaTunnel(Incubating)往年持续参加开源之夏的流动，2023 年 4 月 29 日-6 月 3 日 15:00 UTC+8，同学们能够在开源之夏官网 https://summer-ospp.ac.cn/ 找到 SeaTunnel 下的我的项目，筛选本人感兴趣的课题，通过我的项目绝对应导师联系方式与导师沟通并筹备申请材料，提交申请。1 开源之夏 2023 介绍开源之夏是由中科院软件所“开源软件供应链点亮打算”发动并长期反对的一项暑期开源流动，旨在激励在校学生积极参与开源软件的开发保护，造就和挖掘更多优良的开发者，促成优良开源软件社区的蓬勃发展，助力开源软件供应链建设。开源之夏联结国内外开源社区，针对重要开源软件的开发与保护提供我的项目工作，面向寰球高校学生凋谢报名。当选学生将在我的项目资深开发者（我的项目导师）的领导下，参加开源奉献，实现开发工作并奉献给开源社区。零距离体验顶级开源我的项目、跟着技术大牛晋升研发能力、用成绩赢取丰富奖金和证书等，都是此次流动的亮点，十分值得一试。 2 奖金设置● 进阶难度：学生结项奖金税前人民币 12000 元。 ● 根底难度：学生结项奖金税前人民币 8000 元。 3 流动流程以后，流动曾经进行到学生注册、遇到事沟通我的项目、提交我的项目申请的阶段，满足条件的学生均可报名加入。往年 11 月，流动将进入序幕，颁布年度优良学生名单。可参考学生指南查看报名具体流程：https://summer-ospp.ac.cn/help/student/ 4 SeaTunnel 社区介绍 SeaTunnel(原名Waterdrop) 是一个云原生的高性能数据集成平台，反对海量数据的实时同步,每天能够稳固、高效地同步数百亿条数据。美国工夫 2021 年 12 月 9 日， SeaTunnel以全票通过的优良体现正式成为 Apache 孵化器我的项目，这也是 Apache 基金会中第一个诞生自中国的数据集成平台我的项目。目前，SeaTunnel 在GitHub 上Star 数达 5.1k+，社区达到5000+人规模。2017 年对外开源后，SeaTunnel 曾经公布了 40多个版本，并通过大量企业生产应用，在 Bilibili、新浪、水滴筹、搜狗、Shopee、唯品会等公司的生产实践中，广泛应用于海量数据集成、数据 ETL、数据聚合以及多源数据处理等场景中，贡献者 170+。我的项目官网：https://seatunnel.apache.org/ GitHub：https://github.com/apache/incubator-seatunnel 退出Slack：https://join.slack.com/t/apacheseatunnel/shared_invite/zt-1kc... 5 SeaTunnel 开源之夏 2023 我的项目课题本次流动，Apache SeaTunnel(Incubating)开源社区共有 2 个我的项目课题通过组委会评审，同学们可在链接页面中筛选本人感兴趣的我的项目：https://summer-ospp.ac.cn/org/projectlist?lang=zh&pageNum=1&p... ...

关于数据库:汽车行业的集体数字化之路调度系统来助力

汽车行业走在了数字化反动浪潮的前列。随着大数据和 AI 技术的日益成熟，汽车行业面对动辄上百万的日活数据，调度零碎助力汽车数字化平台数据调度重塑着将来汽车的风貌，重要作用显而易见。 Apache DolphinScheduler 作为国内外多家出名车企数据平台的外围调度零碎，它是如何帮忙车企迎接数字化时代新挑战的？如何辅助重塑将来汽车的新面貌？欢送大家关注行将到来的 Apache DolphinScheduler 汽车行业最佳利用实际专场直播！流动详情流动工夫：2023年5月23日下午7-9点流动模式：线上直播流动议程福利环节本次流动中，除了每位讲师精彩演讲之后的答疑环节中能够和大咖交换互动之外，咱们还为大家筹备了超多惊喜，【海豚调度】视频号直播从收场到完结将共进行 5 轮抽奖，参加的小伙伴都有机会取得社区的精美周边小礼品，包含 Apache DolphinScheduler 定制钥匙扣套装，以及禅道社区资助的抱枕、USB-TypeC 双头充电头、绒布手提袋、皮质钥匙扣等（奖品如海报所示）。感激【白鲸开源】和【禅道社区】对本次流动的资助。预约通道关注【海豚调度】视频号，点击预约，流动开始前您将收到开播告诉。扫码推广，邀请满10人即可取得奖品一份！本文由白鲸开源科技提供公布反对！

关于数据库:Tapdata-的-∞-实践实时数据赋能电商资源分配快速落地敏捷可复用的库存数据服务

在一直晋升的信息技术和数据分析能力的推动下，客户360 未然成为企业治理中不可或缺的一部分。现在，客户接触渠道正在变得更加多样化和复杂化，客户信息的获取也变得更加容易和全面。同时，竞争环境也日趋激烈，企业须要一直进步服务质量、满足客户需要，才无望在市场中抢占先机。在这样的成长环境中，客户360 的重要性也就日益凸显了进去，因为它恰好满足了企业的这些诉求——能够综合各种渠道和业务中的客户信息，包含客户的根本信息、购买历史、偏好、行为习惯等等，对客户进行深入分析和理解，帮忙企业精准把握客户需要和心理，提供个性化、定制化的服务，加强客户黏性和忠诚度。同时，客户 360 还可能帮忙企业优化营销策略，进步市场营销效率，从而进步企业的盈利能力。但在以后疾速倒退的市场环境中，客户需要和市场变动往往又会十分迅速，因而客户360 须要具备敏捷性，可能疾速适应并响应这些变动。此外，鉴于客户360 波及到多个业务场景和渠道，例如销售、客服、营销等等，还须要具备可复用性，才可能实用于多个业务场景和渠道，防止反复建设和数据冗余。不仅如此，客户360 还须要综合多种数据源，例如客户的根本信息、交易记录、行为习惯等，数据的复杂性和多样性又对客户360 提出了灵活性的要求，须要可能解决多种数据类型和格局。与此同时，随着技术的一直倒退和更新，客户360 也须要具备可扩展性和灵活性，有能力疾速更新迭代，以满足新的需要和业务场景…… 这些要求背地，其实是要求解“如何疾速搭建麻利、可复用的客户 360”。上面咱们就以跨境电商库存信息一致性的需要为例，展现如何建设可复用的库存信息服务，保障其数据一致性、实时性与灵活性。一、抓住问题外围：如何确保商品销售库存与理论库存统一，防止错单、废单外围挑战：精确获取并更新库存变动以电商业务为例，先定义一个狭义上的市场客户360 的业务主题，在该业务主题下，次要次要包含四个实体——客户、商品、库存和订单。其中，客户是外围实体，与其余三个实体独特配合，最终实现了市场客户销售过程和行为的落地。为了确保这些实体之间在销售过程中的精确合作，业务上须要解决很多具体的问题。以库存商品和订单的协同关系问题为例，这里次要波及以下三组关系：商品和库存：在销售商品之前，必须确保商品已进入库存，并且库存数量足够满足需要。客户和订单：在客户下订单之前，必须获取其根本信息，例如姓名、地址、联系方式等。以便客户下单后抉择就近地位对订购商品进行出库。订单和库存：订单被确认后，须要从库存中减去相应的商品数量，通过实时匹配防止因库存有余或库存不精确导致的订单处理错误或勾销。由此可见，针对这一问题的外围挑战是：如何依据业务逻辑对库存数量的理论变动进行精确的获取和更新。理论业务场景故事：跨境电商库存数量一致性依据曾经提炼出的外围问题，再来看一个理论的业务场景，为了不便解说阐明，咱们对案例整体做了如下简化解决：场景角色 L：跨境电商，须要第三方平台拓展产品销售渠道M：第三方平台，能够在平台上购买电商 L 的产品N：第三方平台，能够在平台上购买电商 L 的产品Robert：平台 M 的注册用户Scott：平台 N 的注册用户场景故事跨境电商 L 须要借助第三方的平台 M 和 N，来拓展本人的产品销售渠道，须要随时放弃第三方平台售卖商品时显示的销售库存数量和该商品的理论库存数量统一，从而保障用户订单的有效性，避免错单和废单。以上是次要背景。电商 L 的商品散布在自营、M 平台和 N 平台的库存中，而这三个库存都是独立的仓库零碎，用户在不同渠道下洽购时，须要及时更新并同步相干商品的库存数量。如果当初 M 平台的用户 Robert 在平台高低单洽购 1 件商品 A，他看到的库存总数应该是这三方的库存数量的总和，而在他提交订单后，商品 A 库存总数 -1 的同时，变动后的库存总数会实时更新到各零碎，同时体现在 M 平台和 N 平台上。此时 N 平台用户 Scott 如果关上商品 A 的查问页，显示的库存总数应该是更新后的数量，即与 M 平台统一，这也是该场景的外围点。二、场景重定义：将业务外围挑战翻译为数据需要依据这个场景的定义，能够绘制一张数据施行和业务应用的过程图。整个过程共次要分为四个步骤： ...

关于数据库:基于-TiDB-Flink-实现的滑动窗口实时累计指标算法

作者：李文杰前言在不少的领取剖析场景里，大部分累计值指标能够通过 T+n 的形式计算失去。随着行业大环境由增量市场转为存量市场，产品的经营要求更加精细化、更快速反应，这对各项数据指标的实时性要求曾经越来越高。产品如果能实时把握利用的整体运行状况或特色用户的状态，就能够及时安顿正当的市场营销流动，这对改善用户的体验和促成收益的增长有显著的帮忙。需要指标有一个场景为了进一步优化营销流动内容，心愿咱们实时提供每个玩家在最近 1 年、2 年、5 年、10 年内的实时生产总金额。要实时计算每个玩家最近 N 年的实时生产累计总金额，一方面要思考到这个指标随着工夫推动它可能在一直减少，另一方面会有数据过期了而不再属于这个统计周期内，要及时减去，从而保护一个动静的累计值。这里的每一个用户的“最近 N 年”指标是不断前进的，波及到产品上线以来的全副用户，其累计的用户量、领取数据都在亿级别以上，且明确要求实时统计历史数据。综合剖析下来，解决该问题具备肯定的挑战性。在通过充沛调研和剖析后，基于实时计算框架 Flink 和分布式数据库 TiDB 的组合应用，咱们提出了一种实时计算滑动窗口内累计指标的算法，在一个数据库里同时反对实时 OLAP 计算和 OLTP 数据服务，无效地解决了这个问题，目前曾经在线上稳固服务了一段时间。上面给大家分享下咱们的思考和实际。数据特点首先咱们先从整体上评估下数据的特点，剖析一下数据规模、有哪些关键问题对咱们的计算有影响。数据详情根底数据量大，存在乱序、反复等问题数据源历史数据量较大，亿级别；日增日志数据在百万级别原始日志数据打印在不同利用机器上，没有集中统一存储，扩散因为业务有期待逻辑，业务工夫字段存在乱序问题，即先产生的数据的日志打印工夫可能晚于后产生的数据的打印工夫，工夫乱序的数据如果不及时处理可能会呈现漏算的状况因为业务有重试机制，雷同的日志数据可能反复呈现，数据重算会导致后果谬误聚合指标要求反对高并发拜访最终的后果指标要求反对 TP 服务拜访，且满足高并发场景线上的利用部署在不同的机器上，先后申请的数据的业务工夫和日志打印工夫，可能是乱序的，这会导致咱们须要解决数据排序的问题。且因为业务存在申请重试逻辑，数据也有可能是反复的，须要设计好去重机制。实现重难点保障计算的实时性、准确性须要解决数据乱序问题，使其有序，而后实时监听数据在别离进入统计周期开始边界、完结边界的变动状况，精确在累计值上执行加、减操作计算的事务性在对同一个用户的累计指标执行加、减操作时，要严格保障每个操作的原子性和隔离性此外，还要保障不同用户之间的操作也是事务隔离的累计指标可重入数据通过统计窗口边界时，有且仅有一次被计算，须要解决原始数据反复问题程序重启时数据计算结果应该放弃不变，指标的值不会变多，也不会变少，即保障重入次要的问题在于对于统计最近一段时间内的值，这个“最近”是实时变动的，即统计区间的开始、完结工夫点也是实时变动的，这个问题可能就比较复杂了，须要严格保障每个操作的原子性和隔离性，而且每笔数据不能反复算也不能漏算，否则就会呈现数据谬误。可选算法实时统计该计划是指，当查问某个用户最近 N 年的累计值的申请发送过去时，间接到数据库统计失去后果，能够了解为是一个用户级的实时 AP 操作。这种办法在良好的表设计、索引设计下，大部分场景在秒级别能够实现查问，在并发高时数据库资源很容易呈现算力瓶颈，导致服务不稳固，业务受影响。长处计划简略，实现容易能获取到精确的指标后果毛病由业务方保护计算的办法，拜访和计算是同时进行的，没有做到拆散数据库要有实时高并发的 AP 能力，对数据库要求过高计算全副依靠于数据库，IO、CPU等资源容易呈现瓶颈高并发时服务不稳固总的来说，实时统计这个算法实现起来绝对简略，但服务容易因算力问题影响，实时性不能保障，尤其是高并发场景容易呈现问题，线上实时数据服务慎用该策略。全量缓存+实时增量该计划提前将全副用户的最近 N 年的累计值算好，并缓存起来，业务方能够实时读取这个缓存，也能反对高并发实时响应。而后计算侧依据实时变动的状况，更新每个用户指标值。如果是在统计周期内用户有新增数据，则在缓存值根底上累加，如果在统计周期内有用户的数据过期了，则在缓存值的根底上减去。总之，总是保护好用户的实时累计值。长处反对实时高并发读取业务拜访和计算拆散，拜访提早低毛病实时保护缓存，要引入额定的机制保障数据更新的事务性容易呈现读写抵触问题数据没有落地，故障或宕机时数据失落危险高计算简单，且不可重入实时全量缓存计划，解决了实时全量统计的实时性和高并发拜访的问题，然而也带来了数据操作的事务性、安全性等问题，有肯定的可取之处，但毛病也很显著。全量长久化+实时增量思考到业务侧是 OLTP 的拜访个性，要求反对低提早高并发，提供点查的形式才是最高效的。该计划在数据初始化时先提前算好全副用户的累计值，并存储到关系型数据库，再基于数据库的基量数据进行实时的增量更新操作。如果是在统计周期内用户有新增数据，则在基量值上累加，如果在统计周期内有用户的数据过期了，则在基量值上减去，始终基于实时的变动量来保护最新的累计值。长处反对实时高并发读取业务拜访和计算拆散，拜访提早低数据存储在数据库，保留有最新的数据状态，能保障数据安全和事务性，进而能保障计算是可重入的毛病计算简单，程序保护老本较高数据库要求高，必须能存储大量数据且反对高并发拜访，且能应答将来的业务增长量综合思考之后，咱们选用了全量长久化+实时增量的计划。目前业界畛域内解决实时数据的技术工具，选用 Flink 应该是毫无疑义的。数据库方面选型，咱们须要思考上面的场景：首先要求数据库具备灵便的扩展性，必须能存储数以亿计的历史数据，且能应答还在一直增长的数据规模其次要反对良好的事务个性，这一方面反对最好的就是关系型数据库，要能保证数据操作时的事务隔离同时在高并发场景下保障读、写互不影响，反对业务高并发拜访满足这些刻薄要求的数据库其实不多，分布式数据库 TiDB 就是其中一个十分优良的选项，它能很好地满足下面的场景需要。数据模型咱们计算用户最近 N 年的累计值，这里有两个要害因素，一个是统计工夫周期，一个是用户。 ...

关于数据库:从IDC数据库安全报告看OceanBase安全能力

欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 作为数据的承载工具，数据库本身平安能力对于数据安全至关重要。数据库软件诞生至今，通过了几十年的倒退和演进，曾经成为 IT 零碎中不可或缺的关键技术。然而随着数据呈海量、高速增长态势，数据类型越来越多、数据部署环境日益简单、数据安全危险递增等起因，数据库本身的安全性曾经成为必不可少的重要属性。晋升数据库自身的原生平安能力，将会极大晋升数据存储环节的安全性，大幅加强数据的平安程度，有助于企业保障本身的数据安全。近日，国内权威市场钻研机构 IDC 正式公布《中国数据库原生平安能力洞察 2022》钻研报告， OceanBase 凭借当先的数据一致性、数据访问控制、数据加密、高可用等数据库原生平安能力，作为中国数据库的代表厂商入选此报告。本次 IDC 报告从理论业务及产品技术视角登程，联合 IDC 钻研的方法论为 CIO 提供迷信的主观展示，供理论抉择数据库过程中做参考。重点考查数据库软件的本身健壮性以及数据库原生的平安能力,包含数据存储加密、通信加密、白名单管制、TEE、脱敏等能力、监控预警、平安审计和可靠性等技术措施，以爱护数据库的数据资产平安。入选该报告，意味着 OceanBase 原生平安能力的卓越体现失去了国内权威机构的认可。 OceanBase 提供了全面的平安体系，包含身份标识与甄别、访问控制、数据安全、资源管控、监控预警、平安审计等性能，并从数据一致性、网络传输、用户认证、操作审计、存储平安、高可用等多个方面全面爱护客户数据的平安。为何数据库安全性至关重要？数据库安全事件的频发使企业和用户意识到保障数据库安全的重要性和迫切性。在理论状况中，企业通常会应用第三方平安工具增强零碎整体安全性，然而却漠视了数据库本身的原生平安能力的重要性。而数据安全防护难度大，易攻难守。因而，数据库原生平安能够从根本上晋升数据安全防护的程度。只管通过简单的工具和技术能够进步数据库整体安全性，然而实质上将会带来更为简单的操作过程，甚至有些难以实现。因而，数据库原生平安能力将使得数据安全建设事倍功半，也是将来数据库倒退的大趋势。 OceanBase 平安能力为何备受国内市场钻研机构认可？OceanBase 从数据一致性、网络传输、用户认证、操作审计、存储平安、高可用等多个方面全面爱护客户数据安全。OceanBase 的平安体系包含身份标识与甄别、访问控制、数据安全、资源管控、监控预警、平安审计，目前曾经反对比拟残缺的企业级平安个性，这些平安个性可能无效保障用户的数据安全。 ▋ 数据一致性，防止数据失落无论是因为磁盘静默谬误导致的数据失落，还是因为服务器工夫被篡改而导致数据凌乱，都会对数据的一致性和正确性产生影响，这是分布式数据库面临的微小挑战。对于磁盘静默谬误，传统的磁盘冗余（Raid）计划并不可行，传统数据库也无奈无效解决静态数据的静默谬误。然而，磁盘静默谬误引起的数据失落，在很多视数据为生命线的行业中是无奈承受的。 OceanBase 施行了三项技术手段，包含存量数据一致性被动校验、链式校验和磁盘静默谬误防御机制，以应答传统数据库在数据一致性、正确性和安全性方面所面临的挑战： 1）存量数据一致性被动校验及主备集群校验传统数据库不足对存量数据的校验机制，包含对主备库之间存量数据的校验。OceanBase 实现了被动校验机制，突破了传统数据库无存量数据校验的常规。同时，主集群内的多正本校验，能够确保主集群内多个正本数据的一致性。 2）链式校验 —— 区块链级的防篡改传统数据库的数据文件中有数据块（block）的校验和存在两个盲区：数据表和索引表的数据是否统一，以及高级黑客篡改数据块（block）是否能被辨认。OceanBase构建了全场景的校验和机制，包含微块、宏块（2M）、分区、表级、索引的校验和机制，同时涵盖物理校验（二进制校验）和逻辑校验（列校验）两个维度，补救了传统数据库在数据校验畛域的有余。 3）磁盘静默谬误防御机制 —— 防止数据失落金融行业的保单数据存储可达到 100年，银行业台账数据存储 30-50年，这些根本都是静态数据，传统数据库、传统的Raid冗余对静态数据无定期校验机制。针对潜在的静默谬误，OceanBase设计了磁盘静默谬误防御机制，通过后盾线程被动校验能力，能够及时发现任意粒度的磁盘静默谬误及时预警，无效保障静态数据的正确性防止失落数据。 ▋ 身份标识与甄别，晋升数据库安全性OceanBase 提供了身份标识和甄别、用户治理和角色治理能力，以进步数据库的安全性。身份标识和甄别是指通过验证用户的身份来确认其是否有权限拜访数据库。在 OceanBase 数据库中，身份甄别是通过租户进行的。租户是一个逻辑概念，是资源分配的单位，是数据库对象治理和资源管理的根底。每个租户都是数据库对象的容器，同时也是资源（CPU、Memory、IO等）的容器。OceanBase 数据库租户间的数据是齐全隔离的，每个租户相当于传统数据库的一个数据库实例。OceanBase 数据库中的租户分为两类：零碎租户和一般租户。创立用户时，如果以后会话的租户为零碎租户，则新建的用户为零碎租户用户，反之则为一般租户用户。无论是零碎租户还是一般租户，租户管理员创立的用户只能用于本租户内登录。 ▋ 数据访问控制，最小权限准则OceanBase 通过定义零碎、对象权限以及角色来管制用户对数据的拜访。此外，它还反对 Lable Security 个性，以记录行级数据粒度进行平安标记，避免用户数据泄露。对于权限设计，OceanBase 通过为不同用户或角色设置不同的验证策略来确保账户平安。因为不同用户或角色承当的职责不同，OceanBase 提供了不同的用户操作权限策略和角色策略。用户能够依据须要为用户赋予不同的权限和角色，并进行治理。 1）用户权限管制OceanBase 通过严格的权限管控机制保障用户数据的平安。在 OceanBase 数据库中，每个租户的数据对象齐全隔离，无论是零碎租户还是一般租户，任何租户下的用户都不能逾越租户拜访其余一般租户的数据。 2）行级访问控制OceanBase 利用 Label Security 实现基于行的强制访问控制。通过为表增加一个 Label 列记录每行的 Label 值，在拜访数据库时可通过比拟用户和数据的Label来束缚用户对表中数据的拜访。OceanBase 提供了平安管理员LBACSYS，用于治理和应用该性能。平安管理员可通过创立安全策略、定义策略中的 Label、设置用户 Label，定制本人的安全策略。一个安全策略可利用到多张表，一张表也可利用多个安全策略。每当一个安全策略被利用，该表会主动增加一列，用于该策略的访问控制。 ...

关于数据库:IP风险查询DDoS攻击和CC攻击

什么是DDoS攻打和CC攻打：DDoS攻打（分布式拒绝服务攻打）是一种通过利用多个计算机或设施向指标服务器发送大量申请来使其解体或变得不可用的攻打。攻击者应用管制这些计算机或设施的“僵尸网络”来协同攻打指标。CC攻打（HTTP申请攻打）是一种通过向指标服务器发送大量HTTP申请来使其解体或变得不可用的攻打。攻击者能够应用自动化工具来生成大量的HTTP申请，并且这些申请通常是针对特定的URL或页面。一、查问ip地址危险通过IP利用场景和危险画像，来判断拜访ip的危险，晋升本身网站平安能力。这些数据通常由ip地址信息查问平台提供，比方ip数据云，信息涵盖ip归属地、宿主信息、危险等级等。二、定期检查服务器破绽定期检查服务器软件安全漏洞，是确保服务器平安的最根本措施。无论是操作系统（Windows或linux），还是网站罕用应用软件（mysql、Apache、nginx、FTP等），服务器运维人员要特地关注这些软件的最新破绽动静，呈现高危破绽要及时打补丁修补。三、暗藏服务器实在IP通过CDN节点直达减速服务，能够无效的暗藏网站服务器的实在IP地址。CDN服务依据网站具体情况进行抉择，对于一般的中小企业站点或集体站点能够先应用收费的CDN服务，比方百度云减速、七牛CDN等，待网站流量晋升了，需要高了之后，再思考付费的CDN服务。其次，避免服务器对外传送信息透露IP地址，最常见的状况是，服务器不要应用发送邮件性能，因为邮件头会透露服务器的IP地址。如果非要发送邮件，能够通过第三方代理（例如sendcloud）发送，这样对外显示的IP是代理的IP地址 https://www.ipdatacloud.com/?utm-source=Lik&utm-keyword=?1059 。四、敞开不必要的服务或端口这也是服务器运维人员最罕用的做法。在服务器防火墙中，只开启应用的端口，比方网站web服务的80端口、数据库的3306端口、SSH服务的22端口等。敞开不必要的服务或端口，在路由器上过滤假IP。五、购买高防进步承受能力该措施是通过购买高防的盾机，进步服务器的带宽等资源，来晋升本身的接受攻击能力。一些出名IDC服务商都有相应的服务提供，比方阿里云、腾讯云等。但该计划老本估算较高，对于一般中小企业甚至集体站长并不适合，且不被攻打时造成服务器资源闲置，所以这里不过多论述。六、网站申请IP过滤除了服务器之外，网站程序自身平安性能也须要晋升。以我本人的集体博客为例，应用蝉知零碎做的。系统安全机制里的过滤性能，通过限度单位工夫内的POST申请、404页面等拜访操作，来过滤掉次数过多的异样行为。尽管这对DDOS攻打没有显著的改善成果，但也在肯定水平上加重小带宽的歹意攻打。

关于数据库:实践教程之如何在ARM平台部署PolarDBX

本期试验将领导您在ARM平台部署PolarDB-X 本期收费试验地址本期教学视频地址一.装置环境本步骤将领导您如何装置Docker、kubectl、minikube和Helm3。 1.执行如下命令，确认机器架构。uname -a返回后果如下，有关键词aarch64就是ARM架构。 2.装置Docker。2.1 执行如下命令，装置Docker。yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo yum install -y docker-ce docker-ce-cli containerd.io docker-compose-plugin2.2 执行如下命令，启动Docker。systemctl start docker3.装置kubectl。3.1 执行如下命令，下载kubectl文件。curl -LO https://storage.googleapis.com/kubernetes-release/release/$(curl -s https://storage.googleapis.com/kubernetes-release/release/stable.txt)/bin/linux/arm64/kubectl3.2 执行如下命令，赋予可执行权限。chmod +x ./kubectl3.3 执行如下命令，挪动到系统目录。mv ./kubectl /usr/local/bin/kubectl4.装置minikube。执行如下命令，下载并装置minikube。 curl -LO https://storage.googleapis.com/minikube/releases/latest/minikube-linux-arm64 sudo install minikube-linux-arm64 /usr/local/bin/minikube5.装置Helm3。5.1 执行如下命令，下载Helm3。wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/PolarDB-X/helm-v3.5.1-linux-arm64.tar.gz5.2 执行如下命令，解压Helm3。tar -zxvf helm-v3.5.1-linux-arm64.tar.gz5.3 执行如下命令，挪动到系统目录。mv linux-arm64/helm /usr/local/bin/helm6.装置MySQL。执行如下命令，装置MySQL。 yum install -y mysql二.应用PolarDB-X Operator装置PolarDB-X本步骤将领导您如何创立一个简略的Kubernetes集群并部署PolarDB-X Operator ，应用Operator部署一个残缺的PolarDB-X集群，具体文档请参考通过Kubernetes装置PolarDB-X。 1.应用minikube创立Kubernetes集群。minikube是由社区保护的用于疾速创立Kubernetes测试集群的工具，适宜测试和学习Kubernetes。应用minikube创立的Kubernetes集群能够运行在容器或是虚拟机中，本试验场景以Alibaba Cloud Linux 3.2104 LTS 64位 ARM版上创立Kubernetes为例。阐明：如果您应用其余操作系统部署minikube，例如macOS或Windows，局部步骤可能略有不同。 1.1 执行如下命令，新建账号galaxykube，并将galaxykube退出docker组中。minikube要求应用非root账号进行部署，所以您须要新建一个账号。 useradd -ms /bin/bash galaxykube usermod -aG docker galaxykube1.2 执行如下命令，切换到账号galaxykube。su galaxykube1.3 执行如下命令，进入到home/galaxykube目录。cd1.4 执行如下命令，启动一个minikube。阐明：这里咱们应用了阿里云的minikube镜像源以及USTC提供的docker镜像源来减速镜像的拉取。 ...

关于数据库:做客创新之路Tapdata-创始人唐建法对话央视著名主持人李雨霏畅聊创业故事

在近期播出的《翻新之路》访谈栏目中，Tapdata 创始人兼 CEO 唐建法（TJ）对话央视驰名主持人李雨霏，从一个人的守业幻想，聊到一个优良团队的翻新、冲破与成长之路；从大数据时代企业对数据需要的日益晋升，谈到孤岛问题这一行业痛点如何攻克，咱们看到了 TJ 作为 Tapdata 领路人对于行业独特问题的敏锐嗅觉，对技术与翻新的执着与保持，以及正如 Tapdata 名称由来的那样，「Make Your Data on Tap」的不改初心。更多 Tapdata 守业故事，欢送观看残缺节目。以下为节目观看入口，及局部核心内容总结。视频已上传B站（https://www.bilibili.com/video/BV1Fk4y177Rd/）点击观看残缺节目 01 一个创业者的心路历程谈及本人为什么要抉择在 45 岁时，冒着危险跳出事业稳固的舒服环境抉择守业，TJ 的答复是“人生目标的驱动”。幼年时期，TJ 曾把“环游世界”当作本人的人生目标。30 岁时，趁着一边工作一边旅行的机会，脚印遍布七大洲70多个国家，童年的幻想胜利实现。守业便在这时，成为了他新一阶段的人生目标。作为程序员出身，TJ 置信，发明一个可能切实帮忙大家解决理论问题的软件，是 IT 人的独特幻想，也是最想做的事件。在确定守业方向的途中，TJ 通过日常工作里和泛滥国内大中型企业，特地是传统企业的接触，发现了一个十分大的共性痛点——企业在试图数字化的过程中，经常收到数据孤岛问题的困扰，数据难以顺利服务于新的业务、新的利用，以及新的剖析。这里 TJ 还提到了一个实在的例子：已经在 MongoDB 工作的时候，彼时的客户东方航空心愿可能改良其机票搜寻的体验，在选型时看中了 MongoDB 分布式、查问速度快、高性能等个性，决定选用这种新一代数据库来撑持相干需要，但因为机票、航班等信息都存储在航信零碎，也就是历史应用的 Oracle 孤岛中，数据想要实现传输十分艰难，很难找到完满的解决方案，可能破费很多精力写很多代码也依然不能如意——TJ 意识到，这就是他想要解决的“难题”。 “这件事不应该这么艰难，应该有更好的形式来做”——一个想法由此萌发。TJ 看到了这片市场的空白，预感了这个我的项目的意义与价值，守业的信心也更加动摇——“即便我年龄不小了，但我觉得很有把握”。 02 Tapdata 之所以成为「Tapdata」「钛铂数据」这个中文名字其实源于音译，来自于英文 Tap-Data。其中的 Tap 意为“龙头”。在自来水遍及之前，人们取水、用水还须要依赖水桶去找水井或是水边打水，再挑着十几斤重的水桶赶回家，这无疑很不不便。如果把数据当做水，孤岛背景下，咱们在企业外部想要应用这些数据，同样也是要去到各个数据孤岛造成的“孤井”里，用“肩拉手提”这样的传统形式来获取。而之所以在命名时选用“Tap”这个词，就是因为 Tapdata 心愿可能为企业装置上数据的“自来水管”，用这些管道把孤岛连接起来。如此一来，下一次再想应用数据的时候，无需挖井打水，只消拧开水龙头，数据就自然而然“流”进去了。这正是 Tapdata 的含意：为数据装上水龙头，让数据像水一样流到各个中央，无论谁想要应用，只有关上一个水龙头就能够了。 03 孤岛如何不再孤单数据孤岛的造成往往有两种状况，一种是组织架构，另一种是技术。很显然，前者造成的问题不是能够靠技术手段去买通的，Tapdata 主攻后者带来的可能用技术手段解决的技术问题。技术层面的成因也很容易了解。随着历史的信息化倒退，各企业在建设零碎的过程中，每建一套新零碎，都是服务于一个明确的场景，譬如新建一套 HR 零碎，新建一个财务零碎等等，诸如此类，这些零碎原本就应该是独立的，不应该混在一起。换言之，这种“独立”自身没有问题，只不过咱们在推动数字化时，处于数字化的需要，理所应当地心愿将所有信息汇总在一处，从而取得比拟残缺的体验，可能据此做出更好的决策。这实质上是一种在数字化过程中新造成的需要。但因为技术起因，原先那些零碎并不具备这样的能力，无奈实现不便、疾速的买通。这就是 Tapdata 要做的事件。事实上，Tapdata 开创成员及外围团队皆来自于数据库厂商，因此对数据库的底层十分理解，这样一个团队自研了一种比拟新的技术。从底层开始，不须要任何人干涉，通过解析很底层的日志，得出后果当前，再插入本人的管代，用无痛无代码的形式把这些货色连通起来。整个研发过程，其实也破费了团队不小的力量。 “这是由一个新的需要促生的一个新的技术”。这就是 Tapdata 明天站在这里的起因。 ...

关于数据库:倒计时-1-天Tapdata-LDP-V3-发布会预告看实时数据集成平台如何赋能企业-AI-落地

更多 LDP+AI 场景细节，敬请期待 5 月 10 日（明天）的 Tapdata 发布会。最近几个月，AI 畛域堪称经验了近十年以来最为魔幻且不堪设想的时刻。自 ChatGPT 公布以来，无论是底层大模型、训练框架、利用框架还是 GPT 插件等等各种新构想和产品层出不穷，为各行各业带来了粗浅的改革和前所未有的时机。 AI 大模型在面向通用常识的智能畛域曾经展现出弱小的能力，其普适性和泛化能力开始被认可。越来越多的企业开始把眼光投向了 AI 技术，而在这个畛域中，高质量、可信赖的数据集是企业是否胜利利用 AI 技术的要害。对于企业而言，坐拥的大量丰盛且独特的外部数据资源，无疑是 AI 模型训练的“人造养料”，可能为之提供更精确、个性化的训练素材，并从中获取独特的 AI 能力。如果能在这场浪潮中把握住本身数据资源的微小后劲，抢占 AI 先机，这将对晋升企业竞争力至关重要。那么问题来了，企业该如何充分利用外部数据资源，为 AI 大模型提供更有价值的公有数据集？上面让咱们一起联合几个简略的示例，来具体谈一谈。一、抓住问题外围：孤岛旧患「缠身」，如何无效开掘企业外部公有数据遗憾的是，企业外部这些极具价值的公有数据通常扩散在各种简单的零碎中，无论从技术角度还是平安角度，它们都很难在通用 AI 的训练阶段被采集到，这显然十分不利于企业的 AI 利用的落地。长期以来困扰着企业的数据孤岛问题，再一次成为企业倒退特色 AI 路上的一大妨碍。企业外部的数据扩散在各个系统、部门和业务中，一方面是数据流转不畅，难以真正整合与共享；另一方面，没有一个对立的视图和规范，导致同一份数据被多个业务部门别离存储，数据反复、冗余，难以保证数据的品质和一致性。因而，如何无效地整合并利用这些公有数据也成为以后的一个热点话题。二、LDP 与 AI 的碰撞：企业数据集成、治理与服务在 AI 日常利用中的交叉点事实上，Tapdata 也始终在继续开掘人工智能这样的翻新场景，而孤岛问题也恰好是 LDP 攻破的重点方向，因而，二者的联合堪称顺其自然。 Tapdata LDP 的核心理念信息化时代，企业外部收集大量业务数据，这些数据扩散在各个数据源以内，如何高效地集成与治理这些数据也就成了企业迫切需要解决的问题。而 Tapdata LDP 实时数据集成与服务平台正是为了满足这些需要而诞生的。 LDP 的全称是 Live Data Platform，其中，Live 的含意为“实时的、陈腐的”，数据的实时精确正是其外围卖点，针对不同的数据类型，Tapdata 反对应用日志解析、轮询或者触发器等各种伎俩进行实时数据的采集。 Platform 则意味着 LDP 不仅仅是一个简略的数据传输工具，除了提供实时的数据通道之外，它还具备数据源信息的智能治理，针对不同数据类型的托管存储以及各种上游服务的对接能力。在上游服务对接方面，LDP 既能够将数据间接传输到各种各样的数据指标以内，还能够把数据公布为传统的数据 API 服务，或是将这些陈腐的数据提供到 AI 大模型服务中，为 AI 大模型提供企业公有数据的认知能力。上面咱们将通过几个简略的例子来展示 LDP 将如何在 AI 利用中提供的这些能力。 ...

关于数据库:全量容器化腾讯云日志服务CLS的云原生破局之道

腾小云导读数字化转型的实质是一个企业一直突破自我壁垒的过程，这种壁垒的突破通常来源于两个方面，一个是技术重构，另一个是组织重构。本次分享次要偏重的是技术重构方面，将围绕如何实现利用现代化，以业务视角找到实现业务云原生化的破局之道，从而取得更高的业务价值。本文依据腾讯云日志服务研发负责人王国梁在 ArchSummit 2023上海站的演讲内容整顿而成。欢送浏览。看目录，点珍藏 1 腾讯云 CLS 的业务背景和挑战 2 云原生技术的“三个代表” 3 日志服务 CLS 老旧零碎架构挑战剖析 3.1 基础设施凌乱，应该如何革新和抉择？ 3.2 有状态利用如何转化为无状态利用？ 3.3 如何革新利用的配置管理？ 3.4 如何平滑降级架构？ 3.5 弹性伸缩，咱们为什么须要它？ 3.6 为什么须要流量防护和容错？ 3.7 可观测能力的建设和研效？ 4 日志服务的云原生化架构和收益 01、腾讯云 CLS 的业务背景和挑战腾讯云日志服务（Cloud Log Service，CLS）是腾讯云全自研的一站式、高牢靠、高性能日志数据解决方案。反对各种数据源 PB 级的数据接入，提供日志采集、存储、检索、统计分析、数据加工、生产订阅等能力，能够帮忙客户大大降低日志运维门槛，并解决业务数据处理的各种诉求。 CLS 产品能力概览因为日志和业务属性关联强，业务的高下峰也会间接导致日志量的高下峰。所以与单个业务相比，日志服务的流量洪峰稳定情况更加频繁，也更加不可预估，可能霎时就有几十万 QPS、GB/s 日志写入；日志数据利用场景也更加敏感，大量客户会间接基于日志配置告警、监控等实时性要求强的场景，就要求日志从产生到可检索进去的提早肯定秒级，更准确的来说要在3s以下，不然此时日志的价值将大打折扣。此外，CLS 在商业化初期，产品迭代十分快，日志量从每天几千万条增长到十万亿条级别，领有百亿级数据秒级检索剖析能力。新增客户的需要多且简单，技术架构和基础设施古老，在应答规模增长、性能要求、迭代需要等多方面压力下，整个服务稳定性有余，研发团队也频于救火，甚至影响客户口碑、影响支出**，这也是为什么咱们必须要在技术上实现彻底的革新和降级。 02、云原生技术的“三个代表”云原生技术对于咱们而言到底意味着什么，这里总结出“三个代表”：云原生代表着最先进技术生产力的倒退方向云原生技术（容器、K8S、Serverless等）都是现在基础设施先进生产力的代名词，技术成熟且被广泛应用；相同，如果基础设施/技术理念还放弃古老思路，那必然无奈满足当今业务需要，也会成为企业/产品倒退的妨碍。云原生代表着技术企业产品竞争力的倒退要求爆炸式的扩张和增长已成为当今新产品和新利用的典型特色，因而产品的研发、测试、公布、交付、运维效率就间接决定了产品迭代周期，研效的晋升肯定水平上决定了咱们的产品是否能够在关键时刻做到“快人一步”。云原生代表着企业降本增效的技术保障企业内独立的资源池、资源 Buffer 会导致业务之间重大的“贫富差距”，资源弹性能力差、低效应用间接影响企业经营老本；此外，企业内不同团队的技术栈、架构和反复造“轮子”也会导致研发老本居高不下。所以，在现在想要实现利用的现代化，云原生技术改造曾经成为企业倒退的必然选择。 02、日志服务 CLS 老旧零碎架构挑战剖析对日志服务 CLS 而言，在架构上面临的每一个问题都能决定产品最终的成败，例如基础设施凌乱、应突发能力差、性能和稳定性差、服务治理艰难以及资源节约重大，经营老本低等。 3.1 挑战一：基础设施凌乱，应该如何革新和抉择？ CLS 在21年绝大部分资源都还是物理机和虚拟机，这会带来一系列问题。首先是资源环境简单，无论是机型差别、内核版本还是零碎参数等，都会在某个不经意的工夫点导致同样版本的利用行为不统一，对资源上线和保护的要求十分高。物理机以及虚拟机扩容耗时又是另一个大问题，从提出资源需要到资源到位有时候须要几个小时甚至几天，导致业务侧不得不提前囤资源，但即便囤积 20% 的资源对于业务也是一块不小的老本；其余基础设施的凌乱，例如本地 IDC 和云上治理运维零碎不匹配，监控告警以及观测能力不统一等，成为传统利用面临的最痛点。 ...

关于数据库:使用NineData定制企业级数据库规范

1. 为什么须要数据库标准？在企业级利用中，数据库是十分重要的一部分，它们存储着公司的外围数据，包含客户信息、订单、产品信息等等。如果这些数据没有失去妥善的治理，那么就会导致数据不统一、数据失落、数据泄露等问题，这些问题可能会对公司的经营和名誉造成重大的影响。 2. NineData 提供企业级数据库标准应用 NineData，咱们能够让本来枯燥无味的条款和规定变得更加乏味和有意义。咱们须要先明确一些根本准则： ● 数据库设计应该合乎业务需要，可能反对业务的增长和变动； ● 数据库应该具备一致性和完整性，确保数据的准确性和可靠性； ● 数据库应该具备可扩展性和可维护性，可能适应将来的需要和变动。基于这些准则，咱们能够应用 NineData 来定制企业级数据库标准。步骤一：应用 NineData 的「可视化表构造编辑」功能设计数据库模型该性能十分易用，能够帮忙咱们疾速地创立和批改数据库模型。所设计的模型需遵循组织管理员在「SQL开发标准-构造」中定义的相干表结构设计规定，不满足将被拦挡揭示，满足则可按需执行。避免出现无主键表、不倡议应用的关键字及数据类型等状况的产生。步骤二：应用 NineData 的「数据管理性能」治理数据库该性能能够帮忙咱们保障数据库性能和健康状况，及时发现和解决问题。人员在平台内所发动的申请需遵循组织管理员在「SQL开发标准-查问与更新」、「SQL开发标准-SQL窗口与工作」中定义的相干规定，防止超长工夫的会话、超多数据量的扫描/返回及更新等状况的产生。步骤三：应用 NineData 的「数据安全性能」爱护数据库的安全性数据安全性能能够帮忙咱们避免数据泄露和攻打，爱护公司的外围数据。通过平台的权限管理体系，可确保人员仅可执行有权限的操作，且所执行的语法类型需遵循组织管理员在「SQL开发标准-SQL窗口与工作」中定义的语法类型。反对敏感数据的定义与脱敏、数据导出仅在审批流程通过后才可执行导出，无效防止数据尤其是敏感数据的泄露状况产生。重点应用NineData定制企业级数据库标准，不仅能够让这个过程变得更加乏味和有意义，还能够帮忙咱们更好地治理和爱护公司的外围数据，确保公司的经营和名誉不受影响。 3. 附上应用Tips，帮您疾速上手缺省状况下，咱们为开发、生产这两个初始化的「环境」关联对应默认开发标准及审批流程；如果您须要自定义更多的环境满足组织内的理论利用状况，您可进入【标准与流程】为新增的环境关联标准及审批流程。同时，为了反对在不同业务线（如面向用户的利用、面向后盾治理的利用）可能存在差异化的治理须要，咱们也反对您在数据源级别按需调整： 1. 缺省「继承环境」的标准/流程配置； 2. 可按需勾销继承，调整关联到自定义的标准/流程； 3. 可按需勾销继承，勾销数据源标准/流程的关。如果同一个业务的不同数据源须要不同的审批流程、不同业务想用雷同的审批流程，都能够灵便配置反对。此处束缚标准、流程必须同时关联或同时勾销关联，暂不反对仅关联一项的场景。 4. 对于NineDataNineData 将通过继续的技术创新，以客户需要以及市场为导向，为开发者提供智能、高效、平安的数据管理体验，让每个人用好数据和云。如果各位有趣味，能够间接登录 NineData 官网(https://www.ninedata.cloud/)，新建组织后申请收费测试数据源，开始你的探秘之旅。更多企业级数据库标准联合业务场景的最佳实际，等您来开掘~

关于数据库:实践教程之体验PolarDBX分布式事务和数据分区

本期试验将领导您应用PolarDB-X分布式事务和数据分区本期收费试验地址本期教学视频地址前置筹备假如曾经依据前一讲内容实现了PolarDB-X的搭建部署，能够胜利链接上PolarDB-X数据库。体验PolarDB-X分布式事务本步骤将带您体验PolarDB-X分布式事务。首先开启一个分布式事务，通过命令察看事务信息。而后模仿一个转账行为，察看原子性和隔离性保障，最初通过Flashback Query查看历史版本。 1.筹备测试库、测试表和测试数据。a. 执行如下SQL语句，创立测试库transfer_test并应用。 CREATE DATABASE transfer_test MODE='AUTO'; USE transfer_test;b. 执行如下SQL语句，创立测试表account。 CREATE TABLE account ( pk bigint not null auto_increment, id varchar(64) not null, balance double not null, gmt_create timestamp default current_timestamp, gmt_modified timestamp default current_timestamp on update current_timestamp, PRIMARY KEY(pk), key(id));c. 执行如下SQL语句，创立测试表user 。 CREATE TABLE user ( pk bigint not null auto_increment, name varchar(64) not null, addr varchar(128) not null, gmt_create timestamp default current_timestamp, gmt_modified timestamp default current_timestamp on update current_timestamp, PRIMARY KEY(pk), key(name));d. 执行如下SQL语句，初始化数据。 ...

关于数据库:执行sed命令卡死CPU消耗100一例分析

景象MySQL服务器装置MHA,sed命令批改装置脚本时卡死： [root@TJ-DB-6CU552YPXS backup]# sed -i "s/.*vip.*ping valid.*/#&/g" mha_install.sh ^C[root@TJ-DB-6CU552YPXS backup]#top查看，sed过程CPU使用率100%： PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 14343 root 20 0 104m 1020 852 R 100.0 0.0 0:13.94 sed剖析pstack打印过程堆栈信息： [root@TJ-DB-6CU552YPXS ~]# pstack 14343#0 0x00007f123d474e46 in gconv () from /usr/lib64/gconv/GBK.so#1 0x0000003f8368c6ab in mbrtowc () from /lib64/libc.so.6#2 0x00000000004052ed in ?? ()#3 0x0000000000405373 in ?? ()#4 0x0000000000406323 in ?? ()#5 0x0000000000407875 in ?? ()#6 0x00000000004026e4 in ?? ()#7 0x0000003f8361f0bd in __libc_start_main () from /lib64/libc.so.6#8 0x0000000000402029 in ?? ()#9 0x00007ffcde547f38 in ?? ()#10 0x000000000000001c in ?? ()#11 0x0000000000000004 in ?? ()#12 0x00007ffcde5498d0 in ?? ()#13 0x00007ffcde5498d4 in ?? ()#14 0x00007ffcde5498d7 in ?? ()#15 0x00007ffcde5498da in ?? ()#16 0x0000000000000000 in ?? ()sed卡在字符集转换gconv ()函数上，mha_install.sh文件字符集为uft-8，os以后session字符集为gbk： ...

关于数据库:宕机了DolphinScheduler-高可用和-Failover-机制关键时刻保命

高可用性是 Apache DolphinScheduler 的个性之一。它通过冗余来防止单点问题，所有组件人造反对横向扩容；但仅仅保障了冗余还不够，当零碎中有节点宕机时，还须要有故障转移机制可能主动将宕机节点正在解决的工作转移到新节点上执行，从而实现高可用。 01 DolphinScheduler架构介绍Apache DolphinScheduler是一个分布式易扩大的工作流编排调度零碎。其外围架构次要由3局部组成：APIServer, Master, Worker。其中API-Server负责接管所有的用户操作申请，Master负责工作流的编排和调度，Worker负责工作流中工作的执行。整个零碎通过注册中信做服务发现，通过数据库长久化元数据。一个工作流执行的生命周期如下：在API-Server中创立，并将元数据长久化到DB中。通过手动点击或定时执行生成一个触发工作流执行的Command写入DB。Master生产DB中的Command，开始执行工作流，并将工作流中的工作分发给Worker执行。当整个工作流执行完结之后，Master完结工作流的执行。02 DolphinScheduler集群高可用分布式系统中必须要思考的因素是零碎整体的高可用（HA）。高可用指的是零碎整体可能对外提供服务的工夫占比很高，零碎因为故障而无奈提供服务的工夫占比很短。为了保证系统的高可用，架构的一个设计准则是通过冗余来避免出现单点问题。单点问题是指零碎中某一工作组件只有单个实例，如果该实例呈现了故障，那么会导致系统整体不可用。 Apache DolphinScheduler也是通过冗余来防止单点问题，在DolphinScheduler中，所有组件人造就反对横向扩容。 01 API-Server高可用对于API-Server来说，因为API-Server是一个无状态服务，因而API-Server能够很容易的通过部署多台来保障高可用。在部署多台API-Server之后，只须要将他们注册在同一网关，即可一起对外提供服务。 02 Master高可用Master作为DolphinScheduler中解决工作流的外围组件，其可用性间接关系到整个零碎的稳定性。因为Master并不像API-Server一样只是被动的接管外界的申请，Master会被动的生产数据库中的工作流，而一个工作流在某一时刻只能被一个Master解决，因而Master在横向扩容的时候须要思考的问题更多。一种比较简单的计划是采纳active-standby的形式，即部署多台Master服务，然而只有一台处于active状态，对外工作，其余Master服务都处于standby状态，只有等active的Master宕机，standby状态的Master会从新选举出一台新的active Master对外工作。这种计划实现起来简略，同时能够很好的解决Master单点问题，然而这种active-standby的架构同一时刻只能有一台Master进行工作，对于DolphinScheduler来说，因为Master须要解决工作流的调度，因而这会导致整个集群的工作流解决吞吐量上不去。在DolphinScheduler中采纳分片的形式对工作流元数据进行了预划分，具体来说对工作流产生的command依据id进行分片，将command平均的扩散到所有的Master，这样来达到所有Master都能够同时工作，并且不会相互影响。 Master通过注册核心来感知集中其余Master的节点信息，因为当节点高低线的时候，Master的元数据变更告诉到所有Master服务工夫会不统一，因而通过数据库事务做了进一步的保障，保障同一个Command只会被解决一次。 03 Worker高可用Worker作为DolphinScheduler中工作执行组件，其扩大比拟容易，这是因为在设计上，Worker次要是被动的接管Master散发的工作，他不会被动去数据库中拉取工作。因而Woker只须要在横向扩容之后注册到注册核心即可，Master会通过注册核心感知到Worker的元数据变更。 03 DS中的Failover实现原理仅仅保障了冗余还不够，当零碎中有节点宕机时，还须要有故障转移机制可能主动将宕机节点正在解决的工作转移到新节点上执行。在DolphinScheduler中所有的故障转移工作都由Master实现。 Master会监听注册核心中所有Master和Worker的健康状况，一旦有节点下线，所有Master会收到该节点下线的事件，而后执行容错逻辑。通过竞争分布式锁的形式来决定由谁来进行本次故障转移操作。在执行容错操作时，会依据Master/Worker的类型不同执行不同的容错操作。对于产生Master容错时，所有存活的Master会通过竞争分布式锁的形式来决定由谁来进行本次故障转移操作，竞争到分布式锁的Master会去数据库中查问出宕机节点中正在运行的工作流实例生成容错申请。对于产生Worker容错，所有Master会找出以后内存中是否有正在该Worker上运行的工作，如果有那么触发工作容错逻辑。一种非凡状况是，可能集群中所有Master都宕机了，那么此时没有Master能够执行容错逻辑，因而当前面集群复原时，在Master启动的时候也会进行容错逻辑。本文由白鲸开源科技提供公布反对！

关于数据库:查询IP地址位置

在互联网上，每台计算机或设施都有一个惟一的IP地址，它能够帮忙咱们确定设施的地位。当咱们须要查问某个IP地址的地位时，能够通过以下几种形式进行查问。一、通过网页进行查问：能够通过第三方平台进行查问，比方IP66，链接放在这里了https://www.ip66.net，须要用的小伙伴能够间接进入网站查问，方便快捷。二、通过电脑外部的网络连接进行查问：首先咱们点击桌面右下角的开始，在开始的选项栏当中找到运行，点击运行，而后再用新的对话框当中输出cmd，点击回车键或者用鼠标点击确定键，就会弹出一个彩色区域的对话框，在对话框当中大家找到大家去寻找英文字母ip，前面会跟着一串数字，而这串数字就是本机的ip地址。三、间接查ip地址：在桌面上找到我的电脑双击之后，找到控制面板，在控制面板当中，点击网络连接，选中本地连接，大家就会看到在本地连接的右下方会显示本机的ip地址，这也是非常简单查问本人ip地址的办法。四、通过网络状态查看ip地址：咱们进入网络和共享核心，在网络和共享核心当中点击曾经连贯的网络，这时候咱们就会进入网络连接状态的窗口，而后再点击详细信息，在详细信息当中咱们就会看到电脑的具体ip配置信息，这也是咱们查看本人电脑ip地址的一种办法。无论应用哪种办法，查问IP地址的地位都须要晓得：查问后果可能不是100%精确。IP地址的地位信息可能会因为网络环境、代理服务器等因素而产生误差。

关于数据库:分享两年两度升级数据库我们经历了什么

本文来自社区分享，仅限交换探讨。原文作者：陈雄军，上海芯繁荣供应链科技有限公司运维负责人，负责团体数据库、IT资产等运维管理工作。领有多年数据库运维教训，负责团体MySQL、MongoDB、SQL Server、OceanBase 等数据库的运维工作。欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 一、企业背景上海芯繁荣供应链科技有限公司，是一家国内供应链治理服务公司，公司业务包含仓储托管、一件代发、定制包装、质量检验、帮助选品、退货签收&查验、国内货物运输代理等。目前已与多家出名电商平台单干，包含Shopee、Wish、Tiktok、唯品会等。二、业务背景随着近几年公司的疾速倒退，业务所产生的数据越来越多，之前始终应用的MySQL数据库曾经无奈撑持业务的快速增长，每天产生的车辆运行轨迹数据、订单物流状态等数据十分宏大，存储在MySQL上曾经呈现显著问题：单表数据量过大，查问呈现显著的性能降落，很多略微简单一些的查问就间接卡死；MySQL高可用能力差，咱们只用了MySQL的主从，主节点呈现故障，切换到从节点常常须要补数据；随着数据量越来越大，MySQL这类单体数据库很难实现疾速的扩大，只能通过减少主机的配置，老本太高；MySQL做了分库分表之后，带来的运维复杂度和保护老本也随之进步。基于以上几点，咱们不得不寻求更好的解决方案。三、数据库选型2020年，过后的OceanBase还没有开源，咱们对业务进行数据库选型，因为业务本来应用的次要是MySQL数据库，所以在选型中，以兼容MySQL协定为首选条件，而后考查数据库的查问性能、扩展性以及高可用能力，另外开源也是一个重要条件。过后通过一段时间的调研，咱们发现市面上有几款比拟适宜的数据库产品，然而思考到将来国产化需要，过后咱们抉择了TiDB作为咱们的选型指标。抉择TiDB数据库次要有以下几点满足咱们以后需要：根本齐全兼容MySQL协定，业务从MySQL迁徙到TiDB根本不须要批改；TiDB作为分布式数据库，能够承载更大的数据量；迁徙到TiDB之后，相比MySQL查问性能也有肯定的晋升；然而，随着咱们应用的工夫越来越久，问题也逐步凸显进去。 TiDB上有的SQL查问工夫有时候会忽然变的很长，影响业务应用体感；对集群进行扩容比拟麻烦，扩容操作经常出现不胜利景象；另外TiDB整体组件还是比拟多，保护起来也有肯定难度，PD存在单节点瓶颈等。不过，这些都还可能承受。直到2021年10月份，一次偶尔机会，我加入了一个技术大会，在大会上理解到OceanBase数据库，作为淘宝、支付宝外部始终在用，并且齐全自主研发的分布式数据库，曾经运行了好多年，这的确激发了我很强的好奇心。OceanBase数据库同样在扩展性、性能及高可用方面十分优良，因而我再次对TiDB和OceanBase数据库进行了比照，过后应用的是OceanBase 3.1.2的版本，TiDB应用的是5.0.1版本。个性比照OceanBaseTiDB查问性能比较稳定，快偶然变慢，有毛刺扩大能力扩大不便，操作简略扩展性个别高可用能力原生具备原生具备架构复杂度架构简略组件多，保护老本高数据压缩率较高较高产品背书支付宝、淘宝、网上银行等无基于以上几点，咱们最终抉择将数据库切换到OceanBase上，然而因为一些其余起因，这次切换直到2022年11月份才实现。四、迁徙测试在最终决定用OceanBase数据库替换掉TiDB之后，咱们便开启了实现整的测试，以及迁徙计划的确定。测试次要包含兼容性测试、性能测试、扩展性测试、高可用测试等。兼容性方面：因为OceanBase也是齐全兼容MySQL5.7的语法，咱们在测试中发现，根本不须要任何的批改，就能够齐全迁徙到OceanBase，业务代码所应用的连贯驱动间接用MySQL官网驱动就能够；性能方面：最开始咱们在应用OceanBase时，并没有留神到须要做分区表，所以在测试过程中，发现SQL查问的性能反而比拟差。起初通过OceanBase的工程师领导，咱们做了些优化，包含将表创立成分区表，并创立了联结索引之后，性能有了很大晋升。扩展性方面：咱们尝试给集群中去增加服务器，发现只须要在图形化OCP治理平台上简略的操作下，就能够将新机器退出到集群中，十分不便。高可用方面：咱们上线的时候应用OceanBase 3.X版本，高可用方面咱们尝试将一台服务器关掉，发现根本对集群没有影响，只有个别申请会失败，不过在几秒之后从新尝试就能胜利，这也应证了官网所说的RPO=0，RTO < 30s的指标。数据迁徙方面，咱们最终由研发人员写了一套工具，一直从TiDB集群select数据，而后在OceanBase数据库中insert写入。通过一段时间的同步，两边数据基本上差不多之后，咱们找了一个业务低谷时间段，将数据库集群进行了切换。在切换之前咱们曾经做了充分准备，包含业务连贯用的用户账号、连接性、功能性测试等。五、性能优化下面提到，最开始咱们在应用OceanBase时，并没有对表进行分区操作。所以在开始测试时，发现查问性能比拟差，在测试环境中，有一张表的数据量大略8000多万行，在执行如下查问的时候，用了将近1min57s。对此，咱们显著感觉没有施展出OceanBase的性能劣势，征询了OceanBase的工程师。依据他们的优化形式进行排查，发现咱们一方面没有对表进行分区，另一方面索引创立也有一些能够优化的中央。因而，咱们对表从新创立了分区，应用createtime字段作为一级分区，用id做二级分区： partition by range(UNIX_TIMESTAMP(createtime)) subpartition by key(id) subpartition template ( subpartition p0, subpartition p1, subpartition p2, subpartition p3, subpartition p4, subpartition p5) (partition p202205 values less than (1654012800), partition p202206 values less than (1656604800), partition p202207 values less than (1659283200), partition p202208 values less than (1661961600), partition p202209 values less than (1664553600), partition p202210 values less than (1667232000), partition p202211 values less than (1669824000), partition p202212 values less than (1672502400))在对表执行了分区之后，再次执行雷同的操作，发现速度十分快，40ms就返回了后果，这个大超咱们预期，比MySQL快十分多，而且比TiDB也要快很多。 ...

关于数据库:为什么调度也需要血缘分析和影响分析

摘要：数据治理中常常要遇表或者字段级“血统剖析”和“影响剖析”，然而真正在数据ETL调度操作过程中应用影响和血统剖析频繁，看白鲸开源的WhaleStudio如何解决这个难题。提到“血统剖析”和“影响剖析”，一般开发者第一印象就是数据治理当中的表剖析或者字段级剖析，用于剖析表某一个字段或者某一个指标呈现问题的时候数据品质的溯源。这是一个十分广泛的性能，然而发现数据品质有问题的表之后，如何解决呢？肯定会回到数据处理系统当中进行重跑或者批改跑解决相干的数据，而哪些作业波及到这个表的数据处理呢？这其实就须要用到调度零碎中的“血统剖析”和“影响剖析”了。所以，咱们往往说，数据治理的“血统剖析”和“影响剖析”是给业务人员和数据分析师应用的，而数据调度中的“血统剖析”和“影响剖析”是给数据工程师应用的。在白鲸开源的WhaleScheduler 2.4.6 版本当中提供的“血统剖析”和“影响剖析”就充分考虑到这一点。同时，大家晓得WhaleScheduler是白鲸开源次要保护的Apache DolphinScheduler的商业版本，它继承了开源DolphinScheduler弱小的工作流和任务调度体系。其中有两种简单的工作类型，依赖（Dependent）和子工作流（SubWorkflow）：依赖工作（Dependent）：在一个工作流（Workflow）当中，能够跨我的项目依赖另外的另外一个工作流的实现或者另外一个工作的实现。同时，这种依赖能够反对简单依赖关系，例如，日依赖24个小时工作，月依赖31个日工作，几个工作之间存在与或非的各种关系等。子工作流工作（SubWorkflow）：顾名思义就是一个工作能够间接援用另外的我的项目中的一个工作流成为一个子工作，并且能够把当前工作流当中的变量和状况，间接传递给另外一个工作流当中。这两个工作类型对于调度零碎的灵活性十分重要，也失去了开源社区的宽泛应用。不过对于工作流的“血统剖析”和“影响剖析”则是复杂性十分高。因为这意味着，通过这两个工作，一个工作流能够有限的扩大到其它工作流和工作之间的关系，而其它工作波及到的工作流又可能依赖更多的其它工作或者有其余子工作流，所以，调度零碎中整体的“血统剖析”和“影响剖析”是比数据治理中的简单的多的。而调度的“血统剖析”和“影响剖析”实用性和应用频繁度也是比数据治理中的频繁得多，因为工作流和工作每天都要跑，如果出错，解决的时候都要看下这个工作的上下游，从而进行更好的运行态的解决。所以，白鲸开源在设计调度零碎的“血统剖析”和“影响剖析”时不仅仅提供一个动态的模板级别工作流设计外面的依赖和影响，更是能够针对工作流实例和工作实例来进行运行态中的“血统剖析”和“影响剖析”，同时运行用户间接在剖析的DAG图中，依据实例的状态间接邮件就行运行操作，从而真正帮忙到数据工程师进步调试和运维效率。当然因为DolphinScheduler外围十分弱小，反对有限子工作和依赖（目前在白鲸开源的商业客户中已有嵌套20层的客户），WhaleScheduler默认会开展高低5层Workflow的依赖和影响剖析，用户能够自行上钻和下钻到本人须要的节点。在企业真正应用过程当中，个别一个工作都解决一个表，而工作命名往往也和指标表命名相似，例如，表明DWD_Customer_Info，那么工作名称就是t_DWD_Customer_Info，所以，在表级别数据品质自身呈现问题的时候，也能够利用工作的血统剖析来剖析表技术品质，同时利用WhaleScheduler弱小的运行态治理来工作重跑、工作流重跑、补数、依赖链重跑等多种形式快捷不便的实现数据问题的整顿。综上，调度也须要“血统剖析”和“影响剖析”，而且应用频次和不便水平更间接关系到数据工程师的“幸福指数”，到底无论是DolphinScheduler还是白鲸开源的WhaleScheduler，咱们的指标都是让数据工程师们“工具选的好，上班回家早；调度用的对，中午安心睡”！本文由白鲸开源科技提供公布反对！

关于数据库:前端响应超时APIserver-服务内存不足碰见这类-DolphinScheduler-资源中心相关问题怎么办

作者 | 刘森卡特加特大数据工程师最近，有些用户小伙伴反映在应用 Apache DolphinScheduler 资源核心时会遇到问题，社区小伙伴整顿了一些常见问题，心愿帮大家解决当务之急。<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">[WARN] 2023-04-25 03:02:58.463 +0000 org.springframework.web.servlet.mvc.method.annotation.ExceptionHandlerExceptionResolver:[434] - Failure in @ExceptionHandler org.apache.dolphinscheduler.api.exceptions.ApiExceptionHandler#exceptionHandler(Exception, HandlerMethod)java.lang.IllegalStateException: Could not resolve parameter [1] in public org.apache.dolphinscheduler.api.utils.Result org.apache.dolphinscheduler.api.exceptions.ApiExceptionHandler.exceptionHandler(java.lang.Exception,org.springframework.web.method.HandlerMethod): No suitable resolver at org.springframework.web.method.support.InvocableHandlerMethod.getMethodArgumentValues(InvocableHandlerMethod.java:176) at org.springframework.web.method.support.InvocableHandlerMethod.invokeForRequest(InvocableHandlerMethod.java:146) at org.springframework.web.servlet.mvc.method.annotation.ServletInvocableHandlerMethod.invokeAndHandle(ServletInvocableHandlerMethod.java:117) at org.springframework.web.servlet.mvc.method.annotation.ExceptionHandlerExceptionResolver.doResolveHandlerMethodException(ExceptionHandlerExceptionResolver.java:428) at org.springframework.web.servlet.handler.AbstractHandlerMethodExceptionResolver.doResolveException(AbstractHandlerMethodExceptionResolver.java:75) at org.springframework.web.servlet.handler.AbstractHandlerExceptionResolver.resolveException(AbstractHandlerExceptionResolver.java:142) at org.springframework.web.servlet.handler.HandlerExceptionResolverComposite.resolveException(HandlerExceptionResolverComposite.java:80) at org.springframework.web.servlet.DispatcherServlet.processHandlerException(DispatcherServlet.java:1330) at org.springframework.web.servlet.DispatcherServlet.processDispatchResult(DispatcherServlet.java:1141) at org.springframework.web.servlet.DispatcherServlet.doDispatch(DispatcherServlet.java:1087) at org.springframework.web.servlet.DispatcherServlet.doService(DispatcherServlet.java:963) at org.springframework.web.servlet.FrameworkServlet.processRequest(FrameworkServlet.java:1006) at org.springframework.web.servlet.FrameworkServlet.doPost(FrameworkServlet.java:909) at javax.servlet.http.HttpServlet.service(HttpServlet.java:517) at org.springframework.web.servlet.FrameworkServlet.service(FrameworkServlet.java:883) at javax.servlet.http.HttpServlet.service(HttpServlet.java:584) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:799)</pre>问题起因：前端响应超时解决办法：须要批改以下4个文件。<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">/api-server/ui/assets/service.33119ae9.js/api-server/ui/assets/service.33119ae9.js.gz/ui/assets/service.33119ae9.js/ui/assets/service.33119ae9.js.gz</pre>并找到以下配置，而后将 15e3 批改为 15e5 或更高版本。<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">baseURL:"/dolphinscheduler",timeout:15e3</pre>1.这里 service.33119ae9.并不是固定的名称，只有找到 service..js*的文件批改就行2.如果应用docker部署的dolphinscheduler。是没有/ui/assets/service.33119ae9.js和/ui/assets/service.33119ae9.js.gz文件，疏忽就行3..gz文件应用vim就能够关上4.重启api服务5.革除浏览器缓存<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">[WARN] 2023-04-25 03:05:50.855 +0000 org.eclipse.jetty.server.HttpChannel:[776] - /dolphinscheduler/resourcesorg.springframework.web.util.NestedServletException: Request processing failed; nested exception is org.springframework.web.multipart.MultipartException: Failed to parse multipart servlet request; nested exception is java.lang.OutOfMemoryError: Java heap space at org.springframework.web.servlet.FrameworkServlet.processRequest(FrameworkServlet.java:1014) at org.springframework.web.servlet.FrameworkServlet.doPost(FrameworkServlet.java:909) at javax.servlet.http.HttpServlet.service(HttpServlet.java:517) at org.springframework.web.servlet.FrameworkServlet.service(FrameworkServlet.java:883) at javax.servlet.http.HttpServlet.service(HttpServlet.java:584) at org.eclipse.jetty.servlet.ServletHolder.handle(ServletHolder.java:799) at org.eclipse.jetty.servlet.ServletHandler$ChainEnd.doFilter(ServletHandler.java:1656)     at org.springframework.web.filter.CorsFilter.doFilterInternal(CorsFilter.java:91)     at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:117)     at org.eclipse.jetty.servlet.FilterHolder.doFilter(FilterHolder.java:193)     at org.eclipse.jetty.servlet.ServletHandler$Chain.doFilter(ServletHandler.java:1626) at org.springframework.web.filter.RequestContextFilter.doFilterInternal(RequestContextFilter.java:100) at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:117) at org.eclipse.jetty.servlet.FilterHolder.doFilter(FilterHolder.java:193) at org.eclipse.jetty.servlet.ServletHandler$Chain.doFilter(ServletHandler.java:1626)     at org.springframework.web.filter.FormContentFilter.doFilterInternal(FormContentFilter.java:93)     at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:117)     at org.eclipse.jetty.servlet.FilterHolder.doFilter(FilterHolder.java:193)     at org.eclipse.jetty.servlet.ServletHandler$Chain.doFilter(ServletHandler.java:1626) at org.springframework.boot.actuate.metrics.web.servlet.WebMvcMetricsFilter.doFilterInternal(WebMvcMetricsFilter.java:96) at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:117) at org.eclipse.jetty.servlet.FilterHolder.doFilter(FilterHolder.java:193) at org.eclipse.jetty.servlet.ServletHandler$Chain.doFilter(ServletHandler.java:1626)     at org.springframework.web.filter.CharacterEncodingFilter.doFilterInternal(CharacterEncodingFilter.java:201)     at org.springframework.web.filter.OncePerRequestFilter.doFilter(OncePerRequestFilter.java:117)     at org.eclipse.jetty.servlet.FilterHolder.doFilter(FilterHolder.java:193)     at org.eclipse.jetty.servlet.ServletHandler$Chain.doFilter(ServletHandler.java:1626) at org.eclipse.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:552) at org.eclipse.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:143) at org.eclipse.jetty.security.SecurityHandler.handle(SecurityHandler.java:600) at org.eclipse.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:127) at org.eclipse.jetty.server.handler.ScopedHandler.nextHandle(ScopedHandler.java:235)</pre>问题起因：api-server服务内存不足解决办法：更改bin/dolphinscheduler-daemon.sh的api-server项内存大小参数Docker部署解决办法：1.进入Docker实例<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">docker exec -it bbd60fe717af /bin/bash</pre>2.批改/opt/dolphinscheduler/bin/start.sh<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">vim /opt/dolphinscheduler/bin/start.sh</pre>3.内存参数从‘-Xms1g -Xmx1g -Xmn512m’ 批改为‘-Xms2g -Xmx2g -Xmn1g’。具体数值依据须要资源批改<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License. You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.#BIN_DIR=$(dirname $0)DOLPHINSCHEDULER_HOME=${DOLPHINSCHEDULER_HOME:-$(cd $BIN_DIR/..; pwd)} source "$DOLPHINSCHEDULER_HOME/conf/dolphinscheduler_env.sh"JAVA_OPTS=${JAVA_OPTS:-"-server -Duser.timezone=${SPRING_JACKSON_TIME_ZONE} -Xms2g -Xmx2g -Xmn1g -XX:+PrintGCDetails -Xloggc:gc.log -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=dump.hprof"}if [[ "$DOCKER" == "true" ]]; then   JAVA_OPTS="${JAVA_OPTS} -XX:-UseContainerSupport"fi$JAVA_HOME/bin/java $JAVA_OPTS \ -cp "$DOLPHINSCHEDULER_HOME/conf":"$DOLPHINSCHEDULER_HOME/libs/*" \ org.apache.dolphinscheduler.api.ApiApplicationServer</pre>3.12 BUG<ul data-tool="mdnice编辑器" style="margin-top: 8px; margin-bottom: 8px; padding-left: 25px; color: black; list-style-type: disc;"><li><section style="margin-top: 5px; margin-bottom: 5px; line-height: 26px; text-align: left; color: rgb(1,1,1); font-weight: 500;">修复工作组可能被多个工作抢走的问题 #13115</section></li></ul>如果设置工作组，多个工作会抢占工作组不开释，导致master始终重试开释，无奈继续执行工作解决办法：1.降级到3.132.勾销工作组<pre class="custom" data-tool="mdnice编辑器" style="margin-top: 10px; margin-bottom: 10px; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px;"><span style="display: block; background: url(https://files.mdnice.com/user/3441/876cad08-0422-409d-bb5a-08afec5da8ee.svg); height: 30px; width: 100%; background-size: 40px; background-repeat: no-repeat; background-color: #282c34; margin-bottom: -7px; border-radius: 5px; background-position: 10px 10px;">[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.runner.WorkflowExecuteRunnable:[286] - WorkflowInstance-357 - Begin to handle state event, TaskStateEvent(processInstanceId=357, taskInstanceId=4553, taskCode=0, status=null, type=WAIT_TASK_GROUP, key=357-4553, channel=null, context=null)[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.event.TaskWaitTaskGroupStateHandler:[34] - WorkflowInstance-357 - Handle task instance wait task group event, taskInstanceId: 4553[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.runner.WorkflowExecuteRunnable:[286] - WorkflowInstance-356 - Begin to handle state event, TaskStateEvent(processInstanceId=356, taskInstanceId=4554, taskCode=0, status=null, type=WAIT_TASK_GROUP, key=356-4554, channel=null, context=null)[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.event.TaskWaitTaskGroupStateHandler:[34] - WorkflowInstance-356 - Handle task instance wait task group event, taskInstanceId: 4554[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.runner.WorkflowExecuteRunnable:[286] - WorkflowInstance-360 - Begin to handle state event, TaskStateEvent(processInstanceId=360, taskInstanceId=4613, taskCode=0, status=null, type=WAIT_TASK_GROUP, key=360-4613, channel=null, context=null)[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.event.TaskWaitTaskGroupStateHandler:[34] - WorkflowInstance-360 - Handle task instance wait task group event, taskInstanceId: 4613[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.runner.WorkflowExecuteRunnable:[286] - WorkflowInstance-355 - Begin to handle state event, TaskStateEvent(processInstanceId=355, taskInstanceId=4549, taskCode=0, status=null, type=WAIT_TASK_GROUP, key=355-4549, channel=null, context=null)[INFO] 2023-04-25 08:51:06.044 +0000 org.apache.dolphinscheduler.server.master.event.TaskWaitTaskGroupStateHandler:[34] - WorkflowInstance-355 - Handle task instance wait task group event, taskInstanceId: 4549</pre></section> ...

关于数据库:2023年4月国产数据库大事记墨天轮

本文为墨天轮社区整顿的2023年4月国产数据库大事件和重要产品公布音讯。目录4月国产数据库大事记 TOP104月国产数据库大事记（工夫线）产品/版本公布兼容认证代表厂商大事记厂商流动相干材料4月国产数据库大事记 TOP10 4月国产数据库大事记（工夫线）4月1日，深圳市高校教育信息化学会举办策略单干签约和实验室揭牌典礼。人大金仓与学会联结深圳15所高校以及中国电信、中国移动、新华三、奇安信等企业，共建“深圳市教育技术信创实验室” ，减速推动教育数字化转型。 4月3日音讯，日前，中国电商ERP零碎开发商龙头之一万里牛, 在其ERP零碎中引入了阿里云瑶池旗下的云原生数据库PolarDB，借助PolarDB一站式事务处理和数据分析解决方案，同时利用In-Memory Column Index（IMCI）和并行执行提供的HTAP实时数据分析能力，以及高压缩引擎X-Engine提供的低成本海量记录读写能力，实现了SaaS ERP零碎的“增效降本”。 PolarDB一站式HTAP数据库产品解决方案该计划解决了ERP SaaS平台客户数据快速增长后的简单查问剖析效率难题，以及历史订单记录数增长带来的存储老本飙升难题，通过一站式的解决方案疾速满足业务倒退。4月3日至7日，数据库畛域顶级会议 ICDE 2023 在美国加利福尼亚州举办。OceanBase论文《LCL: A Lock Chain Length-based Distributed Algorithm for Deadlock Detection and Resolution》被会议收录，标记着 OceanBase 数据库在分布式死锁检测的技术摸索上迈出了当先一步。该论文提出的翻新算法能够在分布式环境下精确辨认并打消数据库系统中所有真正的死锁，这对于进步分布式数据库系统的可靠性和性能具备重要的意义。4月6日音讯，分布式HTAP数据库初创企业「泽拓科技」于近日发表实现A轮融资，投资方为复星创富，老股东常春藤资本继续加码。泽拓团队基于各外围主创在多个私有云大厂打造多款主力数据库产品的教训，指标是研发一款高性能，高可用的金融级分布式HTAP数据库产品 - Klustron，服务寰球客户。泽拓科技创始人兼 CEO赵伟介绍，Klustron(旧名称 KunlunBase）于 2022 年 8 月公布了 1.0 版本，目前已领有种子客户且多家客户 POC 并行中。Klustron 还是一款能够为 MySQL 和 PostgreSQL 的社区版用户提供企业级、分布式、具备弹性伸缩和金融级高可靠性的数据库。Klustron 基于 MySQL 打造存储节点，而基于 PostgreSQL 打造的计算节点是行业首发。4月6日，GBASE南大通用荣获中国通信标准化协会大数据技术标准推动委员会“2022年度优良成员单位”。 4月7-8日，由中国DBA联盟（ACDU）和墨天轮社区联结主办的第十二届『数据技术嘉年华』(DTC 2023)**") 在北京胜利举办。大会围绕“开源·交融·数智化——引领数据技术倒退，开释数据因素价值”这一主题，通过一场主论坛和十二场专题论坛，汇聚“产学研”各界数据技术领军人物、学术精英、技术专家、行业用户，从多角度、多维度带来68场主题演讲。 ☞大会PPT下载合辑：https://www.modb.pro/topic/622616 ☞大会视频回放：https://www.modb.pro/course/185 在2023年数据技术嘉年华现场，云数互联信息技术有限公司（简称 “墨天轮”）与人民邮电出版社有限公司（简称 “人邮社”）举办单干签约典礼。单方就墨天轮论坛相干资源转化为数据畛域相干图书的出版及我的项目达成单干共识。 4月7日音讯，近日，企业级开源分布式数据库厂商平凯星辰与中电金信达成策略单干，单方将强强联手以“中电金信金融级数字底座源启+平凯星辰 TiDB 分布式数据库”联结模式，推动实现行业利用和新型数字基础设施的自主翻新，减速银行等金融企业数字化转型中的国产化过程。 ...

关于数据库:携手共赢-HashData亮相华为合作伙伴大会

5月8日-9日，以“因聚而生众志有为”为主题的“华为中国合作伙伴大会2023”在深圳国内会展中心举办。 HashData作为国内云原生数据仓库的代表企业，也是华为重要的生态合作伙伴。在本次大会上，HashData展现了云数仓畛域最新前沿技术以及联结华为打造的多云环境下云原生数仓存储解决方案。强强联合解决多云环境长期痛点为了可能无效施展各家云厂商的服务劣势，越来越多的企业开始采纳混合多云策略，按需采纳私有云、专有云、公有云等混合云架构，应答企业外部不同业务部门、不同地区、不同监管环境下的IT服务需要。在多云环境下，要确保上云数据实现平安、高效、及时的流转和治理，成为企业面临的新挑战。华为公布的《迈向智能世界——数据存储》白皮书指出，如何最大化实现跨云和跨数据中心的资源共享、数据对立治理，从而获益于各云厂商最优组合，推动数字化转型与倒退，是将来一段时间内行业将继续摸索的方向。一方面，传统的IT架构无奈应答海量数据查问次数和跨站点高可用性需要；另一方面，传统MPP架构的数据仓库，无奈实现弹性扩大应答业务的潮汐变动，性能无奈满足PB级数据量的要求，在数据安全性方面也短少多数据中心的容灾爱护计划，成为当下企业多云架构中极大的妨碍。为了应答这一挑战，HashData与华为联结公布了云原生数仓存储解决方案，单方充分利用各自的技术劣势，强强联合为企业在多云环境下数据全局共享、随时随地剖析与应用提供无力的技术撑持。 HashData携手华为存储推出的联结解决方案，真正将计算和存储的多云交融从架构概念带入事实，解决了多云环境的长期痛点。技术创新构建多云交融产业生态作为企业级云原生数据仓库，HashData通过翻新的存储、计算、服务、应用层架构设计，提供了传统解决方案无法比拟的高并发、弹性、易用性、高可用性、高性能和扩展性，实现了云原生、利用松耦合、湖仓一体、运维自动化。同时，HashData云数仓在业内率先实现了元数据、计算和存储三层拆散，并且将数据长久化到底层对象存储，可能进一步升高企业数据分析的老本。 HashData数据仓库通过可插拔的存储接口，无缝地对接多种私有云和混合云，以对立的平台提供包含数据仓库、数据湖、数据迷信、数据工程和数据共享等能力，能够反对千万级的数据库对象、100+PB数据量、数千个并发利用。此外，通过反对对象存储，HashData可能提供齐全兼容多个私有云与混合云的数据管理能力，能够提供近乎有限的扩大能力，为企业多云策略的施行提供了一个灵便易用的解决方案。华为存储提供了对第三方敌对的拜访接口、跨可用区和跨数据中心的数据同步、以及全局缓存服务，实现了异构数据源的对立拜访和计算引擎热插拔。在联结解决方案中，HashData云数仓基于华为OceanStor Pacific分布式存储的跨站点容灾、海量小对象减速、大小IO负载平衡、热温冷数据分级等个性，实现百万级表简单查问剖析、百亿小对象高速拜访和多数据中心容灾，满足企业在多云环境下的数据分析和业务连续性需要，提供极具性价比的数据分析服务，最大限度地开释数据价值。 HashData联结华为存储共建凋谢多云生态，代表着单方通过架构级翻新技术，突破多云间数据孤岛，推动和引领云上云下的零碎交融，充沛满足海量数据时代多样化负载的利用需要，帮忙企业减负提速。基于云原生架构的HashData云数仓，目前已广泛应用于金融、政务、电信、能源等行业。以金融行业为例，利用HashData联结华为打造云原生数仓计划，服务响应工夫从周缩短到分钟，极大地晋升了企业数据分析的效率。作为一款独立的国产数据库产品，HashData始终致力于以当先的技术升高企业数据分析的门槛，并积极参与建设自主可控的国产数据库产业生态。将来，HashData将携手更多合作伙伴，在数字化翻新的旅程中聚心协力，助力数字经济蓬勃发展。

关于数据库:谈谈MySQL的InnoDB存储引擎

大家好，我是易安！明天咱们谈一谈MySQL中InnoDB存储引擎。InnoDB存储引擎作为咱们最罕用到的存储引擎之一，充沛相熟它的的实现和运行原理，有助于咱们更好地创立和保护数据库表。 InnoDB体系架构InnoDB次要包含了内存池、后盾线程以及存储文件。内存池又是由多个内存块组成的，次要包含缓存磁盘数据、redo log缓冲等；后盾线程则包含了Master Thread、IO Thread以及Purge Thread等；由InnoDB存储引擎实现的表的存储构造文件个别包含表构造文件（.frm）、共享表空间文件（ibdata1）、独占表空间文件（ibd）以及日志文件（redo文件等）等。 1. 内存池咱们晓得，如果客户端从数据库中读取数据是间接从磁盘读取的话，无疑会带来肯定的性能瓶颈，缓冲池的作用就是进步整个数据库的读写性能。客户端读取数据时，如果数据存在于缓冲池中，客户端就会间接读取缓冲池中的数据，否则再去磁盘中读取；对于数据库中的批改数据，首先是批改在缓冲池中的数据，而后再通过Master Thread线程刷新到磁盘上。实践上来说，缓冲池的内存越大越好。缓冲池中不仅缓存索引页和数据页，还包含了undo页，插入缓存、自适应哈希索引以及InnoDB的锁信息等等。 InnoDB容许多个缓冲池实例，从而缩小数据库外部资源的竞争，加强数据库的并发解决能力。 InnoDB存储引擎会先将重做日志信息放入到缓冲区中，而后再刷新到重做日志文件中。 2. 后盾线程Master Thread 次要负责将缓冲池中的数据异步刷新到磁盘中，除此之外还包含插入缓存、undo页的回收等，IO Thread是负责读写IO的线程，而Purge Thread次要用于回收事务曾经提交了的undo log，Pager Cleaner Thread是新引入的一个用于帮助Master Thread刷新脏页到磁盘的线程，它能够加重Master Thread的工作压力，缩小阻塞。 3. 存储文件在MySQL中建设一张表都会生成一个.frm文件，该文件是用来保留每个表的元数据信息的，次要蕴含表构造定义。在InnoDB中，存储数据都是按表空间进行寄存的，默认为共享表空间，存储的文件即为共享表空间文件（ibdata1）。若设置了参数innodb\_file\_per\_table为1，则会将存储的数据、索引等信息独自存储在一个独占表空间，因而也会产生一个独占表空间文件（ibd）。如果你对共享表空间和独占表空间的了解还不够透彻，接下来我会详解。而日志文件则次要是重做日志文件，次要记录事务产生的重做日志，保障事务的一致性。 InnoDB逻辑存储构造InnoDB逻辑存储构造分为表空间（Tablespace）、段(Segment)、区(Extent)、页Page)以及行(row)。 1. 表空间（Tablespace）InnoDB提供了两种表空间存储数据的形式，一种是共享表空间，一种是独占表空间。 InnoDB 默认会将其所有的表数据存储在一个共享表空间中，即ibdata1。咱们能够通过设置innodb\_file\_per\_table参数为1（1代表独占形式）开启独占表空间模式。开启之后，每个表都有本人独立的表空间物理文件，所有的数据以及索引都会存储在该文件中，这样不便备份以及复原数据。 2. 段(Segment)表空间是由各个段组成的，段个别分为数据段、索引段和回滚段等。咱们晓得，InnoDB默认是基于B +树实现的数据存储。这里的索引段则是指的B +树的非叶子节点，而数据段则是B +树的叶子节点。而回滚段则指的是回滚数据，MVCC就是利用了回滚段实现了多版本查问数据。 3. 区(Extent) / 页（Page）区是表空间的单元构造，每个区的大小为1MB。而页是组成区的最小单元，页也是InnoDB存储引擎磁盘治理的最小单元，每个页的大小默认为16KB。为了保障页的连续性，InnoDB存储引擎每次从磁盘申请4-5个区。 4. 行（Row）InnoDB存储引擎是面向行的（row-oriented)，也就是说数据是按行进行寄存的，每个页寄存的行记录也是有硬性定义的，最多容许寄存16KB/2-200行，即7992行记录。 InnoDB事务之redo log工作原理InnoDB是一个事务性的存储引擎，而InnoDB的事务实现是基于事务日志redo log和undo log实现的。redo log是重做日志，提供再写入操作，实现事务的持久性；undo log是回滚日志，提供回滚操作，保障事务的一致性。 redo log又包含了内存中的日志缓冲（redo log buffer）以及保留在磁盘的重做日志文件（redo log file），前者存储在内存中，容易失落，后者长久化在磁盘中，不会失落。 InnoDB的更新操作采纳的是Write Ahead Log策略，即先写日志，再写入磁盘。当一条记录更新时，InnoDB会先把记录写入到redo log buffer中，并更新内存数据。咱们能够通过参数innodb\_flush\_log\_at\_trx\_commit自定义commit时，如何将redo log buffer中的日志刷新到redo log file中。 ...

关于数据库:智能扫描支持从MySQL实例在线抓取慢SQL

SQL审核工具 SQLE 2.2305.0-pre1于明天公布。以下对新版本的 Release Notes 进行具体解读。文章次要分为以下三局部内容：一、SQLE 我的项目介绍二、新版本次要性能总结三、残缺的release信息一、SQLE 我的项目介绍爱可生开源社区的 SQLE 是一款面向数据库使用者和管理者，反对多场景审核，反对标准化上线流程，原生反对 MySQL 审核且数据库类型可扩大的 SQL 审核工具。SQLE 获取二、新版本次要性能总结智能扫描反对从MySQL实例在线抓取慢SQL【企业版】在原先的慢日志扫描工作中，创立扫描工作后，还需进入终端配置scannerd 过程，扫描工作配置流程绝对较长。本次优化使得 sqle 能够间接从慢日志表中采集数据，防止用户进入终端操作，缩小用户应用慢日志扫描工作时的流程妨碍。以下是简略的应用体验：1.新建扫描工作，抉择慢日志扫描，并将采集起源设为1，通过 sqle 间接对实例的 mysql.slow_log 表进行查问新增参数：采集起源若起源设为0：该扫描工作将通过 scannerd 对 mysql-slow.log 进行采集若起源设为1：该扫描工作将通过 sqle 间接对实例的 mysql.slow_log 表进行查问2.配置数据库实例，须要留神以下设置set global long_query_time=1; // 需依据理论业务调整慢查问工夫阈值，此处仅供参考set global slow_query_log=1; // 开启慢日志查问set global log_output='FILE,TABLE'；// 开启 MySQL 的慢日志收集性能，并且确认将慢日志内容写入文件 mysql-slow.log 和表 mysql.slow_log3.在数据库中执行一条慢SQL，点击立刻审核，即可查看慢日志扫描的统计信息三、残缺的release信息Release Notes优化：[#1461] 智能扫描反对从MySQL实例在线抓取慢SQL【企业版】；[#1473] 增加数据源时依据数据源类型主动切换默认端口；缺点修复：[#1463] 修复一条MySQL规定不能触发的问题；[#1360] 修复批改流程模板后，工单进度显示异样的问题。

关于数据库:Fabarta-与青岛市城阳区政府达成战略合作共同推动区域数据要素市场建设

近日，青岛市“城市更新，向数而行”数字经济赋能实体产业主题流动在城阳区圆满收官，Fabarta 创始人兼 CEO 高雪峰缺席流动，并代表 Fabarta 与青岛市城阳区人民政府达成了策略单干，成为首批入驻产业园的数据因素生态链企业之一，将与各方携手独特推动区域数据因素市场的建设与倒退。此次主题流动邀请了政府领导、业内出名专家、数据因素与新城建畛域领军人物、片区外围企业代表等共计 300 余人加入，围绕新城建及数据因素将来发展趋势、数字经济和实体产业深度交融倒退之道等主题开展深入探讨，并在流动现场举办了数据因素产业园策略签约典礼，发表青岛市首个数据因素产业园揭牌并投入经营。作为首批入驻企业之一，Fabarta 将充分发挥数据因素技术生态链单干效力，响应青岛市城阳区政府以数据流通为外围，以业余服务为驱动打造全链条生态数据因素产业园建设总策略，抓住国家策略时机，作为产业园成员之一助力打造数据流通交易最沉闷、数据产业倒退生态最优的数据因素产业会聚区，为城市更新与经济倒退奉献数字新引擎。 Fabarta（北京枫清科技有限公司）作为一家专一于图智能畛域的国际化公司，致力于解决在大量异构数据环境下通过图智能技术开掘简单业务价值的问题，打造面向 AI 的 Infra（技术基础设施）。Fabarta 赋能企业客户和业务合作伙伴，帮忙他们更加便捷地利用图智能技术，智能化地梳理和盘点企业异构数据资产，为企业数据资产的价值评估和加工等重要环节提供无力反对。同时，Fabarta 还能够通过图智能技术对企业的数据资产进行加工，使其产生商业价值，并促成数据资产的价值流通。 Fabarta 目前的产品体系分为三层。根底层是 ArcGraph 图智能引擎，采纳分布式架构设计，交融了图数据库和图计算能力，提供更高速的查问性能和一体化应用体验，已实现中国信通院“可信数据库”评测。ArcGraph 图智能引擎为数据因素的治理与利用提供基础设施和技术保障，能够无效实现“以图算数”。中间层是低代码图剖析平台，简化简单的图技术细节，让图技术疾速落地于业务场景中，实用于数据因素的服务生态、价值评估和数据加工，进一步开释数据生产力，能够无效实现“以图用数。最上层是围绕垂直畛域打造的改革型利用，如图加强数据治理平台产品，利用图和 AI 技术切实解决数据因素治理以及企业数据资产盘点难题，帮忙企业实现分布式、自动化、智能化的数据管理，进步数据品质，无效实现“以图管数”，这也是施展数据因素价值的外围前提。作为首批入驻数据因素产业园的企业，Fabarta 将在市、区政府的大力支持下，认真履行落实各项工作责任，踊跃推动数字经济和实体产业的深度交融，为区域数据因素市场的建设和倒退提供无力反对，为生机城阳和数字青岛建设作出踊跃奉献，与各方共同努力创始共赢新场面。

关于数据库:如何保护自己的ip地址

随着互联网的倒退，咱们的个人信息也变得越来越容易被别人获取，其中包含咱们的IP地址。IP地址是一个数字地址，是互联网上惟一标识咱们的设施的标识符，不少伪造IP进行立功的事例日益增多，在局域网中IP地址被他人盗用的景象也时有发生。为了避免非法用户获取本人计算机中的IP地址信息，保障本身平安，咱们有必要学会如何爱护本人电脑IP地址。一、停用网络连接服务如果限度用户批改TCP/IP参数的话，那么这些用户即便批改IP地址也无奈应用新的IP地址，这样就失去了盗用IP的意义。要胜利限度用户随便批改TCP/IP参数最间接的办法就是让用户无奈关上TCP/IP参数设置窗口。操作方法：1、首先单击“开始”菜单中的“运行”命令，在关上的零碎运行对话框中，输出“services.msc”命令，单击“确定”；2、关上零碎的服务列表界面，鼠标右击其中的“NetworkConnections”服务项目，从弹出的快捷菜单中单击“属性”命令3、关上服务属性设置界面，单击该界面中的“停用”按钮，将“启动类型”选为“已禁用”，单击 “确定二、限度批改网络参数如果限度普通用户的管理权限，让其无权关上TCP/IP参数设置窗口，那普通用户也不能随便批改IP地址。而对于Windows98来说，要想限度用户批改网络参数只有批改注册表中的相干网络键值就能达到目标。操作方法：1、顺次单击“开始” “运行”命令，在其后呈现的运行对话框中，输出“regedit”，单击“确定”；2、关上零碎注册表编辑窗口，将鼠标定位到 HKEY_USERS＼。DEFAULT＼Software＼Microsoft＼Windows＼CurrentVersion＼Policies＼Network 分支上。3、在界面的右侧区域顺次单击菜单栏中的“编辑”、“新建”、“Dword值”选项，将新建的Dword值命名为 “NoNetSetup”，数值输出为“1”；4、重启计算机。此时右击网上邻居图标，执行快捷菜单中的“属性”命令，零碎就会提醒你无奈进入网络属性设置窗口，如此一来也就达到了限度批改IP地址的目标。该办法仅对Windows98操作系统无效三、限度拜访网络属性此办法与后面的思路是一样的，但该办法只能用于Windows2000以上版本的操作系统。操作方法：1、关上零碎运行框，并在其中输出“gpedit.msc”字符串命令，单击“确定”；2、关上零碎的组策略编辑窗口。顺次双击“用户配置” “治理模板” “网络” “网络及拨号连贯”图标，在弹出的界面中，双击右侧的“禁止拜访LAN连贯组件的属性” 选项；3、在呈现的设置框中，选中“已启用”选项，并单击“确定”按钮。此时你再进入网络连接属性界面，选中其中的“Internet协定（TCP/IP）”我的项目时，就会看到对应的“属性”按钮变为灰色了，普通用户就无奈关上TCP/IP参数设置窗口批改IP地址了。四、暗藏本地连接图标个别状况下，批改计算机IP地址都须要先右击零碎的本地连接图标，在右件菜单中执行“属性”命令能力进入到 TCP/IP参数设置窗口。因而只有将本地连接图标暗藏起来，那么普通用户也同样没有方法关上TCP/IP参数设置窗口批改IP地址。因为本地连接图标与零碎的Netcfgx.dll、Netshell.dll、Netman.dll这三个动静链接文件无关，将这三个动静链接文件反注册本地连接图标就会被自动隐藏起来。操作方法：1、关上零碎运行框，输出“regsvr32Netcfgx.dll/u”命令（其中regsvr32命令、动静链接文件之间要保留一个空格），单击 “确定”，就把 Netcfgx.dll文件反注册了；2、另外两个文件反注册的办法同上，随后重启计算机，而后尝试关上网络和拨号连贯窗口时本地连接图标就隐没了。五、暗藏网上邻居将网上邻居图标暗藏之后也同样无奈进入TCP/IP参数设置窗口，暗藏网上邻居的办法有很多，但本文为大家介绍的是零碎策略法，该办法能够在Windows98和Windows2000零碎中应用。操作方法：1、单击“开始”、“运行”命令，输出“poledit”字符串命令，单击“确定”；2、关上零碎策略编辑界面，单击该界面“文件”菜单项中的“关上注册表”命令；3、在弹出的界面中双击“本地用户”图标，顺次开展“本地用户”、“外壳界面”、“限度”分支，选中“暗藏网上邻居”，单击“确定”返回。实现之后在零碎策略编辑界面单击工具栏中的“保留”按钮，重启计算机系统，零碎桌面上的网上邻居图标就隐没了。在日常应用网络时，咱们要做到以下点来爱护咱们的ip1.将本人的浏览器平安水平设置最高状态，禁止Cookie 、ActiveX、Java ,也能够匿名上网，不在浏览器上留下历史痕迹尽量应用代理服务器上网,如是个别浏览可不用,但如果是在论坛或BBS上发表舆论或文章,则肯定要应用SSL、URL加密形式。若是应用这种加密形式不能上到某些论坛或BBS,则就不应发表舆论。对于来源不明的电子邮件、信息、图片等文件，不接管,不回复,坚定予以删除。装置各种防毒、查毒、杀毒软件和防火墙软件，及时更新这些软件的病毒库,定期对本机进行查毒和杀毒解决,预防和分明各种木马病毒、恶意代码等等，使咱们的电脑始终处于爱护之中。5.ip地址查问，通过查问[ip地址信息](https://www.ipdatacloud.com/?utm-source=Lik&utm-keyword=?1059)，能晓得你的ip危险，如存在危险或被标记

关于数据库:数据库运维实操优质文章分享含OracleMySQL等-2023年4月刊

本文为大家整顿了墨天轮数据社区2023年4月公布的优质技术文章，主题涵盖Oracle、MySQL、PostgreSQL等数据库的根底装置配置、故障解决、性能优化等日常实际操作，以及概念梳理、罕用脚本、注意事项等总结记录，分享给大家： Oracle优质技术文章概念梳理&根底配置 Oracle之嵌套循环连贯（Nested Loops Joins）数据库迁徙的123（Part I）为什么迁徙只需三步疾速体验 Oracle 23c 开发版Oracle Database 23c Free版在Centos 8上的装置及其局部新个性尝试Oracle 数据库装置过程中须要留神的参数及解释Oracle 19c静默装置ASM和单实例数据库Oracle 19c RAC 静默装置VM装置redhat-server7.9搭建Oracle19C RAC（一）环境配置故障剖析与解决 SQL执行效率渐变的起因及处理方法SQL的处理过程及可能遇到的期待事件ASM磁盘组状态PROVISIONED导致crs无奈启动SQL语句Cost破费判断ora-600 [kpncxcc-1], [12], [5], [7]报错剖析及复现故障解决案例--19c建库辨认不到磁盘组MySQL、PG及国产数据库相干技术文章MySQL相干技术文章 MySQL8.0 权限体系)MySQL代理用户Proxy UserMySQL8.0 身份验证插件解读MySQL 8.0双明码个性和随机明码性能MySQL 服务器 sys CPU usage高问题剖析MySQL 登录报 ERROR 1045 (28000) 谬误的问题汇总简略的三表关联，MySQL驱动表选错导致性能升高744倍--解决问题并剖析起因MySQL 呈现long semaphore wait 导致数据库hang住无奈提供服务采纳Keepalived（VIP）作为MySQL主从高可用架构时的一些倡议 PG相干技术文章 PG如何查看用户领有的各类对象的操作权限PG 故障剖析之 select count(*) 产生大量WAL 日志如何查找在PostgreSQL中的缺失分区（range partition）？PG 之 WAL 日志 compression基于PG 15搭建主备操作步骤PostgreSQL精选问答（含分区、函数试用及故障解决等）国产数据库相干技术文章 openGauss新个性之两地三核心跨region容灾openGauss5.0.0企业版一主一备一级联装置指南openGauss的数据库审计性能AntDB-S流式数据库体验 AntDB-S流式数据库体验达梦DM8数据库命令行信创环境装置：一MogDB - 解决DB2数据库以非凡分隔符导出文件，导入Mogdb报错案例一则「OceanBase 4.1 体验」疾速体验 OceanBase 4.1 数据库部署演示环境「OceanBase 4.1 体验」全链路跟踪监控治理聊聊StarRocks向量化执行引擎-过滤操作这些文章中有大家日常会遇到的操作、故障解决，文章构造残缺、逻辑清晰，其中故障解决主题类文章均蕴含问题景象（具体报错等）、问题定位与剖析、问题解决、问题总结等几个方面，可参考价值很强，心愿对大家有所帮忙。 ...

关于数据库:PolarDBX-致数据库行内人-一-如何有效评测国产数据库的分布式事务

关于数据库:吃下-GuanceDB-狗粮后观测云查询性能提升超-30-倍

2023 年 4 月 23 日，观测云正式公布自研时序数据库 GuanceDB，并在当天利用到了观测云所有 SaaS 节点的底座。此次降级性能晋升的成果空谷传声，比照之前应用 InfluxDB 的环境资源占用大幅升高、查问性能显著晋升，咱们胜利地吃上了本人的狗粮。咱们也深知 talk is cheap show me the benchmark 的情理，这里公布咱们在近期实现的 GuanceDB 性能压测报告。压测计划阐明本次测试的指标是比照 GuanceDB、InfluxDB 和某出名开源时序数据库（简称 xxDB）在雷同的写入负载和查问条件下的性能体现及资源占用状况。对于测试工具：咱们比照 tsbs (https://github.com/timescale/tsbs)、prometheus-benchmark (https://github.com/VictoriaMetrics/prometheus-benchmark) 两种时序数据库的压测计划。其中 prometheus-benchmark 结构了更偏实在环境的继续写入负载，指标数值的变动也更实在，所以咱们次要参考 prometheus-benchmark 来结构本次测试。原 prometheus-benchmark 计划中应用了 vmagent (https://docs.victoriametrics.com/vmagent.html) 来抓取和写入指标，但咱们明天测试的 3 种数据库对 Prometheus 写入协定反对力度不一，没法一起比拟。所以咱们对 vmagent 进行了一些革新，让其反对了 InfluxDB 的行写入协定。本次测试的最终计划如下：部署的一个单机的 node-exporter ，其裸露宿主机的 1383 个实在指标部署 Nginx 反代并缓存 node-exporter 后果 1s，升高频繁申请的压力调整 agent 的抓取配置，模仿生成不同的 node-exporter 实例数以生成不同的写入负载agent 以雷同的申请大小、频率将数据同时以 influx 协定 http 接口写入三种时序数据库软件版本： ...

关于数据库:Tapdata-的-∞-实践中小企业如何轻量高效地搭建起一个灵活易用的数字化平台

数字化浪潮的裹挟下，企业的转型之路正在变得更加清晰。然而在数字化转型这条企业生存和倒退的必由之路上，更易受到市场变动冲击、所处环境竞争压力更大的中小企业无疑在面临更多的艰难和挑战。一方面，中小企业为了顺应时代潮流、适应市场需求，须要踊跃采取措施，推动数字化转型，实现本身的可继续倒退。另一方面，中小企业通常又并不具备十分业余的数字化经营教训和常识，难以自主落地计划打算。再加之组织架构绝对扁平，一时间也难以造成无效的数字化团队。与此同时，随着市场竞争压力一直增大，企业开始意识到须要通过数字化平台晋升企业效率和竞争力，但数字化平台建设周期较长，不仅须要投入大量的开发和经营老本，还难以疾速实现价值。更不用提客户需要多变、业务条线调整等诸如此类“计划外”的挑战。面对这些问题，如何轻量、高效地搭建起一个灵便易用的数字化平台，就成了中小企业减速实现数字化转型指标的要害且必要的一环。上面咱们就以某小型守业公司产品经营团队的数据需要为例，展现其疾速搭建数字平台，为本身业务与产品优化的经营洞察继续供数的实现逻辑，心愿能给大家提供一些参考。一、抓住问题外围：产品稳定性和用户留存率该如何保障？该公司的外围业务条线大抵可分为产品研发、客户胜利、市场经营、业财老本、人力资源五个大块。在经营过程中，公司不可避免地遇到了一些挑战，次要是产品稳定性导致客户的满意度不高，其次是某款线上产品用户的留存度较低。这无疑给企业带来了潜在的增长和经营的危险，像是：产品稳定性晋升迟缓，客户感知不显著，存在产品下线危险；用户留存比例低，导致引流老本节约，面临口碑升高危险；产研团队始终忙碌，但功效不显著，存在资源低效危险……究其实质，都能够了解为“数据的问题”，须要通过数据驱动来解决。首先，产品稳定性须要通过数据监控来实现。例如，通过监控零碎数据来发现潜在的问题，并及时采取措施加以解决，这能够防止因为系统故障导致用户散失和信用降落。其次，用户留存率也须要通过数据来剖析和优化。通过收集和剖析用户行为数据，企业能够更好地理解用户需要和习惯，制订更加精准的经营策略，从而晋升用户留存率。二、数据思维拆解问题：继续的业务改良和产品优化依赖于数字化的驱动构建洞察+响应体系，及时关注并干涉要害经营问题对此，公司管理层依据理论状况提出了相应的经营动作，即构建洞察和响应体系，对要害经营问题及时关注并进行干涉。此举不仅有助于进步决策品质，帮忙企业理解本身优劣势，发现资源的利用率和瓶颈从而加以资源配置优化，解决现有窘境，还能帮忙企业在深刻理解市场和客户需要的过程中，更好地把握市场机会，迅速响应市场变动，提供合乎客户需要的产品和服务，继而加强市场影响力和竞争力。至于实现步骤方面，首先要在各业务条线上找出影响次要问题的要害指标；再针对这些指标收集数据，建设实时的数字化治理看板；而后通过指标共享，聚焦团队指标，响应并采取改良伎俩；最初促使指标向指标方向一直推动。措施→落地的业务需要剖析思路曾经清晰，下一步就得思考该经营动作如何疾速无效地落地执行？通过剖析企业需要发现，在整个公司层面而言，构建洞察和响应体系其实质是依据增长指标发现次要问题，而后采取措施，最初依据成果和反馈不断改进，建设新的阶段性的指标。这实际上是一个典型的 PDCA (Plan-Do-Check-Act) 治理循环，以数据为导向，通过数据采集进行剖析，对改良措施提供及时无效的反馈和调整。具体到五个经营条线，以面临留存率挑战的线上产品经营的业务条线为例，经营团队一共提出了蕴含日/周/月/季/年用户注册比率、用户转化漏斗、用户转化环节使用率等在内的 6 个指标和微信经营干涉推送 1 个操作措施。从总体用户增长趋势，察看产品经营态势；从用户各环节转化率，剖析用户在各阶段推动的法则和特点；依据实时数据变动，及时干涉用户行为，助力达成预期指标。这样一个产品经营的 PDCA 改良闭环是基于对用户行为现状的数据采集，而后建设量化的指标，比方各阶段的转化率等等。接下来通过微信推送等实时的用户行为干涉来检测和剖析各个指标的变动，为下一个阶段的指标提供根据。其余各个业务条件也都是这个落地逻辑——基于这样有数字加持的 PDCA 闭环，为公司整体的增长提供能源。落地计划的剖析和选型眼下，公司的动作和业务需要逻辑都曾经相当的清晰，这个需要的特点就是重视定量的剖析；高度依赖数据的采集、剖析和提炼展现；并对数据实时性有肯定的要求，重反馈；同时也存在与内部零碎的数据交互，须要疾速的落地实现。这些个性自然而然地又为后续的落地执行带来了一些挑战，其痛点例如：业务数据来源于多个利用，类型多样；各业务指标数据存在穿插和反复，须要长效治理；各条线业务运营者不足数据采集和解决的无效伎俩，自动化的进行实时业务的解决十分艰难……基于上述情况，为了疾速实现施行落地，思考了以下几种数字化看板计划： ① 大数据平台 + BI这类计划的长处在于市面上有泛滥，而且是现成的计划可供选用，但毛病在于架构重，部署简单，往往须要有专人培训应用、治理和运维，隐性老本很高。 ② 企业自在研发当然企业也能够抉择自研开发，长处在于不便进行定制化开发，但思考到这毕竟不是企业的主营业务，却占用了企业的次要资源，投入产出比并不高。 ③ Tapdata + Metabase其中，Tapdata Cloud（SaaS）是一个实时数据服务平台，负责汇聚、开发指标数据；Metabase 则是一个开源的 BI 剖析展现工具。前者为 SaaS 服务，即开即用，无需部署；提供实时的数据服务，反对即时经营需要；数据工作配置即可实现，根本无需代码，操作简略。后者 Metabase 则能够对接多种多样的数据库，展现功能丰富，应用也十分不便。落地计划：Tapdata + Metabase 疾速搭建数字化看板基于上述剖析，最初抉择了 Tapdata + Metabase 的组合，即疾速搭建从多数据源汇聚、开发到看板展现的全链路实时服务。这套数字化看板计划展现出了以下一些特点： - 疾速出现多样化指标全面撑持不同的业务指标需要实时汇聚各业务 App 零碎数据轻量架构，确保我的项目疾速落地- 从源到终端的全链路交付从数据源端到终端看板，搭建残缺数据链路紧扣业务经营需要的交钥匙工程易上手懂业务即可操作，满足将来需要在原有 App 能力上补充，不另建零碎，缩小投入其最大的劣势也很显著：整体架构轻量，低代码开发，疾速实时，应用成本低，保护不便。 ...

关于数据库:从-Elasticsearch-到-Apache-Doris构建-10-倍性价比提升的新一代日志存储分析平台

作者介绍：肖康，SelectDB 技术副总裁导语日志数据的解决与剖析是最典型的大数据分析场景之一，过来业内以 Elasticsearch 和 Grafana Loki 为代表的两类架构难以同时兼顾高吞吐实时写入、低成本海量存储、实时文本检索的需要。Apache Doris 借鉴了信息检索的核心技术，在存储引擎上实现了面向 AP 场景优化的高性能倒排索引，对于字符串类型的全文检索和一般数值、日期等类型的等值、范畴检索具备更高效的反对，相较于 Elasticsearch 实现性价比 10 余倍的晋升，以此为日志存储与剖析场景提供了更优的抉择。日志数据分析的需要与特点日志数据在企业大数据中十分广泛，其体量往往在企业大数据体系中占据十分高的比重，包含服务器、数据库、网络设备、IoT 物联网设施产生的零碎运维日志，与此同时还蕴含了用户行为埋点等业务日志。日志数据对于保障系统稳固运行和业务倒退至关重要：基于日志的监控告警能够发现零碎运行危险，及时预警；在故障排查过程中，实时日志检索能帮忙工程师疾速定位到问题，尽快恢复服务；日志报表能通过长历史统计发现潜在趋势。而用户埋点日志数据则是用户行为剖析以及智能举荐业务所依赖的决策根底，有助于用户需要洞察与体验优化以及后续的业务流程改良。因为其在业务中能施展的重要意义，因而构建对立的日志剖析平台，提供对日志数据的存储、高效检索以及疾速剖析能力，成为企业开掘日志数据价值的要害一环。而日志数据和利用场景往往出现如下的特点：数据增长快：每一次用户操作、零碎事件都会触发新的日志产生，很多企业每天新增日志达到几十甚至几百亿条，对日志平台的写入吞吐要求很高；数据总量大：因为本身业务和监管等须要，日志数据常常要存储较长的周期，因而累积的数据量常常达到几百 TB 甚至 PB 级，而较老的历史数据拜访频率又比拟低，面临惨重的存储老本压力；时效性要求高：在故障排查等场景须要能疾速查问到最新的日志，分钟级的数据提早往往无奈满足业务极高的时效性要求，因而须要实现日志数据的实时写入与实时查问。这些日志数据和利用场景的特点，为承载存储和剖析需要的日志平台提出了如下挑战：高吞吐实时写入：既须要保障日志流量的大规模写入，又要反对低提早可见；低成本大规模存储：既要存储大量的数据，又要升高存储老本；反对文本检索的实时查问：既要能反对日志文本的全文检索，又要做到实时查问响应；业界日志存储剖析解决方案以后业界有两种比拟典型的日志存储与剖析架构，别离是以 Elasticsearch 为代表的倒排索引检索架构以及以 Loki 为代表的轻量索引/无索引架构，如果咱们从实时写入吞吐、存储老本、实时交互式查问性能等几方面进行比照，不难发现以下论断：以 ES 为代表的倒排索引检索架构，反对全文检索、查问性能好，因而在日志场景中被业内大规模利用，但其仍存在一些有余，包含实时写入吞吐低、耗费大量资源构建索引，且须要耗费微小存储老本；以 Loki 为代表的轻量索引或无索引架构，实时写入吞吐高、存储老本较低，然而检索性能慢、要害时候查问响应跟不上，性能成为制约业务剖析的最大掣肘。 ES 在日志场景的劣势在于全文检索能力，能疾速从海量日志中检索出匹配关键字的日志，其底层核心技术是倒排索引（Inverted Index）。倒排索引是一种用于疾速查找文档中蕴含特定单词或短语的数据结构，最早利用于信息检索畛域。如下图所示，在数据写入时，倒排索引能够将每一行文本进行分词，变成一个个词（Term），而后构建词（Term） -> 行号列表（Posting List）的映射关系，将映射关系依照词进行排序存储。当须要查问某个词在哪些行呈现的时候，先在词 -> 行号列表的有序映射关系中查找词对应的行号列表，而后用行号列表中的行号去取出对应行的内容。这样的查问形式，能够防止遍历对每一行数据进行扫描和匹配，只须要拜访蕴含查找词的行，在海量数据下性能有数量级的晋升。图：倒排索引原理示意倒排索引为 ES 带来疾速检索能力的同时，也付出了写入速度吞吐低和存储空间占用高的代价——因为数据写入时倒排索引须要进行分词、词典排序、构建倒排表等 CPU 和内存密集型操作，导致写入吞吐大幅降落。而从存储老本角度思考，ES 会存储原始数据和倒排索引，为了减速剖析可能还须要额定存储一份列存数据，因而 3 份冗余也会导致更高的存储空间占用。 Loki 则放弃了倒排索引，尽管带来来写入吞吐和存储空间的劣势，然而损失了日志检索的用户体验，在关键时刻不能施展疾速查日志的作用。老本尽管有所升高，然而没有真正解决用户的问题。更高性价比的日志存储剖析解决方案从以上计划比照可知，以 Elasticsearch 为代表的倒排索引检索架构以及以 Loki 为代表的轻量索引/无索引架构无奈同时兼顾高吞吐、低存储老本和实时高性能的要求，只能在某一方面或某几方面做衡量取舍。如果在放弃倒排索引的文本检索性能劣势的同时，大幅晋升零碎的写入速度与吞吐量并升高存储资源老本，是否日志场景所面临的窘境就迎刃而解呢？答案是必定的。如果咱们心愿应用 Apache Doris 来更好解决日志存储与剖析场景的痛点，其实现门路也十分清晰——在数据库外部减少倒排索引、以满足字符串类型的全文检索和一般数值/日期等类型的等值、范畴检索，同时进一步优化倒排索引的查问性能、使其更加符合日志数据分析的场景需要。 ...

关于数据库:根据IP地址确定具体位置

IP地址追踪能够确定大抵的地理位置，但无奈精确定位到具体位置。这是因为IP地址是由互联网服务提供商(ISP)调配的，通常一个ISP会笼罩一个或多个城市或地区，因而能够确定IP地址所在的城市或地区，但无奈精确定位到具体的建筑物或地址。IP地址的地理位置能够通过IP地址地理位置数据库进行查问，这些数据库会收集和更新寰球IP地址的地理位置信息，并提供一个API接口或网页查问服务。IP地址查问能够应用以下办法：应用在线IP地址查问工具：许多网站提供收费的IP地址查问服务，例如ip66。您只需输入您想要查问的IP地址，而后点击“查问”按钮即可取得相干信息。应用命令行工具：如果您应用的是Windows操作系统，能够应用“命令提示符”工具（cmd.exe）并输出“ping IP地址”来查问IP地址。如果您应用的是Linux或Mac OS，能够应用“终端”工具并输出“ping IP地址”来查问IP地址。应用IP地址查问工具：您能够下载并装置IP地址查问工具，例如“IP地址追踪器”或“IP地址查找器”，这些工具能够帮忙您查问IP地址的详细信息，例如地理位置、ISP等。请留神，IP地址查问后果可能会因为多种起因而产生偏差，例如IP地址可能是动静的，意味着它可能会更改，或者某些ISP可能会应用代理服务器来暗藏其客户端的实在IP地址。上面重点IP数据云工具查询方法IP数据云 - 收费IP地址查问 - 寰球IP地址定位平台查问是一种基于云计算和大数据分析技术，提供IP地址查问和定位服务的形式。能够通过对宏大的IP地址数据库进行查问，疾速精确地确定任何一个IP地址的地理位置、网络运营商等信息。以下是应用IP数据云查问的个别步骤：注册一个IP数据云查问账户，并获取相应的API密钥。这些信息将用于API调用和付费计费。调用IP数据云查问API，将须要查问的IP地址传递给API，查问返回的信息将包含该IP地址的地位、网络运营商、ASN号码等信息。解析API返回的信息。IP数据云查问API通常会返回JSON格局的数据，您能够应用相应的JSON解析库将其解析成您所需的数据格式。应用IP数据云查问后果进行您的业务。例如，您能够将查问后果用于网站地理位置定位、反欺诈检测、广告投放等畛域。

关于数据库:MySQL一次大量内存消耗的跟踪

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。文章起源：GreatSQL社区原创线上应用MySQL8.0.25的数据库，通过监控发现数据库在查问一个视图(80张表的union all)时内存和cpu均显著回升。在8.0.25 MySQL Community Server官网版本测试发现：只能在视图上进行数据过滤，不能将视图上的过滤条件下推到视图内的表上进行数据过滤。8.0.29当前的版本已解决该问题。 MySQL视图拜访原理上面是在8.0.25 MySQL Community Server上做的测试应用sysbench 结构4张1000000的表 mysql> select count(*) from sbtest1;+----------+| count(*) |+----------+| 1000000 |+----------+1 row in set (1.44 sec)mysql> show create table sbtest1;| Table | Create Table | sbtest1 | CREATE TABLE `sbtest1` ( `id` int NOT NULL AUTO_INCREMENT, `k` int NOT NULL DEFAULT '0', `c` char(120) COLLATE utf8mb4_0900_bin NOT NULL DEFAULT '', `pad` char(60) COLLATE utf8mb4_0900_bin NOT NULL DEFAULT '', PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=2000000 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_bin |+---------+-----------------------------------------------------------------------------------1 row in set (0.00 sec)手工收集表统计信息mysql> analyze table sbtest1,sbtest2 ,sbtest3,sbtest4;+----------------+---------+----------+----------+| Table | Op | Msg_type | Msg_text |+----------------+---------+----------+----------+| sbtest.sbtest1 | analyze | status | OK || sbtest.sbtest2 | analyze | status | OK || sbtest.sbtest3 | analyze | status | OK || sbtest.sbtest4 | analyze | status | OK |+----------------+---------+----------+----------+4 rows in set (0.17 sec)创立视图drop view view_sbtest1 ;Create view view_sbtest1 as select * from sbtest1 union all select * from sbtest2 union all select * from sbtest3 union all select * from sbtest4;查问视图Select * from view_sbtest1 where id=1; mysql> Select id ,k,left(c,20) from view_sbtest1 where id=1;+----+--------+----------------------+| id | k | left(c,20) |+----+--------+----------------------+| 1 | 434041 | 61753673565-14739672 || 1 | 501130 | 64733237507-56788752 || 1 | 501462 | 68487932199-96439406 || 1 | 503019 | 18034632456-32298647 |+----+--------+----------------------+4 rows in set (1 min 8.96 sec)通过主键查问数据，查问返回4条数据，耗时1分8.96秒查看执行打算从执行打算上看，先对视图内的表进行全表扫描，最初在视图上过滤数据。 ...

关于数据库:焱融存储方案入选爱分析智能制造最佳实践案例

近日，“2023 爱剖析·智能制作最佳实际案例”评选活动落下帷幕。流动面向智能制造厂商，围绕实际当先性、案例创新性、利用成熟度、价值发明四个维度对候选实际案例进行评比。该奖旨在必定智能制作畛域当先企业的数字化翻新利用和最佳实际，通过申报、初评、调研、终评多轮角逐，焱融科技实现「美的团体翻新核心 AI 训练平台高性能存储计划」胜利入选最佳实际案例。近年来，智能制作逐步成为制作企业提振生机、晋升效益的必行之道。智能化、高端化是我国制造业重点发力方向，为放慢建设现代化产业体系，放慢传统产业和中小企业数字化转型，借助数字化能力帮忙制作企业提质增效成为企业晋升竞争力的关键所在。基于此，企业须要踊跃借助大数据、云计算、人工智能、物联网等技术，搭建并欠缺企业智能制作体系，推动我国智能制作倒退过程。以后，企业制作数字化实际不足以业务为外围的思维，虽有庞杂的数据会集，但难以无效治理和盘活数据资源，在数字化转型过程中面临存储瓶颈；其次，企业在智能制作实际的过程中对新技术的利用能力较弱，由此限度了业务的倒退。焱融科技作为一家专一于软件定义存储技术及数据服务的高新技术企业，为多家世界 500 强制作企业提供高效的数据存储和治理服务，其自主研发的分布式文件存储系统 YRCloudFile 因为采纳分布式架构，具备灵便的弹性扩大能力，可满足制作业务倒退对存储容量和性能同步晋升的需要，并反对多种产品状态和部署架构，既具备传统并行存储的高性能，又可满足制造业要害业务和新兴业务的存储诉求，助力企业构筑混合云时代下的数据基础设施变革，让企业更专一于业务倒退和技术能力的晋升，一直进步外围竞争力及对以后新技术的利用能力，减速并丰盛其利用落地，抢占高质量倒退新高地。

关于数据库:2023年4月中国数据库行业分析报告正式发布尽览数据库技术变革与创新

为了帮忙大家及时理解中国数据库行业倒退现状、梳理以后数据库市场环境和产品生态等状况，从2022年4月起，墨天轮社区行业剖析钻研团队出品将继续每月为大家推出最新《中国数据库行业剖析报告》，继续流传数据技术常识、致力促成技术创新与行业生态倒退，目前已更至第十二期。4月《中国数据库行业剖析报告》已正式公布（点击即可跳转，欢送大家下载查阅），本期为DTC演讲精髓荟萃特辑，除了盘点了墨天轮“中国数据库风行度排行”、产品投融资等业内资讯外，对20+产品案例进行解析以梳理以后国内数据库技术的产品改革和生态翻新，蕴含云原生、智能化、NoSQL等多个技术创新及实际，望助力大家充沛理解国产数据库倒退现状与将来趋势。一、数据库排行榜及前沿动静4月中国数据库风行度排名剖析2023年4月的墨天轮中国数据库风行度排行榜共263个数据库参加排名，榜单前十用一句话能够概括为：OTO 组合崩溃，达梦厚积薄发夺探花；榜单第五至十名较上月未有变动。其中，榜单前三时隔4月迎来变动，OceanBase 间断五个月取得榜首，TiDB 取得榜眼，达梦以553.46分夺得探花。本月排行榜前30的数据库中，有13个数据库锋芒毕露，处于上行趋势。其中，在本月排行榜十名中，亚信科技旗下通用型企业级数据库产品 AntDB 本月排名较上月回升一位至第11位，相比于一年有微小飞跃；神舟通用自往年2月开始进入前20的“竞技圈”后已有两个月放弃着劣势位置；云和恩墨推出的企业级关系型数据库产品 MogDB 本月排名较上月回升一位至第16名；星环科技打造的分布式关系型数据库 KunDB 本月回升三个位次至第22名等。数据库行业倒退动静为帮忙大家把握更多行业最新要闻、资讯，咱们对近期行业重大产品公布、投融资等资讯及交流活动进行了整顿。其中，介绍了行业热议的腾讯云数据库8.14亿登顶 TPC-C 排行榜、2023年数据技术嘉年华胜利举办等资讯；并对 openGauss 5.0.0 版本、Oracle Database 23c 收费开发者版的正式公布进行介绍；此外，展现了内存数据库初创公司 DragonflyDB Inc 以及泽拓科技取得新一轮融资等资讯。此处因篇幅所限仅截选局部内容，具体内容可查阅报告。其中，墨天轮社区已与人民邮电出版社达成单干，将来将围绕数据库技术内容及墨天轮品牌内容开展更深度的单干，助力行业凋敝倒退。此处因篇幅所限仅截选局部内容，具体内容可查阅报告。二、中国数据库产品改革本章筛选了 openGauss、阿里云、TiDB、OceanBase、GaussDB、AntDB、MogDB 等11个数据库的技术创新与实际案例，别离展现了在数字化转型过程一直减速推动、各类技术倒退改革之际，各个国产数据库产品以后最新的外围架构、倒退理念及其技术摸索实际。首先，以以后中国数据库风行度排行榜上排名靠前的几款数据库产品为例，介绍了其最新倒退策略及技术实际，如 openGauss 自2020年6月开源以来，始终围绕”四高“（高性能、高可用、高智能、高平安）冲破翻新数据库核心技术；阿里云云原生数据库提出主导将来数据库倒退的外围“四化”（云原生化、平台化、一体化、智能化）趋势以及“四做“（做深根底、做强外围、做精场景、做好体验）的倒退门路；TiDB 提出的DB微服务化、云原生以及智能化等三个技术演进方向等等。受篇幅所限此处仅展现局部内容，具体内容可查阅报告。此外，针对以后需要侧与技术侧的倒退变动，数据技术未然呈现出交融发展趋势，本期报告则选取了近期发展势头较猛的几款数据库介绍其在数据库交融技术等方面的倒退与冲破。如介绍四维纵横推出的超交融型分布式数据库产品 YMatrix 的架构性能、亚信科技 AntDB 数据库如何具备超交融+流式实时数仓的双重能力、实时云原生数仓 Databend 的数据仓库解决方案以及 MatrixOne 这一 HSTAP 数据库的摸索与翻新等，本章节均进行了具体分析，大家可查阅报告理解。三、中国数据库生态翻新以后，国产数据库高速倒退催生了企业对数据库服务的微小需要，针对创立更加欠缺的数据库服务生态业内已有摸索翻新与较为成熟的案例。本章则围绕数据库服务、智能运维翻新技术以及数据库中间件、软硬件倒退层面，选取典型案例进行介绍。首先是智能运维与自治零碎层面，介绍了数据库可观测性能力的作用、利用场景等，并对基于常识图谱的主动诊断门路进行解析，展现如何帮忙运维人员晋升工作效率。此外介绍了云和恩墨自治智能的数据库云管平台 zCloud 的性能与利用场景；新一代多云数据智能 SQL 治理平台 NineData 如何通过内置 AI 生成能力让用户间接通过自然语言发问及运维治理；openGauss AI4DB 的整体运维架构与利用性能展现。此外，报告选取了 Apache ShardingSphere 以及 zData X 别离介绍了数据库中间件在晋升数据拜访架构能力层面的利用实际，以及基于分布式存储软件的数据库一体机落地翻新。此处因篇幅所限不作具体展现，大家能够下载报告获取更多内容。四、中国数据库产品案例集报告最初一章则选取了几款国内深耕不同畛域且获得肯定问题的数据库产品案例进行了展现，诸如华为云 GaussDB、腾讯云 TDSQL、PingCAP TiDB、阿里云瑶池、金篆信科 GoldenDB、云和恩墨MogDB 以及科蓝 SUNDB 等，通过本章能够疾速理解到这些数据库的利用场景、助力不同行业实现国产化落地实际的典型案例。此处仅展现其中几张内容，大家能够下载报告获取更多内容。本文仅对4月《中国数据库行业剖析报告》的局部内容进行了摘录、整顿，更多残缺、具体内容大家能够下载报告全文理解，也欢送各位数据行业同道交换、探讨、建言献策，咱们一起见证、独特助力中国数据库产业的发展壮大！报告全文下载地址：https://www.modb.pro/doc/101873往期报告下载2022年4月-2023年3月中国数据库行业剖析报告合辑2022年中国数据库行业年度剖析报告更多精彩内容尽在墨天轮数据社区，围绕数据人的学习成长提供一站式的全面服务，继续促成数据畛域的常识流传和技术创新。增加社区墨天轮小助手（VX：modb666）可获取更多技术干货。

关于数据库:新手必看｜StarRocks-入门教程来啦

作为一款高性能剖析型数据库，StarRocks 既反对从各类实时和离线的数据源高效导入数据，也反对间接剖析数据湖上多种格局的数据。StarRocks 高可用、高牢靠、易运维等个性使其广泛应用于实时数仓、OLAP 报表、数据湖剖析等场景并取得了各行业领军企业的青眼。面对越来越多的用户应用 StarRocks 撑持线上业务剖析场景，老手小伙伴在首次接触 StarRocks 时，常常会遇到以下困扰：如何手动部署 StarRocks 集群？如何在 StarRocks 实现 FE、BE 的高可用部署？如何在 StarRocks 中创立新的表？ StarRocks 的四大数据模型（明细模型、聚合模型、更新模型和主键模型）别离实用哪些场景？ ...... 咱们意识到，除了官网文档之外，还须要通过更加场景化、系统性的应用教程，让老手小伙伴们自助地学习、疾速开始应用 StarRocks。 “StarRocks 入门系列教程”蕴含 6 个视频，全面具体地解说了部署装置、技术架构、外围性能以及其余根本应用技能，是老手小伙伴们不容错过的学习宝典。学习实现后，你还能够加入 StarRocks 社区举办的“StarRocks 入门教程”系列答题流动。只有问题合格，就有机会加入抽奖，取得丰富社区周边大礼包（据说，StarRocks 近期有一批新周边行将上架哦）。如需理解更多答题流动详细信息，请静待官网公众号和社群告诉。当初，快来和咱们一起学习吧～ 01｜手动搭建 StarRocks 集群环境02｜手动构建高可用 StarRocks 集群环境03｜如何在 StarRocks 中创立表？04｜StarRocks 表模型根本介绍05｜StarRocks 极速个性介绍06｜StarRocks 对立个性介绍 https://space.bilibili.com/1273141509/channel/collectiondetai... 11

关于数据库:MySQL-80中InnoDB-buffer-pool-size进度更透明

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：Yejinrong/叶金荣文章起源：GreatSQL社区原创MySQL 8.0 up up up~从MySQL 5.7开始，反对在线动静调整 innodb buffer pool，并为此新增了一个状态变量 Innodb_buffer_pool_resize_status，能够通过观察它理解调整buffer pool过程中的一些状态，例如 Resizing also other hash tables. 或 Completed resizing buffer pool at 230131 15:57:03.。从8.0.31开始，针对innodb buffer pool在线动静resize个性，新增了上面两个状态变量，能够更不便通明察看resize的进度：状态变量解释Innodb_buffer_pool_resize_status_codebuffer pool resize状态码，共有以下几种不同值： - 0: No Resize operation in progress - 1: Starting Resize - 2: Disabling AHI (Adaptive Hash Index) - 3: Withdrawing Blocks，革除/升高buffer pool pages（次要针对buffer pool放大的状况） - 4: Acquiring Global Lock - 5: Resizing Pool - 6: Resizing Hash - 7: Resizing FailedInnodb_buffer_pool_resize_status_progress报告以后resize的进度，用百分比进度条形式展现，数值范畴从0-100咱们能够通过 Innodb_buffer_pool_resize_status_code 报告的状态码，理解以后的状态，以及是否呈现报错等状况。 ...

关于数据库:IP地址是如何定位的

IP地址是互联网中计算机的惟一标识，它由32位二进制数组成，分为四个8位的数字，每个数字之间用"."隔开，例如：106.110.92.215。IP地址的归属地指的是这个IP地址所在的地理位置，对于网络安全、网络监管、网络管理等方面都具备十分重要的意义。IP是什么？IP全称为Internet Protocol，是互联网中的一种通信协议，它负责在互联网上传输数据。IP协定是一种面向无连贯、不牢靠的协定，它将数据宰割成一些小的数据包进行传输，每个数据包都有一个源IP地址和一个指标IP地址，路由器通过IP地址将数据包传递到指标计算机。IP地址是怎么定位的？IP地址的定位是通过查找IP地址的归属地来实现的。IP地址的归属地是依据IP地址的前缀来确定的，IP地址的前缀是指IP地址中的前几位数字，这些数字是依据IP地址的类别来确定的。IP地址分为A、B、C、D、E五类，其中A、B、C三类地址被宽泛应用。IP地址的定位能够通过IP地址查问工具来实现，常见的IP地址查问工具有ip数据云等。这些工具能够依据IP地址的前缀来确定IP地址所在的地理位置，包含国家、省份、城市、运营商等信息。IP归属地的意义1、网络安全：通过IP地址的归属地，能够确定网络攻击、网络欺诈、网络钓鱼等网络安全事件的起源和行为轨迹，有助于进行网络安全监管和打击。2、网络管理：通过IP地址的归属地，能够确定网络中的设施和用户所在的地理位置，有助于进行网络资源管理和设施治理。3、广告投放：通过IP地址的归属地，能够确定用户的地理位置和兴趣爱好，有助于进行精准的广告投放和采购。4、天文定位：通过IP地址的归属地，能够确定用户所在的地理位置，有助于进行天文定位和导航。IP归属地数据详情：七大洲、国家、洲/省、城市、区县、街道、纬度、经度、国家缩写、国内直播电话和区号、邮政编码、气象站、海拔、互联网服务提供商、行政区码IP利用场景：ASN、运营商、利用场景标签：任播网络、内容散发、商业公司、域名解析、教育机构、企业专线、政府机构等15种场景类型IP危险画像：代理类型、是否代理、危险标签、危险证据、危险评分、危险等级坐标系：WGS84 GCJ02 BD09

关于数据库:使用TPCH-进行GreatSQL并行查询测试

筹备工作数据库版本GreatSQL-8.0.25-17 生成数据应用 TPC-H 生成数据 #TPC-H Population Generator (Version 3.0.0)#生成10G的数据$ ./dbgen -vf -s 10批改my.cnfvim /etc/my.cnf #设置IPB为8Ginnodb_buffer_pool_size = 8G#设置并行查问的应用最大内存(此处为8G，依据具体配置设置)parallel_memory_limit= 8G#关上并行查问force_parallel_execute=1 #设置双1（不便导入数据）innodb_flush_log_at_trx_commit = 1 sync_binlog = 1#敞开binlogskip-log_bindatadir = /data/GreatSQLsocket = mysql.sock启动数据库后，能够查看配置是否失效 mysql> show variables like '%double%';mysql> show variables like 'log_bin';mysql> show variables like 'sync_binlog';mysql> show variables like 'innodb_flush_log_at_trx_commit';mysql> show variables like 'innodb_buffer_pool_size';并行查问相干参数 mysql> show global variables like '%parall%';+----------------------------------+----------------+| force_parallel_execute | ON || innodb_parallel_dblwr_encrypt | OFF || innodb_parallel_doublewrite_path | xb_doublewrite || innodb_parallel_read_threads | 4 || parallel_cost_threshold | 1000 || parallel_default_dop | 4 || parallel_max_threads | 64 || parallel_memory_limit | 8589934592 || parallel_queue_timeout | 0 || slave_parallel_type | LOGICAL_CLOCK || slave_parallel_workers | 2 |+----------------------------------+----------------+11 rows in set (0.01 sec)启动数据库启动数据库： ...

关于数据库:OceanBase-40小鱼入选2023数字中国建设峰会十大硬核科技

4 月 27 日，第六届数字中国建设峰会公布“十大硬核科技”，原生分布式数据库 OceanBase 4.0（小鱼）入选，这是对 OceanBase 在技术冲破上的权威必定。OceanBase 4.0 是业内首个单机分布式一体化数据库，冲破了分布式数据库的行业边界，让 OceanBase 走向通用。 OceanBase 4.0（小鱼)入选“十大硬核科技” 本届峰会以“放慢数字中国建设，推动中国式现代化”为主题。 “OceanBase 4.0（小鱼）是业内首个单机分布式一体化数据库，由蚂蚁团体自主研发，率先将故障工夫从 30 秒优化到 8 秒。” 颁奖现场，评委们对 OceanBase 作出高度评价。 OceanBase 4.0（小鱼）突破了分布式技术的不可能。它的特点是既能够像单机数据库一样应用，又领有分布式数据库有限程度扩大的能力。这种架构让它能够适应从集体小站点到银行外围零碎、大型电商网站等各种规模的业务。企业选用后，能够在业务倒退不同阶段依据本身特点，灵便满足性价比和高可用的要求。 OceanBase 4.0（小鱼）性能与易用性继续降级：内核能力及小规格综合读写性能失去较大晋升，其事务处理（TP）性能晋升 40%，数据分析（AP）性能晋升 15%，旁路导入均匀将加载数据的性能晋升 6 倍，新增租户级别物理备库以及更细粒度的资源隔离能力；同时全面兼容 MySQL 8.0 版本，让 OceanBase 更通用、易用。正如 OceanBase CTO 杨传辉所说，“OceanBase 正在继续升高开发者应用门槛，全面晋升 OceanBase 的易用性，打造真正对开发者敌对的数据库，建设凋谢的技术生态，让国产数据库走向田间地头。” 目前，OceanBase 已间断 10 年稳固撑持双 11，在被誉为“数据库世界杯”的 TPC-C 和 TPC-H 测试上都刷新过世界纪录，已服务于头部 1/4 金融机构实现外围系统升级，并在运营商、批发、互联网等多个行业的 400+ 客户实现要害业务零碎分布式革新和降级。

关于数据库:刘强作业帮给OceanBase提了九条意见

3 月 25 日，第一届 OceanBase 开发者大会在北京举办，作业帮数据库架构师刘强为大家带来了《作业帮基于 OceanBase 的 HTAP 实际》的分享，为大家介绍了 OceanBase 上线作业帮半年来的体验与心得。以下内容由大会演讲整顿而成：在作业帮刚上线 OceanBase 4.0 时，我分享过作业帮的业务架构痛点（移步《作业帮：摸索多云架构下的数据库集群解决方案》可浏览）。目前，作业帮是多云架构（阿里云、百度云、腾讯云），并同时应用 MySQL、Redis-Cluster、MongoDB、Elastisearch、TiDB 、OceanBase 这几款数据库。出于高可用和降本需要，咱们决定将更多的 MySQL 业务场景降级为 OceanBase，本文将和大家分享具体起因，以及 OceanBase 4.0 与 MySQL 5.7 的比照数据。高可用双活架构计划降级需要因为作业帮业务的多样性和复杂性，咱们对于分布式数据库的应用需要次要基于以下几个方面。第一，在海量数据的状况下，心愿缩小分库分表的复杂度，并解决单机存储瓶颈。第二，对 I/O 密集型的 SQL 及 CPU 密集型的 SQL 来说，咱们心愿可能进步响应速度，缩小它在 MySQL 中对线上业务的影响。第三，每个业务外部都须要业务人员频繁查问、录取线上数据，并有相应的报表服务以供下级 Leader 查看，而且大数据部门也会有报表需要接入线上数据，这对于线上 MySQL 来说难以撑持，在数据归档及汇总的状况下，也不足良好计划。第四，因为 MySQL 的个性限度，咱们须要基于一个内部的高可用组件来实现 MySQL 的高可用架构，在多云环境下，网络环境绝对简单，这对高可用的稳定性提出了更高要求。如果局部业务的申请链路长或简单，跨云拜访会使业务相应耗时减少，影响用户体验。因而，咱们须要摸索良好的双活架构计划，初步计划是基于 MySQL ，并引入 DTS 来实现双活架构。这种架构的复杂性及引入过程中 DTS 的异样或中断，对于数据的一致性有很大的挑战。同时，在应用私有云的状况下，也心愿可能最大水平升高硬件的应用老本。 OceanBase 4.0 比照 MySQL 5.7出于高可用和降本需要，咱们决定将更多 MySQL 的业务场景降级为 OceanBase，并对 OceanBase 和 MySQL 5.7 进行了多方面的比照。 ...

关于数据库:分享集群吞吐量以1抵5车企MySQL八大痛点的解决方案

本文来自社区分享，仅限交换探讨。原文作者：李婵玲，某智能车企DBA。欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 最近一年，咱们实现了从MySQL到OceanBase的代替过程，既升高了架构复杂度和存储老本，又进步了扩展性和吞吐量，而且再也不必放心数据不统一问题了。故而将咱们遇到的痛点问题、解决方案、技术选型过程总结成此文，供大家参考。一、业务增长凸显MySQL八大撑持瓶颈置信很多企业都会因为业务疾速倒退，数据成指数级增长带来一些新的需要或零碎瓶颈。我所在的国内某出名智能车企也面临这样的问题，特地是咱们的业务监控数据和信号数据在近几年爆发式增长，咱们过来应用的MySQL数据库越来越难以应答，次要体现为以下八个方面。性能瓶颈：单台服务器难以承受大规模数据和申请拜访，导致数据库性能降落，只能通过部署多套集群解决。程度扩大艰难：单集群容量达到瓶颈时，无奈实现无缝扩大，须要停机保护，影响业务运行。数据一致性难以保障：多集群数据合并的时候，数据更新同步难度大，易呈现数据不统一的状况。多活实现艰难：多活场景下，无奈保障业务双写。实效性差：多集群的跨节点join操作须要内存运算，或者大数据整合后提供，时效性无奈保障。容易造成集群数据或流量歪斜。各集群之间数据调度麻烦。运维压力大：须要定期备份归档数据，排查数据问题。为了解决上述八个问题，咱们须要制订高效的数据库解决方案，于是开始了数据库的调研、选型、替换之旅。二、分布式数据库选型十因素依据业务需要剖析，咱们决定拥抱分布式数据库，并以十个方面为思考因素对市面上的分布式数据库产品开展调研。数据模型：反对的数据模型是否丰盛？是否满足各种利用场景？性能：性能是否足够优良？实践读写性能、事务能达到多少？并发能力和程度扩大能力如何？可用性和容错性：RPO、RTO能达到多少？容错机制怎么样？备份与恢复能力如何？通过什么样的机制保证数据的高可用和可靠性？集群治理和运维能力如何？安全性：安全策略有哪些？是否对数据进行加密？身份验证如何和？访问控制如何？生态环境：生态如何？根本工具如何？社区与商业反对如何？老本效益：开发对接老本如何？同样需要的部署老本如何？等同数据量的存储老本如何？以及后续扩容的老本和运维老本如何？洽购老本如何？可扩展性：节点数量有无限度？应用什么分布式架构？集群是如何治理的？利用场景：须要理解数据库的实用场景和行业利用，是否有胜利案例？是否自研：全自研？还是局部自研？是否反对单元化场景？（一）TiDB与OceanBase多方面比照通过筛选，最终选定两个分布式数据库产品：TiDB、OceanBase，并从分库分表、兼容性、多活容灾、性能、安全性、老本、生态等环境进行比照。首先，两种数据库类型利用设计方面，都对业务通明，对外体现为一个整体数据库，不须要业务进行分库分表。其中TiDB是主动分区，底层主动应用region(默认96M)打散；不反对多租户性能，资源无奈隔离，同集群的业务相互影响；提供TiDB节点配合负载平衡应用。 OceanBase能够依据业务规定设计最优数据模型，反对一级分区和二级分区，反对分区裁剪；反对多租户，可做到租户间资源隔离；提供OBProxy无状态代理，反对部署在OB服务器，对于延时要求较高的服务，能够以SIdeCar模式部署在利用Pod中，利用本地回环地址拜访。其次，应⽤和数据库解耦方面，Oceanbase与TiDB都高度兼容MySQL，不便业务平滑迁徙。OceanBase3.x不反对的少许alter类型变更在4.1已反对（如：int到varchar）。再次，对于异地多活架构，二者均可实现两地三中⼼多活部署，以及同城的两中⼼双活。不过OceanBase采纳的Paxos协定对于简单⽹络环境的容忍性比TiDB采纳的 Raft更强。最初，在运维治理方面，OceanBase和TiDB都具备查问慢SQL、执行打算、终止异样session等。OceanBase提供OCP平台进行治理集群，OBD黑屏命令辅助，TiDB提供dashboard平台和Tiup黑屏命令进行集群治理。此外，咱们针对产品调研时关注的十个方面也进行了具体比照，数据如下表。比照项OceanBaseTiDB数据模型关系型、半结构化、非关系型、图、时序非关系型、半结构化、关系型数据库性能以优异的问题通过TPC-C 测试，通过阿里系双十一的验证未通过互联网高并发外围业务的验证可用性与容错性4.0反对6级容灾规范（RPO=0,RTO<8s）,反对三地五核心RPO=0,RTO<30s，反对两地三中⼼安全性租户资源隔离，租户内的操作只会影响租户、租户治理无资源隔离，应用时集群内会相互影响生态环境生态略微差些，然而企业配套极为丰盛，且经验了多少外围场景验证开源社区沉闷，生态较为健全老本效益兼容MySQL与Oracle，改变极小，租户按需配置资源,最小须要3obproxy,3observer，存储老本升高70%~90%兼容MySQL5.7，整个集群一套，无资源隔离，部署老本绝对较高（须要3pd-server,2tidb-server,tikv-server）可扩展性存算一体,反对数千个节点，单集群数据量超3PB，最大单表行达万亿级，应用Multi-Paxos，数据能够动静漂移；存算拆散,应用Multi-Raft，利用场景支付宝、网商银行大多都是OLAP场景是否自研全自研Tikv基于RocksDB进行数据存储通过综合比照，咱们偏向于应用OceanBase，那么，OceanBase真能解决MySQL的痛点吗？咱们接下来看下OceanBase和MySQL有哪些理论区别。 MySQL 与 OceanBase压测比照咱们尽可能应用同样的配置进行测试比照，数据如下。硬件配置与软件版本硬件配置服务类型实例数机器配置租户配置OceanBase 数据库356C238G，35T本地SSD20C90GSysbench116C32G ODP146C258G MySQL132C128G，SSD800G 补充阐明一下，MySQL的机器配置尽管是32C128G，实际上咱们通过参数配置最初和Oceanbase的20C90G保持一致；软件版本服务类型软件类型OceanBase 数据库OceanBase V3.2.3.1ODPobproxy V3.8MySQLMySQL5.7.31Sysbenchsysbench 1.0.17OSCentOS Linux release 7.5.1804 (Core)压测后果比照TPS/QPS比照如下：压测论断• 线程数 < 200时，MySQL在TPS、OPS方面体现更好； • 线程数 > 200时，OceanBase在TPS、OPS方面体现更好； • OceanBase的3个节点的集群能达到20w的qps；通过压测，OceanBase的高可用、高并发能力齐全能满足咱们的业务需要，同时，咱们在压测的时候进行故障模拟，能达到官网所说的RPO=0，RTO<30s（咱们压测的3.x的版本，4.x的RTO能够达到8s以下）。另外，动静扩容基本上也无感知，通过租户治理让业务数据隔离；咱们用OMS将业务压测的测试数据同步到OceanBase上，可能实现业务在测试环境无缝切换到Oceanbase上。所以咱们决定部署OceanBase。三、业务迁徙过程及注意事项通过压测，咱们发现OceanBase在高并发的状况下，除了QPS的性能不错外，还应用了LSM-Tree的存储构造（次要分为两方面：MemTable代表内存、 SSTable代表磁盘）。实践上只有服务的内存足够大，基本上都是内存写（转储的时候，性能会有肯定的降落），这比拟适宜咱们的业务监控数据和信号数据。同时，OceanBase反对单张万亿级数据的表，齐全能满足咱们的需要，还不须要做数据的归档。咱们的业务监控数据和信号数据，以接管为主，次要是写，前端利用会有一些场景通过id去查基线数据。在平台端，依据监控数据做指标计算，以流的形式解决。咱们的信号数据也差不多相似的场景，OceanBase的压测状况，齐全能满足咱们的需要。第一步，分区表设计首次设计分区表的表构造如下： -- 分区字段是create_time，类型TIMESTAMP CREATE TABLE biz_monitor ( id bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '主键', biz_name varchar(50) NOT NULL COMMENT '业务名称', event_type varchar(50) NOT NULL COMMENT '事件类型', ...., create_time TIMESTAMP NOT NULL COMMENT '创立工夫', PRIMARY KEY (id,create_time) )AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8mb4 COMMENT = '业务监控数据表' PARTITION BY RANGE(UNIX_TIMESTAMP(create_time)) ( PARTITION M202301 VALUES LESS THAN(UNIX_TIMESTAMP('2023-02-01')), PARTITION M202302 VALUES LESS THAN(UNIX_TIMESTAMP('2023-03-01')), PARTITION M202303 VALUES LESS THAN(UNIX_TIMESTAMP('2023-04-01')) );为了保障业务上线OceanBase后的稳定性，咱们依据业务场景对OceanBase进行了压测。期间遇到了问题：压测期间机器的CPU大概50%左右，阐明未达到瓶颈，但QPS始终压测不下来，TopSQL也没有特地慢，大概30ms左右。 ...

关于数据库:开源实时数据即服务的架构唐建法受邀出席2023数据技术嘉年华干货回顾

点击报名假如原料是一个产品公司的 SaaS 业务零碎、一套 CRM、一套工单零碎、一个外部人事零碎，和外部研发管理系统；当初给到你 40min 的工夫，能做出怎么的数据菜肴？如果这里的厨师是 Tapdata，那么答案能够是一个实时业务经营看板，也能够是一个经营自动化的流程。如此高效的秘诀是什么呢？月初，Tapdata 创始人唐建法（TJ）受邀缺席 DTC 2023（第十二届数据技术嘉年华），并在「开源翻新：开源数据技术」专场上，围绕“开源+实时+数据即服务的架构——古代数据栈工具 Tapdata Live Data Platform”这一议题，给出了这个问题的答案。会间，TJ 从古代数据栈架构的理念个性，以及开源+云带来的便利性切入，延长至实时数据服务平台的独特技术劣势与最佳实际案例，播种与会者的宽泛关注。以下为本次分享的核心内容总结。 https://www.bilibili.com/video/BV1Ys4y1R7qx/点击观看残缺回放在过来的十年中，“大数据”简直是数据行业最风行的一个名词。直到近几年，一个被称为“古代数据栈”的新术语，开始走进大家的视线，特地是在海内，古代数据栈的理念正在变得越来越受欢迎。一边是长期以来最支流的数据技术，一边是新兴的热门理念，企业又将如何抉择？一、数据问题的两个解决思路：Big Data vs Modern Data Stack咱们渴望在浩瀚的数据中寻找咱们对事件的洞察，或产生更多的业务价值。当数据的有限潜能遇上未知的技术栈、未知的数据架构、未知的人力以及未知的工具和产品，咱们该如何迈出这第一步？企业在数十年的倒退中，积攒了大量数据，但这些数据却被扩散在不同的零碎中，造成了大量各种各样的数据孤岛。因而，将这些数据整合并利用起来，也就成了企业一直求索的指标，这便是咱们常说的“数字化”。而这些数据的利用多种多样，其中最常见也是最简略的用法就是数据洞察，通过对已有数据进行剖析并得出结论，继而辅助决策。这也是“大数据分析”得以如此风行的重要起因。另一个同样常见的用法，就是利用这些数据服务新的业务场景，例如客户、商品或生产流程的优化。随着业务场景的一直拓宽，对数据资源的灵便调用需要也在不断加强。而在从数据集成到服务的整个过程中，存在十分多的技术能力须要咱们去关注，包含应用什么工具、什么产品或是什么技术来解决数据。因而，企业在走向数字化的路上，往往面临着令人目迷五色的技术和抉择，在开源社区百花齐放的当下又尤是如此。面对客观存在的数据需要，和绕不开的选型重任，企业通常会采取如下两种策略： Plan A：立一个大数据我的项目在这个大我的项目得以正式立项之前，咱们须要先投入充沛钻研筹备，包含对市面上优良计划和实现形式的调研与理解、收集尽可能残缺的我的项目需要并编写文档等等，其中单是需要文档局部就须要消耗不小的工夫和精力。当初假如某企业心愿搭建一个数据治理平台，用于对企业的数据进行规范化的治理，以应答各种新场景的需要，在文档局部，就可能要思考到包含数据采集、集成、标准化、建设数据目录、数据品质、元数据和主数据管理，以及平安权限和如何公布服务等方方面面细枝末节的问题和需要。在这之后，还须要通过重复的评审和估算评估，才有机会立项，之后才是依据技术选型的洽购和开发推动。但直到这一步，该我的项目最终可能产生怎么的业务价值都还是未知数。在将来背后，有的都只是畅想和可能性。这也是一些大数据我的项目常停留在数据的收集和存储阶段，却很难最终落地的起因。而这些大数据我的项目半途“搁浅”的例子，清晰地反映出了大数据技术正在面临的一个关键问题——须要破费大量工夫和投入能力达到冀望的成果。这并非对大数据技术本身价值的否定，大数据的价值不可磨灭，但问题在于整个技术栈宏大而惨重，须要进行很多布局并装备足够多的人力资源。一旦须要做一些新的调整或改变，就又是一轮新的投入。此外，历史数据的采集和存储对于大数据而言也是个辣手的问题。尽管历史数据在大数据分析中也存在价值，但对于许多业务场景来说，最有价值的数据通常是最新的这一部分。很多时候须要对这些数据进行实时收集和剖析，以便及时做出决策和调整。而大数据技术对于存储、计算和应用数据的老本都很高，性价比相对而言就低了很多。除此之外，长时间的设置和学习过程、对新信息的响应迟缓，以及洞察的老本耗费较低等问题也日益突出。正是因而，从 2018 年开始，大数据畛域的三大厂商 Cloudera、MapR 和 Hortonworks 相继被收买或合并。大数据倒退进入转折期。 Plan B：小步走，应用古代数据栈，疾速迭代另一个策略则是从问题登程，开始“倒推”求解。先有业务价值的“想要怎么用”，再看为了满足这个需要或解决这个问题该当怎么做。该策略下，咱们不再冀望建一个可能在“将来”满足所有业务场景需要的大型数据平台，而是优先解决眼前的问题——首先明确哪些数据能够满足这一点需要，那就先获取这部分数据，进行剖析，并展现后果。实现第一个问题后再逐渐迭代，这里体现的正是近年来从海内开始风行的“古代数据技术栈（Modern Data Stack，MDS）”思维。这种形式的特色在于，古代数据栈工具品种繁多，当咱们须要用到领有某种技术能力的工具时，往往能够疾速地做出适合的抉择，并上手运行，且无需破费巨额老本。丰盛的云产品，以及海内十分风行的 SaaS 工具，更是将这一劣势再放大。耗时一两周疾速实现新的数据需要，并将老本胜利管制在几千到几万，甚至收费，也将不再是天方夜谭。什么是古代数据栈？事实上，也正是 Snowflake 等云数仓的风行，带动了整个数据处理生态的倒退。云数仓低成本、可弹性扩缩容等劣势，为古代数据栈的衰亡提供了要害的基础设施和工具。因而，古代数据技术栈比拟常见的根底定义是：“因为云数据仓库的衰亡而呈现的一系列数据工具生态系统”。简略来说，就是不同于大一统的大型数据平台或数据中台，将数据的处理过程拆分成不同的模块，每个模块专一于不同的工作，并由不同的软件和服务来实现各个模块的性能。这些工具包含开源软件、商业软件和云服务等，它们能够依据须要进行组合和定制，以构建适宜特定需要的数据处理系统。这里拆分形式有很多种，其中比拟常见的包含： - 三层拆分：采集接入 → 存储计算 → 服务公布如上图所示，首先，须要对源零碎的数据进行采集和接入；而后，数据会被存入数仓，并对其进行计算和加工解决，以满足各种业务需要；最初才是各种业务价值的展示，例如数据分析、经营型业务等需要场景。 - 更加细分：数据基础架构全生命周期的 5 个阶段 ...

关于数据库:从-MySQL-到-Oracle-再到全面-TiDB-云盛海宏的数据库架构实践

原作者： InfoQ主编赵钰莹目前，国内某出名静止品牌在寰球经营着 12 家鞋服静止品牌，在全国有近万家线下门店，耐克、阿迪达斯、彪马、匡威等品牌门店绝大部分都是其代理经营，注册会员达 6000 多万，这些业务由旗下科技公司云盛海宏全面撑持。过来十年间，云海批发零碎是撑持全渠道、全品类运动鞋服的批发服务平台，撑持了 8000+ 线下门店的批发。这样一家批发畛域的老牌企业是如何一步步从 MySQL 转向原生分布式数据库的？整体的架构变迁思路是怎么的？实际过后又是如何从老本视角评估 Oracle 和国产分布式数据库的......近期，InfoQ 有幸采访到了云盛海宏首席架构师清脆，就上述问题逐个进行了探讨。云盛海宏首席架构师清脆背景介绍在介绍云盛海宏的数据库架构设计之前，咱们先理解下其整体的业务背景。云盛海宏的外围业务是批发零碎，包含库存、终端批发以及用于团体外部的财务辅助零碎三大模块。自 2013 年开始，云盛海宏就开始搭建整个数据库架构，两头因为业务的一直倒退经验了多轮迭代。2016 年之前，云盛海宏根本还处于传统批发时代，外部各大区自建设信息化零碎，保护本人的数据库架构，每天向总部上传业务数据，数据库采纳集中式单库，这种形式的长处是架构简略，毛病则随着业务倒退越来越显著，比方没有方法及时查看地区汇总数据，也无奈跨大区查看全国的实时库存等。为了解决这些问题，云盛海宏在 2016 年上线了全新的架构——云海批发零碎，开启了数字化批发时代的架构演进之路。倒退至今，云海批发零碎次要经验了三个阶段的演进。阶段一：利用微服务化，实现数据共享，初步精细化经营，撑持数字化业务倒退在这一阶段，云盛海宏应用的是微服务+ MySQL 分库分表的形式。立项之初，团队调研时思考到数据垂直切分的模式短时间内较稳固，MySQL 集群的开发难易水平对团队来说又比拟好把握，所以选定了 MySQL 。随着业务的飞速发展，很多问题超出了团队的原始预期，MySQL 集群对于简单报表剖析反对有余，团队尝试引入 Oracle 分担这部分需要，再通过 Otter 进行数据的实时同步，保障两边的数据残缺。对于 TOB 业务来说，外部报表十分要害，且对数据精度要求极高，冷热数据变动频繁，Oracle 的引入很好解决了实时报表方面的问题。尔后，云海批发零碎撑持了业务高速倒退的五年，实现了很多小指标，比方实现了全国各地区、各大区的海量数据的存储，实现了数据实时共享，也达到了业务可视化的指标。然而随着业务的扩大和需要难度的减少，缓缓地呈现了一些新的挑战。首先，整个架构基于 MyCAT 做分库分表，在日常保护中，如果有新的业务，比方要减少表或者调整表，保护层面会减少人力老本，须要人工调整配置，而后再调用配置，须要破费很多精力。其次，过后的 Otter 同步渠道曾经有 110 +，应用起来也没有那么现实。比方源端加表，指标端没有加表，或者是仅仅是字段的调整也可能导致一些同步的中断，这须要大量人力保护。最次要的是 Oracle 也遇到了一些瓶颈，例如海量数据无奈扩大、聚合库剖析时效差等问题。阶段二：解决数据爆发式增长导致聚合库剖析时效性差2020 年之前，Oracle 的单点性能曾经无奈横向扩大，团队开始踊跃寻求代替计划。此时，团队开始接触到 TiDB ，并于过后 InfoQ 举办的 ArchSummit 大会上听到了时任 PingCAP 联结创始人兼 CTO 黄东旭的具体解说，后又通过具体的比照测试，次要集中在大数据量的查问以及简单 SQL 的查问性能两方面，发现 TiDB 能够解决 Oracle 存在的问题并且十分便捷。在外部小规模试用获得显著效果之后，云盛海宏最终决定疾速推动 TiDB 集群的部署工作。 ...

关于数据库:北京-Meetup-预告-内含六个话题满满干货期待见面

在春之开端，夏之开始的5月，响应社区小伙伴们的召唤，咱们泽拓科技将在北京举办线下社区技术交流活动。此次咱们泽拓科技邀请了去哪儿网、ScaleFlux、美团、SphereEx的相干资深专家来分享他们的数据库摸索与实际。咱们真挚邀请数据库技术社区的同行前来加入，与开发者和数据库从业者分享技术干货，介绍数据库系统的不同业务场景，HTAP，云原生等多个话题。同时咱们为大家筹备了精美茶歇 & 流动礼品，诚邀大家参加，期待与大家见面交换。 Meetup工夫5月20日 13:30—18:00 Meetup地点北京市海淀区中关村大巷1号鼎好大厦A座2层寰球科创路演核心 Meetup议程议程详情14：00-14：35讲师：赵伟（泽拓科技创始人 & CEO）主题：《Klustron 在大数据分析场景的性能和利用》内容概括：Klustron 在数据分析方面具备齐备的性能和良好的性能。本次分享介绍 Klustron 在举荐算法中的性能和利用，以及比照其余技术计划的劣势。 14：35-15：10讲师：钱芳园（去哪儿网资深DBA）主题：《MySQL 备份复原零碎设计》内容概括：本文次要讲述去哪儿网-MySQL 备份复原零碎的设计，如何进行高速备份和复原，并且在备份和复原过程中如何做到自适应限速。本次分享介绍将数据库从服务器备份到云存储上的场景中如何设计MySQL备份复原零碎。 15：10-15：45讲师：董红禹（ScaleFlux 资深解决方案架构师）主题：《可计算存储助力数据库降本增效》内容概括：“既要、又要、还要” --可计算存储助力数据库降本增效，晋升性能最快形式是换硬件，降低成本最快形式也是换硬件，降低成本同时还要放弃性能不变或晋升如何做到？本次分享介绍 ScaleFlux 通明压缩技术如何做到降本增效。 16：00-16：35讲师：陆宇（美团数据库研发核心技术专家）主题：《美团分布式数据库Blade云原生运维实际》内容概括：自 2018 年起美团开始了对分布式数据库的摸索尝试，基于国内开源数据库 TiDB 打造了一款同时反对联机事务处理（OLTP）和联机剖析解决（OLAP）分布式数据库 Blade。随着内核架构设计的成熟欠缺及研发资源的一直投入，Blade 也实现了从基于开源 TiDB 的物理机部署到基于自研存储引擎的云原生部署的进化。云原生给 Blade 带来了变革的高效运维能力与性能拓展性。在美团，Blade 曾经撑持了数百个业务集群接入，全面笼罩在离线诸多业务场景。本次分享将为大家介绍 Blade 在云原生加持下高效撑持集群运维及业务需要的实践经验。 16：35-17：10讲师：苗立尧（SphereEx 云技术负责人）主题：《ShardingSphere on Cloud 生态链路演进》内容概括：次要分享对于 ShardingSphere-OnCloud 生态链路演变体系，企业及开发者在云原生时代下迎来的倒退时机，ShardingSphere 在云上的具体实际，如 AWS 的实际案例及 ShardingSphere Operator 等，并将联合目前的理论停顿具体介绍混沌工程的指标、过程、施行准则及 ShardingSphere 的可靠性工程等。 17：10-17：45讲师：丁奇（泽拓科技资深技术专家）主题：《分布式数据库事务一致性挑战》内容概括：数据库系统程度扩大后，一个事务逻辑中的数据可能会被调配到不同的存储分片上。更新事务须要保障跨分片的数据一致性；查问事务须要保障查问后果的逻辑一致性。本次分享探讨实现这些一致性的常见计划。对于KlustronKlustron同时反对 MySQL 和 PostgreSQL 数据库连贯协定和 SQL 语法的分布式 HTAP 数据库系统，聚焦于解决各行业的应用软件、Web 零碎和 SaaS 云服务在存储、治理和利用海量关系型数据中存在的各种问题，并致力于提供撑持高并发高负载的事务处理和数据读写服务，进而助力应用软件开发商、服务商，一起为最终用户最大限度地发明价值。本次流动将营造轻松的交换气氛、提供高效的互动体验，Meetup 诚邀大家参加，热烈欢迎北京的敌人扫码收费报名线下流动！（咱们会在 Meetup 劳动期间抽取精美礼品）扫码报名 ...

关于数据库:Apache-Doris-124-Release-版本正式发布｜版本通告

敬爱的社区小伙伴们，咱们很快乐地发表，Apache Doris 于 2023 年 4 月 27 日迎来 1.2.4 Release 版本的正式公布！在 1.2.4 版本中，Doris 团队曾经修复了自 1.2.3 版本公布以来近 150 个问题或性能改良项。同时，1.2.4 版本也作为 1.2.3 的迭代版本，具备更高的稳定性，倡议所有用户降级到这个版本。 GitHub下载： https://github.com/apache/doris/releases/tag/1.2.4.1-rc01 官网下载页： https://doris.apache.org/zh-CN/download 降级留神针对 Date/DatetimeV2 类型，在DESCRIBLE和SHOW CREATE TABLE语句的后果中，将不再显示为 Date/DatetimeV2，而间接显示为 Date/Datetime。（该改变用于兼容局部 BI 零碎，如果想查看列的理论类型，能够通过DESCRIBE ALL语句查看。）查问information_schema库中的表时，默认不再返回 External Catalog 中的元信息。（该改变防止了因 External Catalog 的连贯问题导致的information_schema库不可查的问题，从而解决局部 BI 零碎与 Doris 配合应用的问题。能够通过 FE 的配置项infodb_support_ext_catalog管制，默认为false，即不返回 External Catalog 中的元信息。）优化改良JDBC Catalog 反对通过 JDBC Catalog 连贯其余 Trino/Presto 集群。参考文档：https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catal...JDBC Catalog 连贯 Clickhouse 数据源反对 Array 类型映射。参考文档：https://doris.apache.org/zh-CN/docs/dev/lakehouse/multi-catal...Spark Load Spark Load 反对 Resource Manager HA 相干配置。参考 PR：https://github.com/apache/doris/pull/15000问题修复修复 Hive Catalog 的若干连通性问题。修复 Hudi Catalog 的若干问题。修复 Kerberos 票据过期导致查问 HDFS 上的数据，后果为空的问题。优化 JDBC Catalog 的连接池，防止过多的连贯。修复通过 JDBC Catalog 从另一个 Doris 集群导入数据是会产生 OOM 的问题。修复若干查问和导入的布局问题。修复 Unique Key Merge-On-Write 表的若干问题。修复若干 BDBJE 问题，解决某些状况下 FE 元数据异样的问题。修复CREATE VIEW 语句不反对 Table Valued Function 的问题。修复若干内存统计的问题。修复读取 Parquet/ORC 表的若干问题。修复 DecimalV3 的若干问题。修复SHOW QUERY/LOAD PROFILE的若干问题。致谢Apache Doris 1.2.4 版本的公布离不开所有社区用户的反对，在此向所有参加版本设计、开发、测试、探讨的社区 47 位贡献者们表示感谢，戳此查看残缺名单。 ...

关于数据库:IP定位精度

IP定位精度，是在定位胜利的前提下，对定位后果定位精度级别的形容，有6个级别，别离是洲、国家、省、市、区和街道。IP地址天文定位的精度个别为市级，最多可达到街道级。例如，对一个IP而言，若该IP的定位后果为上海市浦东新区迎宾小道，则该IP的精度为街道级；若该IP的定位后果仅显示上海市，则该IP的精度则为市级。一般而言，定位到国家一级的精度，其定位准确率可达到99.9%，定位到城市一级的精度，其定位准确率大略只有70%。一般网络用户都是应用动静IP上网，其定位精度个别只能到市级，无奈确定具体的地位。若须要更进一步的具体地址，则必须由公安部门到网络服务运营商查问。因为所有用户的材料包含地址都在运营商处有注销，上网记录（包含调配的IP）也能够被运营商查到，这些信息网上不公开，普通人无奈获取，所以查出来的精度较低，大家也不必放心隐衷问题。

关于数据库:极客星球数据分析引擎黑马ClickHouse技术研究与实践

ClickHouse 在近几年是大数据分析引擎界的一匹黑马，从石破天惊到一路腾飞，在 DB engine Rank 上进入前 50 名，成为寰球数据引擎界夺目的一颗明星。在寰球范畴内，ClickHouse 单表查问比其余引擎要快数倍以上，在过来的几年以来未曾有对手。ClickHouse 为什么会这么快？在理论应用当中如何利用这样一个引擎？本文依据 MobTech 袤博科技 Java 开发专家墨子的演讲分享整顿而成，为大家详尽介绍最新的 ClickHouse Feature 和实战利用。一、初探 OLAP 和 ClickHouse在数据迷信畛域，数据库系统能够分为联机事务处理（OLTP）和联机剖析解决（OLAP）两种面向不同畛域的数据库，OLAP 数据库也被称为数据仓库。在探索 ClickHouse 之前，咱们先理解 OLAP 和 OLTP 有何不同。OLAP 是数据仓库零碎的次要利用，其反对的对象次要是面向剖析场景的利用，提供结构化的、主题化的数据给经营，实现业务反馈和辅助决策。同时，在有些场景中，也能够由数据仓库对业务进行反对。OLTP 存储的次要是与业务间接相干的数据，强调精确、低时延、高并发，如果没有特别强调，基本上数据库里只会存储与业务相干的数据。从产品上看，有专门面向 OLTP 的数据库，例如 MySQL、PostgreSQL、Oracle 等，也有专门面向 OLAP 的数据库，例如 Presto、Druid、Apache Kylin、Apache Doris、ClickHouse 等，本期偏重介绍不同的 OLAP 零碎在利用场景中的体现。 OLAP 场景中，已增加到数据库的数据不能批改，绝大多数是读申请。对于读取，从数据库中提取相当多的行，但只提取列的一小部分。数据以相当大的批次(> 1000 行)更新，而不是单行更新，或者基本没有更新。宽表，即每个表蕴含着大量的列，查问绝对较少(通常每台服务器每秒查问数百次或更少)，对于简略查问，容许提早大概 50 毫秒。通常，列中的数据绝对较小，个别是数字和短字符串(例如，每个 URL 60 个字节)，解决单个查问时须要高吞吐量(每台服务器每秒可达数十亿行)。事务不是必须的，对数据一致性要求低。每个查问有一个大表，除了它以外，其余的都很小。查问后果显著小于源数据。换句话说，数据通过过滤或聚合，因而后果适宜于单个服务器的 RAM 中。以下是现行的几款 OLAP 零碎比照： Presto是在 Hadoop 上运行的分布式系统，应用与经典大规模并行处理(MPP) 数据库管理系统类似的架构。它有一个协调器节点，与多个工作线程节点同步工作。用户将其 SQL 查问提交给协调器，由其应用自定义查问和执行引擎进行解析、打算并将分布式查问打算安顿到工作线程节点之间。评估：Presto 长处是基于 hadoop 生态，存储和计算拆散，基于 Java 开发。毛病是依赖大内存，查问速度比较慢。 ...

关于数据库:CloudCanal-x-OceanBase-数据迁移同步优化

简述CloudCanal 去年反对 OceanBase 数据迁徙同步能力后，随着应用用户增多以及问题反馈，近期对该能力进行了一轮较大规模的优化。本篇文章简要介绍这些优化点，以及将来该能力的演进方向。优化点大幅晋升同步性能CloudCanal 目前应用 OceanBase LogProxy 做增量数据订阅，应用形式绝对简单明了。 @Overridepublic void notify(LogMessage message) { try { ParsedEntry entry = msgConvertor.convertMsgToEntry(message); if (entry == null) { return; } instance.getEventStore().put(entry); } catch (Exception e) { String msg = "parse ob msg failed.msg:" + ExceptionUtils.getRootCauseMessage(e); log.error(msg, e); throw new LogProxyClientException(ErrorCode.E_PARSE, msg); }}音讯解析对性能影响绝对小，攒批和对端写入形式影响更大。攒批方面，咱们将变更事件写入内存队列后，依照个数/容量阈值(increBatchSize) 或超时工夫(fetchFromBrokerTimeoutMs) 刷出，晋升批量写入的粒度。对端写入形式，依据不同数据源，咱们采纳了 batch 、multisql 、并行、 upsert 等技术晋升写入效率。对立各类表全量扫描形式全量数据扫描是 CloudCanal 全量数据迁徙(或数据初始化)重要组成部分，需满足性能优良（2KB/record,>= 100k records 扫描速率）、可断点续传、可预测进度、表兼容性好的要求。 ...

关于数据库:Apache-SeaTunnel-3-分钟入门指南

简介新一代分布式超高性能云原生数据同步工具 - Apache SeaTunnel 曾经在B站、腾讯云、字节等数百家公司应用。SeaTunnel 是 Apache 软件基金会下的一个高性能开源大数据集成工具，为数据集成场景提供灵便易用、易扩大并反对千亿级数据集成的解决方案。SeaTunnel 能够抉择 SeaTunnel Zeta [1] 引擎上运行，也能够抉择在 Apache Flink 或 Spark 引擎上运行。Seaunnel 为实时(CDC)和批量数据提供高性能数据同步能力。本指南将疏导您疾速入门 SeaTunnel，为您的大数据集成我的项目提供反对(为了应用上的不便，本文将以 SeaTunnel Zeta 为运行引擎)。一、环境筹备如果没有 Java 运行环境，请首先下载一个 Java 环境： Java (Java 8 or 11, 其余大于 Java 8 版本实践上也能反对) 确保在终端执行 java -version 能够输入 java 版本信息，如下下载并装置 SeaTunnel 发行版：从官方网站（https://seatunnel.apache.org/download) 下载最新的 SeaTunnel 发行版，并解压到适合的目录。装置 Connector 插件：须要什么数据源插件就装置什么[2]，非常简单。您能够通过配置 config/plugin_config 文件来指定所需的插件。如果你首次只是想体验一下 SeaTunnel, 您只须要保留 2 个 connector-fake(造数插件)、connector-console(打印到控制台插件) 2 个插件就能够了，您能够批改 plugin_config 文件只保留如下内容： --connectors-v2-- connector-fake connector-console --end--而后运行命令装置 connector (注：从 2.2.0-beta 开始，二进制包默认不提供 connector 依赖，所以第一次应用须要下载 connector 插件) ...

关于数据库:ByteHouse云数仓版查询性能优化和MySQL生态完善

ByteHouse云数仓版是字节跳动数据平台团队在复用开源 ClickHouse runtime 的根底上，基于云原生架构重构设计，并新增和优化了大量性能。在字节外部，ByteHouse被宽泛用于各类实时剖析畛域，最大的一个集群规模大于2400节点，治理的总数据量超过700PB。本分享将介绍ByteHouse云原生版的整体架构，并重点介绍ByteHouse在查问上的优化（如优化器、MPP执行模式、调度优化等）和对MySQL生态的欠缺（基于社区MaterializedMySQL性能），最初结合实际利用案例总结优化的成果。在2023云数据库技术沙龙 “MySQL x ClickHouse” 专场上，火山引擎ByteHouse的研发工程师游致远，为大家分享一下《ByteHouse云数仓版查问优化和MySQL生态欠缺》的一些工作。本文内容依据演讲录音以及PPT整顿而成。火山引擎ByteHouse的研发工程师游致远游致远，火山引擎ByteHouse资深研发工程师，负责ByteHouse云数仓版引擎计算模块。之前先后就任于网易、菜鸟团体、蚂蚁团体，有多年大数据计算引擎、分布式系统相干研发经验。 ByteHouse云数仓版查问优化和MySQL生态欠缺明天我次要分享的内容纲要，分为上面这四个局部。首先次要是跟大家讲一下ByteHouse云数仓版的背景和整体架构、而后重点讲下查问引擎上做的优化和欠缺 MySQL 生态的一些工作，最初是总结。内容纲要 Clickhouse 是基于 shared nothing 架构，这种架构也带来了比拟极致的性能。字节跳动的话，从2018年就开始在线上应用 Clickhouse，而后到当初曾经是十分大的机器量和数据量。然而 Clickhouse 的shared nothing 架构，也给咱们带来了很大的艰难，次要是数据的扩缩容比拟难，包含存储和计算资源的绑定，导致咱们想做一些弹性的伸缩也比拟难。而后读写不拆散带来的影响，以及在公共集群上中小业务的查问的影响。为了彻底解决这个问题，而后咱们在2020年的时候，开始做一个基于云原生架构的Clickhouse，过后外部的代号叫CNCH，当初在火山上叫ByteHouse云数仓版。而后当初CNSH在外部也是有十分大的应用规模，到2022年的时候，咱们决定把这个回馈给社区，过后跟 Clickhouse 社区也进行了一些探讨，起初感觉架构差别太大，而后就独自以ByConity我的项目开源了，在往年1月份曾经在GitHub上开源了。欢送大家去关注和参加一下。 Clickhouse基于shared nothing架构下图就是 ByteHouse云数仓版的整体架构，这是比拟经典的架构。服务层负责就是数据，事务查问打算的协调，资源的治理。两头这层是可伸缩的计算组，咱们叫做virtual warehouse（VW），也叫虚构数仓，业务是能够按virtual warehouse进行隔离，互相不会影响，能够随便的扩缩容，是一个无状态的计算资源。最上面是数据存储，咱们是形象了虚构的文件层，能够反对HDFS，以及还有对象存储S3等。当然在理论查问的时候，就是咱们也会做一些热数据的local cache. ByteHouse云数仓版的整体架构上面重点来讲咱们在查问引擎的优化。咱们晓得ClickHouse的单机执行十分强，而后这个是2021年的ClickHouse的单机执行逻辑，非常简单的count(*)的聚合运算。ClickHouse 首先会生成一个逻辑打算，叫QueryPlan。这里能够通过 EXPLAIN 看到每一步，就query plan step，就是读表，而后做聚合。 ClickHouse的单机执行而后再通过 QueryPlan 会生成一个 QueryPipeline。这个过程中能够看到，query plan step被翻译成了QueryPipeline外面的一步，叫做processor，或者叫做物理算子。 QueryPlan 会生成一个 QueryPipeline ClickHouse的单机模型其实是十分的强的，而后整体Pipeline驱动模式能够参考上面这个图，这里就不再具体开展。 ClickHouse的单机模型接下来咱们就看下另外一个场景，分布式执行。这是一个分布式表，而后有三个分片。做一个简略的count，在ClickHouse这块的话，就是把它改写成三个本地执行的子查问，而后别离计算，生成两头的Partial merge result，最初在coordinator节点上进行聚合，最初生成一个残缺的后果返回给用户。 ...

关于数据库:SeaTunnel-StarRocks-连接器的使用及原理介绍

Apache SeaTunnel 现已反对 StarRocks Connector，使其“Connector 方阵”进一步扩充。StarRocks 是一个用户根底宽泛的 MPP 数据库，SeaTunnel 将 StarRocks 纳入反对列表，将不便用户更好地解决数据同步问题。在 2023 年 3 月 30 日的 SeaTunnel 线上流动上，贡献者毕博为咱们分享了《SeaTunnel StarRocks 连接器的å应用及原理介绍》，内容精髓整顿如å下。贡献者简介毕博，马蜂窝数据平台负责人，Apache SeaTunnel 贡献者分享纲要： ● Seatunnel StarRocks 连接器简介 ● StarRocks Connector 性能个性 ● StarRocks Connector 数据读取解析 ● StarRocks Connector 数据写入解析 ● StarRocks Connector 的应用示例 ● StarRocks Connector的后续布局 SeaTunnel StarRocks 连接器简介首先介绍一下数据同步平台 Apache SeaTunnel 的根本架构。上图为 SeaTunnel 架构图，它提供了一套形象的 API，包含 Source 、Transform、Sink API等。基于这些形象 API 可扩大出各种各样 Connector，其中基于Source API 实现的 Source Connector 能够从左侧泛滥的数据源中读取数据，Transform Connector 用于实现数据 Pineline 中的数据转换解决，而 Sink Connector 能够将数据写入到右侧多种异构的数据源中。 ...

关于数据库:NFT数字藏品平台遭薅羊毛如何处理

什么是数字珍藏数字藏品其实是NFT的一种利用模式，即应用区块链技术，对应特定的作品、艺术品生成的惟一数字凭证，在爱护其数字版权的根底上，实现真实可信的数字化发行、购买、珍藏和应用。只管有时候数字藏品被抽象地成为NFT，然而说NFT就是数字藏品，还是不够谨严的。 NFT的利用场景很多,艺术作品、收藏品、时尚娱乐、游戏内物品,还有体育竞技、身份验证、保险、电子门票等,然而最广为人知的是数字艺术和游戏。每件艺术品都能够通过NFT的模式出现,不仅爱护版权,更能够验证购买艺术品的真实性。在元宇宙加持下的游戏,可能通过NFT记录玩家在游戏内物武器、配备、角色等,确保物品替换、交易、获取时的真实性。同时,NFT良好实现了实物的数字资产化,对数字艺术更好的定价与流通。但NFT数字收藏品的大量涌入,让轻松赚钱为欺诈流动发明了完满的激励组合。某NFT数字藏品平台促销流动中同时遭逢“刷量”和“薅羊毛”双重业务欺诈。黑产如何操作的，次要采纳如下几个欺诈形式注册时：黑产通过代理ip或者脚本软件舞弊，可实现主动批量注册账号。变换IP地址，从而躲避了平台对ip的频次限度，实现了海量刷票。交易是：通过群控软件，操控大量账号，短时间内实现指定商品的抢购。从整个过程来看，黑产次要利用ip地址，实现了一些列操作，作为平台应该怎么操作，才能够防护，防止损失？通过ip数据云的ip归属地-城市级，在用户注册时候，与GPS地位进行穿插核验，地理位置与ip地址不符的重点关注。 IPv4归属地数据：七大洲、国家、洲/省、城市、区县、街道、纬度、经度、国家缩写、国内直播电话和区号、邮政编码、气象站、海拔、互联网服务提供商、行政区码通过IP数据云的IP利用场景辨认产品，剖析拜访网站的IP地址，判断该IP的利用场景类型，通过过滤掉机房、数据中心等黑产IP地址，正确辨认真人IP用户。 IP利用场景数据： ASN、运营商、利用场景标签：任播网络、内容散发、商业公司、域名解析、教育机构、企业专线、政府机构等15种场景类型

关于数据库:IvorySQL首个地区用户组招募啦

一支穿云箭，千军万马来相见。尊敬的IvorySQL开源社区成员，感激大家始终以来的反对和关注。咱们很快乐地发表，「IvorySQL开源社区用户组」正式启动。咱们真挚邀请所有对数据库、开源、IvorySQL感兴趣的人士退出咱们社区，一起为IvorySQL的倒退贡献力量！ IvorySQL用户组成立旨在为各地区用户、开发者、开源技术爱好者构建一个凋谢自在的本地交换（线）大（下）本（轰）营（趴）。在这用户组成员能够基于「IvorySQL相干的技术个性、性能点、应用感触、社区奉献」等方面进行分享，也能够对「数据库技术及开源文化」相干进行分享，一起共建IvorySQL地区生态。官网网址：https://www.ivorysql.org/zh-cn/社区仓库：https://github.com/IvorySQL/IvorySQL IvorySQL社区欢送并赞叹所有类型的奉献，期待您的退出！还有，别忘了在GitHub给咱们一个 ⭐奥~

关于数据库:分布式编译系统的搭建

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：dan文章起源：GreatSQL社区原创因为MySQL 源码编译单机消耗的工夫过于长，最近MySQL 变成8.0.27 当前编译工夫显著更耗时了，并且办公室内有多余的闲暇机器。应用分布式编译，能够在不扭转现有环境的状况下，进步编译效率。目前比拟罕用的编译工具有2个 distcc 与 icecream , 本文应用distcc 进行部署。部署distcc分为两个局部一个是服务端，一个是客户端程序别离是distccd 和 distcc 服务端也是咱们空余的设施上能够基于Docker部署镜像版本最好和客户端统一，编译器版本需要GCC 或者 Clang 统一 moyu22:/opt/distcc$ cat Dockerfile FROM ubuntu:20.04RUN apt update && \apt install -y net-tools distcc gcc g++ clang-12 && \apt clean && \echo "#!/bin/bash \n distccd --daemon --no-detach --no-detach --user nobody --allow 0.0.0.0/0 --log-stderr --stats \${OPT}" > ./entrypoint.sh && \chmod +x ./entrypoint.sh# Run the generated shell script.ENTRYPOINT ["./entrypoint.sh"]打包一个distccd 的镜像 docker build -f Dockerfile -t distcc .Docker启动 ...

关于数据库:您有一份直播回放待查收

在各位搭档们的积极参与下，这次社区版重启直播顺利完结。再次感激大家对 CloudQuery 的反对和关注！本文将回顾直播内容、整合用户问题、公布获奖名单，为此次流动画上句点。 01直播回顾 ● 社区版的倒退历程、重启降级 ● 1.5全新社区版理念 ● 1.5版本新性能展现 ● 社区版后续瞻望点击观看直播回放https://www.bilibili.com/video/BV1Dh4y1H7jA/?spm_id_from=333.... 02 用户问题及解答执行一个事务的时候不小心退出了 CQ 以后事务，是会提交还是回滚CQ有一个是否主动提交的开关，用户能够自行设置。如果开启了主动提交，CQ 会进行提交操作；没有开启则不会提交。CQ 社区版最大能反对多少的导出量，比方导出sql文件或者excel目前来说，CQ 没有导出量的限度。当然咱们会有倡议，导出太大数据可能对数据库性能产生影响。另外，CQ 采纳流式导出，数据导出的能力是不错的。还反对导出多种格局，大家能够自行尝试。通过查问平台去做下发 SQL，如果是慢查问是否有内部 kill 机制目前来说，临时是没有这个机制的。但如果大家有这个诉求，咱们也会思考增加相干性能去满足大家的需要。CQ 中如何执行 SQL 脚本CQ 有客户端，通过终端就能实现执行 SQL 脚本的能力。另外，咱们还提供“集体文件夹”的性能，大家能够把须要执行的脚本上传到集体文件夹，在终端就能够进行相干执行。03获奖名单颁布祝贺以上用户，咱们将在三天内发货，为大家送上精美礼品。没抽到奖品的搭档们也不要灰心，接下来咱们还将发展多种形式的社区活动，欢送大家积极参与！ 04CloudQuery v1.5.0 官网下载链接最新 1.5.0 版本尝新，复制下方链接进入官网下载：https://cloudquery.club/#/download 新敌人欢送扫描下方二维码，增加官网小助手进入交换群，技术人员将在群里实时为大家答疑解惑。

关于数据库:2023年第十二届数据技术嘉年华DTC资料分享

第十二届数据技术嘉年华（DTC 2023）已于4月8日在北京圆满闭幕，大会围绕“开源·交融·数智化——引领数据技术倒退，开释数据因素价值”这一主题，共设置有1场主论坛，12场专题论坛，68场主题演讲，汇聚“产学研”各界数据技术领军人物、学术精英、技术专家、行业用户，从多角度、多维度带来了从技术倒退到计划构建、从用户需要到行业实际的技术干货与远见卓识。数据技术嘉年华（DTC）是由由中国DBA联盟（ACDU）和墨天轮社区联结主办的数据技术畛域的盛会，至今已胜利举办12届，吸引和汇集了泛滥数据畛域学术精英、领袖人物、技术专家、从业者和技术爱好者，于此进行技术交换与分享。为帮忙大家回顾、重温这场盛会，在此为大家整顿大会的PPT材料与视频回放入口，望便于大家把握数据库前沿倒退、学习技术实际干货。数据库技术创新与冲破黄凯耀-openGauss架构翻新与新个性深度解读张亮-面向新一代数据架构的数据库加强引擎唐建法-开源+实时+数据即服务架构: 遇见前所未有的Tapdata Live Data Platform 张程伟:金毅-回归数据本原，企业级数据库的技术演绎杨廷琨-Oracle 23c 翻新个性与SQL加强王春玲-MogDB中自治异步事务提交的设计与实现 NoSQL、HTAP、分布式等前沿数据库技术摸索实际刘松-以自主开源和凋谢架构构建新一代HTAP数据库于涛-从零开始打造新一代开源HSTAP数据库.pdf - 墨天轮文档 (modb.pro 姚延栋-YMatrix 超交融数据库叶正盛-NineData，AIGC时代的企业级SQL开发平台周日明-打造外围引擎筑路数字经济：金篆信科GoldenDB 7.0新个性详解数据库内核技术分析与落地实际李士福-openGauss：自驾驶数据库内核郭茁-基于数据复制技术的多写多读数据库集群解决方案伍旭飞-数据库内核演进，keewidb软硬一体化摸索廖浩均-将流式计算引入时序数据库，TDengine 3.0 的分布式架构实际湖仓、开源与云原生的交融实际张绍勇-GBase GCDW云上实时逻辑数仓，反对湖仓一体李俊-基于HashData的湖仓一体解决方案的摸索与实际张雁飞-Databend: 基于对象存储构建实时云原生数仓 Jason Li -智能湖仓2.0：构建数据一体化交融剖析张焕晨-迈向老本智能的云数据仓库将来娄帅-GreatSQL开源社区——做中国广受欢迎的开源数据库冯若航-更好的开源RDS PG代替：Pigsty 代晓磊-知乎分布式数据库上云实战数据库智能运维与实际刘宇-面向多样化数据库的数据底座——数据库存储2.0 巩飞-构建自治智能的数据库云管平台，减速国产数据库利用过程徐戟(白鳝)-常识图谱与异样检测助力数据库可观测性阿尔曼-库内人工智能改革：新挑战，新机遇（终版）徐培-为数据插上智能的“翅膀”，数据智能技术助力企业降本增效（终稿）金融、通信等畛域的国产数据库落地实际王义成-腾讯云TDSQL助力金融政企外围零碎国产化韩锋-走好信创最初一公里刘欢-京东云数据库在双十一期间的利用实际明玉琢-关基畛域高价值根底数据利用国产替换与降级张俊喜-迁徙之路：从国产封装到中国自主品牌周明媛-光大银行国产化数据仓库落地实际李传猛-ToB简单HTAP业务场景的落地：用友事项会计+云原生PolarDB 张桦-通信行业外围零碎数据库的利用与翻新朱乐齐-数字政府中数据治理新模式本文以主题专题模式为大家展现了局部PPT材料，点击下方链接也能够查看全副材料合集及视频回放： 2023数据技术嘉年华视频回放 \ 2023数据技术嘉年华（PPT合辑）欲了解更多可浏览墨天轮社区，围绕数据人的学习成长提供一站式的全面服务，打造集新闻资讯、在线问答、流动直播、在线课程、文档阅览、资源下载、常识分享及在线运维为一体的对立平台，继续促成数据畛域的常识流传和技术创新。

关于数据库:日增百亿数据查询结果秒出-Apache-Doris-在-360商业化的统一-OLAP-应用实践

导读： 360商业化为助力业务团队更好推动商业化增长，实时数仓共经验了三种模式的演进，别离是 Storm + Druid + MySQL 模式、Flink + Druid + TIDB 的模式以及 Flink + Doris 的模式，基于 Apache Doris 的新一代架构的胜利落地使得 360商业化团队实现了实时数仓在 OLAP 引擎上的对立，胜利实现宽泛实时场景下的秒级查问响应。本文将为大家进行具体介绍演进过程以及新一代实时数仓在广告业务场景中的具体落地实际。作者｜360商业化数据团队窦和雨、王新新 360 公司致力于成为互联网和平安服务提供商，是互联网收费平安的倡导者，先后推出 360安全卫士、360手机卫士、360平安浏览器等平安产品以及 360导航、360搜寻等用户产品。 360商业化依靠 360产品宏大的用户笼罩能力和超强的用户粘性，通过业余数据处理和算法实现广告精准投放，助力数十万中小企业和 KA 企业实现价值增长。360商业化数据团队次要是对整个广告投放链路中所产生的数据进行计算解决，为产品经营团队提供策略调整的剖析数据，为算法团队提供模型训练的优化数据，为广告主提供广告投放的成果数据。业务场景在正式介绍 Apache Doris 在 360 商业化的利用之前，咱们先对广告业务中的典型应用场景进行简要介绍：实时大盘：实时大盘场景是咱们对外出现数据的要害载体，须要从多个维度监控商业化大盘的指标状况，包含流量指标、生产指标、转化指标和变现指标，因而其对数据的准确性要求十分高（保证数据不丢不重），同时对数据的时效性和稳定性要求也很高，要求实现秒级提早、分钟级数据恢复。广告账户的实时生产数据场景：通过监控账户粒度下的多维度指标数据，及时发现账户的生产变动，便于产品团队依据实时生产状况推动经营团队对账户估算进行调整。在该场景下数据一旦呈现问题，就可能导致账户估算的谬误调整，从而影响广告的投放，这对公司和广告主将造成不可估量的损失，因而在该场景中，同样对数据准确性有很高的要求。目前在该场景下遇到的艰难是如何在数据量比拟大、查问穿插的粒度比拟细的前提下，实现秒级别查问响应。AB 试验平台：在广告业务中，算法和策略同学会针对不同的场景进行试验，在该场景下，具备报表维度不固定、多种维度灵便组合、数据分析比较复杂、数据量较大等特点，这就须要能够在百万级 QPS 下保证数据写入存储引擎的性能，因而咱们须要针对业务场景进行特定的模型设计和解决上的优化，进步实时数据处理的性能以及数据查问剖析的效率，只有这样能力满足算法和策略同学对试验报表的查问剖析需要。实时数仓演进为晋升各场景下数据服务的效率，助力相干业务团队更好推动商业化增长，截至目前实时数仓共经验了三种模式的演进，别离是 Storm + Druid + MySQL 模式、Flink + Druid + TIDB 的模式以及 Flink + Doris 的模式，本文将为大家进行具体介绍实时数仓演进过程以及新一代实时数仓在广告业务场景中的具体落地。第一代架构该阶段的实时数仓是基于 Storm + Druid + MySQL 来构建的，Storm 为实时处理引擎，数据经 Storm 解决后，将数据写入 Druid ，利用 Druid 的预聚合能力对写入数据进行聚合。 ...

关于数据库:刘浩当谈到RTO-8s时OceanBase究竟在说什么

本文为 OceanBase 高级技术专家刘浩在第一届 OceanBase 开发者大会带来的分享。欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 3 月 25 日，第一届 OceanBase 开发者大会在北京举办，OceanBase 高级技术专家刘浩为大家带来了《RTO < 8s：OceanBase极致高可用的探索之旅》的分享，为大家介绍了 OceanBase 在 RTO 畛域的摸索。以下是演讲实录：大家好，我明天分享的主题是《RTO<8s，OceanBase 极致高可用的探索之旅》，RTO（Recovery Time Objective）指的是“故障产生后业务的复原工夫”，这里的“复原工夫（30s→8s）”是 OceanBase 从 4.0 到 4.1 版本始终在致力的事件，它是很准确的数字，明天我将分享咱们在客户的利用场景下看到了什么问题才决定将这个值准确到“8”，为什么之前 30 秒还不够？之后又做了哪些优化？解决了哪些挑战等一系列问题。继续可用的价值是什么？首先看一下继续可用的价值，这个置信用数据库的人都比拟有体感。第一，要害的 IT 零碎宕机会造成微小的经济损失。在 OceanBase 商业化过程中，有的客户如果宕机一个小时，损失的金额大略在几十万到百万美金，这是一个十分惊人的数字。第二，在经济损失以外，还有很多隐性品牌方面的损失。比方每一个互联网服务都会大量应用数据库，如果数据库呈现故障，故障工夫内就无奈为一部分用户提供服务，这会大大降低用户对该服务的信任度。第三，对在 IT 零碎撑持下的社会运行的影响。每一次故障都可能带来十分大的社会影响。举个 3 月份的例子，我本人早上会坐十号线，在刚刚过来的半个月外面，我经验了两次十号线的故障，而且每次故障继续的工夫长达一个小时，影响十分大。 ▋ RPO在谈到“继续可用”的时候总绕不开两个概念，RPO 和 RTO。在故障产生的时候个别会有两个数字上的指标，第一个就是 RPO（Recovery Point Objective）。上图两头那条线是代表故障产生的工夫点，在故障产生工夫点之前会有一个短的线段，代表你应用这样的数据库业务会带来多少数据损失。有两种次要的可能造成 RPO≠0 的起因：第一，在应用相似于 MySQL 的数据库的时候，很多时候为了谋求性能，事务提交时不强制刷盘。这样如果恰好产生宕机，就可能失落最初写入的一部分数据。第二，当初数据库系统须要包容更多的故障，比方机房的故障、城市的故障。在之前的数据库里有典型的主备架构，主备架构更罕用的是异步的形式。如果主库宕机时，备库无奈接管最新的数据，也会带来显著的 RPO 损失,有的时候会在秒级，有的时候会更长，而每次 RPO 的损失都会要求业务对数据做弥补，这对业务会带来十分大的影响。 ...

关于数据库:华东师范大学副校长周傲英未来中国需要什么样的数据库

本文为华东师范大学副校长，CCF 会士周傲英传授在第一届 OceanBase 开发者大会带来的分享。欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 3 月 25 日，第一届 OceanBase 开发者大会在北京举办，华东师范大学副校长，CCF 会士周傲英传授带来了《将来, 中国须要什么样的数据库？》的分享，从他的视角为大家介绍了数据库技术倒退的趋势、行业的机会，还有咱们所肩负的使命。以下为演讲实录：很快乐又来到 OceanBase 的会场，对于中国将来须要什么样的数据库，是我特地想讲的内容，我从1985 年读研究生的时候开始学习数据库，通过多年的倒退，中国终于迎来了数据库倒退的新机遇。明天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个次要方面开展。利用驱动翻新的数据库简略回顾一下数据库，从更高的维度来看，数据库属于什么样的技术领域？如果数据是电能（power），须要把电送到千家万户，咱们就须要一个赋能平台，要有电力的基础设施，此时，我感觉数据库就属于基础设施外面的一个重要内容，并且它具备先锋性的作用。开展讲讲赋能平台，“赋能”这个词是互联网的概念，当初曾经被宽泛应用，当初咱们到处讲的“赋能”，英文是 In-power，也就是说它的主语应该是 power，能力赋能其它的。这个角度来说数据库就是赋能平台的概念，最早在 50 多年前曾经呈现，当初曾经到了宽泛的赋能平台，当初就来分享一下，咱们在和 OceanBase 单干中对分布式数据库的了解。大家都晓得，咱们在学计算机专业的传统专业课程中，有四门课是咱们这个业余独有的——编译、操作系统、数据库、网络，而这四门课程中，只有数据库成为了一个独立的行业。操作系统中的 Windows 不是独自卖 Windows，编译也没有独自卖编译的，网络是卖硬件的、没有卖软件的。从这个角度来说，在数据库产业的倒退过程中，Benchmark 基准评测起到了很好的作用，也标准了这个行业的倒退，让大家绝对偏心、有序地竞争。 ▋ 数据库为金融而生数据库是作为金融技术、金融科技而诞生的，反对的是 Mission-Critical 的利用，Mission-Critical 是人财物的准确治理，为了做到“准确”，咱们须要数据库。最早的数据库从 COBOL (Common Business-Oriented Language，最早的商用编程语言)里诞生。2000 年，美国因为千年虫（Y2K）的历史遗留问题，把很多在海边独居的老人请回来改代码，那时候的代码还是 COBOL 代码，最早的社保和医保零碎都是用 COBOL 来写的。2020 年疫情刚开始时，因为很多医保、社保在这一年马上要兑付，很多老人再次被请回来改代码。由此可见，数据库是晚期最经典的金融科技，是典型的“利用驱动翻新”的案例。 ▋ 数据库的倒退历史20 世纪 50 年代，COBOL 开始呈现；60 年代，COBOL 被定义为数据系统语言，第一个图灵奖获得者艾伦·佩利（Alan J.Perlis）在 CODASYL 会议上提出了 DBTG 报告；80 年代，数据库概念达到高峰，关系型数据库开始呈现，数据库由此开始缓缓被人承受，并由此开始广泛传播，也是在这个过程中，两个图灵奖获得者诞生了。数据库的发展史是 IT 技术创新史的缩影，数据库的的胜利是利用翻新的胜利。用利用驱动翻新的数据库，在实践和技术的相互促进中，造成了数据库波澜壮阔倒退的几十年。尽管数据库技术在一直倒退中越发胜利，然而任何胜利的案例都有它粗浅的教训：本来咱们认为一个关系数据库可能解决所有问题，但在大数据和谷歌的“三驾马车”概念进去之前，大家如同都在悲叹数据库如同解决不了数据的问题，直到” One Size Fits a Bunch”（即一类利用能够有一个数据库）概念的提出。 ...

关于数据库:Bytebase-VS-Liquibase

产品功能定位Liquibase：专一于数据库变更版本治理的工具，实用于简略的小型变更，高级能力依赖与其余工具集成。Bytebase：以 DevOps 理念打造，面向开发者与 DBA 的一站式数据库 CI/CD 工具，提供了围绕数据库变更治理与平安查问的一系列业余能力，并实现了与上下游研发工具预集成。 Liquibase 和 Bytebase 都是开源我的项目，尽管 Liquibase 曾经公布多年，但其星星数无论是绝对值还是增速都远远不如 Bytebase。产品状态Liquibase：实质是一个命令行工具，在企业版减少了一些简略的图形界面。Bytebase：全图形界面，同时带有命令行模式与 API 接口兼容不同研发治理流程。次要性能比照局部性能具体比照变更流程展现Liquibase（企业版才有） Bytebase 工单驱动的变更公布多环境的流水公布变更后果剖析Liquibase 简略的表格局的比照 Bytebase 图形化查看变更历史清晰的可视化差别比照，同时能够查看变更后的残缺表构造 SQL 审核Liquibase 只能切换后盾下载报告查看运行后果，且内容简略 Bytebase 能够在 GitLab/GitHub 提交代码时开发者进行 SQL 预审核执行前的实时审核审核标准配置Liquibase 齐全命令行 Bytebase 可视化配置且可保留为模板总结Bytebase 和 Liquibase 都能为开发人员提供数据库版本控制和变更的能力，但两者在产品定位，产品状态，治理性能和应用办法上等方面都有较大的差别，上文对这两个工具进行了多维度比拟。另附上：Bytebase vs Flyway 的比照。

关于数据库:查询网站ip地址

IP地址是Internet Protocol（互联网协议）的一部分，是一个32位的数字，用于标识网络中的设施。它能够让不同的设施在网络上进行通信和交换，是网络通信的根底。IP地址的利用十分宽泛，它能够用于辨认和定位设施，管理网络，爱护网络安全，数据传输和路由管制等方面。在互联网上，IP地址是惟一的，因为每个设施都有本人独特的IP地址。此外，IP地址能够分为公网IP地址和公有IP地址，别离用于在互联网和局域网中进行通信。IP地址就像咱们的门牌号一样，是一个用于标识咱们住所的数字，只不过IP地址是用于标识网络设备的数字。就像咱们的门牌号能够让快递员精确地找到咱们的住所一样，IP地址能够让不同的设施在网络上进行通信和交换。IP地址也能够让网络管理员辨别不同的设施，帮忙管理网络和爱护网络安全。那么，如何通过ip地址查问到具体位置咱们能够ip地址理解到一个设施的大抵地位和所在地区，要进行IP地址查问，咱们须要应用一些在线工具，比方IP数据云，输出IP地址，而后零碎会主动查问该IP地址所对应的地理位置信息，还有宿主信息、危险等数据，想理解更多，能够点击进行应用。什么是ip地址泄露IP泄露是指在网络通信中，设施的IP地址被意外或歹意地泄露进来，导致别人能够通过这个IP地址理解到该设施的地位信息和网络流动信息。IP泄露可能会对设施的平安和隐衷造成威逼，因为黑客或其余歹意用户能够通过IP地址发动攻打或追踪设施的应用状况。IP泄露的起因很多，比方应用未加密的网络连接、拜访不平安的网站、下载不平安的软件等等。在这些状况下，设施的IP地址可能会被捕捉并被别人利用。此外，一些应用程序和浏览器插件也可能会收集用户的IP地址信息，并将其发送给第三方服务提供商，从而导致IP泄露。为了爱护设施的平安和隐衷，咱们应该采取一些措施来防止IP泄露。比方应用加密的网络连接、拜访平安的网站、下载可信的软件等等。公开ip属地是泄露信息吗？IP属地不等于IP地址，公开的IP属地信息仅展现为省（自治区、直辖市）或国家（地区）。单从境内账号展现的地区信息维度来看，某一省级地区内的用户数量宏大，难以间接通过该信息辨认到或关联到特定的自然人。当接入互联网时被调配的IP地址，互联网通信协议决定了信息接管方必须晓得这个IP地址，也因而能够通过IP地址晓得属地，这个过程并不需要用户受权和关上手机敏感权限，所以部波及个人隐私。

关于数据库:PolarDBX-致数据库行内人-一-如何有效评测国产数据库的分布式事务

分布式事务评测缘起近段时间，始终在参加国内金融行业的分布式数据库选型测试工作，围绕银行外部的理论业务场景进行验证。遇到了一个比拟有意思的案例。后期在联机业务场景测试中，各大数据库厂商在事务测试上都比较顺利，在性能和性能角度都很好的满足了业务要求。但在跑批业务场景的测试中，个别数据库厂商就遇到了分布式事务的一致性问题(会读到分布式事务中间状态的数据)，而该厂商通过了行业的各项事务测评认证，因而开展了如何无效评测国产数据库事务一致性的话题，须要大家辩证的思考下。本文是系列文章的第一篇，介绍第一个重要话题：“数据库的分布式事务”，这也是目前普通用户面对分布式数据库产品介绍问的最多的一个内容，如何无效评测分布式事务也是一个十分重要的能力。致敬同行，咱们将PolarDB-X事务架构设计上的一些思考和测试形式，做了整顿和梳理，冀望能对大家更好的了解分布式事务的测试有所帮忙。这些所谓观点并无谁对谁错之分，仅仅代表咱们的思考。如果你有任何想说的，也欢送在评论区与我探讨。金融行业通用测评近年来国内自主可控诉求越来越强烈，国内数据库行业蓬勃发展，诞生了很多守业型公司，国家层面也出台了一系列的数据库评测规范，大体分为集中式和分布式数据库的测评。中国人民银行在2020年公布了一个行业标准，《分布式数据库技术金融利用标准技术架构（JR/T 0203-2020）》对于分布式事务测试的形容：分布式数据库金融规范，是分布式数据库行业中最残缺的规范之一，给出了对于分布式数据库的事务ACID测试的指导性意见。机构测试设计的测试用例，广泛会采纳模仿数据库故障形式来验证分布式事务，细分一下场景：模仿数据库多正本的重启，能够验证数据库事务的持久性 (ACID中的D)模仿主机的异样故障(断网、IO Hang等)，能够验证数据库事务的原子性 (ACID中的A)采纳SQL交互，设置不同的数据隔离级别，开多个链接，手工验证事务的隔离级别 (ACID中的I)比方运行TPC-C 或者特定的转账测试，在数据导入实现、以及程序运行实现后，运行几条一致性校验的SQL来验证数据的一致性 (ACID中的C)整个测评计划更多是围绕事务ACID，进行了比拟全面的笼罩型验证，但从数据库内核研发的视角视角、以及金融行业理论业务场景的实测来看，还是有肯定的局限性，否则也不会呈现通过分布式数据库金融行业认证，但无奈通过金融行业理论业务场景的测试验收。 PolarDB-X的设计和思考事务是所有的根底先抛开分布式数据库，咱们首先思考一个通用数据库的话题：数据库事务在哪些地方影响了业务应用？咱们拿一个银行的转账场景做一下例子：A账户余额有100元，B账户余额0元，在这个根底上A向B转账40元复盘常见的业务场景：在线联机业务，通过事务ACID机制，须要保障A向B转账过程中的数据一致性，满足任意时刻A和B上的账户总余额为100数据库备份和复原，按工夫点的复原(point-in-time recovery)目前也是行业的共识需要，咱们须要确保复原进去的备份集数据，满足A和B上的账户总余额为100这也是目前行业测试过程中常见的关注场景，但联合业务场景思考一下，还远不止，比方：跑批业务，典型的ETL机制，通过数据的全量读取和批量写入，为满足业务解决效率，很多数据库厂商会提供旁路导入和导出的机制，同样须要满足事务的总余额为100。旁路导出例子：select * from user partition(p1) order by id desc limit 10,10，每个分片数据独自做分页排序，缩小分布式的分页排序代价。flashback query，典型的数据疾速复原场景，oracle基于MVCC多版本提供了AS OF Timestamp语法，能够疾速读取一个历史的事务数据版本，联合insert into xxx select xx as of timestamp '10分钟前'能够疾速复原出业务误操作的数据。读写拆散 or follower read，典型的技术架构场景，比方paxos/raft的三正本，很多数据库厂商会提供follower read的能力，实质上就是一种读写拆散的架构，同样须要满足事务的总余额为100。须要留神：事务的一致性读和多正本下的数据复制提早带来的数据不统一读，这是两个不同的概念。比方；数据提早只是让咱们读到1秒钟之前的事务数据，但1秒前的数据读取总余额时也要为100，不能读到40或者140的中间状态。容灾架构(两地三核心、同城3AZ)，典型的容灾架构场景，比方思考两地三核心的极其场景，核心地区挂了，切换到异地机房，异地机房的数据能够有提早(RPO>0)，但须要事务粒度的一致性，满足A和B上的账户总余额为100。主备复制 or CDC(mysql binlog订阅)，典型的数据增量复制的场景，常见于数据库的binlog增量日志，部署异地多活复制，同样须要须要保障事务的一致性，在外置复制增量数据的状况下，满足A和B上的账户总余额为100(查问数据仓库或者异构的备库)HTAP架构，常见的数据库实现为采纳多份数据正本的形式，通过行转列构建异步的列存正本，尽管数据行转列会有提早，但查问到列存正本时同样须要思考事务的一致性，即便读取1秒前的数据也要满足总余额时为100。大家能够辩证的思考一下，这部分的业务场景在传统的单机数据库事务中是一个默认能力，但在分布式事务中绝不是一个简略的ACID机制，还须要有更多的顶层设计，一句话总结：事务是所有的根底，影响重大举一个反例子来看，常见于传统的分库分表的事务架构，能够通过开源MySQL或者PG的主备强复制、两阶段的事务提交，能够肯定水平的满足ACID的定义，但在遇到其余业务场景会事务统一的局限性： 1.指定工夫的备份复原，因短少任意工夫点的一致性视图，导致无奈满足一致性复原。变种的办法：定时做高频的一致性快照，比方每各30秒备份一次全局沉闷事务链表，能够达到复原到30秒的粒度2.联机和跑批混合场景，跑批场景读取全量数据过程中，因短少一致性的视图，会有机会读取到事务提交阶段的状态。变种的办法：跑批场景不能做旁路，全量数据拉取都得通过全局沉闷事务链表来判断分布式事务计划目前分布式事务常见计划：简略做一个解读： XA协定，全名为 X/Open XA 协定，是一项通用的事务接口标准，最早在90年代开始提出，可参考：《Distributed Transaction Processing: The XA Specification》。留神：XA次要基于2PC两阶段提交实现事务的原子性，而分布式下的一致性则须要额定的设计，会呈现读偏斜的问题GTM，最早起源于PG-XC开源数据库，次要是通过GTM调配一个事务ID，通过沉闷事务链表来解决事务的可见性问题。目前常见于PG生态，比方GaussDB，沉闷事务链表在单机数据库中也比拟常见。TSO/HLC，次要是基于工夫戳技术，参考Oracle的MVCC多版本设计，每个事务都有start_ts / end_ts的工夫戳，通过工夫戳的先后顺序来判断事务的可见性，相比于沉闷事务链表会更轻量。 TSO和HLC次要还是对于工夫戳调配算法上的一些差别，目前来看海内数据库重点关注GEO Partition带来的多活架构。PolarDB-X 事务设计上的总结： ...

关于数据库:4月26日30日KaiwuDB-在数字中国等你

2023年4月26日-30日（下周三至周日），作为我国数字中国建设最新成绩展现平台、汇聚寰球力量助推数字中国建设的单干平台，第六届数字中国建设峰会（数字中国）将以“放慢数字中国建设，推动中国式现代化”为主题于福州隆重揭幕。本次，KaiwuDB 受邀亮相数字中国现场，并将公布阶段性重要成绩。亮点一览亮点1：全家福亮相4月26日-30日，KaiwuDB 将于 6 号展馆-6D08（记住不迷路！），携旗下 AIoT 数据库、KDP（数据服务平台）以及各大行业生态搭档摸索实际全方位亮相。同期，咱们的业余技术顾问老师将驻扎展台现场为大家答疑解惑；此外，展台将设置乏味的互动环节，并筹备限量版定制礼品，欢送大家线下来做客~ 亮点2：最新成绩公布4月29日11:40-12:00，KaiwuDB 将从行业趋势、计划架构、技术实现、利用案例等角度，与大家分享近期最新成绩——离散制造业解决方案。该成绩旨在面向物联网、制造业等事实场景，助力工厂企业优化人员、设施、流程全方位流程、实现降本增效。欢送各位搭档围观！

关于数据库:直播预告-字节跳动云原生大数据分析引擎-ByConity-与-ClickHouse-有何差异

ByContiy 是字节跳动开源的一款云原生的大数据分析引擎，善于交互式查问和即席查问，具备反对多表关联简单查问、集群扩容无感、离线批数据和实时数据流对立汇总等特点。 ByConity 从1月份公布开源 beta 版本之后，陆续收到社区询问 ByConity 和 ClickHouse 差别的反馈： “ByConity 有没有shard正本的概念了？” “ByConity 的执行还是相似Clickhouse Scatter-Gather模式吗？” “对于哪些能力和ck统一，哪些不统一，这一块还比拟含糊。” ……ByConity 站在 ClickHouse 的肩膀上进行了云原生的架构设计，那么两者在应用过程中有哪些异同？为了答复社区对于两者差别的疑难，同时也给刚接触 ByConity 的用户一个清晰概览，本次【从应用的角度看 ByConity 和 ClickHouse 的差别】直播分享邀请 ByConity 研发工程师站在应用的角度，从装置部署、创立库表、写入数据、查问等方面进行两者的整体介绍，心愿通过此次分享，对 ByConity 感兴趣的同学可能更加理解其特点与应用场景。 — 流动信息 —直播工夫：4月25日19:00-20:30直播地址：墨天轮直播间观看形式：线上观看— 嘉宾及议程 —嘉宾介绍分享嘉宾：方伟 ByteHouse剖析型数据库研发工程师。有多年大数据畛域相干教训，如 OLAP 数据库，实时流解决，用户行为剖析，A/B试验等，目前负责字节跳动 OLAP 引擎相干研发工作。流动议程19:00 - 19:20：社区问题解答 19:20 - 20:20：技术分享+Q&A 20:20 - 20:30：社区停顿同步 — 直播亮点前瞻 —独特把握技术干货通过此次分享，你将理解 ByConity 与 ClickHouse：在资源隔离与扩缩容设计上的架构与组件差别在库表创立、数据导入与查问上的差别在事务反对与非凡表引擎上的差别学常识领奖品，精美周边等你领线上观看并参加抽奖，将有机会取得 ByConity 社区文化衫参加线上互动交换、反馈我的项目倡议，填写问卷将有机会支付 ByConity 社区周边更多流动惊喜，尽在【从应用的角度看 ByConity 和 ClickHouse 的差别】直播 ...

关于数据库:MySQL-移动数据目录后启动失败

GreatSQL社区原创内容未经受权不得随便应用，转载请分割小编并注明起源。GreatSQL是MySQL的国产分支版本，应用上与MySQL统一。作者：王权贫贱文章起源：GreatSQL社区投稿背景概述因为装置数据库时将MySQL的数据目录放在了根目录下，当初存储空间有余，想通过mv将数据目录挪动到其余目录下，但将数据目录挪动到其余数据目录后，启动数据库失败。问题复现本次测试基于 MySQL 8.0.31 1.敞开数据库 mysql> shutdown;Query OK, 0 rows affected (0.02 sec)2.查看以后数据目录所在位置shell> pwd/mysql803.通过mv挪动整个MySQL数据目录到其余目录shell> mv /mysql80 /datashell> cd /data/mysql80/svrshell> ln -s mysql-8.0.31-linux-glibc2.12-x86_64 mysql4.批改属主属组shell> chown -R mysql.mysql /data5.批改配置文件中数据目录的地址shell> sed -i 's#/mysql80#/data/mysql80#g' my5001.cnf6.启动数据库shell> /data/mysql80/svr/mysql/bin/mysqld_safe \--defaults-file=/data/mysql80/conf/my5001.cnf --user=mysql &此时启动数据库失败，谬误日志报错如下： mysqld: File '/mysql80/dbdata/data5001/log/binlog.000012' not found (OS errno 2 - No such file or directory)2023-02-27T10:38:09.240576+08:00 0 [ERROR] [MY-010958] [Server] Could not open log file.2023-02-27T10:38:09.240657+08:00 0 [ERROR] [MY-010041] [Server] Can't init tc log2023-02-27T10:38:09.240718+08:00 0 [ERROR] [MY-010119] [Server] Aborting2023-02-27T10:38:10.548605+08:00 0 [System] [MY-010910] [Server] /data/mysql80/svr/mysql/bin/mysqld: Shutdown complete (mysqld 8.0.31) MySQL Community Server - GPL.这里报错显示找不到binlog文件，并且报错显示的binlog的目录还是之前的，然而配置文件中的目录曾经批改 ...

关于数据库:数据库厂商云和恩墨加入龙蜥社区打造安稳易用的-IT-运行环境

近日，云和恩墨(北京)信息技术有限公司（以下简称“云和恩墨”）签订了 CLA（Contributor License Agreement，贡献者许可协定），正式退出龙蜥社区（OpenAnolis）。云和恩墨创建于 2011 年，以“数据驱动，成就将来”为使命，是智能的数据技术提供商。其在数据库根底软件、数据库治理平台、数据库存储软件和数据智能产品等畛域为各个组织提供可信赖的产品、服务和解决方案，已累计间接服务金融、电信、制作、政务等 8 大要害行业的 1000 多个组织，50000 多套业务零碎，300000 多名行业从业者。 MogDB 是云和恩墨基于 openGauss 开源内核进行加强晋升，推出的一款安稳易用的企业级关系型数据库。云和恩墨联合本身十余年积淀的技术和实际劣势，打造 MogDB 外围能力，包含：全密态、压缩技术、高可用、高平安、自治备份复原、一体机、自动化运维、兼容性选件等，解决行业用户的数字化技术创新问题。策略渠道部总经理孙培源示意：“数据库根底软件的万千能力归结到一点，最重要的是满足用户需要。用户的根本需要是什么？平安、稳固、易运维。概括成四个字就是‘安稳易用’，这也是 MogDB 的产品外围特质。龙蜥社区是国内当先的操作系统开源社区，云和恩墨将以智能的数据技术提供商为新的策略定位，通过全面的翻新投入，将积极参与龙蜥社区建设，欠缺生态适配，与龙蜥社区的合作伙伴独特打造安稳易用的 IT 运行环境，助推企业数字化、智能化转型降级。” 龙蜥社区理事高翔示意：“云和恩墨作为在数据库畛域提供治理与撑持类软件、服务和解决方案的创新型企业，在全国范畴内有着深厚的实际积攒和丰盛的胜利案例。置信云和恩墨退出后，与龙蜥及社区合作伙伴一起，合力相融，共育生态潜能，打造服务器+芯片+操作系统+数据库+中间件+应用软件的全栈联结解决方案。” 截至目前，已有 300+ 家企业签订 CLA 协定退出龙蜥社区，包含平安厂商格尔软件、海泰方圆，数据库厂商南大通用、巨杉数据库，中间件厂商西方通、中创中间件、宝兰德等，欢送更多企业退出。龙腾打算 2.0 可参看：首批招募 50 家！「龙腾社区生态倒退打算」正式公布 —— 完 —— 为给大家提供更好的内容和服务，龙蜥社区诚挚地邀请大家参加问卷调研，请扫描下方二维码填写，咱们将筛选优质反馈，送出龙蜥周边！

关于数据库:直播预告-时序数据处理的云端利器TDengine-Cloud-详解与演示

当下，咱们正处在一个万物互联的时代，大数据、云原生、AI、5G 等数字技术极大中央便了人们的生存，但智能物联网产生的海量数据却成为泛滥企业在数据处理上的微小痛点。从实质来看，这些数据大多是产生自各种设施和传感器的时序数据，它是物联网、智能汽车、工业互联网等畛域的外围数据类型，在时序数据海量暴发的当下，寻找可能高效地存储、解决和剖析时序数据的办法成为企业倒退的重中之重。在此背景下，专为时序数据而设计，具备高性能、高牢靠、高可扩大等特点的时序数据库（Time Series Database） TDengine 应运而生。TDengine 不仅是一个开源、云原生的时序数据库，还集成了缓存、流式计算、数据订阅等性能，为时序数据处理提供了一站式解决方案。目前 TDengine 曾经胜利使用在西门子、美的、顺丰、中通、同花顺、蔚来汽车、现实汽车等诸多企业的数据架构革新实际中（点击文字超链查看具体解决方案）。为了让企业可能更加弹性地使用 TDengine 的能力，咱们基于 TDengine 开发出了全托管的时序数据云平台 TDengine Cloud，它可能为用户提供更简略、更便捷、更平安的时序数据管理服务。TDengine Cloud 具备以下三点劣势：极简的时序数据管理平台除高性能、具备程度扩大能力的时序数据库外，TDengine Cloud 还提供缓存、数据订阅、流式计算等性能，无需再部署 Redis、Kafka、Spark/Flink 等第三方软件，大幅简化零碎架构、升高经营老本。便捷且平安的数据共享TDengine Cloud 既反对将一个库齐全凋谢，设置读或写的权限；也反对通过数据订阅的形式，将库、超级表、一组或一张表、或聚合解决后的数据分享进来。这种时序数据共享机制可能帮忙企业各部门以及合作伙伴之间疾速洞察业务经营的变动。安全可靠的企业级服务TDengine Cloud 提供数据定时备份、复原，数据从运行实例到公有云、其余私有云或Region 的实时复制；为保障数据安全，还会提供基于角色的拜访权限管制、IP 白名单、用户行为审计等性能，用 7*24 的业余技术服务保障 99.9% 的 Service Level Agreement。通过平安、业余、牢靠的企业级服务，用户能够用起码的精力和老本实现数据管理，更加聚焦本身外围业务的倒退。在时序数据的治理上，TDengine Cloud 可能帮忙物联网、工业互联网、金融、IT 运维监控等畛域的企业依据本身业务需要实现数据库集群主动扩缩容，大大削减了部署、优化、扩容、备份、异地容灾等工作量，实现了人力老本和经营老本的大幅升高。目前 TDengine Cloud 曾经反对在阿里云、Microsoft Azure、AWS、Google Cloud 四大私有云上拜访和部署 TDengine。为了让更多的开发者理解 TDengine Cloud 及其运作形式，4 月 15 日 19:00-20:00，TDengine 创始人 & 外围研发陶建辉将进行《时序数据处理的云端利器：TDengine Cloud 详解与演示》直播分享。演讲纲要如下：简略介绍 TDengine介绍 TDengine Cloud的三大特点现场演示如何应用 TDengine Cloud（数据写入、数据浏览器、数据导出、数据订阅及数据分享等性能）扫描关注下方视频号卡片可进行直播预约：如果你是 TDengine 的关注者，或者对 TDengine Cloud 有肯定的趣味，抑或你当初正在为海量时序数据处理而发愁，那就千万不要错过这次难得的机会，这场直播肯定会让你有所播种！直播过程中，还会抽取侥幸观众送出精美 IP 周边和云服务500元现金券，肯定不要错过哦~ ...

关于数据库:OceanBase-41解读我们想给用户一个开箱即用的OceanBase部署运维工具

欢送拜访 OceanBase 官网获取更多信息：https://www.oceanbase.com/ 对于作者肖磊 OceanBase 产品专家负责 OceanBase 运维管控体系产品布局与设计，包含装置部署工具(OBD、OAT)、运维管控平台（OCP、OCP Express），致力于升高用户应用治理 OceanBase 的难度。 OceanBase 作为原生分布式数据库，其高性能和高可用的个性为企业外围零碎提供了稳固牢靠的数据底座。而在和一线技术人员的交换过程中，咱们收了很多对于 OceanBase 数据库资源要求高、上手艰难、治理简单的反馈，很难用于体验学习、非核心利用场景。很多同学自然而然把这类问题归类到了分布式数据库的架构个性上，仿佛把它看作一个很难超越的平地。咱们也始终在思考，如何切实解决这些痛点问题，让 OceanBase 能够更快地流行起来。在 4.x 内核方面，咱们通过单机一体化的架构，使得用户最低只须要一台 4C8G 的虚拟机即可运行 OceanBase。而解决上手艰难、治理简单的问题，则是咱们此次推出开箱即用的 OceanBase 部署运维工具的初衷。可视化部署，解决上手艰难问题在 OceanBase 4.0，咱们推出了 2 分钟部署 OceanBase demo 环境的能力，解决了演示环境的问题，然而如果须要部署规范集群环境，仍然要以编辑配置文件或应用专门的产品来实现，整体过程操作流程简单，即便业余人员在规范环境下也须要数小时能力实现，导致不相熟 OceanBase 的同学基本上无奈上手应用。为此咱们从新设计了装置部署的计划，让 OceanBase 老手也能够在十多分钟内实现装置部署工作，实现疾速体验 OceanBase。 ▋ 将 4 步流程并作 1 步，让部署更简略在以往的计划中，社区版本须要用户先装置 obd，而后能力装置 OceanBase，还须要应用 OCP 接管 OceanBase 及 OBProxy；在企业版本，咱们须要用户先装置 OAT/antman，而后装置 OCP，最初应用 OCP 部署 OceanBase 及 OBProxy。用户不仅须要为每一个产品别离下载安装包，还须要相熟每一个产品的应用形式。为了解决以往部署计划链路长，应用不便的问题，咱们将用户所需的数据库内核及其相干组件以"一键安装包"的模式提供给用户，用户能够在一个流程里实现所有产品的装置部署。 ▋ 将 30+ 项配置升高至 5 项，升高配置难度为了让整体数据库稳固运行，咱们原来须要在装置部署中配置泛滥的参数，最多时可能须要三四十项，而往往在了解和配置这些参数的过程中极易出错，导致装置过程失败且不易排查。在新的装置部署计划中，咱们参考了大量的我的项目教训，实现了将简单的配置依据数据库运行环境自动化，即便在须要用户给定的配置上也提供了倡议值，用户如无特殊要求，在配置好部署的主机后不再须要进行任何配置即可进入装置部署环节。 ...

关于数据库:查询提速-20-倍Apache-Doris-在-Moka-BI-SaaS-服务场景下的应用实践

导读： MOKA 次要有两大业务线 MOKA 招聘（智能化招聘管理系统）和 MOKA People（智能化人力资源管理系统），MOKA BI 通过全方位数据统计和可灵便配置的实时报表，赋能于智能化招聘管理系统和人力资源管理系统。为了提供更齐备的数据反对，助力企业晋升招聘竞争力，MOKA 引入性能强悍的 Apache Doris 对晚期架构进行降级转型，成就了 Moka BI 弱小的性能与优良的用户体验。作者｜Moka 数据架构师张宝铭业务需要MOKA 次要有两大业务线 MOKA 招聘（智能化招聘管理系统）和 MOKA People（智能化人力资源管理系统）。 MOKA 招聘零碎笼罩社招、校招、内推、猎头治理等场景，让 HR 取得更高效的招聘体验，更便捷的合作体验，让管理者取得招聘数据洞见，让招聘降本增效的同时，建立企业在候选人心目中的业余形象。MOKA People 笼罩企业所须要的组织人事、假期考勤、薪酬、绩效、审批等高频业务场景，买通从招聘到人力资源管理的全流程，为 HR 工作提效赋能。通过多维度数据洞见，助力管理者高效科学决策。全生态对接，更加重视全员体验，是一款工作体验更愉悦的人力资源管理系统。而 MOKA BI 通过全方位数据统计和可灵便配置的实时报表，赋能于智能化招聘管理系统和人力资源管理系统。通过 PC 端和挪动端的多样化报表展现，为企业改善招聘业务提供数据反对，全面晋升招聘竞争力，从而助力科学决策。 MOKA BI 晚期架构 Moka BI 数仓晚期架构是类 Lambda 架构，实时处理和离线解决并存。实时局部数据次要起源为结构化的数据，Canal 采集 MySQL 或 DBLE（基于 MySQL 的分布式中间件）的 Binlog 输入至 Kafka 中；未建模的数据依照公司分库，存储在业务 DBLE 中，通过 Flink 进行实时建模，将计算后的数据实时写入业务 DBLE 库，通过 DBLE 提供报表查问能力，反对数据大屏和实时报表统计。离线局部涵盖了实时局部数据，其结构化数据来源于 DBLE 的 Binlog，明细数据在 Hbase 中实时更新，并映射成 Hive 表，非结构化数据通过 ETL 流程，存储至 Hive 中，通过 Spark 进行进行离线局部建模计算，离线数仓 ADS 层数据输入至 MySQL 和 Redis 反对离线报表统计，明细数据又为指标预测和搜寻等内部利用提供数据反对。现状与问题在晚期数仓架构中，为了实现实时建模以及实时报表查问性能，就必须要求底层数据库可能承载业务数据的频繁插入、更新及删除操作，并要求反对规范 SQL，因而过后咱们抉择 DBLE 作为数据存储、建模、查问的底层库。晚期 Moka BI 灰度期用户较少，业务数据量以及报表的使用量都比拟低，DBLE 尚能满足业务需要，但随着 Moka BI 逐步面向所有用户凋谢，DBLE 逐步无奈适应 BI 报表的查问剖析性能要求，同时实时与离线架构拆散、存储老本高且数据不易保护，亟需进行降级转型。 ...