关于数据库:CloudQuery-如何实现云上数据导入导出

45次阅读

共计 2131 个字符,预计需要花费 6 分钟才能阅读完成。

随同着「数据安全法」的落地,数据安全又成为了时下的热门话题。咱们通常说企业外部数据价值,显然并不是指躺在一个个动态 excel 表格中的数据。在数据量呈指数级回升、数据结构越来越简单的背景下,催生出了「大数据」概念。海量数据的呈现导致数据库的容量时刻禁受微小的考验,性能稳定的同时催生出 DBA 越来越频繁的备份、导入、导出动作。

尽管行业正在迎来云和大数据时代,咱们日常应用的工具却依然停留在 PC 机时代。在数据批量操作时,一一单点工具缓缓无奈应酬逐步增大的数据量和更加灵便的操作场景。因而 CloudQuery 在 1.4.0 版本提出了「DTS」概念,即「数据库工具箱服务」,旨在为数据管理员提供各类数据批量操作工具,大幅晋升工作效率。本文咱们将具体论述 CloudQuery「DTS」的第一款工具——「数据导入导出」

以往 DBA 实现数据备份、数据导入导出通常须要借助现有桌面端工具,不仅成功率无奈保障,在文件格式的抉择上也难以做到两全。若导出格局为查看数据敌对的 excel 格,则对数据量的要求较高,一旦导出数据量超出 excel 的承载,导出动作往往会走向失败;如果抉择 sql 格局,尽管避开了数据量限度的问题,却面临着定位数据艰难、非凡字段无奈再次导入等问题。

并且,市面上的导入导出工具通常不具备云端数据存储能力,导出文件只能寄存在导出机本地,如果对数据有留存或共享需要,则须要借助其余各种云盘工具,但因为文件往往较大,所以上传下载都耗时较长,十分不灵便。

此外,导入导出动作在企业外部属于高风险动作,一旦产生数据库账号信息透露或盗用事件会给企业数据安全带来极大威逼。开篇也提到数据通常是一个企业的立足基本,外部数据的透露往往比内部侵害更加致命。

所以 CloudQuery 对数据管理员的应用场景进行评估,联合业务理论需要,推出了独特的「导入导出」性能,次要具备以下特点:

① 导出文件云端存储

平台提供集体文件夹性能,每个用户都属于本人的云端空间。所有导出数据保留在服务器上,真正做到跨客户端数据同步,让操作人员从不同客户端登录平台都能够随时获取远端数据,无需通过各种移动硬盘或云盘来进行数据共享。

② 工具应用权限纳入管控

CloudQuery 将工具应用权限纳入平台权限管控体系,员工应用「导入导出」性能,需管理员对其开明对应权限,否则无奈应用该工具。工具应用权限纳入平台权限管控体系贯彻了 CloudQuery 作为数据管控平台的平安准则,将用户在平台上的所有动作纳入管控体系,尽可能升高数据泄露危险,避免因账号泄露或盗用导致大批量数据泄露、拖库拖表事件产生。

③ 云原生状态,操作形式更灵便

在企业外部 DBA 通常面临繁多简单的数据交互场景,例如数据定时备份、生产到测试数据库的数据导入导出等等,但现有桌面端工具囿于 PC 的不灵活性会使得 DBA 在进行异端复原时面临有数的麻烦。CloudQuery 提供的导出数据上云解除了数据操作人员与端强耦合,也进步了企业外部的数据可控性,导出文件仅会存储在用户的集体文件夹下,防止数据文件存储在硬盘中被其余人员窃取、流传导致数据泄露。同时,CloudQuery 反对的自定义参数性能能够帮忙 DBA 灵便抉择导出数据,例如 ignore=y full=y 等等。

④ 数据源个性反对

思考到各种简单场景的数据交互,咱们在设计导入导出模块时对各个数据源进行了针对性的个性反对,例如 mysql 的 mysqldump –single-transaction,在导出时将会话事务隔离级别改为 RR 隔离级别并开启一个事务,RR 隔离级别下,导出数据都是开启事务时的数据快照,保障了导出数据的一致性。

而在开发语言的抉择上,因为大部分导出动作须要与数据库终端命令间接交互,所以咱们摈弃了市面上支流应用的 Java 转而采纳 Go 语言进行代码开发,目标是将命令行工具 SaaS 化,接入各种数据库工具,不便扩大。DTS 的每个工具都领有本人独立的形容文件,在后续的工具扩大路线上能够通过描述语言来定义新增的命令行工具。同样前端交互页面、后端工具、命令等等都能够通过形容文件实现。所有实时状态输入由 websocket 推送进行前端页面交互。

还是以 mysqldump 举例:

如上图所示,在新增工具反对时首先须要定义形容文件,当 DTS 服务启动时会主动将文件映射到动静类中,类之间相互独立,不便后续扩大。启动胜利后,前端在渲染页面工具库时会主动对动静类进行检索,以服务端来进行动静页面表单渲染,抉择指定工作后再依据用户所选以及自定义参数转换为操作命令。当用户申请提交至服务端执行时,服务端会屏蔽工具之间差异性,通过参数不同进行区别解决并动静生成数据库命令,随后以异步形式提交至数据库执行,执行过程中会进行实时日志信息以及执行状态收集,最终以 ws 模式进行后果反馈以及日志输入,同时会配合长久层缓存不便用户执行后进行日志二次下载查看。

以上场景中咱们能够看到 CloudQuery 的工具反对能力曾经逾越了以往 PC 时代的桌面端限度。随同云端服务器建设的逐步完善,DTS 中会集成更多数据操作工具,在晋升工具性能的同时更加贴近企业外部残缺数据操作场景,从不同应用人员的角度登程构建对应的操作门路,以直观、便捷的形式从新结构 DBA 一体化智能工具箱。

正文完
 0