关于数据库:OpenMLDB-v08-新功能离线引擎数据源支持-Amazon-S3

40次阅读

共计 1632 个字符,预计需要花费 5 分钟才能阅读完成。

简介

Amazon S3(以下简称 S3)是一种十分受欢迎的云存储服务,它以其卓越的扩展性、安全性和稳定性而广受寰球企业和开发者的青睐。在新公布的 OpenMLDB v0.8.0 版本中,新减少了对于 Amazon S3 作为离线数据源的反对,其带来的次要益处包含:

  1. 安全性和稳定性:S3 提供高级别的平安保障,以爱护您的数据。
  2. 扩展性和灵活性:S3 可能轻松解决任意量级的数据,提供高效的大规模数据管理能力。
  3. 老本效益:只需依据理论应用的存储量来付费,无需为未应用的存储空间付费。

配置办法

为了在 OpenMLDB 中应用 Amazon S3 作为离线数据源,须要做如下配置:

  • 首先须要在 AWS 上注册帐号,并且创立无效的 AccessKey 和 SecretKey。
  • 在 OpenMLDB 的 TaskManager 的部署文件 taskmanager.properties 中,增加以下配置,留神批改内容为集体的 AccessKey 和 SecretKey:
spark.default.conf=spark.hadoop.fs.s3a.access.key=xxx;spark.hadoop.fs.s3a.secret.key=xxx
  • 配置后重启 TaskManager 服务,后续加载离线数据时,无论是硬拷贝还是软链接都能够应用 S3 门路进行导入。

以下“利用实际”展现具体应用步骤。残缺产品文档参考:https://openmldb.ai/docs/zh/main/integration/offline_data_sou…。

利用实际

以下具体演示应用 OpenMLDB 间接拜访 S3 数据进行特色抽取,并应用软链接形式防止从 S3 拷贝原始数据到本地。

第一步,注册 AWS 帐号,开明 S3 服务,并且申请可用的 AccessKey 和 SecretKey。 筹备好后,咱们能够应用浏览器或 S3 工具来上传数据到 S3 对应的 bucket 中,这里咱们提前上传好数据文件。

第二步,启动 OpenMLDB 集群,依照官网文档配置好 AWS 的 AccessKey 和 SecretKey,启动后能够应用命令行(OpenMLDB CLI)的命令 SHOW COMPONENTS 测试 OpenMLDB 所有组件是否失常。

对于 OpenMLDB CLI 的应用参考:https://openmldb.ai/docs/zh/main/quickstart/cli.html

第三步,创立数据库和数据表进行测试。 这里创立一个数据库 db1 和数据表 t1

第四步,应用 LOAD DATA INFILE 命令导入 S3 的数据到离线表中。 下图演示了把 OpenMLDB 设置为离线模式,并且导入 S3 的数据到离线表中:

导入胜利后,能够看到数据表的离线存储中 symbolic paths 曾经增加了 S3 的数据门路,而没有理论的数据拷贝。

第五步,咱们能够应用 OpenMLDB SQL 进行离线特色抽取 ,间接读取 S3 下面的数据,并且把计算后的特色到处到本地进行模型训练,上面演示最简略的 SQL 例子。

此外,OpenMLDB 也反对把 S3 的数据导入到在线表中, 用于服务上线的冷启动。下图演示了把 OpenMLDB 设置为在线模式,并且导入 S3 的数据到在线表中:

相干浏览

  • OpenMLDB 整合 Amazon S3 的产品文档:https://openmldb.ai/docs/zh/main/integration/offline_data_sou…
  • 数据导入命令 LODA DATA INFILE 具体解释:https://openmldb.ai/docs/zh/main/openmldb_sql/dml/LOAD_DATA_S…
  • OpenMLDB 应用流程疾速上手:https://openmldb.ai/docs/zh/main/quickstart/concepts/modes.html
  • OpenMLDB 产品文档:https://openmldb.ai/docs/zh
  • OpenMLDB 开发者博客:欢送来到 OpenMLDB 开发者空间
  • OpenMLDB 微信技术交换群:

正文完
 0