共计 1768 个字符,预计需要花费 5 分钟才能阅读完成。
摘要: 信息社会正在从互联网时代走向物联网时代,企业不可避免的要面对数据量剧增带来的一系列问题:如何高效存储和扩容,如何在对原有业务改变最小的状况下做到智能化和实时剖析。
本文分享自华为云社区《50 亿海量数据如何高效存储和剖析?GaussDB (for Cassandra) 3 个秘诀搞定》,作者:Cassandra 官网。
当下,信息社会正在从互联网时代走向物联网时代,信息交互变得更加庞杂、高效和智能。对于互联网公司和 IOT 企业来说,既是时机,也是挑战。因为,企业不可避免的要面对数据量剧增带来的一系列问题:如何高效存储和扩容,如何在对原有业务改变最小的状况下做到智能化和实时剖析。
针对挑战,华为云 GaussDB (for Cassandra) 为客户提供了强扩大、高存储、高效导入 / 导出和实时剖析等一系列能力,并胜利服务了泛滥互联网公司和 IOT 企业,取得了客户的高度认可和反对。本文将以其中一个客户业务的痛点问题举例,聊聊高效存储和实时剖析的 3 个秘诀。
海量存储,PB 级无感扩大
该用户在线下本地化部署应用数据库或者应用其余的存储为云盘的数据库时,经常须要在容量达到阈值时,提前布局和申购存储资源,可能还须要连带扩容不必要的计算资源。而应用 GaussDB (for Cassandra) 之后,便再无此懊恼。GaussDB (for Cassandra) 采纳存算拆散架构,可独自扩大存储,高效扩容,业务无感,最高可扩大到 PB 级。
此外,客户为了做大数据分析,将数据库中的数据再写入一份到 HDFS 中,供 MapReduce 和 Spark 剖析,同时须要保护两套资源,保护和资源老本成为了痛点。而客户应用 GaussDB (for Cassandra) 之后,能够仅采纳 GaussDB (for Cassandra) 即可实现数据库存储和对接大数据分析的性能,同时 GaussDB (for Cassandra) 提供了更为易用的 CQL 接口,让用户更加专一性能开发,而不是资源管理。
数据变更捕捉和实时剖析
客户的一个应用场景须要将爬虫或用户输出的数据,进行在线剖析和实时举荐业务,该业务中全量数据达到了 50 亿条,但增量数据有余 5 亿,剖析对象次要是每日新增数据。在这个场景中,GaussDB (for Cassandra) 为客户提供了 streaming 服务 + 实时剖析解决方案,在损失小局部读写性能的前提下,客户端无需革新即可做到数据读写和实时剖析并行,解决方案如下图,该解决方案次要有以下几个阶段:
- 客户业务用过开源驱动写入数据到 GaussDB (for Cassandra)
- GaussDB (for Cassandra) 对外提供 streaming 接口,该接口可获取数据变更捕捉
- 客户构建的流服务组件读取 streaming 接口数据写入到指定的 Kafka 队列
- Kafka 队列将 streaming 数据写入到 Spark 或者 Flink 中
- 客户在 Spark 中可对增量数据做剖析,也可合并之后做全量分析
全量数据导出剖析
客户的另一个业务须要周期性对全量数据进行剖析和解决,但不想影响在线业务,心愿在闲时解决。GaussDB (for Cassandra) 提供了全量数据导出和剖析解决方案,可在业务低峰期触发工作进行数据导出和冷数据分析,数据导出速率是开源的 10+ 倍,同时做到对业务读写根本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案,该计划有以下几个阶段:
- 客户依据需要配置 ECS 规格,并挂载 obsfs 并行文件系统
- 客户在 DLF 上配置导出作业,包含 ECS 信息,导出参数和定时工作
- CDM 下发作业工作
- ECS 上的导出工作将 GaussDB (for Cassandra) 中的指定表指定条件的数据导出到 obsfs
- Spark 从 obsfs 中读取全量数据进行数据分析
通过这 3 个秘诀,华为云 GaussDB (for Cassandra) 完满解决了难扩大、高老本、变更不及时等问题,实现了海量数据的高效存储和实时剖析,为互联网公司和 IOT 企业的数字化倒退提供了更多可能。欲了解更多 GaussDB (for Cassandra) 详情信息,欢送移步华为云官网。
本文作者:华为云高斯 Cassandra 团队
杭州西安深圳简历投递:zhaojuan.zhao@huawei.com
更多技术文章,请关注:高斯 Cassandra 官网博客
点击关注,第一工夫理解华为云陈腐技术~