关于数据库:50亿海量数据如何高效存储和分析-GaussDB-for-Cassandra-3个秘诀搞定

摘要：信息社会正在从互联网时代走向物联网时代，企业不可避免的要面对数据量剧增带来的一系列问题：如何高效存储和扩容，如何在对原有业务改变最小的状况下做到智能化和实时剖析。

本文分享自华为云社区《50亿海量数据如何高效存储和剖析？ GaussDB (for Cassandra) 3个秘诀搞定》，作者： Cassandra官网。

当下，信息社会正在从互联网时代走向物联网时代，信息交互变得更加庞杂、高效和智能。对于互联网公司和IOT企业来说，既是时机，也是挑战。因为，企业不可避免的要面对数据量剧增带来的一系列问题：如何高效存储和扩容，如何在对原有业务改变最小的状况下做到智能化和实时剖析。

针对挑战，华为云GaussDB (for Cassandra) 为客户提供了强扩大、高存储、高效导入/导出和实时剖析等一系列能力，并胜利服务了泛滥互联网公司和IOT企业，取得了客户的高度认可和反对。本文将以其中一个客户业务的痛点问题举例，聊聊高效存储和实时剖析的3个秘诀。

海量存储，PB级无感扩大

该用户在线下本地化部署应用数据库或者应用其余的存储为云盘的数据库时，经常须要在容量达到阈值时，提前布局和申购存储资源，可能还须要连带扩容不必要的计算资源。而应用GaussDB (for Cassandra)之后，便再无此懊恼。GaussDB (for Cassandra)采纳存算拆散架构，可独自扩大存储，高效扩容，业务无感，最高可扩大到PB级。

此外，客户为了做大数据分析，将数据库中的数据再写入一份到HDFS中，供MapReduce和Spark剖析，同时须要保护两套资源，保护和资源老本成为了痛点。而客户应用GaussDB (for Cassandra)之后，能够仅采纳GaussDB (for Cassandra)即可实现数据库存储和对接大数据分析的性能，同时GaussDB (for Cassandra)提供了更为易用的CQL接口，让用户更加专一性能开发，而不是资源管理。

数据变更捕捉和实时剖析

客户的一个应用场景须要将爬虫或用户输出的数据，进行在线剖析和实时举荐业务，该业务中全量数据达到了50亿条，但增量数据有余5亿，剖析对象次要是每日新增数据。在这个场景中，GaussDB (for Cassandra)为客户提供了streaming服务+实时剖析解决方案，在损失小局部读写性能的前提下，客户端无需革新即可做到数据读写和实时剖析并行，解决方案如下图，该解决方案次要有以下几个阶段：

客户业务用过开源驱动写入数据到GaussDB (for Cassandra)
GaussDB (for Cassandra)对外提供streaming接口，该接口可获取数据变更捕捉
客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列
Kafka 队列将streaming数据写入到Spark或者Flink中
客户在Spark中可对增量数据做剖析，也可合并之后做全量分析

全量数据导出剖析

客户的另一个业务须要周期性对全量数据进行剖析和解决，但不想影响在线业务，心愿在闲时解决。GaussDB (for Cassandra)提供了全量数据导出和剖析解决方案，可在业务低峰期触发工作进行数据导出和冷数据分析，数据导出速率是开源的10+倍，同时做到对业务读写根本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案，该计划有以下几个阶段：

客户依据需要配置ECS规格，并挂载obsfs并行文件系统
客户在DLF上配置导出作业，包含ECS信息，导出参数和定时工作
CDM下发作业工作
ECS上的导出工作将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs
Spark从obsfs中读取全量数据进行数据分析

通过这3个秘诀，华为云GaussDB (for Cassandra)完满解决了难扩大、高老本、变更不及时等问题，实现了海量数据的高效存储和实时剖析，为互联网公司和IOT企业的数字化倒退提供了更多可能。欲了解更多GaussDB (for Cassandra)详情信息，欢送移步华为云官网。

本文作者：华为云高斯Cassandra团队

杭州西安深圳简历投递：zhaojuan.zhao@huawei.com

更多技术文章，请关注：高斯Cassandra官网博客

点击关注，第一工夫理解华为云陈腐技术~