关于华为云:华为云PB级数据库GaussDBfor-Redis揭秘第13期如何搞定推荐系统存储难题

摘要：GaussDB(for Redis)轻松搞定举荐系统核心存储，为企业级利用保驾护航。

本文分享自华为云社区《GaussDB(for Redis)揭秘第13期：如何搞定举荐零碎存储难题？》，作者：高斯Redis官网博客。

一、举荐偏差引发的思考

七夕过后，笔者的一个敌人遇到了尴尬事：当女友点开他的购物APP，居然自动弹出一系列举荐：玫瑰包邮、打动哭了、浪漫小夜灯……回忆七夕那天，礼物并没有呈现，于是问题呈现了：从实招来，你送谁了？

为了帮忙友人重建信赖，笔者进行了一番技术调研：这肯定是“举荐零碎”出了偏差。

举荐零碎是一种信息过滤零碎，它可能疾速剖析海量用户行为数据，预测出用户爱好，从而进行无效举荐。在商品举荐、广告投放等业务中，举荐零碎责任重大。依据亚马逊2019年度报告，其40%的营收来自外部稳固的举荐零碎。

在本文开篇的例子中，正是因为举荐零碎问题，才导致了难堪的局面。笔者决定力挺友人，用牢靠的常识让人服气！

二、举荐零碎长什么样

通常来说，在一套成熟的举荐零碎中，分布式计算、特色存储、举荐算法是要害的三大环节，缺一不可。

上面介绍一类残缺的举荐零碎，在零碎中GaussDB(for Redis)负责外围的特色数据存储。该零碎也是华为云诸多客户案例中较为成熟的最佳实际之一。

第一局部：获取特色数据

原始数据采集

点赞、珍藏、评论、购买……这些行为都属于原始数据，他们随时都在产生，因而数据量宏大。经由Kafka、Redis Stream等流组件向上游传递，或存入数仓，期待前期提取应用。

分布式计算

原始数据离散、含意含糊，无奈间接给算法应用。此时就要进行大规模的离线、在线计算，对数据加工。Spark、Flink都是典型的大数据计算组件，其弱小的分布式计算能力是举荐零碎不可或缺的。

特色数据存储

通过加工的数据也就是特色、标签，是举荐算法所需的贵重数据源。在特定场景下，也能够称之为用户画像、物品画像。这部分数据有着重复共享、复用的价值，不仅能用于训练算法模型，还能为生产环境提供服务。

确保特色数据的牢靠存储，是举荐零碎中极为要害的一环。

第二局部：生产特色数据

线下模型训练

有了要害的特色数据，业务就能够开始训练算法模型。只有充分利用特色库，以及最新行为数据，一直打磨举荐算法，这样能力晋升举荐零碎整体程度，最终带给用户更好的体验。

线上推理预测

算法模型训练完结后，将被部署到线上生产环境。它将持续利用已有的特色存储，依据用户的实时行为进行推理，疾速预测出与用户最匹配的优质内容，造成举荐列表，并推送给终端用户。

三、举荐零碎的存储难题

很显然， “特色数据”在整个零碎中起到了要害的连接作用。因为KV模式的数据抽象与特色数据极为靠近，因而举荐零碎里往往少不了Redis的身影。

在上述零碎的计划中，数据库选型为GaussDB(for Redis)，而不是开源Redis。起因是开源Redis在大数据场景下还是存在不言而喻的痛点：

1. 数据无奈牢靠存储

举荐零碎其实心愿既能应用KV数据库，又能释怀将数据短暂保留。但开源Redis的能力更侧重于数据的缓存减速，而不是数据存储。而且开源Redis毕竟是纯内存设计，即便有AOF长久化，但通常也只能秒级落盘，数据的保留并不牢靠。

2. 数据量上不去，老本下不来

波及举荐的业务往往用户体量也不会小，随着业务倒退，也会有更多的特色数据须要保留。实际上，雷同容量的内存与极速SSD相比，价格贵10倍以上都很失常。于是，当数据量达到几十GB、几百GB，开源Redis会变得越来越“烧钱”，因而个别只当做“小”缓存应用。除此之外，开源Redis本身fork问题导致容量利用率低，硬件资源有很大的节约。

3. 灌库体现不佳

特色数据须要定期更新，往往以小时或天为周期进行大规模数据灌入工作。如果存储组件不够“皮实”，大量写入造成数据库故障，将导致整个举荐零碎产生异样。这就可能造成开篇提到的难堪用户体验。

开源Redis抗写能力并不强，这是因为集群中有一半节点是备节点，它们只能解决读申请。当大批量写入到来时，主节点容易出问题，引发连锁反应。

实践上，架构设计并不是越简单越好，如果能够，谁不想应用一种既能兼顾特色数据KV类型、老本敌对、性能又有保障的牢靠数据存储引擎？

四、相见恨晚，遇见GaussDB(for Redis)

与开源Redis不同，GaussDB (for Redis)基于存算拆散架构，为举荐零碎这一类大数据场景带来要害的技术价值：

1. 牢靠存储

数据命令级落盘，在底层存储池中三正本冗余存储，真正做到了0失落。

2. 降本增效

高性能长久化技术+细粒度存储池,帮忙企业将数据库应用老本升高75%以上。

3. 抗写能力强

多线程设计+全副节点可写，抗写能力足够弱小，从容应对Spark灌库压力和实时更新。华为云企业级数据库GaussDB (for Redis)提供稳固、牢靠的KV存储能力，正是举荐系统核心数据的极佳选型。

五、完满连接，实现想存就存的自在

其实，在Spark后端接入Redis曾经成为一种支流计划，而应用Flink从Redis中提取维度表也是很常见的用法。它们也都提供了用于接入Redis的连接器。GaussDB(for Redis)齐全兼容Redis协定，即开即用,用户随时都能够疾速创立实例并接入业务。

1. Spark-Redis-Connector

Spark-Redis-Connector完满实现了Spark RDD、DataFrame到GaussDB(for Redis)实例中String、Hash、List、Set等构造的映射。用户可应用相熟的Spark SQL语法轻松拜访GaussDB(for Redis)，实现特色数据灌库、更新、提取等要害工作。

应用办法非常简单：

1）当须要读取Hash、List、Set构造到Spark RDD时，别离只用一行即可搞定：

2）而当举荐零碎进行灌库或特色数据更新时，能够按如下形式轻松实现写入：

2. Flink-Redis-Connector

Flink这款计算引擎风行水平不亚于Spark，它同样有成熟的Redis连贯计划。应用Flink提供的Connector或联合Jedis客户端，都可轻松实现Flink到Redis的读写操作。

以应用Flink统计单词频次的简略场景为例，数据源通过Flink加工后，便可轻松存入GaussDB(for Redis)中。

六、结语

大数据利用对外围数据的存储有着很高的要求,云数据库GaussDB(for Redis)领有存算拆散的云原生架构，在齐全兼容Redis协定的根底上，同时做到了稳定性、可靠性的全面当先。面对海量外围数据存储，它还能为企业带来相当可观的老本节约。面向未来，GaussDB(for Redis)极有后劲成为下一个大数据浪潮的新星。

七、附录

本文作者：华为云数据库GaussDB(for Redis)团队

杭州/西安/深圳简历投递：yuwenlong4@huawei.com

GaussDB(for Redis)产品主页：
https://www.huaweicloud.com/p…

更多技术文章，关注高斯Redis官网博客：
https://bbs.huaweicloud.com/c…

点击关注，第一工夫理解华为云陈腐技术~

关于华为云:华为云PB级数据库GaussDBfor-Redis揭秘第13期如何搞定推荐系统存储难题

一、举荐偏差引发的思考

二、举荐零碎长什么样

第一局部：获取特色数据

第二局部：生产特色数据

三、举荐零碎的存储难题

1. 数据无奈牢靠存储

2. 数据量上不去，老本下不来

3. 灌库体现不佳

四、相见恨晚，遇见GaussDB(for Redis)

五、完满连接，实现想存就存的自在

1. Spark-Redis-Connector

2. Flink-Redis-Connector

六、结语

七、附录

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于华为云:华为云PB级数据库GaussDBfor-Redis揭秘第13期如何搞定推荐系统存储难题

一、举荐偏差引发的思考

二、举荐零碎长什么样

第一局部：获取特色数据

第二局部：生产特色数据

三、举荐零碎的存储难题

1. 数据无奈牢靠存储

2. 数据量上不去，老本下不来

3. 灌库体现不佳

四、相见恨晚，遇见GaussDB(for Redis)

五、完满连接，实现想存就存的自在

1. Spark-Redis-Connector

2. Flink-Redis-Connector

六、结语

七、附录

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复