关于腾讯云:腾讯云-Serverless-ETL-蘑菇街实战落地

背景

蘑菇街旨在做一家高科技轻时尚的互联网公司，公司的外围主旨就是购物与社区的互相联合，为更多消费者提供更无效的购物决策倡议。

蘑菇街上每天有几百万网友在这里交换时尚、购物的话题，互相分享，这些行为会产生大量的数据，当这些数据源产生数据后，须要有一个组件获取数据源的数据，将数据写到 kafka，蘑菇街研发团队以往的解决办法，一是通过 Lofstash、Filebeat 等开源的数据存储计划解决，二是本人写代码实现这种逻辑。

开始数据量小的时候还能够，随着业务的一直扩张，数据越来越大，为了保障可用性、可靠性以及性能相干的内容，须要大量的研发资源投入，因而，亟待新的解决方案反对。

CKafka 全称是 Tencent Cloud Kafka ，是一款适宜私有云部署、运行、运维的分布式、高牢靠、高吞吐和高可扩大的音讯队列零碎。它 100% 兼容开源的 Kafka API，目前次要反对开源的 0.9, 0.10, 1.1.1, 2.4.2 四个大版本，并提供向下兼容的能力。

目前 Tencent Cloud Kafka 保护了近万节点的集群，沉积数据达到了 PB 级。是一款集成了租户隔离、限流、鉴权、平安、数据监控告警、故障疾速切换、跨可用区容灾等等一系列个性的，历经大流量测验的、牢靠的私有云上 Kafka 集群。

CKafka 目前服务对象包含拼多多、微信、哔哩哔哩，以及腾讯外部的一些大的利用，包含腾讯视频、微视等。

蘑菇街的抉择

蘑菇街团队比照市场上的技术解决方案，从学习老本、扩缩容能力以及人工保护老本和稳定性方面思考。

腾讯云 Serverless 云函数具备人造的劣势：

反对多语言
学习成本低，不须要学习开源计划，不须要学习散布式调度
有限的弹性扩容能力
多重触发形式，事件触发、定时触发、被动触发
集群稳定性和可用性的保护老本简直没有
按理论用量计费，1ms计费，费用很低

同时，腾讯云 Serverless 云函数+ Ckafka 提供自建的 UI 交互界面，可进行流量告警配置，同时管制台上可进行扩容配置且安全可靠。

腾讯云 Serverless 团队为蘑菇街提供的业务解决方案，是通过云函数将一个实例中某个 Topic 的音讯转储至另一个实例对应的 Topic上，比照原来的 Connector 计划，腾讯云云函数 SCF 可能通过腾讯云控制台进行治理，能管制触发阈值，触发开关等，能够很不便地对每个函数进行治理。简略来讲，

音讯转储：将 Topic 的音讯同步至离线集群
集群迁徙：在集群迁徙合并的过程中起到一个双写的作用

通过比照，腾讯云 Serverless 云函数 + Ckafka 是最优的解决方案，蘑菇街最终决定抉择应用腾讯云 Serverless 云函数 + Ckafka 使用在的音讯同步业务上。

腾讯云 Serverless 云函数 + Ckafka 解决方案的劣势

Kafka 社区的凋敝，让越来越多的电商用户开始应用 Kafka 来做日志收集、大数据分析、流式数据处理等。而私有云上的产品 Ckafka 也借助了开源社区的力量，和云函数联合，推出了十分实用的性能，其优化点包含：

基于 ApacheKafka 的分布式、高可扩大、高吞吐
100% 兼容 Apache KafkaAPI（0.9 及 0.10）
无需部署，间接应用 Kafka 所有性能
Ckafka 封装所有集群细节，无需用户运维
反对动静升降实例配置，依照需要付费（开发中）
对音讯引擎优化，性能比社区最高晋升 50%

如下图，云函数能够实时生产 Ckafka 中的音讯，比方做数据转存、日志荡涤、实时生产等。并且，像数据转存的性能曾经集成到了 Ckafka 的管制台上，用户能够一键开启应用，大大降低了用户应用的复杂度。

比照应用云主机自建 Ckafka Consumer 的形式，云函数帮用户屏蔽掉了很多不必要的开销：

云函数管制台上能够一键开启 Ckafka 触发器，帮忙用户主动创立 Consumer，并由云函数平台来保护组建的高可用；
Ckafka 触发器本身反对很多实用的配置：反对配置 offset 地位、反对配置1~1万音讯聚合条数、反对配置 1~1万次重试次数等；
基于云函数开发的业务逻辑，人造反对弹性伸缩，无需额定搭建和保护服务器集群等。

腾讯云 Serverless ETL 通用数据处理能力

互联网竞争日益强烈，无论是蘑菇街还是其余产品都在寻找新的冲破，当产品团队尝试做产品迭代或者产品新性能时，初期要做一些新我的项目的验证，数据拉取、数据分析天然是必要的。

这部分的数据需要可能会给团队带来很大的压力，一方面，对已有数据处理的主流程和数据结构有适配老本，须要思考稳定性的危险，这部分须要投入大量的人力和工夫老本；另一方面，因为这个过程工夫周期比拟长的，可能会影响迭代的速度，赶不上竞品。

这个时候无妨试试腾讯云 Serverless 云函数，后面提到的 CKafka -> SCF -> CKafka 只是腾讯云 Serverless 云函数反对的 ETL 场景中的一条链路，Serverless 云函数能反对通用的数据处理。

ETL 场景是指业务上须要做数据抽取（Extract）、数据转换（Transform）、数据加载（Load）的场景。腾讯云 Serverless 云函数在这方面有很大的劣势：

更轻量，无须要购买服务器，即可实现产品疾速迭代中数据方面的需要。
更疾速实现，因为学习成本低，数据团队只需很轻松地写个脚本，上下游链接一下数据源，两头做一些数据逻辑即可。
费用成本低，云函数 1ms 计费准则，且只对运行的函数付费，对于有波峰波谷的业务场景，在老本方面更是节俭很多。
灵便，不影响曾经有我的项目的数据处理流程，可独自运行并满足数据验证需要。
省心，从数据抓取、转存、剖析、报表，全流程都实现了。

实战部署

说了这么多，一起来实战，理解了原理，操作起来其实也是非常简单了。

前置条件

以广州地区为例：

开启 Elasticsearch 服务
开启 Ckafka 服务

1. 创立云函数

登录云函数控制台，抉择地区后，新建函数，抉择运行环境Python3.6，搜寻“Ckafka”，选中模板函数后，下一步。

在下一步中，点开高级设置：配置环境变量，如下：

必填参数：

ES_Address，ES_User，ES_Password，ES_Index_KeyWord

可选填入：

ES_Log_IgnoreWord（须要删除的关键词，缺省则全量写入，如填name,password）

ES_Index_TimeFormat（依照天或者小时设置Index，缺省则依照天建设索引，如填hour）

在高级设置中，配置公有网络，须要抉择和 ES 雷同 VPC，实现函数创立。

2. 创立 Ckafka 触发器

在函数的【触发治理】页面，创立触发器，配置对应 Topic 的触发形式，提交后即可失效。

3. 查看 ES 和函数运行日志

查看函数运行日志

查看 Kibana

扩大能力介绍

如果想要实现高级日志荡涤逻辑，可间接在函数代码中批改逻辑。

针对函数的运行状态，能够自行配置监控告警，实时感知业务运行状况。

One More Thing

立刻体验腾讯云 Serverless Demo，支付 Serverless 新用户礼包 ???? serverless/start

欢送拜访：Serverless 中文网！

关于腾讯云:腾讯云-Serverless-ETL-蘑菇街实战落地

背景

蘑菇街的抉择

腾讯云 Serverless 云函数 + Ckafka 解决方案的劣势

腾讯云 Serverless ETL 通用数据处理能力

实战部署

One More Thing

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于腾讯云:腾讯云-Serverless-ETL-蘑菇街实战落地

背景

蘑菇街的抉择

腾讯云 Serverless 云函数 + Ckafka 解决方案的劣势

腾讯云 Serverless ETL 通用数据处理能力

实战部署

One More Thing

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复