关于腾讯云:腾讯云-Serverless-ETL-蘑菇街实战落地

3次阅读

共计 2879 个字符,预计需要花费 8 分钟才能阅读完成。

背景

蘑菇街旨在做一家高科技轻时尚的互联网公司,公司的外围主旨就是购物与社区的互相联合,为更多消费者提供更无效的购物决策倡议。

蘑菇街上每天有几百万网友在这里交换时尚、购物的话题,互相分享,这些行为会产生大量的数据,当这些数据源产生数据后,须要有一个组件获取数据源的数据,将数据写到 kafka,蘑菇街研发团队以往的解决办法,一是通过 Lofstash、Filebeat 等开源的数据存储计划解决,二是本人写代码实现这种逻辑。

开始数据量小的时候还能够,随着业务的一直扩张,数据越来越大,为了保障可用性、可靠性以及性能相干的内容,须要大量的研发资源投入,因而,亟待新的解决方案反对。

CKafka 全称是 Tencent Cloud Kafka,是一款适宜私有云部署、运行、运维的分布式、高牢靠、高吞吐和高可扩大的音讯队列零碎。它 100% 兼容开源的 Kafka API,目前次要反对开源的 0.9, 0.10, 1.1.1, 2.4.2 四个大版本,并提供向下兼容的能力。

目前 Tencent Cloud Kafka 保护了近万节点的集群,沉积数据达到了 PB 级。是一款集成了租户隔离、限流、鉴权、平安、数据监控告警、故障疾速切换、跨可用区容灾等等一系列个性的,历经大流量测验的、牢靠的私有云上 Kafka 集群。

CKafka 目前服务对象包含拼多多、微信、哔哩哔哩,以及腾讯外部的一些大的利用,包含腾讯视频、微视等。

蘑菇街的抉择

蘑菇街团队比照市场上的技术解决方案,从学习老本、扩缩容能力以及人工保护老本和稳定性方面思考。

腾讯云 Serverless 云函数具备人造的劣势:

  1. 反对多语言
  2. 学习成本低,不须要学习开源计划,不须要学习散布式调度
  3. 有限的弹性扩容能力
  4. 多重触发形式,事件触发、定时触发、被动触发
  5. 集群稳定性和可用性的保护老本简直没有
  6. 按理论用量计费,1ms 计费,费用很低

同时,腾讯云 Serverless 云函数 + Ckafka 提供自建的 UI 交互界面,可进行流量告警配置,同时管制台上可进行扩容配置且安全可靠。

腾讯云 Serverless 团队为蘑菇街提供的业务解决方案,是通过云函数将一个实例中某个 Topic 的音讯转储至另一个实例对应的 Topic 上,比照原来的 Connector 计划,腾讯云云函数 SCF 可能通过腾讯云控制台进行治理,能管制触发阈值,触发开关等,能够很不便地对每个函数进行治理。简略来讲,

  1. 音讯转储:将 Topic 的音讯同步至离线集群
  2. 集群迁徙:在集群迁徙合并的过程中起到一个双写的作用

通过比照,腾讯云 Serverless 云函数 + Ckafka 是最优的解决方案,蘑菇街最终决定抉择应用腾讯云 Serverless 云函数 + Ckafka 使用在的音讯同步业务上。

腾讯云 Serverless 云函数 + Ckafka 解决方案的劣势

Kafka 社区的凋敝,让越来越多的电商用户开始应用 Kafka 来做日志收集、大数据分析、流式数据处理等。而私有云上的产品 Ckafka 也借助了开源社区的力量,和云函数联合,推出了十分实用的性能,其优化点包含:

  • 基于 ApacheKafka 的分布式、高可扩大、高吞吐
  • 100% 兼容 Apache KafkaAPI(0.9 及 0.10)
  • 无需部署,间接应用 Kafka 所有性能
  • Ckafka 封装所有集群细节,无需用户运维
  • 反对动静升降实例配置,依照需要付费(开发中)
  • 对音讯引擎优化,性能比社区最高晋升 50%

如下图,云函数能够实时生产 Ckafka 中的音讯,比方做数据转存、日志荡涤、实时生产等。并且,像数据转存的性能曾经集成到了 Ckafka 的管制台上,用户能够一键开启应用,大大降低了用户应用的复杂度。

比照应用云主机自建 Ckafka Consumer 的形式,云函数帮用户屏蔽掉了很多不必要的开销:

  1. 云函数管制台上能够一键开启 Ckafka 触发器,帮忙用户主动创立 Consumer,并由云函数平台来保护组建的高可用;
  2. Ckafka 触发器本身反对很多实用的配置:反对配置 offset 地位、反对配置 1~1 万音讯聚合条数、反对配置 1~1 万次重试次数等;
  3. 基于云函数开发的业务逻辑,人造反对弹性伸缩,无需额定搭建和保护服务器集群等。

腾讯云 Serverless ETL 通用数据处理能力

互联网竞争日益强烈,无论是蘑菇街还是其余产品都在寻找新的冲破,当产品团队尝试做产品迭代或者产品新性能时,初期要做一些新我的项目的验证,数据拉取、数据分析天然是必要的。

这部分的数据需要可能会给团队带来很大的压力,一方面,对已有数据处理的主流程和数据结构有适配老本,须要思考稳定性的危险,这部分须要投入大量的人力和工夫老本;另一方面,因为这个过程工夫周期比拟长的,可能会影响迭代的速度,赶不上竞品。

这个时候无妨试试腾讯云 Serverless 云函数,后面提到的 CKafka -> SCF -> CKafka 只是腾讯云 Serverless 云函数反对的 ETL 场景中的一条链路,Serverless 云函数能反对通用的数据处理。

ETL 场景是指业务上须要做数据抽取(Extract)、数据转换(Transform)、数据加载(Load)的场景。腾讯云 Serverless 云函数在这方面有很大的劣势:

  1. 更轻量,无须要购买服务器,即可实现产品疾速迭代中数据方面的需要。
  2. 更疾速实现,因为学习成本低,数据团队只需很轻松地写个脚本,上下游链接一下数据源,两头做一些数据逻辑即可。
  3. 费用成本低,云函数 1ms 计费准则,且只对运行的函数付费,对于有波峰波谷的业务场景,在老本方面更是节俭很多。
  4. 灵便,不影响曾经有我的项目的数据处理流程,可独自运行并满足数据验证需要。
  5. 省心,从数据抓取、转存、剖析、报表,全流程都实现了。

实战部署

说了这么多,一起来实战,理解了原理,操作起来其实也是非常简单了。

前置条件

以广州地区为例:

  • 开启 Elasticsearch 服务
  • 开启 Ckafka 服务

1. 创立云函数

登录云函数控制台,抉择地区后,新建函数,抉择运行环境 Python3.6,搜寻“Ckafka”,选中模板函数后,下一步。

在下一步中,点开高级设置:配置环境变量,如下:

必填参数:

ES_Address,ES_User,ES_Password,ES_Index_KeyWord

可选填入:

ES_Log_IgnoreWord(须要删除的关键词,缺省则全量写入,如填 name,password)
ES_Index_TimeFormat(依照天或者小时设置 Index,缺省则依照天建设索引,如填 hour)

在高级设置中,配置公有网络,须要抉择和 ES 雷同 VPC,实现函数创立。

2. 创立 Ckafka 触发器

在函数的【触发治理】页面,创立触发器,配置对应 Topic 的触发形式,提交后即可失效。

3. 查看 ES 和函数运行日志

  • 查看函数运行日志

  • 查看 Kibana

  • 扩大能力介绍

如果想要实现高级日志荡涤逻辑,可间接在函数代码中批改逻辑。

针对函数的运行状态,能够自行配置监控告警,实时感知业务运行状况。

One More Thing

立刻体验腾讯云 Serverless Demo,支付 Serverless 新用户礼包 ???? serverless/start

欢送拜访:Serverless 中文网!

正文完
 0