共计 4171 个字符,预计需要花费 11 分钟才能阅读完成。
随着大数据时代的到来,各大互联网公司对于数据的器重水平前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在“3V”个性:Volume, Velocity, Variety。这三个“V”表明大数据的三方面特色:量大,实时和多样。这三个次要特色对数据采集零碎的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集零碎次要面对的几个问题。
咱们想要在数据上发明价值,首先要解决数据获取的问题。因为在互联网倒退中,企业内或不同企业之间建设了各种不同的业务零碎,这些零碎产生的数据也都是互不相通的,要想实现数据的互通与交融,在数据的获取与解决上就须要下很大功夫。
01. 腾讯云 CKafka 重磅上线 DataHub
腾讯云音讯队列 CKafka 正式上线数据中心接入服务模块 DataHub。DataHub 具备弱小的数据接入及剖析解决的性能,能够从 App、Web、MongoDB 等数据源中进行继续一直的数据采集,存储和解决,并失去各种实时的数据处理后果,可用于日志剖析、网页流动追踪、IoT 剖析利用等。
现今数据处理系统大体上可分为离线解决零碎和在线解决零碎。CKafka 推出 Datahub 数据中心接入服务模块,负责间接从业务数据源获取数据,进行一些数据预处理工作,分发给离线 / 在线解决平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。
02. DataHub 产品劣势
DataHub 基于 CKafka 的数据处理能力,具备高稳固、实时性、高扩展性、高安全性等劣势:
- 高稳固
基于音讯队列 CKafka 分布式的部署,稳定性有很好的保障。
- 实时性
数据采集实时高效的同时还能够进行实时处理。
- 高扩展性
反对集群程度扩容,实例无缝升配,底层零碎依据业务规模主动弹性伸缩,下层业务无感知。
- 高安全性
不同租户间网络隔离,实例的网络拜访在账户间人造隔离。反对治理流的 CAM 鉴权及数据流的 SASL 权限管制,严格控制拜访权限。
- 上下游生态交融
反对与 EMR、COS、容器、流计算、云函数、日志服务等 13+ 云上产品资源,实现疾速一键部署。
- 对立运维监控
提供腾讯云平台整套的运维服务,包含租户隔离、权限管制、音讯沉积查问、消费者详情查看等多维度监控告警等运维服务。
03. DataHub 利用价值
CKafka 是一个分布式、高吞吐量、高可扩展性的音讯零碎,基于公布 / 订阅模式,通过音讯解耦,使生产者和消费者异步交互,具备数据压缩、同时反对离线和实时数据处理等长处。DataHub 作为 CKafka 的一个功能模块,能够帮忙用户以 CKafka 为入口,通过简略的界面化配置,即时连贯到罕用的数据源和接收器,打包各个场景的解决方案,实现实时数据通道、实时数据荡涤和剖析的性能。
在理论利用中,DataHub 实时接入各种数据源产生的不同类型的数据,用户能够将多个数据源的数据投递到同一个 Topic 中,对立治理,通过简略的数据处理,并投递到上游的数据处理系统,造成清晰的数据流,更好地开释数据的价值。
<img src=”https://qcloudimg.tencent-cloud.cn/raw/7701fc558fefb1667512ee7010396daa.png” width=”500″/>
DataHub 能够同时实现大数据系统与业务零碎以及大数据系统各组件之间的解耦。
1. 实时数据通道
咱们都晓得不同企业之间、不同业务之间数据互不相通,互不交融的数据在数据获取、传输上会遇到很多问题,比方可用性差、传输提早等。业务层面,也会遇到旧业务数据系统迁徙到新零碎、不同零碎数据整合过程中数据不可用等问题,进而影响业务的后续进行。
为了可能让数据更加实时高效地交融,DataHub 利用数据接入能力,使业务数据可能实时交融进大数据系统,缩短数据分析周期,对于客户来说就是实时的数据通道,那 DataHub 又是如何实现 数据接入 能力的呢?
<img src=”https://qcloudimg.tencent-cloud.cn/raw/7d909a539df66d65195d5b425b086a83.png” width=”500″/>
从上图能够看出,DataHub 的数据源能够分为:被动上报、服务类和日志类。
- 被动上报类:App、Web、游戏等;
- 服务类:MongoDB、COS、MySQL 等;
- 日志类:容器、网络流日志、CVM 等。
数据接入的控制台界面如图所示,展现用户建设的数据接入工作列表。
<img src=”https://qcloudimg.tencent-cloud.cn/raw/6763dd0592974eda3461f9834a09fae4.png” width=”700″/>
点击列表项能够查看每一条数据接入工作的详情,能够查看监控。
<img src=”https://qcloudimg.tencent-cloud.cn/raw/f5c8b2985206f719ff4271d9665c9683.png” width=”700″/>
<img src=”https://qcloudimg.tencent-cloud.cn/raw/a330ab8d347d8f2546acf605b951a10c.png” width=”700″/>
数据接入具体操作次要分为以下两个局部:
1. 被动上报:提供 SDK,应用流程如下:
<img src=”https://qcloudimg.tencent-cloud.cn/raw/d42727e4bf825ee8fcd731def7d1d893.png” width=”700″/>
- 以 HTTP 上报为例:
<img src=”https://qcloudimg.tencent-cloud.cn/raw/c5ac45e66671a28ee8a54ab93f000632.png” width=”700″/>
<img src=”https://qcloudimg.tencent-cloud.cn/raw/90384dc7cc85bec8a49aefae711577d2.png” width=”700″/>
工作创立胜利后会生成接入点,后续在工作详情中能够查看和复制该接入点。
<img src=”https://qcloudimg.tencent-cloud.cn/raw/49798cc1ea716d660585063ef6d00273.png” width=”700″/>
2. 异步拉取
服务类、日志类、接口类,提供残缺的产品化配置界面,用户无需关怀底层实现。
- 以 MongoDB 为例:
<img src=”https://qcloudimg.tencent-cloud.cn/raw/0895dbf5dd0865027add02176f375ea1.png” width=”700″/>
<img src=”https://qcloudimg.tencent-cloud.cn/raw/4c02082ae436b06126733802875d564b.png” width=”700″/>
2. 实时数据荡涤和剖析
DataHub 接入多种不同类型的数据后,通过数据流出和数据处理,对多种数据源的数据进行实时荡涤、过滤、关联与转换,造成对立的结构化数据,实现各数据源不同类型数据的交融。
DataHub 又是如何进行 数据荡涤和剖析解决 的呢?
1. 数据流出
利用 云函数 SCF 或者 sink connector,散发数据到上游的各种云产品。
- 新建数据流出工作
<img src=”https://qcloudimg.tencent-cloud.cn/raw/4023ef58dfd931f57407d9365823bbcd.png” width=”700″/>
<img src=”https://qcloudimg.tencent-cloud.cn/raw/e5e54d108046405c7bf477d31b2a12dc.png” width=”700″/>
点击提交后会在数据流出工作列表减少一条记录,能够查看工作详情和监控。
2. 数据处理
DataHub 连续了 Kafka to Kafka 的数据处理能力。
<img src=”https://qcloudimg.tencent-cloud.cn/raw/424b840c2b09d1b3e1336b266b584282.png” width=”700″/>
点击“新建工作”,呈现弹窗:
<img src=”https://qcloudimg.tencent-cloud.cn/raw/647a92011e40ed4c432b12a6aacb2441.png” width=”700″/>
<img src=”https://qcloudimg.tencent-cloud.cn/raw/9d2227106714cc726c3f0c0d24559fe3.png” width=”700″/>
以上是一些简略荡涤规定界面化展现,更高级的荡涤规定后续会反对编写函数进行配置。解析模式反对 JSON、分隔符、正则表达式,点击测试能够验证下面设置的数据处理规定。
如下图所示,在音讯队列 CKafka 控制台的侧边栏划分为 音讯平台 和 DataHub 两个模块,查找应用更不便,目前 DataHub 曾经上线,有须要应用数据接入与数据处理剖析性能需要的用户,能够用起来啦!
<img src=”https://qcloudimg.tencent-cloud.cn/raw/938f1b66e1d86bc282c1b2691d1690db.png” width=”700″/>
将来腾讯云音讯队列产品的倒退会在数据获取与数据处理方向做更深的摸索,也会联合上下游产品,为用户提供更多合乎场景的解决方案,DataHub 将来能够倒退为云上对立的数据接入服务,为各数据源数据的接入、剖析与解决提供更稳固的平台。
04. DataHub 应用征询
目前 DataHub 都已全面公布上线,返回腾讯云音讯队列 Ckafka 控制台即可应用体验。为了更好地给您提供产品服务,点击这里 填写以下表单,咱们将在 1-3 个工作日内与您分割,沟通具体业务需要。
One More Thing
立刻体验腾讯云 Serverless Demo,支付 Serverless 新用户礼包 👉 腾讯云 Serverless 老手体验。