通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

jiezi

6 年前

通过 DataWorks 归档日志服务数据至 MaxCompute
官方指导文档：https://help.aliyun.com/document_detail/68322.html 但是会遇到大家在分区上或者 DataWorks 调度参数配置问题，具体拿到真实的 case 模拟如下：

创建数据源：
步骤 1、进入数据集成，点击作业数据源，进入 Tab 页面。

步骤 2、点击右上角
新增数据源，选择消息队列 loghub。

步骤 3、编辑 LogHub 数据源中的必填项，包括数据源名称、LogHubEndpoint、Project、AK 信息等，并点击测试连通性。

创建目标表：
步骤 1、在左侧 tab 也中找到临时查询，并右键 > 新建 ODPS SQL 节点。

步骤 2、编写建表 DDL。步骤 3、点击执行按钮进行创建目标表，分别为 ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。
步骤 4、直到日志打印成本，表示三条 DDL 语句执行完毕。

步骤 5、可以通过 desc 查看创建的表。

其他两张表也可以通过 desc 进行查询。确认数据表的存在情况。
创建数据同步任务
数据源端以及在 DataWorks 中的数据源连通性都已经配置好，接下来就可以通过数据同步任务进行采集数据到 MaxCompute 上。
操作步骤
步骤 1、点击新建业务流程并确认提交，名称为直播日志采集。

步骤 2、在业务流程开发面板中依次创建如下依赖并命名。

依次配置数据同步任务节点配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。
步骤 3、双击
web_tracking_log_syn 进入节点配置，配置项包括数据源（数据来源和数据去向）、字段映射（源头表和目标表）、通道控制。

根据采集的时间窗口自定义参数为：

步骤 4、可以点击高级运行进行测试。

可以分别手工收入自定义参数值进行测试。

步骤 5、使用 SQL 脚本确认是否数据已经写进来。如下图所示：

日志服务的日志正式的被采集入库，接下来就可以进行数据加工。比如可以通过上述来统计热门房间、地域分布和卡顿率，如下所示：

具体 SQL 逻辑不在这里展开，可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

本文作者：祎休阅读原文
本文为云栖社区原创内容，未经允许不得转载。