乐趣区

关于大数据:火山引擎-DataLeap-推出全链路智能监控报警平台

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

随着大数据开发场景下须要运维治理的工作越来越多,在日常运维中开发者常常会面临以下几个问题:

1. 工作多,依赖关系简单:很难查找到重要工作的所有上游工作并进行监控。如果监控所有工作,又会产生很多无用报警,导致有用报警被忽视;

2. 配置运维老本高:每个工作的运行状况不一样,承诺实现工夫不一样,如果独自对每个工作设置监控,剖析及人工对齐工作服务级别协定(SLA)老本十分高;

3. 报警模式多样性:对于小时级的工作,不同时段的报警及时性要求不同,一般监控无奈满足不同时段多样的报警需要。

为了帮忙企业开发者更好地解决这一问题,及时安稳实现日常运维、高效保障数据品质,字节跳动数据平台开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警——基线监控,它能依据工作运行状况,智能决策是否报警、何时报警、如何报警以及向谁报警,贯通整条工作产出链路,避免出现环节缺失,保障链路完整性。目前基线监控已在字节跳动外部失去宽泛应用,笼罩抖音、电商、广告等 100+ 个我的项目,服务级别协定(SLA)工作的基线监控覆盖率超过 80%。

以后,该能力已通过火山引擎 DataLeap 向企业凋谢。企业能够通过火山引擎 DataLeap 的基线监控性能,无效升高监控配置老本、防止有效报警及报警泛滥。

图:火山引擎 DataLeap 监控范畴

火山引擎 DataLeap 默认监控的范畴包含:基线保障工作及保障工作上游的所有工作。如上图所示,保障工作 D,E 及它们所有的上游节点都会纳入基线监控范畴,而工作 C,F 不受基线监控。值得一提的是,火山引擎 DataLeap 的基线监控容许用户配置基线监控只笼罩“指定我的项目”下的工作,此时基线监控的范畴就只蕴含了保障工作及这些我的项目下的上游工作。

图:火山引擎 DataLeap 基线监控整体架构

火山引擎 DataLeap 基线监控整体架构基线治理模块、基线实例生成、基线埋点检测等形成,各模块具体来看:

1. 基线治理模块: 负责基线创立、更新、删除等操作,治理基线元信息,包含保障工作,承诺工夫,余量及报警配置等;

2. 基线实例生成: 火山引擎 DataLeap 每天定时触发生成基线实例,生成实例的同时依据保障工作,由下而上逐层遍历 (BFS) 所有上游工作并生成基线监控埋点。

生成基线监控埋点的过程中,火山引擎 DataLeap 会计算每个工作节点的预测运行时长,承诺工夫,预警工夫,预警最晚开始工夫,承诺最晚开始工夫。此外,火山引擎 DataLeap 会给基线监控工作增加基线出错 / 变慢报警规定,当工作执行触发规定后,通过根底报警服务发送基线报警事件;

3. 监控埋点校验: 系统维护一个提早队列,火山引擎 DataLeap 会依据校验工夫点 (预警最晚开始工夫,承诺最晚开始工夫以及破线加剧工夫校验点),同时火山引擎 DataLeap 会定时触发监控埋点校验工作实例运行状态,如果在工夫点实例未运行胜利,产生基线预警 / 破线报警事件,发送报警。

将来,火山引擎 DataLeap 的研发人员将持续针对基线监控进行优化,如基线要害路径分析、基线实例生成效率优化等,一直进步基线监控算法性能,欠缺基线链路剖析能力,晋升用户体验,向企业级市场提供更弱小的全链路监控经营服务。

点击跳转 大数据研发治理 DataLeap 理解更多

退出移动版