关于linux:7年沉淀之作滴滴Logi日志服务套件

1次阅读

共计 3499 个字符,预计需要花费 9 分钟才能阅读完成。

01 日志服务面临的挑战

随着中美摩擦的降级,国内开源文化的衰亡,各大互联网公司以及各行业头部企业,纷纷走向开源、平安、自主、可控的倒退路线。基于开源引擎 Kafka/ElasticSearch,构建了日志基础设施的基础架构共识:

  • 日志采集能力:服务端、客户端、Web、数据库的日志收集工作;
  • 日志 ETL 能力:日志实时 ETL、ETL 链路监控,ETL 链路品质度量;
  • 日志检索能力:全文搜寻能力、日志上下文还原能力;
  • 日志剖析能力:Adhoc 的日志 OLAP 能力。

随着日志流量、日志工作继续减少,使得“日志时效性、运维敌对性、服务稳定性、数据安全性”问题变得十分辣手,如:

1)日志采集阶段面临的挑战

  • 须要反对物理机、虚拟机、容器化场景,以服务粒度进行日志采集;反对弹性动静扩缩容;
  • 须要反对海量、数十万 Agent 监控、运维、多版本治理;
  • 须要反对共享多租户分级保障模型;
  • 须要针对工作级别提供丰盛的指标,故障诊断和自愈能力。

2)日志 ETL 阶段面临的挑战

  • ETL 语义表白要简略清晰可运维,同时与底层基础设施解耦,对 SQL 表达方式是强需要;
  • ETL 链路波及多个环节,各自有本人的指标体系,口径不对立,问题定位与排查老本很高;
  • ETL 链路波及日志存储与计算,在 Quota 内端到端弹性扩缩能力充斥了技术挑战。

3)日志存储面临的挑战

  • Kafka 磁盘 IO 热点导致的集群生产生产雪崩;
  • Topic 资源隔离差,流量突增、回溯生产,影响集群稳定性;
  • Kafka 有大量的集群和 topic 的操作须要平台来承接社区 Kafka-Manager 能力缺失。

4)日志检索面临的挑战

  • ElasticSearch 受制于元信息瓶颈,集群 Shard 数无奈冲破数十万级,须要解决扩展性问题;
  • ElasticSearch 集群资源多租户与查问隔离体系的缺失,是稳定性的最大杀手;
  • ElasticSearch 端到端立体化监控体系缺失,运维保障能力有余,须要解决运维敌对性问题。

5)日志剖析面临的挑战

  • 亿级明细数据级的 Adhoc 查问剖析能力;
  • 亿级基数维度列高精去重场景能力的撑持;
  • 端到端立体化监控体系的缺失,运维保障能力有余,须要解决运维敌对性问题。

02 滴滴 Logi 日志服务套件

随同着企业数字化转型、业务全面上云的过程,微服务、容器化等技术的疾速倒退,业务对稳固、易用的日志基础设施提出了三大迫切需要:

  • 服务保障的须要:全链路追踪是稳定性保障的重要抓手;
  • 业务经营的须要:A/B TEST、流动经营剖析、端上用户行为剖析、精准营销,对百 MB/ S 日志的秒级收留能力,TB 级日志的秒级搜寻能力强烈诉求;
  • 业务平安的须要:辨认攻打源进行资产止损,平安审计与溯源,TB 级别日志 Adhoc 剖析能力。

滴滴 Logi 日志服务套件在滴滴外部通过 7 年多的积淀打磨,针对日志采集、日志存储、日志计算、日志检索、日志剖析各个环节,在组件能力上 PAAS 化建设、在引擎稳定性与扩展性上进行针对性的优化,架构如下:

具备如下劣势:

  • 开源自主可控:Logi-Agent、Logi-LogX、Logi-KafkaManager、Logi-ElasticSearchManager 各 PAAS 套件打算全开源;
  • 引擎稳固牢靠:Agent 40MB/ S 的单任务采集性能,可控资源的隔离能力;LogX 采集工作的实时 ETL 秒级提早、计算性能的极致优化;滴滴 kafka 百 GB/ S 的实时流量;滴滴 ElasticSearch 数十 PB 的索引存储集群稳定性 99.95%;
  • 服务经营积淀:数十万日志服务工作端到端全链路保障日志数据的及时性、完整性、可察看性、运维敌对性;资源的弹性调度与分级保障能力的产品化积淀;
  • 平台业余易用:分钟级实现日志全链路的端到端自助接入;SQL 模板 +UDF 的个性化荡涤能力反对;百 TB 级数据秒级的检索体验。

》Logi-Agent 介绍

Logi-Agent 致力于打造企业级的数据采集平台,负责公司多端、多态数据的采集,架构如下:

滴滴 Logi-Agent 线上规模 10W 部署节点,130GB/ s 的日志采集量,20000+ 日志采集工作,单任务最大采集能力 40MB/S。

》Logi-Kafka 介绍

基于用户、研发、运维不同视角的高频场景 PAAS 化,晋升运维敌对性、引擎可察看性、用户便利性,已开源 https://github.com/didi/kafka… 500+ 收费用户,体验地址:http://117.51.146.109:8080/,账号密码:admin/admin

滴滴 Kafka 集群规模 500+,60GB/ S 的流量,共享多租户大集群场景的历练(CPU 利用率峰值 30%,磁盘 50%),SLA 承诺 99.95%,引擎基于 2.5 版本进行了 40+ 个性加强,磁盘过载爱护,分区动静迁徙,业务线程隔离是滴滴特色性能,稳定性的重要抓手!

》Logi-LogX 介绍

LogX 面向服务以 MB/ S 作为 Quota 的单位,以 SreamingSQL+UDF 作为 ETL 表白载体,反对以 Quota 为单位的动静扩、缩容能力,以工作为单位,构建通道端到端性能、及时性、完整性指标体系。

滴滴 20000+StreamingSQL ETL 工作,单任务最大流量 500MB/S,端到端 ETL 提早 90 分位小于 2Min,具备分钟级动静扩缩容能力。

》Logi-ElasticSearch 介绍

业界最业余的 ElasticSearch-Manager,基于用户、研发、运维不同视角的高频场景 PAAS 化,积淀了全托管特色的索引服务。

提供了基于索引模板的容量布局个性,集群磁盘利用率 30%→65%,开源筹备中。

自研 ElasticSearch-GateWay,提供跨集群拜访,多版本兼容,租户定义与平安,DSL 审核与剖析等重大拓展实用个性,撑持了滴滴 50 亿次 / 天的数据读取,1200W/ S 的数据写入,是 ES 引擎平滑降级 2.3.3->6.6.1->7.6.1 的基石组件。

滴滴 ElasticSearch 集群规模 3500+,8PB 存储,共享多租户大集群(1000+ 实例,60W Shard,CPU 利用率峰值 45%,磁盘 60%)场景的历练。

SLA 承诺 99.95%,引擎基于 7.6.1 版本进行了 150+ 个性加强,写入性能是社区版本 2 倍。

FastIndex 50TB 索引 1 小时实现构建,已开源(https://github.com/didi/ES-Fastloader)。

自研 DCDR,提供了集群间索引高可用的能力,为线上 50+ 主搜场景提供了异地多活的能力,累积向 ES 社区奉献 30+PR。

03 滴滴 Logi 利用案例

滴滴 Logi 在滴滴外部服务的场景十分丰盛,在故障定位、日志剖析、日志服务、业务经营、平安审计、日志资产、日志大屏等场景都有深度实际。

限于篇幅接下来会围绕着日志服务 LogInsight 和业务经营魔镜这两个方面具体开展,剖析基于滴滴 Logi 可能产生的业务价值。

》LogInsight

LogInsight 基于滴滴 Logi 的能力,主打云端日志存储解决方案,针对云化和容器化后面临的日志存储与剖析的诉求,提供了日志冷备、资源管理、日志检索等能力。

  • 显著升高日志应用、存储老本 全托管、弹性伸缩,免运维 冷备存储,约 0.02 元 /GB/ 月,显著升高存储开销,反对 1 -365 天自定义存储工夫;
  • 疾速发现、定位问题,进步业务稳固 基于大数据流式计算实现接口性能与谬误日志的统计分析,提供接口调用关系、拓扑关系、上下游流量剖析、服务谬误定位、谬误聚类等性能;安全可靠
  • 安全可靠 可用性不低于 99.9%,每天可解决上百 TB 日志量 数据实时采集,分钟级落盘,日志存储不失落满足日志审计需要。

》魔镜

魔镜是业余的场景化用户行为智能剖析平台,提供从数据采集、存储、计算、剖析到经营推广的全流程解决方案。

  • 场景化分析模型 用户留存剖析,用户轨迹剖析,用户画像剖析;
  • 根底服务能力 外围指标可实时查当日数据,实时计算,秒级产生数据,大盘反对集成报表;
  • 数据分析能力 非研发人员可自建指标,反对多类型可视化报表,反对数据导出随心剖析,反对 omega 数据上报数据;
  • 多产品满意度调研 反对多组织多产品构造,反对线上自动化配置,反对抽奖,进步参与度。

基于滴滴 Logi 日志服务套件,滴滴 Logi 不仅可能更好的满足日志场景企业广泛的运维可察看性、利用可察看性诉求,也可能更好的满足业务经营、平安审计、日志剖析、日志开掘等不同场景全方位的需要。

滴滴 Logi 的整体开源打算如下,欢送大家关注。

在生产环节应用开源版的企业用户,能够退出 OCE,咱们会额定给予更好的反对,比方专属的技术沙龙、企业一对一的交换机会、专属的答疑群等。OCE 申请入口在 Obsuite 公众号的菜单里,点击【OCE 认证】也可间接申请。

正文完
 0