关于运维:万人在线一站式自动化运维-SysOM-30重磅发布龙蜥社区系统运维-MeetUp-回顾来了

32次阅读

共计 5184 个字符,预计需要花费 13 分钟才能阅读完成。

8 月 12 日,由龙蜥社区零碎运维 SIG 主办,乘云数字协办的,主题为“观测,让运维更简略!”的零碎运维 MeetUp 于杭州圆满结束。来自乘云数字、谐云科技、乐维、云杉网络、擎创科技、观测云、阿里云以及浙江大学等泛滥厂商及高校的 11 位专家和传授,分享了精彩主题演讲,带来了前沿技术见解。现场来自浪潮信息、神州数码、阿里云等企业超 50 位开源爱好者,就云场景下运维的外围痛点及解决方案展开讨论,大家围绕 Linux 利用和零碎可观测、eBPF 跟踪以及诊断技术等打卡体验了龙蜥硬核运维技术,线上超万人观看并参加了互动。

​(图 / 流动现场合影)

​(图 / 龙蜥社区理事长马涛)

流动收场,龙蜥社区理事长马涛发表了收场致辞:“看到大家明天齐聚杭州,一起来交换探讨零碎运维技术,我的第一感觉是三个’多‘。第一是现场的参与者泛滥。咱们现场有高校传授、云厂商、运维厂商及很多 Linux / eBPF 爱好者等。第二是现场分享的议题多,既有 eBPF 技术、也有一站式运维平台 SysOM 3.0 的公布,还有龙蜥社区和 Kindling 社区联结公布的北极星指标及可观测性技术的分享等。第三是我集体感觉龙蜥社区在翻新、面向未来的思考工作做了很多。置信大家或多或少都有体感,在零碎运维畛域,过来更多靠集体 / 专家的能力去解决问题,没有造成一个规范。但随着云原生、eBPF、可观测、AI 等技术大规模衰亡,我感觉对于零碎运维畛域是一个契机。龙蜥社区也已粗浅的领会到存在的机会和挑战,心愿可能联合社区的力量更好、更高效的去解决。本次流动前面也会有针对成立‘零碎运维联盟’的探讨,大家一起摸索通过‘零碎运维联盟’的形式,以翻新的模式来解决问题。最初,不论是通过零碎运维 SIG 还是所有工程师的致力,最终心愿在龙蜥社区可能造成一整套残缺地、高效地运维形式,帮忙企业去解决面临的运维难题。”

致辞完结后,正式开始技术分享环节,本次 MeetUp 有 9 大议题、11 位技术大咖就 Linux 和 eBPF 技术的魅力开展演讲。

​(图 / 浙江大学软件学院副教授、博士生导师才振功)

浙江大学软件学院副教授、博士生导师才振功分享了《Gartner 2023 可观测性魔力象限解读和启发》主题演讲。才振功围绕 Gartner 对于 APM 和可观测性魔力象限谈了谈他的一些想法。据 2023 年最新的可观测性魔力象限报告显示,可观测性已受到社会各界宽泛关注,市场空间占比也很大,而入选魔力象限的企业综合思考了“技术”和“非技术”类多项指标。接着,他具体介绍了 Leader 象限供应商的特点、Visionaries 象限供应商的前瞻性、Niche Players 象限解决了用户哪些痛点等。最初总结了可观测性的发展趋势。

​(图 / 谐云科技 CTO 苌程)

​(图 / 龙蜥社区零碎运维 SIG Owner 毛文安)

谐云科技 CTO 苌程、龙蜥社区零碎运维 SIG Owner 毛文安联结分享了《龙蜥社区 & kindling 社区联结公布:北极星指标体系构建》。

苌程和毛文安独特分享了对于排障北极星指标实践的独到见解。只管在传统的可观测性畛域,涵盖了 tracing、metrics、logging 等因素,但仍然存在一些无奈观测到的盲区。这些盲区的存在使得咱们在故障排除过程中经常感到困惑。因为 Linux 内核的复杂性,即便是专家们也经常受限于某一特定畛域,例如网络、存储、CPU 调度等。因而,故障排查的挑战在于,尽管问题外表看起来可能呈现在某一畛域,但根本原因可能却暗藏在另一个畛域。这意味着解决故障通常须要集结来自多个畛域的专家,而这也导致了 1-5-10 等迅速复原业务的问题难以解决和施行。为了解决这一问题,Kindling 社区与龙蜥社区单干,独特推出了排障北极星实践。

北极星实践能够领导咱们疾速的进行问题定界,依据某个指标值,确定问题下一步的排查思路。龙蜥社区基于这套实践,也进行了一些启发性的实现,毛文安介绍了北极星指标的代码实现办法,并通过具体场景指出排查问题的方向,给出问题的根因论断,从实践到实际进一步诠释了北极星指标对排查问题的极大帮忙。

​(图 / 乘云数字 DataBuff 产品线架构师狂魔)

乘云数字 DataBuff 产品线架构师狂魔分享了《云观测场景下的 Trace 全量存储技术钻研》主题演讲。狂魔在分享上提到,DataBuff 正在构建以“Trace、Metric、Log、Topo、eBPF Flow”观测五件套为数据原材料的一体化观测平台,Trace 是一体化观测的外围因素,是拓扑驱动古代 AIOps 剖析的要害,有着不可代替的位置。以后,业界大多可观测性软件厂商无奈解决“Trace 全量存储”的技术难题,大量抛弃客户的交易链数据是普遍现象,在平安合规、故障回溯、算力老本等方面均受到了微小挑战。乘云数字专门开发了一款“TraceX 调用链全量存储系统”,面向可观测剖析场景、尤其适宜大规模交易系统、云原生容器场景,帮忙零碎实现全量化存储调用链数据。TraceX 可能无效的升高 Tracing 数据的存储老本、晋升剖析效率,真正达到降本增效的目标。通过 TraceX 辅助一体化观测零碎构建利用零碎的空间地图,实现故障定位的按图索骥不丢痕,真正解决客户的业务问题。

​(图 / 乐维创始人丁振兴)

乐维创始人丁振兴分享了《开源运维工具应用现状及思考》主题演讲。Metric 做为可观测性的入口,丁振兴联合开源产品的优缺点剖析和现状,提出一种监控的最佳实际,衍生基于监控发现的 CMDB,摸索 CMDB 交融 APM、NPM、平安、日志、ITSM 等,实现平面保障业务的可观测性平台,实现业务的观测保障。

​(图 / 阿里云零碎服务负责人冯富秋)

阿里云零碎服务负责人冯富秋向大家分享了《SysOM 3.0 公布:基于利用视角的智能运维》主题演讲。

冯富秋从以后运维产品的现状登程,探讨了一些工具平台在问题论断的展示和解决上面临的一些挑战:不知其然,只知其然而不知其所以然,难知所以然;并且很多开源中间件的倒退和 FaaS 的演进让问题离根因越来越远,只站在传统运维平台和 IaaS 提供商的视角,造成鸡同鸭讲的状况,此外,内核的复杂性导致问题解决难度居高不下,比方一个 pagecache 异样变多可能引发内存不足告警、内存拜访时延低等问题,更糟的是,大家没有方法晓得到底在哪个时刻会引发问题。面对这些挑战,是不是须要换一个视角,从用户的角度去剖析和解决这类问题?

首先,要从利用的视角自顶向下进行剖析来升高利用的运维门槛。实现指标与利用表象的关联,通过全链路根因追踪,失去利用调用状况和各个阶段的延时散布;基于内核深度分析施展内核的全视角劣势,深度剖析过程间行为关联和资源应用状况。

其次,要从集群的视角实现监控告警到诊断剖析的智能一体化运维,通过集群危险告警和集群衰弱度深入分析,这样能力知其然又知其所以然。

最初,通过具体案例,特地介绍了 SysOM 3.0 基于利用的观测计划,从 Java 运行时火焰图热点和 Mysql 数据库慢查问异样事件进行深入分析,得出了客户能看得懂的根因和论断。同时,也重点介绍了 SysOM 集群、节点、容器三位一体监控计划,实现集群视角的资源衰弱度评估,对 CPU、内存、IO、网络等系统资源的深刻监控和诊断剖析,让诊断监控化,监控诊断联动,所见即所得。

​(图 / 清华大学博士、云杉网络研发 VP 背阴)

清华大学博士、云杉网络研发 VP 背阴做了《应用 eBPF 帮忙利用开发实现零侵扰的可观测性》主题分享。他从 DeepFlow 的实践经验登程,以业务运维、利用开发的视角分享了一系列典型实战案例。通过他的分享,咱们更活泼的理解到了 eBPF 作为一项十分底层的内核编程技术,是如何撑持银行分布式外围疾速上云,如何让层层网关呵护下的 Serverless 利用疾速实现全栈链路追踪,如何帮忙 C++ 技术栈的游戏利用解决插桩难的观测痛点,如何为祖传代码遇到的降本增效难题提供解决方案,如何化解私有云服务商和租户之间的工单卡死难题,以及如何联合 Wasm 技术让新一代证券交易零碎实现零侵扰的分布式追踪。

​(图 / 擎创科技可观测产品总监何晶)

擎创科技可观测产品总监何晶分享了《云原生转型之路的多零碎运维》。企业面向几百个转型两头态的零碎,通过建设对立对象模型,对异源同域的数据进行解析丰盛解决,实现多维数据自主关联。算法和机器学习为简单的体系提供了动静问题感知和预测的能力。在问题产生后基于根因举荐、同源剖析等措施疾速故障定界并开始应急处理,保障业务的连续性是首要之责,数智化观测为排障和零碎调优提供无效的决策能力。

​(图 / 观测云零碎工程师张文杰)

观测云零碎工程师张文杰同大家分享了《eBPF 与网络可观测性钻研》。eBPF 在网络可观测上具备平安灵便、实时追踪等长处,通过运行时加载 DataKit 探针能实现对网络流量的实时剖析和统计;基于网络协议的剖析,可能为链路零碎提供零碎侧的 Span 补充。最终在观测云对立可观测平台上展现出申请数、响应工夫、错误率等要害指标。

在技术主题分享完结后,阿里云零碎服务负责人冯富秋主持了主题为《云场景下运维的外围痛点及解决方案研究》的圆桌探讨,来自清华大学博士、云杉网络研发 VP 背阴,谐云科技 CTO 苌程,乘云数字公司创始人度远,乐维创始人丁振兴,龙蜥社区零碎运维 SIG Maintainer 张毅,观测云零碎工程师张文杰,擎创科技可观测产品总监何晶,浙江大学城市学院传授李飞加入了探讨,嘉宾就运维的痛点、突破点和价值点三个方向的议题开展了热烈的探讨。

在圆桌探讨环节,各位嘉宾就议题开展了探讨。乘云数字公司创始人度远就大模型的议题开展了分享。他提到:乘云数字较早的公布商业化的 OpsGPT 引擎,是将大语言模型在 IT 运维畛域的垂直利用落地。咱们初步打算将 OpsGPT 打造成一位低成本、高效率的运维老专家。初期的摸索中,咱们的一点小小领会是,大模型作为人工智能畛域的重大技术改革,将会对企业 IT 服务畛域产生重大而深远的影响。但现阶段也不适宜过早适度神话,无论是底层数据品质、算力撑持、指令级的专业知识、向量数据库逻辑等都是须要进一步演进和积攒。这个畛域须要有使命感的领军企业来带动,以大模型为抓手,大家以更凋谢的态度,独特合作,能力为用户提供更大的价值。心愿 OpsGPT 在可观测畛域可能施展越来越大的作用,为咱们的客户在理论生产环境中的根因定位、故障自愈等技术难题提供更多的能量。

针对国内是否有必要成立本人的运维联盟,大家七嘴八舌,现场探讨气氛热烈。谐云科技 CTO 苌程示意,在国内,很多甲方公司通常会从本身的教训登程来了解故障。如果咱们本身尚未遇到过相干故障,往往会认为这些问题可能与咱们的零碎无关。因而这种被动的心态导致,甲方一线人员始终感觉在救火。

此外,在技术畛域,大家的共识并不统一。故障通常会通过表象出现进去,比方无法访问。然而,故障的深层起因和导致它的因素可能多种多样。技术界不足一种共识机制,来使得甲方和乙方可能达成共识。作为甲方,须要理解可能会遇到的问题以及可能的起因,而作为乙方,他们须要明确应该提供什么样的技术服务。另外,技术在一直的向前演进,但不是每一个企业都有足够的技术实力、财力等去钻研和推动,这就十分须要有一个组织疾速的将先进成绩进行转化到具体实际中,服务千行百业的客户。

运维联盟能够扛起这面旗号,促使甲方和乙方先达成共识,推动技术提高。例如,在云原生环境中,到底可能会有哪些故障,这些故障的体现是什么。具体来说,能够基于复旦大学开源我的项目的教训,演进出一个对于不同场景故障的共识。欢送所有感兴趣的人,无论是甲方还是乙方,抑或是高校,都来分享他们可能遇到过的故障案例。甲方播种了一个全网最全的故障知识库,了解了本人零碎可能存在单薄的中央,高校也能够通过这个平台取得一个试验环境,而不同的厂商能够单干构建一个技术生态。在联盟外部,每家厂商能够依据本身的业余畛域分工,而后相互买通接口,独特为用户的生产环境提供反对和保障。

最初,感激本次流动各位嘉宾的精彩演讲,也感激龙蜥社区搭档及乘云数字工作人员:毛文安、周絮、蔡佳丽、刘寅、金美琴、孙林林、张毅、尹斌斌、廖肇燕、李光水、程书意、赵航、刘海龙、邹涛、陈诗雁、刘馨蔚、张永德、阙建明、袁艳桃、夏敏琪、度远、张怀鹏、贾慧艳(以上排名不分先后)等人的组织与配合,也特别感谢 Linux 中国、InfoQ、思否、51CTO、阅码场等媒体的反对,有各位的辛苦付出,使得本次零碎运维 MeetUp 流动圆满结束。

课件、视频获取:本次流动视频回放及技术 PPT 已上传:
视频回放:https://space.bilibili.com/1247819550
技术 PPT:关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。更多相干的流动内容将在这里或者龙蜥社区交换群剧透推送,记得继续关注龙蜥社区公众号,谨防走丢哦!

—— 完 ——

正文完
 0