关于运维:数智领航营酒类农牧业数智化转型中的数智化决策实践

5月20日,博睿数据数智领航营高阶沙龙酒业农牧业专场在成都举办。来自新心愿团体、通威团体、铁骑力士、国台酒业、川酒团体、舍得酒业的多位嘉宾缺席了本次数智领航营。博睿数据创始人兼CTO孟曦东进行了演讲分享,并与行业同仁独特探讨国内酒类农牧业数智化转型倒退新门路。 推动传统监控到可观测性转型Bonree ONE作为国内首个真正实现智能运维的一体化智能可观测平台,可主动发现横向调用拓扑和纵向依赖关系拓扑,帮忙用户把握整个数字零碎的整体架构。同时,通过对理论产生的用户数据进行监测,记录全副用户前端所有动作,背靠代码级调用辨认问题,以一体化端到端的全栈监控,实现智能告警与根因剖析,将为产品的进一步优化提供牢靠根据,无效晋升产品外围竞争力。 数据中台赋能运维畛域Bonree ONE领有2000+预置指标,助力企业构建零碎可量化能力与运维数据治理体系。同时,通过便捷的数据接入与数据输入,助力企业打造监控、数据一体化平台,连贯包含业务端-用户端-应用层-网络层-中间件-数据库-资源层在内的所有运维场景。 助力酒类农牧业数智化转型酒类农牧业的数智化转型波及到产品端、渠道端以及生产端,企业组织架构、产品生产、工艺晋升等各个方面都须要进行重塑和降级,从而为全产业链赋能。在此过程中,博睿数据通过为企业构建以用户为核心的简捷、高效、智能的新型IT运维,无效推动企业数智化转型过程,助力酒类农牧业在数字经济时代迅速晋升本身管理效率,驱动业务翻新倒退。 1000+客户抉择博睿数据博睿数据专一赋能企业数智转型15年,领有23项发明专利,111项软件著作权与27项核心技术,2022年IDC调研指出博睿数据蝉联国内APM市场份额第一,同时也是信通院AIOps能力成熟度测评根因剖析惟一优良级厂商,已取得1000+客户的信赖与抉择。

May 26, 2023 · 1 min · jiezi

关于运维:重磅发布-2023年消费品企业数字化转型调研白皮书

数字经济时代,数字化转型对于消费品企业越来越重要,已成为消费品企业减少经济效益、晋升竞争力的重要策略之一。随着数字化转型进入深水区,越来越多波及到商业模式、业务模式和产业链生态的翻新改革开始呈现,给消费品企业带来了一系列挑战。 为更好地服务、促成消费品企业数字化转型工作,博睿数据联结广东省首席信息官协会、阿里云以及用友网络独特公布了《2023年消费品企业数字化转型调研白皮书》。白皮书旨在全面和系统地理解消费品企业数字化转型领导力、企业数字化能力、数字化转型的停顿与成果、业务数字化、数智经营剖析等方面获得的成绩和遇到的艰难,为数字化转型进一步工作提供参考。本次参加调研的企业共有32家,其中上市企业20家,2022年销售收入共4237亿元。 点击下方链接,收费获取白皮书消费品企业数字化平台性能架构企业数字化转型面临的挑战大型企业数字化转型的最大艰难更多与跨部门合作(数字化转型环境)相干,例如,跨部门数据资产治理艰难大,流程治理等根底治理单薄,业务部门人员不足根本的数字化能力,业务部门领导亲自参加和领导数字化工作、与数字化部门单干有余。 中型企业数字化转型的最大艰难更多与数字化转型领导力相干,例如,数字化未与企业策略、外围业务严密交融,业务部门领导亲自参加和领导数字化工作、与数字化部门单干有余,企业不足数字化转型的紧迫感,企业高层领导对数字化的认知和领导力有余。 中小型企业数字化转型的最大艰难更多与数字化转型领导力和转型环境相干,例如,企业高层领导对数字化的认知和领导力有余,企业不足数字化转型的紧迫感,数字化工作估算有余,企业未建设和造成数字化文化。 企业数字化转型获得的经济效益情况剖析企业数字化转型经济效益“成果良好”、“成果优良/达到预期”、“成果卓越/超出冀望”(3分及以上)占大部分(82%),大型企业和中型企业100%,中小型企业70%,消费品企业82%,个护/家护企业70%。 其中“成果优良,达到预期”或“成果卓越,超出冀望”的企业只是小局部(138%),即便大型企业也只有30%。 企业数字化转型获得较好效益的业务畛域获得较好效益的前5个畛域:员工工作效率进步,营销效率晋升,销售增长,生产成本升高,用户数量增长/忠诚度进步。 消费品行业是数字化转型的排头兵,本次白皮书中的倡议不仅仅是局限于消费品企业,对其余行业也有很好的借鉴意义,各企业CIO等管理者均可通过学习的形式用好这本白皮书。 白皮书收费获取 点击此链接填写相干信息咱们将收费赠送您原价1000元的《2023年消费品企业数字化转型调研白皮书》流动截止到5月31日数量无限,先到先得

May 25, 2023 · 1 min · jiezi

关于运维:UOS下使用HHDESK文本对比功能

UOS零碎从开发至今,尽管停顿很大,但受限于一些因素,所反对的性能和软件,目前仍不多。HHDESK便是其中佼佼者之一。此篇介绍的便是HHDESK的一项便捷性能——文本比照。这个性能针对办公人员所开发,使得本来简单的UOS零碎下的操作,变得简略快捷。它可能直观的对文本进行比照,帮您拼凑“碎片化”的记忆,并且清晰的划分显示。 1 性能简介举例——版本更新日志;尽管大多数软件会有更新布告供人参考,但比起使用手册来不够直观。咱们更心愿可能间接比照两份使用手册,来看看更新前后应用的变动。上面便以2个版本的HHDESK使用手册为例,简略介绍一下HHDESK的文本比照性能:首页——文件比照,别离抉择须要比照的文本文档;能够看到,2个文档别离显示,并呈现标识。如图所示:红色背景局部为雷同内容的文本;灰色局部为内容有变动的文本;(若用户感觉内容没有变动,认为是软件显示谬误,请持续仔细检查,HHDESK齐全不会呈现这种谬误。) 红色局部为前一份文档有,而后一份文档删除的内容; 绿色局部为后一份文档所减少的内容。 每一个更改的文本内容都清晰的标识进去,且有关系线相连,保障用户可能疾速找到批改点。(或者称它为“逻辑线”,便直白明了。)这样便可直观的理解,改版的内容,不便用户了解和思考。 2 应用技巧2.1 进度条拖动拖动右边版块的进度条,以及鼠标滑轮,能够独自管制此板块页面滑动; 拖动左边版块的进度条以及鼠标滑轮,则是管制左右两个板块滑动; 2.2 返回性能点击右侧箭头处图标,能够返回文本首页。 3 总结在应用性能上,HHDESK在各个系统上的操作形式,其实简直没有什么变动。这样就极大的晋升了用户应用感,不须要因为更换零碎而重新学习软件。而HHDESK简直反对所有的操作系统,这也使得它的用户有一个很不便的中央——习惯这一个软件就够了,不须要破费更多精力。而这也是HHDESK的初衷——让您的工作辞别繁琐。

May 23, 2023 · 1 min · jiezi

关于运维:Windows下hadoop环境搭建之NameNode启动报错

前言:因为平时工作和日常接触到的大都是的中型我的项目,所以少有个性化举荐等波及大数据的性能。然而前期应该也会在本人我的项目中增加信息举荐模块,所以就开始关注spark,hadoop,Thrift等工具,以下就以hadoop先开始,包含环境搭建和配置过程中踩坑过程。        对于hadoop的环境搭建,网上也有各种各样的教程。拿来间接按着他们的办法来,后期以后问题不大,然而呢,可能在装置过程中因为每个工具的版本不统一。又或者配置中文件门路不一样等等都很可能导致踩坑有数。不论是开发调测bug还是软件环境搭建,我感觉最好的办法就是看日志,看到error和warn再把错误信息拿去查问,比起xxxx启动报错,xxxx怎么出错了等等的确要快。  环境:1.windows102.jdk83.hadoop2.7.7 繁难搭建:1.windows下jdk8的装置,略过。 2.hadoop2.7.7 3.hadooponwindows-master.zip文件包下载。      hadoop和hadooponwindows全都下载实现后,将hadooponwindows-master的bin和etc替换掉hadoop2.7.7的bin和etc文件。 4.hadoop环境变量配置,略过。 5.hadoop配置。 (1). hadoop-env.cmd配置:找到hadoop的etc/hadoop下的hadoop-env.cmd并关上,设置本地jdk的地位,门路中不能有汉字特殊字符等,如下。 (2). hdfs-site.xml配置:找到hadoop的etc/hadoop下的hdfs-site.xml并关上,在configuration增加如下参数。特地留神的是namenode和datanode两个节点数据存储地位,肯定要增加file://协定。并且绝对路径前肯定要加“/”,因为这个会导致呈现报错的问题,前面再讲。还有windows的门路标识“/”,配置如下。 <?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License. See accompanying LICENSE file.--><!-- Put site-specific property overrides in this file. --><configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///E:/2setsoft/1dev/hadooponwindows/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///E:/2setsoft/1dev/hadooponwindows/data/datanode</value> </property></configuration>(3).  core-site.xml配置:找到hadoop的etc/hadoop下的core-site.xml并关上,在configuration增加如下参数。特地留神的是hdfs的端口,因为作为开发本地呈现9000端口应该很多,所以这里就先强调记得这里是配置端口的就行,以下是配置。 ...

May 19, 2023 · 2 min · jiezi

关于运维:如何在金融企业推进故障演练中国人寿分阶段实践总结

一分钟精髓速览越来越多企业正在通过故障注入和演练的形式晋升系统可靠性,这其中金融行业的利用较为非凡。一方面其可靠性要求比非涉账类零碎更高;另一方面金融行业有更加严格的监管要求,如客户、账目等信息都有严格束缚。加之金融零碎较其余行业零碎更加宏大、繁冗,所以金融行业落地混沌工程和故障演练等工作需尤为审慎、谨严。 本文介绍了中国人寿故障演练的我的项目背景、指标思路、技术计划等,分享其在预知故障和升高不确定性危险方面的实际功效。 作者介绍中国人寿研发核心高级工程师——刘玢 TakinTalks社区专家团成员。领有多年开发和运维教训,专一高可用畛域,目前负责中国人寿混沌工程等多项高可用动作的布局和落地施行,对于构建高可用零碎具备深刻的了解和实践经验。 舒适揭示:本文约4600字,预计破费9分钟浏览。后盾回复 “交换” 进入读者交换群;回复“0426”获取课件材料; 背景在最近六七年工夫里,中国人寿对原来烟囱式的架构做了继续革新。对诸如长险、短险、万能险等等独立零碎中的相似性能,做了横向的专业化拆分、微服务拆分。新架构在带来效率晋升的同时,也带来了更多不确定性危险,如微服务数量的指数级增长、架构越来越简单、问题定位难度加大等等。 从2022年安全事件及生产危险起因剖析看,中国人寿安全事件及生产危险次要包含非版本类变更引发、第三方或硬件故障、版本或历史缺点、生产长事务或者海量数据引发等,其中非版本类变更引发、第三方或硬件故障两项总和超过50%。 一方面,微服务增多导致版本翻倍增长,带来了更多的变更危险;另一方面,“1min-10min-30min”的故障解决要求也是不小的挑战。总体上,因为不足抓手导致咱们对性能、平安、兼容性、可维护性等多方面都不足品质信念。 基于此,中国人寿高可用工程规划了一系列稳保能力,并于2022年开始落地基于混沌工程的故障演练。囿于金融行业生产环境的特殊性,目前中国人寿已率先实现了在故障演练在测试环境和准生产环境的落地。 明天我将次要围绕中国人寿故障演练的我的项目背景、指标思路、技术计划等,分享其在预知故障和升高不确定性危险方面的实际功效。 一、故障演练想要达成哪些指标?1.1 故障演练指标故障演练的指标次要分为两块,业务指标和技术指标。通过基于混沌工程平台的故障演练能力建设和演练施行,从开发、测试、运维、灾备各个领域帮忙各零碎发现和解决潜在问题,进步零碎稳定性和可用性,加强团队合作能力和故障排除能力。 1.1.1 业务指标事先(从架构设计角度):加强业务可用性,预防事变产生; 事中(从零碎运维角度):进步故障发现能力和告警能力; 预先(从故障处理角度):晋升应急处理时效,升高故障影响范畴和时长。 1.1.2 技术指标开发畛域:去除架构设计单点,验证零碎容错能力; 测试畛域:生产故障回归测试,极限场景测试; 运维畛域:验证监控发现能力和告警有效性,验证应急预案有效性,缩短故障处理工夫; 灾备畛域:验证灾备切换预案的适用性和有效性。 1.2 落地思路第一个是平安优先。先从测试环境演练动手,再缓缓过渡到生产环境,稳固平安优先。 第二个是分步施行。先做一些简略的场景,而后再做简单的场景,稳步推动。同时,先引入开源工具,再增强自主掌控,一直晋升故障演练零碎撑持能力。 第三个是增强协同。故障演练和做容量布局、灰度、在线压测等都有很大的不同,大多数时候业务团队会认为故障演练将毁坏其零碎程序而冲突不配合。因而,协同沟通以及混沌理念宣传十分重要。 二、技术计划如何抉择?2.1 平台性能布局技术选型是整个我的项目落地最重要的一块。咱们将性能布局分成了五局部,试验配置、试验治理、平安管控、监控整合、故障注入。后面两局部各家都大同小异,这里将重点分享前面三个性能布局背景。 1)平安管控这部分布局咱们破费了最多的精力和工夫。在做混沌工程时,大家首先都会关注如何建设零碎稳态,如何管制爆炸半径等,而金融行业零碎的平安管控尤为重要,所以咱们花了大量工夫,与诸如阿里等一线公司做交换和调研,借鉴胜利的教训。具体实现过程我将在前面开展。 2)监控整合咱们要把原有的监控能力做整合,来适应混沌平台的需要。中国人寿做过很多监控能力的建设,如机房监控、主机监控、网络监控、数据库监控、服务链路监控等等,原来的监控平台对这些监控能力都做了接入,但为了告警不便和避免误报,很多监控数据都做了抽样,比方按分钟做一个统计数据再整合起来。如果间接给混沌平台来应用,会导致时效性有余或者故障被覆盖。因而,咱们须要从新做监控能力的整合。 3)故障注入故障注入能力可能是大多数人关注的重点。咱们布局的故障注入能力包含根底故障(如CPU资源、网络资源、磁盘、过程、内存)、JVM类故障、网络申请类故障、消息中间件故障、K8S引擎故障、Cattle引擎故障等等。这部分咱们花了较长时间做收集整理。 此外,咱们还做了一些定制开发的故障。因为仅基于开源工具,很多场景故障无奈模仿。举个例子,中国人寿当初应用了大量的中间件,一个Java工程应用很多内部jar包,有些内部包又依赖其余包,整个生态十分宏大,而内部的故障工具只能对其中某些中央做故障注入,不能齐全满足理论的故障模拟需要。所以须要很多定制化的故障开发来补齐这部分能力。 2.2 技术选型过程实现性能布局后,咱们从业界支流的混沌工程平台中筛选了一些产品进行深入研究和试验测评。从故障注入能力、平安管控能力、试验配置与编排、界面易用性、部署难度、服务反对、扩展性兼容性等7个方面,做了深刻的剖析和比照。 基于技术自主可控的思考,最终咱们抉择了“自研+开源”的形式。基于开源的ChaosBlade,进一步做了定制化开发,包含自定义故障的开发、监控能力整合等,造成了现有的混沌工程平台。 三、如何分阶段落地故障演练?整个故障演练工作能够分成三个阶段。目前曾经实现测试环境和准生产环境的故障演练,我将重点分享这两个阶段的落地实操。 3.1 故障演练-测试环境3.3.1 整体工作功效从2022年7月开始至今,总计实现13个零碎测试环境的故障演练,累计进行30轮演练,发现143个危险点并采取预防措施,整改问题超过50个。 3.3.2 演练过程 1)第一轮:线上分散式演练 第一轮演练是线上分散式的,持续时间一周以上。次要参加人员有混沌教练、产品架构师、测试人员。其中,产品团队须要提供架构文档(如物理架构、逻辑架构、技术栈状况等)、历史故障清单(如上下游关系比拟近的系统故障)、演练的重要关注点等。 在此过程中,咱们会依据零碎技术栈和零碎架构,先在故障演练库中选出适宜的根底故障,再依据理论沟通状况补充利用适宜的故障。接下来,基于开发环境对筛选进去的故障做预演练,其目标就是通过适合的形式生成故障——有些故障比较简单,通过故障工具能够间接生成,但须要找到适合的地位并做深度分析;还有一些故障须要定制开发,并做演练迭代。 整个过程依据零碎的复杂度,短则继续1周,长则2-3周。演练实现后,就能造成适宜该零碎的比拟残缺的故障清单。 2)第二轮:集中研究整改措施 以线下集中的模式发展,工夫是半天左右。将混沌教练、产品经理以及产品组架构师等等骨干全副招集,对第一轮确定的故障清单做集中演示。同时,现场探讨并确定整改动作。有些故障会波及多个角色,也有可能产品组不认可问题整改意见,此时则须要多轮探讨,最终约定具体的整改计划。 3)第三轮:应急预案有效性验证 此阶段退出运维部署负责人,还是以线下的模式进行,次要对应急预案的有效性进行验证,工夫也是半天左右。 此轮咱们会筛选一部分和运维严密相干的故障,对第二轮整改后的零碎进行可触发应急处理的故障演练。运维人员染指并依据应急预案施行一遍,看看是否能笼罩并及时处理故障。同时,也会在现场探讨应急预案的动作是否正当、是否须要减少、是否须要欠缺等等,并可能在现场做屡次迭代试验。 3.3.3 演练后果对于金融零碎来说,真正敢上生产环境做演练的简直没有,所以咱们在测试环境的演练播种会绝对少很多。后面讲到咱们总计实现了13个零碎测试环境的故障演练,其演练后果和问题大抵可做如下分类。 从数据中能够看出,大部分问题集中在监控缺失和告警规定。只管监控平台曾经建设了好几年,然而从演练后果来看,监控告警能力并不如大家设想的乐观——存在监控盲区或者须要达到肯定阈值才会在监控中出现、告警规定不合理等等。这里也是咱们测试环境演练最有价值的播种之一。 (中国人寿某零碎演练问题清单) 3.2 故障演练 - 准生产环境3.3.1 演练背景客户流动管理系统是中国人寿的客户节流动平台,在流动顶峰时,刹时TPS可达到8000以上。为应答行将到来的客户节流动,咱们在此零碎上做了准生产环境的故障演练。之所以称之为准生产环境,是因为尽管它自身是生产环境,但在客户节降临前,它没有生产流量,所以咱们能够间接在生产环境做尺度更大的故障注入。 3.3.2 演练过程 演练需同时依赖在线压测平台和监控平台进行。因为是在生产环境演练,所以必须用在线压测的办法能力把生产流量打上去。另外更重要的一点是,尽管客户流动平台刚上线没有生产流量,然而其上下游零碎也会有生产危险,所以须要依附在线压测平台做流量辨别,将测试流量打入影子库中。同时,一些不能调用的接口也需依靠在线压测平台做Mock。所以,先有在线压测平台后,再来建设混沌平台,工作推动会更加正当。 3.3.3 演练功效1)依靠在线压测平台全面验证各个模块容量;个别状况下,容量验证依附性能测试。但性能测试有个比拟大的难点,即A模块产生性能瓶颈但上游的B模块还未达到瓶颈,此时须要性能测试不停做生产变更和配置调整能力达到最优。而通过混沌工程平台,简略对CPU或内存做肯定比例的占用、对网络延时做大量调整即可检测出链路上各个模块的性能极限。 ...

May 18, 2023 · 1 min · jiezi

关于运维:SRE方法论之拥抱风险

一、零碎不可能100%牢靠零碎不可能100%牢靠,人都不可能100%衰弱,更何况咱们人类发明的零碎?所以,任何软件系统都不应该一味地谋求 100%牢靠。事实证明,可靠性超过肯定值后,再进步可靠性对于一项服务来说,后果可能会更差而不是更好!极其的可靠性会带来老本的大幅晋升:比方过分谋求稳定性限度了新性能的开发速度和产品交付速度,并且很大水平地减少了投资老本和运维老本。 二、治理危险不牢靠的零碎会影响产品的信用,尽管零碎不可能100%牢靠,但咱们也要缩小零碎出故障的几率。然而,教训表明,可靠性进一步晋升的老本并不是线性减少的:可靠性的下一个改良可能比之前的改良成本增加100倍。基于以上矛盾点,SRE的做法是治理危险,指标是:咱们会努力提高一项服务的可靠性,但不会超过该服务须要的可靠性。治理危险旨在寻求疾速翻新和系统可靠性的均衡,而不是简略地将可靠性最大化。 三、度量危险SRE的做法是通过一个主观的指标来体现一个零碎的可靠性(或者是危险)。对于大多数服务而言,最间接的可能代表危险承受能力的指标就是对于计划外停机工夫的可承受程度。对于零碎而言,这个指标通常是基于零碎失常运行工夫比例的计算得出的。 可用性=零碎失常运行工夫/(零碎失常运行工夫+停机工夫)应用这个公式,咱们能够计算出一年内可承受的停机工夫,从而能够使可用性达到预期指标。举例来说,一个可用性指标为99.99%的零碎最多在一年中停机52.56分钟,就能够达到预计的可用性指标。当然,并不是所有的零碎或者组件实用于这个公式,比方也能够通过申请成功率来定义服务可用性,具体如何度量还要结合实际状况灵便应答。 四、确定服务可靠性指标如果 100% 不是一个正确的可靠性指标,那么多少才是呢?这其实并不是一个技术问题而是一个产品问题。要答复这个问题,必须思考以下几个方面: 基于用户的应用习惯,服务可靠性要达到什么水平用户才会称心?如果这项服务的牢靠水平不够,用户是否有其余的替代选择?服务的牢靠水平是否会影响用户对这项服务的应用模式?为了建设起一个正当的可靠性指标,SRE必须与产品负责人一起致力,将一组商业指标转化为明确的能够实现的工程指标。在实践中,这种转化说起来容易做起来难,SAAS层软件和IAAS层基础设施转化的形式又各不相同。 五、谬误估算SRE和产品负责人必须对每个零碎建设起一个正当的可靠性指标。一旦建设,“谬误估算”就是“1-可靠性指标”。如果一个服务的可靠性指标是99.99%,那么谬误估算就是0.01%,这意味着产品研发部门和SRE部门能够在这个范畴内将这个估算用于新性能上线或者产品的翻新等任何事件。 谬误估算能够用于什么领域呢?研发团队须要用这个估算上线新性能,吸引新用户。现实状况下,咱们应该应用谬误估算来最大化新性能上线的速度,同时保障服务质量。这个根本模型建设起来之后,许多常见的战术策略,例如灰度公布、AB测试等伎俩就全说得通了。这些战术性伎俩都是为了更正当地应用整个服务的谬误估算。 SRE通过引进“谬误估算”的概念,解决了研发团队和 SRE 团队之间的组织架构抵触。SRE 团队的指标不再是“零事变运行”,SRE团队和产品研发团队指标统一,都是在保障业务服务可靠性需要的同时尽可能地放慢性能上线速度。这个改变虽小,意义却很大。一次“生产事变”不再是一件好事,而仅仅是翻新流程中一个不可避免的环节,两个团队通过合作独特治理它。

May 18, 2023 · 1 min · jiezi

关于运维:HHDESK窗口拆分功能

实际操作的过程中,窗口太多,不不便操作及浏览是很常常的事件。常常须要切换来,切换去。麻烦不说,还导致凌乱。笔者举荐HHDESK一项性能,窗口拆分,让您在同一页面内浏览多个窗口,有助于思维逻辑的连贯性。 1 建设窗口在首页,点击“平铺窗口”抉择拆分形式,点击“拆分”每个窗口还能够接着拆分,并且能够在加载配置中抉择相应的链接。 2 性能应用点击预览,会弹出新的窗口;每个窗口能够独立实现工作。右下角的共享窗口,则能够间接新建工作。点击新增工作即可此时各个窗口状况高深莫测,能够很不便的浏览各个工作,同时进行监控及解决。 比方笔者此时便一边应用文本编辑性能,撰写文章;同时应用拆分性能,进行演示;接着应用HHDESK自带的截图性能,截图放入文档。对办公室人员来说,堪称是相当敌对。不须要关上过多程序利用,仅仅是HHDESK,便可独自解决。正应答了HHDESK的全名——恒辉运维桌面工具套装软件。让您只须要繁多软件,便可实现绝大部分的工作内容。

May 18, 2023 · 1 min · jiezi

关于运维:夜莺官方文档优化第一弹手把手教你部署和架构讲解消灭所有部署失败的-case干

前置阐明各种环境的选型倡议Docker compose 形式:仅仅用于简略测试,不举荐在生产环境应用 Docker compose,降级起来挺麻烦的,除非你对 Docker compose 真的很熟二进制部署:最举荐的形式,稳,降级也不便Helm 形式:公司大规模应用了 Kubernetes,能够抉择 Helm 形式,前提是贵司对 Helm 这套真的很熟存储选型:如果之前没有部署过,是个新环境,时序库选型倡议应用 VictoriaMetrics,单机版 VictoriaMetrics 就能够抗住每秒上百万数据点,性能很好,CPU、内存的占用都比 Prometheus 少,而且,齐全兼容 Prometheus 的查问接口工夫校准:社区反馈的很多问题都是因为机器工夫没有校准,监控系统对工夫很敏感,请各位先把机器工夫校准统一,让服务端的机器、时序库的机器、要监控的指标机器、浏览器所在的 PC 工夫,都保持一致用户名明码默认用户是 root,明码是 root.2020。 应用 Docker compose 疾速体验具体能够参考这个文档。不举荐应用,除非你对 Docker compose 真的很熟! 装置前置依赖咱们更举荐二进制的形式来部署,后文都是以二进制的形式来阐明部署形式以及架构。夜莺依赖 mysql 存储用户配置类数据,依赖 redis 存储 jwt token 和机器心跳上报的 metadata,所以,先筹备 mysql 和 redis。这俩组件请大家自行装置,这里也提供一个小脚原本装置这两个组件,大家能够参考: # install mysqlyum -y install mariadb*systemctl enable mariadbsystemctl restart mariadbmysql -e "SET PASSWORD FOR 'root'@'localhost' = PASSWORD('1234');"# install redisyum install -y redissystemctl enable redissystemctl restart redis上例中 mysql 的 root 明码设置为了 1234,倡议维持这个不变,后续就省去了批改配置文件的麻烦。如果你想批改默认用户名和明码,就要对应的批改配置文件中的 mysql 连贯信息,配置文件的哪个中央配置了 mysql 的明码呢?通过上面的命令能够找到: ...

May 18, 2023 · 3 min · jiezi

关于运维:直播预告-博睿学院智能告警与AIOps融合探索

传统告警在运维可观测畛域面临一系列挑战,从指标检测与根因定位等角度来看如:故障问题难以预测、一般收敛成果难尽人意、难以发现事件之间的时域关系、根因定位过程繁琐、问题影响范畴难以确定等。 面对上述挑战,本期课程从AI检测预测、AI收敛、AI根因剖析三个方面登程,为大家详解智能告警与AIOps交融实际。 本期讲师焦帅婷博睿数据 Alert研发负责人业务特长:告警、可观测性、数据可视化工作经验:博睿数据ITOM产品核心、数智产品核心本期主题:智能告警与AIOps交融摸索 扫描海报下方二维码或点击“浏览原文”预约观看,课件将于直播后发送至您的邮箱。

May 16, 2023 · 1 min · jiezi

关于运维:玩转Zabbix智能告警降噪排班认领升级IM协同

Zabbix作为一款风行的企业级监控工具,能够监控各种网络设备和服务的状态,并提供弱小的告警性能,可能在出现异常状况时及时告诉管理员。以下是Zabbix的一些特点: 反对多种监控形式,包含SNMP、JMX、IPMI等,能够监控各种网络设备、服务器、虚拟化平台等;提供了丰盛的监控项和模板,能够轻松地监控各种指标,如CPU、内存、磁盘、网络等;提供了灵便的告警形式,能够通过邮件、短信、电话等形式告诉管理员,并且能够依据不同的告警级别设置不同的告诉形式。只管Zabbix在监控和告警方面十分弱小,但在解决告警事件方面仍有不足之处: 不足告警降噪和克制风暴的能力;没有提供oncall值班调度的能力;没有提供IM工具内闭环解决告警的能力;告警协同解决能力单薄,没有数据积淀和剖析。不仅仅是Zabbix,很多告警零碎存在相似的问题,而FlashDuty正是为了解决这些问题而存在: 提供丰盛的集成起源,反对接管Zabbix等告警事件,在一个平台解决公司内所有告警;提供灵便的告警降噪、聚合、静默、克制、收敛能力,防止告警风暴,不错过任何敏感信息;提供弱小的值班能力,反对各种排班场景,告警仅告诉对的人;买通飞书、钉钉和企业微信,真正做到在IM外部随时随地解决告警;提供欠缺告警协同、故障协同能力,反对常识积淀和要害指标剖析。疾速接入Zabbix告警FlashDuty反对接入Zabbix 3.x~6.x 所有版本的告警事件。不同版本接入形式略有不同: 3.x~4.x版本:反对Script形式接入5.x~6.x版本:反对Webhook形式以及脚本形式接入Webhook接入形式(3步,详情参照文档,本文仅简述): 下载并导入FlashDuty定制的Media Type,配置好URL等信息关联FlashDuty Media Type到一个User创立Action,配置触发、复原与更新Operations通过FlashDuty Media Type发送信息到UserScript接入形式(4步,详情参照文档,本文仅简述): 创立Script类型的Media Type,配置好Parameters登录 Zabbix server 所在服务器,切换到脚本目录,下载并导入FlashDuty定制的推送脚本关联FlashDuty Media Type到一个User创立Action,配置触发、复原与更新Operations通过FlashDuty Media Type发送信息到User。留神批改Default Message配置,FlashDuty将解析Message中加密的信息,来取得更丰盛的告警详情Zabbix告警详情: FlashDuty提取Zabbix告警详情中的局部信息作为标签 2.多条相干的原始告警信息将被合并到一条告警中,能够在关联事件中回溯 设定灵便的触达策略FlashDuty告诉策略非常灵活,能够针对不同场景设定不同的告诉策略: 反对依照工夫和条件来过滤事件,并发送到不同的人群;反对设置聚合发送窗口,如果在期待期内告警主动复原或被人工解决,则不会发送该条告警;反对单聊群聊告诉形式,以及多样的告诉渠道。举荐以IM形式进行告诉;反对告警在不同人群中降级; 反对自定义告诉模板渲染(Golang模板语法及上百种罕用函数),配合预览调试能力; 反对告警静默、告警克制,提前设定策略,缩小不必要的告警告诉。 设置专属值班日历反对日常值班、节假日值班、长期调班等值班场景,反对自定义值班角色等高级选项,可灵便扩大。 自定义值班角色为高级性能,须要分割咱们开明在IM内外解决告警全面买通飞书、钉钉和企业微信,反对在聊天页面间接解决告警,操作状态将在多端同步,真正做到随时随地解决告警 首次登录即实现账户关联,后续免登录提供要害性能按钮,能够间接在卡片音讯上操作解决进度实时同步卡片,全员可见以下别离为在飞书、钉钉和企业微信iOS客户端内解决告警过程: 查看告警治理趋势剖析反对统计要害的告警治理指标: 反对告警、故障的MTTx指标按多维度统计;反对告警、故障等数量统计;反对TopK告警策略和告警对象发现。 最初总的来说,FlashDuty能够补救Zabbix等监控零碎在告警降噪、值班调度、告警协同解决等方面的有余。它反对多种告警起源,灵便的告警降噪和静默性能,弱小的值班能力,以及欠缺的告警协同、故障解决、趋势剖析能力。 如果您正在寻找一款更好的告警解决零碎,那么FlashDuty值得一试。当初点击链接实现注册,主动取得专业版14天试用机会!

May 16, 2023 · 1 min · jiezi

关于运维:Grafana系列统一展示12RED-Method-Dashboard

系列文章Grafana 系列文章概述目前对于监控指标, 支流的有 3 个办法(Method): RED : Rate(拜访速率), Errors(谬误), Duration(响应时长) - 由 @tom_wilkie 引入USE : Utilization(利用率), Saturation(饱和度), and Errors(谬误) - 由 @brendangregg 引入Four Golden Signals:Latency (响应提早, 和 Duration 相似), Traffic (对你的零碎有多大的需要, 和 Rate 相似), Errors, Saturation. 基本上就是 RED + Saturation.倡议同时应用 RED 和 USE Method, 其中: RED Method 关怀你的用户以及他们有多高兴而 USE Method 则是关怀你的机器以及它们有多高兴典型 RED Method 监控指标如果是通过 Prometheus 监控实现, 那么典型的指标示例如下: Rate: sum(rate(request_duration_seconds_count{job="…"}[1m]))Errors: sum(rate(request_duration_seconds_count{job="…", status_code!~"2.."}[1m]))Duration: histogram_quantile(0.99, sum(rate(request_duration_seconds_bucket{job="…"}[1m])) by (le))在这里, Duration 举荐应用 50th/90th/99th percentile, 这些会更准确地反映用户真正关怀的问题, 同时能够联合 Average Duration 来作为参考. ...

May 16, 2023 · 2 min · jiezi

关于运维:可观测性三支柱远不止此

日志,指标和分布式链路追踪这三个可观测性的传统支柱,曾经是过期的,过于关注数据采集和底层数据格式,而不去关注后果(咱们建设可观测性的初心和指标),这个做法切实是滑天下之大稽。by Martin MaoGartner 把“可观测性”定义为“监控”的微小变革,可观测性提供了数字化业务利用、翻新速度、客户体验晋升方面的洞察能力。现在,DevOps 静止和云原生架构使得企业数字化业务变得更具竞争力,这须要更牛逼的可观测性体系的反对。 在 DevOps 呈现之前,研发工程师很少须要思考如何运维他们构建的零碎。当初,研发工程师须要思考构建更易于观测的零碎。为了更好的了解可观测性对后果的影响,工程师应该思考以下三个关键问题: 1.当零碎出故障时,如何能力让我尽快收到告诉?是在用户/客户体验受损之前吗?2.如何能力简略、疾速地揪出故障点,圈定影响范畴?3.如何能力找到间接起因并疾速止损?无论应用什么采集办法和工具,可观测性体系最应该着重建设的,就是答复以上三个问题的能力。 可观测性不是什么现在,有很多人将可观测性定义为一组数据类型的汇合——即三个支柱:日志、指标和分布式链路追踪。对于落地可观测性而言,这种孤立的办法过于关注数据采集和底层数据格式,反而疏忽了最终后果(咱们建设可观测性的初心和指标)。 简略的采集零碎中这三种数据并不能保障有更好的后果。反而,很多公司发现:可观测性数据量和这些数据衍生的价值之间关联甚微,并非可观测性数据量越大产生的价值就越大。 可观测性的3个阶段咱们不是第一个对三支柱提出异议的人。像Charity Majors(可观测性具备多方面定义) 和Ben Sigelman(揭穿“可观测性的三支柱”神话) 所提出的大部分批评咱们也是认同的。咱们开发了一种落地可观测性的新办法,重视后果而非重视输出,代替可观测性的三支柱,咱们称之为“三阶段”办法。“三阶段”重点关注如何实现踊跃的可观测性后果,以及如何让团队一步一步达成可观测性指标。 日志,指标和分布式链路追踪这三个可观测性的传统支柱,曾经是过期的,过于关注数据采集和底层数据格式,而不去关注后果(咱们建设可观测性的初心和指标)。 每个阶段的重点都是为了尽快地升高对客户的影响或修复故障(即:止损)。止损是援救客户体验和复原服务 Service Level 的动作。在每个阶段,工程师都在寻找足够的信息来止损,即便他们尚未定位到根因。 译者注:做过 SRE 的兄弟必定分明,大部分状况下,『止损』只须要晓得间接起因就够了,不须要晓得根因,根因能够在复盘阶段再去梳理。举个例子,某个故障是变更引起的,变更自身就是间接起因,止损伎俩就是回滚,根本原因可能是这次变更引入的代码Bug,但具体是什么Bug在止损阶段不须要晓得。 第一阶段:定故障晓得故障正在产生,有时就能够止损了(不须要更多信息)。比方,你降级了某个服务,而后,这个服务告警了,想都不必想,回滚这个变更就是最快的止损伎俩,不须要先去确认故障影响面、故障根因。变更是万恶之源,生产事变有一大半都是变更引起的,当你在做变更的时候,时刻把握服务的健康状况就异样要害。 胜利的要害:疾速报警:缩短问题产生和发出通知之间的工夫。将告诉范畴限定在须要采取行动的团队内:从一开始就限定问题的范畴,并将其指派给相干的团队。进步降噪比:确保每一个警报都有对应的操作预案。自动化告警配置:自动化或模板化的告警配置能够帮忙工程师无需投入微小精力来实现简单配置就能够收到警报。工具和数据:告警指标(原生指标以及从日志和链路追踪生成的指标)第二阶段:定边界理解故障范畴有助于止损。例如,如果你确认只有一个实验组的客户影响,则敞开该试验个性可能就会解决问题。 为了帮忙工程师做故障定界,须要把告警疾速置于上下文环境中来剖析,理解有多少客户受影响、有多少零碎受影响,以及影响水平如何。好的可观测性零碎,以数据驱动工程师的排查过程,将焦点放在场景化数据上以诊断故障。 胜利的要害:上下文信息仪表盘:告警间接链到仪表盘,显示告警相干的原始数据,以及相干的上下文数据(译者注:只链到仪表盘其实不够,还应该链到相干的日志、trace、事件等)。多维度的数据分析:容许工程师依据不同的维度对数据进行剖析,以进一步放大问题范畴。充分利用现有埋点数据:假如每次都有完满的数据埋点是不可能的,所以充分利用既有的数据十分要害,但须要尽可能依照场景化的形式来串联数据。工具和数据:仪表盘指标日志第三阶段:定起因想要剖析问题的起因,就须要找到相干服务的 owner 一起配合,然而服务的依赖关系盘根错节,想要找到服务依赖链路上的所有 owner 并不容易。 好的可观测性实际,能够给工程师一个更直观的视角,揪出那些引起指标异样的罪魁祸首。另外,它也提供了修复底层问题的洞见,以防止事变再次发生。 胜利的要害:易于了解服务依赖拓扑关系:对于以后正在故障的服务,疾速圈定其上下游依赖。在不同的工具和数据之间串联跳转的能力:对于简单的故障,您须要在日志、链路、指标之间重复跳转,现实的状况是在一个繁多的工具中实现。确定根因的工夫:有时候无奈防止在故障期间做根因剖析,而在这些状况下,通过在告警告诉或仪表板上显示出可能的故障起因,能够缩小确定根因的工夫。工具和数据:链路追踪日志指标仪表盘论断优良的可观测性能够带来竞争劣势、世界一流的客户体验、更快的翻新和研发人员的幸福感。然而,仅仅关注于输出和数据(三支柱),组织是无奈做到优良的可观测性的。通过专一于本文提到的『三阶段』以及面向后果的形式,团队就无望落地优良的可观测性实际! 本文翻译自:https://thenewstack.io/beyond-the-3-pillars-of-observability/,国内来看,Martin Mao 的这个理念和快猫的理念一模一样,如果您也须要这类面向后果的旧式可观测性零碎,能够理解一下快猫的产品。

May 16, 2023 · 1 min · jiezi

关于运维:Grafana系列统一展示11Logs-Traces无缝跳转

系列文章Grafana 系列文章概述如前文 Grafana 系列 - 对立展现 -1- 开篇所述, Grafana 能够理解所有相干的数据--以及它们之间的关系--对于尽快根治事件和确定意外零碎行为的真正起源十分重要。Grafana 容许团队在一个中央对所有的数据进行无缝的可视化和跳转。 最典型的就是 Grafana Labs 的 LGTM 技术栈,包含: Loki(Logging)Grafana(可视化)Tempo(Tracing)Mimir(Metrics) 通过如下的技术细节,能够实现 Logging、Tracing、Metrics 的无缝可视化和跳转: Metrics -> Logs: 基于服务发现和对立 labelsLogs -> Metrics: 基于 LogQL 提取 Metric 指标Logs -> Traces: 基于衍生字段 (fields) 或自动化的日志Traces -> Logs: 基于 labelsTraces -> Metrics: 基于来自 spans 的 Metric 指标Metrics -> Traces: 基于 Prometheus 的 Exemplars.具体如下图: 即便没有采纳 Grafana Labs 的解决方案,也依然能实现肯定水平的无缝跳转。 如: Logging 应用 EFKTracing 应用 Jaeger如果日志中也包含 trace_id, Name 至多能够通过 trace_id, 实现 Logs -> Traces 的无缝跳转。 ...

May 16, 2023 · 1 min · jiezi

关于运维:eBPF动手实践系列二构建基于纯C语言的eBPF项目

千里之行,始于足下理解和把握纯c语言的eBPF编译和应用,有助于咱们加深对于eBPF技术原理的进一步把握,也有助于开发合乎本人业务需要的高性能的ebpf程序。上一篇文章《eBPF入手实际系列一:解构内核源码eBPF样例编译过程》中,咱们理解了基于内核源码的ebpf程序的编译步骤。其中编译过程对内核源码的依赖的内容,次要体现在对kernel-devel和kernel-headers两个rpm包的文件内容的依赖(centos环境下)。这给咱们脱离内核源码进行独立的ebpf程序编译提供了可能。本文将介绍如何仅依赖于kernel-devel和kernel-headers等rpm包进行纯c语言的eBPF程序的编译和应用。 eBPF开发的根底环境筹备支流的linux发行版大多是基于rpm包或deb包的包管理系统。不同的包管理系统,搭建eBPF开发环境时所依赖的包,也略有差异。本文将别离进行介绍。 2.1  rpm包根底环境初始化在centos、fedora和anolis等发行版环境,须要装置一些编译过程的根底包、编译工具包、库依赖包和头文件依赖包等。具体装置步骤如下: $ yum install git make rsync # 根底包$ yum install clang llvm elfutils-libelf-devel # 编译工具和依赖库包$ yum install kernel-headers-$(uname -r) kernel-devel-$(uname -r) # 头文件依赖包2.2  deb包根底环境初始化在ubuntu、debian等发行版环境,须要装置一些编译过程的根底包、编译工具包、库依赖包和头文件依赖包等。具体装置步骤如下: $ apt-get update # 更新apt源信息$ apt install git make rsync # 根底包 $ apt install clang llvm libelf-dev # 编译工具和依赖库包$ apt install linux-libc-dev linux-headers-$(uname -r) # 头文件依赖包构建基于纯C语言的eBPF我的项目3.1  纯C语言编译在eBPF根底环境的筹备实现之后,就能够开始进行纯C语言的eBPF我的项目的搭建。这里咱们依然抉择应用centos8u+4.18内核为例来阐明构建过程。首次构建我的项目环境还须要依赖一次内核源码。下载内核源码,咱们举荐应用阿里云的镜像网站。 $ wget https://mirrors.aliyun.com/linux-kernel/v4.x/linux-4.18.tar.gz$ tar -zxvf linux-4.18.tar.gz获取ebpf_purec_newbie git我的项目的代码。并且通过其中的initialize.sh脚本,初始化eBPF我的项目。initialize.sh脚本须要两个参数。 参数1用于指定内核源码的门路,参数2用于指定新初始化的ebpf我的项目的目录,参数2可省略,省略后将默认设置为 /tmp/ebpf_project。$ git clone https://github.com/alibaba/sreworks-ext.git -b master$ cd sreworks-ext/demos/ebpf_purec_newbie$ ./initialize.sh ~/linux-4.18 /tmp/ebpf_project初始化后,就能够进入到eBPF我的项目目录,执行make命令,对内核源码自带的eBPF样例程序trace_output进行编译。 ...

May 15, 2023 · 2 min · jiezi

关于运维:Grafana系列统一展示10Explore-Jaeger

系列文章Grafana 系列文章Explore Jaeger你能够通过Explore查问和显示 Jaeger 的 trace。有 3 种办法: Query by searchQuery by trace IDUpload a JSON trace fileQuery by search要应用该办法: 从 Query 类型选择器中抉择 Search。填写搜寻表格:(和 Jaeger UI 根本一样)NameDescriptionService返回 services 列表Operation当你抉择一个有相干操作的 service 时,会弹出。抉择 all 以查问所有操作。Tags设置具备logfmt格局值的标签,例如error=true db.statement="select * from User"。Min Duration过滤所有持续时间高于设定值的 traces。可能的值是1.2s, 100ms, 500us。Max Duration过滤所有持续时间低于设定值的 traces。可能的值是1.2s, 100ms, 500us。Limit限度返回的 traces 的数量。 Query by trace ID要查问一个特定的 trace: 抉择 TraceID 查问类型。在 Trace ID 字段中输出该 trace 的ID。 Upload a JSON trace fileJSON trace file 示例: { "data": [ { "traceID": "2ee9739529395e31", "spans": [ { "traceID": "2ee9739529395e31", "spanID": "2ee9739529395e31", "flags": 1, "operationName": "CAS", "references": [], "startTime": 1616095319593196, "duration": 1004, "tags": [ { "key": "sampler.type", "type": "string", "value": "const" } ], "logs": [], "processID": "p1", "warnings": null } ], "processes": { "p1": { "serviceName": "loki-all", "tags": [ { "key": "jaeger.version", "type": "string", "value": "Go-2.25.0" } ] } }, "warnings": null } ], "total": 0, "limit": 0, "offset": 0, "errors": null}是否有 Jaeger 的 Dashboard?目前(2023/5/8)在 Grafana Dashboards registry, 还没有 Trace 相干的 Dashboard, Grafana Tempo 没有, Jaeger 也没有. ...

May 15, 2023 · 1 min · jiezi

关于运维:Grafana系列统一展示9Jaeger数据源

系列文章Grafana 系列文章配置 Jaeger data sourceGrafana内置了对Jaeger的反对,它提供了开源的端到端分布式跟踪。本文解释了针对Jaeger数据源的配置和查问。 要害的配置如下: URL: Jaeger 实例的 URL, 如: http://localhost:16686 或 http://localhost:16686/trace/Enable Node Graph: ✔️. 一旦启用,Grafana会在 trace 视图上方显示 Node Graph (链路拓扑图)。Span barSpan bar 设置帮忙你在 span 行中显示额定的信息。 你能够从三个选项中抉择一个: NameDescriptionNone啥都不加.Duration(默认) 在Span 行上显示 span 持续时间。Tag在 span 行上显示 span tag。你还必须指定应用哪个标签键来获取标签值,如span.kind。Trace to logsNotes: Trace to logs 性能只反对局部日志解决方案Grafana Loki 和 Splunk 是反对的, ElasticSearch 是不反对的. Trace to logs 设置配置了 traces 到 logs 的性能,当你将 Grafana 与 Jaeger 整合时,该性能是可用的。 有两种办法能够配置 trace 到 logs 的性能: 应用带有默认查问的简化配置,或配置一个自定义查问,你能够应用模板语言从 trace 或 span 中插入变量。应用简化配置抉择指标数据源。设置开始和完结工夫的偏移。因为日志的工夫戳可能与 trace 中的 span 的工夫戳不齐全匹配,可能须要在更大的或移位的工夫范畴内搜寻以找到所需的日志。抉择要在日志查问中应用的标签。你配置的标签必须存在于 span 属性或资源中,能力呈现 trace 到 logs span 链接。你能够抉择为标签配置一个新的名字。如果标签的名称中有圆点,而指标数据源不容许标签中有圆点,这就很有用(如上图)。在这种状况下,你能够,比如说,把http.status改成http_status。如果你的日志始终蕴含 trace ID 或 span ID,能够抉择关上 Filter by trace ID 和/或 Filter by span ID 的设置来进一步过滤日志。应用自定义 Query抉择指标数据源。设置开始和完结工夫的偏移。因为日志的工夫戳可能与 trace 中的 span 的工夫戳不齐全匹配,你可能须要扩充或偏移工夫范畴以找到所需的日志。可选地,抉择要映射的标签。这些标签能够用 ${__tags} 变量在自定义查问中应用。这个变量将以适当的语法为数据源插值映射的标签,并只包含 span 中存在的标签,省略那些不存在的标签。您能够抉择为标签配置一个新的名称。这在标签的名称中有圆点而指标数据源不容许标签中有圆点的状况下很有用。例如,你能够将 http.status 从新映射为 http_status。如果你不在这里映射任何标签,你依然能够在查问中应用任何标签,比方method="${__span.tags.method}"。跳过 Filter by trace ID 和 Filter by span ID 设置,因为它们不能用于自定义查问。开启 Use custom query。指定一个用于查问日志的自定义查问。你能够应用各种变量来使该查问与以后 span 相干。只有当所有的变量都以非空值插值时,该链接才会呈现,以避免创立一个有效的查问。能够在自定义查问中应用的 Variables要应用一个变量,你须要用${}来包裹它。例如:${__span.name}。 ...

May 14, 2023 · 2 min · jiezi

关于运维:Grafana系列统一展示8ElasticSearch日志快速搜索仪表板

系列文章Grafana 系列文章概述咱们是基于这篇文章: Grafana 系列文章(十二):如何应用 Loki 创立一个用于搜寻日志的 Grafana 仪表板, 创立一个相似的, 然而基于 ElasticSearch 的日志疾速搜寻仪表板. 最终残缺成果如下: Notes: 其实我基于 ElasticSearch 做了2个仪表板 用于检索 Applog 的用于检索 accesslog 的在上面的解说中会综合2个仪表板来进行阐明. 这次不会讲述具体细节, 只抉择局部关键点进行阐明. 常识储备创立 Query应用自定义的JSON字符串编写查问,field 在Elasticsearch索引映射中被映射为一个 keyword。 如果查问是 multi-field 的 text 和 keyword 类型,应用 "field": "fieldname.keyword"(有时是fieldname.raw)来指定你查问中的关键字字段。 QueryQueryDescription{"find": "fields", "type": "keyword"}返回一个索引类型为keyword 的字段名列表。{"find": "terms", "field": "hostname.keyword", "size": 1000}应用 terms 聚合返回一个 keyword 的值列表。查问将应用以后仪表板的工夫范畴作为工夫范畴查问。{"find": "terms", "field": "hostname", "query": '<Lucene query>'}应用terms 聚合和指定的Lucene查问过滤器,返回一个keyword field 的值列表。查问将应用以后仪表板的工夫范畴作为查问的工夫范畴。terms 的查问默认有500个后果的限度。要设置一个自定义的限度,须要在你的查问中设置size属性。 Variable 语法面板题目和 metric 查问能够应用多种不同的语法来援用变量: $varname, 这种语法很容易浏览,但它不容许你在词的两头应用变量。例如:apps.frontend.$server.requests.count${var_name}, 当你想在表达式的两头插值一个变量时,请应用这种语法。${var_name:<format>} 这种格局让你对Grafana如何插值有更多管制。[[varname]] 不倡议应用。废除的旧语法,将在将来的版本中删除。高级变量格局选项变量插值的格局取决于数据源,但在有些状况下,你可能想扭转默认的格局。 ...

May 13, 2023 · 4 min · jiezi

关于运维:Grafana系列统一展示7ElasticSearch数据源

系列文章Grafana 系列文章ElasticSearch 数据源Grafana内置了对Elasticsearch的反对。你能够进行多种类型的查问,以可视化存储在Elasticsearch中的日志或指标,并应用存储在Elasticsearch中的日志事件对图表进行正文。 配置 ES 数据源要害的几项配置如下: URL: 设置你的Elasticsearch服务器的HTTP协定、IP和端口。如: http://192.168.2.1:9200索引配置 应用索引设置来指定工夫字段的默认值和你的Elasticsearch索引的名称。你能够应用一个工夫模式,比方YYYY.MM.DD,或者一个通配符作为索引名称。示例如下: Index name: [applog.*-]YYYY.MM.DDPattern: DailyTime field name: @timestamp 日志配置你能够抉择配置两个Logs参数: Message field nameLevel field name以确定在Explore中可视化日志时,数据源对日志信息和日志级别应用哪些字段。 例如,如果你应用Filebeat的默认设置来发送日志到Elasticsearch,那么设置: Message field name: messageLevel field name: fields.level依据本人理论状况做配置, 如: Message: _sourceLevel: levelData links数据链接从一个指定的字段创立一个链接,能够在 Explore 的日志视图中拜访。 每个数据链接的配置包含: ParameterDescriptionField设置数据链接应用的字段名称。URL/query如果链接是内部的,设置残缺的链接URL。如果链接是外部的,这个输出将作为指标数据源的查问。在这两种状况下,你能够用${__value.raw }宏从字段中插值。URL Label(可选)为链接设置一个自定义的显示标签。链接标签默认为残缺的内部URL或链接的外部数据源的名称,并被此设置所笼罩。Internal link设置链接是外部还是内部。对于外部链接,你能够用数据源选择器来抉择指标数据源。这只反对追踪数据源。这个 Data Links 比拟在这里比拟常见的配置是从 ES 的 Logs 通过 trace_id 跳转到 Traces.后续会具体介绍. 示例 ES 数据源配置最终 ES 数据源配置示例如下: EOF 三人行, 必有我师; 常识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

May 12, 2023 · 1 min · jiezi

关于运维:聊点技术-自适应AI让Bonree-ONE更智能

4月21日,博睿数据ONE有引力2023秋季产品发布会圆满闭幕,Bonree ONE 2023秋季正式版正式公布,带来更轻、更强、更智能的一体化智能可观测平台。 自适应AI,让Bonree ONE更智能本文作者博睿数据AI产品经理 马倩全文共1835字,浏览大概需10分钟。 在企业业务最前沿的终端用户侧,实时监控端上利用产生的海量级业务申请、CDN申请、第三方申请,即时发现从端上利用到后盾服务之间的响应迟缓、DNS解析失败、TCP建连失败、HTTP404等性能问题,并依据理论数据迅速甄别其问题本源是运营商网络抖动等外部环境起因,还是本身后盾服务异样等外部起因,从而无效升高问题定位工夫,缩短整体排障修复周期,无力保障业务服务达到SLA要求的延时、可用性等规范,帮忙企业建设更灵活、更精准、更智能的运维工作体系。 平台采集各状态数据进入数据中台,通过汇聚、落盘、加工,裸露 API 提供给下层 AI 中台和产品应用,AI 中台利用开箱即用算法和 DIY 算法赋能运维产品,达成98%+的智能告警收敛率,同时自适应AI零碎应用实时反馈动静学习和调整,随客户需要利用到各业务场景中。 告警收敛 - 98%+的智能告警收敛率在实现数据接入、标准化之后,将主动开启事件降噪,把多源数据归流于具备雷同数据特色集的告警中。通过对海量芜杂事件降噪成告警,辨认出告警与告警之间的关联性,自定义创立相应的收敛规定,依据相应的收敛规定以及智能AI时序收敛规定,进一步将告警收敛成故障。最终实现对海量异样事件的归并解决,造成故障,防止告警风暴,已达成98%+的智能告警收敛率,极大水平升高整体运维老本。 用户价值1.解决告警风暴:面对简单简约的告警信息,能够自定义创立多个告警收敛规定,通过收敛规定,压缩告警,生成故障,防止告警风暴。2.告警漏报:在传统运维体系中,往往采纳固定阈值的检测形式进行告警,无奈主动适应数据特色变动,导致告警误报、漏报。 Bonree ONE提供智能异样检测的能力,通过智能化的算法,生成指标的动静基线,自适应数据特色变动,同时提供告警标签收敛、AI收敛,缩小告警的漏报率。 难点:如何精确收敛? 在数据接入后,面对海量芜杂事件,通过引入自研的AI算法,灵便的告警策略设置,实现对告警指标的多维度异样断定,及时、精确的发现监控对象、业务等的异样,曾经很大水平上压缩告警,并缩小告警的漏报。那么在此基础上,咱们如何更精确收敛? 思考告警收敛有3种形式:根因收敛、标签收敛、AI收敛(包含类似收敛、时域收敛)。1、根因收敛:根因收敛中,咱们认为雷同根因的应该收敛到一块,收敛的实质是相关性剖析。当有一个新的问题事件生成时,开始创立问题树,同时在拓扑关系中定位到此问题事件所属的实体关系,再有新的问题事件进入时,依据以上规定判断,合乎根因收敛相关性即可收敛到此问题树中。如下图:2、标签收敛:对标签进行雷同、AI类似筛选,如果切换为“雷同”,依据雷同标签收敛告警 ;如果切换为“AI类似”,须要在右侧输入框内仅反对输出0-100的整数。占位符提醒:请输出0-100的整数,当类似度高于以后设置百分比时,则进行收敛。如下图:3、AI收敛(类似收敛、时域收敛)类似收敛:分词类似度达到肯定值(可配置),收敛为一个问题。时域收敛:工夫的相关性(工夫上的相交和蕴含关系),且事件相干字段有重合。以上3种办法,咱们倡议优先应用根因收敛。根因收敛不仅提供了AI算法策略,还能够通过根因定位还原问题产生的详细信息,全面详尽的现场还原,是进步故障解决效率的要害。 根因剖析 -自适应AI落地实际之根因深度剖析基于故障产生的工夫、故障类型和故障主体,通过服务、利用和动态拓扑及调用链关系数据,搜寻并定位到故障源或者故障传递链的根节点,故障源往往是具体的物理(虚构)主机、服务及根底性能,如cpu、内存、网络、磁盘等。自适应AI零碎应用实时反馈动静学习和调整,针对一直变动的环境做出响应,一直增加训练数据造成训练模型,并造成通用化的场景业务反对以及个性化性能定制,将根因深度剖析全面落地实际。 用户价值1.晋升排障效率:Bonree ONE能够主动计算出故障相干的影响范畴,主动关联出相干的指标、日志、调用链、事件、用户会话、业务等。当用户发现某一指标异样或某一笔业务调用链路异样时,能够进一步追踪细查相干的记录明细从而定位问题,晋升排障效率。2.现场还原,赋能复盘:通过根因剖析定位到故障后,可查看故障回放,现场还原故障产生的信息,赋能复盘。全面详尽的现场还原,是进步故障解决效率的要害。 难点如何晋升根因定位准确性?晋升根因定位准确性要从算法准确性晋升及多维分析登程,通过调参、分类等晋升准确度,丰盛算法逻辑,多维分析不同类别问题的可能根因。 思考1.吞吐类问题,均匀每分钟的总申请次数,越凑近入口的,越有可能是根因。2.迟缓、谬误类问题,深度越深,越是根因。找到实体入口后,依据层级判断,同时工夫产生越早的越有可能是根因。3.刹时事件(重启、熔断、配置变更)相比拟于继续事件,是根因的概率更大,因而要思考刹时事件的可能性排序大于继续事件。根因定位的具体规定如下:ONE平台提供根因问题回放,现场还原问题产生的信息,如下图: 深度剖析深度剖析是在根因剖析的根底上进一步拆解下探,从而间接给出可口头的具体起因。 对根因后果进一步做多维度剖析,依据问题类别找出引发问题的部分维度。在部分的维度根底上进一步下探,找出理论引发问题的代码、事件(如:探针熔断、配置更改等)的具体信息。

May 11, 2023 · 1 min · jiezi

关于运维:怎么样才能通过阿里云考试学习时间长不长

考据书给本人背书是当初很多行业的人都会做的事,而对于从事信息通信行业的人来说,阿里云的认证是十分具备含金量的,通过零碎的培训,晋升考生的专业技能,让考生在公司内有更多的竞争力。对于考生的具体内容,上面小编以最热门的云计算为例,简略介绍一下,有须要的能够在认证大使上具体征询。 阿里云的考试分为三个等级,然而大多数的认证就只有两个等级,甚至是一个等级,只有云计算方向,领有三个等级,每个等级的费用、考试形式、难易水平都不雷同。 阿里云ACA认证 1、认证概述 阿里云云计算助理工程师ACA认证(Alibaba Cloud Certified Associate - Cloud Computing)是面向应用阿里云根底产品的业余技术认证,次要波及阿里云的计算、存储、网络、安全类的外围产品,是对学员把握阿里云次要产品技术技能程度的全面测验和能力认证, 次要面向学生群体及开发者,也能够做为运维人员的入门证书。 2、考试内容 云计算根底 弹性计算 云容器 云存储 云数据库 云网络 云平安 3、考试模式 线上考口试 阿里云ACP认证 1、认证概述 阿里云云计算高级工程师ACP认证(Alibaba Cloud Certified Professional - Cloud Computing)是面向应用阿里云云计算产品的架构、开发、运维类人员的业余技术认证,次要考核考生利用阿里云云计算技术服务体系设计稳固、平安、高性能、易扩大、低成本的企业云计算架构的能力。 2、考试内容 云服务器 ECS弹性伸缩(Auto Scaling) 负载平衡 SLB 专有网络 VPC 对象存储 OSS 内容散发网络 CDN平安(云盾、云平安) 云计算通用常识 3、考试模式 线上考试验,线下考口试 阿里云ACE认证 1、认证概述 阿里云云计算架构师ACE认证(Alibaba Cloud Certified Expert - Cloud Computing)是针对云架构师,解决方案架构师,云运维专家等技术人员的阿里云高级别技术认证。通过该技术认证能够无效证实该认证人员具备丰盛的需要剖析能力,云架构设计能力,云架构部署施行能力,云架构诊断和调优能力,洞察业务痛点,制订无效的技术改良计划,最大限度地进步零碎架构可扩展性,安全性,可靠性,耐用性和老本效益等个性。 2、考试内容 私有云-平安-基础设施、业务&数据 私有云-存储 私有云-计算 私有云-架构 私有云-数据库 私有云-网络、组网 私有云-原生-容器、微服务&中间件 混合云 3、考试模式 口试、试验、面试皆在线下进行

May 11, 2023 · 1 min · jiezi

关于运维:Grafana系列统一展示6Zabbix仪表板

系列文章Grafana 系列文章Notes: 对于 Grafana系列-对立展现-6-Zabbix 数据源, 其实曾经在之前的文章: 应用 Grafana 对立监控展现 - 对接 Zabbix 里具体介绍过了, 感兴趣的请移步浏览. 常识储备一个图表上的多个 Items咱们能够在 metric 字段内应用正则表达式来建设有大量 items 的图表。Grafana应用JavaScript正则表达式实现。例如,如果你须要显示CPU工夫(user、system、iowait等),你能够在Item字段中应用这个regex创立图表: /CPU (?!idle).* time/ 另一种应用regex的状况是比拟不同主机的雷同指标。应用/.*/ regex来显示所有的指标或编写你本人的过滤器。例如,我想显示所有主机组中名称以backend 结尾的主机的CPU零碎工夫。我应用/.*/示意 Group,/^backend/示意 Host,CPU system time 示意 Item。 Template Variable你能够应用模板变量来创立高度可重用和互动的仪表盘。模板化的总体思路是容许Grafana从数据源获取不同的指标,并提供一种无需批改仪表盘就能即时扭转的办法。对于Zabbix来说,这意味着你能够取得主机组、主机、应用程序或我的项目的列表,并将其作为一个变量增加。 创立变量Type: 默认状况下,Query 类型被选中。这意味着Grafana会向数据源询问变量的值。但也有一些其余类型:Interval(只是一个工夫距离),Data source(你能够切换数据源,例如,如果你有一个以上的Zabbix实例,并且每个实例都作为数据源增加到Grafana中),Custom(你能够为变量设置任何预约义的值)和Constant。 Query 格局Zabbix数据源中的模板变量查问是一个字符串,蕴含4个用大括号({})包裹的局部。 {host group}{host}{application}{item name}如: {Zabbix servers}{Zabbix server}{CPU}{*}{Frontend}{web01.mydomain.com}{*}{*}每个局部都能够是对应 metric 的名称或*(示意所有 metric)。 示例: {*} 返回所有可用的主机组的列表{*}{*} Zabbix 中的所有主机{Network}{*} 返回 group: Network 中的所有主机{Linux servers}{*}{*} 返回Linux server group 中主机的所有应用程序{Linux Servers}{backend01}{CPU}{*} 返回backend01中属于CPU利用的所有 items。你能够应用另一个变量作为查问的一部分。例如,你有一个变量group,它返回主机组的列表,想用它来查问所选组的主机。上面是这种状况下的查问: {$group}{*}Variables 用法当你创立一个变量时,你能够把它作为数据源查问的一部分。Grafana也反对在不同的中央应用变量,如面板和 row 的题目、文本面板的内容等。 ...

May 11, 2023 · 2 min · jiezi

关于运维:用户分享-Dockquery一个国产数据库客户端的初体验

DockQuery ,「天狼」也,中原外乡狼种。天狼年纪很小,不满一岁,但它有一个平凡的幻想——建造一座能包容中原群狼的宫殿!它不想再被异域狼欺侮,不想被异域狼群挤占生存空间,它想带着外乡的弟兄们杀出一条路,即便这条路很难,很难。一个阳光明媚的午后,天狼停下了奔走的脚步,想小小歇息。那天当前,它的音讯越来越少,但人们晓得,天狼不会来到。那天当前,江湖上流传着 DockQuery 的传说......看了小故事有没有想起 DockQuery 前几天收到一位用户私信,信中分享了她对 DockQuery 的应用体验。秉着“好文共赏”的准则,咱们连夜编辑排版,为大家带来最陈腐的观点和最实在的反馈DockQuery 又称「天狼」,是一款专为国产数据库治理而设计的客户端,快来看看用户眼里的它 !偶尔发现一款用起来还不错的数据库客户端 DockQuery。鉴于自己常常应用 opengauss,DM 等国产数据库,连接起来比拟吃力,得装两个甚至多个客户端,占内存不说,而且还麻烦。一次偶尔的机会进入了一个社区发现有一款次要以国产数据库为主的客户端,按捺不住我好奇尝鲜的心,立马下载安装一步到位,当初基于体验感还不错,写个初步体验记录一下,顺便也给感兴趣的同学做个参考。01  下载安装 下载网址:https://dockquery.com/我集体是对 opengauss,海量,达梦进行了操作,成果还能够。在这里插一嘴,这个软件是免装置的,下载即可应用,不必放心会带来流氓软件。目前他们反对 Windows、Linux和mac 三个操作系统,我在 windows 上下载解压后就能够立刻应用了。然而看社区里有人在 linux 上用有点问题,官网解答是要给 jre 执行权限,简略操作一下也能用了。 02客户端性能体验 接下来唠唠 Dockquery 的性能体验:1、创立链接啥的都是惯例操作,不过有一点让我用起来比拟难受的是 DockQuery 的连贯一旦创立就会保留在本地,下载新包,或者从新关上客户端,只有你的连贯不删除都是存在的。之前在 DM 客户端上每次要我从新连贯真是有些头大。 2、截断表,清空表,对于我上万条的数据,一键干掉,很是不便 3、在设计表外面,外键的性能实现得特地好,做到了删除形式,更新形式的联级更新,实现了外键的性能,在我之前用到的某些客户端中,这个性能是没有的。 ' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) 4、DockQuery 还能同时反对函数和存储过程创立,之前我用 Navicat 连贯 PG 去创立存储过程,后果它不反对存储过程的创立,我存储过程的语句执行胜利后,将我的存储过程强制转换为了函数,所以在这一点上深得我意。 5、导入导出省时省力,是异步实现,在导大数据文件的同时能够干别的,互相不影响,缩小工夫的耗费,而且导出反对多种格局,包含 DDL、SQL、Excel 以及 CSV。6、关上表,能够看到数据的类型,还能进行排序,当我在可操作后果集中手动插入数据时,齐全不放心会因为输出的类型导致出错,同时像 time,date 类型,还有插件能够间接抉择对应的工夫日期。 7、SQL 编辑器里的执行打算,以及大小写转换,字体字号变大,SQL 丑化,语句折叠以及事务等,用起来也还挺棘手。 执行历史,可复制可革除,点击即可呈现在 SQL 编辑器的页面,缩小复制粘贴,缩小了误关 SQL 编辑器,不晓得本人具体执行了什么的问题,而且一键就来到 SQL 编辑器,这个点我很须要。 ' fill='%23FFFFFF'%3E%3Crect x='249' y='126' width='1' height='1'%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E) 8、日志信息能够革除,对于大量的 SQL 语句之后之后,或者想要一个空白的控制台,日志信息之间互相独立不杂糅。 以上是初步体验下来我感觉 DockQuery 这个工具算是亮点的中央,当然作为一个新上线的数据库客户端工具,他必定也还存在很多有余的中央。以下也列举几点: 1、首先就是数据源的反对状况,目前 DockQuery 只反对 opengauss、海量和达梦三种数据源类型,这可能跟他们主打国产和信创反对的理念有关系,但对于日常应用 oracle 这种惯例数据库多的同学这工具临时是用不上的。 ...

May 11, 2023 · 1 min · jiezi

关于运维:Grafana-系列统一展示5AWS-Cloudwatch-仪表板

系列文章Grafana 系列文章️强烈推荐强烈推荐应用 GitHub 上的 monitoringartist/grafana-aws-cloudwatch-dashboards 仪表板。该 repo 有一系列 AWS 资源的仪表板,包含但不限于: EC2EBSAPI GWAutoscalingBillingEKSLambdaLogsRDSS3...并且质量上乘,设计非常精良。 本文以其 AWS EC2 Dashboard (ID: 617) 为例阐明。 Notes:前提是你的 IAM Role 或 User 有对应的权限,即 上文 提到的:"ec2:DescribeTags", "ec2:DescribeInstances", "ec2:DescribeRegions" 和 "tag:GetResources" 的相干 Policy.否则会呈现相似 Error updating options: Query data error 这样的报错。相比 AWS Cloudwatch 数据源自带的仪表板,该仪表板优良的中央在于应用了 ec2_instance_attribute 来查问获取变量。具体如下章介绍。 变量RegionAWS 最罕用的变量:region. Name: regionType: QueryQuery: regions()成果如下: ec2_instance_attribute 相干变量通过 ec2_instance_attribute 的查问,咱们能够获取到更具备实际意义的 EC2 分组和 hostname, 而不是自带仪表板的一长串的非人记忆的 i-xxxxxxxx EC2 id. 包含: instancenameName: instancenameType: QueryQuery: ec2_instance_attribute($region, Tags.Name, {})Custom all value: *如果须要复用 instancename, 能够通过如下形式复用: ...

May 10, 2023 · 1 min · jiezi

关于运维:别再让你的工程师用-Navicat-连数据库了

Navicat 是一款历史悠久的图形化数据库客户端。其第一个版本推出于 2001 年,从一开始反对 MySQL,起初又陆续反对了 MariaDB, MongoDB, Oracle, SQLite, PostgreSQL 以及 Microsoft SQL Server。Navicat 能够同时在 Windows, Mac 还有 Linux 上运行,但从界面能够看出,Navicat 采纳的是桌面端技术开发的,而不是当下更支流的 Web 端技术。 通过 20 多年的积攒,单就操作数据库而言,Navicat 的产品能力属于其中的佼佼者。尽管它的界面有些古老,然而功能齐全,整体操作体验晦涩 ,所以在用户中有相当不错的口碑。但作为一款纯客户端单机桌面软件,Navicat 也有本身的局限性。 Navicat 的问题须要散发数据库用户名明码作为一款客户端软件,Navicat 要拜访数据库进行操作,就须要晓得数据库的用户名、明码。研发应用 Navicat,DBA 就得把数据库用户名、明码给到他们。这样导致了数据库拜访操作权限散落在各处,对于企业的数据安全和数据库稳定性都是微小的隐患。 没有精细化的数据访问控制既然数据库明码都间接交进去了,就天然也不会有更加精细化的访问控制,比方能够拜访一个实例下某几个数据库,但禁止拜访其余的数据库。 无奈做数据脱敏同样也是因为数据库明码都间接交进去,所有数据都能看到。要么就是齐全不给数据库明码,不让用户拜访数据,但那样往往又不可行。 短少审计日志 Audit Log同样因为是客户端软件,DBA 无奈晓得谁干了什么(如果 DBA 给每一个用户调配独自的数据库用户名、明码,通过数据库引擎的日志还是能够看到的,但事实中数据库账号通常都是共享的)。 短少流程化的变更流程应用 Navicat 做数据库变更是很不便,在它的 SQL 编辑器里写一条 UPDATE, ALTER TABLE 提交。但快有快的问题,要是连错数据库,或者敲错 SQL 语句 (比方变更忘加 WHERE),就会带来灾难性结果。 盗版泛滥Navicat 价格不便宜,绝对全面的 Premium 版本,一个证书 1 年的订阅费是 5999 RMB,永恒许可是 11999 RMB。 即便是一个精简版的永恒证书,售价也要 2899 RMB。 ...

May 10, 2023 · 1 min · jiezi

关于运维:直播预告-博睿学院全面升级自适应AIOps

随着云、微服务、容器等技术的遍及,应用程序体系结构变得更加模块化、分布式化和动态化,企业实现数据管理的难度越来越大。 面对上述窘境,AIOps如何助力企业破局?博睿数据历时一年精心打磨,公布国内首个一体化智能可观测平台Bonree ONE 2023秋季正式版,根因剖析能力首家取得信通院优良级认证……荣誉的背地离不开博睿数据AI团队的倾力付出,明天咱们有幸邀请到博睿数据可观测畛域的AI天团为大家出品博睿学院外围课程。 本期讲师 李骅宸数智能力核心研发负责人业务特长:AIOps、大数据、可观测性、云计算标准化工作经验:《云计算智能化运维(AIOps)能力成熟度模型》、《中国AIOps现状调查报告》本期主题:全面降级自适应AIOps 扫描海报下方二维码预约观看,课件将于直播后发送至您的邮箱。

May 9, 2023 · 1 min · jiezi

关于运维:Grafana-系列统一展示4AWS-Cloudwatch-数据源

系列文章Grafana 系列文章AWS Cloudwatch 数据源对于 AWS Cloudwatch, 次要在于 3 种不同的认证形式: AWS SDK DefaultIAM RoleAK&SKCredentials file当初举荐的是应用 IAM Role 的认证形式,防止了密钥泄露的危险。 然而特地要留神的是,要读取 CloudWatch 指标和 EC2 标签 (tags)、实例、区域和告警,你必须通过 IAM 授予 Grafana 权限。你能够将这些权限附加到你在 AWS 认证中配置的 IAM role 或 IAM 用户。 IAM policy 示例如下: Metrics-only: { "Version": "2012-10-17", "Statement": [ { "Sid": "AllowReadingMetricsFromCloudWatch", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarmsForMetric", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAlarms", "cloudwatch:ListMetrics", "cloudwatch:GetMetricData", "cloudwatch:GetInsightRuleReport" ], "Resource": "*" }, { "Sid": "AllowReadingTagsInstancesRegionsFromEC2", "Effect": "Allow", "Action": ["ec2:DescribeTags", "ec2:DescribeInstances", "ec2:DescribeRegions"], "Resource": "*" }, { "Sid": "AllowReadingResourcesForTags", "Effect": "Allow", "Action": "tag:GetResources", "Resource": "*" } ]}Logs-only: ...

May 9, 2023 · 2 min · jiezi

关于运维:Grafana-系列统一展示3Prometheus-仪表板

系列文章Grafana 系列文章常识储备Prometheus Template Variables你能够应用变量来代替硬编码的细节,如 server、app 和 pod_name 在 metric 查问中。Grafana 在仪表盘顶部的下拉抉择框中列出这些变量,帮忙你扭转仪表盘中显示的数据。Grafana 将这类变量称为模板变量。 Query Variables应用 Query 类型的变量来查问 Prometheus 的指标 (metrics)、标签 (labels) 或标签值 (label values) 的列表。 抉择一个 Prometheus 数据源查问类型并输出所需的输出: Variable SyntaxPrometheus 数据源反对在 Query 字段中应用两种变量语法: $<varname>, 如:rate(http_requests_total{job=~"$job"}[$_rate_interval]), 它更容易读和写,但不容许你在词的两头应用变量。个别应用这种变量就够用了。[[varname]], 如:rate(http_requests_total{job=~"[[job]]"}[$_rate_interval])如果你启用了 Multi-value 或 Include all 选项,Grafana 会将标签从纯文本转换为与 regex 兼容的字符串,这须要你应用=~而不是=。所以举荐在 Grafana 中应用 PromQL 组合 Grafana 变量时,首选 =~. Annotations正文 (Annotations) 在图表下面叠加丰盛的事件信息。你能够在 Dashboard 菜单的 Annotations 视图中增加正文查问。 Prometheus 反对两种形式来查问正文。 一个惯例的 metric 查问一个 Prometheus 的 pending 和 firing 的告警(详见 在运行期间查看警报), 示例为:ALERTS{alertname="<alert name>", alertstate="<pending or firing>", <additional alert labels>}Step 选项对于限度从你的查问中返回的事件数量很有用。 ...

May 8, 2023 · 2 min · jiezi

关于运维:Grafana-系列统一展示2Prometheus-数据源

系列文章Grafana 系列文章Grafana Prometheus 数据源Grafana 提供了对 Prometheus 的内置反对。本文会介绍 Grafana Prometheus(也包含 Prometheus 的兼容实现,如 Thanos, Mimir 等) 数据源的局部选项、变量 (Variable)、查问 (Query) 和其余针对 Prometheus 数据源的性能。 配置 Prometheus 数据源这里抉择几项重要的局部进行阐明: URL: Prometheus Server 的 URL, 示例为:http://prometheus.example.org:9090 (不须要 path 等信息)Manage alerts via Alerting UI: 启用后能够集成 AlertManager, Grafana 能够显示、治理 AlertManager。启用后,能够抉择对应的 Prometheus AlertManager 数据源 Alertmanager data source: 下拉框,抉择对应的 Prometheus AlertManager 数据源Type: Prometheus Server 的类型;包含 Prometheus, Cortex, Thanos, Mimir。当抉择时,版本字段会尝试应用 Prometheus buildinfo API 主动填充。一些普罗米修斯类型,如 Cortex,不反对这个 API,必须手动填入。Disable metrics lookup: 勾选该选项将禁用查问字段主动实现中的度量选择器和度量/标签反对。如果你在较大的 Prometheus 实例中遇到性能问题,这将有所帮忙。Custom query parameters: 在 Prometheus 查问 URL 中增加自定义参数。例如,timeout、partial_response、dedup、或max_source_resolution。多个参数应该用&连接起来。 ...

May 7, 2023 · 2 min · jiezi

关于运维:阿里云的认证最有几个等级考试费用是多少

对于当初的学生来说,想要在毕业后找到一份好工作,除了领有能力之外,就肯定要用含金量高的证书,老话讲,先敬罗衣后敬人,好的证书能够给应聘者起到背书作用,而对于想从事IT行业的人来说,阿里云的认证是十分有用的,上面大使简略介绍一下阿里云认证,有须要的能够在认证大使上具体理解。 阿里云ACA 1、考试方向 云计算、大数据、人工智能、云原生、物联网等 2、考试费用 600 3、考试形式 线上考试 4、考试模式 口试 5、考试工夫 60min 阿里云ACP 1、考试方向 云计算、大数据、云网络、人工智能、云原生、物联网、数据仓库等 2、考试费用 1200+900 3、考试形式 线下考试 4、考试模式 口试+试验 5、考试工夫 120min 阿里云ACE 1、考试方向 云计算 2、考试费用 9600 3、考试形式 线下考试 4、考试模式 口试+试验+面试

May 6, 2023 · 1 min · jiezi

关于运维:Grafana-系列统一展示1开篇

系列文章Grafana 系列文章Grafana 简介Grafana 是 Grafana Labs 的第一款也是最重要的产品。它的定位是可视化, 用于监控展现 和 可察看性. 是以后最为欠缺、风行的云原生、私有云和企业监控可视化平台。 Dashboard anything. Observe everything无论你的数据存储在哪里,都能够对其进行查问、可视化、预警和了解。有了 Grafana,你能够通过丑陋、灵便的仪表盘创立、摸索和分享你的所有数据。 Grafana 的微小劣势对立数据,而非数据库Grafana 并不要求你将数据输出到后端存储或供应商数据库。相同,Grafana 采取了一种独特的办法,通过对立你现有的数据,不论它在哪里,来提供一个 "繁多的玻璃窗"。 有了 Grafana,你能够利用你的任何现有数据--无论是来自 Kubernetes 集群、树莓派、不同的云服务,甚至是谷歌表格--并以你想要的形式将其可视化,所有这些都来自一个繁多的仪表盘。 共享 合作Grafana 建设在这样一个原则上:数据应该被你组织中的每一个人拜访,而不仅仅是繁多的经营人员。 通过数据的民主化,Grafana 有助于促成一种文化,在这种文化中,数据能够很容易地被须要它的人应用和拜访,帮忙突破数据孤岛并赋予团队势力。 Grafana 仪表盘不仅为从泛滥起源收集的数据赋予了粗浅的意义,而且你还能够与其余团队成员分享你创立的仪表盘,让你们一起摸索数据。 有了 Grafana,任何人都能够创立和分享动静仪表盘,以促成合作和透明度。 丰盛的仪表板生态通过 Grafana,既能够展现: 运维人员的仪表板, 如 Kubernetes Dashboard: 也能够展现开发团队的 Sprints: 还能够展现财务人员的 Revenue: 另外,Grafana 还提供了 Dashboards 的 registry, 提供成千上万、丰富多彩的仪表板。 数据关联Grafana 能够理解所有相干的数据--以及它们之间的关系--对于尽快根治事件和确定意外零碎行为的真正起源十分重要。Grafana 容许团队在一个中央对所有的数据进行无缝的可视化和跳转。 最典型的就是 Grafana Labs 的 LGTM 技术栈,包含: Loki(Logging)Grafana(可视化)Tempo(Tracing)Mimir(Metrics)LGTM 通过如下的技术细节,能够实现 Logging、Tracing、Metrics 的无缝可视化和跳转: Metrics -> Logs: 基于服务发现和对立 labelsLogs -> Metrics: 基于 LogQL 提取 Metric 指标Logs -> Traces: 基于衍生字段 (fields) 或自动化的日志Traces -> Logs: 基于 labelsTraces -> Metrics: 基于来自 spans 的 Metric 指标Metrics -> Traces: 基于 Prometheus 的 Exemplars.具体如下图: ...

May 6, 2023 · 1 min · jiezi

关于运维:阿里云好在哪认证考试难不难

为什么当初市场上阿里云的占比最高,从几个方面能够看进去。 第一。阿里云的合作伙伴大多是各个行业内的龙头企业,例如中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等。单单一个12306就要无时无刻解决着宏大的购买数据,尤其是在各大节假日、春运期间,更是有数以万计的人应用着零碎。 第二。阿里云是目前国内惟一一家领有自主研发的云计算零碎的厂商,稳定性、运算力是自成一家的,而且曾经造成了残缺的应用体系。 很多人会通过考阿里云的认证来取得进入阿里云或者是进入阿里云合作伙伴的机会,而阿里云的认证中含金量最高的认证,无疑是云计算ACP认证,上面小编简略介绍一下,有须要的能够在认证大使上具体理解哦。 ACP云计算认证概述 阿里云云计算高级工程师ACP认证(Alibaba Cloud Certified Professional - Cloud Computing)是面向应用阿里云云计算产品的架构、开发、运维类人员的业余技术认证,次要考核考生利用阿里云云计算技术服务体系设计稳固、平安、高性能、易扩大、低成本的企业云计算架构的能力。 ACP云计算认证考试内容 云服务器 ECS 弹性伸缩(Auto Scaling) 负载平衡 SLB专有网络 VPC 对象存储 OSS 内容散发网络 CDN 平安(云盾、云平安) 云计算通用常识 ACP云计算认证考试题型 1、100道口试,分为70道单选,30道多选 2、8个试验

May 5, 2023 · 1 min · jiezi

关于运维:考阿里云ACE需要准备什么难不难考

当初市场上的云计算厂商泛滥,然而毫无疑问,排名第一的就是阿里云,因而其旗下的认证也是十分有含金量的,作为最高级的ACE认证,阿里只设置了云计算一个方向,很多人为了升职加薪,都会抉择考这个工作,而去年阿里云进行了一次改革,考试的具体内容小编简略介绍一下,须要的能够在认证大使上具体理解。 阿里云ACE概述 阿里云云计算架构师ACE认证(Alibaba Cloud Certified Expert - Cloud Computing)是针对云架构师,解决方案架构师,云运维专家等技术人员的阿里云高级别技术认证。通过该技术认证能够无效证实该认证人员具备丰盛的需要剖析能力,云架构设计能力,云架构部署施行能力,云架构诊断和调优能力,洞察业务痛点,制订无效的技术改良计划,最大限度地进步零碎架构可扩展性,安全性,可靠性,耐用性和老本效益等个性。 阿里云ACE考试模式 1、口试 私有云-平安-基础设施、业务&数据 私有云-存储 私有云-计算 私有云-架构 私有云-数据库 私有云-网络、组网 私有云-原生-容器、微服务&中间件 混合云 2、试验 3、面试 阿里云ACE考试地点 口试在当地的考试核心进行,试验须要在杭州的阿里云园区进行,而面试而在试验通过后能力预约地点。 阿里云ACE考试费用 口试费用2400,试验3600,面试3600,如果有一科没有通过,则须要从新购买该科认证,所有科目须要在一年内通过,能力拿到证书。

May 4, 2023 · 1 min · jiezi

关于运维:MoE-系列三|使用-Istio-动态更新-Go-扩展配置

上一篇咱们用 Go 扩大实现了 Basic Auth,体验了 Go 扩大从 Envoy 承受配置。 之所以这么设计,是想复用 Envoy 原有的 xDS 配置推送通道,明天咱们就来体验一番,云原生的配置变更。 前提筹备 这次咱们须要一套 K8s 环境,如果你手头没有,举荐应用 Kind 装置一套。具体装置形式,这里就不开展了。 装置 Istio 咱们间接装置最新版的 Istio: # 下载最新版的 istioctl$ export ISTIO_VERSION=1.18.0-alpha.0$ curl -L https://istio.io/downloadIstio | sh -# 将 istioctl 退出 PATH$ cd istio-$ISTIO_VERSION/$ export PATH=$PATH:$(pwd)/bin# 装置,包含 istiod 和 ingressgateway$ istioctl install是的,因为 Go 扩大曾经奉献给了上游官网,Istiod(Pilot)和 Ingress Gateway 都曾经默认开启了 Go 扩大,并不需要从新编译。 Istio 配置 Ingress 咱们先用 Istio 实现规范的 Ingress 场景配置,具体能够看 Istio 的官网文档[1]。 配置好了之后,简略测试一下: $ curl -s -I -HHost:httpbin.example.com "http://$INGRESS_HOST:$INGRESS_PORT/status/200"HTTP/1.1 200 OKserver: istio-envoydate: Fri, 10 Mar 2023 15:49:37 GMT根本的 Ingress 曾经跑起来了。 ...

May 4, 2023 · 2 min · jiezi

关于运维:数字中国|闪捷信息受邀出席全栈数据安全能力广受关注

4月27日,由国家网信办、国家发改委、工信部、福建省人民政府主办的第六届数字中国建设峰会在中国福州举办。该峰会旨在通过政策公布、经验交流、成绩展现等形式,推动交换互鉴,促成凋谢单干。闪捷信息受邀缺席本届峰会发表主题演讲,全面展现全栈数据安全技术与服务能力。 01 主题展区本次闪捷信息的主题展区以云·管·端立体化动静数据安全理念为外围,集中展现闪捷信息在数字政府数据安全防护畛域的最佳实际及经典案例。展区充沛展示了闪捷信息面向数字政府建设要害场景的数据生命周期平安管控技术实力,受到了来访嘉宾及参展观众的全面关注和好评。 02 论坛演讲4月26日,数字政府建设助推中国式现代化高峰论坛暨新时代数字平安屏障建设高峰论坛于峰会同期在福州数字中国会展中心正式揭幕。本次高峰论坛由福建省数字福建建设领导小组办公室领导、福建省大数据团体有限公司主办,闪捷信息副总裁彭照受邀缺席论坛,并以“基于分类分级的数字政府数据安全防护实际”为主题进行现场分享。 03 重磅公布闪捷信息在第六届数字中国建设成绩展览会上,重磅公布数据流转监测解决方案。该解决方案笼罩企业外部数据流转、企业间数据流转和数据入境三大场景,智能化辨认数据流转过程中的敏感数据,可视化出现数据流转链路,帮忙用户及时发现合规危险。 闪捷信息精彩亮相第六届数字中国建设峰会,将来将继续以先进技术创新助推数字中国建设,为数字经济倒退保驾护航! 闪捷信息科技有限公司(Secsmart)是一家专一数据安全的高新技术企业,创新性提出“云·管·端”立体化动静数据安全理念,将人工智能、前沿明码技术胜利利用于数据安全畛域,实现对结构化和非结构化数据资产的全面防护。闪捷信息已构建笼罩大数据安全、云数据安全、利用数据安全、数据防透露、工业互联网安全和数据安全治理等畛域的全栈数据安全产品体系与服务能力,广泛应用于政府、电力、金融、通信、医疗、教育等行业。

April 29, 2023 · 1 min · jiezi

关于运维:考阿里云认证需要准备什么考试多少分通过

为什么当初的人越来越内卷,为什么当初的员工一直地去考据,那是因为当初的人须要金钱,须要在年老之时成家立业,挣钱养家,而对于普通人来说,信息通信技术是热门的行业之一,很多人都会在学校时考下证书,或者是在进入工作后考取相干的证书,而阿里云认证就是含金量微小的一个证书。 作为目前市场占比最大的云厂商,其旗下的证书是能够晋升员工的职业竞争力,上面小编简略介绍一下,有须要的能够在认证大使具体理解。 阿里云认证概述 阿里云针对不同产品类别、用户成长阶段、生态岗位,精心打造不同的认证考试。 集体:证实您在对应技术畛域的业余度,可能基于阿里云产品解决理论问题。取得更多阿里云生态下的就业机会。 公司:通过阿里云认证造就、开掘专业人才,晋升公司的云上技术能力。取得更多阿里云生态我的项目商机。 阿里云认证等级 1、阿里云ACA认证 这是阿里云的根底认证,适宜在校学生、没有业余根底的人、刚进入社会的打工人。 2、阿里云ACP认证 尽管这是阿里云的中级认证,然而很多方向只有这个等级的认证,能够说是综合性价比、含金量最高的证书。 3、阿里云ACE认证 阿里云的最高等级,然而只有云计算方向。 阿里云认证考试 1、考试只有年满18岁就能够加入,须要携带本人的身份证。 2、考试须要在当地的考试核心进行,在官网提前进行预约。 3、考试的费用不等,从600-9600。

April 28, 2023 · 1 min · jiezi

关于运维:聊点技术-架构瘦身让Bonree-ONE跑得更轻

4月21日,博睿数据ONE有引力2023秋季产品发布会圆满闭幕,一体化智能可观测平台Bonree ONE 2023秋季正式版正式公布,这一次公布的版本更轻、更强、更智能。Bonree ONE在上一版根底上削减50%组件数量,下架两大高耗能组件,单机节俭20G+内存,安装时间放慢30%,磁盘耗费缩减80%;实现能力的5倍晋升,单台16C 32G服务器稳固撑持100 APM探针数据接入或2万日活用户会话,帮忙用户大幅升高配置老本。 架构瘦身,让Bonree ONE跑得更轻本文作者 背景在数据分析畛域,OLAP引擎是整个服务的底座,是整个产品性能的发动机。它须要强悍的数据写入性能,用来撑持高时效的数据价值,同时也须要强悍的数据读取性能,满足咱们在OLAP场景中的高效查问需要。高性能个别会随同着更多资源需求量的产生。如果咱们能在等同的数据量下,能够用更少的资源来满足需要,无疑会给产品带来更大的空间。咱们从历史Druid沉重引擎切换到了更轻量级的Clickhouse。 同时,Bonree ONE作为弱小当先的一体化智能可观测平台,交融了RUM、APM、数据分析、ETL、Alert告警、自适应AI等诸多微利用能力。起初泛滥组件整合在一起时,整体须要38个组件,组件多,资源占用多,保护老本高,十分沉重。每次POC须要单机64G内存的机器能力部署,且性能十分无限。基于这些痛点,须要对Bonree ONE架构体系做整体梳理,制订瘦身技术计划。 架构(四通一合)首先,要解决架构问题,好的架构能够少走弯路。Bonree ONE架构体系考究化繁为简,即四通一合: ● 对象通:采集。对立的对象采集能力,OneAgent能够对立采集多端、多源、多种类型对象,并且SmartGate提供了采集数据的汇聚、路由、压缩、缓存、批传、负载平衡、平安治理等智能化性能,让用户数据采的安心、用的舒心。● 数据通:数据。OneData作为对立的数据平台,能够集成指标、调用链、拓扑、事件、日志等多种可观测性类型数据;OneService作为对立数据服务,自研对立的BPL语句,能够同时计算和查问多源异构的数据集,让数据真正的交融关联用起来,解决传统割裂数据拼凑的问题。● 模型通:模型。基于数据标准化建模、AI多模态的湖仓一体化,反对开箱即用和AI自适应的在线模型。● 利用通:规范。多个利用遵循一套OneAPI规范,通过OneFramework能够让微利用插件相互通信,相互赋能。利用也做到了插件化,微利用能够各自独自跑,也能够合并一起跑。能力凋谢,能够集成与被集成。● 中交融:ONE架构也到了真正意义的交融。一套体系化的数据、服务、模型都是互通互联,能轻便反对下层业务场景须要的简单数据模型形象和计算。 OneData底座架构轻 劣势显著● 数据平台组件较少,OLAP引擎只有Clickhouse单个组件,在写入和元数据协同上各有一个组件,且都反对高可用。● 在POC场景下,Clickhouse精简部署,写入效率齐全达到业务须要。● 在小型集群的场景下,Clickhouse只须要单shard部署,在满足性能的前提下,反对高可用。● 在晚回数据场景下,Clickhouse人造反对分区,在历史数据和实时数据上,没有区别对待,效率上是等同的。● 在clickhouse上,通过物化视图和多粒度表的反对,较大范畴工夫的查问效率同样能够在毫秒级别实现,且是稳固的。 Feature开发 ● 写入资源均衡。● 表粒度入库攒批管制。● 多租户的反对。● 数据自治理。● 简单数据类型上查问效率的改良。● 继续优化读写性能,和资源瘦身。● 数据重散布个性,针对数据扩容状况下的数据分布改良。● 扩大DDL能力,能够在线反对针对物化视图、projection的动静加减列。● 轻量级运维能力建设。 成果相比瘦身之前,ONE技术优化成果: 整体组件从38个缩小到19个。从内存看:1) POC配置规格从单机64G降到32G,单机能够反对运行100探针,运行时内存耗费在23G左右;2) 业务各团队做全链路组件瘦身,POC版瘦身去掉所有hadoop、kafka、brfs、zookeeper等重组件;3) 指标存储底座从Druid切换到Clickhouse,内存资源降了60%(集群版和POC版都实用);4) SwiftAI重构架构,所有服务合并到一个过程组件(集群版和POC版都实用);5) OneService作为新一代联邦数据服务,代替了传统较重的Presto大数据组件汇合;6) OneAPI和OneView反对微利用插件合并,也能够独自部署,代替了传统的SSO和Cloud组件(集群版和POC版都实用)。从磁盘看,APM的磁盘占用存储降到了1/5(日增100G->20G):1) POC版去kafka会大量缩小磁盘占用;2) trace也做了写入压缩优化(集群版和POC版都实用);3) Clickhouse没有Druid的二级hadoop存储占用(集群版和POC版都实用);4) Clickhouse自身较Druid压缩比会好些,各业务表的压缩比在8到20倍(集群版和POC版都实用);5) AI通过Iceberg湖仓一体和数据治理,按开箱默认指标两个月只须要40G的磁盘空间(集群版和POC版都实用)。从性能看,拿私有云统计性能数据,基于Clickhouse的OneData底座P99查问性能比历史Druid架构进步了6倍以上,均匀耗时从秒级降到了毫秒级。同时在晚回数据场景,稳定性和效率比Druid体现的更加优良,保护老本为0。从性能看,ONE较之前秋季版产品减少了一些性能,比方默认会开启AI和会话,AI和会话不再独自追加资源(集群版和POC版都实用)。从利用框架看,引入弱小的插件容器框架OneFramework,提供了运行环境和根底通用能力反对(依赖治理、网关服务、连接池封装、common工具类、会话共享等)。OneFramework能够让业务只关注本人的业务代码开发,并且各自能够独立开发和部署,大大提高了开发迭代和公布效率。一套框架能够灵便应答私有云和私有化不同的环境场景。

April 27, 2023 · 1 min · jiezi

关于运维:蚂蚁安全科技-Nydus-镜像加速实践

蚂蚁平安科技 Nydus 镜像减速实际原创 曦栖 金融级分布式架构 文|蚂蚁团体 ZOLOZ 团队 应用寰球当先平安科技,为用户和机构提供平安、便捷的平安风控解决方案。 本文 6386 字 浏览 12 分钟 背景简介 ZOLOZ[1]是蚂蚁团体旗下的寰球平安风控平台,通过业内当先的生物辨认、大数据分析和人工智能技术,为用户和机构提供平安又便捷的平安风控解决方案。ZOLOZ 已为中国、印尼、马来西亚、菲律宾等 14 个国家和地区的 70 余家合作伙伴提供数字化转型过程中的平安风控技术支持。目前,曾经笼罩金融、保险、证券、信贷、电信、公众服务等畛域,累计服务用户超 12 亿。 随着 Kubernetes 和云原生的大暴发,ZOLOZ 利用开始在私有云上进行大规模容器化部署。ZOLOZ 业务的镜像通过长期保护和更新,无论是镜像层数还是整体大小都达到了一个较大的量级 (数百 MB 或者几个 GB) 。特地是 ZOLOZ AI 算法推理利用的根底镜像大小要远大于个别利用镜像 (Docker Hub 上 PyTorch/PyTorch:1.13.1-CUDA 11.6-cuDNN 8-Runtime 有 4.92GB,同比 CentOS:latest 只有约 234MB) ,对于容器冷启动,即在本地无镜像的状况下,须要先从 Registry 下载镜像能力创立容器,在生产环境中,容器的冷启动往往耗时数分钟,并且随规模扩大会导致 Registry 因集群内网络拥挤而无奈疾速地下载镜像,如此宏大的镜像给利用的更新和扩容等操作都带来了不少挑战。在私有云上容器化继续推动的当下,ZOLOZ 利用次要遇到了三大挑战: 算法镜像大,推送到云上镜像仓库耗时长,开发过程中,在应用测试环境进行测试时,往往心愿疾速迭代,疾速验证,然而每次改完一个分支公布验证都要通过几十分钟,开发效率非常低下。拉取算法镜像耗时长,在集群扩容大量机器拉取镜像文件会容易导致集群网卡被打满,影响业务失常运行。集群机器拉起工夫长,难以满足流量突增时,弹性主动扩缩容。尽管也尝试过各种折中的解决方案,但这些计划都有缺点,当初联合蚂蚁、阿里云、字节跳动等多个技术团队打造了一套更通用的私有云上解决方案,该计划革新成本低,性能好,目前看来是比拟现实的计划。 术语及定义 OCI:Open Container Initiative,凋谢容器打算是一个 Linux 基金会我的项目,由 Docker 在 2015 年 6 月启动,旨在为操作系统级虚拟化 (最重要的是 Linux 容器) 设计凋谢规范。 OCI Manifest:遵循 OCI Image Spec 的制品。 ...

April 25, 2023 · 5 min · jiezi

关于运维:融云-CTO-岑裕出海技术前沿探索和排坑实践

在本文中,你将看到以下内容: 寰球通信网络在接入点、链路减速、服务商、协定等层面的动静演进;进入到具体市场,禁运国、跨国拦挡、区域一致性差等细节“坑点”如何应答;融云如何从技术侧帮忙开发者应答本地化用户体验和业务合规的挑战。具备全球化视线和能力的新一代创业者,让中国互联网产品倒退与寰球市场晴雨表同步。关注【融云寰球互联网通信云】理解更多 而追随社交泛娱乐出海热潮一拥而上的人和资源,放慢了产业在寰球市场的成长,也贬低了出海赛道的门槛。 过来绝对粗放的出海形式,正在迎来改革时刻,须要对业务做更精细化的经营。具体到各个市场中,通信网络的最初一公里体验和本地化用户需要的满足是要害。 在“纵浪潜海 · 2023 融云社交泛娱乐出海赋能会”上,融云 CTO 岑裕以《出海技术前沿摸索与排“坑”实际》为主题,分享了融云在上述两方面的继续摸索和曲折前进。 寰球通信网络 最初一公里体验的曲折前进社交泛娱乐出海的旅程中充斥了坑点和痛点,最先要面对的就是各类细节繁琐和意想不到的通信网络问题。 依据网速剖析公司 SpeedTest 的数据,2023 年 1 月,寰球均匀固定互联网连贯速度达 76.34Mbps,寰球均匀挪动网络速度达 37.98Mbps。 在其考察的 138 个国家中,东南亚地区的老挝、缅甸、菲律宾、柬埔寨、印尼的挪动网速均不达平均值,如下图示。挪动网速最慢的国家(如下图示)中,有 9 个国家低于 10Mbps。根底网络情况千差万别之外,近年来,寰球通信网络的各个层面还在产生着动静演进,也都会影响业务进入当地市场后的“最初一公里体验”。这次要体现在以下四点: ❗接入点调配,海内从 SmartDNS 转向 AnyCast。 ❗链路减速,在技术上从 CDN、AnyCast 到 SD-WAN 的迭代,也有一些地区只能应用边缘节点接入。 ❗服务商,AWS、Google、阿里云、CloudFlare、Zenlayer 等各服务商在不同国家的策略和体现不尽相同,各有劣势和短板,交融应用多家服务成为基本操作。 ❗协定,出于对加密要求的进一步晋升,HTTPS、UDP 等协定衰亡。 以上技术迭代,不同地区服务商的迭代停顿和反对水平不同,所以在面对寰球业务时须要综合应用。而进入到具体执行层面,还会有更多难以把控的细节“坑点”,比方禁运国、跨国拦挡、区域一致性差、DNS 烦扰、SSL 加密净化、UDP 拦挡、特色包辨认、弱网等。 这其中,有一些是常见难题。以跨国拦挡为例,咱们在地图上看到两个间隔相近的国家,会下意识认为它们的连贯品质比拟好。但实际上,因为地缘政治等起因,物理间隔近不等于网络连接好。不同国家、不同运营商,须要针对性施行不同的策略。 还有一些坑点不太常见,但非常辣手。比方在有些地区,当 App 达到肯定规模和影响力后,可能会对其流量进行限度。 这些都将极度影响用户体验,出海企业须要投入大量资源进行基础设施的优化。好在,在过来几年出海浪潮的继续拍打之下,相干技术和解决方案也在打磨中日趋完善、成熟。 融云从 2016 年便随同中国开发者的出海步调开启全球化布局,在重点地区积攒了丰盛的服务教训,从东南亚到中东、日韩、拉美和欧美,都有爆款利用基于融云的底层能力虹吸了大量用户。融云在寰球通信网络建设上的积攒不可欲速不达,也是其作为业余出海通信服务商的外围劣势之一。针对以上问题,融云通过整体计划解决最初一公里的通信难题。 ☑ 多链路,思考到投入大小的问题,服务商无奈在所有地区放弃劣势,个别是在不同区域领有绝对劣势,这让交融多家服务能力进行对立调度成为根本要求。融云应用多家头部服务商,打造宏大、无拥塞的寰球网络。在寰球各个中央都有就近接入点,反对动静抉择和下发,让用户更快接入服务。 ☑ 多协定,反对 TCP、UDP、HTTP、QUIC 等多种协定,以多协定组合来解决跨国拦挡的问题,晋升在各个地区的服务一致性。 ☑ 智能竞速,多链路多协定动态分配,探测回落,并通过本地网络记忆等伎俩来实现智能竞速,不仅要连得快,还要品质好。 ☑ 动静混同,通过动静混同对内容进行加密传输,应答因 App 规模倒退到肯定水平而带来的流量限度等问题。 此外,联合智能心跳、网络记忆及多地区对立调度,对服务进行整体优化和全面降级。 开发者通过 SDK 即可与融云服务建设连贯,服务架构简洁明了,而背地撑持该架构那些纷繁复杂的协定、策略则被封装暗藏,无需开发者费神。通过一系列优化降级后的融云 SD-CAN V4,寰球 P99 连贯时长升高了 30%。也就是说,99% 的长尾用户通过多链路、多协定、智能竞速等整体计划实现了连贯用时升高 30% 的成果。 ...

April 25, 2023 · 1 min · jiezi

关于运维:博睿数据蝉联中国APM市场份额第一Bonree-ONE春季正式版重磅发布

日前,IDC公布《中国IT对立运维软件产品市场跟踪报告,2022H2》,2022下半年中国APM市场环比增长近10%。博睿数据以市场份额达18.28%蝉联APM利用性能监控市场份额第一。谋求卓越,趁势而为博睿数据作为中国当先的一体化智能可观测平台,专一于构建以用户为核心的简捷,高效,智能的新型IT运维,晋升企业运维效率,助力企业抢占数字经济先机。15年来博睿数据凭借深厚的技术积攒、一直打磨产品和服务能力,曾经服务超1000家头部客户,在银行、保险、证券、汽车、政企IT运维畛域造成了独特劣势,并取得泛滥客户的统一必定。 博睿数据胜利的内因在于对于“客户第一”的长期坚守。“充沛调研、深度思考是博睿数据走到明天的重要起因。咱们心愿看到Bonree ONE帮忙更多的企业在业务上产生正向的转变和影响“。博睿数据创始人兼CTO孟曦东示意,“Bonree ONE能够说是中国可观测性最优良的产品之一。” "ONE"有引力,聚力前行 2023年4月21日,Bonree ONE 2023 秋季正式版全新公布。带来更轻更强更智能的新一代一体化智能可观测平台,是国内首个真正实现智能运维的一体化智能可观测性平台。通过博睿数据当先的大数据采集和智能剖析能力,稳固弱小的中台能力,具备寰球竞争力的产品个性,真正实现IT零碎全栈、全链路、全场景的智能可观测,故障根因定位和决策反对,显著晋升IT运维的能力和效率,缩小故障均匀复原工夫MTTR,进步均匀故障间隔时间MTBF,晋升业务连续性 ,保障麻利开发,反对智能经营,为企业数字化业务保驾护航。 更轻:实现组件瘦身50%,POC仅需一台虚拟机轻松起跑● 瘦身解耦更轻小:组件瘦身50%,下架两大高耗能组件,单机节俭20G+内存,装置快捷,效率晋升30%● 小身材大能力:实现能力的5倍晋升,单台16C 32G服务器稳固撑持100 APM探针数据接入或2万日活用户会话,帮忙用户大幅升高资源筹备老本。 更强:探针反对3层架构,20W+探针同时接入、数据集成、K8S监控、业务剖析、日志剖析、操作剖析、技术组件等性能全面退场● 数据集成能力名列前茅:国内首家可观测数据和实体拓扑同步集成能力,盘活存量数据真正实现数据驱动。● 业务剖析性能率先上新:业务事件全量采集,买通业务事件到技术层面的全局归因。● 日志剖析性能行业当先:补齐设施老旧造成的调用链数据缺失,填平数据断点,真正实现对全场景数据的无死角可观测性。更有20w+超大规模探针跨地区跨简单环境采集;自动记录用户APP全副动作深度洞察用户体验;反对Prometheus、Elastic、MongoDB等200+技术组件接入;国内首创基于堆栈快照的热点办法以极低的资源损耗(0.1%~1.2%)取得代码性能分析的深度见解;引入ClickHouse查问性能实现600%增长等泛滥亮点,数据更精确。 更智能:告警收敛率98%,根因深度剖析● 智能告警辞别告警风暴:通过文本类似收敛、时序频繁聚合、实体关联聚合的方法,达成 98%以上的常态化告警收敛率,无效管制告警风暴。● 自适应AI让根因剖析更精确:去年,博睿数据凭借杰出的根因剖析能力取得了信通院AIOps能力成熟度模型优良评级。 Bonree ONE 2023秋季正式版再次降级,基于初因再次下钻洞察异样,带来更细粒度的两阶段排查,提出来自热点办法、操作剖析与业务剖析的根因洞察。当先组织抉择Bonree ONE陪伴1000+头部客户深刻数智化转型,也让博睿数据积淀了深厚的最佳实际案,此次发布会现场多位专家现场分享数字化转型中的教训与思考。以后证券零碎、金融零碎都是非常复杂的,各类异构数据与来自不同供应商的监控工具,还有来自客户要求高变动大的各类需要,都须要咱们对业务有一个更粗浅的意识。咱们将博睿数据视作业务的体温计,来帮忙实现对外围交易系统前中后端的全链路监控。⸺陶剑锋|中信建投信息技术部总监博睿数据帮忙咱们实现了对故障提前预测能力、故障疾速定位能力的晋升。数据可观测性的实现、开箱即用AI能力的引入等等,将帮忙咱们进一步实现运维能力的晋升,咱们置信,博睿数据的业余能力可能为咱们企业的倒退保驾护航。——高凡|北汽团体运维服务中心主任新东方以降本增效平安经营为指标,指标搭建一套对整个零碎的自主运维平台,借助博睿数据的数据采集能力,与在长期服务过程中积淀下的各类指标,实现了咱们对可观测性能力的初步搭建,帮忙咱们实现了对要害信息的报警,让对技术不那么理解的领导也能够直观地理解到整个零碎的运行状况。——齐晨|新东方运维高级经理SRE负责人 继续深入 ALL in ONE 策略,博睿数据实现了对产品研发、组织治理、客户经营的全面降级。Bonree ONE 2023 秋季正式版的全新公布,将以行业当先的平台能力,无效撑持企业数字化转型,解放生产力,进步组织外围竞争力,也将率领中国一体化智能可观测性平台建设迈上新台阶。

April 23, 2023 · 1 min · jiezi

关于运维:云智慧陆兴海统一运维体系为数字政府建设保驾护航

2023年4月6日至7日,由长春市人民政府、吉林省政务服务和数字化建设管理局主办的《2023长春数字经济倒退论坛》在长春隆重举行。 本次论坛旨在探讨数字经济的实践翻新、实际摸索和倒退门路,推动长春市乃至吉林省的数字化转型和高质量倒退。第十二届全国政协副主席、国家电子政务专家委员会主任王钦敏、市长王子联别离为论坛发来视频致辞。中国科学院院士王建宇,奇虎360团体董事长周鸿祎等嘉宾缺席流动。 论坛期间,除主论坛外,共设有智慧城市、数字平安/车联网平安、人工智能/智能网联等三个分论坛,在论坛现场,云智慧副总裁陆兴海作为特邀嘉宾,发表了《对立运维体系,为数字政府建设保驾护航》的主题演讲。 云智慧副总裁陆兴海 陆兴海从数字化运维分级成熟度评估模型、数字化运维成熟度现状调研、数字政府建设特点与趋势、数字政府运维面临的挑战等多个方面,系统地论述了云智慧在数字化运维畛域的理念、办法和实际。他指出,随着信息技术的疾速倒退和广泛应用,数字政府曾经成为推动国家治理现代化的重要伎俩和载体。 智能运维分级成熟度模型陆兴海在论坛上强调,党的十八大以来,地方器重强调政务信息化和数字化建设。数字政府建设指标就是以数字技术为撑持,高质量实现业务和技术的深度交融,全面晋升政府履职效力。 在提出指标的同时,也对建设数据共享体系,实现政务数据的利用价值;人才梯队与干部造就力度;标准化建设与运维模式;网络安全与集体信息安全等方面都提出了更高的要求。然而业内目前对智能运维分级还不足对立的衡量标准,云智慧建设的智能运维分级成熟度模型,依据公司的运维智能化水平,将智能运维分为L1-L5五个层级 L1:辅助运维, 简略的工具化能力、简略的故障恢复能力、被动式运维;L2:一体化运维, 初步的运维体系化,具备根本的监控整合能力;L3:初步智能化, 数据驱动型组织,实现智能化自助服务;L4:高度智能化, 具备数据洞察和预测等能力,实现业务经营流动可决策;L5:齐全智能化, 略指标驱动型组织,具备自主剖析、AI自主决策能力。 云智慧智能运维分级成熟度模型 统筹规划下的数字政府对立运维体系建设在高质量建设的新阶段,数字政府平台一体化建设之后如何“一体化”运维,施展一体化运维对数字政府“建转运”后的撑持保障作用,成为各地政府需重点思考和解决的问题。以后数字政府政府面临着IT反对环境简单、运维整体投入亟待优化、不足面向对立治理与合作的运维流程和制度、运维数据治理等一系列问题。 如何解决这些问题,陆兴海也给出了本人的认识,就是建设统筹规划下的数字政府对立运维体系,对立运维核心依靠网络与政务云建设后期成绩、在近年来数字治理、电子政务以及组织翻新获得良好问题根底上,迎接新的深度与广度共进的数字化运维挑战,以治理与技术双轮驱动为抓手,着力实现对立服务、对立平台、对立撑持的“三个”对立经营指标, 构建撑持政府数字政府建设的对立运维体系,须要从组织机构、运维团队、平台工具、技术撑持、运维考核等方面,兼顾数字政府建设运维保障工作,为运维保障提供对立治理、运行监测、技术咨询、容灾备份、应急处理等专业化撑持服务和7x24小时驻场服务响应,从运维侧帮忙数字政府建设晋升品质、降低成本、减少效率、保障平安。 最初,陆兴海提出,数字政府对立运维体系建设是数字政府建设的重要保障,要通过统筹规划,建设数字政府对立运维体系,实现数字政府运维的全面管控和智能化降级,为数字政府建设保驾护航。

April 23, 2023 · 1 min · jiezi

关于运维:RSAC创新沙盒十强出炉这家SCA公司火了

引言 近日,寰球网络安全行业翻新风向标RSAC翻新沙盒颁布了本年度入围十强的名单,软件供应链平安企业Endor Labs凭借基于依赖关系建设利用开发生命周期的解决方案取得了宽泛关注。 Endor Labs简介 Endor Labs成立于2021年,是一家专一供应链平安治理的美国公司,并于去年十月取得了2500万美元种子轮投资。在开源软件大行其道、软件供应链安全事件频发的背景下,Endor Labs基于SCA倒退出了独具一格的“依赖生命周期治理”解决方案,其合作伙伴与商业客户中不乏Microsoft、Google、Uber、Zoom、Atlassian等知名企业。 依赖生命周期治理 传统SCA工具的外围性能是对代码中引入的开源组件及它们的依赖关系进行盘点,造成SBOM清单,并在此基础上把握代码中所有由开源组件依赖带来的破绽危险。 在研发经营的整个周期中,有了这份透明化的资产清单,研发阶段能够及时替换平安版本的组件或修复破绽,经营阶段新的破绽暴发或呈现新的利用形式时可能按图索骥,疾速定位破绽地位及影响范畴,帮助制订更高效正当的修复计划。 然而,作为一种绝对简略且容易落地的平安工具,SCA工具也有其局限性。首先,SCA仅能基于已有的知识库进行危险梳理,也即只能检测已知开源破绽;其次,SCA基于规范的破绽库提供的破绽危险等级并不能齐全适配代码理论运行的场景,所以会导致局部并不会理论被触发的危险呈现在SCA工具输入的破绽危险中,须要人工加以判断。 为了解决上述已知场景的局限和“乐音”带来的额定老本,Endor labs以依赖关系为核心,建设起了一整套依赖生命周期管理体系。 第一阶段,在依赖引入前,能够在Endor Labs的知识库里查问由组件的品质、受欢迎水平、最佳工夫应用、支持性和其余指标组成的整体危险评分,综合判断是否引入该组件。 依赖引入后,Endor Labs的工具会梳理代码中蕴含的所有的依赖状况并输入可视化的SBOM清单,同时会统计单个依赖被引入的次数,记录组织中最罕用的依赖版本,便于缩小依赖项的总量、管制依赖面。 对所有引入的依赖执行破绽检测后,工具会对这些依赖进行可达性剖析,即剖析该依赖是否会在程序运行中被理论调用,并由此代替破绽严重性的指标,产生对应破绽修复的优先级倡议,升高开源破绽的“乐音”。 最初,思考到随着软件我的项目推动越来越收缩的依赖清单,对于长期未应用及冗余的依赖项,工具还能够提供删除倡议,精简依赖资产、防止依赖收缩。 对于平安团队,Endor Labs的解决方案能够帮助团队建设起对依赖关系的全面理解,同时打消大量“乐音”,升高甄别老本,同时反对对本身和第三方的SBOM治理;对于开发团队,能够帮助做出更好的依赖引入抉择,同时取得更正当的破绽修复优先级,进而实现平安的无痛嵌入。 另外,Endor Labs的产品还接入了ChatGPT,反对以对话模式提供相应的开源组件引入倡议(含危险评分),以便帮忙用户抉择更优的开源软件。目前该性能尚在内测阶段。 更进一步:未知破绽进攻 Endor Labs的计划对“乐音”的解决方案的确有独到之处,但对SCA工具只能解决已知破绽这个天花板的拓展依然绝对无限:在引入前通过对知识库中所有组件进行多维危险评分帮助引入决策实质上依然是对已知资源的再整合,于效率可能也并有益处。 在SBOM的根底上,解决上线后经营阶段的平安问题、实现平安研发和经营的闭环,不能仅仅局限于单个的SCA工具,而须要与其余更适配继续经营场景的工具联合,造成整体联动的解决方案。 首先,应用SCA输入SBOM是必不可少的。“乐音”的管制伎俩多种多样,可达性剖析、运行态SCA、黑白名单治理都是可选的计划。 下一步,须要多渠道收集开源破绽情报,实时监控利用代码的开源危险,并依据SBOM进行危险自查,联合业务环境评估修复优先级,依据利用版本打算自行安排修复节奏。 此外,继续平安经营的实现离不开RASP(运行时程序自我爱护)技术。RASP能联合利用的逻辑及上下文,以函数级的精度对拜访利用零碎的每一段代码进行检测,实时监控平安情况、记录及阻断攻打,而无需人工干预。 对于尚无新版本组件可替换或不便降级组件的开源破绽以及忽然暴发的0day破绽,RASP能够通过下发热补丁的形式,在不批改源码的状况下对攻打和歹意申请进行辨认和阻断,实现对未知平安危险的及时治理,为审慎的破绽修复争取宝贵时间。 OpenSCA+云鲨RASP SaaS为集体及企业用户提供0老本利用平安爱护计划,帮助搭建利用平安研运闭环,将踊跃防御能力注入利用中,实现利用平安自免疫;同时提供商业版,提供更残缺的场景适配能力,欢送分割咱们。 云鲨RASP官网: https://rasp.xmirror.cn/

April 23, 2023 · 1 min · jiezi

关于运维:10万字干货数字业务连续性提升最佳实践免费领取|TakinTalks社区

一分钟精髓速览首刊限版400本,没有电子版下载。100本作为社区福利,收费支付,领完即止!不加印。 为什么会有这本刊物?TakinTalks社区是由业内专家独特发动的、专一业务稳定性晋升的技术交流平台。面向技术管理者和一线从业者,定期探讨行业前沿的技术,分享最新的、可参考的、可落地的实战经验。 咱们主张技术人要关注技术,更要关注技术和代码带来的业务价值。正是因为业务的某些强烈需要,才推动技术的倒退与落地,所以业务连续性应是所有技术团队都应该关注的独特指标。本刊正是在这个大前提下策动实现。社区联结了多家头部企业的技术团队,从业务视角去扫视技术的落地成果,也从各种不同的技术角色视角,去看技术对业务连续性的奉献和撑持。 这是一本什么样的刊物?2022年初到当初,在走访了数百位技术管理者、交换了上千位社区粉丝后,通过整整1年的筹备,社区首刊终于出炉,在明天和大家见面了!本期首发特刊10万余字,足有152页之多! 第一批小范畴公布的300本,仅仅2天曾经被各家技术支持单位简直抢定一空!一周前的粉丝群预热中,也再次掀起了一波“预约”热潮,大家的需要度之高,的确远超咱们的预期。 明天《数字业务连续性晋升最佳实际》正式公开公布!作为首刊特发版本,只公开限量公布400本。其中,预留的100本作为社区福利送给社区读者,赠送完就完结,后续不再加印!请留神,每家企业的同一个技术团队,只限支付1本。收费申领! 实物长什么样? 行业专家怎么评估它?杨德华——TakinTalks稳定性社区发起人“太阳底下没有新鲜事。明天的任何一个问题,你扒掉它的外壳,都有一个可能并不陈腐的内核。” 我集体深认为然,尤其TakinTalks社区成立以来,与数百位技术管理者和一线专家深度交换后,我更动摇地认为,历史就是最好的老师,他人在实践中总结的教训就是最好的教材。集体晋升认知,须要和更多牛人在一起,在他人的实际和思考中去找到能够学习的对象,优秀者对咱们耳濡目染的影响,是微小的。 王海清——中国信通院 混沌工程实验室负责人零碎稳定性保障是古代软件开发中最难以解决的问题之一,也是保障用户体验的重要因素。把握零碎稳定性保障技术,不仅能够进步软件开发的效率,还能够进步软件的品质和可靠性。钻研和推广“稳保”技术也是中国信通院混沌工程实验室始终专一的工作。本案例集锦是一本零碎稳定性保障畛域最佳实际的汇总,旨在帮忙读者把握零碎稳定性保障技术体系,理解零碎稳定性保障的根本办法,以及如何在理论开发中利用这些技术。适宜软件开发人员、测试工程师、系统管理员、运维工程师等从事零碎开发、测试、运维等工作的人员浏览。案例是教训的积攒,也是胜利的源泉。心愿这些优良案例可能给读者带来灵感和启发,帮忙更多稳定性畛域从业人员在工作中获得更好的成绩。 戚勇——中国联通软研院 经营保障与调度核心总经理在数字化经济时代,业务连续性对于企业来说至关重要。作为中国联通,咱们深知业务中断对客户体验和品牌形象带来的影响。《数字业务连续性最佳实际》提供了最新的实际和见解,它介绍了大量的工具和技术,具体解说了如何构建保护稳固和牢靠的高可用性零碎,涵盖故障防备、故障感知、故障止损、故障复盘等方面的内容,为企业带来了贵重的领导和帮忙。咱们置信这本刊物将为中国联通及其他企业提供有价值的信息,帮忙企业更好地应答数字业务中断的挑战,保障业务连续性,晋升客户满意度和品牌影响力。 张观石——《SRE原理与实际》作者、前虎牙SRE负责人系统可靠性、业务连续性不可能依附某个大招欲速不达,而是须要各方面能力都做到足够优良。我在《SRE原理与实际:构建高可靠性互联网利用》一书中提到出了6种能力——可靠性设计能力、观测能力、修复能力、反软弱能力、保障能力、治理能力。本刊正是在多个能力方向上的实战摸索合集,收录了十几家中大型企业的教训精髓。案例中包含了负载平衡、利用、数据、大数据、计算平台,所讲的办法波及了故障治理、容灾、混沌工程、容量、压测、监控告警等等。通过编委会业余而又精心的编排,置信对读者具备很好的参考作用。 是否有电子版?社区刊物为限量纸质版,临时不思考电子版公开下载。 内容有哪些亮点?B站在数据库故障治理方面做了什么? 美图在“818”A级818故障前、故障后都做了啥? 中国人寿在落地无侵入压测中遇到了哪些难点? 微盟全链路压测遇到了哪些挑战,都是怎么解决的? 美图压测监控一体化平台建设前后,工作流程有哪些差异? 去哪儿落地混沌工程的阶段路线是怎么设计的? 去哪儿大规模演练遇到了哪些典型问题? B站的监控告警平台指标和指标是怎么设定的? 阿里云亿级调用量下是怎么做预警治理的? B站高可用计划是怎么做的?怎么起作用的? 浙江挪动1W+微服务零碎是怎么保障的? B站大型流动的应急预案是怎么做的? 怎么无效升高故障的影响? 故障后的复盘该怎么进行? 复盘有哪些要害流程?怎么落地? 谁对本刊有奉献?编委会:(排名不分先后) 杨德华 TakinTalks社区发起人 陆学慧 杭州数列科技CTO 陈 阳 亚马逊云资深数据库专家 武安闯 哗哩哔哩业务SRE负责人 朱仕智 去哪儿网高级技术总监 吕 帆 哔哩哔哩直播B&C端架构组leader 石 鹏 美图高级运维经理 联结作者:(排名不分先后) 王志广 哔哩哔哩数据库负责人 熊军军 中国人寿 寿险研发核心高级工程师 张维功 前得物稳定性测试团队Leader 赵金龙 微盟非功能测试负责人 陈潮兵 美图零碎研发技术专家 史军艇 浙江挪动SRE架构师 付亚南 去哪儿网资深品质保障专家 李成武 阿里云弹性计算管控SRE 李道兵 品道科技高级技术总监 ...

April 21, 2023 · 1 min · jiezi

关于运维:在Dataphin-调度运维时如何及时发现异常

Dataphin 反对给生产环境的工作配置监控告警规定,帮忙您及时理解工作运行动静,并监控异样工作,升高对上游业务的影响。 Dataphin 反对多种监控能力,包含智能基线监控、离线工作&字段监控及实时工作监控。 残缺内容请点击下方链接查看: 在Dataphin 调度运维时,如何及时发现异常? 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

April 20, 2023 · 1 min · jiezi

关于运维:阿里云大数据分析师ACP考试内容是什么考试题型是什么

最近几年阿里云的认证越来越受欢迎,很多人会通过考取阿里云的认证来晋升本人的职业竞争力,其中ACP大数据分析师是很多人会考的认证,上面小编简略介绍一下,有须要的搭档能够在认证大使上具体理解一下。 阿里云ACP大数据分析师概述 是面向大数据分析师、BI工程师的专业技能认证,涵盖数据分析相干的常识体系,如大数据基础知识、大数据存储技术、数据分析工具、数据可视化、数据编程、数据品质管制、数据分析项目管理、机器学习等。 阿里云ACP大数据分析师知识点 大数据基础知识 大数据存储技术 数据分析工具 数据可视化 数据编程 数据品质管制 数据分析项目管理 机器学习 阿里云ACP大数据分析师考试注意事项 1、题型 单选70道 多选30道 2、考试工夫 120min 3、考试模式 口试+试验 口试须要在当地的考试核心加入,考生能够在官网是查问当地的考场预约,而试验在官网上实现即可。

April 19, 2023 · 1 min · jiezi

关于运维:融云出海赋能会干货回顾二-地区赛道选择和避坑攻略

“出海是这个时代给咱们的时机。”这是很多互联网出海人的心声。关注【融云寰球互联网通信云】理解更多 走过跌宕起伏的 15 年出海历程,中国出海人当初面对与此前截然不同的市场环境,很多地区蓝海不再,也有不少赛道变得拥挤。 一体两面,现在的社交泛娱乐出海也曾经辞别了“荒凉一片”的初始点,领有绝对欠缺和成熟的产业生态。 新的倒退阶段,企业如何抉择出海地区和我的项目?踩过坑、趟过雷的前辈们又有什么攻略能够分享? “纵浪潜海 · 2023 融云社交泛娱乐出海赋能会”邀请了多位有丰盛实战经验的出海人倾囊相授,内容过“干”,倡议点赞分享再看哦 ♥ 上海站嘉宾:OHLA CTO 沈翔,长期主攻语聊房业务,2021 年开始出海东南亚、中东等地区,点此理解更多。腾然网络 CTO 曹辉,2016 年便开启业务出海之旅,次要产品为直播类业务,以北美为次要指标市场。来出海创始人刘翰林,国内互联网出海服务平台,为企业提供出海资源对接服务。 广州站嘉宾:Aptoide 商务总监吴绪兰,领有多个海内地区的团队搭建教训,目前主攻第三方利用市场用户增长。唐汉科技经营总监胡凌云,2015 年起出海东南亚等地区,次要品类为直播业务。蜻蜓游戏总经理何杰,2010 年起开始出海,历经工具出海、内容出海、社交泛娱乐出海全程。 出海地区和赛道 如何选OHLA CTO 沈翔:最好以在国内的业务积攒为出发点,综合思考能力、资源,并联合指标市场补齐欠缺局部。 咱们在做中东市场调研的时候发现,当地语聊房的业务模式跟国内不太一样,次要还是文化上的差别。而且会遇到一些国内设想不到的问题,比方网络环境、领取环境。 在中东,可能两个相隔仅 10 公里的用户,就会面对网络环境的微小差别。 所以,详尽理解当地状况,以及通过搭建团队等形式把握当地资源十分重要。 腾然网络 CTO 曹辉:从我的行业教训来说,在社交赛道,1V1 业务是最好的切入点。 对于初创公司来说,1V1 业务的技术老本和经营老本绝对更低。并且,在积攒了肯定工夫后,能够进行一些业务拓展,比方私域直播。这样,整个业务倒退门路对用户来说体验比拟顺畅,前景也很好。置信将来 1V1 业务会吸引更多人投身其中。 蜻蜓游戏总经理何杰:最重要的是,如何精准抓住高价值用户、怎么为这些人提供优质服务,以及把双端的能力放到一个市场去做本地化。 这不是一个赢家通吃的市场,在锚定的区域,只有真的有毅力去做区域化冲破,能在精准获客和服务供应这两个层面找到至多一个抓手,就肯定有机会落地。 Aptoide 商务总监吴绪兰:首先是行业赛道,看 TOP10、TOP20 甚至 TOP50 能不能赚到钱,代表这个赛道的机会空间有多大。 第二个,精准流量获取和标准化业务流程的能力。摈弃广撒网的流量模式,怎么精准获取有付费能力的用户;以及将主播等内容供给方的培训治理进行精密到每个环节的流程标准化。在内容上,面对付费能力强的 T1 市场,能够去文化和语言上比拟匹配但性价比更高的地区开掘主播来提供内容。 在地区上,T1 市场比拟饱和,能够去看一些绝对竞争没有那么红海的新兴地区进行错位竞争。 唐汉科技胡凌云:其实,出海也很适宜没有太多教训的开创团队。基于目前的产业生态状况,社交泛娱乐我的项目的守业门槛并不高。通信服务有融云,领取、买量也都有业余的厂商提供便捷的服务。 确定好定位,通过第一个我的项目把该踩的坑踩完,该交的学费交完,再交给第二个甚至第三个我的项目来实现一飞冲天的指标,我感觉这个可能对大多数创业者来说更接地气一些。 业务出海坑点 如何避蜻蜓游戏总经理何杰:聚焦社交泛娱乐,很多我的项目启动时团队都不大,10 或 20 集体以内很常见。在我的项目冷启动阶段肯定要懂得借力,充分利用融云等三方服务的专业性。 像 IM、RTC 这样的必备通信能力,如果自研,后期开发、测试以及上线后的运维等各种问题都会十分多。要管着几千台服务器,几十个运维人员,不光是经济老本,治理的老本也会十分高。 凡是能用第三方的,尽可能都用,这是当初出海十分好的根底条件。 来出海创始人刘汉林:出海做社交避不开本地化问题,比方翻译,很多地区都有不少小语种;还有经营,须要找本地的公会去做本地经营。 海内的领取也非常复杂,大大小小的领取有上百家,不像中国服务绝对集中。像孟加拉这种小中央,没有成熟的领取解决方案,或者有但不好用,须要大家寻找更优质的领取渠道。还有一些很细节的问题,比方欧美市场信用卡通道不对 1V1 业务凋谢,这些都须要提前理解并思考解决方案,否则后面所有的环节都搞定了,最初一步卡住了。 OHLA CTO 沈翔:招聘本地员工很有必要,这样能力触达本地比拟严密的圈子,包含领取、网络、主播资源等。 ...

April 19, 2023 · 1 min · jiezi

关于运维:硝烟后的茶歇-安全内生自免疫力的探索之路

近日,中国信息协会信息安全业余委员会、PCSA平安能力者联盟和虚浮实验室在京独特举办了“往年的拂晓静悄悄”暨《硝烟后的茶歇》第四期分享会,聚焦往年年度攻防演练外表平静、实则暗潮涌动的新趋势。 在此次分享会上,悬镜平安产品经理陈超进行了“平安内生自免疫力的摸索之路”主题分享,剖析了古代数字化利用面临的危险挑战,引出了以RASP技术为外围的代码疫苗技术及其利用场景,并分享了该项技术进攻重大未知破绽的实战案例。 图1 悬镜陈超在分享会现场发表主题演讲构筑利用平安内生自免疫力陈超指出,混源开发已成为古代数字化利用次要开发方式,对利用的平安内生自免疫能力的全面审查应思考从第三方开源组件缺点及后门、自研代码通用破绽、自研代码业务逻辑破绽、潜藏恶意代码等维度综合剖析。 代码疫苗技术,正是一种可能通过运行时插桩技术晋升利用在运行时的危险自发现及威逼自免疫能力的新一代平安技术,无需代码平安专家逐行剖析源代码、无需对原有代码逻辑进行批改调整、无需保护简单流量过滤策略及规定并且不会疏忽应用程序中超90%由开源组件引入的危险。 在HW场景下,对于利用破绽攻打响应和歹意流量溯源剖析的平安工作始终被视作重点,然而在理论事件处理过程中仍存在微小的技术挑战。代码疫苗外围之一的RASP技术,作为新一代突破性的应用层踊跃进攻技术,可在东西向Web流量自动化检测进攻中起到关键作用,买通利用平安防护与治理的“最初一公里”。 图2 悬镜云鲨分布式RASP部署图RASP踊跃进攻重大未知破绽相较于WAF和EDR,RASP鉴于其深刻利用运行时的环境外部、剖析与理解数据流及事件流的个性,在对0day等重大未知破绽、开源组件破绽、内存马等Webshell利用以及歹意异样行为利用的进攻上具备显著的技术劣势。 陈超重点以RASP对Log4j2.x近程代码执行破绽的防护为例,活泼具象地梳理了RASP的防护流程。RASP无论是在利用向攻击者服务器发送相似于SSRF的写日志申请时,还是在攻击者进行JNDI注入时,抑或是在攻击者进行命令执行时,都能够进行拦挡。总而言之,所有的攻打伎俩最终都能够演绎为敏感命令执行、敏感文件读写、敏感数据库操作等异样行为操作,而这些会被代码疫苗技术精准辨认和阻断。 此外,当呈现重大破绽短时间难以修复的情况时,RASP还能够通过动静下发热补丁,在不中断业务的同时为利用零碎提供长期防护,为破绽修复争取贵重的工夫。 早在前年由悬镜平安主办的首届DevSecOps麻利平安大会(DSO 2021)上,悬镜创始人兼CEO子芽就精准预言RASP技术会在往年的重要平安流动中大放异彩。事实也证实了悬镜敏锐的市场洞察和前瞻性的策略思考。悬镜始终专一于原创专利级代码疫苗技术,利用“单探针”的深度交融,实现数字化利用全生命周期的检测防护一体化,不仅帮忙各行业用户实现“平安左移”,从开发源头进行危险治理,还助力企业构筑新一代踊跃进攻体系,实现“麻利右移”即平安经营麻利化。 更多对于云鲨,尽在官网 https://rasp.xmirror.cn/

April 19, 2023 · 1 min · jiezi

关于运维:支撑百万商户千亿级调用微盟如何通过链路设计降本40

一分钟精髓速览在典型的分布式系统中,用户的一个申请达到组合的前端服务后,前端服务会散发申请到外部的各个服务,每次调用都波及跨零碎的一次申请和一次响应。在有大规模、高并发申请量的零碎中,如何标识这些申请及存储这些调用信息,并造成调用链?如果零碎的某两个服务间出了问题,又如何为业务方提供可视化的展示模式以疾速排障? 本文总结了微盟反对千亿级规模的调用链实际,详解平台的建设指标、设计思路和落地成果。 作者介绍 微盟APM团队负责人——向明亨 TakinTalks稳定性社区专家团成员。2017年退出微盟,目前负责公司APM体系建设,蕴含APM体系从标准到施行,推动APM体系在公司的落地,主导了微盟APM平台、监控告警平台等平台的建设。 舒适揭示:本文约5000字,预计破费10分钟浏览。后盾回复 “交换” 进入读者交换群;回复“0411”获取课件材料; 背景作为SaaS畛域唯二在港交所上市的企业之一,微盟累计服务了300万+入驻商家,并基于腾讯社交网络为泛滥商家提供SaaS和营销服务。微盟业务的复杂性,体现在其技术团队不仅须要满足外部能力建设需要,也需兼顾营销云上大量内部租户的应用需要。 在流量生态方面,微盟团体SaaS产品拓展了多个流量平台,如QQ小程序、QQ浏览器、抖音小店等,随着业务端的渠道复杂化和流量的日益增长,业务方的观测和排障需要也产生了变动。 一、微盟为什么自主设计调用链体系?1.1 多集群排障,依赖调用链工具在单利用场景下,大家通常通过监控或者日志来排障,但在集群状态下它就会呈现问题。比方一个下单流程,同时波及了 A/B/C/D/E 服务,此时需先确定故障呈现在哪个利用,而依赖传统的日志或者监控,无奈做到疾速定位故障。 利用调用链工具,则能够串起申请的全过程,在链路中能直观看到是哪个服务呈现了问题,帮忙疾速定位故障,它是多集群状态下排障的最佳解决方案。 1.2 链路开源组件多,但无奈满足需要1.2.1 开源调用链工具业界罕用的链路开源工具有Skywalking 、ZipKin、 Jaeger 等等,咱们依据微盟需要做了以下比对和剖析。 1.2.2 为何不选用开源链路零碎市面上有如此多开源工具,微盟为何还要做本人的调用链体系? 从整体设计要求思考——主Java:微盟大部分利用都是Java;多语言:除Java外,还有Go、Node.js、Python等语言;海量数据:要求监控数据尽可能多,因而数据规模较大;业务简单:既有 SaaS 也有PaaS,业务背景绝对比较复杂。 从技术选型角度剖析——SDK动静配置:调用链的SDK动静配置是一个强诉求,而开源的调用链工具不反对自定义配置。比方,须要设置拦挡哪些组件、哪些组件不收集调用链等,开源工具无奈实现; 自定义视图:业务方须要有本人业务线的监控视图。微盟业务线泛滥,业务方会有基于团队和业务线的监控诉求,而开源工具无奈满足该类诉求; 链路检索需要不满足:通常开源的链路不提供依据业务字段进行检索,辨认业务谬误的能力。须要在不侵入业务方业务流程的前提下,满足业务方的更高阶要求; 多租户:微盟云对外提供利用托管能力。除满足对内需要外,也对在微盟云平台部署利用的租户提供调用链服务。 二、微盟调用链体系做了哪些设计?2.1 新调用链架构设计我将从三个局部来讲述新的调用链设计——数据收集、数据传输协定、数据利用。 数据收集:采纳 JavaAgent 来提供无侵入的反对,同时咱们也在设计阶段预留了多语言的反对。 数据传输协定:数据传输协定相对来说没那么好改,它须要具备前瞻性、撑持性和扩展性,在协定设计时需更谨慎。 数据利用:撑持丰盛的检索、监控、告警的诉求。 基于以上三点思考,咱们设计了微盟调用链体系,其整体架构如图所示。(微盟调用链体系架构图) 2.2 前台链路服务前台链路服务的建设,咱们须要达到的三个指标: 升高接入老本;反对动态化配置;反对多语言。2.2.1 升高接入老本-JavaAgent从节省成本的角度,咱们抉择了无侵入的JavaAgent技术,而非应用SDK构建。这里简略先介绍JavaAgent的技术实现过程——在启动JVM时注入一个插件,这个插件相当于一个“外挂”,咱们在插件里对业务的一系列要害流程注入了察看埋点。 咱们基于JavaAgent技术搭建了Agent治理平台,实现Agent的上传、版本公布、灰度、公布零碎差异化等的一站式治理,同时因为微盟的次要语言是Java,所以大部分接入老本是非常低的。从业务方应用的角度,只须要在后盾通过开关操作,关上调用链并进行我的项目重启后,即可主动显示利用,并疾速观测其链路状况。 为何不抉择惯例的SDK构建?因为业务方须要引入SDK并进行相干代码注入和配置,随着微盟业务的扩张,后续如果须要撑持更多组件,当零碎须要降级或SDK出问题时,推动业务方降级的老本则会十分高。 因而最终咱们举荐采纳JavaAgent技术来实现,其在缩小业务方接入老本、进步整体收益、多方合作满意度等方面体现都绝对杰出。 2.2.2 动态化配置1)实现原理-借助apollo配置核心咱们借助了开源的apollo(阿波罗)配置核心来反对动态化配置,其实现过程如图。服务会动静地、实时公开发配置,Agent 接管到配置后进行相应的行为验证。2)踩坑分享-Agent 类加载问题在Agent接入时,也会碰到一些问题,其中踩过的最大的坑就是类加载问题。在Agent中应用到的类和jar包和业务方应用的类产生了抵触,比方Agent 应用了一个低版本、业务方应用了高版本的类,此时既有可能加载高版本,也有可能加载低版本,就产生了版本抵触进而导致业务方系统故障。咱们的解决办法是Agent利用Shade工具进行依赖包重命名,这样类加载时就不再相互烦扰。这个踩坑教训心愿能对其余实践者产生帮忙,防止重走弯路。2.2.3 多语言反对微盟老的调用链体系是基于自制的上下文实现的,反对 Trace ID 、 RPC ID 等等,那么如何进一步提供多语言反对,尽可能地缩小基础架构的保护老本?咱们抉择借助开源的力量,除反对微盟协定外,平台还反对了Skywalking的跨过程流传的协定,借助Skywalking丰盛的SDK,既能满足的业务方更小众的语言的监控诉求,也能同时缩小保护老本。 2.3 调用链数据结构调链数据结构上咱们想达成的三个指标——撑持性、扩展性、前瞻性。咱们借鉴了OpenTelemetry规范和Skywalking的协定,构建了微盟本人的链路数据结构,如下图所示。 2.4 后盾链路服务后盾链路服务咱们须要达到以下四个指标:那么如何能力做到?首先是下面提到的数据结构扩大。而后构建了高性能的监控体系,把数据存储到VictoriaMetrics(时序数据库),做更多可视化展现。最初是撑持业务异样的检索和要害业务的检索,以满足业务方多样性的检索、监控、可视化诉求。 三、调用链体系在微盟的落地成果如何?该局部我将联合微盟的理论落地成果,开展解说上一章末的指标是如何达成的。 3.1 业务关键字能力基于对微盟业务的思考,咱们做了业务关键字的能力,这里不在于技术的实现,而在于这个诉求自身如何满足。传统的调用链体系通常会反对 Tag 类检索,然而 Tag 检索须要业务方做手动埋点,能力进行后续的检索。除了业务方的人力投入问题,这类检索经常不能齐全满足业务方检索需要。而业务关键字能力则能以最小的人力、存储老本,达成更好的成果。 ...

April 18, 2023 · 1 min · jiezi

关于运维:930大促日活增速超40-哈啰如何用预案高效应急

一分钟精髓速览应急预案,是指在零碎呈现故障时,为了保障外围业务可能继续可用,而提前准备的领导手册。这个手册能够用来通知咱们:在遇到什么样的问题后,做什么样的操作能最大化地升高对业务的影响,将被动响应变为主动防御。哈啰联合“930大促”流动,从多角度分享了其在日常梳理、预案保鲜、预案执行等方面的实践经验。 作者介绍 哈啰技术危险负责人——孟闯 TakinTalks稳定性社区专家团成员。十年互联网行业研发教训,2015年退出哈啰出行,参加哈啰业务零碎从0到1的建设,作为外围Owner主导多个重点稳定性保障我的项目,在高可用架构、技术危险等畛域有丰盛教训。目前次要牵头哈啰稳定性保障体系化建设,通过人员组织建设、工具/平台建设、要害我的项目落地等措施保障哈啰所有业务稳定性。 舒适揭示:本文约5000字,预计破费10分钟浏览。后盾回复 “交换” 进入读者交换群;回复“0302”获取课件材料; 背景去年国庆假期前夕,本地出行及生存服务平台——哈啰举办了首届以节假日出行为主题的假日狂欢节(以下简称为“930大促”),蕴含共享单车、共享助力车、电动车、打车、逆风车、小哈换电、租车、酒店以及火车票等在内的多项平台服务,简直都达到年度峰值,第三季度沉闷用户规模也跃升至出行行业首位,哈啰APP DAU也首次冲破1500万大关。(图片起源:极光大数据) 一方面是用户规模一直增长,一方面是业务零碎日渐简单,在此背景下呈现故障能够说是必然的事,那么故障产生后,如何尽可能升高故障对业务和营收的影响?哈啰通过技术危险团队来保障业务的连续性,一方面进步故障的发现能力,疾速晓得哪里出了问题;另一方面进步疾速解决问题的能力,即应急处理能力。而应急预案体系作为应急处理能力中十分重要的一环,能最大水平升高故障对业务的影响,本文将重点围绕预案开展,探讨预案在晋升应急效率中的利用。 一、应急预案为什么这么难?1.1 常见艰难与挑战在预案设计时,怎么保障预案对失常业务的低误伤率?预案的精确性,也就是怎么保障预案的执行就是针对特定异样场景?如何更加全面地梳理出异样场景?预案有效性如何验证?是否被无效执行的测验办法?这些问题是很多人在设计预案或者执行预案时,经常会存疑的问题。很多人会感觉想做好预案比拟难,联合哈啰的业务及我以往的教训,我认为预案的难点有三个。 场景多:以哈啰为例,外部业务线较多,如两轮、四轮、电商等等,各业务线又蕴含各类简单的场景,比方用户找车、扫码开锁、骑行卡购买等等。 保鲜难:因为预案梳理自身工作量是较大的,各团队预案梳理完后会存在更新频率低的问题。 预案杂:预案梳理中须要思考各种技术组件、外部利用零碎、中间件、底层存储、基础设施等等,波及的预案品种较多。 1.2 整体解决思路整个稳定性保障须要以保障外围业务可用性为大指标,所以—— 第一步,先对业务做分级,从外围业务场景围绕外围链路开始梳理。不要想一开始就对整体的零碎做十分全的笼罩,这是不事实的,而且很容易因为刚开始梳理就发现艰难,而导致梳理进行不上来。 第二步,生产高频演练,保障预案有效性。有很多预案咱们不晓得是否有用,关键时刻不敢执行,所以预案肯定是要通过验证的。对于无损的预案,能够在生产环境进行高频演练;对于业务有损的预案,可在线下做模仿验证,定期在生产环境业务低峰期演练。以哈啰为例,两轮车业务有典型的早晚顶峰的场景,咱们就能够在早晨凌晨两点做演练,尽可能升高对业务的影响。 第三步,对常见的故障画像进行建模剖析,形象出罕用的止损伎俩。看起来预案的办法比拟多,然而要害时候还是不晓得怎么用,所以还须要梳理常见的故障,比方理解应用层个别有哪些故障,对故障画像进行建模剖析,形象出罕用的止损伎俩,比方切换开关、熔断降级、自定义操作等。 二、如何从0-1建设应急预案体系?2.1 应急预案的5个因素 触发条件:即在什么状况下须要执行这条预案,哪个资源出了什么问题,这个条件应是可评估或可量化的,比方须要注明某业务指标上涨超过某个比例,或者某技术指标超过某个比例。如果不量化,会呈现不晓得何时操作、能不能操作的问题。 执行动作:即预案具体要做什么事件,步骤要清晰,可观测和可回滚。要写分明对哪个资源、做什么动作,而且还要表明通过哪些指标去判断操作是否失效。随着故障处理过程的变动,可能还是须要做回滚,要想分明预案如何做到可撤销或者可回滚。 影响范畴:预案执行之后,预估对业务会造成什么样的影响,比方用户体验、数据一致性、资损等。大多数状况下,预案都会有一点损失,比方某个预案执行后,用户关上App时无奈看到营销页面,或者没有弹窗提醒等等,可能还会有一些影响比拟大的状况,比方会导致短时间的数据不统一,所以在预案中要写分明对用户的影响。预案是须要研发、产品、业务甚至经营独特探讨的,须要评估线上零碎如果出故障,执行预案所带来的影响业务方是否能承受。 操作人:预案的理论执行人,日常保护负责人,防止人员单点,要有Back up。之前我遇到过要害零碎呈现故障,但操作人电话无奈接通,或者无奈立刻解决的状况,这就要求预案制订时须要有降级或者备份机制,能迅速找到对应解决人并确保预案执行。 同步机制:应急预案执行后,须要明确信息同步给哪些人,相应的沟通打算是什么样的,信息推送到哪些渠道等等,在应急指挥时防止信息不统一导致的机会延误。 2.2 预案梳理的4个流程 2.2.1 剖析业务场景在预案梳理时不要贪多,把外围与非核心业务离开,先保障外围业务,并找到几条要害链路来梳理。 以哈啰两轮业务为例,单车和租赁车业务里,会有诸如用户扫码开锁、查看左近车辆、购买次卡、骑红包车等等很多业务逻辑,咱们会和业务沟通,哪些是外围业务场景,其中,“外围”的定义能够视各自公司状况而定,也能够参考通用的规范,比方影响用户的范畴、用户DAU/UV/PV、对业务收入即GMV的影响、是否会造成大规模客诉引发舆情问题等等。 2.2.2 辨认要害资源找到外围业务后,保障这个业务的连续性,须要辨认它依赖哪些资源,网络入口、业务利用、中间件、存储、基础设施等等都要辨认进去。仍然是先看外围的强依赖,对要害资源做重保预案。对于弱依赖(组件挂掉后不影响外围业务),咱们能够通过熔断、降级等自动化的预案Cover。 2.2.3 列出故障模式接着剖析这些辨认进去的外围资源可能产生哪些故障,比方负载变高影响内存CPU,使用率提早变大RT变高,错误率增多零碎异样,或者其余个性化的故障,都要剖析进去做成故障列表。 2.2.4 制订相应措施一个故障可能会有多种预案,比方利用重启、限流、扩容等等,这些预案都要具体写下来。止损伎俩就像是给流血的伤口止血,之后要做信息同步。还有比拟要害的是做数据的弥补和善后,因为业务复原后,对研发来说工作其实没有完结,他们还要找到被故障影响的用户,通过数据分析后给用户做弥补和善后。 2.3 预案梳理的4个要点和踩坑教训 2.4 应急预案的日常治理在预案梳理完后,还须要思考如何在日常的稳定性保障中让其运行,所以预案的日常治理也是十分要害的环节。 从整个预案的治理过程来看,首先是依照后面的办法产出预案清单;而后依据预案制订针对性的实战演练打算,须要确保预案在故障产生时能失效;接着开始预案执行,执行完后的零碎体现也须要做好观测和记录,比方系统资源的变动、业务的复原状况、资源水位、告警、日志……最初是成果验证,察看预案是否真的失效,并逐步完善预案。 所以预案梳理只是第一步,通过日常的治理并让其真正运行起来才是外围,否则线上出问题时,已有的预案大家也不敢应用,预案也就失去了存在的意义。 三、哈啰在理论工作中如何应用预案?3.1 哈啰的预案是怎么梳理进去的哈啰的预案起源次要有三个局部——被动梳理、线上故障、故障演练。 被动梳理:这里咱们在第二局部曾经具体讲过了,由业务零碎 Owner 被动梳理,依据业务场景逐渐往下做拆分,并与产品、业务方、经营方等等达成统一。 线上故障:在故障复盘时,咱们会探讨几个比拟要害的问题:应该做什么能力不出故障、应该怎么做能力疾速复原故障、整个故障过程中谁做了哪些操作……都列在工夫线中拿进去探讨,这样疏导大家思考和推演,针对特定场景多制订一些预案。 故障演练:在线上做突袭式的演练,以此发现流程中的有余,比方发现能力、定位能力、应急能力等等,发现问题而后促成优化欠缺应急预案。 3.2 哈啰应急预案实际案例3.2.1 应急指挥体系在分享实际案例之前,为了不便了解,这里先简略介绍哈啰的应急指挥体系,即在呈现故障之后会有哪些角色参加,团队别离要去做哪些事件,以及大略的协同流程。 3.2.2 案例1:数据库故障故障状况阐明: 某业务外围指标呈现上涨,监控告警零碎推送 High级别告警至相干人员。 应急过程: 1)NOC 发动应急,on-call的相干人员拉起,要害人员入群; 2)作战室排查定位,并进行初因剖析,确认故障点为数据库宿主机异样,大量慢SQL; 3)依照数据库应急预案,执行HA切换,备用实例切换至Master; 4)察看下层利用的要害指标,确认业务复原; 5)开始善后处理,研发开始拉取受影响用户范畴,提交至经营,评估是否做出弥补策略; 要点: ...

April 18, 2023 · 1 min · jiezi

关于运维:eBPF动手实践系列一解构内核源码eBPF样例编译过程

作者:闻茂泉 他山之石理解和把握纯c语言的ebpf编译和应用,有助于咱们加深对于eBPF技术原理的进一步把握,也有助于开发合乎本人业务需要的高性能的ebpf程序。目前常见和支流的纯c语言的ebpf编译应用办法,次要是两种。一种是内核源码中原生提供的编译形式。另外一种是libbpf-bootstrap我的项目中提供的skeleton编译形式。libbpf-bootstrap形式和社区5.x以上内核联合的比拟好,当前再做介绍,明天咱们抉择基于4.18内核的基于内核源码的原生编译形式做介绍。 在国内学习ebpf技术,就不得不提到《Linux内核观测技术BPF》书籍译者狄卫华老师。狄老师还有一个网站《深入浅出 eBPF》。在网站里,他专门用一篇文章介绍了基于内核源码形式编译ebpf的形式,文章内容叫《【BPF入门系列-3】BPF 环境搭建》 网址:https://www.ebpf.top/post/ebpf_c_env/ 咱们明天将参考这篇文章内容,对基于内核源码形式的纯c语言的ebpf编译形式做进一步剖析。 获取内核源码目前支流的服务器的操作系统环境还是以8u + 4.18内核为主。因而,本文以4.18版本内核为次要剖析对象。咱们提供如下操作系统环境的获取倡议: 获取操作系统环境如果你本人有centos8u兼容环境操作系统,则能够应用已有的环境。如果没有,能够通过阿里云官网购买阿里云主机,抉择抉择centos8或者anolis8操作系统环境。 $ cat /etc/centos-releaseCentOS Linux release 8.5.2111$ uname -r4.18.0-348.7.1.el8_5.x86_64获取开源的内核源码能够应用wget,从aliyun官网镜像,获取开源的4.18内核源码。 $ cd /tmp/$ wget https://mirrors.aliyun.com/linux-kernel/v4.x/linux-4.18.tar.gz$ tar -zxvf linux-4.18.tar.gz$ cd linux-4.18下载内核源码肯定要确保内核版本与操作系统的统一。起因是ebpf会用到VERSION、PATCHLEVEL和SUBLEVEL这3个宏的值与内核做内核版本校验。如果版本传的不对,ebpf校验会失败。 $ cat Makefile | grep -P '^VERSION|^PATCHLEVEL|^SUBLEVEL' VERSION = 4PATCHLEVEL = 18SUBLEVEL = 0初始化根底环境须要装置ebpf编译时依赖的llvm和clang等rpm包。此外内核编译还须要依赖openssl-devel等rpm包。 $ sudo yum install bison flex openssl-devel$ sudo yum install clang llvm elfutils-libelf-devel具体每个试验机器的环境可能略有差异,须要依据本人的状况做细节调整。 编译内核源码中ebpf程序样例编译环境初始化狄老师的文章中这里执行的是make scripts,在内核源码编译时此步骤前通常还须要执行make prepare。而make init正好蕴含这两步make prepare && make scripts。因而,咱们将命令依照如下形式优化,根本可能一遍跑过: $ cd /tmp/linux-4.18$ make oldconfig && make init # make oldconfig && make prepare && make scripts$ make headers_install编译内核源码样例终于执行到了内核源码中提供的ebpf程序样例的编译。 ...

April 17, 2023 · 4 min · jiezi

关于运维:好文赏析一文读懂运行时应用程序自我保护RASP

RASP作为一种新型的、无效的、实时的利用爱护伎俩,正被越来越多的企业应用,本文用浅显易懂的文字解说了RASP技术、RASP与WAF的关系,并提供了利用解决方案,快来浏览吧~ DevSecOps流程与RASP越来越多的组织正在应用DevOps来改良企业应用程序的开发、部署和保护。DevOps是有积极意义的,然而也会引入平安危险。 DevSecOps是一种新的流程计划,通过将安全性整合到DevOps流程中,帮忙企业在产品开发的生命周期晚期就能辨认和缓解各种平安问题。然而,在平安和开发团队之间依然存在着一些阻碍。因为软件开发的竞争性,组织须要闪电般的疾速交付速度来放弃竞争力。疾速的交付工夫会导致DevOps和SecOps团队的决裂。一些开发人员只关怀利用程序开发,而不认为平安是他们的责任之一,SecOps团队的主要职责只是在生产环境中扫描破绽。然而,将思维模式转变到平安上,将平安推到构建过程的最前沿,是每个人的责任。 爱护应用程序不受攻打的一种办法是通过实时监测和阻止攻打来爱护本人。实时阻塞正是所谓的“运行时程序自我爱护”(Runtime Application Self-Protection,RASP)技术所做的。 运行时自我爱护(RASP)是一种绝对较新的办法。尽管较新,然而它能够帮忙缩小差距,提供运行时利用级别的爱护,并为开发人员提供无关易受攻击的代码行的信息。 什么是运行时应用程序自我爱护(RASP)?运行时应用程序自我爱护(RASP)是一种在利用上运行的技术,在利用程序运行时发挥作用,旨在实时检测针对应用程序的攻打。 一旦应用程序开始运行,RASP能够通过剖析应用程序的行为和这种行文的上下文来爱护它不受歹意注入或行为的影响。通过应用应用程序一直地监控其行为,攻打能够在不须要人工干预的状况下立刻被辨认和缓解。 运行时应用程序自我爱护(RASP)将安全性整合到运行中的应用程序中,无论该应用程序在哪个服务器上。它监测从应用程序到零碎的所有申请,确保他们是平安的,并在应用程序中间接验证数据申请。Web和非Web应用程序都能够受到RASP的爱护。因为RASP的检测和爱护性能运行在应用程序上,所以这项技术并不影响应用程序的设计。 运行时应用程序自我爱护(RASP)如何工作?PART.1 当应用程序中产生安全事件时,RASP会控制应用程序并修复问题。在诊断模式下,RASP只会在呈现问题时产生警报。在防护模式下,它会尝试解决这个问题。例如,面对像是SQL注入攻打的行为,它能够阻止对数据库的指令执行。RASP能够采取的其余动作包含完结用户的会话,进行应用程序的执行,或向用户或平安人员收回警报。 PART.2 软件开发人员能够通过应用程序源代码中的函数调用来拜访RASP技术,这种办法更为精确,因为开发人员能够指定他们想要爱护应用程序的那些局部,比方登录、数据库查问和治理治理。或者,软件开发人员通过获取一个残缺的应用程序,并将RASP打包,使应用程序通过按一个按钮就能失去爱护。无论采纳什么计划装置RASP,其后果就像是在应用程序的运行时上下文配备了一个Web应用程序防火墙。这种与应用程序的紧密连接意味着,RASP能够依据应用程序的平安需要进行微调。 运行时应用程序自我爱护(RASP)的次要性能是: 应用程序爱护:在不中断非法应用程序应用的状况下,精确地阻止对应用程序破绽的利用。 应用程序威逼情报:为平安团队提供间接到代码的可视性,理解谁在攻打、他们应用的技术以及他们的指标应用程序。 PART.3 运行时应用程序自我爱护(RASP)在集成Web或非Web应用程序时剖析其行为和上下文,爱护软件不受歹意输出。RASP通过应用程序一直监控其行为,在不须要人工干预下,帮助实时辨认和加重攻打。 运行时应用程序自我爱护与利用程序运行时环境集成,无论它位于或在何处创立,例如服务器、虚拟机、容器,或者无服务器性能,都能与应用程序的运行时环境一起工作。 此外,RASP 的检测和爱护性能不影响应用程序的体系结构、设计和实现。RASP 通过查看应用程序中特定的、具备战略意义的堆栈地位上的所有申请,确保破绽不被利用。它还能够间接在应用程序内验证数据申请。因而,很容易在应用程序外部提供运行时爱护,爱护它免受威逼。 传统的平安工具,如虚构专用网络(VPN)、WEB 利用防火墙和网络访问控制(NAC),配置起来十分耗时,并且,通常状况下,开发人员都不参加这些配置。RASP 是能够让开发人员参加平安过程,并爱护他们在运行时创立的应用程序的一种间接形式。 这意味着通过认证的用户领有宽泛的网络拜访权限,减少了受侵害区域的范畴,并使大范畴的入侵成为可能。即便歹意人员浸透了防火墙和其余外围软件,RASP 也能够帮忙爱护应用程序。 当攻打产生时,RASP 能够阻止攻打,但你能够配置它来标记攻打。当可用性是一个重要的指标时,标记和生成警报而不是避免攻打就显得尤为重要。能够通过定义规定或策略来决定阻止或容许什么。这就是为什么你须要定义这些策略来防止正确地阻止非法的流量。 运行时应用程序自我爱护(RASP)的益处是什么?运行时应用程序自我爱护(RASP)是独特的,因为它从软件外部运行,而不是作为一个网络设备。这使得 RASP 可能利用正在运行的应用程序或 API 中可用的所有上下文信息,如代码、框架配置、 应用服务器配置、库和框架、运行时数据流、后端连贯等。更多的上下文意味着更多的爱护和更好的准确性。 运行时应用程序自我爱护(RASP)通过专一于单个应用程序而区别于其余网络安全解决方案。因为这种关注,它能够提供以下几个平安益处: 上下文感知当RASP 检测到潜在的威逼时,它领有应用程序以后状态的附加上下文信息,包含哪些数据和代码受到了影响。此上下文有助于考察、确定优先级并修复潜在的破绽,因为它显示了裸露在代码中的地位,以及如何充分利用它。 应用层攻打的可见性RASP 在与特定应用程序集成时,在应用层具备宽泛的可见性。这种应用层可见性、洞察力和常识能够帮忙检测更宽泛的潜在威逼和破绽。 0Day防护尽管 RASP 能够应用签名检测攻打,但它并不局限于这种办法。RASP 能够通过检测和响应受爱护应用程序内的异样行为来检测和避免零日攻打。 低误报率RASP 深刻理解应用程序的内部结构,包含可能看到潜在的攻打如何影响应用程序的执行。这大大提高了RASP 辨别理论攻打和升高误报率的能力。这种误报的缩小加重了平安团队的累赘,使他们可能专一于真正的威逼。 易于保护RASP的操作基于利用洞察,而不是交通规则、学习或黑名单。SOC 团队器重可靠性,CISOs 器重资源节约。此外,应用程序无论走到哪里都是自我爱护和平安的。 云反对RASP 被设计成作为其爱护应用程序的一部分进行集成和部署。这使得受爱护的应用程序能够部署在任何它们能够运行的中央,包含云。 DevSecOps反对RASP解决方案旨在作为DevOps继续集成和部署(CI/CD)管道的一部分应用。这简化了 RASP 的部署,并反对 DevSecOps 操作。 应用运行时应用程序自我爱护(RASP)解决方案的起因RASP技术通过监督输出和阻止可能容许攻打的输出来加强应用程序的安全性。它还爱护运行时环境不受未经受权的更改和篡改。 RASP能够避免被利用,并能够阻止任何显示歹意行为的流量,如 SQL 注入、破绽和机器人。此外,当它检测到威逼时,它能够登记用户。它还能够向平安人员收回警报。 RASP能够间接嵌入到利用中。因而,开发人员很容易部署,也能很天然地监控应用程序行为并爱护本身。此外,它还能高精度地拦挡攻打,辨别攻打和非法申请,缩小误报。 当正确应用 RASP时,应用程序曾经被设计为能够自我爱护。这对平安团队是无益的,因为它容许平安工程师只关注曾经报告的问题。 RASP 能够更好地避免零日攻打(软件破绽被发现当天产生的网络攻击),也能够在应用程序的补丁长时间不可用时提供短期修复。 RASP 提供更低的资本收入和经营老本。这是因为 RASP 解决方案疾速无效地阻止攻打,直到底层破绽被修复。因而,它的部署和操作老本比 Web 应用程序防火墙(WAF)要低得多。此外,RASP 技术察看应用程序正在做什么,因而不须要同样的调优、模型构建、验证或人力资源。 ...

April 17, 2023 · 1 min · jiezi

关于运维:悬镜云鲨SaaS三大核心能力-构筑下一代积极防御体系

近年来,随着云计算技术的蓬勃发展,云原生已成为当下的潮流,为企业的IT基础设施、数字化利用架构带来了颠覆性的改革,越来越多的企业将技术和业务全副构建在云上,云原生利用正引领下一个利用时代。从平安的视角来看,云原生平安成为企业最关怀的危险敞口之一,云原生利用平安防护面临诸多挑战,DevSecOps作为云原生平安建设的重要局部势在必行。 在这样的背景下,作为“代码疫苗技术”外围之一的RASP运行时利用自我爱护技术逐步炽热起来,作为一项与利用强关联、强绑定的平安技术,RASP被视为人造适宜云原生的最佳解决方案。 11月1日,悬镜平安正式上线了云鲨RASP SaaS(以下简称“云鲨SaaS”),凭借寰球首个轻量级代码疫苗技术,赋能利用内生被动平安免疫能力,构筑下一代踊跃进攻体系,筑牢企业外围资产防护“最初一公里”。 国内当先的代码疫苗技术赋能RASP智能免疫未知威逼悬镜独创的代码疫苗技术,外围是把平安检测和防护逻辑注入到运行时的数字化利用中,如同疫苗个别与利用融为一体,使其实现对危险的自发现和对威逼的自免疫。 运行时利用自我爱护(RASP)这一概念由Gartner于2012年提出,并在2014年Gartner的利用平安报告里被列为利用平安畛域的要害趋势。 RASP正是悬镜原创专利级代码疫苗技术的外围组成部分,基于运行时动静插桩的智能单探针技术能够获取、操作利用运行时的精准数据,进而实现检测进攻相干的诸多性能,甚至能将多种能力组合、串联,造成一个对立的运行时平安探针。凭借轻量级代码疫苗技术,云鲨SaaS通过插桩专利级AI检测引擎、利用破绽攻打免疫算法、运行时平安切面调度算法及纵深流量学习算法等关键技术,将防护逻辑与防护性能注入应用程序,深刻利用运行时的环境外部,无需人工干预,使利用领有威逼自免疫能力。当应用程序开始运行时,RASP能够通过剖析与理解数据流及事件流,检测和防护无奈预感的平安威逼与攻打事件,尤其在0Day等未知破绽进攻、东西向流量防护、软件供应链投毒免疫等方面,领有相对的外围劣势。 1//  0Day破绽进攻 家喻户晓,在Log4j2.x破绽事件中,RASP技术因其可能进攻未知破绽的个性,爱护了大量企业免遭破绽的侵扰,也因而一夜之间在整个IT行业中爆红。那为什么RASP可能进攻0Day破绽这一近乎无敌的大杀器呢? 简直所有的攻打伎俩最终都能够演绎为敏感命令执行、敏感文件读写、敏感数据库操作等异样行为。以Log4j2.x破绽为例,攻击者无论是利用它向内部服务器发送申请,还是进行JNDI注入,抑或是最初进行命令执行,云鲨SaaS都能针对以上敏感操作采取相应的阻断和防护动作。 图1 RASP进攻Log4j2.x近程代码执行破绽过程2//  东西向流量防护 东西向流量通常指外部环境下不同应用服务器间的拜访流量,随着微服务、云原生架构的遍及,服务间调用频率将成倍增长,协定也不再局限于HTTP(s),基于RPC的Dubbo、gRPC等协定将逐步成为支流。在这样的新场景下,传统边界基于流量特色进行匹配的防护计划很难满足企业应用平安防护的须要。 云鲨SaaS将对利用的平安防护地位从边界、主机维度聚焦到了利用外部。不论是从内部发动的南北向流量亦或是由外部产生的东西向流量对于注入到利用内的探针来说都是内部数据,并以利用外部视角对这些进入应用程序的数据进行剖析,联合代码调用逻辑提供高精准、高效率、高业务了解度的防护动作。在延展了东西向流量防护的同时,为平安人员和研发人员提供了利用外部数据流转內视和缺点溯源定位的平安经营数据。 3//  供应链投毒免疫 云原生时代,软件应用开发模式演变为开源主导,软件供应链投毒事件不足为奇,一旦被攻击者发现应用程序中援用了蕴含已知破绽的组件,就可能导致服务器被攻打或者敏感数据透露,造成无奈设想的严重后果。 开源软件和第三方组件的破绽在被利用时,执行到利用代码底层,往往都会汇集到一些“敏感”函数上,如反序列化、数据库执行、命令执行、文件操作、响应返回等相干函数,而云鲨SaaS能对这些底层“敏感”函数调用进行辨认阻断。即使破绽呈现,云鲨SaaS也能够动静下发热补丁进行修复,在不中断业务的同时为利用零碎提供长期防护,为破绽修复争取宝贵时间。 近十年核心技术积淀打造用户业务场景内平安闭环作为DevSecOps麻利平安畛域的技术领导者和关键技术首创者,悬镜平安在引领行业关键技术演进方面承当了极其重要的角色。由悬镜平安打造的云鲨RASP自适应威逼免疫平台目前也走在RASP畛域的国际前列。 图2 All in one,单探针实现利用平安检测防护一体化悬镜平安是业内最先提出All in one“单探针”策略的厂商。通过一个探针来实现更多利用平安方面的可能性,将多种利用平安能力都融入到同一个探针之中,以单探针来贯通整个利用的全生命周期,全流程地检测利用的平安态势。 通过近十年的底层能力积攒、翻新研发19+项国家专利级外围算法,悬镜平安已将智能代码疫苗技术的外围——函数级探针深钩在利用内存上下文之中,仅需装置一次,可反对IAST、RASP、SCA、API Fuzz、APM等利用平安检测响应能力,真正实现All in one,One for all。 对于“单探针”策略,悬镜平安CTO宁戈在平安419的一次专访中有过粗疏介绍,参考浏览:媒体专访 | 悬镜平安宁戈:做软件供应链平安畛域的长期主义者 目前,悬镜平安这一“单探针”策略曾经在云鲨RASP上实现了场景化的落地,继续赋能数百家行业头部用户。 以悬镜平安在金融行业的某标杆案例为例,用户在部署云鲨RASP后,通过繁多的轻量级探针便将IAST、SCA、RASP等能力体系化地集成到本身的数字化利用开发流水线中。 每当遇到须要紧急上线的我的项目时,平安团队便可能很好地利用云鲨RASP提供的运行时平安防护与虚构补丁性能,容许我的项目在存在安全漏洞的状况下打上虚构补丁后疾速上线,随后再在规定的工夫内实现破绽修复的技术债权,实现平安团队的无忧经营,并与开发团队之间达成共赢。 值得一提的是,云鲨RASP通过运行时插桩技术能够对已上线环境的破绽下发代码级热补丁,让研发人员精准地看到破绽所在位置,准确到代码的调用栈的检测后果也为研发人员下一步修复安全漏洞提供了极大的便利性。 面对以后用户最为关注的开源组件风险管理问题,云鲨RASP还交融了悬镜平安独有的OSS引擎,可能精准地辨认利用零碎理论运行过程中动静加载的第三方组件及依赖,对运行时的应用程序自身进行深度且更加无效的威逼剖析,深度开掘组件中潜藏的各类安全漏洞及开源协定危险,更进一步地保障应用程序的平安运行,从RASP的角度登程,解决用户重点关切的开源治理难题。 保持PLG产品翻新驱动为企业用户提供普惠性平安能力悬镜平安创始人子芽对外屡次强调,悬镜始终坚守PLG产品翻新驱动价值增长的用户交付理念和平安普惠经营理念。通过SaaS化的交付模式让更多用户可能匹配本身的平安建设需要,是推动DevSecOps倒退的要害能源之一。云鲨SaaS正是悬镜平安在云原生平安畛域的重要策略布局。 家喻户晓,SaaS的交付模式对产品本身有着较高标准的要求,无论是探针的稳定性、安全策略的精准度,还是在RASP平台内置的平安解决流程方面的能力都面临着比拟大的考验。本次云鲨SaaS的正式上线,实际上彰显的是悬镜云鲨RASP这一产品在成熟度和先进性方面的硬核实力。云鲨SaaS是一个持续性的防护工具,在装置探针之后,会继续地帮忙用户进行平安监测,继续爱护用户的利用平安。悬镜平安心愿以SaaS的形式让更多用户可能开始应用RASP这一改革型技术。 图3 云鲨RASP SaaS后盾首页截图此外从云鲨SaaS的多处细节能够显著看到悬镜平安的精心思考和翻新设计。 首先,针对局部企业由开发、测试和运维相干人员专任平安工作的状况,云鲨SaaS为用户们筹备了“保姆式”的平安疏导阐明,通过手把手的教学来指引用户循序渐进地实现探针装置、事件剖析等全流程操作,即使齐全不懂平安,也可能迅速上手。 其次,用户自建平安防护策略的形式非常敌对,只须要通过点选和简略的填写,就可能在产品中主动地生成一个代码级别的规定并下发到平台中,这极大升高了用户的操作门槛。 此外,云鲨SaaS还为用户凋谢了虚构补丁性能。围绕这一性能,悬镜平安创立了社区,激励用户在社区内流传和分享本人的策略和规定。 在下一次0Day破绽事件暴发时,能够构想这一场景:开启云鲨SaaS,察看相干的攻击行为是否被拦挡,很快有着超强技术实力的用户就在社区中公布了防护策略,大家可能通过复制代码,将这条策略提取到云鲨SaaS公有空间外面,用于加固本身利用平安。 悬镜平安心愿通过这样的形式,推动实现平安共建的愿景,将进攻未知破绽的能力以SaaS的模式交付到每一个用户手中。让开发、测试、运维相干人员也可能为平安负责,把平安团队从经营工作中解放出来,而将精力更多地放在破绽发现、确认和修复工作中去,最终真正实现DevSecOps中责任散发、平安共担的理念。 悬镜云鲨SaaS官网入口: https://rasp.xmirror.cn/

April 17, 2023 · 1 min · jiezi

关于运维:为无登陆鉴权功能的接口与网站添加登陆鉴权功能

1. 原因自己局部服务的测试接口为不便日常测试调试,应用了 ip+端口 的模式进行拜访,并且未配置账号密码鉴权机制。在日常测试一段时间后,终于还是收到了来自腾讯云的监管告诉,说服务存在数据泄露的危险,须要进行整改,否则将强行关停服务。 于是,自己认真思考本问题、查找相干材料并联合自己的web服务理论状况,决定应用 HTTP Basic Auth 技术并联合 NGINX 反向代理来实现接口鉴权的操作。 2. HTTP Basic Auth2.1 什么是 HTTP Basic Auth ?HTTP 提供一个用于权限管制和认证的通用框架:根本认证(Basic access authentication),其是一种用来容许网页浏览器或其余客户端程序在申请时提供用户名和口令模式的身份凭证的一种登录验证形式。 长处: 操作简略所有风行的网页浏览器都反对根本认证毛病: 认证信息仅仅应用Base64进行编码,并未应用加密算法无奈避免中间人攻打,中间人可已批改报文而后申请服务器2.2 为接口增加 HTTP Basic Auth 鉴权原理:自己应用 NGINX 反向代理拜访接口数据服务器,并在 NGINX 反向代理配置文件中增加 Basic Auth 鉴权性能, 2.2.1 创立反向代理网站在反向代理服务器中应用宝塔面板创立一个网站,并将域名(或任应用ip+port)解析到该网站。 2.2.2 装置 htpasswd 并生成鉴权账号和明码首先装置 htpasswd 服务 sudo apt-get install httpd-toolshtpasswd是开源的http服务器Apache Http Server的一个命令行工具,能够用来创立和更新根本认证的用户认证密码文件。参数 -b —>明码间接写在命令行中,而非应用提醒输出的形式-c —>创立密码文件,如果文件存在,则笼罩-n —>不更新密码文件,将用户名明码进行标注输入-m —>应用md5算法对明码解决-d —>应用crypt算法对面解决-s —>应用sha算法对明码解决-p —>不对明码加密解决,应用明文-D —>从密码文件中删除指定用户记录生成鉴权的账号密码文件在指定目录下生成鉴权的账号密码文件,该目录文件普通用户须要能够拜访并读写。 htpasswd -bc /usr/local/myPasswd/nginxpasswd test 1231232.2.3 配置反向代理与鉴权认证在刚刚创立的反向代理网站的配置文件中增加以下内容: location / { # 设置跨域相干配置 add_header 'Access-Control-Allow-Origin''*'; add_header 'Access-Control-Allow-Methods''*'; add_header 'Access-Control-Allow-Headers''*'; if ($request_method = 'OPTIONS') { return 204; } # 设置鉴权相干配置 # 帐号认证弹框的banner信息,阐明服务名称 auth_basic "请输入账号密码:"; # 认证的帐号密码文件,也就是咱们下面应用 htpasswd 创立的密码文件 auth_basic_user_file /usr/local/myPasswd/nginxpasswd; # 设置反向代理相干配置 # 配置须要被反向代理的数据接口服务器的 ip+端口 proxy_pass http: //127.0.0.1:12345;}而后通过反向代理服务器配置的域名拜访网站,会弹出输出用户名和明码的弹框: ...

April 14, 2023 · 1 min · jiezi

关于运维:研发运维双管齐下Seal-AppManager的正确打开方式

新一代利用对立部署治理平台 Seal AppManager 采纳平台工程的理念,通过升高基础设施操作的复杂度为研发和运维团队提供易用、统一的利用治理和部署体验。Seal AppManager 帮忙研发和运维团队实现关注点拆散,即运维工程师负责根底建设,研发能够在零基础设施常识的状况下实现利用部署治理。  本文以运维和研发两个视角,介绍如何通过Seal AppManager 从源码构建一个 Java Web 服务并部署到 Kubernetes 中。  运维视角李维是 Alpha 公司的 DevOps,他须要搭建一个自服务平台提供给不理解容器和 Kubernetes 的研发团队应用。他做了以下筹备工作:   资源不少于4CPU,8Gi内存的 Linux 服务器。至多 50GB 的空余磁盘空间。装置 Docker,具体指引参Docker官网文档(https://docs.docker.com/)。服务器凋谢80和443端口。返回官网(https://seal.io/trial)申请产品试用镜像。装置一个 Kubernetes 集群,获取到 Kubeconfig 文件。 部署执行以下命令启动 Seal 服务:sudo docker run -d --privileged --restart=always -p 80:80 -p 443:443 <seal-container-image>  拜访通过 https://<server-address> 拜访Seal的UI。   第一次登陆时依据UI提醒,在服务器上运行以下指令获取初始的管理员明码。sudo docker logs <your-container-id> 2>&1 | grep "Bootstrap Admin Password"  以 admin 用户名以及初始管理员明码登陆 Seal,并依据UI提醒设置新的明码以及 Seal 的拜访地址。  配置镜像仓库认证密钥配置提供给研发应用的镜像仓库测试账号: 拜访【运维核心】-【全局密钥】菜单,点击【新建密钥】按钮。在【名称】中填入 REGISTRY_USERNAME,在【内容】中填入镜像仓库认证的用户名,点击【保留】按钮。再次点击【新建密钥】按钮。在【名称】中填入 REGISTRY_PASSWORD,在【内容】中填入镜像仓库认证的明码,点击【保留】按钮。 配置 Kubernetes 与环境增加 Kubernetes 集群作为利用的部署指标: ...

April 14, 2023 · 1 min · jiezi

关于运维:Terraform-系列Terraform-Cloud-比-Terraform-OSS-有哪些增强

系列文章 Terraform 系列文章 前言最近在应用 Terraform Cloud 来置备 OCI 的 Always Free Tier, 发现它十分好用,相比 Terraform OSS, 用起来省心多了。 也借此总结学习下:Terraform Cloud 比 Terraform OSS 有哪些加强,这些加强性能面向哪些客户,解决了哪些痛点? 能够作为咱们基于 Terraform 开发本人的 IaC 云平台的教训。 Terraform OSS 的性能Terraform OSS 的性能曾经在 之前的文章 里介绍过了。 这里再反复一下: IaC工作空间变量运行-打算和利用资源图供应商模块注册表申明式编程云无关表达能力强且高度可扩大协同工作(须要进一步配置)生命周期治理测试HCL平安和密钥治理(须要进一步配置)Terraform Cloud 简介Terraform Cloud 是 HashiCorp 基于 SaaS 的 Terraform 版本。 Terraform Cloud, 天经地义用于 Terraform OSS 的以上所有性能。 Terraform Cloud vs. Terraform OSSTerraform Cloud 比 Terraform OSS 有哪些加强?具体如下: IaC 性能加强Remote State: Terraform Cloud 自带开箱即用的 Backend, 方便管理 remote state, 确保部署一致性、独特指标和繁多事实起源VCS 连贯: Terraform Cloud 买通了 Github 等 VCS, 能够无缝应用 VCS + Terraform. 使多个团队成员可能在我的项目中解决独自的代码流,并通过简略的回滚门路以结构化的形式将变更合并回外围我的项目中。工作空间治理: Terraform Cloud 提供了更为丰盛的工作空间治理性能和 UI平安和密钥治理: Terraform Cloud 基于 Terraform Vault 提供了开箱即用的平安变量(平安和密钥)的存储。近程运行和状态: Terraform Cloud 反对本地运行和近程运行,近程运行无需本人装置 Terraform, 间接应用 Terraform Cloud 提供的 Terraform. 意味着所有部署都是从一个集中地位实现的公有模块注册表: 公有模块存储库容许跨多个工作空间和我的项目拜访模块代码的单个实在源,从而升高差别的可能性,从而进步代码稳定性。△ Remote State ...

April 13, 2023 · 2 min · jiezi

关于运维:Terraform-系列Terraform-简介

系列文章 Terraform 系列文章 前言最近在应用 Terraform 来置备 OCI 的 Always Free Tier, 发现它十分好用。总结学习下:Terraform 的基础知识。 什么是 Terraform?Terraform 是一种基础架构即代码(IaC)工具,可让您平安高效地构建、更改云和本地资源并对其进行版本控制。 HashiCorp Terraform 是一种基础架构即代码工具,可让您在人类可读的配置文件中定义云和本地资源,您能够对这些文件进行版本控制、重用和共享。而后,您能够应用统一的工作流程在其整个生命周期内配置和治理所有基础设施。Terraform 能够治理计算、存储和网络资源等低级组件,以及 DNS 条目和 SaaS 性能等高级组件。 Terraform 的次要特点基础设施即代码(IaC):基础设施应用高级配置语法进行形容。这容许对数据中心的蓝图进行版本控制,并像看待任何其余代码一样看待它。此外,基础设施能够共享和重复使用。执行打算(Plan):Terraform 有一个“打算”步骤,它能够生成执行打算。执行打算显示了 Terraform 在您调用 apply 时将执行的操作。这能够让您在 Terraform 操作基础设施时防止任何意外。资源图(Resource Map):Terraform 构建所有资源的图,并并行化任何非依赖资源的创立和批改。正因为如此,Terraform 尽可能高效地构建基础设施,并且运营商能够深刻理解其基础设施中的依赖关系。变更自动化:简单的变更集能够以起码的人工交互利用于您的基础架构。有了后面提到的执行打算和资源图,您就能够确切地晓得 Terraform 将更改什么以及更改的程序,从而防止许多可能的人为谬误。Terraform 的性能这里简略列举一下,因为笔者程度所限,可能有脱漏,请帮忙补充: IaC工作空间(WorkSpace): Workspace 容许雷同的配置代码有一个以上的状态 (State) 文件。这意味着部署到多个环境时,不须要将配置代码复制粘贴到不同的文件夹。每个工作空间能够应用本人的变量定义文件来参数化环境。变量(Variable): 即用户提供的值,它们可能参数化 Terraform 模块 (modules), 而不用批改源代码。运行(Run)-打算和利用(Plan & Apply)资源图供应商(Provider): Provider 是上游 API 的逻辑形象。他们负责理解 API 交互和公开资源。如:AWS/Azure/GCP/Kubernetes/Aliyun/OCI Providers模块(Modules): 模块是 Terraform 配置的独立包,容许把相干资源组合到一起,创立出可复用的组件。要应用模块,你并不需要晓得模块的工作形式,只须要晓得如何设置输出和输入即可。对于晋升软件形象度和代码复用,模块是很有用的工具。相似于积木块或 Python 的 library.注册表(Registry): 发现为所有 Terraform 资源类型提供反对的 Terraform 提供程序,或查找用于疾速部署通用根底构造配置的模块。相似于 Docker Registry 或 Python PypI.申明式编程: 表白计算逻辑(做什么), 但不形容控制流(怎么做). 其关注的是后果,而不是过程。云无关: 可能应用一组雷同的工具和工作流,无缝运行在任意云平台上。Terraform 是云无关的,应用它能把基础设施部署到 AWS 与部署到 GCP、Azure 甚至公有云一样简略。不会被特定云供应商(如 AWS CloudFormation)所绑定,也不须要在每次扭转云供应商时学习一种全新的技术。表达能力强且高度可扩大:通过应用条件语句、for 表达式、指令、模版文件、动静块、变量和许多内置函数,咱们能够轻松地编写代码来实现本人的目标。Terraform 提供以下个性: ...

April 12, 2023 · 1 min · jiezi

关于运维:图数据库驱动的基础设施运维实操

本文系图技术在大型、简单基础设施之中 SRE/DevOps 的实际参考,并以 OpenStack 零碎之上的图数据库加强的运维案例为例,揭示图数据库、图算法在智能运维上的利用。本文所有示例代码开源。最近,有些尚未应用过图技术、DevOps/Infra 畛域的工程师在 NebulaGraph 社区询问是否有「图技术在运维的利用」相干案例参考。于是,我又能够“小题大作”来实际下如何利用图的能力与劣势去帮忙运维工程师们基于简单基础设施上构建辅助运维零碎。如果你对本文有任何认识,欢送评论区或者来论坛和我交换下,非常感谢。 通常,咱们说的简单的基础设施运维环境指的是资源(manifest)繁多且散布在不同层面的零碎。为了让实际更加实在、贴近理论的运维状况,让运维问题简单又可控,这里我抉择了用一个基础设施平台:OpenStack。在 OpenStack 零碎上,我别离利用 Push 和 Pull 两种模式将资源在图模型中对应点、边信息加载到 NebulaGraph 的 Graph ETL 管道的门路中。 在咱们基于运维资源构建的图谱,会做如下用例图摸索: 告警、状态的推理与传导;网络直连与互联关系;镜像、云盘、快照血统治理;高相关性虚机预警;秘钥透露的图下风控剖析;镜像、云盘破绽范畴剖析;宿主机逃离影响范畴剖析;软弱依赖资源检测;试验环境搭建背景常识OpenStack 是一个开源的云计算平台,提供了相似于 AWS 的云服务。它提供了一组可插拔的模块,包含了计算,存储和网络等性能,能够帮忙用户构建和治理云环境。OpenStack 采纳分布式架构,反对多种操作系统和硬件平台,能够在企业级和服务提供企业级环境中应用。 最后,OpenStack 是由 NASA 和 Rackspace Inc. 发动的 Nova(虚拟化计算我的项目)和 Swift(兼容 S3 的对象存储)我的项目组成。随着我的项目的倒退,OpenStack 当初曾经有十分多不同的子项目: 本次实际中波及到 OpenStack 的次要我的项目有: Nova 是 OpenStack 的计算服务,用于治理虚拟机;Cinder 是 OpenStack 的块存储服务,用于治理云存储;Neutron 是 OpenStack 的网络服务,用于治理云网络;Glance 是 OpenStack 的镜像服务,用于治理云镜像;Horizon 是 OpenStack 的可视化控制台服务。除此之外,我还引入了 Vitrage 我的项目辅助咱们收集局部资源数据: Vitrage 是 OpenStack 的一个高级剖析和可视化工具,用于剖析和可视化 OpenStack 环境中的资源和事件。它能够会集来自 OpenStack 各个服务的数据,并以可视化的形式出现。Vitrage 能发现和诊断问题,进步 OpenStack 环境的可用性和可维护性。得益于 OpenStack Decouple 的设计理念,Vitrage 能够很容易、无侵入式(只用批改要收集的服务的两行配置)就能够在 OpenStack 的音讯队列中订阅资源信息的 Push 音讯。 ...

April 12, 2023 · 6 min · jiezi

关于运维:博睿数据受邀出席GOPS-2023-深圳站自适应AI支撑可观测性全面升级

4月7日-8日,为期两日的GOPS寰球运维大会2023完满闭幕。博睿数据受邀参会,博睿数据AIOps首席专家贺安辉在AIOps最佳实际及解决方案专场,做「自适应AI助力可观测性全面降级」分享。与来自招商银行、中国银行、阿里巴巴、腾讯、华为等业内同仁就运维相干内容开展交换。随同着企业外部业务区隔的划分与数据量的高速收缩,海量扩散的数据正一直加剧数据资产的治理难度。以后,传统伎俩曾经无奈适应当下企业对数据管理的需要,企业一直暴露出零碎烟囱化、数据碎片化、治理规范不足、价值变现艰难等问题。通过大数据资产治理进步管理决策效率,升高企业数据应用的老本,未然成为大数据时代企业竞争力的重要起源。 大数据时代的战略意义不仅在于把握宏大的数据信息,还在于发现和了解信息内容及信息与信息之间的关系。贺安辉指出,Bonree ONE以低代码流式数据集成作为交融畛域专一和畛域发散的要害策略,通过 OneETL、OneData、OneTopo建设对立的数据体系,自动化免保护构建实体关联关系, 进而撑持OneService为企业提供Dashboard、Analysis、Alert、ITIM、APM、DEM等利用场景。此外,在数字科技时代,须将数据融入到企业组织的经营模式与思维形式中。以后泛滥非技术背景的业务人员,依然须要破费大量的工夫逾越技术的门槛,数据文化仍被局限在繁多部门或者个别数据专家之间。如何让更多人能理解、参加、 剖析、推理数据,把数据分析和决策无缝的嵌入现有的工作流程中,AIOps成为首选。 背靠自适应AI能力,Bonree ONE将为企业提供实体关系拓扑、调用链路拓扑、故障森林拓扑几种数据关系洞察。在无需人工染指的背景下,同步收敛并根因剖析,具备可复制性强、可解释性强的劣势。此外,自适应AI也可依据指标导向与实时反馈一直学习,失去个性化的论断。博睿数据作为中国当先的智能可观测平台代表厂商,长年以来专一于构建以用户为核心的简捷、高效、智能的新型IT运维,现领有发明专利21件,软件著作权111件,已成为1000+客户的信赖与抉择。 Bonree ONE 2023秋季正式版将于4月21日在北京公布,更轻、更强、更智能的一体化可观测平台,邀请您独特见证,欢送预约线上观看。

April 11, 2023 · 1 min · jiezi

关于运维:GOPS-全球运维大会来了龙蜥社区邀您一起了解系统运维

GOPS 寰球运维大会由高效运维社区(GreatOPS)、凋谢运维联盟(OOPSA)和 DevOps 时代社区联结主办,领导单位为云计算开源产业联盟、FinOps 产业推动方阵。寰球运维大会是国内第一个运维行业大会,面向互联网、金融、通信及传统行业宽广运维技术人员,旨在流传先进技术思维和理念,分享业内最佳实际。龙蜥社区外围开发者冯富秋受邀参会,将在“可观测专场”分享技术演讲。 迄今为止,GOPS 曾经举办了十九次,第二十届 GOPS 寰球运维大会将于 2023 年 4 月 7-8 日在南山区深圳湾万丽酒店召开。大会将为期 2 天,偏重方向是云原生、DevOps、AIOps、DevSecOps、BizDevOps 等技术畛域。本次大会特设了如互联网大厂企业专场、银行/证券名企数字化转型案例专场、云原生架构专场、DevOps/AIOps 最佳实际专场、可观测性技术实际专场等特色专场。 大会演讲嘉宾简介:演讲主题:阿里基于内核分析的故障剖析和智能运维实际 演讲工夫:4 月 8 日 11:30-12:10 演讲嘉宾:冯富秋,龙蜥社区零碎运维 SIG Owner 主题简介: 云利用简单的问题单纯从利用本身或内核的已有指标难以定位,因而都须要深刻内核剖析。但内核故障的诊断和运维自身具备较高复杂度,也要求运维人员具备较高的技术门槛和教训积攒。以后,业界具备这部分能力的人才严重不足。从考察发现,大量中小客户都只能放任故障产生,因而亟需自动化和智能化的内核诊断和运维零碎赋能客户,以减小故障诊断和运维的难度。作为阿里巴巴操作系统部门零碎服务团队,咱们提供全团体内核故障的诊断剖析和修复服务,并对阿里云内核疑难问题提供兜底服务。咱们基于历史解决过的所有内核故障做系统性梳理和总结,通过阿里云大量的运维教训,进行深度内核的运维摸索并奉献到龙蜥社区。 演讲内容: 1、运维的现状和挑战 2、更好的运维体验 3、SysOM 2.0 性能分享 听众收益: 1.向你展现传统开源监控和定位伎俩在理论大规模实在场景下的有余和窘境,理解运维同学心里的痛。 2.理解龙蜥社区 SysOM 运维零碎如何基于内核的深度定制,让问题不仅知其然,还知其所以然。 GOPS 次要面向运维行业的中高端技术人员,包含运维、开发、测试、架构师等群体。目标在于帮忙 IT 技术从业者零碎学习理解相干常识体系,让翻新技术推动社会提高。您将会看到国内外知名企业的相干技术案例,也能与国内顶尖的技术专家探讨技术实际,使企业能够依据最佳实际确定本人的选型计划,并提前预估相干的危险和收益,实现技术落地。欢送大家来观看此次的技术分享,4 月 8 日 11:30 见~ 流动议程详情链接: https://www.bagevent.com/event/8373986?bag_track=WS&code=001I...

April 7, 2023 · 1 min · jiezi

关于运维:阿里云改革之后考试内容是什么

作为目前市场占比最大的云计算厂商,阿里云的认证在业界内是十分受认可的,而很多人也会为了考试而努力学习,然而前段时间考试进行了改革,很多人都不晓得改革后要怎么学习,怎么考试,上面大使简略介绍一下,如果有须要的搭档,能够在认证大使上具体理解。 学习内容 考试题型 单选题 70题 每题1分多选题 30题 每题1分 口试实现后,还须要在官网上实现试验

April 7, 2023 · 1 min · jiezi

关于运维:WireGuard-系列文章一什么是-VPN

系列文章概述通过一系列 Wireguard 文章,咱们冀望达到以下目标: 把握常识: 什么是 VPN什么是 WireGuardWireGuard 外围概念什么是 Netmaker?为什么要用 Netmaker?Netmaker 和 WireGuard 的关系是什么?入手指标: 装置 WireGuard装置 Netmaker实现 WireGuard Full Mesh 网络,网络包含以下节点,并实现全副的互联互通 阿里、腾讯、华为、百度、天翼云服务器节点家庭 NAS 节点家庭台式机办公笔记本安卓手机实现基于 WireGuard Full Mesh 网络的 K8S 网络上面来一一道来。 系列文章中,援用了大量官网和米开朗基杨博客的材料,感激伟人的肩膀。❤️❤️❤️ 什么是 VPN? 虚构专用网络(VPN)是通过互联网从设施到网络的加密连贯。加密连贯有助于确保安全传输敏感数据。它能够避免未经受权的人窃听流量,并容许用户近程进行工作。VPN 技术宽泛用于企业环境。 VPN 的用处企业用处:通过互联网将业务网络安全地连贯在一起的办法;企业用处:容许员工从家中或通过互联网近程工作来拜访业务网络;增强对近程员工的爱护,以便他们可能随时随地通过任何设施工作。商务旅客常常应用 VPN 在旅途中拜访其业务网络,包含其所有本地网络资源。本地资源不用间接裸露在互联网上,这进步了安全性。家庭用处:旅行时拜访您的家庭网络:您还能够设置本人的 VPN,以便在旅行时拜访本人的网络。这将容许您通过互联网拜访 Windows 远程桌面或家里 NAS 设施,应用本地文件共享,并通过互联网玩游戏,就像您在同一局域网(局域网)上一样。其余用处:拜访受区域限度的网站,爱护您的浏览流动免受公共 Wi-Fi 的窥探等。为什么企业会应用 VPN?VPN 是一种经济高效的形式,能够平安地将近程用户连贯到企业网络,同时还能够进步连贯速度。借助 VPN,企业能够应用高带宽的第三方互联网接入,而不是低廉的专用 WAN(广域网)链接或短途近程拨号链接。 近程拜访近程拜访 VPN 可平安地连贯公司办公室外的设施。这些设施称为端点,可能是笔记本电脑、平板电脑或智能手机。VPN 技术的提高容许在端点上进行安全检查,以确保它们在连贯之前满足特定的姿态。将近程拜访视为计算机到网络。 站点到站点站点到站点 VPN 通过 Internet 将公司办公室连贯到分支机构。当间隔使得在这些办公室之间建设间接网络连接不切实际时,将应用站点到站点 VPN。专用设备用于建设和保护连贯。将站点到站点拜访视为网络到网络。 虚构专用网络 (VPN) 如何工作?VPN 通过通过互联网建设的加密连贯来扩大企业网络。因为流量在设施和网络之间是加密的,因而流量在传输过程中放弃私密。员工能够在办公室外工作,但仍可平安地连贯到公司网络。甚至智能手机和平板电脑也能够通过 VPN 连贯。 当您将计算机(或其余设施,如智能手机或平板电脑)连贯到 VPN 时,计算机的行为就像与 VPN 位于同一本地网络上一样。您的所有网络流量都通过与 VPN 的平安连贯发送。因为您的计算机的行为就像在网络上一样,因而即便您位于世界的另一端,也能够平安地拜访本地网络资源。 ...

April 7, 2023 · 2 min · jiezi

关于运维:博睿学院-本周四ETL技术在数据标准化中的应用实践

随着以后数据环境的愈发简单,建设数据中台,构建出一个高效、牢靠、平安、可扩大的数据共享平台,实现数据在企业外部的共享、替换、加工、开掘和利用,已成为企业推动数据流动与交融,实现数据价值的必经之路。 如何突破数孤岛,实现数据互联,博睿学院邀请中台能力研发团队负责人罗俊就数据集成进行公开课分享。 本周四14:30罗俊将对数据集成技术中对于ETL(数据抽取、转换、加载)相干内容进行课程解说。 因为开发工夫或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些零碎的数据源彼此独立、互相关闭,使得数据难以在零碎之间交换、共享和交融,从而造成了"信息孤岛"。此外,还有来自凋谢规范的平台数据,其余厂商采集的数据、用户个性化数据等多种数据源。面对这些格局、粒度、构造不一的数据。由此带来数据品质不高、剖析老本低廉的问题。 原始数据须通过ETL解决,能力用于后续的剖析开掘工作。让所有的数据能够通过对立的逻辑进行查问和展现,为实现深度剖析提供无效撑持。此外,因为数据起源的业务零碎处于一直地更新保护中,这些变更也将对上游数据分析程序产生微小的影响。 而ETL过程作为一个缓冲区,当上游的业务零碎变更时,通过对ETL过程进行相应变更,即可放弃上游的数据分析的绝对稳固,从而升高系统维护老本。 更多ETL相干常识,欢送扫描二维码预约观看直播 在上一期课程中,博睿数据罗俊就数据中台赋能业务决策相干内容进行了分享,对如何在数据中台进行一体化、分层设计、高并发、高性能、高可用的架构设计,为企业提供数据治理能力满足各个业务部门和业务场景的需要的相干内容进行了解说。 直播回放请关注公众号,点击菜单栏“资源核心-直播回放”。 博睿学院数据集成系列公开课4月课程预约通道已开启,欢送扫描下图二维码预约,课后将发送课程材料到您的邮箱。

April 4, 2023 · 1 min · jiezi

关于运维:MIAOYUN与OpenCloudOSTencentOS-Server-3完成产品兼容互认证

近日,成都元来云志科技有限公司(简称“MIAOYUN”)的秒云容器云平台和秒云日志剖析零碎与OpenCloudOS、TencentOS Server 3实现产品兼容性测试互认证。测试结果表明,单方产品兼容性良好,整体运行稳固,性能失常,安全可靠。 1对于OpenCloudOS作为国产开源操作系统社区,OpenCloudOS 积淀了腾讯及多家厂商在软件和开源生态的劣势,在云原生、稳定性、性能、硬件反对等方面均有松软撑持,能够平等全面地反对所有硬件平台。目前,OpenCloudOS 已反对 X86_64、ARM64、RISC-V 架构,适配飞腾、海光、兆芯、鲲鹏等芯片。同时提供反对全栈国密和秘密计算,另有300余家企业产品与 OpenCloudOS 操作系统实现适配。 深厚的技术积攒与不断创新,让 OpenCloudOS 在社交、游戏、金融领取、AI、平安、大数据等实在业务场景中,经验了千万级节点的长时间验证,可用性高达99.999%。相比 CentOS 7 和其余开源社区版本,OpenCloudOS 故障率升高 70% 以上,且在典型业务场景中性能晋升超 50%。 2对于TencentOSServerTencentOS Server(简称TS)是腾讯云针对云的场景研发的 Linux 操作系统,提供特定的性能及性能优化,为云服务器实例中的应用程序提供更高的性能及更加安全可靠的运行环境。TS在腾讯外部操作系统里占比超99%,笼罩了腾讯所有的业务,其稳定性、安全性、兼容性和性能等外围能力均已失去长时间充沛验证。TS 是相比于 CentOS 更佳的企业级操作系统解决方案。 3对于MIAOYUN作为国内首家专一于云原生智能运维的公司,MIAOYUN专一于企业云原生环境下的智能运维需要,以“一秒入云,一键智维”为产品理念,打造一体化的云原生智能运维中台,内置云原生容器治理底座,针对云原生利用进行构建、编排、部署、观测、治理等全生命周期交付治理,疾速、平安、牢靠的落地云原生利用,最大化升高企业在云原生环境上的运维投入,让企业可能更专一于本身利用的开发和交付。 秒云容器云平台是一款开箱即用的企业级容器云平台,基于Kubernetes外围底座,产品以“让容器应用更简略”为外围设计理念,以可插拔的形式深度整合数十种云原生开源组件,提供简略易用、逐渐进阶、一致性操作体验的多云多集群治理、多租户治理、Linux和Windows利用全生命周期治理、容器和虚拟机对立治理、共享GPU调度、CI/CD、微服务治理等性能,最大化的屏蔽底层技术细节,极大升高容器技术应用门槛,重点解决企业生产环境中的基础设施云化,利用部署简化,运维治理自动化等难题。 秒云日志剖析零碎自研数据解析和搜寻减速引擎,采纳多维写时建模,实现0延时解决和0延时搜寻。是集日志采集、解析、检索、剖析、告警、响应于一体的实时日志对立剖析平台。专一于集中处理多起源、多格局、多采集协定的海量结构化/非结构化日志数据,反对从芯片、服务器到操作系统的全系信创生态。产品基于云原生容器化架构,以简略易用为产品外围设计理念,内置多种搜寻剖析工具,提供全图形化操作界面,0代码定制开发个性化的日志剖析利用。帮忙客户不便、疾速的从海量日志中定位问题,构建运维全景剖析视图,进步运维效率,升高运维老本。实用于日志运维、业务剖析等AIOps场景,同时满足等保合规、安全监控等需要,胜利服务于金融、能源、政府、运营商及互联网等诸多行业客户。 4测试认证过程本次兼容性认证测试包含且不限于验证秒云容器云平台治理节点部署、主机池治理、集群治理、域治理、项目管理、利用编排、调度治理、健康检查、镜像治理、监控告警、容器组高可用测试等24个业务功能测试。 实现秒云日志剖析零碎功能测试,包含零碎部署、接入数据源、数据解析、数据源搜寻、数据源模型搜寻、图标、仪表盘、告警规定、用户治理、系统监控等10个业务性能测试用例。 5测试认证论断本次测试蕴含34个业务性能测试用例,全副通过测试认证,测试期间各性能运行稳固,所有用例、场景均合乎测试通过规范,没有呈现任何异样。通过以上多项测试表明,秒云容器云平台、秒云日志剖析零碎与OpenCloudOS操作系统、TencentOS Server3齐全适配,满足产品兼容认证要求。 云原生时代,MIAOYUN高度重视云生态畛域的单干与建设,致力于打造国产化平台平安生态;OpenCloudOS社区致力于打造一个齐全中立、全面凋谢、平安稳固、高性能的操作系统及生态。本次单方联结实现产品互认证测试,是继MIAOYUN退出OpenCloudOS社区后,参加开源生态建设工作的重要动作。 将来,MIAOYUN期待与OpenCloudOS社区内更多生态搭档一起,共建以国产操作系统为外围的整体运行稳固,性能、兼容性等各方面体现卓越,满足用户需要的云原生智能运维平台,赋能数智化产业蓬勃发展。

April 4, 2023 · 1 min · jiezi

关于运维:Wikijs配置LDAP认证

装置好wikijs 之后, 能够进行进一步的具体配置. 这里介绍 LDAP 认证的配置. 在 治理 -> 身份验证 -> 增加策略 -> 抉择 LDAP/AD , 如下: 接下来进行具体配置: 显示名称: 按需批改是否启用: 是LDAP URL: 格局为: ldap://serverhost:389 or ldaps://serverhost:636Admin Bind DN: CN=xxxx,OU=xxxx部,OU=xxxx,DC=xxxxx-net,DC=com,DC=cn 留神: 肯定要明确该CN的残缺信息.确定归属于OU=xxxx部,OU=xxxx,DC=xxxxx-net,DC=com,DC=cn ... 否则登录时会报错: 账号/明码谬误 Admin Bind Credentials: 上边CN 的明码;Search Base: 从哪个base DN 搜寻用户的示例如下:OU=xxxx,DC=xxxxx-net,DC=com,DC=cnSerach Filter, 格局为: (id={{username}}). id 须要替换为对应的LDAP的我的项目, 个别为: (sAMAccountName={{username}}) 或 (uid={{username}})Use TLS: 按需Verify TLS Certificate: 按需TLS Certificate Path: 按需Unique ID Field Mapping(惟一ID域映射): 个别为: uid 或 sAMAccountNameEmail Field Mapping(电子邮件域映射): 个别为mailDisplay Name Field Mapping(显示名域映射): 个别为displayName或cnAvatar Picture Field Mapping(头像域映射): 个别为thumbnailPhoto或jpegPhoto开放注册: 启用限度到特定的电子邮件域: 按需调配给组: 默认是Guest, 按需调整.最终总结如下: ...

April 4, 2023 · 1 min · jiezi

关于运维:博睿数据中海油多云资源监控与治理案例荣膺云数大会年度优秀实践案例

3月29日,由中国电子学会举办的2023第二届年中国云计算和大数据技术与利用大会在京召开,主题为“适应新局势,贯彻新理念,促成新倒退”,中国工程院院士、中国信息通信研究院云计算与大数据研究所所长、天翼云科技有限公司首席专家、国家电网有限公司倒退策划部党总支书记副主任等各单位嘉宾发表演讲。会上公布了年度案例征集首批成绩,博睿数据案例“中国海油的多云资源监控与治理”荣获年度优良实际案例名称。作为Bonree ONE首批用户,中国海油多云资源监控与治理案例落地即荣获中国电子学会发年度优良实际奖,则从另一个角度展现了Bonree ONE对业务的赋能与对企业倒退的推动作用。中国陆地石油团体有限公司是中国最大的海上油气生产运营商,2022年,中国海油在《财产》杂志“世界500强企业”排名第65位,在《石油情报周刊》(PIW)评比的“世界最大50家石油公司”中排名第30位。公司次要经营业绩指标在央企位居前列。长期以来,中国海油面对着较为简单的数据环境,心愿可能搭建一套对全局视角进行治理的资源管理平台,实现包含对业务资源耗费的统计,对闲置资源用量的监控,各系统监控的对立指标体系,升高故障定位时长的无力抓手等指标。最终通过引入Bonree ONE实现中海油实现技术驱动型倒退:✓ 建设对立资源监控体系规范,实现资源标准化分层;✓ 对系统资源用量进行数据采集,定期评估资源应用效率;✓ 建设容量布局报告,进步资源利用率;✓ 建设SLO监测体系,实现各业务零碎全面的可观测性;✓ 减少利用组件指标采集,晋升故障诊断能力;✓ 突破部门数据孤岛,晋升故障协同诊断效率。完整版案例内容,欢送扫描下图二维码收费下载博睿数据作为中国当先的智能可观测平台代表厂商,长年以来专一于构建以用户为核心的简捷、高效、智能的新型IT运维,现领有发明专利17件,软件著作权111件。博睿数据精选来自中国海油、中国石化等12家企业先进运维案例,集结成册,公布《中国力量:中国先进企业IT运维精选案例集》,涵盖中国500强,中国数字经济100强,中国信创企业百强榜等多家上榜企业,解锁智能计算、金融科技、智慧能源等各类典型场景,从背景剖析、利用场景、利用成果等多个维度,深度解析中国先进企业IT运维案例。心愿可能通过教训分享,促成业界更多单干与交换,实现共同进步。

April 3, 2023 · 1 min · jiezi

关于运维:第一次来到专业技术分享平台

当前多向各位前辈学习。业余技术常识!

April 3, 2023 · 1 min · jiezi

关于运维:DAMS大会-博睿数据分享一体化智能可观测平台建设之路

3月31日,中国数据智能治理峰会DAMS2023在上海召开,来自BAT、京东、小米、蚂蚁金服、唯品会、三大运营商、中国银联、银行证券、国家电网等近百位互联网与传统企业行业专家,分享最新数据资产与大数据的理念、趋势、治理办法和最佳实际。 博睿数据售前总监杨雪松受邀加入信创运维专场,做《一体化智能可观测平台建设之路》主题演讲,就建设简单动静零碎的可观测性,通过平台化的形式让数据更加凋谢容纳等相干内容开展分享。以后,应用程序的复杂性正在爆炸式增长。面对越来越多的分布式框架、更加简单的依赖关系、更快的产品生命周期更迭,以后的监控工具显然曾经不能满足企业的倒退需要: 孤岛式的监控工具往往不足对全局的治理能力:孤岛式的问题会被单个部门监控,小问题在部门可能不被器重,多个孤立的外表问题背地的根本原因难以被及时开掘并失去解决,进而呈现影响业务的情景,或是呈现问题划分含糊导致排障呈现推诿的状况,这些都另泛滥企业头痛不已。 另据调查显示,在运维过程中,辨认问题占据70%以上工夫,且大部分问题查找依赖人力,而当更多的数据接入零碎时,这样的模式曾经成为了妨碍业务推动的待处理问题。 同时因为不足可观测的工具,会导致简单弹性框架无奈提前理解,日志的繁琐无奈高效诊断,独自指标并不能反馈业务,短少用户旅程无奈还原事变,由此要求相干人员不仅要把握相干的IT技能,还要对业务有充沛的了解,对业余人员的依赖性极高。 杨雪松针对目前市场倒退遇到的这些问题进行了剖析,并提出了博睿数据的解决方案:一体化智能可观测平台。以后,Bonree ONE能力已笼罩了包含ITIM、NPM、APM、DEM全面的监控能力,反对包含传统ETL、国内数据规范Opentelemetry、Prometheus Open Metric等各类异构数据的接入,集成输入对立可观测数据。利用独家无监督常识图谱根因剖析能力,能够满足异样检测、根因剖析、智能告警等多种需要。通过对系统的全局笼罩与洞察,在实现开箱即用的同时,显著晋升IT运维的能力和效率,缩小算力资源利用,升高企业老本,实现科技驱动业务增长。 流动预报 4月21日,Bonree ONE 2023秋季正式版行将公布,更轻、更强、更智能,更多翻新推出,敬请期待。

April 3, 2023 · 1 min · jiezi

关于运维:Troubleshooting-专题-问正确的问题-得到正确的答案

在很多公司中,IT、数据中心、业务零碎一出故障,会有很多人被叫到作战室(就是一个为了解决该问题,而把所有相干人员集中在一起的一个会议室), 然而对于这个问题他们是否能够修复, 是否他们应该负有责任, 常常没有线索. 「证据」(基础架构监控数据, 日志文件, 用户投诉等等) 表明了症状, 然而与 root cause 无关. 只有很多的日志信息和高级别的告警并不会给你与这个问题根因真正相干的答案. 为了远离这种场景, 真正的「证据」应该是什么? 你应该问什么问题? 是一个用户埋怨还是所有用户都受影响?「只是」CEO 埋怨一个问题, 因为一份 BI 报告在他的老 IE7 上无奈工作? 或者「只是」应用联通上网的终端用户? 理解一个问题产生在十分小的用户群, 还是说全中国的用户都受到影响, 是重中之重. 交付链(如: CDN, 第三方, ISP, 云供应商, 托管服务, 手机网络)有问题么?当代 web 利用、挪动服务、互联网服务、O2O业务等依赖一长串交付链的服务. 晓得每个的影响会通知你是否应该查看本人的数据中心, 还是说应该打电话给服务商. 要害事务是否受影响?是否要害业务比方保险投保受到影响? 还是说报错的页面早曾经不必了? 你须要监控最要害的业务性能. 是这个利用的问题么?利用很简单. 如果你晓得问题是产生在这个利用里, 你而后须要进行故障隔离, 而后让对应的开发和架构师定位问题效率更高. 这个问题与蹩脚的代码无关么?如果客户应用加载迟缓、体验很差,利用响应工夫很慢, 第一个问题应该是是否与蹩脚的代码无关. 你须要剖析代码级别的性能热点来找到是否起因是低效的算法还是不足代码和架构的最佳实际. 这个问题在虚拟机、容器、中间件...里么?如果虚拟机(如:VMware, EC2...)或你的容器(Docker)或你的中间件或你的利用运行时(如:tomcat)没有正确的 size, 或者和其余虚拟机及容器存在资源争用也可能引起性能问题. 如果你晓得虚拟机的性能影响到了利用, 你会晓得引入 VM 专家, 而不是利用开发, 来解决这个问题.容器、中间件、利用运行时同理。 是基础架构导致的问题么?如果不是利用本身问题, 而是因为 app 运行在资源有余的基础架构上会怎么? 如果须要运行垃圾回收的 CPU 因为超用导致不可用会怎么? 那么是时候思考拆分利用或扩大基础架构了. 是应用服务器的问题么?因为不正确的配置或谬误的部署, 应用服务器也可能是性能问题的起因. 正确的资源池(线程, 数据源等)大小, 平安配置或日志参数都会影响性能. 如果发现是应用服务器的问题, 如果是商业应用服务器,你须要分割 IBM, Oracle, 微软专家;如果是开源应用服务器,你须要分割贵司的相干中间件专家. ...

April 3, 2023 · 1 min · jiezi

关于运维:Thanos工作原理及组件简介

Thanos 简介Thanos 是一个「开源的,高可用的 Prometheus 零碎,具备长期存储能力」。很多出名公司都在应用 Thanos,也是 CNCF 孵化我的项目的一部分。 Thanos 的一个次要特点就是通过应用对象存储(比方 S3)能够容许 “有限” 存储空间。对象存储能够是每个云提供商提供的对象存储也能够是 ceph、rook 或 minio 这样的解决方案。 工作原理Thanos 和 Prometheus 并肩作战,从 Prometheus 开始降级到 Thanos 是很常见的。 Thanos 被分成几个组件,每个组件都只有一个指标(典型云原生架构),组件之间通过 gRPC 进行通信。 Thanos Sidecar Thanos 和 Prometheus 一起运行(有一个边车),每 2 小时向一个对象存储库输入 Prometheus 指标。这使得 Prometheus 简直是无状态的。Prometheus 依然在内存中保留着 2 个小时的度量值,所以在产生宕机的状况下,你可能依然会失落 2 个小时的度量值(这个问题应该由你的 Prometheus 设置来解决,应用 HA/分片,而不是 Thanos)。 参考文档: Prometheus 根本高可用架构 Thanos sidecar 与 Prometheus Operator 和 Kube Prometheus 栈一起,能够轻松部署。这个组件充当 Thanos 查问的存储。 Thanos Store(存储)Thanos 存储充当一个网关,将查问转换为近程对象存储。它还能够在本地存储上缓存一些信息。基本上,这个组件容许你查问对象存储以获取指标。这个组件充当 Thanos 查问的存储。 ...

April 2, 2023 · 1 min · jiezi

关于运维:什么证书对信息通信技术行业的人最有用

作为当初最热门的行业之一,信息通信行业始终是学生的首选,然而想要在现在竞争十分强烈的社会中,取得好的岗位和薪资,除了把握相应的技术之外,领有一份业余的职业证书,也是必不可少的。上面几本证书,对于从事信息通信技术行业的人十分有帮忙,有须要的人能够找认证大使理解征询。 1、华为云认证 尽管华为云成立的工夫比价晚,然而最近几年发展势头十分猛,很多政企单位都会抉择华为云作为本人的单干商,同时华为云的认证体系建设的最早,曾经十分成熟了,每个方向下更粗疏地分出了很多方向,考生能够依据本人的需要来抉择。 2、腾讯云认证 最近几年腾讯云的市场占比逐步放大,然而却占据了咱们生存中最重要的两个畛域,那就是社交和游戏,当初很多电竞较量的技术支持就是腾讯云,能够说市场需求是十分坚硬的,因而其旗下的云从、运维、架构以及开发认证,都有很多人考 3、阿里云认证 作为目前市场占比最大的云计算厂商,阿里云在业界内的名气很大,其旗下的证书受认可度也很高,考生能够依据本人的能力去抉择对应的证书,分为ACA、ACP、ACE三个等级,每个等级下有云计算、大数据、云平安、人工智能等十几个方向,考生能够依据本人的业余来抉择。 4、PMP证书 PMP指的是项目管理专业人士资格认证。它是由美国项目管理协会(Project Management Institute,简称PMI)发动的,严格评估项目管理人员常识技能是否具备高品质的资格认证考试。其目标是为了给项目管理人员提供对立的行业标准。美国项目管理协会建设的认证考试有:PMP(项目管理师)和CAPM(项目管理助理师)已在全世界190多个国家和地区设立了认证考试机构。 5、计算机技术与软件业余技术资格(程度)考试 软考是由国家工信部设立的证书,有很多方向,考取后能够评职称、抵税、挂靠,对考生来说能够说是百利而无一害。 6、容器认证 容器认证考试是由Linux基金会和云原生计算基金会(CNCF)创立的,以促成Kubernetes生态系统的继续倒退。该考试是一种近程在线、有监考、基于实操的认证考试,须要在运行Kubernetes的命令行中解决多个工作。有CKA、CKS认证,考试是专为Kubernetes管理员、云管理员和其余治理Kubernetes实例的IT业余人员而设的。 7、国家信息安全程度证书 NISP一级证书是由中国信息安全测评核心颁发的国家级认证证书,是面向全社会各行各业通用的信息安全意识遍及和信息安全爱护常识培训,学习网络安全基础理论和网络安全意识的遍及通过考试的学员可俱备根本的网络安全常识和意识,在工作和生存中对单位的信息安全爱护和个人信息及隐衷爱护有肯定的解决能力持NISP一级证书可在信息安全窃密较高的单位或得加分项。

March 31, 2023 · 1 min · jiezi

关于运维:Rancher-系列文章RHEL78-离线有代理条件下安装单节点-Rancher

一 根底信息1.1 前提本次装置的为 20220129 最新版:Rancher v2.6.3VM 版本为 RHEL 7.8, 7.9 或 8.2, 8.3, 8.4(Rancher 官网要求)VM YUM 仓库:已配置对应版本的 RHEL 和 EPEL YUM 仓库VM 提供 root 权限已配置 ntp(避免因为工夫不统一导致的诡异问题)提供 Proxy 拜访互联网 Rancher 相干域名;端口要求,为了失常运行,Rancher 须要在 Rancher 节点和上游 Kubernetes 集群节点上凋谢一些端口。端口需要列出了不同集群类型的 Rancher 和上游集群的所有必要端口。具体如下表:Rancher 节点的入站规定 协定端口源目标形容TCP80客户端,操作机Rancher 节点应用内部 SSL 终端时的 Rancher UI/APITCP443客户端,操作机,所有 K3S 节点Rancher 节点Rancher agent,Rancher UI/API,kubectlRancher 节点的出站规定 协定端口源目标形容TCP22Rancher 节点所有 K3S 节点应用 Node Driver 对节点进行 SSH 配置TCP2376Rancher 节点所有 K3S 节点Docker Machine 应用的 Docker daemon TLS 端口TCP6443Rancher 节点K3S ServerKubernetes API server✅ 胜利: ...

March 31, 2023 · 5 min · jiezi

关于运维:Rancher-系列文章Rancher-升级

概述之前在 天翼云上用 4 台机器装置了一个 1 master(及 etcd) 3 node 的 K3S 集群,并在其上应用 Helm 装置了 Rancher 2.6.3 版本。 前几天发现 Rancher 官网举荐的最新版为:v2.6.4 所以决定先后对 Rancher 和 K3S 集群进行降级。 依据官网举荐,打算: 将 Rancher 从 v2.6.3 降级到 v2.6.4将 K3S 集群从 v1.21.7+k3s1 降级到 v1.22.5+k3s2本文为 Rancher 的降级记录。 相干信息本次降级的 Rancher 的根本信息为: Rancher v2.6.3应用 Helm 3, 在线装置应用 cert-manager(v1.7.1) + let's encrypt 治理证书降级步骤一、备份运行 Rancher Server 的 Kubernetes 集群应用 备份应用程序 来备份 Rancher。 如果在降级过程中呈现问题,你将应用备份作为复原点。 备份后果如下图: 二、更新 Helm Chart repository更新本地 helm 缓存。 ...

March 30, 2023 · 2 min · jiezi

关于运维:信息技术行业可以考什么证书

信息技术行业是当初最热门的行业之一,很多人都会抉择这个业余,甚至有很多打工人会在进入工作后进行再学习,以求进入这一行,然而想取得好的岗位和待遇,单单只有技术是不够的,领有对口的业余证书是很好的加分项,上面大使介绍几个证书,有须要的能够在认证大使具体理解。 1、阿里云认证 作为目前市场占比最大的云计算厂商,阿里云在业界内的名气很大,其旗下的证书受认可度也很高,考生能够依据本人的能力去抉择对应的证书,分为ACA、ACP、ACE三个等级,每个等级下有云计算、大数据、云平安、人工智能等十几个方向,考生能够依据本人的业余来抉择。 2、华为云认证 尽管华为云成立的工夫比价晚,然而最近几年发展势头十分猛,很多政企单位都会抉择华为云作为本人的单干商,同时华为云的认证体系建设的最早,曾经十分成熟了,每个方向下更粗疏地分出了很多方向,考生能够依据本人的需要来抉择。 3、腾讯云认证 最近几年腾讯云的市场占比逐步放大,然而却占据了咱们生存中最重要的两个畛域,那就是社交和游戏,当初很多电竞较量的技术支持就是腾讯云,能够说市场需求是十分坚硬的,因而其旗下的云从、运维、架构以及开发认证,都有很多人考。 4、容器认证 容器认证考试是由Linux基金会和云原生计算基金会(CNCF)创立的,以促成Kubernetes生态系统的继续倒退。该考试是一种近程在线、有监考、基于实操的认证考试,须要在运行Kubernetes的命令行中解决多个工作。有CKA、CKS认证,考试是专为Kubernetes管理员、云管理员和其余治理Kubernetes实例的IT业余人员而设的。 5、国家信息安全程度证书 NISP一级证书是由中国信息安全测评核心颁发的国家级认证证书,是面向全社会各行各业通用的信息安全意识遍及和信息安全爱护常识培训,学习网络安全基础理论和网络安全意识的遍及通过考试的学员可俱备根本的网络安全常识和意识,在工作和生存中对单位的信息安全爱护和个人信息及隐衷爱护有肯定的解决能力持NISP一级证书可在信息安全窃密较高的单位或得加分项。 6、PMP证书 PMP指的是项目管理专业人士资格认证。它是由美国项目管理协会(Project Management Institute,简称PMI)发动的,严格评估项目管理人员常识技能是否具备高品质的资格认证考试。其目标是为了给项目管理人员提供对立的行业标准。美国项目管理协会建设的认证考试有:PMP(项目管理师)和CAPM(项目管理助理师)已在全世界190多个国家和地区设立了认证考试机构。 7、计算机技术与软件业余技术资格(程度)考试 软考是由国家工信部设立的证书,有很多方向,考取后能够评职称、抵税、挂靠,对考生来说能够说是百利而无一害。

March 29, 2023 · 1 min · jiezi

关于运维:阿里云ACP改革后考试内容是什么

阿里云是当初市场上占比最大的云计算厂商,很多人在进入社会工作后,会考取对应的证书,来为本人减少职业竞争力,而阿里云也会常常更新本人的考试内容,以保障能够为市场提供对应的人才,近期阿里云行将改革,有须要理解的能够在认证大使上具体征询。 阿里云ACP云计算 考试内容:云服务器 ECS 弹性伸缩(Auto Scaling) 负载平衡 SLB 专有网络 VPC 对象存储 OSS 内容散发网络 CDN 平安(云盾、云平安) 云计算通用常识 阿里云ACP大数据 考试内容:大数据计算服务 Maxcompute 数据工场 DataWorks 数据集成 10%Quick BI 机器学习 PAI 和其余云产品配合的应 用及架构 目前阿里云官网告诉改革工夫在四月三号,会大幅度变动考试内容,并且减少试验我的项目,难度会大大增加,想在这之前考试的人,要抓紧时间了。

March 28, 2023 · 1 min · jiezi

关于运维:B站容量管理游戏赛事等大型活动资源如何快速提升10倍

一分钟精髓速览当成千上万的服务器都处于低利用率时,就意味着巨额的节约,良好的容量治理能够帮忙打消某些“最初时刻”的长期应急式的自觉或者超量洽购。除了老本正当管制方面,容量治理还要预估对客户可能产生影响的业务倒退和危险变动。 B站在降本增效大背景下,从业务视角对整体容量做了可视化治理,本文详细描述了其容量治理的背景、思路及功效。 作者介绍哔哩哔哩资深SRE专家 张鹤 TakinTalks社区专家团成员,2020年退出B站,先后负责主站/直播/OGV/推广搜相干的SRE工作。深度参加多活、流动保障、混沌工程、容量治理相干的建设,并主导容量治理平台、混沌平台的架构设计和落地。曾负责B站S赛、跨年晚会、拜年祭等相干流动的基础架构保障工作,目前次要负责推广搜业务的稳定性建设、PaaS治理。 舒适揭示:本文约4500字,预计破费9分钟浏览。 后盾回复 “交换” 进入读者交换群;回复“2252”获取课件材料; 背景对于B站来讲,咱们最大的三个流动是S赛、拜年纪、B站跨年晚会。在用户增长的背地,SRE团队做了十分多的事件来保障业务连续性,比方多活、混沌工程等等。 明天换个角度聊聊——“容量治理”,B站为什么要做容量治理的平台?咱们的容量管理体系是怎么设计的?平台侧和业务侧咱们是如何去经营、让工作变得“可视化”的?我也将联合容量治理平台在S12赛事中的理论利用,来分享“赋能业务”的一些教训。 一、为什么B站要做容量治理?在做容量治理之前,B站面临了几个很显著的痛点,如下图所示。 除了须要解决未知的容量危险,在提倡“降本增效”的大背景下,进步资源利用率,制订正当的、有数据撑持的估算决策也十分重要。 而此前,B站在大型流动中的容量决策,比方S9、S10等,并没有积淀下来可供S12参考的相干数据,零碎自身容量是否足够、是否须要扩容、应该扩容多少等等,少有容量数据撑持。另外,全年的估算制订也迫切需要参考容量数据。 二、B站容量体系是如何设计的?2.1 不同角色的诉求基于上述的痛点,咱们打算做整个容量体系的设计,其中不同的角色关注的流量指标其实不太一样。比方: 研发部门:关注是否有足够资源,能扩容、能公布即可。级别比拟高的研发Leader可能更关注整个部门的资源使用率、部门的老本是否正当等; 平台:更关注平台的售卖率、资源Buffer、资源使用率,以及其余降本增效的工作; SRE:外围关注稳定性,还须要晋升总体资源的使用率,实现降本增效的大指标; 老本部门:更关注账单、老本、估算、资源使用量等,即节俭整体费用。 2.2 容量体系整体设计从下往上看,最上层次要是根底数据(根底容量),比方机器、资源池等偏差云底层的层面。SRE和平台更多要感知到集群的容量、资源池的容量等到底怎么样,无论资源池如何超卖或者调控,前提是整体底层的资源应用肯定要在平安水位。 在根底容量之上,咱们构建了一套基VPA的伸缩策略,以及基于HPA 的弹性扩缩实例的策略。还和业务的资源池做了合池,合池后可能就会面临一个问题,即都在一个大池子里,如何管制每个业务方应用的资源?此时,就须要基于业务做配额治理,即管控每个业务能应用多少资源。 在更下层,咱们还提供了一套容量可视化以及可经营的数据,提供给业务做撑持,进步业务团队的效率,包含基于业务部门的组织容量、容量事件等,比方容量经营周报,将不同的部门的使用率公开排名,依据数据提供优化倡议等,这部分我将在前面具体地介绍。 三、容量经营与可视化如何帮忙业务解决问题?3.1 根底容量根底容量是整个容量体系的根底,上文提到根底容量咱们更关注集群、资源池、 node 以及一些利用维度的容量报表,如下图所示。 集群:关注集群容量水位和超卖率; 资源池:关注资源池容量水位、超卖率、资源冗余度。资源使用率决定了咱们是否须要及时采买机器、判断是否能承载更多业务; Node:关注Node资源水位、Node超卖率,因为超卖会有热点带来的压力,所以对Node做了使用率相干的报表; 利用:关注使用量、使用率、实例数、单实例容器数等。业务比拟关注利用层面的数据的,比方,服务是否是单点的,因为单点代表如果一台物理机挂了,凑巧服务在这台物理机上,此时服务会短暂不可用,对于外围业务来说是不能被承受的。 基于这些指标,咱们做了一些可视化的界面,与对外监控零碎 Grafana 数据默认存储 2 周不同的是,咱们整个容量平台的数据是长久存储的,目前已存储靠近两年的数据。 3.2 业务组织容量 在降本增效的背景下,如何帮忙业务去解决问题?业务侧个别更关注如何找出哪些服务占用了较多容量、哪块业务的资源使用率比拟低能够缩容、老本突增或者应用忽然增多到底是哪个业务导致的、业务治理或者架构整合后到底治理成果如何等等,须要比拟直观的界面,能帮他们理解全局。 所以基于以上几点,咱们做了基于业务组织的容量报表,如下图所示。 以B站直播业务为例,直播作为一个大部门,假如整体容量使用率是 40%,想要进步使用率,通过直观的可视化报表能够看到直播大部门下,分支业务例如营收,会有送礼、抽奖之类的服务,发现其资源较多且使用率低时,业务团队就能根据可视化报表的信息,提前做治理从而取得更多的收益。 同时,可能基于趋势图,看到直播业务下哪些业务忽然占用了较大容量,比方新业务场景、研发或者业务忽然扩容等,并且反对数据下钻,能够下钻到营收业务下,理解到底是抽奖还是送礼业务引起的变动。 3.3 容量事件从事件源上看,能引起容量变动的事件有很多,其中包含公布平台/HPA变更平台/Node治理,在公布平台里,研发能够扩容或新增服务,以及批改容量配置等,所以公布平台会导致容量的变动。另外,HPA扩缩容、Node物理机新增或删除等,也会导致容量的变动。 所以咱们外部对接了各种容量变更的平台,做了容量事件相干的能力,当一个业务发现整体资源应用变动很多,此时能通过容量事件疾速定位事件源,及时感知容量危险,并追溯容量变动的根因。 3.4 容量周报容量每周都在发生变化,所以咱们平台做了周报的剖析,从老本、效率、危险这三个外围登程,业务部门和平台方的周报关注点差别较大。 3.4.1 部门容量周报(业务侧)业务侧周报外围关注以下4点—— 整体资源容量,资源使用率,环比上周变动。即和上周比拟,资源使用率减少或缩小了多少。 利用容量Top。即哪些利用占用了较多资源,不便业务疾速感知大头资源,进步降本优化效率。 危险利用Top(优先展现L0/L1利用)。本部门是否有危险较大的利用,如有使用率较高的外围服务,能够提前扩容。 一周容量变动利用Top。即新增了哪些服务、哪些服务做了扩缩容、下线了哪些服务等,做到高深莫测。 (内部周报展现--部门main整体资源利用率) 3.4.2 外部周报(平台侧)平台侧周报外围关注以下2点—— **部门资源使用率及排名,部门容量Top;部门资源闲暇率Top(大于5000核部门)。** 通过公开排名,理解哪些业务的容量治理较弱,并优先治理。同时,因为其资源使用量较大,优先对其做治理,平台也将失去更大的治理收益。(外部周报展现--整体资源利用率) 3.5 容量巡检不论是在流动大促,还是在日常业务稳定性保障中,咱们都须要亲密关注整体容量是否存在危险,所以有了容量巡检体系。 ...

March 28, 2023 · 1 min · jiezi

关于运维:Rancher系列文章Rancher-v26使用脚本实现导入集群

概述最近在玩 Rancher, 先从最根本的性能玩起, 目前有几个曾经搭建好的 K8S 集群, 须要批量导入, 发现官网曾经有批量导入的文档了. 依据 Rancher v2.6 进行验证微调后总结经验. 1. Rancher UI 获取创立集群参数拜访Rancher_URL/v3/clusters/,单击右上角“Create”,创立导入集群: 在参数填写页面中,批改以下参数: dockerRootDir 默认为/var/lib/docker,如果 dockerroot 门路有批改,须要批改此配置门路;enableClusterAlerting(可选) 依据须要抉择是否默认开启集群告警;enableClusterMonitoring(可选) 依据须要抉择是否默认开启集群监控;name(必填) 设置集群名称,名称具备唯一性,不能与现有集群名称雷同;配置好参数后单击Show Request;在弹出的窗口中,复制API Request中HTTP Request:的{}中的内容,此内容即为创立的集群的 API 参数;#!/bin/bashapi_url='https://rancher-demo.example.com'api_token='token-dbkgj:7pqf5rrjmlxxxxxxxxxxxxxxxxxxxxxxxtrnfljwtxh'cluster_name=$1create_cluster_data(){ cat <<EOF{ "agentEnvVars": [ ], "aksConfig": null, "aliyunEngineConfig": null, "amazonElasticContainerServiceConfig": null, "answers": null, "azureKubernetesServiceConfig": null, "clusterTemplateRevisionId": "", "defaultClusterRoleForProjectMembers": "", "defaultPodSecurityPolicyTemplateId": "", "dockerRootDir": "/var/lib/docker", "eksConfig": null, "enableClusterAlerting": false, "enableClusterMonitoring": false, "gkeConfig": null, "googleKubernetesEngineConfig": null, "huaweiEngineConfig": null, "k3sConfig": null, "localClusterAuthEndpoint": null, "name": "$cluster_name", "rancherKubernetesEngineConfig": null, "rke2Config": null, "scheduledClusterScan": null, "windowsPreferedCluster": false}EOF}curl -k -X POST \ -H "Authorization: Bearer ${api_token}" \ -H "Content-Type: application/json" \ -d "$(create_cluster_data)" $api_url/v3/clusters2. 创立集群保留以上代码为脚本文件,最初执行脚本。 ...

March 28, 2023 · 2 min · jiezi

关于运维:博睿学院-本周四博睿学院数据集成系列公开课正式开讲

随着数据的爆发式增长,云原生与分布式作为解决方案应运而生,随之也带来了更加简单的数据环境,数据集成成为了这一时期数据管理的重要议题。 ✓ 晋升采集数据的品质,对其进行标准化解决;✓ 为全零碎提供数据中台能力,推动数据价值深挖;✓ 全面晋升业务品质,赋能企业倒退;…… 数据集成如何实现上述工作?本周起,每周四14:30-15:00,博睿数据中台能力研发团队负责人罗俊,将带来博睿数据在摸索实际中对于数据集成相干积攒的分享。 扫描海报下方二维码,课件将于直播后发送至您的邮箱。

March 28, 2023 · 1 min · jiezi

关于运维:利用-DeepFlow-为传统-APM-开启全栈追踪能力

传统 APM 聚焦在代码层面,不具备全栈多维度无盲点看问题的能力,同时因为插码的妨碍往往难以笼罩所有微服务,DeepFlow 依附 eBPF 零代码批改采集全栈追踪数据并聚合生成了调用关系,能够加强传统 APM 的数据,大大缩短问题定界工夫。对于曾经应用传统 APM 工具的用户,能够思考应用 DeepFlow 提供的 API 来加强利用依赖拓扑及调用追踪,以取得全栈数据追踪能力。 本文以 SkyWalking 为例从落地实现角度来形容,如何将在传统 APM 中集成 DeepFlow 的数据,加强传统 APM 数据能力, 次要从以下两个角度来: 依赖拓扑:加强查看某历史工夫范畴内服务(POD)到服务(POD)全栈门路拓扑以及全景上下游拓扑。调用链追踪:加强查看某个利用 Span 对应零碎 Span、网络 Span 时延耗费以及追踪未插码服务的能力。开启下文的浏览之前,须要对 DeepFlow 目前已有的数据及术语有理解,下文默认读者都有肯定的认知。 01|全栈门路拓扑-界面加强查看某历史工夫范畴内服务(POD)到服务(POD)利用和网络指标量能力,能够疾速答复在某一段时间内端到端门路是否存在瓶颈点,上面将联合 Skywalking 介绍产品 UI 界面如何交融 第一步:聚焦须要查看的门路(以下举例通过拓扑图门路点击,大家能够依据环境的理论状况来定义应用流程) 聚焦须要查看的门路 点击全栈门路拓扑 第二步:查看全栈门路拓扑(加强能力) 查看全栈门路拓扑 上图拓扑中每一个节点都对应一个统计地位(tap_side),统计地位的阐明参考 DeepFlow 官网的线上文档[1],以客户端容器节点举例说明具体的含意,表白是 cartservice 服务拜访 redis-cart 服务,在 cartservice 对应 POD 所在的容器节点上采集到的拜访数据,而后聚合的指标量。上图查看的指标量为响应时延,不难看出瓶颈在服务端容器网络,判断过程如下: 客户端时延:④=204.31ms,为申请服务端的总时延,由以下几局部组成 客户端容器网络:门路①(也就是⑤-④),图中所示为38.14us云网络:门路②(也就是⑥-⑤),图中所示为273.13us服务端容器网络:门路③(也就是⑦-⑥),图中所示为204.25ms服务端:即图中⑦,为372.83us02|全栈门路拓扑-API联合 API 看看如何实现,DeepFlow 的所有数据均可通过 SQL API 获取。 调用方输出客户端名称、服务端名称、指标量以及工夫范畴作为 API 的搜寻条件即可取得全栈门路拓扑数据。 第一步:获取 Skywalking 门路的客户端服务及服务端名称,依据需要明确须要查看的指标量及查看的工夫范畴 Skywalking 输出 第二步:查问 DeepFlow 获取利用/网络统计地位的数据,SQL 调用参考 DeepFlow 官网的线上文档[2] SELECT Avg(`request`), /* 须要查看的指标量 */        pod_service_0,  /* 客户端服务名称,客户端为 POD,则替换为 pod_0 */       tap_side,        pod_service_1 /* 服务端服务名称,服务端为 POD,则替换为 pod_1 */FROM vtap_app_edge_port  /* 查看利用指标应用 vtap_app_edge_port;查看网络指标切换到 vtap_flow_edge_port */WHERE time>=1678760220 AND time<=1678762020 AND       pod_service_0='deepflow-server' AND  /* 过滤客户端 */      pod_service_1='deepflow-server'   /* 过滤服务端 */GROUP BY pod_service_0,          tap_side,          pod_service_1,第三步:依据返回数据绘制拓扑图 每个 tap_side 对应一个节点,节点依据 c-app/app/c-p/c/c-nd/c-hv/c-gw-hv/c-gw/local/rest/s-gw/s-gw-hv/s-hv/s-nd/s/s-p/s-app 从左到右排序,每个节点独立显示指标数据。 03|全景上下游拓扑-界面加强某节点查看全景上下游拓扑的能力,可疾速发现未插码范畴内被谁拜访了(比方追踪上游的 Nginx 网关、安全策略未防住的拜访等等),以及本身拜访了谁,上面也将联合 Skywalking 介绍产品 UI 界面如何交融 第一步:聚焦须要查看的节点(以下举例通过拓扑图节点点击,大家能够依据环境的理论状况来定义应用流程) 点击全景上下游拓扑 第二步:查看全景上下游拓扑(加强能力) 查看全景上下游拓扑 上图为 tikcet-web 服务的全景上下游拓扑,其中 ① 是未插码的 ingress-nginx-controller 服务,表明 ticket-web 服务对外都是通过 ingress 来拜访的,其中 ② 为未插码的 kube-dns 服务,常常拜访服务慢,可能是因为 DNS 解析慢,而在利用拓扑是无奈看进去此信息的。 04|全景上下游拓扑-API调用方输出服务名称、指标量以及工夫范畴作为 API 的搜寻条件即可取得全景上下游拓扑数据,须要两次调用的 DeepFlow API,别离获取到上游和上游的数据如下: 获取上游数据SELECT Avg(`request`), /* 须要查看的指标量 */        pod_service_0,  /* 客户端服务名称,客户端为 POD,则替换为 pod_0 */       tap_side,        pod_service_1 /* 服务端服务名称,服务端为 POD,则替换为 pod_1 */FROM vtap_app_edge_port  /* 查看利用指标应用 vtap_app_edge_port;查看网络指标切换到 vtap_flow_edge_port */WHERE time>=1678760220 AND time<=1678762020 AND       pod_service_1='deepflow-server'   /* 须要查看上游数据的服务 */GROUP BY pod_service_0,          tap_side,          pod_service_1,获取上游数据SELECT Avg(`request`), /* 须要查看的指标量 */        pod_service_0,  /* 客户端服务名称,客户端为 POD,则替换为 pod_0 */       tap_side,        pod_service_1 /* 服务端服务名称,服务端为 POD,则替换为 pod_1 */FROM vtap_app_edge_port  /* 查看利用指标应用 vtap_app_edge_port;查看网络指标切换到 vtap_flow_edge_port */WHERE time>=1678760220 AND time<=1678762020 AND       pod_service_0='deepflow-server'   /* 须要查看上游数据的服务 */GROUP BY pod_service_0,          tap_side,          pod_service_1,05|调用链追踪-产品在开始介绍如何加强调用追踪的数据之前,先联合一张图阐明一些后续要应用到的术语 数据介绍图 图中 A 示意利用 Span(起源传统 APM);S 示意网络 Span(起源 DeepFlow);N 示意网络 Span(起源 DeepFlow)图中彩色局部为发动全栈调用追踪的的利用 Span,后续统称为 利用 Span Y图中蓝色局部为通过 利用 Span Y 追踪的门路中的零碎和网络 Span图中绿色局部为通过 利用 Span Y 追踪的上游未插码的 Span图中红色局部为通过 利用 Span Y 追踪的上游未插码的 Span 接下来将别离来探讨上图中蓝色/绿色/红色局部如何基于 SkyWalking 产品做 UI 交融(注:以下产品 UI 局部仅为示意图): 第一步:聚焦须要查看的利用 Span(以下举例通过点击 Span,大家能够依据环境的理论状况来定义应用流程) 聚焦须要查看的门路 点击全栈调用追踪 第二步:查看全栈调用拓扑(加强能力) 查看全栈调用拓扑 06|调用链追踪-API接下来看下联合 DeepFlow 的 SQL API 如何实现,基于后面的术语介绍图,可知传统 APM 联合 DeepFlow 的数据来实现全栈调用追踪的能力,须要分蓝色、绿色和红色三局部来实现,接下来将离开介绍这三局部的数据实现。 蓝色局部:依据 利用 Span 的 TraceID + SpanID 追踪 DeepFlow 的零碎 Span 和网络 Span,能够不便的查看某次调用在零碎和网络散布耗费的时延,疾速定界问题。能够通过 TraceID、SpanID 作为搜寻条件获取 DeepFlow 的零碎和网络 Span 蓝色局部-追踪图 SELECT response_duration,       start_time,       end_time,       resource_gl0_0, /* 客户端 */       resource_gl0_1, /* 服务端 */       tap_port_type,  /* eBPF、NIC ... */       tap_port,       /* NIC Name */       trace_id,       span_idFROM l7_flow_logWHERE trace_id = 'c5ad367da7ed41fc97921d91a0584bd8.63.16620935428909473' AND      span_id = 'e05ee7a06d674085a16dfea36ed11b98.169.16620935428971714-2' AND /* 非必须,准确搜寻 */      time >= 1662093572 AND time <= 1662095372 /* 减速搜寻 */此局部的细节局部能够参考DeepFlow 让 SkyWalking 分布式追踪无盲点[3]。红色局部:加强某个利用 Span 上游的 Span,对于插码范畴以外(之前)的局部,例如追踪进去从未插码的客户端 Span 红色局部-追踪原理解释图 对于这部分数据的追踪,须要分几个步骤来逐个进行关联 ① 依据利用 Span Y 的 TraceID + SpanID 追踪 DeepFlow 的零碎 Span,此时可能会失去多个零碎 Span,只须要获取与利用 Span Y紧邻的零碎 Span X持续往下追踪即可(可通过总时延最长来判断)② 获取零碎 Span X的 syscall_trace_id_request 作为其余零碎 Span 的搜寻条件,失去零碎 Span ZSELECT response_duration,  /* SELECT 字段能够依据需要自定义即可*/       l7_protocol,       Enum(request_type),       request_resource,       process_kname_0,       process_kname_1,       tap_side,       req_tcp_seq,        resp_tcp_seq,       Enum(auto_instance_type_0) AS `client_Enum(auto_instance_type_0)`,       auto_instance_0,         Enum(auto_instance_type_1) AS `server_Enum(auto_instance_type_1)`,        auto_instance_1, FROM l7_flow_log  WHERE time>=1678764261 AND /*追踪开始工夫,倡议设置比零碎 Span X 的开始工夫早 3min*/      time<=1678767861 AND /*追踪完结工夫,倡议设置比零碎 Span X 的完结工夫晚 3min*//      (syscall_trace_id_request=16787489195430278) /* 16787489195430278 为 零碎 Span Y 的 syscall_trace_id_request */ORDER BY `end_time` ③ 获取零碎 Span Z 的 req_tcp_seq/resp_tcp_seq 作为其余零碎 Span 和网络 Span 的搜寻条件,失去网络 Span Z.1/Z.2 以及零碎 Span Q,此处逻辑特地留神: req_tcp_seq !=0 & resp_tcp_seq !=0 则须要同时满足 req_tcp_seq 和 resp_tcp_seq;如果其中一个为 0,则任意满足一个即可SELECT response_duration,  /* SELECT 字段能够依据需要自定义即可*/       l7_protocol,       Enum(request_type),       request_resource,       process_kname_0,       process_kname_1,       tap_side,       req_tcp_seq,        resp_tcp_seq,       Enum(auto_instance_type_0) AS `client_Enum(auto_instance_type_0)`,       auto_instance_0,         Enum(auto_instance_type_1) AS `server_Enum(auto_instance_type_1)`,        auto_instance_1, FROM l7_flow_log  WHERE time>=1678764261 AND       time<=1678767861 AND       (type=2 AND       req_tcp_seq=3575241005 AND /* 3575241005 为零碎 Span Z 的 req_tcp_seq*/      resp_tcp_seq=995863176) /* 995863176 为零碎 Span Z 的 resp_tcp_seq*/ORDER BY `end_time` ④ 接下来可持续追踪零碎 Span Q 的上游零碎 Span,这里将分两种状况,如果上游的零碎 Span 与零碎 Span Q 在同一个线程,则反复步骤 [2]/[3] 即可,如果在不同线程/过程中,目前仅反对网关设置了 X-Request-ID 的状况下持续追踪,获取零碎 Span Q的 x-request-id 作为查问其余零碎 Span 和网络 Span 的搜寻条件,失去其上游的零碎 Span M SELECT response_duration,  /* SELECT 字段能够依据需要自定义即可*/       l7_protocol,       Enum(request_type),       request_resource,       process_kname_0,       process_kname_1,       tap_side,       req_tcp_seq,        resp_tcp_seq,       Enum(auto_instance_type_0) AS `client_Enum(auto_instance_type_0)`,       auto_instance_0,         Enum(auto_instance_type_1) AS `server_Enum(auto_instance_type_1)`,        auto_instance_1, FROM l7_flow_log  WHERE time>=1678764261 AND       time<=1678767861 AND       x_request_id=6e903947-5ef0-4c63-91a8-a2a599171633 /* 6e903947-5ef0-4c63-91a8-a2a599171633 为零碎 Span Q 的 x_request_id*/ORDER BY `end_time` ⑤ 到此,曾经根据上述步骤追踪失去所有的上游 Span,接下来将确定父子关系,可间接依据总的响应时延,按从大到小降序排列即可 绿色局部:加强某个利用 Span 上游的 Span,对于插码范畴以外(之后)的局部追踪,例如追踪进去未插码的服务端 Span(DNS),此追踪过程与红色局部十分类似,仅步骤 ② 中的syscall_trace_id_request换成syscall_trace_id_response即可,此处不在赘述。 绿色局部-追踪图 07|什么是 DeepFlowDeepFlow[4] 是一款开源的高度自动化的可观测性平台,是为云原生利用开发者建设可观测性能力而量身打造的全栈、全链路、高性能数据引擎。DeepFlow 应用 eBPF、WASM、OpenTelemetry 等新技术,翻新的实现了 AutoTracing、AutoMetrics、AutoTagging、SmartEncoding 等外围机制,帮忙开发者晋升埋点插码的自动化程度,升高可观测性平台的运维复杂度。利用 DeepFlow 的可编程能力和凋谢接口,开发者能够疾速将其融入到本人的可观测性技术栈中。 GitHub 地址:https://github.com/deepflowys/deepflow 拜访 DeepFlow Demo[5],体验高度自动化的可观测性新时代。参考资料 [1] 统计地位的阐明参考 DeepFlow 官网的线上文档: https://deepflow.io/docs/zh/auto-metrics/metrics-without-inst... [2] SQL 调用参考 DeepFlow 官网的线上文档: https://deepflow.io/docs/zh/server-integration/query/sql/ [3] DeepFlow 让 SkyWalking 分布式追踪无盲点: https://deepflow.io/blog/007-skywalking-distributed-tracing-w... [4] DeepFlow: https://github.com/deepflowys/deepflow [5] DeepFlow Demo: https://deepflow.yunshan.net/docs/zh/install/overview/

March 27, 2023 · 1 min · jiezi

关于运维:一图看懂CodeArts-Artifact-5大特性揭秘大型企业制品管理面纱

华为云CodeArts Artifact用于治理源代码编译后的构建产物,反对Maven、npm、PyPI、Docker、NuGet等常见制品包类型。能够与本地构建工具和云上的继续集成、继续部署无缝对接,同时反对制品包版本治理、细粒度权限管制、平安扫描等重要性能,实现软件包生命周期治理,晋升公布品质和效率。

March 27, 2023 · 1 min · jiezi

关于运维:定档3月31日博睿数据受邀参加DAMS数据智能管理峰会

随着中国社会减速向数字时代转型,充沛开掘数据价值,实现数据资产化已成为企业倒退的重要方向。 3月31日,中国数据智能治理峰会DAMS2023将于上海召开,邀请来自BAT、京东、小米、蚂蚁金服、唯品会、三大运营商、中国银联、银行证券、国家电网等近百位互联网与传统企业行业专家,分享最新数据资产与大数据的理念、趋势、治理办法和最佳实际,保持技术干货与实践经验分享。历经八年,DAMS峰会已影响过万名CXO、技术总监、IT经理、数据架构师、开发和运维畛域相干负责人及工程师,笼罩了互联网、电信、金融、交通、物流等重点行业,专题涵盖数据资产治理、数据治理、大数据、云计算、数据库与运维治理等热门畛域,在业内具备较高的影响力。博睿数据售前总监杨雪松将受邀加入信创运维专场,分享《一体化智能可观测平台建设之路》相干内容,与来自工商银行、阿里云、京东科技、vivo、新浪、蚂蚁团体的行业同仁独特就相干内容进行分享并开展交换,独特为国产化软件安稳代替建言献策。 会上,杨雪松还将带来Bonree ONE秋季正式版发布会预报,4月21日公布,更轻、更强、更智能,资源耗费减半,更有热点办法、数据集成、根因深度剖析等翻新性能。 博睿数据如何通过对一体化智能可观测平台的搭建,帮忙更多的企业晋升业务连续性,敬请期待。

March 27, 2023 · 1 min · jiezi

关于运维:博睿数据数智领航营首开营保险科技数智化转型中的智能运维实践

3月23日,博睿数据高阶行业沙龙保险专场在京举办。来自中国信息通信研究院云计算与大数据研究所审计与治理部工程师尚梦宸,博睿数据全国售前总监杨雪松,博睿数据华北售前保险组负责人李硕针对行业智能运维的倒退进行演讲分享,并与来自泰康人寿、都邦保险、中英人寿、众安保险等行业同仁就相干内容现场探讨。 AIOps的倒退与落地难点探讨 信通院尚梦宸指出,考察发现,绝大多数领导层曾经对智能运维能力建设加以器重并付诸行动,但在智能运维的建设过程中仍有诸多困难与挑战,次要是在不同运维场景中的实际摸索中产生的。如“能力定制化,难以跨业务利用或泛化老本高”(35.81%),“场景无限,大量运维场景没有成熟的计划”(33.98%),“新场景建设周期长”(30.71%)。技术利用方面,如“数据集成与标准化老本过高”(27.95%),“模型成果难以维持,继续优化老本高”(23.46%)。企业外部环境和组织架构方面,如“环境简单,难以反对智能运维建设”(19.76%),“受限于AI团队规模”(18.43%)。此外还包含了智能运维的使用和价值体现,“使用艰难,不理解如何应用智能运维的剖析后果领导运维决策与治理”(17.49%),“智能运维的建设价值难度量和体现”(16.93%)。对此,嘉宾间也开展热烈探讨,认为智能经营以后面临的挑战,次要本源在于以下几点: ✓ AIOps对数据采集能力与规范化能力存在肯定要求,在此前提下能力让AIOps真正施展价值;✓ AI工具的利用规模同样也会影响其能力的施展,不同数量的利用会带来的应用体验也会有所不同;✓ 须要针对实在需要利用AIOps技术,为了应用AI而应用AI可能难以真正实现对业务的推动;✓ AI的剖析能力实质上为拟人化操作,在面对数据缺失等人脑无奈解决的情况之时,AIOps同样无能为力。 500强保险公司运维实际分享 博睿数据李硕分享了为某500强头部保险公司提供运维产品与服务的经验。面对上线前代码品质不佳、不足业务零碎品质评估伎俩、对运维工作主动性要求进步等客户需要。博睿数据为该公司量身定制一套解决方案,帮忙该公司大幅升高了运维硬件老本和人员沟通老本,开释硬件与人力资源。通过对客户需要的深刻理解,博睿数据发现该公司曾经具备了基础架构的,网络流量以及CMDB配置管理以及局部告警汇总的能力,然而在对业务零碎的拓扑通明,基础设施数据联动剖析,代码级别问题定位,以及上线前后零碎品质把控上还不足工具。确认计划后,博睿数据先后在客户的外围零碎、核保零碎、影像零碎、保险代理人零碎等部署了1700+的智能探针,帮忙客户实时监控零碎运行状况,及时根因定位减速排障,更在用户在感知到问题前后行预警,全面晋升用户体验。 此外,博睿数据还为该客户部署了300+的公有监测点,模仿实在用户行为进行产品性能监测,同时充沛保障相干信息安全。通过探针对谬误和异样SqlException ServletException:OutOfMemoryError的解决,博睿数据赋能该保险公司微信平台的利用评分由66上涨至99。通过APM构建可视化业务监控工具,联合剖析基础设施和业务关系,实现了10个历史遗留问题的解决,节俭2名运维人力值守,投入到更重要的岗位下来。 可观测性的真正落地还有多久 博睿数据杨雪松分享了他对于可观测性的观点,并对博睿数据的行业解决方案进行介绍。以后,应用程序的复杂性正在爆炸式增长。面对越来越多的分布式框架、更加简单的依赖关系、更快的产品生命周期更迭、更高要求的客户,可观测性成为了市场的抉择。然而因为简单弹性框架无奈提前理解,日志的繁琐无奈高效诊断,独自的指标并不能反馈业务,短少用户旅程无奈还原事变,齐全实现开箱即用的可观测性,任重而道远。作为行业领导者,博睿数据一直向实现高质量可观测性发动冲击。 去年12月初,Bonree ONE进行了框架降级与性能升维,实现了数据压缩成果晋升20%-30%,均匀查问性能进步4-5倍,P99查问性能进步6倍+。新版POC,对大数据与AI组件进行瘦身,组件数量缩小60%,单机节俭20G+内存,安装时间放慢30%。此外,Bonree ONE的数据处理能力也全面降级,新版本反对了多租户资源隔离和细粒度弹性扩容,无效晋升稳定性的同时,写入性能晋升了 92% ,64K以下小文件性能优于Ozone与Ceph3-10倍。而博睿数据的对立服务中台OneService,能够为客户提供三大数据处理能力,帮忙更好地实现零碎可观测性:✓ 提供了对立对外数据服务能力✓ 提供了数据湖能力:包含跨地,跨源,跨库,跨模型,联邦计算等多种能力✓ 反对云原生弹性伸缩保险行业智能运维 圆桌论坛 圆桌论坛环节,到场嘉宾就多个问题开展交换探讨。就如何用科技和数据打造保险业竞争新劣势,人工智能到底如何赋能保险科技利用,将来两到三年内,保险企业在科技方面哪些是比拟重要的利用方向展开讨论。 并对包含AIOps的实际案例,如何实现从指标的关注到体系的建设,探针智能化的行业现状与产品劣势,被动拨测能够为不同行业客户提供何种反对,针对国内公有云行业现状如何实现数据湖搭建,还有对于Kafka、ClickHouse等各类技术能够如何晋升业务的等各类问题进行了深刻的交换。 将来,博睿数据还将举办证券、汽车行业的高阶沙龙,为相干行业人员提供更少数智化转型的思考分享与互相交换的机会。想要理解更多保险沙龙干货内容分享,扫描下方二维码或点击浏览原文,即可收费获取会议材料。流动预报4月21日,博睿数据将公布Bonree ONE2023秋季正式版,带来更强性能更优体验,欢迎您的关注。

March 27, 2023 · 1 min · jiezi

关于运维:下周阿里云考试即将改革需要证书的人要抓紧考试了

阿里云官网告诉,阿里云云计算高级工程师ACP认证将于2023年4月3日正式降级改版。正式降级前,该认证的考核规范不变。2023年4月3日正式切换新版考核规范,原考核规范即作废。想考试的人能够在认证大使上征询。 知识点 云服务器 ECS 31%弹性伸缩(Auto Scaling) 10%负载平衡 SLB 17%专有网络 VPC 9%对象存储 OSS 17%内容散发网络 CDN 3%平安(云盾、云平安) 10%云计算通用常识 3% 题型单选题 70题 每题1分多选题 30题 每题1分

March 24, 2023 · 1 min · jiezi

关于运维:OpenAI-Kubernetes-相关博文读后笔记

一、概述最近 ChatGPT 和其公司 OpenAI 特地火:ChatGPT 3, ChatGPT 3.5, New Bing, ChatGPT 4... 怀着学习的心态,这几天拜访了 OpenAI 的博客, 上边对于 AI 的内容,的确隔行如隔山,齐全看不明确。 然而翻看过程中,惊喜发现有 2 篇与 Kubernetes 应用相干的文章: 2018 年 1 月:Scaling Kubernetes to 2,500 nodes (openai.com)2021 年 1 月:Scaling Kubernetes to 7,500 nodes (openai.com)这不碰到老本行了嘛,学习下~ 以下为读后笔记,也退出了本人的思考:针对 OpenAI 现状,如何进一步优化监控、镜像拉取、容器编排相干架构。 二、读后笔记2.1 Dota 2 的 OpenAI 是跑在 Kubernetes 上的 Dota2 游戏镜像大概是 17GB2.2 OpenAI 如何应用 Kubernetes2.2.1 用处Kubernetes 在 OpenAI 次要用于深度学习,次要应用的是 Kubernetes Job. 2.2.2 抉择 Kubernetes 起因Kubernetes 提供了 ...

March 24, 2023 · 5 min · jiezi

关于运维:阿里云ACP考试内容是什么非专业人士可以考吗

现如今信息通信技术曾经成为了社会最重要的行业,不仅是专业人士,其余行业的人也纷纷转行,想要通过这一行赚到丰富的报酬,然而想要进入这一行,也须要很强的业余能力,能力在岗位上走得更远。 而业余的职业证书就是十分好的帮手,阿里云的认证是目前业界内人气十分高的证书,其背靠阿里云厂商,与社会各行各行的领头企业都有单干。其中的ACP证书是很多人都会考的,综合下来性价比最高、含金量最高。上面小编介绍其中最热门的两个,有须要的人能够在认证大使上具体理解。 1、阿里云ACP云计算 考试内容:云服务器 ECS 弹性伸缩(Auto Scaling) 负载平衡 SLB 专有网络 VPC 对象存储 OSS 内容散发网络 CDN 平安(云盾、云平安) 云计算通用常识 考试模式:下线考试 考试工夫:120min 考试费用:1200 考试题型:单选题 70题;多选题 30题 1、阿里云ACP大数据 大数据计算服务 Maxcompute 数据工场 DataWorks 数据集成 Quick BI 机器学习 PAI 和其余云产品配合的应 用及架构 考试模式:下线考试 考试工夫:120min 考试费用:1200 考试题型:单选题 70题;多选题 30题

March 22, 2023 · 1 min · jiezi

关于运维:私有频道用户组融云超级群的无限用户分层管理术

作为实现类 Discord 实时社区的第一抉择,融云超级群曾经在欧美、东南亚和国内的多款二次元趣味社交、游戏社区、地区社群等产品中“履新上任”,成为产品晋升用户粘性和拓展社交属性的要害能力。关注【融云寰球互联网通信云】理解更多 不同于围绕用户建设的关系,实时社区以频道为核心,用户退出或来到,这个空间始终都在,激励用户在一次长期交换后有更多后续沟通。 用户在退出超级群后,不须要申请就可能自由选择进入某一频道进行沟通、获取资讯信息。每个频道共用服务器中的成员关系,频道内沟通时可 @ 服务器中的任何成员。但同时,频道间的音讯内容和与本人相干的未读音讯数互相独立,互不影响。 这造成了实时社区产品举世无双的产品个性:一般群组无奈实现服务器下多频道共用一份成员关系,同时音讯内容又齐全隔离的状态; 同样用户无下限的聊天室产品,则不具备辨别主题和积淀内容的能力。正因如此,“超级群-频道”的二级产品构造成为实时社区的要害因素,把有独特趣味的用户连接起来,让趣味成为他们继续分享的驱动力并逐步造成凋敝生态,也形成了实时社区在反对用户顺畅沟通的同时积淀内容的产品内核。 同时,摒弃支流社交产品对流量的歪斜模式,实时社区没有“粉丝量”,没有举荐算法,这种绝对去核心的用户关系更利于社区认同感的打造。但当以上产品个性碰到了实时社区的另一个要害辨认点——无下限的用户数时,就有点辣手了。 当用户数达到一定量级,基于超级群内所有频道共享一份用户关系这个前提,超级群便会成为一个宏大的公域场合,对用户治理提出肯定挑战。 针对于此,融云超级群的“公有频道+用户组”能力实现对实时社区用户的分层治理,开发者调用相干接口即可领有相应能力,无需自行实现,进一步升高开发难度和老本。 公有频道,区隔公域的小世界融云超级群的公有频道能力,能够将用户池公域划分出圈层,满足社区场景中只有指定用户能够在频道中沟通的业务需要。 管理员能够在社区中创立公有频道,并通过邀请或拉取指定成员的形式,将社区中的好友用户或社区经营治理团队退出到指定公有频道中。 默认公有频道对应白名单中的用户能够在频道中收发音讯,非白名单中的用户则无奈在公有频道中接管、发送音讯。 公有频道能够随时切换为私有频道,私有频道也能够切换为公有频道。 用户组,批量治理社区成员融云超级群用户组性能,是超级群业务群成员管理工具,联合超级群公有频道性能,能够帮忙 App 实现更高效和精密的超级群成员治理。 用户组创立后,能够与超级群频道,尤其是公有频道进行绑定。实现绑定后,该用户组即可领有在社区公有频道中收发音讯和告诉的沟通权限,开发者亦可通过扩大属性灵便实现其余业务层需要。 单个用户能够存在于多个用户组中,若一个用户组绑定了多个频道,该用户组的所有成员即具备在绑定的公有频道中收发音讯、接管告诉的能力。 通过调用成熟接口取得这一批量治理能力,能够极大晋升利用的集成效率。 详细信息,欢送点击融云接口文档理解。 面向无下限用户的实时社区构建无疑是一个长线产品,实现大规模用户会聚的第一工作后,其余商业价值摸索可能性便会顺其自然而来,且一旦掀起浪花,涟漪将继续向外扩散。而融云超级群提供的“公有频道+用户组”的能力则能够成为反对社区长期继续经营的无力工具,晋升社区产品的用户分层治理能力,实现大规模用户社区的有序经营。 融云超级群外围能力二级构造超级群-频道二级产品构造,频道间共享成员关系的同时实现音讯隔离。有限用户反对上不封顶的用户退出,打造海量用户实时交互的超大型第三空间。内容积淀基于频道连贯有独特趣味的用户,驱动用户继续分享并逐步造成凋敝生态。多种音讯内置文本、表情、图片、语音、地位、小视频、文件等各种音讯类型。音讯获取用户上线后按需获取最新消息,不会因海量离线音讯造成卡顿解体。专属机制反对灵便设置告诉和推送频率,防止音讯过多影响用户体验。

March 22, 2023 · 1 min · jiezi

关于运维:Prometheus性能调优什么是高基数问题以及如何解决

背景近期发现自己试验用的 Prometheus 性能呈现瓶颈, 常常会呈现如下告警: PrometheusMissingRuleEvaluationsPrometheusRuleFailures之后缓缓排查发现是因为 Prometheus 的某些 series 的高基数(High Cardinality)导致的. 本文是对 Prometheus 高基数问题的一次全面总结. 什么是基数(Cardinality)?基数的根本定义是指一个给定汇合中的元素的数量。 在Prometheus和可察看性的世界里,标签基数是十分重要的,因为它影响到你的监控零碎的性能和资源应用。 上面这张图, 能够清晰地反馈基数的重要性: 简略地说。基数 是指一个标签的总体数值的计数。在下面的例子中,标签status_code的基数是5,(即:1xx 2xx 3xx 4xx 5xx),environment的基数是2(即prod dev),而指标server_responses的总体基数是10。 多少算高基数?一般来说: 较低的基数 1:5的标签值比率,规范基数 1:80的标签值比率高基数 1:10000的标签值比率。还是下面的例子, 如果 status_code 是具体的code, 如200 404..., 那它的基数就可能高达数百个, environment的基数再多一些, 指标server_responses的总体基数就会迅速收缩. 高基数的典型案例这还不够形象, 再举 2 个特地典型的例子: 有一个指标叫做: http_request_duration_seconds_bucket 它有 instance label, 对应 100 个实例;有 le label, 对应的是不同的 buckets, 有 10 个 buckets, 如(0.002 0.004 0.008 ... =+inf)它还有 url 这个 label, 对应的是不通的 url: 即便规模很小, url 可能也会有 400 个 url这里还有个特地恐怖的隐患, 就是对于大规模零碎来说, 这个 url 可能是近乎于无穷!!!它还有 http_method 这个label, 对应有 5 个 http method在这种状况下, 该指标的 label ...

March 22, 2023 · 4 min · jiezi

关于运维:IT系统变更风险防控必示说第七期

上期【必示说】从国务院机构改革看智能运维行业将来趋势提到,本次国务院机构改革很大篇幅落到了科技、金融和数据上。对智能运维行业来说,无论是以AI为代表新兴产业的促成,还是对金融畛域监管的增强,以及对数字经济减速后带来的宏大数据量的运维需要,都会极大促成智能运维畛域的衰弱倒退。 随着数字中国、数字经济、数字社会布局的深度倒退和建设的继续推动,各行各业势必会产生更多智能运维相干的需要,以满足针对不断更新迭代的业务零碎和日益增大的数据量的运维能力。同时,在数字化、智能化一直推动的背景下,频繁的系统升级与变更也随之而来。变更推动着企业业务倒退的同时,也带来了施行变更的危险。无论是利用公布导致的变更(次要为版本迭代、补丁降级等)、内部条件触发的变更(服务器宕机、硬盘故障、呈现BUG、版本回滚等)、架构优化调整导致的变更(代码重构、优化、迭代,数据保护、以及配置、文档、设计等的变更等),都可能对失常运行的零碎和服务带来未知的危险。事实上,70%以上的运维事变是由变更引起的。 零碎变更在软件开发和系统维护过程中是频繁且不可避免的,而频繁的变更通常会给运维工作带来不可预知的危险,影响业务零碎稳固运行,因而对变更的查看是不可或缺的。而目前对于变更施行后的查看多以人工验证形式实现,存在耗时耗力、脚本配置艰难、容易呈现漏查错查等问题。总之,目前变更问题发现次要靠人工检查和教训判断的形式经常出现错查漏查的状况。变更可能引起的运维事变包含数据失落、安全漏洞、性能生效、性能降落、用户误操作甚至零碎解体等,可能会导致重大的经济损失、数据损失、平安问题、信用危机甚至品牌减损。 美国富国银行3月10日公布音讯称,因为该公司零碎呈现技术故障,导致局部储户的贷款数据失落。尽管富国银行12日曾经公布音讯称目前局部问题曾经修复,但因为这次事件恰好产生在硅谷银行破产危机发酵之际,因而引起了社会宽泛关注。一些美国人在社交媒体上示意,为了本人的资金平安,打算从富国银行取出所有贷款。尽管没有颁布具体的技术故障的起因,据业内人士揣测,这种类型的数据失落可能是因零碎变更引起的。 以后以监控和巡检工作为主的运维变更管理工作往往偏差被动模式,运维工作不足前瞻性和计划性,难以继续自我优化品质和被动晋升效率。在AIOps理念曾经处于"从现实照进事实"的行业成熟阶段,IT运维畛域须要一款AIOps产品用于应答变更带来的潜在危险,必示变更危险感知平台(ChangeSeer)应运而生。    必示变更危险感知平台必示变更危险感知平台是基于资深运维风控最佳实际和利用变更场景研发的智能化运行危险辨认和治理产品,通过交融数据洞察伎俩和人工智能算法,针对利用变更,开掘海量运维数据中的潜在危险点,旨在帮忙企业数据中心被动发现和提前打消因变更引起的隐患,推动运维工作“从事中应急到事先预防”、 “从被动到被动”、从“繁多到平面”,晋升业务零碎运维保障品质。 必示变更危险感知平台以数据平台为数据集成能力底座,整合多源、异构运维数据;以运维算法专属平台为智能化能力底座,联合专家业务知识、交融AI算子编排和调用能力。通过平台灵便的编排配置,能够针对各类场景需要,造成标准化的危险查看项,构建面向零碎变更的危险辨认能力,并借助风险管理流程实现危险闭环治理,达到将常识、AI、自动化、治理标准等内容融入运维工作流程的指标,并以可量化的衡量标准晋升变更后运行衰弱指数。依据必示变更危险感知平台以后利用实际状况综合来看,必示科技变更危险感知平台通过人机协同的形式帮忙运维人员缩小90%的变更验证工夫,并无效发现60-80%的变更危险隐患。 案例分享 :某股份制银行危险变更我的项目  ◆ 我的项目介绍 在该银行业务规模不断扩大和业务翻新加剧的过程中,新业务需要日益增多、上线周期越来越短,软件开发过程的不确定性使得版本投产存在问题在劫难逃,高频次的上线导致出问题的概率也随之增高。如何适应高频率公布的同时保障业务零碎运行的稳定性是某行生产核心的外围工作之一。◆ 我的项目成果 ◆ 解决方案概述 必示智能危险感知平台利用其轻量级部署即插即用的个性,为运维数据智能剖析平台引入智能化变更质检能力,提供人机协同质检引擎、任务调度治理和剖析报告等性能,与运维自动化平台对接触发变更查看工作,构建智能化危险查看伎俩,及时感知零碎变更后可能存在的不确定因素。平台包含:依据不同利用零碎运行特点,分场景制订利用运行智能检测计划,使用智能算法剖析,进步利用零碎运行检测的标准化、高效化、智能化;在利用运行智能检测前,反对依据专家教训或测试后果调整检测指标值,进步利用运行检测准确率;反对多零碎集中运行检测,进步多零碎利用零碎运行检测效率;按零碎提供利用运行智能检测报告,汇总剖析各畛域指标运行状况,辅助技术人员疾速排查零碎隐患,保障系统业务连续性。我的项目纳管近70套重要业务零碎,靠近15000个交易码,超过2000台主机,涵盖交易量、失败量、成功率、响应率、均匀响应工夫、未响应量等6类交易指标。建设变更后危险感知场景,基于智能危险辨认算法,编排和创立数十个智能检测策略。

March 21, 2023 · 1 min · jiezi

关于运维:Prometheus-Alertmanager生产配置趟过的坑总结

简介Alertmanager 解决由客户端应用程序(如 Prometheus server)发送的警报。它负责去重(deduplicating),分组(grouping),并将它们路由(routing)到正确的接收器(receiver)集成,如电子邮件,微信,或钉钉。它还负责解决警报的静默/屏蔽(silencing)、定时发送/不发送(Mute)和克制(inhibition)问题。 AlertManager 作为 开源的为 Prometheus 而设计的告警利用, 曾经具备了告警利用各类丰盛、灵便、可定制的性能: 去重(deduplicating):比方高可用 AlertManager 部署下,同一个告警同时发到所有的高可用节点,会依据 hash 进行去重分组(grouping):比方能够依据 AlertName, Instance, Job 等任意 label 对海量告警进行分组. 典型状况就是, 忽然好多 Pod 都收回了 AlertName: InstanceDown 的 Alerts, 那么能够间接依据 AlertName 进行分组后发送, 这样用户只会收到一封 xxx 个 Pods InstanceDown 的告警邮件. 大大减少告警接管人员的收件量.路由(routing): 将告警跟进肯定的过滤条件发送到指定的 receiver. 如: 满足 job=db 的告警路由给 DBA; 满足 team=team-A 的告警路由给 team-A 的邮件组...接收器(receiver): 具体的告诉渠道 + 收件人. 如: 邮件告诉渠道+DBA邮箱; 钉钉告诉渠道+SRE联系人;静默/屏蔽(silencing): 如利用公布的时间段, 屏蔽相干的告警.定时发送/不发送(Mute): 如工作工夫(965, 每周 5天)通过邮件渠道发送; 非工作工夫(上班、周末、节假日)失常渠道 mute, 仅通过 on-call 渠道发送给 on-call 人员克制(inhibition):罕用场景,高级别的告警触发(firing)后,低级别的告警就不必发了。比方:磁盘空间的 critical 级别告警曾经触发(空间应用超过 90%), 这时候 warning 级别的告警(空间应用超过 80%)就被克制.除了没有多租户性能、没有很好的 UI 界面、没有告警历史统计展现之外,作为告警利用, AlertManager 曾经是十分弱小了。️️️ ...

March 20, 2023 · 3 min · jiezi

关于运维:Cron-Job-表达式解析

Cron Job 表达式解析Redisant Toolbox 是一款面向开发者的多合一工具箱,超过30种罕用的开发工具;精心设计,疾速、高效;离线应用,尊重您的隐衷。[TOC] 一遍又一遍地执行雷同的工作可能会很麻烦。 Cron Job 让用户能够主动执行工作。 这节俭了贵重的工夫,让用户能够专一于其余重要工作。 在这本面向初学者的综合指南中,您将学习 cron job 的基础知识,包含它们的类型、语法、非凡字符串和权限。 到本文完结时,您将可能应用 cron job 更无效地安顿工作。 应用 Redisant Toolbox 轻松编辑 Cron Job 什么是 Cron Job?Cron 是一个实用程序,容许用户输出命令以在特定工夫反复安顿工作。 在 cron 中安顿的工作称为 cron job。 用户能够确定他们想要自动化的工作类型以及应该在何时执行。 Cron 是一个守护过程——一个执行非交互式作业的后盾过程。 在 Windows 中,您可能相熟后盾过程,例如与 cron 守护过程相似工作的 Services。 cron 文件是一个简略的文本文件,其中蕴含在特定工夫定期运行的命令。 默认的零碎 cron 表或 crontab 配置文件是 /etc/crontab。 只有系统管理员能够编辑零碎 crontab 文件。 然而,类 Unix 操作系统反对多个管理员。 每个人都能够创立一个 crontab 文件并编写命令以随时执行工作。 应用 cron 作业,用户能够主动执行系统维护、磁盘空间监控和打算备份。 因为其性质,cron 作业非常适合 24/7 全天候工作的计算机,例如服务器。 尽管 cron 作业次要由系统管理员应用,但它们也对 Web 开发人员无益。 ...

March 20, 2023 · 3 min · jiezi

关于运维:K8s-应用的网络可观测性-Cilium-VS-DeepFlow

随着分布式服务架构的风行,特地是微服务等设计理念在古代利用遍及开来,利用中的服务变得越来越扩散,因而服务之间的通信变得越来越依赖网络,很有必要来谈谈实现微服务可观测性中越来越重要的一环——云原生网络的可观测。K8s 是微服务设计理念能落地的最重要的承载体,本文次要聚焦谈谈 K8s 的网络可观测性,以及其给基础设施/利用等团队能带来的价值。 谈 K8s 网络可观测性之前,先简略理解下 K8s 的网络通信是如何实现的,CNCF 定义了容器网络接口即 CNI,CNI 提供了一种利用容器的插件化网络解决方案,定义对网络容器进行操作和配置的标准,通过插件的模式对 CNI 接口进行实现。实现了 CNI 接口则成为 CNI 插件,常见的 CNI 插件包含 Calico、Cilium、Flannel、Kube-OVN、Terway、Weave Net 等,每种 CNI 插件都有本人的并重性,使用者可用依据环境限度、性能需要和性能需求等各种方面抉择本人所需的 CNI 插件。 然而目前针对这品种繁多的 CNI 插件并没有对立的网络可观测伎俩,对 K8s 网络问题的排障定位的前提是须要学习这泛滥 CNI 插件的原理,对于 K8s 运维或者微服务开发同学们来说学习老本高,而这么高的学习老本学成之后也只能用来答复「网络是不是瘫痪了」这类二极管问题,孤立的看网络只能看到一个个虚构网口、虚构网桥、网络策略,但看不到其中流动的每一个拜访门路,每一次利用调用,因而也就无法回答对于拜访门路、利用调用等这类细粒度的问题。 目前曾经开始有一些 CNI 插件厂商在反对 K8s 网络可观测性了,例如 Cilium 独自起了一个子项目 Hubble 来做分布式网络和平安的可观测性,目前已知的如 Calico,Kube-OVN 等也开始推动网络可观测性能力了;也有纯第三方厂商在做 K8s 网络可观测性,DeepFlow 就实现了一种与 CNI 插件无关的网络可观测性能力。上面将重点介绍下 Hubble 和 DeepFlow 两个组件,看看目前 K8s 网络可观测性的能力。 01|HubbleHubble 是一个用于云原生工作负载分布式的 K8s 网络和平安观测平台,它构建在 Cilium 和 eBPF 之上,能观测服务的通信行为,也观测网络基础设施的通信行为。 Hubble 的组件架构图,蕴含 CLI/Server/Metrics/Relay/UI,其中 Server 负责采集网络可观测性数据;Relay 对外提供对立的 API 入口,提供集群可观测能力;CLI 是一个命令行工具;Metrics 负责将指标数据输入给 Prometheus,因而能够在 Grafana 构建 Hubble 指标数据的 Dashboard;UI 这是目前还在 Beta 中,次要展现服务依赖/通信拓扑 ...

March 17, 2023 · 1 min · jiezi

关于运维:超越想象博睿数据3D数字展厅上线

历经多月精心打磨博睿数据3D数字展厅正式上线带来一个有温度、易操作、更全面的线上形象展览平台搜寻“博睿宏远”小程序,开启博睿数据3D数字展厅之旅 永远向上,3D数字展厅彰显博睿精力3D数字展厅设计灵感来源于博睿数据logo,博睿数据Bonree源自法语,寓意好的种子。博睿数据置信好的种子有强烈的信奉,种子寓意着生命的开始,象征着新的活力和旺盛的生命力。当种子破土而出之际,无论遇到风雷还是阳光,它永远向上,毕生背阴。种子的精力是创建博睿数据的初心,也是博睿人谋求卓越、坚韧求实的真实写照。 智领将来,开启博睿数据探索之旅3D数据展厅从单干企业、产品展现、公司简介、客户案例、解决方案、招聘区、荣誉墙几个方面对博睿数据进行全面的展现: 沉迷式体验以虚构交互的模式,能够足不出户浏览3D展厅,以更加活泼的模式展示博睿数据的各项信息,吸引观看。 简略易操作的交互模式通过在手机屏幕上滑动操作,可实现人物的前行、转弯等动作,点击对应地位的“查看详情”即可进一步理解相干信息。 清爽简洁的视觉格调3D数字展厅以品牌色为主基调进行设计,以清爽对立的视觉格调带来更优浏览体验。 轻松便捷的参观模式点击右侧地图按钮,抉择指标展厅地位,即可间接跳转,在提供沉迷式参观体验的同时,带来不同于线下更加便捷的应用形式。 沉迷式体验丰富多彩的内容设置在不同区域,3D数字展厅对博睿数据进行多方面的内容展现,包含倒退历程,来自银行、证券、互联网等不同畛域的解决方案与行业案例,公司荣誉等各类信息。博睿数据让IT经营更智能博睿数据专一于构建以用户为核心的简捷、高效、智能的新型IT运维。十五年来,为1000+客户提供运维产品与配套服务。2008年作为A股“APM监测第一股”登陆科创版。首家通过软件能力成熟度最高等级的CMMI5级评估认证。领有17项发明专利,111项软件著作权与27项核心技术。IDC《中国IT对立运维软件产品市场跟踪报告》显示,在中国APM市场中博睿数据份额位居第一。凭借卓越的AI能力,成为首家信通院《智能化运维AIOps能力成熟度模型》根因剖析模块优良级厂商。 2022年,博睿数据公布国内首个真正实现智能运维的一体化可观测性平台Bonree ONE,背靠免配置集成化智能探针ONEAgent、应用程序性能在线智能剖析技术SuperTrace、多模态联邦查问大数据引擎Zeus、自适应生成式人工智能技术Swift AI、实体关联拓扑智能构建技术SmartTopo五大技术劣势,成为具备国内竞争力的运维平台。

March 16, 2023 · 1 min · jiezi

关于运维:活动报名-博睿数据高阶行业沙龙保险专场启动报名

博睿数据数智领航行首次开营 高阶行业沙龙-保险专场3月23日精彩来袭 北京站现开启报名 名额有限,冲冲冲!!! 更有证券、汽车行业沙龙行将开启 演讲嘉宾招募中

March 16, 2023 · 1 min · jiezi

关于运维:网易易盾网易易盾性能测试自动化建设

性能测试简介什么是性能测试思考到有些同学没有接触过性能测试,这里还是简略介绍下。性能测试是通过特定的形式对被测系统依照肯定策略施加压力,获取该零碎的响应工夫、吞吐量等性能指标,来检测零碎上线后是否满足用户需要的过程。通过性能测试的定义不难看出性能的外围指标就是咱们常常挂在嘴边的 QPS 和 RT。 为什么要做性能测试简略理解性能测试之后,有些小伙伴必定会问为什么要做性能测试。对于这个问题,我打算举两个生存中的例子来阐明下。 • 12306——每年春运都是一次大考邻近春节,打工人都要抢回乡的火车票,2019 年 12 月 23 日,有大量网友反映,12306 网站忽然崩了,在购买车票的时候呈现无奈登录、无奈购票、车次加载失败、页面卡住等状况,疑似因拜访流量过大而呈现服务器解体。 • 微博——顶流明星的瓜不好吃2021 年 4 月 23 日,知名演员赵丽颖与冯绍峰离婚的音讯忽然颁布,这一音讯迅速登上微博热搜。该音讯颁布后,有网友反映微博客户端呈现了短暂宕机、网络出错的景象。 易盾性能测试痛点压测执行过程繁琐压测执行在易盾性能测试的整个流程中比重最大,易盾线上压测个别采纳梯度压测。什么是梯度压测,简略的说就是把压测的大指标拆分成多个小指标,从小的指标做起,直到最初实现最终目标。假如易盾文本检测压测的目标值是 QPS 达到 200,那咱们通常从压力值 20 开始,而后 40、60 逐步加大压力,直到最初实现 200 的目标值。 具体的执行步骤是怎么样的呢,咱们先用压力值 20,在 NPT 压测平台创立一个压测工作并执行,个别一轮压测执行 10 分钟。如果达不到 20 的目标值,压测停止定位性能问题;如果达到 20 的目标值,创立下一个目标值 40 的压测工作,继续执行。反复之前的判断逻辑,直到压测停止或者实现压测指标。 可能有人会问,你这不是自找麻烦,间接用 200 去压测看看行不行不就完事了。线上压测,保障线上平安始终是第一位的,须要慎之又慎,如果因为压测把线上压挂了会重大影响客户体验,甚至产生资损。 监控依赖人在性能测试过程中,监控&剖析属于一个难点,到底难在哪里?这里须要人的教训,须要对被测系统比拟相熟。只有在相熟的前提下,你才晓得须要看哪些监控指标,这些指标是不是失常,进而给出判断的论断。 目前线上压测会安顿值班同学察看监控,这种依赖人的监控很难做到实时,因为人的精力有限,基本没法兼顾所有监控。还有就是很少有同学从头到尾盯着监控的,大家都是有报警的时候去关注下。这样存在一些危险,可能有些报警没有配置、或者配置批改了没有及时还原,导致线上有问题了,没有报警收回来。 在压测过程中,咱们常常会遇到加大并发 QPS 上不去的状况,这时候个别就呈现性能瓶颈了,然而这个瓶颈在哪里就须要依据监控数据去定位和剖析了。咱们在定位的时候无非也是应用教训的三板斧,CPU/内存/磁盘/网卡等系统资源是否失常,申请量和 RT 是否正当,有没有呈现超时等异样谬误。 压测数据未隔离 因为压测流量和实在流量没有做数据隔离,导致线上无奈进行全链路压测,有些业务场景笼罩不到。比方易盾存储场景,一旦数据落库存在性能问题,kafka 的数据就会积压。此时 kafka 的 topic 中既有实在流量又有压测流量的数据,就算立马进行压测,也会影响线上实在流量数据的生产速度,影响用户体验。因而,平时线上压测都会敞开数据存储。 压测资损易盾有一些内部供应商,之前压测过程中,因为计划评估不到位脱漏了供应商这个环节,导致线上压测产生了一些额定的费用,这种压测资损也是不能容忍的。 易盾性能测试自动化实际压测一键执行创立压测工作的时候,主动创立多个梯度压测子工作。还是用易盾文本检测来举例,咱们创立一个 QPS 目标值 200 的压测工作,这个压测工作被拆分成了5个梯度,每个梯度的压测目标值从小到大别离是 40,80,120,160 和 200。这 5 个梯度对应 NPT 平台上 5 个压测目标值别离是 40,80,120,160 和 200 压测子工作。 ...

March 15, 2023 · 1 min · jiezi

关于运维:得物榜单|全链路生产迁移及BC端数据存储隔离

1.业务背景榜单在经验了供给量迅速增长及C端散发场景多样化等迭代,数据量及峰值流量呈十倍百倍增长,这必然带来数据库的极大存储压力和C端查问性能升高。为满足将来各类简单定制化规定和亿万级数据甄选,综合疏导消费者的购物决策,得物商品榜单生产迁徙及B/C端数据存储隔离应运而生。 2.概述得物榜单作为C端外围导购场景之一,通过建设丰盛的规定矩阵,多维度提供用户购买参考倡议,帮忙用户疾速决策并实现商详转化。目前涵盖六种类型包含热销榜、新品榜、趋势榜、种草榜、好评榜及回购榜,次要入口包含商详、品牌主页、分类tab、瀑布流、会场、频道等。 2.1 “圈选”+“排序”是外围:通过圈品条件圈选出一系列商品,再依据排序规定排名后取TOP20商品入选榜单。圈品范畴包含类目、品牌、系列、标签等,通过【6类模型、N项指标因子】综合计算排序后的总分代表商品的综合竞争力,分值越大,代表该商品体现越好。得物榜单基于上述算法模型严格把控上榜商品品质,从而帮忙用户依据本身诉求疾速决策。 2.2 是否存在更优的排序?通过对榜单排序逻辑优化可针对性晋升榜单承接效率,摸索一套最佳排序规定公式须要通过一直的尝试,因而整个试验周期较长,在设计上就须要反对试验的疾速推动。 来看下目前如何实现榜单的创立及生产。 <font color=#FF000 >波及表</font> 根底表:记录榜单根底信息;圈品条件表:记录榜单圈品维度信息包含类目id、品牌id、系列id、标签id、商品ids汇合等;商品汇合表:记录榜单下关联的top20商品id,以后榜单B/C端流量都是走了这个表的查问;<font color=#FF000 >如何绑定圈品范畴?</font> 人工榜单通过后盾新增榜单时绑定捞月规定或人工间接配置商品ids汇合,并同步写榜单圈品条件表;半自动化榜单通过后盾新增榜单时绑定类目id、品牌id、系列id等维度规定,并同步写榜单圈品条件表;自动化榜单通过事后设定的规定批量写榜单圈品条件表;<font color=#FF000 >数据流转?</font> 商品后盾新增榜单根底信息至根底表,将圈品范畴信息(类目、品牌、系列、标签、spuIds等)保留至圈品条件表,搜寻每两小时定时从库中捞取圈品条件表数据,获取最新数据刷到商品汇合表中。 搜寻数仓H+1/T+1 dump:搜寻离线数仓通过离线计算排序因子数据,生成离线宽表;搜寻离线圈品排序引擎:对照组榜单由搜寻生产。<u>每2小时定时调度</u>,扫描圈品条件表全量数据,从宽表中筛选商品并进行排序,排序后果通过DTS数据同步回流榜单商品汇合表;搜寻离线圈品排序引擎:实验组榜单由商品圈品排序引擎生成,底层实现和搜寻大致相同。3.零碎缺点及解决思路3.1 链路强耦合商品/搜寻存在双写榜单商品表场景,因为搜寻通过dts数据同步形式回流数据,导致数据互相笼罩甚至主键抵触,通过id隔离的形式能够临时解决。 3.2 反复造轮子目前榜单商品生产链路强依赖搜寻,由搜寻实现商品圈选及排序,搜寻榜单商品生产方式繁多,无奈满足榜单圈选/排序规定定制化供应。而 <font color=#FF000 >「捞月」</font> 作为得物外围选品投放平台,曾经具备弱小的圈品排序能力。 3.2.1 捞月指标体系海量选品指标维度(商品根底信息,流动信息,价格与库存,流量与转化等)撑持各业务,分钟级别选品实时指标数据; odps离线指标数据:商品/交易指标进行计算产出离线宽表。实时交易指标:如流动期间GMV,买家数等交易数据。 离线DUMP:离线数仓通过离线计算指标对应值经由datawork同步工作将指标值同步至捞月B端ES。 实时DUMP:业务零碎/实时数仓或其余对接模式准实时的通过商品Feature(一些业务逻辑性强的指标)、DB BinLog或其余形式将数据告诉到捞月指标核心,再由捞月指标核心将数据落到捞月B端ES。3.2.2 捞月实时选品引擎分钟级别执行引擎更新选品后果。 3.2.3 捞月排序核心反对个性化、统计字段、自定义权重配比等多维度简单升降序排序规定;也反对用户特色,进行举荐算法个性化排序。 <font color=#FF000 >具体细节不在本文开展,重点关注捞月指标体系、选品及排序能力在本次迁徙中的利用。</font> 针对第一个和第二个问题,咱们提出榜单迁徙捞月——通过复用捞月现有圈选/排序能力,实现榜单商品生产能力搭建,将榜单生产从搜寻侧迁徙至商品侧,移除榜单底层能力搭建对搜寻的依赖。 3.3 无奈撑持海量数据的高并发读将来榜单需撑持类目下沉场景,“类目下沉”即针对目前以类目为维度的榜单,再按品牌、系列、标签等维度进行榜单延长。如:跑步鞋热卖榜下,再细分出耐克跑步鞋、入门跑步鞋、透气跑步鞋等榜单,更多维度裁减包含人群、格调等。依照笛卡尔积生成形式将任意维度与类目进行两两组合,将产生百万级甚至千万级别 <font color=#FF000 >海量数据</font> ,造成极大的存储压力。同时,榜单从生产到C端散发,经验榜单商品圈定、审批流及其他状态管制,最终可能在C端胜利散发的榜单数量无限,每次查问都会触发无效数据的实时过滤。随着榜单数量的快速增长,必然带来C端查问性能升高,如大key、索引生效等,存在性能隐患。榜单在商详散发,必然随同着 <font color=#FF000 >高并发读</font> 。 针对这个问题,尽管能够尽量地从优化 sql、优化索引、缓存等等方面进行优化,但总会有达到极限的时候。对于海量数据的存储选型曾经有十分宽泛的案例,该如何进行存储选型?存储选型的目标还是为了咱们的应用场景和用户服务,因而在选型前须要答复一些业务指标&技术指标方面的问题,以便于咱们分明存储选型的应用环境: 数据量及日增数据量:数据量在可控范畴内日增稳固;读写偏好:榜单状态及上榜商品不频繁变更,读多写少;运行性能要求:并发量峰值商详、首页,低谷像一些二级页面;查问复杂度:简单条件查问、聚合查问、join查问;其余性能要求:实时性要求不高;联合榜单业务特色以及海量数据和高并发的特点,可能的解决方案不限于 应用缓存的形式通过程序代码将数据间接保留到内存中,如ConcurrentHashMap、Caffeine等;或应用缓存框架如Redis等;数据库优化:数据库优化的形式很多,常见的能够分为:数据库表构造优化、SQL语句优化、分区、分表、索引优化、应用存储过程代替间接操作等;应用NoSql技术:HBASE、MongoDB等;应用搜索引擎技术:ElasticSearch等;设计实际中,要基于需要、业务驱动架构,无论选用 DB/NoSQL, 肯定是以需要为导向,最终数据存储计划必然是各种衡量的综合性设计: 分库分表:垂直切分实用于表中存在业务耦合,且拆分后单表数据量仍旧很大;程度切分的关联查问性能差;HBASE:列存储分布式数据库,适宜TB级别数据的实时入库和疾速随机拜访场景,毛病是查问仅能通过rowkey和range检索,不反对简单查问;MongoDB:文档型NoSql,适宜非结构化数据存储,表构造可随便变更,因而插入效率高,同样的也是不反对简单查问如多表查问等;ElasticSearch:写入性能低,实时性低,然而通过为所有字段增加索引可反对简单的聚合查问和条件查问。综合思考,B/C端数据存储隔离成为当下<font color=#FF000 >性价比最高</font>的解决方案。 以下将论述本次实际的具体施行点。 ...

March 15, 2023 · 2 min · jiezi

关于运维:重磅更新-开源实时监控工具-HertzBeat-v130-发布-在线自定义来了

重磅更新 开源实时监控工具 HertzBeat v1.3.0 公布官网: hertzbeat.com | tancloud.cn What is HertzBeat?HertzBeat赫兹跳动 是一个领有弱小自定义监控能力,无需 Agent 的开源实时监控告警工具。 集 监控+告警+告诉 为一体,反对对应用服务,数据库,操作系统,中间件,云原生,网络等指标监控,阈值告警告诉一步到位。 反对更自由化的阈值规定(计算表达式),邮件 Discord Slack Telegram 钉钉 微信 飞书 短信 Webhook 等形式及时送达。 咱们将Http,Jmx,Ssh,Snmp,Jdbc等协定标准可配置化,您只需配置YML就能应用这些协定去自定义采集任何您想要的指标。 您置信只需定义YML就能立即适配一款K8s或Docker等新的监控类型吗? Github: https://github.com/dromara/hertzbeat Gitee: https://gitee.com/dromara/hertzbeat v1.3.0 大版本来了通过一个月的迭代更新,HertzBeat v1.3.0 在上周末正式公布啦, 举荐降级食用! 反对在浏览器页面自定义监控。hertzbeat领有弱小自定义监控能力,咱们所有的已反对监控类型都映射为一个YML,之前用户应用自定义监控性能适配指标须要在后盾编写YML文件并重启,体验欠佳且没有直观的感触。这次咱们带来了自定义监控页面化,欢送大家应用和分享奉献本人的监控类型定义。 反对对网络交换机的监控。hertzbeat很早之前就反对了snmp协定,windows监控就是通过snmp协定来监控的,这个版本咱们不仅反对了更多windows性能指标,还反对了snmp walk,适配了几款常见网络交换机的监控,欢送奉献更多类型与指标给社区。反对redis集群和更多数据库指标的监控。社区贡献者们奉献了对redis集群和多种数据库的扩大指标,丰盛了性能指标数据。反对iotdb1.0存储,无依赖模式等更多的新性能欢送来摸索修复若干BUG,更欠缺的文档,重构了代码。只须要一条docker命令即可装置体验heartbeat docker run -d -p 1157:1157 --name hertzbeat tancloud/hertzbeat 感激hertzbeat贡献者们的奉献! 咱们急需对测试用例,新增利用监控,文档等各方面的贡献者,十分欢送退出。 Feature: [[webapp,doc] monitor detail support basic panel hide #619]() @tomsun28[add alarm notification period #624]() @Ceilzcx[[manager] support more mysql monitoring metrics #631]()[[unit test] Add unit test cases for KeyPairUtil #635]() @Daydreamer-ia[[test]feature:add AlertDefineService test #638]() @hudongdong129[[unit test] Add unit test cases for AlertTemplateUtil #639]() @Daydreamer-ia[[test] add junit WarehouseWorkerPoolTest #642]() @TherChenYang[task #614 [Add monitoring parameters for Redis Cluster and Sentinel] #647]() @hudongdong129[A minor refactoring of the class WarehouseWorkerPoolTest #648]() @HattoriHenzo[[task]feature:Optimize Redis info [section] and Add Redis command statistics #665]() @hudongdong129[[document]add redis help document #672]() @hudongdong129[Jupiter dependency is explicitly declared in the main pom file #674]() @HattoriHenzo[refactor monitor define yml, update doc #675]()[[task]support more window metrics #676]() @hudongdong129[support config monitoring define yml in web ui #678]()[support delete monitoring define yml in web ui #679]()[[manager] add mysql, oracle, pg db more metrics #683]()[[warehouse] support jpa store metrics history data #684]()[[collect]Add redis cluster auto-discovery display metrics information #685]() @hudongdong129[Convert version into properties #686]() @HattoriHenzo[[webapp] change default monitor intervals 120s to 60s #708]() @xiaohe428[[warehouse] support jpa expired metrics data auto cleaner #691]()[snmp collect protocol support walk operation #699]()[support v1.0.+ iotdb #702]() @Ceilzcx[feature support monitor switch network metrics #705]()[[webapp] change alert define trigger times from max 10 to max 999 #706]() @Grass-Life[[doc] change default locale i18n from zh-cn to en #725]()Bugfix. ...

March 15, 2023 · 3 min · jiezi

关于运维:阿里云认证有什么作用想考下来需要花多少钱

为什么当初的社会越来越内卷,每个人都在奋力拼搏,以求失去更好的倒退。那是因为当初社会正处在高速倒退的阶段,每个行业的顶尖企业都心愿能够取得更多的资源,因而各个行业都在鼎力招揽新兴人才。 而除了能够用工作教训来证实本人之外,最直观的办法,就是用职业证书来证实本人的能力,而阿里云的证书就是目前信息通信行业内备受认可的一门证书。阿里云针对不同产品类别、用户成长阶段、生态岗位,精心打造不同的认证考试。 集体:证实您在对应技术畛域的业余度,可能基于阿里云产品解决理论问题。取得更多阿里云生态下的就业机会。 公司:通过阿里云认证造就、开掘专业人才,晋升公司的云上技术能力。取得更多阿里云生态我的项目商机。 1、·阿里云ACA认证 对于刚刚踏入社会的打工人来说,ACA认证是最适宜他们的,通过简略的认证来为本人关上进入企业的大门,认证分为云计算、大数据、人工智能等等各方向。考试费用是600,然而认证大使(wx:STKJ-009)有优惠报名券,能够去具体理解。 2、阿里云ACP认证 阿里云的中级认证是面向曾经工作了几年,有肯定的工作教训的人,而且阿里云的很多产品只有ACP认证,能够说这也是一种高级认证。费用是1200,除此之外还须要再购买学习视频。 3、阿里云ACE认证 阿里云的最高级认证,不论是考试费用,还是考试内容都十分的难,想要拿到证书,须要通过口试、试验和面试三局部,当初很多人都会考国际版的,有须要的能够找认证大使理解。

March 15, 2023 · 1 min · jiezi

关于运维:Kustomize-生产实战注入监控-APM-Agent

Kustomize 简介Kubernetes 原生配置管理工具, 它自定义引入了一种无需模板的形式来定制应用程序配置,从而简化了对现成应用程序的应用。目前,在kubectl中内置了,通过 apply -k 即可应用。 Kustomize 遍历 Kubernetes 清单以增加、删除或更新配置选项,而无需分叉。它既能够作为独立的二进制文件应用,也能够作为kubectl的原生个性应用。 Kustomize 劣势 齐全申明式的配置定制办法 原生构建进 kubectl 中 治理任意数量的独特定制的 Kubernetes 配置☸ 作为独立的二进制文件提供,用于扩大和集成到其余服务 定制应用的每个工件都是纯 YAML,并且能够被验证和解决 Kustomize 反对 fork/modify/rebase 工作流 GitOps 工具(如 ArgoCD) 对其的完满反对Kustomize 能够做什么️ Reference: ️URL: https://mp.weixin.qq.com/s/gmwkoqZpKbq1hM0B8XxQNw在 Kubernetes 中咱们应用 YAML 文件来申明咱们的利用应该如何部署到底层的集群中,这些 YAML 文件中蕴含利用定义、治理须要的标签、日志、平安上下文定义、资源依赖关系等,当咱们利用扩大到成千盈百个 Pod 当前,治理这些 YAML 文件就会成为一场噩梦了。 最典型的就是,有很多我的项目要治理,同时又有多套不同的部署环境:开发环境、测试环境、UAT 环境、生产环境。甚至可能有不同的私有云 Kubernetes 发行版。那么每一套环境都须要一套各种各样的 YAML 文件, 然而它们间接只有局部细节有差别。比方:镜像 Tag,服务 Name,Label,有没有存储等。 如果全是手动,保护工作量十分微小,同时也容易出错。 Kustomize 相比 Helm, 更适宜解决这种场景的痛点:有一个根底(base)的模板治理一个我的项目的所有根底 YAML,更多高级的需要通过 overlay 来实现叠加笼罩。 另外还有一类典型场景,就是交融来自不同用户的配置数据(例如来自 devops/SRE 和 developers). 同时也能够联合 helm, 进行一些更高级的配置。 ...

March 15, 2023 · 3 min · jiezi

关于运维:业务系统故障率居高不下有哪些非常有效的治理大招

一分钟精髓速览聊稳定性治理的文章很多,但面对零碎的“各类疾病”,到底该从哪里着手能力空谷传声,怎么能力“药到病除”?置信在看这个问题时,大家会抱着“能不能学两招回去用”的心态浏览。「TakinTalks论道系列」第3期,咱们采访了4位资深从业人员,别离从CTO、稳定性负责人、SRE架构师、研发工程师等不同视角,去理解大家教训里比拟好用、可能落实的“独门秘籍”。 舒适揭示:本文约4000字,预计破费7分钟浏览;后盾回复 “交换” 进入读者交换群。 去哪儿网 - 朱仕智高级技术总监稳定性治理,有哪些十分无效的大招?* 全链路压测、混沌工程、品质左移 是被动预防危险最无效的三个伎俩 去哪儿网整个稳定性相干的工作都由我的团队负责落地实际,从集体角度来讲,我认为去哪儿历年来在品质保障上,尤其是大规模重大流动保障上,实际进去最无效的伎俩次要有以下三个。 第一个是全链路压测,它对电商型的零碎来说是一个绕不开的话题,只有零碎存在大规模的流量稳定,我认为全链路压测是必须要做的工作。 第二个是混沌工程,在抵挡失控、防止不确定上,它是十分不错的技术手段。通过混沌工程一系列的保障措施之后,在过来的近三年里,咱们再没有产生过任何因为中间件可靠性导致的故障了,这对咱们来说是十分大的提高。另外,现阶段很多问题的排查定位速度也有了质的飞跃,曾经从几十分钟降为3-5 分钟的程度。 第三个是品质左移,品质左移让去哪儿的重大故障缩小了很多。前段时间我看了一组数据,品质左移(包含一些品质稳定性保障)做完后,故障数同比曾经缩小了三分之二,即已降到了去年同期约33%的水准。当然,稳定性治理的动作和产出之间,最终并不一定有间接的因果性,只能说具备很强的相关性。所以,想要获得什么样的成绩、打算做哪方面的投入,是须要依据企业的理论状况来评估的。 * 无奈齐全预防的故障,用AIOps来自动化剖析,进步解决速度 在去哪儿的故障曾经大幅缩小后,咱们目前正在着手进步故障解决的速度,AIOps的被动发现和智能归因我认为是性价比最高的。通过上述的三种“被动防止”模式,咱们预防了大部分的故障,剩下 1/3 大多是变更型的问题,而这种变更型的问题较难预防,只能尽可能进步发现和解决速度。自动化智能剖析是咱们目前正在做的事。 从过来一个季度的落地成果看,利用智能剖析进步被动发现率比拟艰难,对于没有人工设置告警的场景,只有30%左右能够通过主动剖析的形式被动发现,当然这也阐明了咱们的剖析策略还须要继续优化。然而对于曾经发现问题,进行排障归因的阶段,有78%的问题是能够通过智能剖析正确归因的,这次要得益于咱们对大量关联数据的主动剖析,涵盖了宿主机、容器、利用、中间件、事件、链路等维度。 数列科技 - 陆学慧联结创始人兼CTO稳定性治理,有哪些十分无效的大招?* 十大业务流程梳理,把无限的精力投入到最外围的“20条链路”下来 在稳定性治理里,我感觉应该做的第一件事件就是梳理十大业务流程,其最次要的作用,就是把公司可能投出来的最外围的资源投到最外围的业务下来。大多数企业在稳定性上都不会投入太多的人力,那么无限的精力到底该投到哪里去?假如有5000个接口,难道都要搞吗?不可能的,只有保障外围的那20个接口不出问题即可。 当然,在一开始没有工具的状况下的确会耗点工夫,但它依然是投入产出比最高的方法。十年前阿里外部提出了几个大的技术策略,可用性是其中之一,在没有工具撑持的状况下,咱们过后的做法就是大家都去梳理十大业务流程,把十大业务流程保住,剩下的链路不去投入太多精力,年底整体的可用性的确晋升了很多。所以我感觉梳理十大业务流程应该是最无效的方法。 * 外围业务流程做全链路压测,是流动必备的大招,确保在老板关注的大节点上不出大问题 把十大业务流程梳理进去后,就能够去做全链路压测了。在具体做法和工具上,有很多成熟的教训可供参考,也有很多方法去落地。我认为把这两招做完后,再搞大型流动就根本不会有什么问题了,即老板关注的大节点上,有方法可能把控,做到成竹在胸,所以这一招我认为也是比拟成熟的能够去落地的“大招”。 * 公布之前提交变更注销,抓好变更是落实稳定性标准的外围 我记得 《Google SRE》那本书外面也提到过,60%的故障都是变更引起的。实践上说,变更这件事件抓得越粗疏,出问题的危险就越小,但思考到投入的人力、精力和落地可行性,我认为抓好一点就够了,即做好线上变更注销(可参考阿里变更管控平台ChangeFree )。“不注销,负全责”,简略讲,就是规定做线上变更前,必须在零碎平台中注销,并写下操作步骤以及如何验证。从技术上讲,它就是一个表单,实现起来并不简单。对于提交变更,还能够对定责做约定,即如果没有提交变更单就公布变更,出了问题就由公布人担责;如果变更前提交了注销则无需担责。咱们常常在探讨稳定性标准要如何落地,其实规定不能定太多,规定太多大概率会无奈落地,我认为变更注销是落实稳定性标准十分外围的一点。 * 外围业务流程不依赖非核心节点,离开部署,保障十大业务流程的机器和数据独立 如果以上3点落实后还有余力,我认为在架构上还有一点值得投入——外围业务流程上不能依赖非核心的节点。梳理完十大业务流程后,肯定要判断链路上是否有咱们认为的非核心节点,如果有,那么应该把那些节点踢出去,或者把他们剥离进去,哪怕独自部署一套机器,也就是分组,其实提供的服务都一样,然而某一组机器就只给外围业务,其余机器能够由非核心业务混用,这样就能做好隔离。 以上四个方法我认为是在稳定性治理中性价比十分高的几点,如果能真正落实,我认为零碎稳定性根本会有40%的晋升,至多零碎不会呈现的大问题,也能有精力去继续优化小问题。 飞书 - 张相龙资深研发工程师稳定性治理,有哪些十分无效的大招?新的架构和业务减少后,从技术上看,无非是前端到服务端,再到存储的调用过程,在这个过程中要做的就是如何去解决其中的稳定性问题,我认为有三点比拟重要。 **第一,做好监控。 第二,把所有的强弱依赖梳理进去。 第三,对所有的强弱依赖和接口,在平台上做好 trace 跟踪、链路管理、数据分析,以及每一个节点流转上的成功率、失败率、 SLA 、PCT99 等各方面的监控和预警。** 你可能认为,这些动作看上去如同和业务没有关系?实际上,上线一个新的性能,它肯定是接口维度的,这个接口在平台上做户口注册,接口的QPS、SLA、PCT99等数据都能够在框架层面主动上报做统计分析,同时也会随着接口调用绘制出trace门路,并跟进trace门路失去强弱依赖,这样就实现了对接口在技术层面的所有和品质&性能相干指标的治理。做好这些治理后,从问题产生,到疾速发现问题并告诉到相应的服务提供人,再到解决问题,就能够完满地闭环了,所以不论业务如何变动、变得多简单,并没有太大的影响。这样稳定性的保障工作,就曾经能够下沉到基建层面了。 浙江挪动-蒋统统SRE架构师稳定性治理,有哪些十分无效的大招?浙江挪动在近些年的架构演进中,一方面随着云原生行业的倒退,逐渐实现对外围业务零碎的微服务化以及容器化革新;另一方面,面对国家对国有企业发展国产化自主可控后行先试的策略要求,也在继续进行各类国产化软硬件的替换试错,包含数据库、存储、服务器、操作系统等等。因而咱们在长期的踩坑过程中也积淀了一些稳定性保障教训。 * SRE参加到架构设计、入网管制、测试公布、应急抢修等各个环节,建设残缺的“护航体系” 传统的研发运维边界往往处在上线交付的工夫线上,而稳定性治理工作也都是作为预先的反向晋升工作,须要付出大量的工程老本和反复人力投入。因而咱们拓展了SRE的职责边界,将稳定性工作左移至软件生命周期的更前端,联结研发提前发展可观测性、稳定性等保障布局,建设起全局的平安生产“护航体系”。当初咱们SRE团队除了惯例的线上问题修复外,还会波及上线之前的测试公布,甚至再往前波及架构评审等的各个阶段SRE都会加入,如此能够全程参加故障的预防和管制。 * 在利用多活的根底上,建设笼罩业务、集群、网元的多层预案体系,进步应急团队抢修效率 架构团队当初做新的技术栈引入,或者新的架构变更等等,都有相应的架构评审或架构治理,在这种状况下,咱们设了比拟多规定,比方链路梳理、强弱依赖梳理、耦合点剖析等等。还有更重要的是,会在多活分片的根底上看整个链路环节是否有相应的业务开关,并对每个节点做预案管制,在链路上预埋相应的预案开关,在交付到应急团队时就能依据相应的预案伎俩及时处理。 那么如何去评估最终的成果?外围零碎架构治理后,实践上不容许再呈现 G4 (浙江挪动外部的故障危险等级)以上故障,即不应呈现客户或者业务受审达到较强水平的故障。 * 构建独立的应急零碎,做“多活”的备份,对外围业务做兜底保障 咱们尝试构建了一个齐全独立的应急零碎,和所有生产立体进行解耦,不和现有生产立体处于同一个机房。比方,浙江挪动的生产立体,目前是杭州+宁波两地多核心的架构,那么应急零碎就在金华从新构建。同时,这个应急立体零碎和生产立体零碎是不一样的,在原有的多活架构中,比方杭州和宁波的机房中可能利用部署截然不同,然而在应急立体零碎中,咱们只保留了最低水平的服务状态。咱们基于BASE实践对所有外围业务进行拆解,只把重点依赖的服务在应急零碎中从新集成,并将前台受理流程极简化,而且这部分应急数据和生产的数据是不做实时同步要求的,容许有损。因为前台用户在业务受理的过程中,大多数只关怀前台的业务动作是否失常。在真正面临所有生产立体不可用的极其状况下,应急零碎会主动启用并疏导用户进入该立体持续办理业务,而等到生产立体的能力复原后,再主动将所有应急数据同步回生产零碎保障业务数据最终一致性。 增加助理小姐姐,凭截图收费支付以上所有材料 并收费退出「TakinTalks读者交换群」 申明:本文由公众号「TakinTalks稳定性社区」联结社区专家独特原创撰写,如需转载,请后盾回复“转载”取得受权。 本文由博客一文多发平台 OpenWrite 公布!

March 14, 2023 · 1 min · jiezi

关于运维:虎牙SRE谈可观测如何做到比用户和老板更早发现业务异常

一分钟精髓速览可观测能力是指在简单的软件系统中能及时、精确感知到服务状态,特地是异样或故障的产生,确定异样的影响范畴、异样部位边界、断定异样点位、并由相干人员或软件做出精确决策的能力。本文作者联合虎牙SRE实际及20余年架构、研发、运维教训,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定位和快恢。 作者介绍 《SRE原理与实际》作者 张观石 TakinTalks稳定性社区专家团成员,前虎牙SRE负责人,资深运维专家和架构师,领有20年软件开发、架构、运维、SRE教训。历任我的项目研发负责人、SRE负责人、架构师,事变治理委员会委员、根底保障部架构师委员会委员。相熟基于微服务架构的直播业务、音视频业务、海内直播业务的稳固的保障体系。在混合多云架构、可观测性、预案、变更管控、AIOps等SRE畛域有深入研究和丰盛教训。参编信通院《信息系统稳定性保障能力建设指南》。 舒适揭示:本文约5000字,预计破费10分钟浏览。后盾回复 “交换” 进入读者交换群;回复“2251”获取课件材料; 背景在以前,运维团队个别都是做后端运维,比方根底监控、操作系统、中间件、拨测等等,然而互联网平台以业务为核心,以用户为核心,平台的性能服务、品质和用户体验等是要害的指标,仅仅关注后盾零碎的可用性是不够的,以传统运维的视角来解决故障、做监控会比拟被动。 运维想被动染指到业务中,我认为建设可观测能力是一个很好的方法,融入研发和业务部门的视角,甚至用户的视角,通过可观测性建设把SRE的工作推动到挪动端、业务侧、微服务的外部,甚至能够用来度量相干的能力,真正深度参加到晋升业务连续性中。作为SRE来讲,从用户的角度来保障业务的稳定性和品质是最终目标。 一、观测能力如何帮忙疾速定位?这里我先从虎牙的一个理论案例,来开展讲讲观测能力是如何帮忙疾速定位的。 发现: 当一个业务出问题时,很可能会有大量微服务出现异常,但你可能不晓得是哪一个。上图通过肉眼来看,大略可能晓得它的起因——调用量忽然大幅度回升,回升到肯定水平就开始有局部调用超时了。那么,告警里是否能把这种“肉眼可见”的信息体现进去? 告警:这是其中一个告警信息,会出现谬误类型、调用办法、调用接口、被影响实例、具体日志谬误异样等等,还会关联到这个服务的谬误明细页。这个告警信息就能够比拟容易做初步判断,通过链接进去能较快进行二次判断。 定位/剖析:当微服务告警很多时,咱们还心愿进一步理解,谬误是否在某条链路上、是否都属于某一个业务的服务,以及它是怎么流传的、影响了哪些链路、哪些服务、哪些实例、哪些没有被影响、失败的调用源头是哪里、终点是哪里等等。 在这个调用链中能看到,这次告警影响了哪些链路、哪些服务、哪个是最基本的源头,通过调用链还能看到节点,而且可能和日志的详细信息做关联剖析,接口谬误次数、失败率、失败次数都能看失去。 告警会同步黄金指标存在的问题,并间接告知根因,比方,故障是哪个平台的、返回码是什么、占比是多少等等,如果有对应的预案,也会关联到对应的预案,这对咱们剖析问题有很大的帮忙。 二、为什么要建设可观测能力?2.1 我了解的可观测性可观测性的实质,我了解是零碎内外部状态的数字化示意。咱们的零碎是一个实体,它的状态能够通过一些直观的图表、文字、曲线示意进去,工程师能够通过观测零碎看到零碎的构造、状态以及变动。通过这套体系,在一个比较复杂的零碎里找到变动的本源,并能够解释为什么会产生这些变动、变动的相关性、变动的逻辑性等等,这是可观测性的实质。 可观测性也会给SRE工作带来诸多收益——第一,零碎的稳定性、可靠性的确会有很大的晋升。第二,通过观测体系建设,比方数据上报、数据利用,能够让SRE工作推广更加顺利。SRE通过观测性建设可能成为整个团队里比拟要害的力量,能够参加到很多工作中去,和其余团队尤其业务团队的工作联合更加严密。 2.2 监控观测范畴的扩充过程从传统的“当前台零碎为核心”到以后的“以业务/用户视角为核心”,可观测性能力的建设是运维工作变被动为被动十分重要的抓手。 举个例子,一位虎牙主播正在直播时,如果网络抖动或其余起因,观众反馈卡顿了,之前的解决方法是主播、经营、主播端技术这三方进行沟通,上传日志,而后工程师后端做剖析,或者让主播尝试重启。在接入可观测零碎后,通过主播上报的数据、接入服务、后盾的监控数据等,就能看见整个直播间的运行状态,不再须要主播和经营找研发侧做沟通。间接通过数据做比照实时剖析,就可能较快找到问题,把外面的数据联合起来做分钟级的告警。 在扩充期建成了对立的观测零碎后,在外围期还能够做到对立标准、上报、存储、展现,充分利用这些数据相互关联,引入大数据和AIOps的能力,疾速感知、剖析、诊断问题,同时利用这些数据来度量业务的品质以及整个稳定性工作的后果。 2.3 监控观测技术的演进监控观测技术大家都很相熟了,很多企业也都在往对立观测这个阶段去演进,比方全景监控、全链路平面、平面监控、交融监控等等叫法不一。 第四个阶段——综合感知能力,我感觉是将来的倒退方向,即咱们要做的不只是观测,更要强调综合的感知能力,不论是业务的感知,还是智能决策,比方自愈、触发容灾等。 三、如何建设分钟级的发现、定位和修复能力?3.1 确定发现/定位/修复 须要的能力 3.1.1 发现故障发现问题肯定要监控业务,从用户最直观、最重要的服务开始监控。 在以前有一个比拟难堪的状况,传统形式只做后盾监控,但工程师发现一个故障其实次要依赖软硬件的监控,还有零碎后端服务的监控。这会导致用户、经营甚至老板发现问题了,但工程师却看不到异样指标;又或者晓得某个微服务出问题了,但不晓得对用户的影响有多大,即监控不能代表用户拜访业务的品质。还有,在传统的形式里,工程师须要配置、保护大量指标监控,随着零碎和对接人员发生变化,很难保障不出错。 所以要从用户最直观、最重要的服务开始监控,比方,辽宁省挪动运营商的一部分用户看不了直播,在用户、云厂商发现之前,观测零碎是否能提前发现问题,并收回告警信息这点很重要。 3.1.2 定界定位评估故障影响范畴、重大水平等,这要求零碎有很强的剖析定界能力。 再举个例子,当用户状态的全局成功率降落了2%时,观测零碎需及时找到问题点、疾速确定范畴,并找到问题的起因、影响用户、用户状态等等。 而传统的形式是扩散建设,团队各自建设本人的监控零碎,比方基础设施的有一套、容器的有一套、日志的有一套等等,各团队为了小团队的工作,构建了大量这样的监控零碎,在各类公司中这样的监控零碎根本不少于四套。如果监控数据割裂,则很难疾速确定根因,比方,服务器上出了故障,要找微服务的监控;微服务的故障,要跨零碎找基础设施、网络、日志的数据,这样的效率是非常低的。 3.1.3 决策修复所有的监控数据必须高低关联做对立建设,并联合算法剖析,能力做出更快更好的决策。在监控数据对立的根底上,没有数据的须要补充数据,有数据的要充分利用数据,综合利用算法的能力,尽快确定影响范畴,做初步的定位,通过告警的形式告知根因。再进一步举荐预案,间接关联到某个执行的预案里,只需一键执行或者简略操作即可,最终是心愿能做到自愈。 3.2 从14个环节中发现改良点为了更快修复故障,咱们把故障的生命周期开展来看一看。发现、定位、修复三步开展来,能够分为图中的14个环节。这张图摘录自我的新书《SRE原理与实际》,这部分内容我在书中有具体介绍。 在这些阶段里须要尽量把工作往前做,比方在苗头阶段可能看出趋势就告警进去,不会呈现大量的报警吞没,这样能做到更早、更被动地发现问题。 举个例子,还是以虎牙直播为例,在看直播时卡顿或者打不开,大多数用户是不会反馈的,不爽的时候间接就换个直播间或间接走掉了。当咱们把故障生命周期分成14个阶段后,就可能粗疏剖析在哪个节点的效率是能够进步的,比方,在苗头阶段是否发现、告诉确认阶段是否缩短时长、告警是否能够更加敏感、定位是否能够更加高效、根因定位是否能更加精确等等,想尽一切办法来缩短整个MTTR(均匀修复时长)。 3.3 明确度量要求故障过程的度量要求这里有2个参考,一个是阿里的“1-5-10”,即1分钟发现,5分钟定位,10分钟修复;二个是虎牙的“2-3-5”,即2分钟发现,3分钟定位,5分钟修复。 3.4 建设可观测性的3个要点第一点,要做对立的布局建设,包含对立采集、标准、上报、存储、UI/API、公共算法等。 第二点,倡议把影响用户的要害指标作为业务的黄金指标,并和业务研发、老板达成统一,从用户侧上报这些要害的质量指标,并为每个黄金指标配置一套欠缺的监控、剖析、排查、诊断甚至修复预案的能力。 第三点,以终为始,通过黄金指标的建设,建设起一套度量的体系,一方面度量业务自身的品质、稳定性,另一方面能够度量整个过程,比方首发率、监控告警率、告警漏告率,以及发现时长、定位时长、修复时长等等,造成指标体系,以此在公司外部买通高低认知。 3.5 建设可观测性-指标范例下图是虎牙在某个微服务的监控指标,供参考。 3.6 案例:可观测利用下图是可观测帮忙发现能力短板的又一个案例。剖析此故障中,故障发现能力存在重大问题,工程师降级实例失败没有发现,也没有告警,而是通过调用此服务的上游业务告警后才发现。以上就是可观测性建设的整体思路和办法,具体的实际细节在《SRE原理与实际》的第四章中,有较大的篇幅重点来讲,包含一些实际案例在书中都有具体的解说。 四、实际案例:AIOps进步故障定位效率AIOps最大的作用,我认为是能够帮忙了解海量的数据,在海量的数据里找到相互间的因果关系、正相关性等逻辑关系。比方,指标抖动后的剖析各个维度之间的相关性、逻辑性,并可能通过算法剖析。在过往可能每个维度都须要人工剖析,而AIOps算法可能自动化地做这些剖析。 4.1 观测帮忙疾速发现、定位、快恢当某直播间总卡顿率出现异常时,须要确定是哪个维度及组合中的指标(汇合)导致的。如图能够看出有三个线路都有卡顿,按码率只有一个1200,按P2P有惟一的卡顿,这样通过人工来看,能够大略得出结论是按码率和P2P这个组合导致的卡顿。基于这个长期的教训,SRE团队研发了卡顿多维度更新定位的算法,同时联结多个部门闭环解决。如上图所示,咱们在主播端加了一个智能的卡顿反馈按钮,点击卡登时,后盾就能够通过观测数据做算法剖析,一部分确定是主播本人问题的,会反馈给主播并通知主播如何修复,提供相应倡议。另一部分通过剖析发现是后盾问题的,能够通过其余形式,比方切上行、切码率、切线路、切P2P等,做到局部自愈。无奈自愈的局部,比较复杂的问题就会造成一个自动化的工单,进入工单零碎中。 4.2 AIOps帮忙疾速定位:技术计划对任意给定的叶子节点,采纳了两个指标Influence Degree 和 Contribution Ability评估它和异样的相关性。采纳加权关联规定开掘的形式自行开掘维度之间的关系。采纳迭代定位的形式解决同一时刻有多个根因的状况。最终基于原始数据散布排序输入举荐的根因。 4.3 AIOps帮忙疾速定位:成果卡顿反馈按钮背地集成了AI卡顿定位模型,买通值班工单零碎、一线&研发值班解决流程,最终主播卡顿均匀解决时长由10分钟缩短到3分钟,时长显著缩短; ...

March 14, 2023 · 1 min · jiezi

关于运维:Kafka最佳实践

前言Kafka 最佳实际,波及 典型应用场景Kafka 应用的最佳实际Kafka 典型应用场景Data StreamingKafka 可能对接到 Spark、Flink、Flume 等多个支流的流数据处理技术。利用 Kafka 高吞吐量的特点,客户能够通过 Kafka 建设传输通道,把利用侧的海量数据传输到流数据处理引擎中,数据通过解决剖析后,可反对后端大数据分析,AI 模型训练等多种业务。 日志平台Kafka 最罕用也是我最相熟的场景是日志剖析零碎。典型的实现形式是在客户端部署 日志收集器(如 Fluentd、Filebeat 或者 Logstash 等)进行日志采集,并将数据发送到 Kafka,之后通过后端的 ES 等进行数据运算,再搭建一个展现层如 Kibana 进行统计分析数据的展现。 物联网随着有价值的用例的呈现,物联网(IoT)正失去越来越多的关注。然而,一个要害的挑战是整合设施和机器来实时和大规模地解决数据。Apache Kafka®及其周边的生态系统,包含Kafka Connect、Kafka Streams,曾经成为集成和解决这类数据集的首选技术。 Kafka 曾经被用于许多物联网部署,包含消费者物联网和工业物联网(IIoT)。大多数场景都须要牢靠、可伸缩和平安的端到端集成,从而反对实时的双向通信和数据处理。一些具体的用例是: 联网的汽车基础设施智能城市和智能家居智能批发和客户360智能制作具体的实现架构如下图所示: 应用的最佳实际可靠性最佳实际基于生产者和消费者配置满足不同的可靠性生产者 At Least Once生产者须要设置 request.required.acks = ALL,服务端主节点写胜利且备节点同步胜利才 返回 Response。 消费者 At Least Once消费者接管音讯后,应先进行对应业务操作,随后再进行 commit 标识音讯已被解决,通过这种解决形式能够确保一条音讯在业务解决失败时,可能从新被生产。留神消费者的 enable.auto.commit 参数须要设置为 False,确保 commit 动作手工管制。 生产者 At Most Once保障一条音讯最多投放一次,须要设置 request.required.acks = 0,同时设置 retries = 0。这里的原理是生产者遇到任何异样都不重试,并且不思考 broker 是否响应写入胜利。 ...

March 13, 2023 · 11 min · jiezi

关于运维:社交软件的月活利器从UGC到互娱

线上社交这件事自身并不赚钱,然而社交能带来的一系列增值服务往往前景可观。 最典型的代表就是腾讯,QQ若非起初找到了“皮肤”这项现金牛,早被马化腾打包卖了进来。微信同理,用户用微信聊天并不能给平台带来多少收益,但朋友圈推广的广告能够。 想要用户在一个平台留下来,社交性和互动性是十分至关重要的因素。察看近几年各大挪动App的转型倒退,可能发现有一个很显著的趋势,那就是减少互动和社区活跃度。 B站像微博、小红书一样开启了同城板块,反对用户像发朋友圈一样发短内容;抖音处心积虑将本人做成短视频界的朋友圈,很多用户开始通过刷短视频来理解熟人动静;就连美团、淘宝这类购物App也减少了社区互动板块。 晚期的挪动互联网是在鼎力怂恿普通人参加创作,即UGC,当初的挪动互联网则在用互动娱乐吸引用户留存。一如微信上跳一跳、羊了个羊之类的小游戏,总是有新产品能够让人骑虎难下。 UGC带动创作,带不动娱乐 朋友圈从诞生到前面的倒退方向,其实和创始人团队最开始的一些构想有区别。本来是为了尽可能地给所有人一个分享本人生存的平台,哪怕文盲,因而纯文字的朋友圈很长一段时间里处于“内测”状态。 无论是写公众号文章还是在朋友圈发大段文字,都须要具备肯定的文字表达能力。写文章或者有肯定门槛要求,但拍视频不是,升高分享门槛这件事最终被短视频实现了。 各大短视频平台为了进一步升高创作门槛,还配套出品了一系列的剪辑软件、便捷工具,从根底剪辑到智能配乐全都不必创作者操心。 剪辑软件多借助API/服务端/客户端SDK接入,实现音乐内容+凋谢能力的自由组合随之而来的是创作平台上创作者和内容量大幅度减少,只管品质参差不齐,但这种万众创作的场面已是前所未有。 在这个时代,只有有分享与创作的欲望,不愁找不到中央输入,还有很多人因而转业,开启了另一番人生。手工耿是草根在短视频界崛起的典型代表 UGC蓬勃发展到起初,增长开始放缓,互联网筛选出那批最优良的草根或非草根创作者之后,所有趋于稳定。如何让平台中现有的用户留下来,成了所有互联网公司思考的问题。 将平台变成一个社交平台,成为了大部分企业的抉择,只有用户感觉在这个平台能找到有用的、好玩的,就很容易留下来。 对于小红书、公众点评这类软件而言,有用性很重要,而对于Soul、Clubhouse、晓秀这类本来就带有很强社交性的软件来说,乏味变成了重点谋求。 K歌、直播OR玩游戏? 如何乏味?答案是:互娱。以腾讯在线音乐板块的营收形成为例,社交娱乐服务在很长一段时间占了较大比重。 所谓社交娱乐服务,能够简略地了解为K歌、直播等带娱乐性质的性能。反映到财报上也很显著,2017年-2019年这三年,腾讯音乐的社交娱乐服务及其他支出占总营收的比例高达七成。 在这七成当中又有相当一部分收益来自用户送给主播的虚构礼物。这种营收构造从近几年开始有所扭转,腾讯音乐社交娱乐服务的营收占比开始降落。2022年Q3财报中,社交娱乐服务同比持续降落20%,毕竟晋升音乐会员付费率才是在线音乐平台的长久之计。 然而这种减少营收的办法思路始终未过期,先社交,再吸引用户掏钱。 实现社交的渠道十分多,游戏、K歌、直播或语聊房。 喜马拉雅推出过本人相似clubhouse的语音聊天软件Myclub,Soul等主打陌生人社交的软件也在退出了语聊房板块;淘宝、支付宝还有拼多多上的小游戏层出不穷,一到双十一前后,各样玩法更是令人目迷五色;全民K歌、酷狗K歌等音乐互娱软件始终有着十分稳固的受众市场……总体来看,K歌、直播还有游戏,都算是比拟支流用于减少用户留存和促成互动的伎俩。这三种伎俩所面临的重难点又各有不同。 K歌和直播(尤指唱跳直播)性能都须要依赖弱小的音乐曲库,要么平台自身就是一个曲库。另外一种是通过SDK/API接入业余曲库,由第三方来提供音乐资源反对,参照音乐CP、晓秀App等。 小游戏的难点在于前期活性维持,不论是已经风行一时的跳一跳还是去年风行的羊了个羊,甚至淘宝的双十一游戏,开发难度都远在大型网游之下,难的是如何继续吸引用户玩上来。 随着互联网拉新老本一直推高,对于当初的挪动互联网平台来说,曾经过了砸钱圈用户的阶段,接下来每一步都须要降本增效再降本增效。

March 13, 2023 · 1 min · jiezi