运维 | 乐趣区

关于运维:月活近千万连续-365-天无故障货拉拉怎么做稳定性指标度量

一分钟精髓速览每一位被故障折磨的稳定性负责人，都或多或少面临自证的窘境：如何证实往年的稳定性工作是杰出的？在无奈完全避免故障产生的前提下，如何证实稳定性保障工作的价值？在团队和工具尚不齐备时，如何高效率推动稳定性建设工作？本期邀请货拉拉稳定性负责人，从全局视角分享如何在 2 年内从 0-1 建设稳定性度量体系建设的教训，零碎介绍稳定性指标度量的价值、落地办法及功效。作者介绍货拉拉技术稳定性团队负责人——李全 TakinTalks 社区特邀讲师。2021 年退出货拉拉，现任货拉拉技术稳定性团队负责人，主导了公司技术稳定性体系从 0 到 1 的建设，也曾作为核心成员深度参加了阿里本地生存技术危险体系建设，在应急响应、变更管控、大促保障等稳定性畛域有丰盛教训。舒适揭示：本文约 5500 字，预计破费 11 分钟浏览。后盾回复 “交换” 进入读者交换群；回复“0607”获取课件材料；背景“拉货就找货拉拉”，置信很多人都听过这句 slogan，也有不少人应用过货拉拉的搬家服务。货拉拉除了有大家熟知的同城货运、搬家等业务，还有许多其余业务场景，比方跨城大车、企业服务、零担，甚至还有汽车租赁、加油充电等。截至 2022 年底，货拉拉的业务范围已笼罩了中国边疆的 360 个城市，月沉闷司机数量达到了 68 万，月沉闷用户数超过 950 万。在这样的业务模式和业务规模下，技术稳定性的必要性和重要性是显而易见的。我在 2021 年退出货拉拉，过后技术稳定性刚刚处于起步阶段，很多工作待建。通过 2 年的致力，货拉拉技术稳定性体系实现了从 0 到 1 的建设，整体故障数升高了 78%，同时 SLA 也从 3 个 9 晋升到了 4 个 9。明天的分享将联合过往在阿里本地生存技术危险体系下的教训积淀，以及在货拉拉的实际功效，探讨技术稳定性的重要性和建设办法。一、为什么肯定要做稳定性指标度量？1.1 指标：把抽象感触量化为绩效后果咱们须要建设一套可能形容稳定性程度的一系列指标，这些指标就称之为稳定性度量指标。回顾生存中的一些经验，你会发现要清晰地形容一件事件是有肯定难度的。举个例子，阿诺德·施瓦辛格大家应该都不生疏，要形容他的体型特色，可能很多人会用强健、高大威猛这样比拟含糊的词语来形容。但如果咱们用指标度量的形式来形容，比方身高一米九，体重 200 斤，加上其余更具体的数据，比方体脂率不到 10%等，这样的形容会更加具体，并能够将其与其他人进行比照，他的强健和高大威猛就显而易见了。回到咱们日常的稳定性工作中，比方去年你做了很多与稳定性相干的工作，过程也很顺利，积攒了不少教训，整体后果也不错，公司里的技术人员必定都会留神到这一点，他们会说“最近零碎很稳啊！”。然而作为整体稳定性的负责人，或者某个稳定性畛域的负责人，你不能间接向老板表白这种感触，而是须要将这种感触转化为绩效指标来进行表述。因而，咱们须要建设一套稳定性度量指标，通过这些指标来形容零碎的稳定性程度。这些指标应该是可掂量、可比拟的，能够让咱们对系统的稳定性进行更加精准的形容和剖析，同时也能够为稳定性建设提供具体的指标和方向。 1.2 价值：推动稳定性体系向前演进稳定性指标度量不仅能够帮忙分明地表白成绩，更重要的是它可能推动整体稳定性体系的提高。首先，它是一个十分弱小的监控工具，能够帮忙监测以后稳定性的状态。其次，它具备预警能力，能够提供数据供拆解剖析，找出以后稳定性的短板和亟待解决的问题。最初，咱们须要评估解决问题的危险老本，这将成为咱们下一阶段工作的指标。以往，咱们可能会在线上故障产生后能力发现问题，这是一种亡羊补牢的过程，而指标体系能帮忙咱们更被动、全面地对待问题。因而，稳定性指标度量的外围价值在于帮忙整体稳定性体系向前演进。二、如何建设指标度量体系？2.1 剖析以后痛点货拉拉在初始阶段遇到了一些问题，其中包含以下几点。首先，指标十分零散。公司可能有一些稳固的指标，但这些指标无奈追溯到最终目标，也无奈充分体现其价值。其次，指标定义不够清晰。同一个名词在不同人的了解中可能有不同含意。再次，指标数据不容易获取。须要通过梳理文本信息进行统计，但准确性和可操作性不易把握。 ...

关于运维:使用-OpenTelemetry-构建可观测性-06-生态系统

过来的五篇文章探讨了如何应用 OpenTelemetry 来构建可观测性的技术细节。我认为在本博文系列的结尾介绍无关 OTel 生态系统的信息，为读者提供更全面的理解十分重要。OpenTelemetry 的倒退十分迅速，对于刚接触它的人来说，可能会感到有些手足无措或困惑，不晓得在哪里找到无效的信息或资源。 OpenTelemetry 是一个 CNCF 我的项目。然而，在 CNCF 我的项目中 OpenTelemetry 的体现如何？以拉取申请、问题和提交代码的数量来掂量，OpenTelemetry 是第二沉闷的 CNCF 我的项目，仅次于 Kubernetes：数据源(X Corp) OpenTelemetry 的将来发展前景广大，充满希望。我置信它将在云原生畛域中表演重要角色，并且将继续倒退上来。我的项目官网要理解和学习应用 OpenTelemetry 首推的是我的项目官网：opentelemetry.io。那里有丰盛的信息和指南，能够帮忙你疾速入门并在你的软件中利用 OpenTelemetry 。 OpenTelemetry 的我的项目博客也是值得关注的局部。在那里你会找到很多更新和布告。通常来说，如果你对 OpenTelemetry 还不相熟，我强烈建议你花些工夫浏览一下我的项目官网。社区OTel 领有泛滥的功能集。而随着这些性能的减少，通常也随同着肯定水平的复杂性。在某些时候，你可能须要社区的帮忙。我发现与社区成员（包含维护者！）聊天的最佳形式是通过 CNCF Slack 工作空间。 OpenTelemetry 最次要的频道是 #opentelemetry ，这是一般性探讨。也有一些特定话题或语言版本的频道： otel-collector - 所有的无关 OpenTelemetry Collectorotel-go - OpenTelemetry Go （API， SDK， implementation）otel-python - OpenTelemetry Python （API， SDK， implementation）还有更多！在 Slack 中搜寻关键字 '#otel' 看看其余 OpenTelemetry 频道。在 OpenTelemetry 的社区频道中，你能够找到很多有价值的信息，比方我的项目的治理、感兴趣的畛域、会议和我的项目排期时间表等等。如果你有趣味参加 OpenTelemetry 我的项目，这个社区仓库是一个很好的终点，帮忙你更好地理解和参加进来。我的项目仓库我不得不抵赖，当我开始应用 OpenTelemetry 时，对我来说更令人困惑的事件之一是GitHub我的项目仓库的组织形式。OpenTelemetry的次要组件（不是特定于语言或收集器）能够在以下我的项目仓库中找到： ...

关于运维:使用-OpenTelemetry-构建可观测性-05-传播和行李Propagation-Baggage

咱们开发的应用程序可能具备不同的状态和架构：有些是单体利用，有些是微服务。为单体应用程序增加遥测数据相对来说简略，因为所有数据都在同一过程中。然而对于微服务应用程序，状况可能会更具挑战性。通常，散布式微服务应用程序的不同服务之间仅通过网络连接。然而，当咱们想要创立无效的链路追踪数据，就要思考到上面的问题：即便是微服务应用程序，咱们也心愿察看到从开始到完结的用户门路，这意味着逾越多个服务的边界。这就是咱们所说的分布式链路追踪。不过咱们如何实现这一点呢？咱们如何使链路追踪信息贯通可能是散布在多个过程，并且是不同的基础架构上呢？流传( propagation )在 OpenTelemetry 中，解决这个挑战的计划是通过流传来实现。这意味着以某种形式将链路追踪 ID（和父跨度 ID）传递给被调用服务，以便它们能够将该信息增加到分布式链路追踪门路中的一个跨度上。上面是一个示意图：这里咱们有三个服务，通过应用流传，咱们可能将跟踪 ID 和父跨度 ID 作为头信息传递。在 Go 中，流传能够通过全局设置来解决： import ( "go.opentelemetry.io/otel" "go.opentelemetry.io/otel/propagation")// ...otel.SetTextMapPropagator( propagation.NewCompositeTextMapPropagator( propagation.TraceContext{}, propagation.Baggage{}),)在示例代码中，咱们能够在控制器层（Handler，通常用于解决HTTP申请并生成相应的响应，承当的作用包含路由和申请散发，申请解决逻辑，响应生成）进行设置： http.Handle( fmt.Sprintf("/%s/", rootPath), otelhttp.NewHandler( http.HandlerFunc(userCart), "http_user_cart", otelhttp.WithTracerProvider(otel.GetTracerProvider()), otelhttp.WithPropagators(otel.GetTextMapPropagator()), ))当从一个服务发送 HTTP 申请到另一个服务时，可通过 otelhttp 库的辅助函数来创立和治理分布式追踪的跨度对象： import "go.opentelemetry.io/contrib/instrumentation/net/http/otelhttp"// ...resp, err := otelhttp.Get(ctx, fmt.Sprintf("%s/%s", userServiceEndpoint, userName))行李（Baggage）从上图中能够看出 service 1 生成了一些数据 attr1 。这些与 service 1 相干的数据可能要增加到 service 2 或 service 3 所在跨度对象的属性中。因为这些服务可能无奈间接拜访此数据，在 OpenTelemetry 中是通过行李来解决这个问题。行李实质上是携带额定信息的键值对，通过申请传递数据给不同服务和组件。在 Go 中，咱们能够通过以下形式增加行李信息： reqAddrBaggage, err := baggage.NewMember("req.addr", r.RemoteAddr) if err != nil { // Handle error... } reqBaggage, err := baggage.New(reqAddrBaggage) if err != nil { // Handle error... } ctx = baggage.ContextWithBaggage(ctx, reqBaggage)这样设置后咱们的 HTTP 申请将包含 req.addr 行李。 ...

关于运维:阿里认证方向哪个好考试内容是什么

阿里云是当初市场上占比最大云计算厂商，在各大热门行业的龙头畛域都起着重要的作用，很多企业在招聘时也会将阿里云的认证作为参考条件之一，那么到底哪个方向的认证更好呢？如果没有明确的方向，最好的抉择就是云计算认证，上面大使简略介绍一下ACP云计算，有须要的能够认证大使上细理解。阿里云ACP认证概述阿里云云计算高级工程师ACP认证（Alibaba Cloud Certified Professional - Cloud Computing）是面向应用阿里云云计算产品的架构、开发、运维类人员的业余技术认证，次要考核考生利用阿里云云计算技术服务体系设计稳固、平安、高性能、易扩大、低成本的企业云计算架构的能力。阿里云ACP认证内容根底云利用架构 35%简单云网络架构 25%云上高可用、高性能架构 25%云上平安体系架构阿里云ACP认证题型单选题 70题每题1分多选题 30题每题1分阿里云ACP认证费用报名券：1200 学习视频：960 题库：120

关于运维:为什么企业需要IT服务管理

什么是IT服务治理?将IT服务治理性能扩大到技术服务之外，解决以业务为核心通过繁多平台，门户和服务目录治理服务供需，通过PaaS/低代码开发工具减速翻新和工作流自动化。为什么企业须要IT服务治理？为了更好治理公司内不同业务，员工须要IT，人力资源，设施，法律，差旅和其余部门的各种服务。作为企业技术的先驱，IT团队已基于ITIL等成熟的ITSM最佳实际简化了服务交付，并施行了服务台工具来治理其流程。然而，大多数其余部门依然通过电子邮件解决他们的申请，并通过电子表格或互相孤立的旧版应用程序对其进行保护。加上不足既定流程和最佳实际，提供无效的服务成为一个挑战。数字化转型彻底改变了垂直行业的客户体验。更重要的是，企业还必须向其外部员工扩大雷同级别的以消费者为核心的服务交付。那么有一种办法，那就是确保跨业务职能的统一，无缝的服务交付体验。 ServiceDesk Plus如何提供帮忙？1、对立服务治理平台通过集中的控制台治理组织的用户，管制组织级的配置并保护各个服务台。 2、疾速启动企业服务台60秒内创立和启动服务台实例，打消服务台部署的任何阻碍。 3、可定制的服务台实例为部门提供自治权，以保护独特的申请模板和自动化以及服务目录。 4、集中的企业服务门户容许用户从一个企业自助服务门户拜访各个服务台实例。 5、开箱即用的最佳实际利用ServiceDesk Plus的内置流程自动化和服务治理性能来简化业务部门之间的服务。

关于运维:蓝鲸rabbitmq监控实践

本文来自腾讯蓝鲸智云社区用户：vinco蓝鲸rabbitmq监控实际rabbitmq是蓝鲸所依赖的音讯队列服务，影响着多个服务，如作业平台、规范运维、监控平台、节点治理、日志平台等。因为rabbitmq服务异样而导致的故障往往比拟荫蔽，这类故障往往无奈在页面间接反馈进去。在生产环境中曾遇到过因为rabbitmq异样，导致作业工作以及规范运维工作执行卡住的状况，如果故障产生在夜间，会导致一些重要的定时工作无奈依照预期执行，容易造成一些重大运维事变。所以通过监控把握rabbitmq服务的运行状况，对于整个蓝鲸服务的失常运行至关重要。这里提供一个rabbitmq监控实际总结。 rabbitmq_exporterrabbitmq监控指标采集应用开源的rabbitmq_exporter，自身监控平台就反对各类exporter插件，这里咱们能够拿来即用。如果是监控平台版本是V3.6.3029或者版本相近的，能够间接应用文末附件导入，其余版本的监控平台没有测试过。启用rabbitmq_management插件rabbitmq_exporter采集依赖于rabbitmq启用rabbitmq_management插件。 rabbitmq_management 插件是 RabbitMQ 提供的一个治理插件，让用户能够通过图形化的形式来治理 RabbitMQ，它还提供一系列接口，rabbitmq_exporter通过申请这些接口来获取rabbitmq的各项指标。通过以下命令启用rabbitmq_management插件 rabbitmq-plugins enable rabbitmq_management插件启用不须要重启rabbitmq，如果是rabbitmq集群，则每个rabbitmq节点都须要启用rabbitmq_management rabbitmq_management插件启用胜利后，会在节点上监听15672端口下载rabbitmq_exporterRelease下载地址：https://github.com/kbudde/rabbitmq_exporter/releases Linux抉择最新版本即可: rabbitmq_exporter 下载并解压至本地 rabbitmq_exporter_1.0.0-RC19_linux_amd64.tar.gz |- LICENSE |- README.md |- rabbitmq_exporter监控平台导入exporter插件「插件」-「新建」- 「插件类型抉择Exporter」-「上传rabbitmq_exporter」绑定端口：9419 绑定主机：127.0.0.1 定义以下环境变量参数：参数类型默认值类型默认值RABBIT_URL环境变量文本http://127.0.0.1:15672RABBIT_USER*环境变量文本adminRABBIT_PASSWORD环境变量明码无PUBLISH_PORT环境变量文本${port}PUBLISH_ADDR环境变量文本${host}RABBIT_EXPORTERS*环境变量文本exchange,node,overview,queue,alivenessALIVENESS_VHOST*环境变量文本/RABBIT_USER：任意一个tag=management用户都能够，rabbitmqctl list_users命令能够查看用户tag RABBIT_EXPORTERS：rabbitm_exporter把指标分成了module，能够认为是进行了分类，RABBIT_EXPORTERS示意要采集的指标类别 ALIVENESS_VHOST：利用rabbitmq 的aliveness接口探测服务状态，接口会默认在探测的vhost下创立名为aliveness-test的队列，接口通过对aliveness-test队列音讯的发送和接管来判断rabbitmq服务状态，确保RABBIT_USER设置的用户具备对ALIVENESS_VHOST指定的vhost有创立queue的权限，比方RABBIT_USER指定为admin，执行rabbitmqctl set_permissions -p / admin ".*" ".*" ".*" 为admin用户受权调试插件，抉择一台rabbitmq进行调试，并保留指标，如果指标名和监控平台保留字抵触，须要先转换指标名能力保留采集「数据采集」-「新建」-「填写采集名称和RABBIT_PASSWORD」 RABBIT_PASSWORD为rabbitmq的admin明码，其余放弃默认即可采集指标抉择「动静拓扑」-「蓝鲸 / 公共组件 / rabbitmq」-「实现采集下发」监控仪表盘rabbitmq_exporter采集的和rabbitmq相干的指标，都带有rabbimtq_的前缀以下几个指标须要特地关注，其余指标请参考：https://github.com/kbudde/rabbitmq_exporter 指标名形容Label（维度）aliveness_infoaliveness状态，1或0无up节点存活状态，1或0nodeuptime节点运行时长（ms）cluster, node, self*running状态为running的节点数量cluster, node, selfnode_mem_used节点已应用的内存数量（byte）cluster, node, selfnode_mem_limit*节点内存限度（byte），默认是节点内存的40%cluster, node, selfnode_mem_alarmrabbitmq内存使用率达到node_mem_limit时告警，1告警，0不告警cluster, node, selfnode_disk_free内存闲暇量（byte）cluster, node, selfnode_disk_free_limit内存闲暇量限度（byte），默认是50MBcluster, node, selfnode_disk_free_alarm内存闲暇量小于node_disk_free_limit时告警，1告警，0不告警cluster, node, selfpartitions网络分区数，产生网络分区是为2，失常为0cluster, node, selfqueue_messages_readyready的音讯数量cluster, vhost, queue, durable, policy, selfqueue_messages_unacknowledgedunacknowledged的音讯数量cluster, vhost, queue, durable, policy, selfqueue_memory队列占用的内存大小（byte）cluster, vhost, queue, durable, policy, selfself：self=1示意该条数据是以后节点的数据，rabbitmq_exporter拜访以后节点的management接口，能够获取到集群所有节点的数据，用self这个label就可能示意获取到的指标是否是属于以后节点，比方在节点rabbit@VM-240-33-centos.node.consul上采集的rabbitmq_uptime指标，就蕴含了所有节点的uptime数据。 ...

关于运维:怎样做好日志分析

首先咱们要晓得日志剖析是指查看并了解计算机生成的日志音讯，例如日志事件或审计来跟踪记录，通过日志剖析能够帮忙您诊断和解决计算机系统中的问题，以及监视系统性能和安全性。如果您想晓得您的网络中产生了什么，以便洞察潜在的威逼并在它们变成攻打之前阻止它们，那么您须要查看您的日志，而要进行日志剖析，您须要理解一些技术和注意事项！做好日志剖析须要留神以下几点： 1、明确剖析指标：在开始剖析之前，须要明确日志剖析的指标，例如查找系统故障、发现异常行为等。2、收集残缺日志：收集所有相干的日志，确保数据的全面性和准确性。这包含谬误日志、拜访日志、系统日志等。3、进行预处理：对原始日志进行荡涤、过滤和规范化，以去除无关信息、对立日志格局等。这能够进步剖析的准确性和效率。4、进行深入分析：利用统计办法、数据挖掘技术等对日志数据进行深入分析，发现潜在问题、趋势和模式。能够采取不同的分析方法，例如聚类分析、关联规定剖析等。5、可视化展现：将剖析后果以图表、报告等模式展现给相干人员。这有助于更好地了解和解释数据。6、异样检测：通过建设异样检测模型，主动发现异常日志，进步剖析的准确性和效率。能够利用机器学习算法进行异样检测。7、继续监控：定期对日志数据进行监控和剖析，以确保零碎的稳定性和安全性。8、团队合作：日志剖析须要团队合作，不同人员能够施展各自的劣势，独特解决问题。9、平安保障：爱护日志数据的平安和隐衷，防止泄露敏感信息。10、抉择适合的工具：您能够应用EventLog Analyzer实时日志剖析平台来收集、存储和剖析数据。 EventLog Analyzer是一款全方位的SIEM日志剖析解决方案，通过一个集中的平台来对日志进行收集、剖析、报表、查问和归档。该软件帮忙缩小外部威逼、进行日志取证剖析、监督特权用户以及满足各种法律法规的合规性要求，生成各种各样的报表，例如：用户活动性报表、合规性报表、历史趋势报表以及其余报表。应用日志剖析工具有什么益处？1.技术成熟；产品稳固；寰球用户基数大2.对产品运行的硬件资源要求不高；跨平台3.采纳ES（elastic search）技术，专门应答海量日志查问，并可进行简单条件搜寻。4.软件轻量化，操作不便；技术成本低，易部署5.反对大规模的设施治理，反对分布式部署。6.提供rest api，可扩展性强7.反对日志的过滤性能，可在海量信息中剖析特定数据

关于运维:单台机器安装体验蓝鲸71

本文来自腾讯蓝鲸智云社区用户：donkey应用一台服务器，既是k8s master节点又是node节点。根底环境信息零碎：CentOS 7.9CPU/内存： 64C/128G 机器信息k8s环境筹备装置docker ，docker版本要求：19.03 及更高 yum -y install wget wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repoyum install epel-release -yyum install container-selinux -ywget -O /etc/yum.repos.d/docker-ce.repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repoyum -y install docker-ce-20.10.20-3.el7装置k8s这里应用github上开源的一个ansible脚本来装置k8s # 装置 git 命令行yum install git -y# 克隆本我的项目代码git clone https://github.com/choerodon/kubeadm-ha.git# 进入我的项目目录cd kubeadm-ha# 装置 ansible 环境sudo ./ansible/install.sh配置好 ansible inventory 文件，而后执行ansible-playbook -i inventory.ini 90-init-cluster.yml注：1、更具体的阐明，能够查看https://github.com/choerodon/kubeadm-ha.git2、这个脚本的应用最次要的是配置inventory文件，以下我的inventory文件的内容[all]10.16.34.37 ansible_port=22 ansible_user="root" ansible_ssh_pass="机器明码"[lb][etcd]10.16.34.37[kube-master]10.16.34.37[kube-worker]10.16.34.37[new-master][new-worker][new-etcd][del-worker][del-master][del-etcd][del-node][all:vars]skip_verify_node=falsekube_version="1.20.0"container_manager="docker"lb_mode="nginx"lb_kube_apiserver_port="8443"kube_pod_subnet="10.244.0.0/18"kube_service_subnet="10.244.64.0/18"kube_network_node_prefix="24"kube_max_pods="400"network_plugin="calico"kubelet_root_dir="/data/kubelet"docker_storage_dir="/data/docker"containerd_storage_dir="/data/containerd"etcd_data_dir="/data/etcd"部署NFS，并配置相应的存储类 mkdir /data/nfsyum install -y nfs-utilsecho '/data/nfs 10.16.34.0/24(rw,sync,insecure,no_subtree_check,no_root_squash)' > /etc/exportssudo systemctl enable nfs-serversudo systemctl start nfs-serverhelm repo add c7n https://openchart.choerodon.com.cn/choerodon/c7n/helm repo updatehelm upgrade --install nfs-client-provisioner c7n/nfs-client-provisioner \ --set rbac.create=true \ --set persistence.enabled=true \ --set storageClass.name=nfs-provisioner \ --set persistence.nfsServer=10.16.34.37 \ --set persistence.nfsPath=/data/nfs \ --version 0.1.1 \ --namespace kube-system把存储类配置成默认存储类kubectl patch storageclass nfs-provisioner -p '{"metadata": {"annotations":{"storageclass.beta.kubernetes.io/is-default-class":"true"}}}'装置其它依赖包 ...

关于运维:国内用户访问-Github-速度慢怎么办别慌一招帮你解决看这

对于咱们从事 IT 行业的技术人员来说，对于 Github 必定是十分相熟的。日常工作中必备的工具之一，因为时常遇到无法访问、或者访问速度很慢的问题，导致应用起来十分的不便。所以，明天给大家介绍一款软件：fetch-github-hosts。简介fetch-github-hosts 它是一款同步 github hosts 的工具，能够解决国内无法访问 GitHub 的问题。性能十分弱小，跨平台，反对 Windows、Mac和 Linux 端，UI 十分丑陋！此我的项目是通过部署此我的项目自身的服务器来获取 github.com 的 hosts，而不是通过第三方ip地址接口来进行获取，例如 ipaddress.com 等。时隔一年大更新 v2.6 公布，将 fetch-github-hosts 的依赖及 UI 界面进行了大更新，减少了一些十分实用的性能。开源地址：https://github.com/Licoy/fetch-github-hosts装置与应用装置与应用都十分的简略、易用。下载地址：https://github.com/Licoy/fetch-github-hosts/releasesWindows 端下载相应的安装包双击运行之后的界面如下：点击启动之后显示如下：这时你再拜访Github就不会呈现之前的超时景象了。抉择客户端的主机源：你也能够自定义主机源：服务端模式：命令行终端目前反对 Windows/Linux/MacOS 。具体的应用能够参考：https://github.com/Licoy/fetch-github-hosts/blob/main/README.md 官网文档介绍，这里就不再赘述了，非常简单。手动增加 Hosts 文件须要咱们手动拜访 https://hosts.gitcdn.top/hosts.txt，而后将上面的全部内容粘贴到你的 hosts 文件中即可。 # fetch-github-hosts begin140.82.113.26 alive.github.com140.82.113.26 live.github.com185.199.108.154 github.githubassets.com140.82.114.21 central.github.com185.199.110.133 desktop.githubusercontent.com2606:50c0:8001::153 assets-cdn.github.com185.199.110.133 camo.githubusercontent.com185.199.109.133 github.map.fastly.net146.75.105.194 github.global.ssl.fastly.net140.82.113.3 gist.github.com185.199.111.153 github.io140.82.113.3 github.com192.0.66.2 github.blog140.82.112.5 api.github.com2606:50c0:8002::154 raw.githubusercontent.com2606:50c0:8002::154 user-images.githubusercontent.com185.199.109.133 favicons.githubusercontent.com185.199.109.133 avatars5.githubusercontent.com185.199.108.133 avatars4.githubusercontent.com185.199.109.133 avatars3.githubusercontent.com185.199.108.133 avatars2.githubusercontent.com185.199.111.133 avatars1.githubusercontent.com185.199.109.133 avatars0.githubusercontent.com2606:50c0:8001::154 avatars.githubusercontent.com140.82.114.9 codeload.github.com54.231.163.161 github-cloud.s3.amazonaws.com52.216.54.233 github-com.s3.amazonaws.com54.231.133.153 github-production-release-asset-2e65be.s3.amazonaws.com52.216.104.235 github-production-user-asset-6210df.s3.amazonaws.com3.5.16.126 github-production-repository-file-5c1aeb.s3.amazonaws.com185.199.109.153 githubstatus.com140.82.114.18 github.community52.224.38.193 github.dev140.82.114.22 collector.github.com2620:1ec:21::16 pipelines.actions.githubusercontent.com2606:50c0:8001::154 media.githubusercontent.com185.199.111.133 cloud.githubusercontent.com185.199.111.133 objects.githubusercontent.com# last fetch time: 2023-08-20 11:42:51# update url: https://hosts.gitcdn.top/hosts.txt# fetch-github-hosts endLinux / MacOS 零碎 hosts 文件目录：/etc/hostsWindows hosts文件目录：C:\Windows\System32\drivers\etc\hosts注：下面的文件内容是动静更新的（last fetch time: 2023-08-20 11:42:51），你能够应用定时工作去更新即可。 ...

关于运维:使用-OpenTelemetry-构建可观测性-04-收集器

在之前的博文中，咱们探讨了如何应用 SDK 和链路追踪生产者来导出过程中的遥测数据。只管有多种类型的导出器可供选择，但其中一个常见的指标是将数据导出到 OpenTelemetry Collector。本篇文章将深入探讨收集器以及如何应用它。选 OTel Collector 还是其余正如上一篇博客文章中提到的，我谈到了应用 OTLP 导出器将数据发送到 OTel Collector。此外我还提到，对导出器来说输入遥测数据的目的地是多样的。当导出器能够间接发送到 Jaeger、Prometheus 或控制台时，为什么还要抉择 OTel Collector 呢？答案是因为灵活性：将遥测数据从收集器同时发送给多个不同的指标在发送之前对数据加工解决（增加/删除属性、批处理等）解耦生产者和消费者以下是 OTel Collector 工作原理的概览：收集器的次要组件包含：接管模块 - 从收集器内部收集遥测数据（例如 OTLP、Kafka、MySQL、syslog）解决模块 - 解决或转换数据（例如属性、批次、Kubernetes 属性）导出模块 - 将解决后的数据发送到另一个指标（例如 Jaeger、AWS Cloud Watch、Zipkin）扩大模块 - 收集器加强性能的插件（例如 HTTP 转发器）在 Kubernetes 中运行 OpenTelemetry Collector 的两种形式运行 OTel Collector 的办法有多种，比方您能够将其作为独立过程运行。不过也有很多场景都会波及到 Kubernetes 集群的应用，在 Kubernetes 中，有两种次要的形式来运行 OpenTelemetry Collector 收集器的运行形式次要有两种。第一种形式（也是示例应用程序中应用的）是守护过程（ DaemonSet ），每个集群节点上都有一个收集器 pod：在这种状况下，产生遥测数据的实例将导出到同节点中收集器的实例外面。通常，还会有一个网关收集器，从节点中收集器的实例中汇总数据。在 Kubernetes 中运行收集器的另一种形式是作为附加辅助容器和主程序部署在同一个Pod中的边车模式（ sidecars ）。也就是说，应用程序 Pod 和收集器实例之间存在一对一的映射关系，它们共享雷同的资源，无需额定的网络开销，严密耦合并共享雷同的生命周期。 ...

关于运维:使用ITSM工具的10大优点

无论业务规模如何，每个公司或组织都须要以某种形式进行IT服务治理，ITSM确保事件、服务申请、问题、更改和IT资产（还有一些IT服务的其余方面）等都失去简化的治理，那么应用ITSM工具就变得尤为重要！在ITSM中，IT团队能够采纳ITIL的各种工作流程和最佳实际，无效的ITSM流程能够对IT组织的整体职能产生踊跃影响。以下是应用ITSM工具的10大长处：· 升高IT经营老本· IT投资回报更高· 最小化服务中断· 可能建设明确、可反复、可治理的IT流程· 高效剖析IT问题以缩小反复事件· 晋升IT服务台团队的效率· 明确定义角色和职责· 对服务水平和服务可用性有明确的冀望· 无风险地施行IT变更· 加强IT流程和服务的透明度 ManageEngine ServiceDesk Plus从根本上转变了IT部门的工作模式，它为IT问题的解决提供超强的可视性和集中控制力，将IT服务治理从救火式的抢修模式降级为针对IT的隐患预防，防止组织机构业务经验宕机等严重事故，进步整个IT团队的生产效率，进而改善最终用户的满意度。16年来，ServiceDesk Plus曾经帮忙数以百万计的IT人员、最终用户和利益相关者晋升和优化IT服务质量。 ServiceDesk Plus是一个服务治理解决方案，将IT服务治理、IT资产治理和CMDB与人力资源、设施和财务等部门的企业服务治理能力相结合。 ServiceDesk Plus在本地和云端都可用，是寻求具备相应投资回报率的可晋升、平安和可晋升的IT和企业服务治理解决方案的企业的现实抉择。

关于运维:清华裴丹-运维大模型展望上篇

随着数字化和智能化技术的涌现与倒退，数字生产力正逐步成为推动经济倒退和社会提高的重要引擎。人工智能场景落地成果的重大突破，尤其是以ChatGPT为代表的大语言模型的呈现，彰显了AI技术可能在更多畛域场景中遍及，并将引发令人瞩目的行业改革。在运维行业中，大语言模型亦有广大的利用空间，但如何将大语言模型和运维场景无效联合，以实现为运维工作发明价值依然是一个行业广泛摸索的问题。本文内容来自清华大学计算机系长聘副教授裴丹在CCF国内AIOps挑战赛宣讲会暨AIOps研讨会，及其他运维畛域前沿研究会议上，对于《运维大模型瞻望》的演讲。2023 CCF国内AIOps挑战赛炽热报名中（AIOps挑战赛炽热报名中，26万奖金池等你来瓜分！）运维行业有其独特的特点。以某银行IT零碎架构为例，如果将数据中心中的每个组件视为一个节点，并将它们连接成一个常识图谱，大概有400多万个节点和几千万条边，每个节点都有本人的监控数据，而且这些数据是多模态的。例如，最常见的可观测性数据是指标、日志、调用关系等数据，这些数据间的关系非常复杂，而且须要深厚的畛域常识能力了解。作为运维人员，咱们须要理解IT架构、数据中心运作形式以及软件工程的架构，能力做好运维工作。因而，畛域常识对咱们来说十分重要。同时，运维的场景也十分丰盛，波及到故障、品质、平安、效率和性能等多个方面。总之，运维畛域是一个非常复杂的宏大场景，这是运维行业的特点。对于运维大模型，咱们先举个例子（上图）运维大模型与咱们过来应用的自动化运维、智能运维以及其余运维工具之间存在很强的互补关系。大模型呈现之前，咱们须要手动操作，并将新工具交付相应的用户，通知他们如何应用。当初通过大模型，咱们能够以对话模式操作。如当告警产生，咱们想查看它的根因并诊断时，咱们能够如此操作：1、间接与大模型对话，提供一个告警ID，大模型调用出后盾的根因诊断工具；2、诊断工具调用实现后给出一个后果，给出根因并提供一个链接，以解释这个后果是如何得出的。实际上，该诊断工具的原理就是基于一个诊断图，依据该图推断出最有可能的几个起因。这个工具也有本人的展现界面。从这例子能够看出，通过最根本的人机对话性能，能够加强与现有任何一种工具（这个例子中是根因诊断工具）的输入输出交互。以上这些是齐全能够实现的，而大模型的利用不止于此。在“运维大模型畛域”，很可能会面临以下问题：运维大模型的概念是什么？与大语言模型的关系是什么？是不是“通用大语言模型+提醒/外挂文档”就足够了？与AIOps、自动化运维工具的关系是什么，如何交融对接？面对百花齐放、突飞猛进的开源大语言模型，如何选取大语言模型底座、模型规模、微调办法？短期内有哪些能够疾速落地的利用？中长期内有哪些利用？运维大模型的能力边界是什么？同时，大模型在运维畛域利用也将面临以下技术挑战：如何满足公有部署老本、可演进要求？如何解决训练公有语料有余的问题？作为庄重利用，如何做到杜绝幻觉、可解释、安全性高？如何解决通用大模型无奈处理的私域、实时数据？如何解决通用大语言模型无奈间接解决的运维多模态数据？如何融入运维畛域的现有强畛域常识，特地是针对多模态数据，多个细分畛域的不同专家常识？这些都是大家可能感兴趣的问题，我其实也并没有最终答案，但我的确有一些本人的认识。答复上述这些问题的时候，我援用一下21年在咱们举办的AIOps挑战赛上做的一次分享，AIOps落地五大准则，15条细分准则，这对于大模型也同样实用。如：知己知彼：晓得运维有什么特点、大模型停顿到什么水平。举一反三：我常常会拿一些医学方面的例子来做举例。以后医学畛域的大语言模型也突飞猛进，最近某公司做了一个线下试验，请了一些领域专家评判由AI对实在病人问诊，并与高级医生进行的实在问诊进行比照，二者成果的一致性约是96%。医学大模型的架构是怎么的？如何解决“幻觉问题”？诊断的过程有哪些值得咱们借鉴？在另外一篇文章中提到了上海的人工智能钻研核心和医学钻研核心的例子，它们的架构指标是建设一个中文的医学大语言模型，以便了解医学术语和关键词。他们针对医学的多模态数据（如影像数据和其余数据）别离建设了独自的根底模型。同时如核磁共振和CT扫描尽管都是图像数据，但具备不同特点，须要别离建设影像模型。相似地，每个器官都有本人的根底模型（例如大脑和肺部）。这种类比推广的办法在咱们所钻研的运维畛域中也同样实用。具体详见文章：清华裴丹: AIOps落地的15条准则我前面的分享蕴含三个章节：第一章节，运维大语言模型及利用，须要整个社区一起训练一个运维的大语言模型，前面具体开展阐明起因。第二章节，运维大模型的整体架构。第三章节，运维大模型的中长期有哪些利用？第一章节：运维大语言模型及利用在运维这一庄重畛域，咱们须要训练一个“懂运维”的大型语言模型，而不仅仅是一个通用的大语言模型。它可能真正了解输出的文档和上下文，而不仅仅是大抵答复问题。打个比方，开源的大语言模型能够看作是训练出的相当不错的本科生，他们博闻强记，具备很多常识。但如果这个本科生间接从学校来到运维工作岗位，面对具体运维工作，他可能无奈了解其中的内容，甚至不理解相干术语，将莫衷一是。因而，咱们须要应用大量与运维相干的语料对模型进行训练、微调和提醒工程，以使其能更好地了解运维上下文。只有这样，它能力真正利用于庄重的运维场景。后面提到的中文的医疗大语言模型也是相似的逻辑。业内专家在“预训练”这个问题上存在一些争议，认为进行预训练十分低廉，并质疑是否有必要。咱们认为这是必要的，否则运维专家是无奈通过一般训练取得。此外，在公有部署阶段，比方在传统行业（如银行和电网），能够基于预训练模型进行提醒工程和常识扩大。就像具备多年教训的大厂运维专家，如果他们去一个中型互联网公司，只须要提供一些特定畛域的背景常识（像外挂一样），他们之前的运维教训就足以应答那里的个性化状况。但如果冀望一个本科生间接适应这样的中型互联网公司，无论给他多少语料，他本人是无奈自学进去的，这个成长的过程是须要工夫缓缓积攒来的。因而，大规模的训练应该在公共畛域中进行，造就出数字化的“运维专家”，而不是扩散在各个特定畛域中进行。这是我集体的一个外围观点，只是基于集体直觉的判断，尚未失去验证。我的这一观点是基于庄重运维利用的如下硬性需要：咱们在利用中须要防止幻觉，重视强的可解释性，并升高部署开销，同时不受私域数据品质问题的限度。那么，以此为出发点的运维大语言模型的状态是怎么的？首先，要基于一个开源的大模型底座（无论是国内的百川、GLM，还是国外的LLaMA）。其次，我认为目前曾经呈现的技术中，常识图谱对于杜绝幻觉问题和加强可解释性是有帮忙的。同时，常识图谱的构建是一个简单的过程，不能指望专家对运维的各个子畛域都十分相熟。因而，咱们须要应用混合专家模型和多模态的运维常识图谱来构建一个新的大型语言模型，即运维大语言模型（OpsLLM）。当具体利用到某个场景时，能够以外挂的模式，相似于大家应用过的文档外挂（如：DOCGPT），就像一个经验丰富的运维专家一样，到了一个新的单位，简略理解一下状况，基本上就能解决各种运维问题了。举个例子，假如咱们曾经总结了一个诊断图（如上图所示），用于剖析交易响应工夫长的问题。这个应用程序调用了另一个交易，并依赖于一个中间件WebLogic，而WebLogic又与Oracle数据库进行交互。在这个过程中，可能会呈现存储异样导致告警产生。无论这些信息以何种模式存储，只有大语言模型可能了解其中的术语，无效地辨认和了解运维人员的用意，并可能以运维畛域的术语与用户进行对话，它就可能无效地进行交换。具体而言，在这个例子中如果呈现交易响应工夫长的问题，可能会问到：当初呈现这个问题的可能起因是什么？这与之前提到的诊断图中的问题相似，咱们须要确定是否是web呈现了问题，而后逐渐解决问题，最终给出处理倡议。大语言模型的确有一个“思维更全面”的长处，就像我之前提到的医学试验一样（在试验中发现MedGPT在利用中可能会略微啰嗦一些，会东问一下西问一下，然而它的思考更加全面。相比个别的医生，在一些绝对不常见的状况下，更能施展肯定的作用）。然而须要留神的是，这个过程必须是庄重利用，杜绝幻觉，大语言模型不能自行创造一些答案。这个大语言模型在具备了运维畛域的常识的前提下，又外挂了一个诊断常识资源，因而可能无效地对这些常识进行问答。如果进行公有部署，能够参照上述模型演示。尽管很多常识是公开的，但如果这是一个公有文档（如：MySQL文档），加载进去后能够针对MySQL的常识进行查问，比方查问SQL类故障等。这种个性化的部署设计容许咱们独特训练模型，以更好地了解特定的个性化文档，从而在享受运维专家常识的同时解决个性化的常识图谱和运维文档的问题。此外，还能够通过提醒工程来进一步优化模型的性能。从晋升模型的可解释性、问答的可解释性和杜绝幻觉的角度来看，联合常识图谱和大语言模型可能是一个不错的方向。最近有一篇综述论文提到了如何将常识图谱和大语言模型联合起来以达到更好的成果。该文章总结了300-500篇论文，并绘制了一个脑图，每个节点代表10-20篇论文，概括了大抵的钻研方向。总结起来，常识图谱是一种结构化的显性常识，具备准确性、决断性和强可解释性，但不残缺且无奈解决自然语言。大语言模型则具备通用的隐性常识解决能力，但可能产生幻觉并且是黑盒的。联合常识图谱和大语言模型的长处能够通过以下三个次要方向实现：利用常识图谱加强大语言模型：将结构化的显性常识图谱与大语言模型联合，以提供更精确、可解释的后果。常识图谱能够用作先验常识，领导大语言模型生成更精确的答案或推理后果。利用大语言模型裁减常识图谱：大语言模型能够解决自然语言并从大规模文本中学习隐性常识。通过应用大语言模型，能够主动从文本中抽取新的常识并将其增加到常识图谱中，从而减少常识图谱的完整性和涵盖范畴。交融常识图谱和大语言模型进行联结建模：将常识图谱和大语言模型进行交融，以建设一个综合的模型。这种联结建模能够在常识图谱的根底上利用大语言模型的语言了解和生成能力，同时通过常识图谱提供的结构化常识进行领导和解释，以进步模型的性能和可解释性。通过这些方向的联合，能够充分发挥常识图谱和大语言模型的劣势，实现更好的成果和利用。 KG（常识图谱）加强LLM（大语言模型）-预训练阶段。首先，大语言模型训练时，能够把常识图谱里边的内容转换成文字。其次，把常识图谱的内容变成新的语料（当然是把握性比拟强的语料），把它放进训练的外面。第三，还能够引入一些额定的独自设计的模块，作为该神经网络的架构模型都是能够的。 KG（常识图谱）加强LLM（大语言模型）-推理阶段，同样能够利用常识图谱进行推理。在推理过程中，能够依据以后问题利用常识图谱进行相干的工作，以得出结论。此外，还能够应用基于检索的办法。当问题呈现时，能够在常识图谱中查找相应的答案辅助得出更精确、更牢靠的答案，并防止产生幻觉。在推理阶段，联合常识图谱的这些办法能够进步推理的准确性和可靠性。 KG（常识图谱）加强LLM（大语言模型）-模仿可解释性。从可解释性的角度来看，能够先由大语言模型给出一个后果，而后再用常识图谱来验证该后果的可靠性。这种办法比拟直观，通过将后果与常识图谱进行比照，咱们能够确定该后果是否牢靠。此外，从可解释性的角度来看，咱们能够将大语言模型得出的后果与常识图谱进行比对，看是否存在一条门路能够走通。这相似于过来应用深度学习失去后果后，与决策树比拟一下，从而总结出规定的做法。咱们能够通过这种办法来评估模型的成果，并得出大抵的规定。 LLM（大语言模型）加强KG（常识图谱）-KG补全。咱们还能够反过来利用大语言模型进行常识图谱的补全和裁减。因为它能够解决大量的语料数据，而传统常识图谱中的很多信息也是从语料中提取进去的，通过大语言模型，咱们能够更好地进行常识图谱的补全和裁减，进一步欠缺常识图谱的常识工程构建工作。大语言模型能够通过对常识图谱进行相应的补充和扩大，使其更加残缺和精确。这样的利用能够晋升常识图谱的品质和可用性。 LLM（大语言模型）加强KG（常识图谱）-KG转文本。咱们能够通过将常识图谱中的信息转换为自然语言文本，使其可读性更强，便于浏览和了解。这样的转换能够晋升常识图谱的可用性，更加易于利用和流传。 LLM（大语言模型）加强KG（常识图谱）-KG常识问答。如：用完形填空的形式写一个问题，把对应的大语言的模型调用一下，把文字处理一下，最初构建出常识图谱。 LLM（大语言模型）加强KG（常识图谱）-KG结构。假如咱们有一段文字，咱们能够利用大语言模型来剖析其主谓宾构造。之后将这些提取出的主谓宾信息转化为常识图谱中的点和边。通过将这些信息补充到常识图谱中，咱们能够丰盛图谱的内容，并更好地组织和展现常识。举一个运维畛域的例子，如咱们须要认真记录故障工单以进行复盘。在故障工单中，咱们须要指出故障产生时的症状、采取了哪些解决措施、诊断进去的故障是什么、整改计划是什么等一系列信息。通常，这些信息以文字模式记录，很难转化为故障的流传关系。如果交给大语言模型，它能够剖析并辨认出因果关系，并将其补充到咱们的常识图谱中。须要强调的是，这是人机协同的过程。大语言模型能够提取出许多信息和想法，但不肯定齐全精确。最终，咱们还是须要依附运维专家来进行审核和确认，只有在专家认为牢靠的状况下，才将其纳入常识图谱。这就是大语言模型在构建运维常识图谱方面所能施展的作用。在运维畛域，不同专家可能具备不同畛域的常识，例如网络、数据库、存储等。在理论利用中，经常会采纳混合专家模型将各个领域的常识图谱进行组合。如没有确定的技术，可通过一种示意图来示意。如：当业务呈现问题时，能够依照肯定的程序查看网络、中间件、数据库、存储等，每个畛域对应一个子图，最终将这些子图拼接在一起造成一个整体的图谱。这样的混合模型能够帮忙咱们了解运维畛域的常识，并充分利用通用人工智能（如大语言模型）在运维畛域的能力。因为只有了解运维畛域的常识，并可能无效地利用这些能力，咱们才可能在运维工作中获得良好的成果。敬请期待：清华裴丹 | 运维大模型瞻望-下篇

关于运维:私有化部署小企业的智慧选择

随着科技的不断进步，小企业正面临着越来越多的技术抉择，其中之一就是在信息技术基础设施方面的部署形式。在这方面，私有化部署曾经成为了一个备受关注的选项。对于小企业来说，私有化部署可能带来许多理论和战略性的好处，正如下文所述。数据安全与隐衷管制小企业的胜利与其数据的平安和隐衷管制非亲非故。在私有化部署模式下，企业能够将数据和信息保留在本人的本地服务器上，而不用依赖内部云服务。这意味着敏感数据不会来到企业的外部网络，从而升高了数据泄露的危险。此外，企业可能更精密地控制数据的拜访权限，确保只有通过受权的人员能力拜访要害信息。定制化和灵活性每个企业都有其独特的业务流程和需要。私有化部署使小企业可能依据本身的须要定制软件和零碎。这种灵活性意味着企业能够将技术基础设施与其业务流程紧密结合，从而提高效率并满足客户的特定要求。与标准化的云服务不同，私有化部署赋予了企业更多的自主权，使其可能更好地适应一直变动的市场环境。性能和响应工夫用户体验在现在竞争强烈的市场中至关重要。私有化部署能够帮忙小企业实现更快的性能和响应工夫。通过将数据和应用程序存储在本地环境中，企业能够缩小网络提早，进步零碎的运行效率。这将为用户提供更疾速、更晦涩的体验，从而加强客户的满意度和忠诚度。法规和合规要求某些行业面临着严格的法规和合规要求，这对数据的存储和解决提出了更高的规范。私有化部署容许企业将数据存储在受控环境中，以满足这些法规要求。这对于金融、医疗和其余受监管行业的小企业来说尤其重要，因为它们须要确保其技术基础设施合乎行业标准。升高长期老本尽管私有化部署可能须要更大的初期投资，但长期来看，它能够升高企业的经营老本。与云服务不同，私有化部署容许企业更好地管制硬件和软件的降级和保护周期。这能够缩小估算上的不稳定性，并帮忙企业更好地布局久远倒退。综合思考上述因素，私有化部署对小企业来说是一个值得三思而行的抉择。它为企业提供了更大的数据安全性、定制化、性能劣势以及满足法规合规要求的能力。只管在决策之初可能须要更多的资源投入，但从久远来看，私有化部署无望为小企业带来更多的商业劣势，帮忙它们在竞争强烈的市场中怀才不遇。在谋求技术创新的同时，小企业该当充分考虑私有化部署作为实现业务指标的无力工具。

关于运维:1Panel上的免费WAF长亭雷池搭配openresty的用法

原文链接： 1Panel上的长亭雷池WAF搭配openresty的用法前言最近把面板换成了国内公司出的然而开源的1panel，跑容器也是挺合乎心里需要的，主界面也挺洁净整洁。看到第三方利用库有个收费WAF，而后又上了开源了但没齐全开源的长亭雷池WAF。记录一下在同一台机子上长亭雷池WAF搭配默认openresty的用法。 1. 调整openresty容器网络须要将openresty批改为桥接网络模式。且批改https内部映射为其余端口如1443。留神：改桥接端口之后，反向代理的思路就和应用Nginx Proxy Manager一样了，不能写127.0.0.1:端口来反向代理了。点击利用参数批改docker-compose.yml，重建openresty。 version: '3'services: openresty: image: openresty/openresty:latest #这里镜像留神对应本人的架构平台 container_name: ${CONTAINER_NAME} restart: always networks: - 1panel-network ports: - "${PANEL_APP_PORT_HTTP}:80" - "1443:1443" volumes: - ./conf/nginx.conf:/usr/local/openresty/nginx/conf/nginx.conf - ./conf/fastcgi_params:/usr/local/openresty/nginx/conf/fastcgi_params - ./conf/fastcgi-php.conf:/usr/local/openresty/nginx/conf/fastcgi-php.conf - ./log:/var/log/nginx - ./conf/conf.d:/usr/local/openresty/nginx/conf/conf.d/ - ./www:/www - ./root:/usr/share/nginx/html - /etc/localtime:/etc/localtime labels: createdBy: "Apps" networks: 1panel-network: external: true 2. 批改站点监听端口站点失常配置，开启https啥的。进入站点文件配置，批改https监听端口为1443，与内部端口统一。能够按Ctrl F批量替换。其余配置能够不必动。 3. 雷池WAF增加站点3.1 增加第三方库而后利用商店装置雷池WAF 1Panel 利用商店的非官方利用适配库以默认1Panel装置在/opt/门路下为例子，如果不是按需批改以下。 3.1.1 国内网络1panel打算工作类型Shell 脚本的打算工作框里，增加并执行以下命令，或者终端运行以下命令， git clone -b localApps https://ghproxy.com/https://github.com/okxlin/appstore /opt/1panel/resource/apps/local/appstore-localApps cp -rf /opt/1panel/resource/apps/local/appstore-localApps/apps/* /opt/1panel/resource/apps/local/ rm -r /opt/1panel/resource/apps/local/appstore-localApps而后利用商店刷新本地利用即可。 ...

关于运维:三丰云-免费云服务器助您启航云计算时代

摸索将来，畅享云端之旅！三丰云 — 收费云服务器，助您启航云计算时代！️ 想要领有本人的云服务器，但放心昂扬的费用？三丰云为您提供绝佳解决方案！为什么抉择三丰云收费云服务器？✅ 完全免费应用，无暗藏费用！✅ 高性能硬件，稳固晦涩体验！✅ 疾速部署，即刻开启云端之旅！✅ 灵便扩大，依据需要随时降级！次要特点：️ 多种操作系统可选，满足个性化需要！平安防护，数据隐衷无忧！网络稳固，保障您的在线连通！不容错过的机会！立刻注册三丰云，获取您的收费云服务器！迈向云计算的将来，从三丰云开始！️

关于运维:SRE方法论之服务质量目标

为了量化客户对服务可靠性的冀望，找到客户对可靠性称心的点，咱们须要制订针对用户的服务质量指标，并且致力去达到这个品质指标。在这个过程中，咱们须要定义一些服务质量指标（SLI）、服务质量指标（SLO），以及服务质量协定（SLA）。这三项别离是指该服务最重要的一些根底指标、这些指标的预期值，以及当指标不合乎预期时的应答打算。一、服务质量术语：SLI、SLO、SLA指标服务质量指标（SLI）：服务的某项服务质量的一个具体量化指标。常见的SLI包含申请提早（解决申请所耗费的时）、错误率（申请解决失败的百分比）、零碎吞吐量（每秒申请数量）、可用性（服务可用工夫的百分比，运维行业常常用9的数量来形容可用水平。例如，99%可用性被称为“2个9”,99.999%被称为“5个9”）。SLI也能够是一些业务指标，例如用户投诉率之类的。重点是可量化、可确定的。指标SLO是服务质量指标（Objective）：服务的某个SLI的目标值，或者指标范畴。SLO的定义是SLI≤目标值，或者范畴上限≤SLI≤范畴下限。例如，对于搜寻服务来说，用户心愿返回后果的速度应该是很“快”的，那么咱们能够定义一个SLO，要求搜寻申请的均匀提早小于100ms。协定SLA是服务质量协定（Agreement）：指服务与用户之间的一个明确的，或者不明确的协定，形容了在达到或者没有达到SLO之后的结果。这些结果能够是财务方面的退款或者罚款，也能够是其余类型的结果。区别SLO和SLA的一个简略办法是问“如果SLO没有达到时，有什么结果？”，如果没有定义明确的结果，那么咱们是在探讨一个SLO，而不是SLA。二、SLI、SLO、SLA制订准则1、以用户体验为核心服务的服务质量指标有很多，不可能将监控零碎中的所有指标都定义为SLI。只有了解用户对系统的实在需要能力真正决定哪些指标是否有用。比方对于搜寻服务，用户通常关怀可用性、提早，以及吞吐量。换句话说：是否能失常解决申请？每个申请破费的工夫是多少？多少申请能够被解决？对于存储系统来说，用户会关注提早、可用性和数据持久性，换句话说：读写数据须要多少工夫？咱们是否能够随时拜访数据？数据是否一段时间内还能被读取？ 2、不自量力资源是无限的，在抉择SLO时要留神不能过于谋求完满。例如1s内加载好用户就很称心了，如果非要设置20ms内加载结束、或者成功率为100%，这些都是很难达到或者要付出很大的老本才行，投入产出比很低。

关于运维:通过帮助台来实现工单的全面管理

ManageEngine ServiceDesk Plus可帮忙您管制IT反对的整个流程，作为性能最全面、高度可定制的工单零碎之一，ServiceDesk Plus帮忙您管理控制工单的整个生命周期。从工单的创立到敞开，您能够无效监控工单解决流程，改善IT服务。主动指派工单 - 轮流循环或负载平衡抉择轮流或负载平衡的形式，主动将工单指派给技术员。轮流循环的形式，将所有工单均匀指派给技术员。负载平衡的形式，思考技术员已有的负荷，智能地指派工单。当技术员休假或无奈解决工单时，能够智能地排除技术员。启用“例外”选项，对于合乎肯定条件的工单，不进行主动指派。创立业务规定创立自定义工作流，指派工单。将工单与预设的条件进行匹配，指派给相应的技术员或技术组。当工单更新时，通过业务规定从新指派工单。

关于运维:使用-OpenTelemetry-构建可观测性-03-导出

上一个博文中，我提到如何应用 OpenTelemery 的特定语言 API 来收集遥测数据，蕴含手动和主动的埋点技术，这很重要！然而，收集遥测数据只是解决方案的第一步。你须要把遥测数据路由转发到其余中央，同时增加额定的元数据信息。这时就轮到 SDK 发挥作用了。链路追踪生产者（ Tracer Provider ）链路追踪生产者是 SDK 中一个要害概念。用于将通过 API 收集的遥测数据与其余组件分割起来。在 Go 语言中，TracerProvider 对象只有一个 Tracer 办法的接口，办法签名如下： Tracer(instrumentationName string, opts ...TracerOption) TracerTracer 办法返回一个实现 Tracer 接口的对象，这个接口也只有一个办法 Start,其办法签名如下： Start(ctx context.Context, spanName string, opts ...spanStartOption) (context.Context, Span)样例我的项目中通过链路追踪生产者创立了跨度( span ): import "go.opentelemetry.io/otel"// ...ctx, span := otel.Tracer(telemetry.TelemetryLibrary).Start(ctx, "get_product_price")能够发现通过otel.Tracer 查找并创立全局的链路追踪生产者最终返回 Tracer 对象，须要留神要应用链路追踪生产者，其初始化设置是不可短少的。 Note: 在文中提及是获取‘全局’链路追踪生产者的办法。应用全局链路追踪最简略的一种形式就是调用 otel.Tracer 的 API 。不过理论应用中如果下面计划不满足，还能够通过链路追踪生产者传递给消费者以代替全局查找的办法。 Note： trace 代表整个申请的门路信息、span 代表链路中的具体节点信息资源（ Resource ）链路追踪生产者还须要配置‘资源’对象，它是元数据信息的一部分。资源是遥测数据产生形容过程或者服务的信息，形容了服务自身的元数据，有助于解析遥测数据。这是样例我的项目中购物车服务的‘资源’对象定义： import ( "go.opentelemetry.io/otel/sdk/resource" semconv "go.opentelemetry.io/otel/semconv/v1.4.0")// ...res, err := resource.New( ctx, resource.WithAttributes( semconv.ServiceNameKey.String("cart"), semconv.ServiceVersionKey.String("v1.0.0"), ),)资源对象定义的要害是设置属性参数，OpenTelemetry 曾经定义了一些资源属性的键值对，能够参考这篇文档 OTel’s 资源语义约定。例如，你能够通过下面例子看到，如何定义服务名称和版本号信息。然而可能还有更多信息你须要配置，比方服务本身依赖的资源有哪些；服务运行在云上吗？须要约定不同的属性给不同的云服务供应商；服务运行在 Kubernetes 吗？是的话，这里有份领导手册 Kubernetes 的资源语义约定。 ...

关于运维:基于腾讯蓝鲸智云SaaS的业务配置同步管理平台设计与实现

本文来自腾讯蓝鲸智云社区用户：donkey业务背景该平台设计的初衷，本是源于另外一个环境治理我的项目的一部分，次要是负责跨环境的业务配置批改与同步，同时思考到这块能力除了在该我的项目中能够利用到外，也能够独立作为一个单点能力提供给其余用户应用，故思考设计为一个saas利用模式，既反对用户在治理端界面进行操作，也反对通过治理api与第其余第三方效力工具进行集成。技术选型我的项目主导该我的项目次要针对测试域的环境治理，由测试团队主导，而团队已有的测试工具均以python为主，思考到前期协同，故平台建设也以python为准。性能需要配置批改Tars：鹅厂开源的微服务框架，自带配置管理性能，反对支流异构服务配置管理，是目前外部主站业务配置管理次要保护形式。Appolo：携程开源的配置管理核心，前期新引入，次要是针对Java类利用。以上不论哪个形式，都须要用户在治理端界面去手动进行批改，而想要实现的配置同步性能，是心愿能达到业务配置的主动获取、批改与同步，所以没有现成能力能够间接应用，但能够在已有能力根底上做进一步封装，故此处次要通过Tars框架的治理api对业务配置批改做二次解决。配置同步此处同步次要有以下两方面含意：首先，是将源端环境指定配置文件的内容，实时批改后利用到指标端环境指定配置文件中（个别都是针对环境不同但对应业务服务雷同的配置），并且能被业务利用正确解析和读取；其次，同步范畴既能够具体到单个服务或单个配置，也能够针对环境级别下涵盖的服务配置，并且能对同步后果进行实时测验。同样，此处配置同步性能也是基于Tars框架治理api实现。外部基建此处次要示意该平台性能的实现，所依赖的外部已有基础设施能力： Gitlab：平台我的项目应用代码托管平台。Tars：通过Tars治理api进行Tars业务配置的实时批改与同步。蓝鲸Saas：测试环境资源是基于蓝鲸进行治理，故能够利用蓝鲸Saas的扩大能力，既能省略额定的环境资源开销，也能不便调用其余蓝鲸内置的性能如监控、日志剖析等。蓝盾：蓝鲸devops流水线平台，能够通过和蓝盾进行集成（通过蓝盾流水线插件扩大能力），与环境治理我的项目其余模块实现更无效地配合，同时也能够进一步拓展配置同步平台的利用场景。Tapd：项目管理工具，源自鹅厂，次要用来对我的项目整体进度进行记录和把控。技术框架即蓝鲸Saas研发框架为主： web框架：Django2后端：Python3前端：Vue2UI组件库：MagicBox数据库：MySQL5.7计划实现需要剖析与设计架构设计确定根本技术栈之后，就是基础架构的设计，因为一开始对业务线整体情况都不是很相熟，包含技术背景和业务背景，通过不断深入理解和团队沟通之后，才逐步迭代进去盲目更加合乎企业标准的样子，图示的架构设计曾经是前期进一步优化的后果，即通过形象出规定、策略组、工作等治理模块，对整个配置同步过程进行自动化管控。流程设计有了根本的架构设计相当于有了个骨架，但很多细节还是很含糊的，首先，就是具体用户应该怎么去应用，能力达到配置批改和同步的目标，所以就要先把根底的业务流程确定进去，而不是想一步做一步。依照已有的架构设计，以下是各治理模块根本的业务流程：规定治理策略组治理工作治理原型设计这里次要指UI原型设计，就是依据曾经确定的业务流，设计用户交互的前端，说实话比起业务零碎有分工明确的部门合作在搞，这个我的项目理论就我一人专职在弄，过后钻研去画这个原型也是花了我不少工夫，无奈老板有要求，而后前期实际效果进去其实又有不少变动，这里就简略展现下，前面会有实际效果展现。【贴士】一开始画原型用的Axure，很多PMO应该不生疏，前面发现draw.io也不错，上手也简略，很多图就转到draw.io上来了。后端设计实现业务流设计后，接下来就是数据流设计，有了后面的铺垫，其实数据流这块就轻松一些，当然这块的设计和DB设计也是非亲非故的。（如下为后端设计概要展现） DB设计对于有教训的后端开发，个别看库表设计，对于后端性能很多就晓得个大略了，然而当有多个模块的性能都要设计库表时，怎样才能更正当，更合乎数据库设计范式，只能靠本人在一直折腾中去感悟了。（如下为DB设计概要展现）编码实现贴士1：当后面的设计筹备比拟充沛之后，编码阶段就会绝对比拟轻松，但有当时设计不代表就能够欲速不达，实现过程也会一直发现一些设计过程重没有思考到的因素，这就须要一直将发现的设计问题，通过肯定的治理形式（比方项目管理工具，此处应用的是Tapd）进行记录和跟踪，当然也包含过程中的需要变更和缺点追踪等。贴士2：开发过程中，后端和前端理论都是独立离开的我的项目，当有肯定阶段成绩后再合并部署验证，生产业务个别都是并行开发，但比方像我只有一人独立负责的时候，优先实现前端，一个是前端产出用户感知更显著，一个也是更容易发现交互流程设计的缺点，确定交互流程没问题之后，再对应实现后端性能。前端具体实现到这里就没有什么了，就是依照后面确定的业务流程和UI原型循序渐进搞即可，就是过程中有些集体教训感觉能够分享一下：蓝鲸saas研发框架会通过bk_site_url这个全局变量辨别本地开发环境和线上环境，故能够在前端我的项目配置main.js中将baseURL设置成主动判断，而不是每次合并部署前再手动批改，防止遗记批改合并部署后前端拜访失败。因为Vue实例化的个性，理论不同URL拜访的html文档可能都是同一个，这对用户惯例认为的不同URL代表不同拜访页面的习惯是抵触的，所以此处应用vue-router插件作为路由管制，同时也能反过来通过路由变动来触发页面组件的变动；应用：在我的项目配置main.js中引入，而后在route目录下针对具体页面做指定。应用Vuex进行状态治理，基于vue组件依据数据变动而变动的个性，当我的项目宏大简单起来之后，各种父子组件、兄弟组件、跨模块嵌套组件一层层传值有时真会让人解体，当把数据对立用Vuex进行纳管后，我的项目组件状态治理至多不再是原来那种乱哄哄的状态，让人感觉有条理很多，同时这也是vue官网举荐的组件状态治理解决方案。后端留神：在设计一些功能模块，特地是须要做相似长久化操作的时候，要留神防反复操作，举个例子，像调用Tars治理api进行配置写入的性能，本地开发的时候调用写入是失常的，部署到蓝鲸上就发现，同个配置记录会反复写入三次，起因在于本地部署是一个服务实例，但蓝鲸线上是默认3个服务实例（晋升服务可用性），做成自动化调度的时候就会呈现反复执行的问题，此处次要是通过增加文件锁的形式解决。部署留神：着手开发之前，要先将初始化的研发框架先部署一版到蓝鲸环境上，验证没问题之后再持续后续的开发，不然的话，先开发一部分再部署到蓝鲸环境上，而后发现拜访出问题，日志报错又不显著的时候，都不晓得是配置问题，代码问题，还是组件兼容问题，比方 Saas部署到蓝鲸后界面显示空白异样解决。性能验收一期成果规定治理打算治理二期成果规定治理策略管理工作治理集体总结即使是独立负责我的项目，也要考究章法，比方通过应用项目管理工具帮本人进行我的项目进度的把控，不至于吞没在各种我的项目琐事细节中；能够充沛设计，但不要适度实现，特地是在项目前期对于产品并没有很明确布局的时候，先demo，再迭代，小步快跑；一开始就要站在前期推广角度思考我的项目所能带来的业务价值，否则效力类实际一旦落地成果不好，本人又没有思考久远，很容易就被毙掉，特地像当初整体不景气的职场环境背景下；没有过不去的槛，迈过去了，那就是你的护城河。

关于运维:为什么企业需要内部威胁检测软件

在数字时代，企业不仅须要抵挡内部威逼，还必须亲密关注外部威逼，因为外部因素可能对数据安全造成严重威胁。作为一款弱小的外部威逼监测工具，ADAudit Plus 在这一畛域施展着关键作用。本文将深入探讨 ADAudit Plus 在外部威逼监测中的重要性。一、外部威逼的隐患外部威逼是企业数据安全的重要挑战，因为外部员工或合作伙伴领有对机密信息的拜访权限。歹意行为、误操作或被感化的帐户都可能导致数据泄露、滥用权限以及其余潜在危险。因而，监测员工的流动变得至关重要。二、ADAudit Plus 的关键作用ADAudit Plus 是一款弱小的外部威逼监测软件，具备以下要害特点：实时监测：ADAudit Plus 能够实时监测员工的流动，包含登录、文件拜访、数据批改等。这使得企业可能及早发现异常行为并迅速采取措施。行为剖析：该工具可能剖析员工的行为模式，并辨认出异样流动。通过机器学习和智能辨认技术，ADAudit Plus 能够检测到不合乎失常行为的流动。权限治理：ADAudit Plus 能够跟踪用户的权限变更，确保员工只能拜访其所需的数据和资源。这有助于缩小误操作和滥用权限的危险。警报与报告：工具会生成实时警报和具体报告，帮忙管理员及时理解潜在的外部威逼。这有助于疾速应答问题，缩小潜在侵害。三、部署 ADAudit Plus 的劣势部署 ADAudit Plus 带来的诸多劣势包含：疾速应答：实时监测和警报性能使企业可能疾速应答外部威逼，最小化潜在侵害。缩小危险：行为剖析和权限治理有助于缩小员工的误操作、滥用权限和歹意行为，从而升高数据泄露危险。合规性：ADAudit Plus 能够帮忙企业恪守数据安全法规，爱护用户隐衷。数据可视化：通过具体的报告和图表，管理员能够清晰地理解员工的流动，从而更好地制订安全策略。外部威逼监测在明天的商业环境中变得至关重要，ADAudit Plus 作为一款弱小的外部威逼监测工具，能够帮忙企业实时监测员工流动、剖析行为模式，并提供实时警报和报告，从而帮忙企业疾速应答外部威逼。通过部署 ADAudit Plus，企业能够更好地爱护敏感数据，保护数据安全和隐衷，迈向可继续的倒退之路。

关于运维:异常追踪频道与-IM-双向互动

背景为不便更加及时可不便的获取异样追踪中的新 Issue，咱们能够通过在外部群中创立一个飞书、钉钉或者企业微信的机器人来承受异样追踪中的新 Issue 的揭示，或者是新回复的揭示，这样能够帮忙咱们及时处理 Issue，咱们也能够通过 @机器人的这种形式来疾速进行 Issue 回复来进步咱们的异样解决效率异样追踪与 IM 互动流程本文以飞书机器人为例来解说具体实现流程。筹备工作获取观测云须要跟踪 Issue 工作空间的 API Key：https://docs.guance.com/management/api-key创立一个飞书机器人助手利用：https://www.feishu.cn/hc/zh-CN/articles/495678957203部署一个 Dataflux Func 观测云特别版：https://func.guance.com试验流程1.编写飞书机器人收取 Issue 信息规定因为飞书不间接提供 outgoing 这种间断对话形式的机器人利用，所以须要咱们通过多个机器人利用流程来实现相似的对话性能。首先咱们要有一个收取 issue 信息的流程来捕捉新 issue 或新回复信息咱们通过 Webhook 作为流程触发条件，当咱们监听脚本发现有新 issue 记录或者回复时就能够通过调用飞书的 webhook 来触发机器人的音讯推送流程了咱们能够通过配置 Webhook 触发器将咱们 Issue 中的一些参数捕捉作为机器人发送飞书音讯的入参咱们能够通过 markdown 的形式来编写咱们想要出现的音讯款式，同时援用咱们下面在 webhook 中配置的参数来出现音讯 2.编写监听脚本在做好收取 Issue 的规定配置后，咱们须要在曾经装置配置好的 Dataflux Func 中编写获取新音讯并通过 webhook 发送到飞书机器人的脚本。首先咱们须要引入一些常量，比方获取新 Issue 的 OpenAPI 地址、 API Key 等 import requestsimport timeimport jsonfrom datetime import datetime, timedelta# 增量 1 分钟, 获取 1 分钟前的工夫one_minute_ago = datetime.now() - timedelta(minutes=1)one_minute_ago_time = int(one_minute_ago.timestamp())# 以后工夫戳current_time = int(time.time())# 飞书 webhookfeishu_webhook_url = "https://www.feishu.cn/flow/api/trigger-webhook/6af60259bd9691a0fd1xxxxxxx"# 观测云 OpenAPI 地址base_url = 'https://openapi.guance.com'channel_list_url = base_url + '/api/v1/channel/quick_list'issue_list_url = base_url + '/api/v1/issue/list'# 观测云 API keydf_api_key = '5K3IcvtWbSZ2inxxxxxxxxxxx'再引入了咱们须要的常量后咱们须要两个办法来实现新 issue 的获取，首先第一步咱们要理解异样追踪的展现逻辑，在异样追踪模块中所有的 issue 都会被频道治理，然而所有新建的 issue 都会呈现在全副的频道中，所以首先咱们须要一个办法获取所有的频道列表来找出咱们要监听的全副频道 ...

关于运维:使用-OpenTelemetry-构建可观测性-02-埋点

这是解说 OpenTelemetry 系列博客的第二篇。在上一篇博客中，咱们介绍了 OpenTelemetry 是什么以及由什么组成。当初咱们将探讨如何应用 OTel 精确收集遥测数据和链路追踪数据。手动埋点咱们这里议论“埋点”(代码插桩)，是指通过技术手段采集链路追踪数据的行为。通常有两种形式：手动和主动（上面探讨）。顾名思义，手动埋点须要在软件中显式的抉择要裸露哪些数据。手动埋点被认为是更高级和定制的遥测办法。手动和主动埋点别离有各自的应用场景，咱们将在下文介绍。一个申请进入零碎并通过多个后端服务时，OpenTelemetry 可能记录该申请在零碎中调用流程和通过的残缺门路，这个门路被称为链路追踪（trace）。申请可能触发多个操作，每个操作都被记录在一个跨度（span）中，示意具体操作的实例。每个跨度都有一个父跨度，除非它是链路追踪中的第一个跨度，在这种状况下，其父跨度 ID 为零（造成树状构造）。注：示例应用程序次要是用 Go 和一些 Python 编写的。我将应用 Go 语言展现代码示例，但其中原理和概念同样实用于 OTel 反对的其余编程语言。咱们能够通过 API 将跨度增加到现有链路追踪中（或启动新链路追踪）。对于 Go 语言，这意味着咱们将援用 go.opentelemetry.io/otel 库，它蕴含了手动埋点所需的所有函数办法。咱们能够通过函数调用，应用全局链路追踪生产者来创立跨度： import "go.opentelemetry.io/otel"// ... other code ...ctx, span := otel.Tracer("my-telemetry-library").Start(r.Context(), "get_user_cart")defer span.End()这里有几点须要留神。首先，咱们先获取全局链路追踪的实例，应用这个实例创立一个新的跨度。咱们将在下一篇博客文章中更深刻地探讨链路追踪生产者，它是 SDK 的一个组件，负责决定和治理这些遥测数据的流向和传输方式。链路追踪生产者既能够通过调用 otel.Tracer 也能够显式地应用参数传递。此示例应用程序依赖于全局跟踪器提供程序。当咱们调用 otel.Tracer 时，咱们传入埋点对象名称，该名称通常是解决埋点库名。在示例利用中，它被设置为“ github.com/trstringer/otel-shopping-cart ”。一旦咱们失去了链路追踪生产者，就能够调用 Start 函数并向其传递两个参数：上下文对象（ context ，容许咱们在不同的执行环境中共享数据，并且能够跨多函数调用、申请解决或线程之间）和跨度的名称。上下文对象能够被新建（例如 context.Background() ）或从它的父上下文传递（在本例中我应用的是 HTTP 申请上下文）。跨度名称能够是任何字符串，但在这个我的项目中，应用了一种标准化的命名形式，即抉择形容标识符来命名并且应用下划线将不同标识符分隔。 Start 函数的返回值之一是上下文对象，咱们能够把它传递给代码不同执行分支或门路（例如创立子跨度），以满足那些须要应用雷同上下文的调用；而另一个返回值跨度对象，能够用来解决其余操作。正如在此示例中所示，首先是通过 defer 关键字申明对函数 span.End 的调用，以便能够将此跨度标记为实现。咱们还能够为 span 对象增加属性。还须要留神的是，跨度是能够被嵌套应用的。通常一个新跨度是进入了一个代码执行分支或门路并且蕴含一个父跨度。这样就造成了跨度的嵌套关系，精确地反映了申请所经验的代码调用门路。属性在链路追踪零碎中，咱们采集各种与零碎行为相干的数据，并将这些数据与特定的跨度进行关联，以便更好地了解零碎行为。通过利用具备多样取值的高基数数据，咱们可能获取更加具体和全面的上下文信息，从而更好地观测和剖析零碎的运行状况。能够像上面给跨度设置属性： span.SetAttributes(attribute.String("user.name", userName))创立了一个名为 user.name 的字符串类型的属性并赋值。跨度的记录就会变成上面这样： Span #4 Trace ID : d6b58718e2d607f2a881e55200b387d5 Parent ID : ef6c51753d66f227 ID : 95dcb2657f5bca91 Name : get_user_cart Kind : SPAN_KIND_INTERNAL Start time : 2022-08-07 16:37:51.184919236 +0000 UTC End time : 2022-08-07 16:37:51.231164398 +0000 UTC Status code : STATUS_CODE_UNSET Status message :Attributes: -> user.name: STRING(tlasagna)太棒了！当初名为 get_user_cart 的跨度就蕴含这个新属性 user.name 。还能够在 Jaeger 中同样看到这个属性： ...

关于运维:浅析Docker内置网络模式

浅析Docker内置网络模式引言Docker提供了多种内置的网络模式，用于在容器之间建设网络连接。这篇文章将浅析这些网络模式，包含桥接网络、主机网络、无网络模式和Overlay网络等。咱们将探讨每种网络模式的优缺点、实用场景。桥接网络（Bridge Network）概念桥接网络是Docker的默认网络模式。在桥接网络中，Docker会为每个容器创立一个虚构网络接口，并为容器调配一个IP地址。容器能够通过桥接网络与主机和其余容器进行通信。长处隔离性：每个容器都有独立的网络命名空间，相互之间隔离，不会相互烦扰。简略易用：桥接网络是默认的网络模式，无需额定配置，容器能够间接进行通信。跨主机通信：能够通过端口映射实现容器与主机之间的通信，也能够应用Overlay网络实现跨主机通信。毛病性能损失：桥接网络须要进行网络地址转换（NAT），可能会引入肯定的性能损失。端口抵触：如果多个容器应用雷同的端口号，可能会导致端口抵触。利用场景桥接网络实用于单主机上的多个容器之间的通信，例如微服务架构中的多个服务容器之间的通信。尽管在国内各大云厂商在docker容器中应用调配的公网ipv6地址通信,比拟繁琐,然而也属于一种利用场景,其实如果想应用ipv6的话,能够通过应用内置的主机网络模式实现。如果你的业务场景决定你必须应用桥接模式中的ipv6网络,这个举荐一篇文章可能会解决你的问题 > https://zhuanlan.zhihu.com/p/400379696 如何应用桥接网络是默认的网络模式，无需额定配置。通过docker run命令创立容器时，能够应用--network bridge参数指定应用桥接网络,当然因为是默认的,也能够抉择不加。因为桥接网络须要进行网络地址转换（NAT）实现的,所以个别在应用时,都会将服务端口映射进去 -p [hostPort]:[containerPort]最佳实际应用自定义网络：为容器创立自定义的桥接网络，能够更好地治理容器之间的通信和连贯。应用容器名称进行通信：通过为容器指定名称，不会创立本人的网卡，配置本人的 IP，而是和一个指定的容器共享 IP、端口范畴等。 #1docker network create my-networkdocker run --network=my-network --name=containemy-image1docker run --network=my-network --name=container2 my-image2#从 Docker 1.10 版本开始，docker daemon 实现了一个内嵌的 DNS server，使容器能够间接通过容器名称通信。这样，容器1和容器2能够通过它们的容器名称 "container1" 和 "container2" 进行通信，而不用记住它们的IP地址#2 如下图docker run --name=container1 my-image1docker run --name=container2 --network container:[container1] my-image2#这样,就能够将container2和container1组成同一个网络,即container2不会创立本人的网卡，配置本人的 IP，而是和一个指定的容器共享 IP、端口范畴等主机网络（Host Network）概念在主机网络模式下，容器与主机共享网络命名空间，间接应用主机的网络接口和IP地址。容器能够通过主机网络与主机和其余容器进行通信。长处性能劣势：与桥接网络相比，主机网络模式能够提供更高的网络性能，因为容器间接应用主机的网络接口，无需进行额定的网络地址转换。简化网络配置：容器与主机共享网络命名空间，无需进行端口映射或网络转发配置。毛病安全性升高：容器与主机共享网络命名空间，容器能够间接拜访主机上的网络资源，可能会减少平安危险。端口抵触：如果多个容器应用雷同的端口号，可能会导致端口抵触。利用场景主机网络模式实用于对网络性能要求较高的场景，例如须要间接拜访主机上的网络资源或与主机进行高性能通信的容器。应用主机调配的公网ipv6地址进行通信,而后你就相当于领有了一个双协定的服务容器了如何应用在创立容器时，能够应用--network host参数指定应用主机网络模式。开启docker中的ipv6 vim /etc/docker/daemon.json退出这两行,就会开启ipv6,前提是你的主机曾经调配了ipv6地址哟{"ipv6": true, #这个前缀是你去云厂商或者去路由表查到的 ip -6 route show dev eth0"fixed-cidr-v6": "2402:xxx:xxxx:xxx::/64"}最佳实际留神端口抵触：因为容器与主机共享网络命名空间，须要确保容器应用的端口号在主机上是惟一的。思考安全性：主机网络模式可能会升高容器的安全性，须要审慎应用，并确保适当的安全措施。 #容器与主机共享网络命名空间，间接应用主机的网络接口和IP地址docker run --network=host --name=container1 my-image1无网络模式（None Network）概念在无网络模式下，容器没有网络接口，与内部网络齐全隔离。这种模式实用于不须要网络连接的容器，例如批处理工作或与网络无关的利用。长处安全性加强：无网络模式下的容器与内部网络齐全隔离，能够提供更高的安全性。资源节俭：无网络模式下的容器不须要网络接口和IP地址，能够节俭网络资源。 ...

关于运维:使用-OpenTelemetry-构建可观测性-01-介绍

毫无疑问，在过来几年里，你可能曾经屡次听到过可观测性这个词。对于很多人来说，很难了解这个词的真正含意。对许多人来说，他们谬误地将其等同于"监控"。尽管可观测性的基本定义以及它所蕴含的所有都不在本系列博文的探讨范畴之内，但我强烈建议您购买一本由 Charity Majors (twitter)、Liz Fong-Jones (twitter) 和 George Miranda (twitter) 合著的《可观测性工程》（Observability Engineering）一书。不过，本系列博文将介绍应用 OpenTelemetry 实现可观测性的残缺示例和阐明，OpenTelemetry 是 CNCF 的一个我的项目，致力于让可观测性变得更简略。什么是 OpenTelemetry？OpenTelemetry 是几年前 OpenCensus 和 OpenTracing 合并的产物。从那时起，OpenTelemetry（也简称为 "OTel"）就很好地将本人定位为在古代软件世界中获取遥测数据且厂商中立的办法。很多人会说 OpenTelemetry 是可观测性的将来，依据我的教训和接触，我偏向于批准这种说法。 OTel 组件在 OpenTelemetry 中典型的OTel计划能够被细分为几个逻辑组件，他们包含APIs, SDKs,收集器. APIs and SDKs在开始应用 OpenTelemetry 时，首先要理解的重要事项之一是该我的项目如何辨别 API 和 SDK。简而言之，API 负责收集遥测数据及其中的所有数据，而 SDK 则负责将这些数据从以后被观测的过程中提取进去，转给另一个实体进行剖析。随着咱们对这个示例的深入研究，这一点将变得更有意义，但值得了解的是 API 和 SDK 之间的职责拆散。因为它们是关注点拆散的，通过什么是观测（API）与如何解决（SDK）来辨别它们。它们反对多种编程语言，包含（但不限于）：Go、Python、Java、Ruby、JavaScript、.NET 等！无关语言反对的更多信息，请查看埋点文档。咱们将在稍后的博文中介绍埋点常识。 CollectorSDK 的职责之一就是从正在被观测的过程中获取数据，然而须要一个中央来汇总接管这些数据。咱们将这个独立的过程称为收集器。收集器的整个工作可分为三个不同阶段：接管遥测数据解决遥测数据导出遥测数据收集器是一个解决遥测数据的 ETL（Extract, Transform, Load）管道。尽管不肯定要应用 OTel 解决方案，不过想要找个一个罕用且好用的收集器例子，举荐用 OpenTelemetry Collector，它将是本系列的重点，并将在前面的博文中具体介绍。 Traces, metrics, and logs在链路追踪和可观测性中，有三方面信息：链路追踪，指标数据和服务日志。尽管咱们长期以来始终应用服务日志和指标数据，然而许多人认为链路追踪才是真正解锁可观测性能力的要害。通过收集具备高基数（基数是指某个属性或维度的惟一值的数量，高基数数据能够认为是提供更全面和详尽的上下文信息）特点的链路追踪数据，咱们就具备了不必批改代码也可能疾速解答局部问题的能力。剖析数据是能够有多种手段，例如说咱们能够比照异样数据和惯例数据等。本系列博文将会专一于解说链路追踪，如果你想进一步理解可观测性，以及三种信息之间差别能够参阅前文提到的《可观测性工程》一书。示例利用本系列博文的次要工作是介绍如何应用 OpenTelemetry 来让软件系统具备可观测性。为此，我创立了一个示例应用程序，并在后续文章中阐明在利用过程中的一些要点。该应用程序的设计可参见下图： ...

关于运维:IT项目管理vs服务管理

如何通过IT项目管理来加强服务台经营呢？咱们晓得许多人曾经有了一个独自的项目管理工具来治理本人的 IT，并认为本人在服务台中不须要项目管理模块。首先，IT项目管理模块可能看起来与您设置中已有的惯例工具没有什么不同，但必定有其长处：与服务台进行增值整合的劣势将使您解决 IT 的形式大为改观。让咱们来看看是如何做到的：配置和建设 ITIL 环境是一项艰巨的工作，会遇到许多阻碍，包含人员、流程、第三方工具和其余各种因素。领有独立的项目管理模块和流程就像在 IT 流程上装置了一个笼罩开关（我的项目）。每次笼罩产生时，您都会再次被困在清理笼罩造成的冗余凌乱的一团乱麻中。因而，让我先为您解释一下在 IT Helpdesk 中装置项目管理模块的益处：您无需别离应用多个工具来解决 IT和 IT相干我的项目,通过ServiceDesk Plus的事件/问题/变更和CMDB集成，您能够更清晰地理解每个我的项目的目标。且您能够与依据角色和职责进行分类的 IT 技术人员一起布局我的项目，通过从服务治理流程中获取适当的影响剖析来布局每个我的项目，从而防止劫难的产生。与其将其视为具备雷同性能的另一种工具，不如将其视为一种能为您带来无缝集成获取额定劣势的工具，就像您能够将客厅中的大屏幕电视与汽车中的小屏幕电视等量齐观。客厅的大屏幕电视显然有其特定用处，在设计时也思考到了这一用处，而车内的小电视则能让您在旅行时取得舒服的观看体验。每一样都思考的非常周到，对吗？因而，请尝试在您的 IT 设置中施行项目管理，置信我，您肯定会看到它的综合价值！

关于运维:直播预告-博睿学院海量数据实时可信认证

数据作为新型生产因素，能为企业倒退带来放大、叠加和倍增作用。同时，数据流通场景简单，因而数据的安全性就显得非常重要。换言之，建设海量数据实时可信认证，是激活数据因素潜能、晋升企业竞争力的重要途径。本次课程次要从数据可信的需要、实现计划与模型抉择登程，为大家解说如何实现海量数据实时可信认证。本期讲师石头 DEM能力核心资深研发专家业务特长：分布式架构实现、java原理、设计模式工作经验：曾就任于北京中科弘睿数据科技有限公司本期主题：海量数据实时可信认证长按辨认或扫描海报下方二维码预约观看，课件将于直播后发送至您的邮箱。关注“博睿数据”，即可观看往期博睿学院课程回放。

关于运维:2023-CCF国际AIOps挑战赛赛题与赛制解读

本文依据本届挑战赛技术委员会主席、南开大学副教授张圣林在2023 CCF国内AIOps挑战赛宣讲会暨AIOps研讨会上题为《2023 CCF国内AIOps挑战赛·赛题与赛制》的分享整顿而成，全文分为挑战赛背景介绍、题目简介、流程阐明和评分规定等局部，最初简要介绍了参考文献与往届资讯，供选手参考。本届挑战赛背景介绍近年来软件系统畛域产生了两个显著趋势。第一个趋势是随着云计算的倒退，软件系统架构由单体架构逐步转变为面向服务的架构。从单体的软件用一套可执行的文件来实现整个的业务逻辑，继续开发艰难并难以扩大。目前大部分的行业（包含互联网和金融机构）的软件系统逐步向微服务架构或面向服务的架构过渡，使它可能撑持细粒度、松耦合并通过API连贯的服务，以达到继续开发和灵便扩大的目标。第二个趋势是传统人工运维逐步向智能运维转变。这也是为了应答简单的软件和网络的架构。传统运维次要靠人工为主，耗时耗力且高度依赖专家教训，应答简单的零碎时往往大刀阔斧。随着智能运维的衰亡并深刻各行各业，联合专家常识、运维数据和智能算法，升高故障修复工夫并晋升无故障工夫成为业内共识。最终咱们冀望依附智能运维，能够实现无人值守的状态。在此过程中，运维畛域面向微服务架构的智能化运维转型中面临两个挑战：第一个挑战是:微服务架构的零碎复杂性较高，调用关系简单，故障呈现后根因定位和故障溯源难。同时，软件服务的动态性导致迭代速度快，须要动态创建和销毁容器，软件频繁变更后，过来的运维教训往往不再实用新的软件环境，给运维工作带来挑战。另一个挑战是:如何关联和交融多模态数据，并开掘要害信息用于故障发现和诊断。在微服务架构下，往往具备多种损益起源和多种类型的数据，包含指标数据、日志数据以及调用链数据等多模态的运维数据。指标可能反映业务状态和机器性能的工夫序列数据。日志是一种程序打印或执行代码输入的非结构化文本。调用链则是在零碎实现一次业务调用的过程中，把服务之间的调用信息连接成的一个树状链条。多模态运维数据能够反映零碎状态的全方位信息，通过智能运维算法能够失去绝对于传统运维更精准的后果。针对以上挑战，联合微服务架构零碎和调用关系复杂性，以及多模态的运维数据，本次的挑战赛以开放式赛题的比赛模式，向业内广泛的两个挑战发动冲击。本届挑战赛题目简介回顾下历届挑战赛赛题：相比往届较量，本届AIOps挑战赛在赛题方面做出了较大的翻新。本届挑战赛采纳开放式赛题，基于建行云龙舟运维平台的稳定性工具和多维监控零碎，模仿大型的生存服务APP的生产环境，提供端到端的全链路的日志、指标和调用链数据。选手能够自主命题、自行设计计划及实现，最初评审专家会依据选手的选题、计划和成果来评分。选手可基于一种或多种模态数据（如日志、指标、调用链数据等）抉择异样检测、故障分类、故障根因定位、故障影响剖析，以及其余类型，当然这只是一个示例，参赛选手自主命题的时候不必拘泥于上述案例。零碎架构零碎架构蕴含了三个集群和一些中间件，它分了几个档次。首先，咱们将模仿拜访建行云的一个生存服务类APP的过程，通过负载均衡器加载到入访WEB集群里。应用层具备三个集群，蕴含两个根底集群和一个订单集群，负责解决用户拜访的服务。数据层蕴含中间件和数据库，来解决应用层三个集群对数据的申请。之后通过负载均衡器将用户的后果返回。模仿环境的拓扑构造如下：故障场景以某一个交换机的故障为例：某网络接入交换机的端口，呈现了丢包重大的问题，导致交易解决工夫变长，且交易解决失败次数变多。注入故障时，首先会设置交换机某个端口丢包率较高（如80%），同时制作高频、拜访数据库交易流量。整个故障流传的链条是：交换机端口丢包重大，通过剖析交换机性能指标如丢包率，导致关联的 AP交易工夫变长，咱们可通过剖析关联AP的指标均匀解决工夫，可能感知到 AP出了问题。之后，所关联AP零碎的成功率降落。通过这样的形式，从交换机端口的故障流传到导致 IP交易会呈现问题，选手可通过剖析数据推导出交换机的端口故障的根因。较量数据本届挑战赛将提供全链路的端到端的监控数据，包含指标数据，日志数据和调用链数据。指标数据包含业务指标和性能指标两种类型。日志数据中既有节点的物理服务器日志，同时也会尝试提供下层软件日志。本届挑战赛流程阐明工夫安顿以下是初步打算，后续会依据最新进展动静调整。报名形式面向全社会凋谢报名，既能够是高校师生，也能够是企业职工。报名前须要注册账号，提交身份认证审核，通过之后绑定手机号和填写账户的材料。报名之后须要去填写问卷，并组建一个团队，之后须要由队长来确认组队实现。参赛队伍不限度参赛人数，但如果一个人同时退出多支队伍，与该人员关联的所有队伍都会被取消资格。之后期待资源分配审核，审核通过后取得建行云的堡垒机账号和明码，胜利后会以短信的形式告诉。建行云堡垒机调配之后须要在一周之内会激活，对于没有激活队伍咱们会回收资源。1支队伍只有有1人登录，就视为激活。较量预计8月份报名截止。建行云资源分配后，需参照官网阐明在一周内激活。如果未按时激活，资源将被回收，队伍中有一个人登录即视作激活。报名胜利后请增加挑战赛小助手进群，微信群后续会进行赛事告诉和技术答疑，倡议队伍里每个成员都能入群。扫码增加AIOps_Challenge进群，备注：“报名参赛” 本届挑战赛评分规定在建行云的模拟系统中，咱们注入故障且流量模仿之后，会生成一些数据，并打到评测零碎外面。选手们申请到建行云的虚拟机之后，通过Kafka进行订阅。订阅完之后须要选手将钻研问题、解决方案、实现的原型零碎在评测零碎里提交，组委会将邀请业内专家对提交后果打分，并颁布排行榜。评审专家根据设计方案和评估后果进行评分，每个赛题将由不少于两个专家评分，如一致较大，咱们会引入第三个专家染指。原则上会抉择不超过10个队伍进入决赛。进入决赛的队伍进行须要现场问难，评审专家现场打分，得出最初的排名。因为往年采纳开放式赛题，较量将不再要求选手凋谢代码，而是要求参赛队伍将运行软件依照要求放在指定目录，写好一键运行脚本，主办方将登录选手机器进行后果复现以评估后果的真实性。参考文献单指标异样检测多指标异样检测日志剖析和异样检测调用链分析和异样检测故障分类根因定位

关于运维:监控系统自监控怎么做

问题监控零碎用于监控其余的零碎、基础设施，相对是 P0 级的服务，那监控零碎的自监控应该怎么做呢？如果本人监控本人，有些组件挂掉了不免循环依赖，如果独自搞一套新的监控零碎来监控以后退役的监控零碎，又搞得有些过于简单。本文咱们来探讨一下监控零碎的自监控应该怎么做。解决方案：本身指标首先，监控零碎本身是会裸露监控指标的，比方 Prometheus、VictoriaMetrics、Nightingale，都通过 /metrics 接口裸露了本身的监控指标，这些指标通过监控零碎本身的采集机制去采集就好，相干数据的历史趋势图、告警规定，也在监控零碎本身配置好，只有本身模块没有挂掉，或者没有全副挂掉，相干数据根本都能够失常应用。比方 Nightingale 的本身监控指标，能够通过 categraf 的 input.prometheus 插件来采集，即 conf/input.prometheus/prometheus.toml 的内容如下： [[instances]]urls = [ "http://localhost:17000/metrics"]localhost:17000 换成你的 Nightingale 的地址即可。而后导入内置仪表盘：https://github.com/ccfos/nightingale/tree/main/integrations/n9e/dashboards，即可看到 Nightingale 本身的监控指标了。解决方案：存活监控如果监控零碎同时有多个模块故障，此时本身指标可能都采集不到了，告警引擎可能也有故障，此时就没法通过本身指标来监控了，此时就须要一个外挂的小监控零碎来监控这类重大状况了。而且，告警通道尽量也不要复用之前的通道，因为通道可能也会故障。我的倡议是采纳 catpaw + FlashDuty 来搞这个需要。FlashDuty 是外网的 SaaS 服务，只有公网进口是好的，就能提供监控服务，而且无需咱们保护，应用收费套餐都够用，毕竟监控零碎也不会常常挂。。。 catpaw 最新版本是 v0.7.0，曾经提供了 exec（执行脚本的插件）、filechange（文件变动监控的插件）、http（HTTP探测的插件）、journaltail（系统日志异样检测插件）、mtime（递归判断文件变动的插件）、net（TCP、UDP探测的插件）、ping（PING插件）、procnum（过程数量监控插件）、sfilter（自定义脚本插件，相比exec插件更简略，匹配脚本输入）等多个监控插件，咱们能够应用 net 插件来探测监控零碎的各个组件的存活状况，比方上面是 net 插件的配置样例： [[instances]]targets = [# "127.0.0.1:22",# "localhost:6379",# ":9090"]## Set timeout (default 5 seconds)# timeout = "5s"## Set read timeout (only used if expecting a response)# read_timeout = "5s"# # Concurrent requests to make per instance# concurrency = 10# # gather interval# interval = "30s"# # Optional append labels# labels = { env="production", team="devops" }## Protocol, must be "tcp" or "udp"## NOTE: because the "udp" protocol does not respond to requests, it requires## a send/expect string pair (see below).# protocol = "tcp"## The following options are required for UDP checks. For TCP, they are## optional. The plugin will send the given string to the server and then## expect to receive the given 'expect' string back.## string sent to the server# send = "ssh"## expected string in answer# expect = "ssh"[instances.alerting]## Enable alerting or notenabled = true## Same functionality as Prometheus keyword 'for'for_duration = 0## Minimum interval duration between notificationsrepeat_interval = "5m"## Maximum number of notificationsrepeat_number = 3## Whether notify recovery eventrecovery_notification = true## Choice: Critical, Warning, Infodefault_severity = "Warning"如果指标 IP:Port 连不上了，就会报警，报警事件的具体推送策略在 [instances.alerting] 配置段配置。 ...

关于运维:Debian-11-x64-安装-MySQL-8033

更新sudo apt updatesudo apt install gnupg装置 DEB Packagewget -c https://dev.mysql.com/get/mysql-apt-config_0.8.25-1_all.debsudo dpkg -i mysql-apt-config_0.8.25-1_all.deb具体版本见官方网站：MySQL Community Downloads，这里仅以版本 0.8.25-1 作为示例。更新缓存sudo apt update装置 MySQL Serversudo apt-get install mysql-community-server 查看状态systemctl status mysql.service 平安地配置 MySQL 服务sudo mysql_secure_installation查看运行状态和版本信息sudo mysqladmin -u root -p version容许近程拜访sudo nano /etc/mysql/mysql.conf.d/mysqld.cnf在最初一行增加： bind-address=127.0.0.1保留：Ctrl + O确认批改的文件名：Enter退出：Ctrl + X凋谢端口： sudo ufw allow 3306/tcp重启服务： systemctl restart mysql增加近程拜访用户进入 MySQL 命令行： sudo mysql -u root -p查看现有用户： SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS query FROM mysql.user;增加用户： create user your_name identified by 'your_password';为新增的用户受权： ...

关于运维:数据结构-数组

数据结构数组数据结构概述数据结构？什么玩意儿？哎呀，你这可把我难住了，我可不是什么计算机专家，但我也尽力给你解释一下。数据结构就像是咱们这个世界里的各种组织模式一样，是用来组织和存储数据的一种形式。你能够把它看作是一种框架，能够让你把数据整顿得东倒西歪。就好比是在这个大杂烩的世界里，给你提供了一种整顿思路，让你不至于变得乌七八糟。那数据结构到底有啥用呢？嗯，其实它的益处可不少。首先，它可能提供一种高效的数据拜访形式，让你可能疾速地查找、插入或删除数据。就像是你要找某本书，如果书架是乌七八糟的，你得费好大劲能力找到你想要的那本书。但如果书架是依照肯定的规定摆放的，你就能迅速地找到它。其次，数据结构也可能帮忙你节约空间。就像是在你家整顿货色一样，如果你不加以整顿，很快就会变得一团糟。但如果你正当地安顿每个货色的地位，就可能节约空间，让你的家看起来更整洁。哎呀，这样解释起来还挺形象的。数据结构嘛，就是一种组织数据的形式，让你可能高效地操作和治理数据。就像是给你的思维提供了一套整顿规定，让你在这个纷繁复杂的数据世界中熟能生巧。分类首先，咱们得晓得数据结构有啥分类呢。嗯，咱们能够把它们分成两大类，一类是线性构造，一类是非线性构造。咱先聊聊线性构造吧。就像是一条直线上的货色一样，线性构造中的数据元素是依照线性的秩序排列的。最简略的线性构造就是数组，咱们能够把它设想成一排房子，一个挨着一个。还有链表，它是一串环环相扣的珠子，每个珠子都有指向下一个珠子的指针。这些线性构造都有一个特点，就是只能从一个方向拜访数据元素。而后，咱们再说说非线性构造。这些构造就比拟神秘了，就像是在一片茫茫大海里，有各种各样的岛屿和海洋生物。其中，最有名的非线性构造莫过于树和图了。树就像是一颗大树，有根、枝干和叶子，各个节点之间有着父子关系。而图则更加简单，能够设想成一张网络地图，各个节点之间能够有各种连贯关系。非线性构造的特点就是数据元素之间的关系不是简略的一对一，而是多对多的。嘿嘿，这就是数据结构的分类啦。线性构造就像是一条直线上的货色，非线性构造就像是陆地里的岛屿和生物，有着各种各样的关系。记住了，数据结构就像是这个世界里的秩序，让咱们可能更好地了解和解决数据的乌七八糟。数组哈哈哈，你找对人了，来，我就给你道个假相，说说数据结构中的数组吧。先说说数组的长处。数组就像是一排整齐划一的小屋，每个小屋都有本人的地址。它的最大长处就是快速访问。因为数组中的元素是间断存储的，咱们能够通过索引间接定位到须要的元素，不用费太多工夫。就像是你想找一个人，如果他住在一条参差的街道上，你只须要晓得他的门牌号就能迅速找到他。然而，数组也有它的毛病。最大的问题就是大小固定。一旦数组被创立，它的大小就无奈扭转了。就好比是你买了一排房子，房子的数量是固定的，你不能轻易减少或缩小。如果你须要存储的元素数量超过了数组的大小，就会造成内存节约或者无奈存储所有的元素。而且，如果你想要插入或删除数组中的元素，就得搬家了。就像是你想在一排房子中插入一个新的房子，你须要把前面的房子都往后挪动，空出地位给新的房子。哈哈，这就是数组的假相。它可能提供快速访问的劣势，然而大小固定和插入/删除的操作会让你陷入麻烦。就像是你要在一排房子中减少或缩小房子一样，得费些周折。所以，在抉择数据结构的时候，得依据具体情况来判断，看看是不是适宜用数组这种形式。编码-搞起来让咱们撸起袖子来实现一个相似赫赫有名的ArrayList一样的动静数组的数据结构吧!Come On设计Api首先咱们想想一个线性的数据结构须要具备什么样的性能?什么?那我帮咱们捋捋获取性能int getSize(); 获取大小E get(int index); 依据索引获取值int indexOf(E e); 依据值获取索引String toString(); 打印数组所有值判断性能boolean isEmpty(); 是否为空boolean contains(E e); 是否蕴含该元素增加性能 void add(int index,E e); 增加元素到指定索引void add(E e); 增加元素void addFirst(E e); 增加到数组后面void addLast(E e); 增加到数组尾部批改性能void set(int index,E e); 批改指定索引地位的元素删除性能 E remove(int index,E e); 删除指定索引上的值,并返回删除的值E removeFrist(); 删除数组后面的值E removeLast(); 删除数组尾部的值转换性能快爆肝了,这个你们本人搞吧,能够在评论区留言盘它!/** * @author sssd * @careate 2023-07-03-7:30 */public class ArrayList<E> { /** * 这个不多说,用数组实现 */ private E[] data; /** * 这个示意咱们这个ArrayList的可用长度 */ private int size; /** * 初始化结构 * * @param capacity */ public ArrayList(int capacity) { //java语言须要注意的中央 data = (E[]) new Object[capacity]; //刚开始的时候长度为0 size = 0; } /** * 初始化结构 */ public ArrayList() { //默认初始化数量为10 this(10); } public int getSize() { return size; } public E get(int index) { if (index < 0 || index >= size) { throw new IllegalArgumentException("你丫看看index的值,传了个啥..."); } return data[index]; } public int indexOf(@NotNull E e) { for (int i = 0; i < size; i++) { if (e.equals(data[size])) { return i; } } return -1; } public void add(int index, E e) { if (size == data.length) { throw new IllegalArgumentException("你丫看看都越出了,还往里面塞..."); } if (index < 0 || index > size) { throw new IllegalArgumentException("你丫看看index的值,传了个啥..."); } for (int i = size - 1; i >= index; i--) { data[i + 1] = data[i]; } data[index] = e; size++; } public void addFirst(E e) { add(0, e); } public void addLast(E e) { add(size, e); } public E remove(int index) { if (index < 0 || index >= size) { throw new IllegalArgumentException("你丫看看index的值,传了个啥..."); } E e = data[index]; for (int i = index + 1; i < size; i++) { data[i - 1] = data[i]; } size--; return e; } public E removeFirst() { return remove(0); } public E removeLast() { return remove(size); } public void set(int index, E e) { if (index < 0 || index >= size) { throw new IllegalArgumentException("你丫看看index的值,传了个啥..."); } data[index] = e; } public boolean contains(E e) { for (int i = 0; i < size; i++) { if (e.equals(data[i])) { return true; } } return false; } @Override public String toString() { StringBuilder builder = new StringBuilder(); builder.append("["); for (int i = 0; i < size; i++) { if (i == size - 1) { builder.append(data[i]); } else { builder.append(data[i] + ","); } } builder.append("]"); return builder.toString(); }}作者：傻傻三多 ...

关于运维:聚焦信息技术发展博睿数据受邀出席产业链供需对接深度行北京站活动

7月6日，以“广聚群链湾区启航”为主题的产业链供需对接深度行北京站流动圆满闭幕。本次流动吸引了来自北京和广东的多家知名企业参加，博睿数据受邀缺席了本次流动，同时携外围产品一体化智能可观测平台Bonree ONE参展，展现博睿数据在智能运维畛域的科技实力与翻新成绩，独特聚焦新一代信息技术倒退。近年来，信息技术迅速倒退，2023年2月，中共中央、国务院印发了《数字中国建设整体布局布局》，明确指出要培养壮大数字经济外围产业，钻研制订推动数字产业高质量倒退的措施，打造具备国内竞争力的数字产业集群，推动新一代信息技术倒退。不难看出，信息技术已成为进步企业外围竞争力，推动企业倒退的重要驱动力。对此，与会嘉宾指出要持续推动外围产品和增值产品的体系化布局，保障自主信息化降级过程平安高效，同时疏导单干生态倒退冲破，引领自主软件生态正向倒退。博睿数据多年来始终聚焦信息技术倒退，专一于构建以用户为核心的简捷、高效、智能的新型IT运维体系，继续推动可观测性等技术在信息技术利用产业中的拓展与翻新。博睿数据外围产品Bonree ONE，是国内首个真正实现智能运维的一体化智能可观测性平台，凭借当先的大数据采集和智能剖析能力，以及稳固弱小的中台能力，真正实现IT零碎全栈、全链路、全场景的智能可观测，为企业数字化业务保驾护航。 2023年4月21日，Bonree ONE 2023 秋季正式版全新公布，带来更轻更强更智能的新一代一体化智能可观测平台。更轻：实现组件瘦身50%，POC仅需一台虚拟机轻松起跑；更强：探针反对3层架构，20W+探针同时接入、数据集成、K8S监控、业务剖析、日志剖析、操作剖析、技术组件等性能全面退场；更智能：告警收敛率98%，根因深度剖析。继续深入”ALL in ONE“策略，聚焦信息技术倒退，博睿数据目前领有27项发明专利，119项软件著作权与27项核心技术，已取得1000+客户的信赖与抉择。一体化智能可观测平台Bonree ONE将以当先的技术与能力，独特推动可观测性平台建设与新一代信息技术倒退。

关于运维:Zabbix-服务监控之安装

Zabbix 服务监控之装置中国zabbix站点https://www.zabbix.com/cn/download装置前筹备本文介绍zabiix5.0版本在CentOS下装置关上 https://www.zabbix.com/cn/download抉择装置形式及版本和装置环境装置1.抉择装置形式及版本和装置环境后,会生成装置步骤 2.装置zabbix包并指定国内阿里数据源rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpmcd /etc/yum.repos.d/sed -i 's/http:\/\/repo.zabbix.com/https:\/\/mirrors.aliyun.com\/zabbix/' zabbix.repoyum clean all3.装置Zabbix server Agentyum install zabbix-server-mysql zabbix-agent centos-release-scl -y4.编辑配置文件 /etc/yum.repos.d/zabbix.repo and enable zabbix-frontend repository./etc/yum.repos.d/zabbix.repo[zabbix-frontend]enabled=15.装置zabbix前端包yum install zabbix-web-mysql-scl zabbix-nginx-conf-scl -y6.装置数据库yum install mariadb-server -y7.配置数据库开启启动systemctl enable --now mariadb8.初始化数据库mysql_secure_installation 9.数据库设置# mysql -uroot -ppasswordmysql> create database zabbix character set utf8 collate utf8_bin;mysql> create user zabbix@localhost identified by 'password';mysql> grant all privileges on zabbix.* to zabbix@localhost;mysql> set global log_bin_trust_function_creators = 1;mysql> quit;10.导入初始架构和数据，零碎将提醒您输出新创建的明码。zcat /usr/share/doc/zabbix-server-mysql*/create.sql.gz | mysql -uzabbix -p zabbix11.导入数据库模式后禁用log_bin_trust_function_creators选项。# mysql -uroot -ppasswordmysql> set global log_bin_trust_function_creators = 0;mysql> quit;12.为Zabbix server配置数据库,编辑配置文件 /etc/zabbix/zabbix_server.confDBPassword=password13.为Zabbix前端配置PHP,编辑配置文件 /etc/opt/rh/rh-nginx116/nginx/conf.d/zabbix.conflisten 80;server_name example.com;14.编辑配置文件 /etc/opt/rh/rh-php72/php-fpm.d/zabbix.conflisten.acl_users = apache,nginx15.配置时区php_value[date.timezone] = Asia/Shanghai16.启动Zabbix server和agent过程,启动Zabbix server和agent过程，并为它们设置开机自启 systemctl restart zabbix-server zabbix-agent rh-nginx116-nginx rh-php72-php-fpm systemctl enable zabbix-server zabbix-agent rh-nginx116-nginx rh-php72-php-fpm17.登录Zabbix默认登录地址 http:[ip]:[port] ...

关于运维:文件系统考古4如何支持多个文件系统

明天这篇是系列文章 “50 years in filesystems” 的最初一篇，再次感激作者 KRISTIAN KÖHNTOPP 带来的这组精彩文章，为计算畛域的硬核爱好者提供了一次难得的学习和思考机会。对于文件系统的历史和倒退，你有什么样的观点？欢送在后盾给咱们留言。Steve Kleiman 在 1986 年撰写了《Vnodes: An Architecture for Multiple File System Types in Sun UNIX》一文。这篇论文幅较短，大部分内容是数据结构的列举，以及 C 语言构造之间互相指向的图表。 Steve Kleiman是分布式文件系统畛域的专家，在 Sun Microsystem 工作了多年，曾参加开发 Sun Network File System（NFS）等我的项目，为分布式文件系统畛域做出了重要奉献。 Kleiman 心愿在 Unix 中可能领有多个文件系统，并心愿这些文件系统可能共享接口和内存。具体而言，他心愿设计一个可能提供以下性能的架构：一个能够反对多个实现的通用接口；反对 BSD FFS，以及两个近程文件系统 NFS 和 RFS，还有特定的非 Unix 文件系统，如MS-DOS；接口定义的操作须要是原子性的。并且，可能在不影响性能的状况下动静地解决内存和数据结构，反对重入（reentrant) 和多核，并且具备肯定面向对象进行编程的个性。重入（reentrant) 是指程序或子程序在尚未实现上一次调用之前，能够再次被调用且不会出错或发生冲突。两个抽象概念Steven 钻研了文件系统的各种操作，决定将他们形象为两个概念： vfs，虚构文件系统，代表文件系统vnode，虚构 inode，代表文件vfs，虚构文件系统，它提供对立的接口，使操作系统能够以统一的形式拜访不同的文件系统，无论是本地文件系统还是网络文件系统。 vnode，虚构 inode, 示意一个文件，每个文件都有一个相关联的索引节点，其中蕴含了文件的元数据（如文件权限、所有者、大小等）以及指向文件数据存储地位的指针。采纳了 C++格调（理论应用 C 语言），每一个类型会匹配一个虚函数表，通过虚函数表，零碎在运行时依据对象的理论类型来调用适当的虚函数，实现动静绑定：对于 vfs 类型，其虚函数表 struct vfsops，蕴含了一系列的函数指针，用来执行诸如 mount、unmount、sync 和 vget 等操作。在论文的前面，会解释这些函数的原型和性能；对于 vnode 类型也是相似的，其虚函数表 struct vnodeops，蕴含 open、rdwr 和 close 等函数，还有create、unlink 和 rename 等函数。一些函数是针对特定的文件类型的，比方 readlink、mkdir、readdir 和 rmdir。通过 vfs 对象来进行跟踪理论的挂载，其虚函数表 struct vfsops 指向实用于该特定子树的文件系统操作。 ...

关于运维:如何保障业务稳定性一文详解蚂蚁业务智能可观测平台BOS

随着业务规模的不断扩大以及AI、云计算、大数据等技术的一直倒退，大量的企业心愿利用上云来减速其数字化转型，全面晋升可靠性、安全性和灵活性，并且升高经营老本。不过对于大多数企业来说，全面上云是一项颇具难度的挑战。这外面起因有很多，无论是简单遗留零碎的迁徙难度大，还是数据安全性的思考等，都导致大多数企业面临着一部分利用处在云上，另一部分利用处在云下的简单场景，这给业务稳定性带来了新的挑战。本文将从可观测性视角登程，剖析云上云下业务稳定性的难点，介绍蚂蚁团体的BOS平台是如何建设欠缺的解决方案来解决这些理论的痛点难点，并通过多个实际案例分享企业与机构如何利用BOS平台来实现云上云下全链路可观测性的需要。一、可观测性的挑战云上云下业务稳定性的难点包含以下几个方面：分布式架构的复杂性：云上的利用通常以分布式架构为根底的，因而利用波及的不同的组件和服务可能运行在不同的服务器上，这会使得问题的定位和调试更加艰难。利用实例的动态性：云上的利用能够利用云原生的能力进行灵便的迭代、公布与扩缩容的操作，因而须要实时的发现利用的变动并加以监控。利用的多样性：迁徙上云的利用通常应用的技术栈和框架比拟对立，而后云下的利用通常应用着多种不同的技术栈和框架，这些多样化的利用对可观测性的接入是个比拟大的挑战。基础设施的异构性：云上云下的基础设施通常也有很大的差异性，比方CPU架构可能横跨X86、ARM 以及 Power架构等，操作系统也可能横跨 Linux、Windows 以及 IBM AIX零碎等。这些异构的基础设施也大大增加了可观测性接入的复杂性。数据的交融性：很多企业在业务倒退的过程中，曾经洽购或自研了不少的可观测性组件，但这些组件产生的可观测数据格式各不相同，在迁徙上云当前，和云上的可观测性体系又会存在各种不兼容的状况，因而如何保障云上云下可观测数据的一致性，实现真正对立的全链路剖析能力，也是一个很事实的难点。二、BOS的实际业务智能可观测服务 BOS（Business-Intelligent Observability Service）是基于蚂蚁大规模技术危险防控实际自研的一套运维平台，具备业务数字化运维、全息可观测定位、智能场景化防控、一体化数据分析和大规模实际等产品个性，将业务场景可视化和数据业务语义化，赋能云上/云下的异构利用开箱即用的智能可观测能力，为业务提供全方位的稳定性保障，建设业务观测新范式，让稳固更有力量。针对云上云下全链路可观测性的场景，BOS在对立元数据、异构利用接入、数据采集、数据标准化和兼容性等方面深刻耕耘，建设起了欠缺的解决方案，并且在和泛滥客户的理论案例中积攒了丰盛的落地教训。以下将简略介绍下几大外围的能力：1、对立元数据元数据是治理各个监控实体以及实体之间关联关系的外围数据，BOS基于蚂蚁的实践经验，总结了一套丰盛残缺的元数据模型体系，兼顾云上的云原生利用以及云下的传统经典利用，实现对立的元数据体系。通过对所有监控实体进行对立的元数据管理当前，能够带来以下的价值：进步数据品质和准确性：对立元数据管理能够确保可观测数据的精确性、一致性和完整性，从而进步数据品质和准确性。进步数据可用性和可拜访性：对立元数据能够提供一个对立的数据字典，使得用户能够更容易地找到和拜访所需的数据，进步数据的可用性和可拜访性。进步数据共享和互操作性：对立元数据能够确保数据的一致性和互操作性，升高数据共享和数据集成的难度和老本，促成数据资源的共享和利用。除了模型的对立之外，BOS的元数据的同步性能也对各种场景提供了不同的同步形式，比方：对于云原生Kubernetes场景，能够对接Kube-apiserver来同步元数据。对于已有CMDB的场景，能够对接CMDB来同步元数据。对于其余场景，BOS提供了 SPI 的形式来主动同步元数据。此外，BOS还提供手动录入元数据的能力，实用于极少发生变化的传统经典利用的接入。因而对于云上云下的各种利用，BOS可能提供对立的元数据，实时的发现利用的启停、缩扩容、漂移等各种变动，为全链路可观测性奠定了松软的根底。 2、利用接入针对多样化的利用以及异构的基础设施，BOS一直地扩大兼容各种基础设施的，并且实用于不同技术栈和框架的利用接入形式。目前曾经宽泛笼罩了Java（业内当先的Java版本覆盖度，可能反对低至1.6和1.7的版本）、C/C++（业内当先的ANSI C语言的反对）、Golang、Python等各种支流的编程语言，并且反对这些编程语言的各类型支流框架。除此以外，不少客户存在着应用自研框架的状况，对此BOS也可能疾速进行对应插件的研发，给全链路的可观测性补上各种缺口。在扩大利用接入宽度（各种语言反对）和深度（各种框架反对）的同时，BOS也继续的简化利用接入的复杂度，缩小客户的应用老本。以后业内的可观测性接入计划次要有两类： SDK集成计划：该计划通过业务利用接入相应的SDK，并且进行一定量的代码配置，实现可观测性数据的生成和上报。Agent计划：该计划利用一些编程语言的特点，实现无需任何业务代码变更，只须要批改启动命令，即可实现可观测性数据的生成和上报。以上这两类计划都或多或少的须要客户批改代码或者启动命令，这给客户带来了肯定的接入老本。 BOS针对这个痛点，深刻开掘操作系统和云原生相干技术，提供了一套残缺的兼顾云上和云下各场景的 OneAgent 计划，无需业务利用进行任何的批改，即可实现可观测性数据的生成和上报，大幅升高利用接入的老本，不便客户疾速进行大规模的利用接入。 3、数据采集在利用实现接入当前，各类可观测性数据就源源不断的生成并且上报到BOS，供各种数据分析、根因定位、AIOps以及高可用体系应用。为了更加全面的、从不同维度对利用进行观测，BOS也在继续扩大可观测能力的边界，涵盖根底资源监控、集群监控、利用监控、业务监控、分布式链路、业务链路、日志、事件、利用性能监控、网络性能监控、网络设备监控、安全监控等等各种门类的可观测性数据，为客户提供全景式的可观测能力，为业务的安稳运行提供保障。 4、数据标准化和兼容性BOS领有一套标准化的可观测性数据格式，兼容业内的支流规范，比方 Prometheus 和 OpenTelemetry，因而通过BOS提供的采集组件收集上来的可观测性数据人造就是规范格局的。然而正如之前剖析的那样，很多企业在业务上云的过程中，存在着或多或少的可观测性数据格式不统一的问题，这点在分布式链路方面尤其凸显。分布式链路依据接入形式的不同，存在着各自的数据上报形式以及报文格式，更为要害的是他们反对链路上下文的规范也不尽相同，比方： OpenTelemetry：反对 W3C 和 B3 协定的链路上下文。Skywalking：反对 SW8 协定的链路上下文。Zipkin：反对 B3 协定的链路上下文。Jaeger：反对 B3 协定的链路上下文，局部编程语言反对 W3C 协定。SOFA：反对 SOFA 协定的链路上下文。Pinpoint：反对 Pinpoint 协定的链路上下文。这些链路上下文规范的不同会导致链路的中断，深入分析这个问题会发现存在多种起因：上游利用无奈辨认上游传来的申请报文头中的链路数据，例如 TraceID 和 SpanID，因而上游利用重建出新的链路上下文，导致链路的中断。不同链路规范的字段格局不同，比方字段长度、字符格局范畴等，这会导致很多链路接入Agent/SDK的数据校验失败，进而重建出新的链路上下文，导致链路的中断。因而针对上述因素导致的全链路串联的难题，BOS提供以下的解决方案：数据标准化：针对数据上报形式和报文格式的不同，BOS可能反对上述提到的所有支流链路计划的数据接入能力，并且将链路数据转换成合乎 OpenTracing/OpenTelemetry 规范的数据格式，为后续的数据处理和剖析提供对立标准化的数据底盘。数据兼容性：针对链路上下文规范的不同会导致链路的中断的问题，BOS在大规模的实际中积攒了丰盛的教训，可能提供兼容性优异的 APM Agent，实现与不同链路上下文规范进行兼容适配的能力，将云上云下各种利用进行全链路串联，准确发现整个链路中的性能瓶颈点和异样点。三、案例剖析上面将对几个典型的客户案例，具体介绍下 BOS 在云上云下全链路可观测性的实践经验。1、某头部国有大行某头部国有大行在从IBM大机集中式架构，向云上分布式单元化金融级架构的技术转型过程中，BOS 承载起了对立的可观测性入口： ...

关于运维:浅谈业务级灾备的架构模式

互联网常见的高可用伎俩。比方服务冗余部署、异步化设计、负载平衡、服务限流降级熔断、架构拆分、服务治理、分布式存储等等，明天次要是一起聊下，多机房部署的灾备架构模式，来确保服务的高可用。 ::: hljs-center 常见的架构模式::: 灾备架构比拟常见的几种模式，根本分为同城多核心、跨城多核心、跨国多核心。从字面上看，这几个架构模式如同差不多的，只是间隔上的差别，其余的感觉都差不多的。但，就是简略的间隔上的差别，就会导致在架构上要害的利用场景以及技术实质上有较大的区别。 ::: hljs-center 1. 同城多核心架构::: 同城多核心最典型的就是双核心跟三核心。同城双核心简略来说就是在同一个城市部署两个机房。如下图中，IDC-1和IDC-2。两个机房之间通过高速光纤进行连贯。它的一些要害特色是：（1）雷同城市，间隔在50km以上。为什么须要在50km以上呢？如果从机房的建设上讲，没有什么不能够，相距5km也能够建设。但咱们做双机房，是为了高可用灾备或者备份。一个简略的例子，如果间隔过近，很可能是属于一个片区。如果遇到停电，很可能是一个片区的停电。这样两个机房都不可用了。（2）光纤互联（3）机房网络提早<2ms 同城双核心的架构实质是同城双核心能够当做一个逻辑机房。也就是将同一个集群上的节点，部署在两个物理机房。这样能够应答机房级别的劫难。如下图所示要留神，同一个集群，部署在两个数据中心，个别要用多条光纤线路，不然容易呈现脑裂。此外还有些特地状况，如下图，能够发现，如果IDC-2挂了，IDC-1能失常服务。但如果IDC-1整个挂了，DIC-2的Redis集群是不可用的。这是因为sentinel节点不能实现选举，这里要从架构上进行思考设计。当然也有个方法，就是在idc-3部署一个节点，只部署sentinel集群，来防止这个问题。在IDC-3不须要搭建残缺机房,只须要部署局部决策选举相干的服务，有肯定老本，但整体老本还是比拟低的。同城三核心相比同城双核心，三核心就是在同一个城市部署三个机房，相互之间通过高速光纤连贯。三核心，每个核心的定位跟职责都是一样的，比方业务要部署的话，三个都会部署。事实上，很少有公司采纳这种架构。次要的起因是这种同城三核心的老本是比拟高的，然而高可用并没有进步多少，如果产生城市级别的劫难，比方地震、台风等，这三个机房都会受到影响。所以说，想做三机房，个别都是一个同城双核心，而后另外一个机房部署到其余城市。下图只是示意图，理论的架构要简单得多。 ::: hljs-center 2.跨城多核心架构::: 跨城多核心也分为跨城双核心和跨城三核心或者四核心等。看下图跨城双核心的架构跟同城双核心的架构是相似的，区别就是机房所在城市不一样。跨城双核心的一些要害特色是：不同城市、光纤互联。跨城双核心次要的利用场景是 : 进行城市级别的灾备用户分区，比方两个城市部署在比拟远的中央，城市A在北京，城市B在深圳，那能够北方用户接入深圳机房，南方用户接入到北京机房；异地多活并不是所有的跨城多核心架构都能满足这几个利用场景，不同的跨城双核心架构有不同的利用的场景。从城市的间隔上，分为近邻城市和远端城市场景。跨城双核心-近邻城市这个架构的关键点就是抉择两个相近的城市，比方上海杭州、北京天津、广东深圳这种。机房的延时要<10ms，能够当做同一逻辑机房应用。利用场景：防止城市级别的劫难，然而无奈防止区域性劫难做异地多活，但不能做用户分区。间隔比拟近，用户分区拜访没有意义跨城双核心-远端城市远端城市架构模式的要害特色是抉择两个远距离的城市；机房延时>30ms，不能当作同一逻辑机房；利用场景防止城市级别和区域性级别的劫难适应异地多活架构能够做分区架构跨城多核心跨城多核心的个别利用场景，就是用户分区、就近接入、异地多活。能够联合OceanBase 官网举荐架构来了解。如下图，采纳两近（提早10ms）一远（提早30~50ms）的部署模式，能够应答城市级别故障，可靠性是最高的；不过老本也是最高的。为什么要2近1远？其实这跟oceanBase自身的技术实现有关系，底层为了保障一致性，是通过proxy协定一直的进行通信、投票来保障的，必须要保障服务之间通信的性能。一远是为了保障应答城市级别的故障。 ::: hljs-center 3.跨国数据中心架构::: 跨国数据中心跨国数据中心的根本特点：（1）寰球部署（2）合规和监管，不同的地区的数据法规不一样，比方用户的隐衷信息之类的（3）区域用户分区（4）不能做异地多活。一个起因是时间延迟问题，另外还是在于合规跟监管，不同地区的合规跟监管数据隐衷爱护的不一样，没方法做异地多活。能够看下Google和Facebook的跨国数据中心，下面的图是Google的下图是Facebook的跨国数据中心。次要部署在北美、欧洲、亚洲区。 ::: hljs-center 4.五种架构比照::: 次要从利用场景维度看下几种架构的区别像常见的冷备、双机热备、同城双活、异地双活、异地多活根本都是汇合本人的业务场景及倒退阶段对以上几种架构模式的利用。咱们上面次要说下异地多活的集中模式。 ::: hljs-center 异地多活的三种模式::: 异地多活的落地能够概括为有三种大的模式，业务定制型异地多活、业务通用型异地多活、业务存储型异地多活。 ::: hljs-center 1.业务定制型异地多活::: 简略来说，业务定制型异地多活，就是依照业务的优先级进行排序，优先保障外围业务异地多活。而后基于外围业务的流程和数据，设计定制化的异地多活架构。然而A业务做的计划，并不能间接用到B业务上。比如说电商业务做的双活，不能用到社交的业务上，架构的计划并不通用。如下图中的示意图： A业务通过数据库+音讯队列同步的形式实现，B业务通过数据库+算法的形式实现异地多活。两种业务的实现形式是依据本身的业务场景来决定的。这种模式的长处就是：对基础设施没有强要求，例如机房部署、存储系统、时延等，个别是部署在远距离的两个城市，能够反对区域级别故障解决。毛病也比拟显著，不通用，每个业务都须要独自来做异地多活，业务须要革新。难扩大，外围业务如果有重大变动，异地多活计划须要从新设计。 ::: hljs-center 2. 业务通用型异地多活::: 这种形式个别是通过配套服务来反对异地多活。绝对于业务定制型架构，个别无需依照优先级排序来筛选某些业务实现异地多活，只须要判断业务是否能异地多活，当然，业务理论落地的时候可能会有阶段或者灰度过程，并不是一步到位。这种架构的优缺点：长处 a. 对硬件基础设施没有强要求，例如机房部署、存储系统、时延等，个别部署在远距离的两个城市，能够反对区域级别的故障解决。 ...

关于运维:为您的服务台提供6个基于AI的使用案例

人工智能（AI）正在向IT服务治理（ITSM）迈进，无望从新定义事物的工作形式。然而，人工智能是否会实现其承诺，并可能真正使ITSM更容易、更无效呢？这就是咱们行将在此系列中所探讨的"ITSM中的AI劣势"。早些时候，咱们通过"AI在ITSM中的利用 "为咱们的AI探讨发明了条件。而在"性能和应用案例 "中，咱们将看到具体的、基于人工智能的性能和逾越各种ITSM模块的应用案例场景，解释基于人工智能的模型和性能如何可能扭转IT服务台的工作形式。让咱们从聊天机器人开始。聊天机器人聊天机器人能够被训练来解决某一类申请和事件，前提是对过来申请的历史和所有相干常识文章有适当的记录。在这里，咱们将探讨聊天机器人能够帮忙服务台的两个场景：第一个是人工智能的广义利用，现已存在；第二个是基于人工智能的惯例利用，效率更高，但可能须要更长的开发工夫。聊天机器人--场景1：解决打印机问题（人工智能，广义）有一个问题仿佛同时困扰着终端用户和IT技术人员，那就是当打印机进行工作的时候如何解决的问题。在大多数IT服务台中，每一个打印机问题的解决方案都会有很好的记录，这意味着许多终端用户可能本人解决这些问题，而不须要波及IT技术人员。然而，依然有一些打印机事件被报告发现，这些问题可能会妨碍生产力。此类事件能够由受过专门解决打印机问题的聊天机器人来解决。在聊天机器人和报告打印机问题的终端用户之间的典型会话中，聊天机器人会依据现有的知识库文章对用户做出回应。聊天机器人首先向用户举荐成功率最高的解决方案，而后再依照成功率的程序举荐其余可用的解决方案。当聊天机器人没有解决方案能够倡议时，它能够拉来一位人类技术员以帮忙最终用户；它甚至能够被训练成代表用户创立一个订单，并依据过来的数据将其调配给适合的技术员或反对小组。因为市场上有多个第三方聊天机器人工具，以及IT服务台供应商提供的各种解决方案，服务台当初就能够施行聊天机器人。聊天机器人 - 场景2：解决打印机问题（人工智能，惯例）。随着推动人工智能的技术提高，聊天机器人将可能做得更多，而不仅仅是在解决方案的倡议上。例如，您能够设想一下，当打印机呈现问题时，有更多的聊天机器人参加。人工智能算法和聊天机器人能够变得比当初更智能，很快，它们可能会被动辨认问题并提供必要的解决方案。例如，咱们甚至能够在用户报告问题呈现之前，就去创立一个更换墨粉的申请。通过基于机器学习（ML）的模型，能够主动创立服务申请，在墨粉和其余用品用完之前进行更换。而且，当用户报告问题时，聊天机器人能够查看申请数据库，以确定在查看解决方案模块之前是否曾经为同一问题创立了申请。如果它发现了一个申请，聊天机器人能够提供所有相干明细来更新用户。尽管这种性能还不存在，但可能用不了多久就会呈现。除了这两种状况外，还有多种形式的聊天机器人能够派上用场。上面是几个例子： ITSM聊天机器人应用案例聊天机器人 - 场景3：近程用户资产申请一位在当地的终端用户（如销售人员）报告说他们的笔记本电脑很慢，须要更换。他们试图找到适合的资产降级表，但并没有找到。接下来，他们试着给服务台打电话，但没有人接听。作为最初的伎俩，他们分割了聊天机器人。聊天机器人 - 场景4：为申请增加正文、评论或阐明一位IT技术员正在近程工作，诊断一个工作站的问题，所以他们无法访问服务台门户来更新申请的明细。于是呢，他们就抉择应用技术助理聊天机器人来实现工作。常识治理人工智能算法和聊天机器人只有在其可用的知识库中才会失效。对咱们来说，侥幸的是，人工智能也能够帮忙建设一个坚硬的知识库。咱们将探讨两个用例，以理解人工智能如何为IT服务台的常识治理作出贡献。常识治理--场景1：主动对解决方案进行评级以批准和回绝它们对于每个事件或事件类别，可能有多个解决方案和知识库文章在一段时间内被应用。能够训练特定的基于ML的模型，依据历史体现来确定每个解决方案的成功率。这能够通过思考多种因素来实现，如订单的重开率、最终用户和技术人员对文章的评估，以及最终用户的认可。基于这样的指标，一个基于ML的模型甚至能够倡议哪些文章应该删除，哪些文章能够进行改良。依据解决方案在一段时间内的体现对其进行分级，也有助于IT服务台在创立订单时向用户提供正确的解决方案，并在聊天会话中帮助聊天机器人。常识治理--场景2：辨认问题畛域和整顿知识库文章基于ML的模型，如场景1中探讨的那些模型，能够被训练来辨认那些具备最高数量的传入L1事件、反复事件和重开事件的事件类别。因而，一个ML模型能够根据上述参数的重大水平来标记这些类别。它还能够洞察哪些类别须要IT服务台团队进行更多的常识治理，例如记录适当的解决方案，让它们失去审查，并公布它们。这有助于服务台团队确定最须要致力的畛域，并建设相干的解决方案和知识库文章来帮忙终端用户和技术人员。服务申请治理现在，像员工入职这样简单的服务申请要么由技术人员手动协调，要么基于预设的自动化。手动执行这些工作可能是低效和麻烦的。就目前的自动化而言，大多数流程是动态的，不足智能。这些自动化不肯定适宜所有可能的状况，须要定期进行人工干预以放弃失常运行。但随着机器学习等人工智能技术的利用，模型和算法能够被训练成基于申请历史的动静自动化服务申请工作流。这些基于ML的自动化模型会持续学习每一个实时数据，以微调工作流，从而进步工作效率。 IT变更治理 IT变更治理是一个能够发现公司的IT基础设施成败的过程。大量的打算和危险评估会在变更施行之前进行；只管有这些致力，变更依然会因为人为谬误而失败。当波及到剖析变更时，人们也会致力从IT变更治理和施行方面产生的大量数据中开掘洞察力。人工智能能够通过避免人为谬误和改善剖析，帮忙最大限度地缩小变更治理危险。 IT资产治理 IT资产治理和配置管理数据库（CMDB）是每个ITSM流程运作的根底。人工智能也能够帮忙IT服务台团队更好地监测和治理IT硬件和软件资产。ML零碎能够一直监测配置我的项目（CI）的性能，或翻阅现有的CI性能数据并预测故障，使终端用户和IT团队免于一堆麻烦。人工智能能够帮忙IT服务台工具标记异常情况，并通过连贯多个畛域的点来生成要害正告，而这简直是不可能手动实现的。这些是人工智能将开始给ITSM留下印象的某些畛域。有些人工智能的能力是能够立刻实现的，有些还须要几年的工夫。而聊天机器人和基于ML的分类将是AI在ITSM工具中的第一个间接利用。一些ITSM工具供应商曾经开始向他们的终端用户提供这两种能力。也有多个第三方供应商提供能够执行这些操作的即插即用的解决方案。在短短几年内，咱们看到的可能不仅仅是基于人工智能性能的预计用例。很快，这些用例可能成为咱们的事实。筹备好迎接ITSM的AI浪潮鉴于人工智能有可能从新定义IT服务台和IT服务台团队的工作形式，服务台必须为行将到来的AI浪潮做好筹备。如上所述，任何人工智能应用程序或模型的有效性都取决于它所训练的数据，以及来自文档解决方案等方面的可用常识。为了最大限度地利用人工智能，IT服务台团队必须正确记录他们的所有申请、问题和变更；保护一个精确的IT服务台数据库；并建设一个设备齐全的知识库。随着ITSM工具供应商正逐步将人工智能整合到他们的产品中，服务台团队必须做好筹备，能力真正播种ITSM中人工智能的益处。

关于运维:助力企业完成等保20的重要工具

在当今数字化时代，企业面临着越来越多的网络安全威逼和数据泄露危险。为了爱护敏感信息和保护业务的连续性，许多企业正在踊跃采取措施来施行等保2.0规范。在这一过程中，EventLog Analyzer作为一种全面的平安信息与事件治理解决方案，为企业提供了要害的帮忙。本文将探讨EventLog Analyzer对企业实现等保2.0的重要帮忙。 1、实时安全监控EventLog Analyzer通过实时监控和剖析企业网络和零碎中的安全事件和日志数据，帮忙企业及时辨认和应答潜在的威逼。它可能监控各种网络设备、服务器和应用程序生成的日志，自动检测异样流动并发送实时警报。通过疾速响应，企业能够迅速采取行动，缩小潜在的安全漏洞和危险。2、日志治理和审计在等保2.0的要求下，企业须要无效治理和审计其日志数据。EventLog Analyzer提供弱小的日志治理性能，能够收集、存储和索引来自多个源的日志数据。它可能对日志数据进行高级搜寻和过滤，并生成详尽的审计报告。通过对日志数据的全面剖析，企业能够更好地理解安全事件的产生和演变过程，并及时采取适当的措施。 3、合规性报告等保2.0规范要求企业满足特定的合规性要求，并提供相干报告以证实其安全措施的有效性。EventLog Analyzer针对各种合规性规范（如PCI DSS、HIPAA等）提供预约义的合规性报告模板，并反对自定义报告的生成。它可能主动收集和整顿合规性相干的日志数据，并生成符合标准要求的报告，从而帮忙企业疾速满足等保2.0的合规性要求。 4、威逼情报和行为剖析EventLog Analyzer联合了弱小的威逼情报和行为剖析性能，帮忙企业辨认潜在的平安威逼和异样行为。它可能将日志数据与寰球威逼情报数据库进行比对，发现与已知威逼相干的指标，并通过行为剖析算法检测异样流动。这种智能的威逼检测与行为剖析帮忙企业及早发现并应答未知的威逼。通过实时监控用户行为、网络流量和系统活动，EventLog Analyzer能够辨认异样模式和潜在的外部威逼，提供实时的平安警报和倡议，帮忙企业迅速采取措施避免安全事件的产生。5、日志的集中化治理在等保2.0的施行过程中，企业通常会面临多个零碎和设施产生的大量日志数据。EventLog Analyzer通过集中化的日志治理，使企业可能更轻松地收集、存储和治理所有日志数据。这种集中化的治理形式不仅不便了日志的检索和剖析，还有助于发现跨零碎和设施的安全事件关联性，进步整体安全性和响应能力。6、安全事件响应和溯源考察当安全事件产生时，疾速响应和无效的溯源考察是至关重要的。EventLog Analyzer提供了全面的安全事件响应和考察性能，包含事件重现、日志剖析和关联剖析等。通过对事件的全面剖析和溯源，企业能够疾速理解事件的起因和影响，并采取适当的对策，最大水平地缩小损失和复原工夫。论断在企业实现等保2.0的过程中，EventLog Analyzer作为一种全面的平安信息与事件治理解决方案，为企业提供了多方面的帮忙。它通过实时安全监控、日志治理和审计、合规性和报告、威逼情报和行为剖析、日志集中化治理以及安全事件响应和溯源考察等性能，帮忙企业及时辨认和应答平安威逼，进步安全性和响应能力。借助EventLog Analyzer的反对，企业可能更好地实现等保2.0规范，爱护敏感信息并保护业务的连续性。

关于运维:没有学过云计算可以从事这一行吗考什么证书有用

毕业后找一份高薪工作，是当初每个人的幻想，相比于出身好、家境优渥的人，普通人没有太多的抉择，只能投身于热门行业中，最近几年云计算能够说是正在风头上，作为最近十几年才衰亡的新型行业，云计算还没有没公众宽泛晓得，然而曾经深刻了咱们的日常生活中，能够说当初的购物、出行、社交等方方面面，云计算都起到了重要作用。然而对于没有学习过相干教训的人来说，想进入这一行是比拟艰难的，但并不是毫无办法。腾讯云认证是腾讯云旗下所设立的认证，其次要作用是为了造就把握腾讯云相干技术的人才，为社会输送高质量的人才，除了业余的技术相干证书外，腾讯还专门设立了给没教训的人用的证书，上面大使简略介绍一下，有须要的人能够在认证大使上具体理解。腾讯云认证概述腾讯云从业者是面向于云计算初学者的根底课程，从时下炽热的音视频场景登程，从大家相熟的业务开始，逐渐探寻背地的技术实现；通过更晦涩且富裕逻辑的课程设计，将扩散的技术常识有机串联起来；在系统性介绍腾讯云次要产品和服务的同时，还介绍了相干的根底技术常识，由浅入深，涵盖腾讯云次要外围产品的性能、个性、利用场景、计费规定以及应用条件，搭配上简略易上手的上机试验，让学员疾速把握云计算基础知识之外，还会取得云计算初体验的机会，无技术门槛，实用于所有云计算初学者。适宜人群：适宜打算从事云计算相干技术岗位的学生和集体开发者，以及心愿理解腾讯云产品和服务的销售人员、法务人员、市场营销、业务分析师、项目经理等。腾讯云认证内容 1、云计算概述常见互联网业务利用架构介绍、云计算行业倒退概述、腾讯云概述。 2、腾讯云服务器产品云服务器基础知识、腾讯云服务器产品介绍、弹性计算产品介绍。 3、腾讯云网络产品网络基础知识、腾讯云公有网络及网络接入形式、腾讯云负载平衡。 4、腾讯云存储产品存储基础知识、腾讯云存储产品与服务介绍。 5、腾讯云数据库产品数据库基础知识，腾讯云数据库产品介绍。 6、企业应用产品企业应用建站基础知识、腾讯企业应用产品、腾讯云减速产品介绍。 7、腾讯云音视频与通信服务音视频基础知识与行业详情、腾讯云音视频产品、腾讯云通信服务。 8、腾讯云平安产品信息安全威逼与防护基础知识、腾讯云信息安全体系及重点产品介绍。 9、腾讯云产品计费腾讯云计费个性、计费模式介绍、罕用产品计费详解、产品计费示例。 10、持续学习腾讯云学习工具介绍、课程定位与集体倒退。腾讯云认证事项报名费用：600元考试时长：90分钟考试总分：100分考试题型：单选题60道+多选题20道通过条件：70分及以上

关于运维:2023-CCF国际AIOps挑战赛宣讲会暨AIOps研讨会成功举办

6月30日下午，2023 CCF国内AIOps挑战赛宣讲会暨AIOps研讨会在中国建设银行稻香湖数据中心胜利举办。左右滑动，查看更多本届CCF国内AIOps挑战赛由中国计算机学会（CCF）、清华大学、中国建设银行股份有限公司联结主办；CCF互联网专委会、清华大学计算机科学与技术系、中国建设银行股份有限公司经营数据中心、北京必示科技有限公司承办。会议吸引了政府、科研院所、高校、金融、科技、互联网、软硬件厂商等企事业单位和参赛选手、技术爱好者约150人共赴盛宴。会议对选手重点关注的赛程、赛制、赛题等方面做出解读，同时汇聚业内权威专家、学者深度探讨行业热点话题。宣讲会同期进行线上直播，在线观看人数近三万人次。会议伊始，播放了历届挑战赛回顾视频，宣告2023 CCF 国内AIOps挑战赛正式拉开序幕。致辞环节，工信部信息技术倒退司信息服务业处二级调研员梅杨、中国计算机学会互联网专委会主任苏金树、AIOps挑战赛创办人及清华大学长聘副教授裴丹、中国建设银行经营数据中心副主任常冬冬别离发表致辞。四位重量级嘉宾从政府、协会、高校和企业的视角对AIOps挑战赛的意义与价值给予了高度评价和必定，同时心愿通过本次挑战赛可能激发智能运维畛域更多的思维翻新，开掘更多优良理念和优秀人才，促成产学研单干推动技术成绩转化，共促行业倒退和生态共赢。接下来，本届挑战赛技术委员会主席及南开大学副教授张圣林、清华大学长聘副教授裴丹、广通优云副总裁兼首席技术专家朱凤涛、中国建设银行经营数据中心副处长韩博别离进行了精彩的主题演讲，失去现场及直播互动区观众的统一好评。本届挑战赛技术委员会主席、南开大学副教授张圣林解读了本届CCF国内AIOps挑战赛的赛题和赛制。本届大赛首次采纳开放式赛题。基于建行云龙舟运维平台的稳定性工具和多维监控零碎，模仿大型生存服务APP的生产环境，提供端到端全链路监控数据及日志，揭示企业运维团队面对规模宏大、结构复杂、动态变化的运维数据须要解决的一系列挑战。选手能够自主命题，自行设计计划并实现，评审专家综合选题、设计方案、实现成果等评分。接下来，由清华大学长聘副教授裴丹进行《运维大模型瞻望》的分享。运维大模型是面向运维场景利用的交融模型，包含运维大语言模型、多模态根底模型、运维常识图谱、根底模型编程框架和经典AIOps工具。分享中指出运维大模型（OpsGPT）落地实际共分为了四个步骤，在突飞猛进的技术迭代中前景可期，在落地过程中咱们可能面临着挑战，同时AIOps行业对于运维大模型应应首先着力于短期指标，好高鹜远。接着，广通优云副总裁兼首席技术专家朱凤涛带来题为《运维数字化转型：生态经营和场景开发的底座构建》的分享。运维平台的底座能力包含多核心、集约化和多租户反对能力；针对多云异构环境构建大规模、可扩大的对立采控平台；以CMDB为外围的运维数据对立存储、治理和服务能力；平台侧业务能力的服务化封装，反对不同研发人员进行场景利用的开发，并可提供多种开发模式，从实现平台化运维走向生态化运维。最初，由中国建设银行经营数据中心副处长韩博发表了主题为《建行云助力2023 AIOps挑战赛》的分享。从2021年至今，中国建设银行已间断三年作为联结主办方反对AIOps挑战赛。相较于前两年，本届挑战赛在资源量、GPU算力方面对挑战赛的反对将进一步降级。本届挑战赛将采纳实在我的项目利用、实在运维场景、以及基于龙舟生态平台提供的深度监控数据及数据处理服务。之后的圆桌论坛环节，由必示科技翻新产品部总监温希道负责主持，以《运维大模型与AIOps生态》为题，邀请清华大学计算机与技术系长聘副教授裴丹、中国农业银行研发核心资深专员耿鹏、中国建设银行经营数据中心副处长颜凯、中信银行科技经营核心经营平台研发域首席技术官伍科松、中科院计算机网络信息中心副研究员裴昶华五位论坛嘉宾。从学术界和企业界两方视角，对运维大模型的短期、中期和长期指标，以及每个指标下行业可能面临的挑战与应答，运维大模型演进路线和策略等方面进行深入探讨。会议的最初举办了选手加油典礼，由新华三团体、曙光公司、浪潮信息、建信金科、华为、中兴通讯、软通能源、超聚变、中国农业银行、中国银行、中国建设银行、中信银行、中国民生银行、广通优云、腾讯、字节跳动等，共计20位来自科研院所、金融及软硬件厂商企业领导及代表为选手们送去祝愿，独特祝福选手们在本届挑战赛中高水平施展，赛出好问题！ 2023 CCF国内AIOps挑战赛旨在借助社区的力量，使用人工智能算法解决各类运维难题，致力于挖掘智能运维畛域最具后劲与价值的个人和集体，促成科研翻新与成绩转化。后续咱们将整顿会中相干嘉宾观点陆续推送，同时，2023 CCF国内AIOps挑战赛暨建行云龙舟生态节流动也将陆续发展，敬请关注。

关于运维:阿里云认证的优势是什么含金量高不高

什么是当初最赚钱的行业，那就是做互联网相干的行业，尤其是对于没有家底、没有人脉的人来说，抉择一个高薪职业，是扭转人生最好办法，具统计可发现，很多未学习过计算机相关常识的人，在毕业后会抉择再教育，从而进入这一行。除此之外，很多人还会抉择考相干的业余证书，从而晋升本人的职业竞争力，阿里云的认证是目前业界内比拟有劣势的认证，尤其是其旗下的云计算认证，上面小编简略介绍一下，有须要的能够在认证大使上具体理解。阿里云认证概述阿里云针对不同产品类别、用户成长阶段、生态岗位，精心打造不同的认证考试。对集体而言，能够证实本人在对应技术畛域的业余度，可能基于阿里云产品解决理论问题。取得更多阿里云生态下的就业机会。对公司而言，通过阿里云认证造就、开掘专业人才，晋升公司的云上技术能力。取得更多阿里云生态我的项目商机。阿里云云计算认证概述阿里云云计算是面向应用阿里云云计算产品的架构、开发、运维类人员的业余技术认证，次要考核考生利用阿里云云计算技术服务体系设计稳固、平安、高性能、易扩大、低成本的企业云计算架构的能力。阿里云云计算认证等级 1、ACA云计算考试内容：云计算根底弹性计算云容器云存储云数据库云网络云平安考试费用：600 考试题型：单选题 35题；多选题 15题 2、ACP云计算考试内容：根底云利用架构简单云网络架构云上高可用、高性能架构云上平安体系架构考试费用：1200 考试题型：单选题 70题；多选题30题 3、ACE云计算考试内容：有云-平安-基础设施、业务&数据私有云-存储私有云-计算私有云-架构私有云-数据库私有云-网络、组网私有云-原生-容器、微服务&中间件混合云考试费用：1200 考试题型：单选题 70题；多选题30题、试验、面试

关于运维:阿里云的认证为什么那么多人考没基础的人能考吗

通过考据晋升本人，从而取得高薪岗位，是很多打工人都会有的想法，而对于从事信息通信行业的人来说，阿里云的认证是很多人的首选认证，其背靠阿里云，领有残缺的认证体系，适宜每个阶段的人，甚至是齐全没有教训的人也能够通过学习阿里云的认证，晋升本人的常识，上面小编简略介绍一下，有须要的能够在认证大使上具体理解。阿里云认证概述从阿里云开始研发本人的云计算零碎后，就始终在发力，并逐步成为了占比最大的云计算市场，而且阿里云为市场造就了泛滥的人才，从根底、前期、到高精尖的后期人才，阿里云的认证体系皆能够提供对应的证书。企业旗下领有越多的阿里云证书持有者，就能够和阿里云成为深度合作伙伴，这对于企业来说，是相当有益处的。阿里云认证ACA云计算简介阿里云云计算助理工程师ACA认证(Alibaba Cloud Certified Associate - Cloud Computing)是面向应用阿里云根底产品的业余技术认证，次要波及阿里云的计算、存储、网络、安全类的外围产品，是对学员把握阿里云次要产品技术技能程度的全面测验和能力认证，次要面向学生群体及开发者，也能够做为运维人员的入门证书。阿里云认证ACA云计算内容计算根底弹性计算云容器云存储云数据库云网络云平安阿里云认证ACA云计算题型单选题 35题每题2分多选题 15题每题2分

关于运维:重磅发布-博睿数据发布互联网行业精选案例集

近年来，互联网企业一直浸透咱们的衣食住行，为百姓的生存带来便当。同时，为满足业务疾速迭代的需要，保障用户应用体验，互联网企业零碎架构与业务逻辑的重构不可避免。而新的架构在晋升性能与可用性的同时，也导致了IT系统故障和危险点继续减少等一系列问题。互联网行业利用品种繁多，一旦呈现故障，通常须要十几个部门协同解决，故障排查效率低下、解决周期长，对用户应用体验造成影响。随着分布式系统、微服务、云计算技术衰亡，IT 零碎产生多轮演进，繁多监控已无奈满足互联网行业目前的运维需要。如何保障电商大促期间日活激增时的容量预估，用户应用呈现卡顿前事后告警、提前排障，保障业务运行稳固、疾速响应的同时最大水平保障的用户的线上体验，成为互联网生存和倒退的必修课题。博睿数据成立15年来，服务超过1000+头部客户，积攒和积淀头部客户的丰盛场景和解决方案。此次公布的《互联网行业精选案例集》收录华为、腾讯视频、京东等多家互联网企业案例，涵盖电商、在线视频、在线教育等多个畛域。案例围绕我的项目背景、利用场景、利用成果等多个方面开展介绍，全面展现了博睿数据为互联网行业深度赋能的最佳实际，冀望通过这些优良案例为业界提供可参考、可复制的最佳利用实际，同时带来更多无益的启发与借鉴。 “新东方以降本增效平安经营为指标，指标搭建一套对整个零碎的自主运维平台，借助博睿数据的数据采集能力，与在长期服务过程中积淀下的各类指标，实现了咱们对可观测性能力的初步搭建，帮忙咱们实现了对要害信息的报警，让对技术不那么理解的领导也能够直观地理解到整个零碎的运行状况。” ——新东方运维高级经理SRE负责人齐晨扫描海报下方二维码，即刻获取整部案例集。博睿数据作为中国当先的智能可观测平台，赋能云原生时代企业高质量倒退。一体化智能可观测平台Bonree ONE已在互联网、金融、能源、制造业、公共事务等多个行业实现落地利用，旨在帮忙更多企业晋升IT运维的能力和效率，实现外围竞争力晋升，抢占数据经济先机。

关于运维:保险业务连续性保障从测试到生产混沌平台建设节奏如何把控

一分钟精髓速览中国信通院最新的调查报告显示，越来越多企业正在尝试通过混沌工程来进步零碎稳定性。试验的不同阶段，大家面临着不同的问题，咱们尝试从混沌工程推动的不同角度，为大家提供一些解题思路。「TakinTalks 论道系列」第 4 期，咱们邀请了 4 位正在进行相干实际、钻研的从业人员，从不同视角分享对混沌工程的认识，在他们的教训中理解混沌工程如何推动、如何落地、如何避坑…… 微信公众号后盾回复 “交换” 进入读者交换群。回复“报告”获取最新混沌工程钻研报告。主持人：中国信通院最近颁布了两个调研后果：从 2021 年到 2022 年，许多企业尝试进行混沌工程；大部分企业依然只在测试环境中进行混沌工程，或者在预生产环境中进行。咱们想理解下，大家作为正在落地相干试验的企业，在实践中认为有哪些值得特地关注的点？（数据来自：《中国混沌工程调查报告（2022）》）中国人寿-刘玢：我想分享一下中国人寿在混沌工程落地时遇到的关键点和避坑点。在测试和开发环境中，咱们关注的是故障模拟能力。包含根底故障、中间件故障和利用故障等，因为利用故障很难复现，咱们通过组合故障来模仿和复现故障。而在准生产和生产环境中，咱们的关注点是在监控能力整合上，会更关注监控的及时性、全面性和平安管控等方面。中国人寿有很多监控零碎，比方硬件监控、网络监控、数据库监控、中间件监控、日志监控、利用监控、链路监控等等，但把这些监控整合起来，对接到混沌平台依然有难度。将来在生产环境中落地混沌工程，咱们则会关注如何管制爆炸半径。这须要及时、全面的监控数据反对。尽管目前还没有上生产，但咱们始终在致力摸索如何管制爆炸半径。曾经联合压测平台实现了一部分性能，但咱们仍需一直致力。太保科技-刘强：目前太保科技和中国人寿在混沌工程利用方面还有阶段性的差距，目前咱们还在测试环境摸索阶段。在这个阶段，我认为混沌文化理念的认同感是十分重要的。在金融行业中，业务连续性的要求十分高，特地是在太平洋保险成立太保科技后，原有团体的用户都变成了咱们的甲方，对可用性的要求更高，生产中断是不可承受的。因为在生产或者准生产环境注入故障，一旦管制不好，导致混沌试验造成了业务中断，这样对整个混沌工程的推广会是一个十分大的打击。所以第一个关键点就是，在企业里把混沌工程理念宣贯透彻。另外一个关键点就是混沌工程须要有及时中断的控制能力。混沌工程的目标是发现零碎中的问题，不论是在哪个环境中试验，发现问题就阐明零碎的强健性是不够的。为了防止产生零碎解体、服务不可用等更大问题影响到整个生产环境，须要有强有力的中断控制能力，同时也能够在小范畴内摸索和解决潜在的问题。 TakinTalks 社区- 杨德华：今年年初，其实我深度思考了这个问题，“为什么混沌工程在有些企业能做得好，但有些企业落地成果很个别”？外围起因我总结了次要有 3 个方面——高层器重度、落地做法、指标设定。高层的器重度这里不赘述，稳定性工作自身就是一个跨多团队的事件，有了下级的反对，推动会更加顺利。其次是落地做法，尽管有些企业明确了要推动混沌工程，外部也宣导了要晋升稳定性，然而理论执行中的做法区别还是比拟大的。比方是不是有足够的经费、制度上有没有保障、有没有设定 0-1-5-10 这样的具体指标等等。再比方只是在利用内试验，还是网络设备、利用内、利用于中间件、利用与利用之间等等都涵盖，不同的做法会影响到最终的成果。最初特地提一下指标设定。我认为技术实现层面的事件其实并不难，最要害的是在确定要做混沌工程后，肯定要设定一个 0-1-5-10 的指标，而后依据这样的指标去制订落地和保障计划以及拆解执行。要想把混沌工程推动上来，这个指标是十分重要的，不然对于我的项目的牵头人来说，混沌工程的价值会很难出现和表述。所以我认为从全局的角度来看，这三个点是推动混沌工程中十分值得关注的点。主持人：很多企业的混沌工程都有参考信通院近两年的政策和规范领导文件，所以信通院对于阶段性落地的关键点应该是比拟有发言权的，海清老师这块您看看是否做些补充？混沌工程实验室- 王海清：我能够从整体行业视角来补充一些信息。信通院在做相干技术推广中，提倡大家在生产环境中去发展混沌演练，因为不论是测试环境还是准生产环境，无论如许仿真的环境都不可能和生产环境完全一致，只有在生产环境的演练才是最真实有效的，且测试环节和准生产环境的老本都很高。但理论状况是，因为恐怖试验失败带来更加不可控的危险，大多数企业在接收混沌工程时都抉择在测试环境中进行演练，这是能够了解的。所以倡议在开始混沌工程的初期，尤其在组织外部分布式化革新之后，在零碎稳定性保障体系建设初期，能够先在开发环境中补齐显著破绽，而后再往仿真环境或预生产环境中发展。在金融机构中咱们确实还没有看到哪一家能十分好地在生产环境中发展混沌演练（证券行业除外，业务较为非凡）。尤其银行业，因为业务连续性要求极高，且无奈回滚，只能花较多经费放在仿真环境上。那么在仿真环境中咱们是倡议有重点地推动，先建设外围利用的仿真环境，因为做仿真演练，不论是架构还是经营体系，其中的老本是十分高的。如果肯定要投入，能够先从外围业务开始。当仿真业务无奈满足需要时，能够在生产环境审慎做演练尝试。此时，倡议能够在边缘系统中尝试，比方中国人寿的在客户节流动平台客户量较少或者简直没有流量时，在生产环境做一些故障注入的尝试。通过这种小范畴的尝试来逐渐建设试验信念。除了技术上的建设，还须要在组织外部做一些文化上的宣贯工作，让大家接收失败，并通过失败向胜利迈进，这是零碎混沌工程的组织文化建设的重要性。主持人：对于平台建设过程中如何把控整体的节奏和布局，包含团队须要具备哪些能力和应用哪些工具？咱们晓得信通院有一个混沌工程平台成熟度模型的评估规范，规范是否在以上这些方面有具体标准或领导呢？混沌工程实验室- 王海清：我认为这个问题十分好。咱们实验室在混沌工程标准化方面的钻研较早，也曾经做得比拟深刻了。仅混沌工程方向，咱们目前已制订了两个规范——一个是面向供应商的平台能力要求，次要从技术框架的角度，去看怎么实现能力的梯度建设；另一个是成熟度模型，针对甲方的视角，从技术和成果角度推动混沌工程的应用。因为对于甲方来说，仅仅购买或建设平台是不够的，还须要在组织外部落地并让更多的团队承受和应用混沌工程。联合这两个规范，以及混沌工程文化的建设，我分享一些对这个问题的认识。（能够后盾私信“能力模型”，获取信通院混沌工程成熟度能力模型）从技术角度来看，咱们建设混沌工程模型采纳了梯度化的办法。比方，最开始能够承受混沌工程没有工具，先采纳一些开源框架做尝试，随着大家认知度的回升或者对混沌理念的承受，能够逐渐驳回开源框架或者洽购商业化版本。在初期，如故障编排、场景梳理等等，都须要人工去实现，在利用加深的同时，也能够同步迭代自动化工具的程度。另一方面是故障报告，目前还没有看到有智能化的存在，但一些企业正在进行摸索。将来，咱们的预期是实现智能化，让零碎主动依据被测系统架构的变动生成相应的故障场景，验证零碎韧性和响应状况。从平台和工具的角度来看，咱们须要逐步完善自动化能力并进步智能化程度，以实现梯度化的倒退。从成果角度来看，咱们的指标是在组织内推广混沌工程。为此，能够通过一些指标来辅助其落地。比方成立一个关注混沌工程利用状况的虚构组织，通过统计演练打算的实现水平、故障场景摸索水平、稳态指标笼罩水平、故障闭环水平和产品赋能水平等。通过量化这些指标并可视化数据，能够理解到不同团队的混沌工程应用状况，并依据试验发现的问题来评估外部零碎的平安运行程度。另一方面，咱们也须要在组织建设方面进行致力，包含团队建设和文化建设。在团队建设方面，咱们能够激励工程师尝试混沌工程的开源工具，并逐步推广到小规模应用和专门的混沌工程团队。前期，咱们须要把混沌工程扩散到研发、测试和运维团队，并让业务线上的人员具备根底的混沌工程试验注入能力，从散兵游勇到正规军再到全民混沌的程度。通过这些组织建设措施，咱们能够进一步提高混沌工程的成熟度。文化建设也是采纳梯度化的办法。最后的阶段是没有这种文化的，组织外部须要本人去理解并晋升集体能力，如加入沙龙或在线技术分享等流动。当组织外部驳回混沌工程工具后，须要思考在组织外部构建文化。这能够通过定期的培训、操作培训、常识分享和混沌演练等流动来实现，如 Game Day 和红蓝反抗。这些流动能够帮忙组织外部晋升接收故障并应用故障来晋升稳固运行程度的理念。另外，还有一些例子，如华泰证券组织外部周期性地评比混沌演练次数或成果最好的团队、老师或技术专家。通过发展这些具体的流动，能够带动组织外部的混沌工程文化。主持人：海清老师从监管方或政策制订方的角度聊到了大方向的节奏，具体到各家企业可能也会有一些不同的实际方法。后期理解到太保科技目前是在落地混沌工程的比拟晚期阶段，调研数据显示目前靠近 80%的企业都是差不多在这一利用阶段的，所以咱们也想理解下太保以后的整体节奏，包含利用状况、团队建设和布局是怎么样的？太保科技-刘强：咱们并不是一开始就去建平台做工具，而是先理解并对混沌理念有了初步的意识，而后在本来负责业务连续性的团队中安顿了一两个人，从去年开始就在进行相似混沌工程的试验，即人工在生产零碎中制作有打算的毁坏。这样的毁坏是在责任团队不知情的前提下发展的，是相似红蓝反抗的理念。咱们通过这些流动找到了一些零碎上的高可用问题，并且在一段时间内获得了问题，也向下层展现了咱们每天进行的毁坏动作。首先查看零碎的全链路高可用机制是否存在，咱们发现有些高可用机制的确缺失，还有一些高可用机制尽管存在，但在咱们的毁坏中发现并未失效。当然，咱们进行的毁坏是有打算的，对生产零碎的影响根本能够忽略不计。通过这些伎俩和流动，能够让下层看到生产环境中依然存在许多危险隐患。因而，咱们须要工具和平台来将这些破坏性的工作变成日常工作，而不是仅依附人力来实现。这就是咱们去年一整年做的铺垫。要让混沌工程正式落地，我认为的确是须要找一个契机。那咱们找的契机是什么呢？这两年咱们引入了一些新的技术架构进来，咱们通过演练发现了一些不欠缺的点，也为新建的技术平台带来了比拟大的帮忙。基于这样一个契机，咱们外部也造成了一个对混沌工程平台建设的统一认识，即混沌工程是一件十分有价值的事件。布局方面，咱们往年会在开发环境中先欠缺混沌平台，并造成可落地的场景。明年可能才会在失常的环境中推广和落地，生产环境可能还须要一些工夫。主持人: 当企业实现了后期的立项铺垫，进入到测试环境、准生产环境的正式试验了，那这块的节奏又要怎么把控呢？咱们此前理解到，中国国寿的测试环境和准生产环境混沌试验是穿插进行的。刘玢老师是不是能够具体讲讲国寿这方面的教训？中国人寿-刘玢：正如您方才提到的，咱们的测试和准生产环境是穿插进行的。在推动这项工作时，咱们并不是齐全依照开发、测试、准生产和生产这个梯度来进行的，整体我认为能够分为三个阶段。最后有几个工程师先试玩，在失去比拟好的成果，向管理层汇报并失去认可后，咱们开始铺开做第二阶段的混沌试验。第三个阶段是最重要的，整个混沌工程做出肯定的成果后，咱们将其加到了研发核心的高可用成熟度模型中。这个模型包含灰度公布、在线压测、容量布局等等，咱们将混沌工程的故障演练退出到这个模型后，让它成为了一个标准化的高可用晋升动作。即从组织层面对钻研混沌工程的团队有加分，更加认可其高可用程度，团队也会认为混沌试验对其工作帮忙较大。这样就从文化理念上造成了共识，咱们认为此时是进入到了比拟成熟的阶段。从队伍和能力建设方面来谈，咱们有一个虚构团队，混沌小组是其中的一部分，还有环境保护人员和部署团队的人员独特来做这个工作。其中最重要的角色是测试工程师，因为混沌工程理论有很多的工作和测试相似。包含发压、测试脚本的编写、故障复现等等，这些工作都是测试工程师来做的。架构师队伍也扮演着重要的角色，因为在做故障演练时，咱们须要对被演练的零碎以及其上下游周边零碎的架构有十分深刻的理解，这样才可能更接地气，疾速地推动整个工作。另一个重要的角色是负责文化理念共识建设的人员，咱们称为“混沌教练”。他的次要工作是向各个团队宣传混沌工程，并展现它的功效和成果。在初期阶段，这个角色十分重要，因为人们对于新事物的承受须要工夫。因而，混沌教练须要一直游说各个团队和产品经理，以便让他们了解咱们的工作并退出其中。除此之外还有环境保护人员和部署人员。在混沌工程中，咱们须要一直搭建各种环境，并在呈现故障时疾速复原。因而，环境保护人员在整个团队中也扮演着十分重要的角色。虚构团队中还有部署团队，他们的主要职责是对各个系统进行部署和运维，并在生产故障时进行模仿和应急预案晋升。他们既是咱们的用户，也是整个团队中的重要成员。综上所述，整个团队的人员和能力散布须要思考到各种不同的角色和职责，以便更好地实现混沌工程的各项任务。中国信通院王海清: 我有一个特地感兴趣的问题，尤其是人寿和太保应该是偏差于金融行业，那么大家当初这个阶段施行混沌工程最大的痛点是什么？就是须要破费最多的工夫和精力来解决的问题是什么？中国人寿-刘玢：我想分享一下我的实在感触。这个感触不能称之为痛点，其实是我集体的困惑。目前咱们破费了大量工夫和精力来晋升爆炸半径管制和生产平安管控建设，但我最大的纠结点，是金融行业很少有公司将混沌工程利用于生产环境，而咱们却将大量工夫和精力投入到生产方面的能力建设中，我比拟放心投入不会带来预期的回报，因为上生产这条路充斥了崎岖。尽管咱们在发现问题和为产品团队提供价值方面做得很好，但最难解决的问题是如何使咱们的成绩在生产环境中失去充沛的利用。太保科技-刘强：咱们这边的一个难题是咱们在生产环境中进行混沌工程试验时左右为难——既心愿发现问题，又不心愿发现问题。因为发现问题意味着这次试验对生产环境会产生一些影响。而如果没有发现问题，这次试验就只能证实生产环境还能够，而没有获得更大的价值。这是一个左右为难的问题。刘玢老师提到的问题，我有一个想法，就是混沌工程试验既能够帮忙咱们找到生产环境中存在的隐患，也能够对开发测试环境产生踊跃的影响。通过在开发测试环境中寻找利用代码的问题，咱们能够帮忙应用程序的开发人员更好地开发他们的应用程序。这些实际在生产环境中未必可能执行，然而对应用程序的开发仍具备肯定的价值，我认为能够从这个角度去思考利用价值。（全文完）「TakinTalks稳定性社区」微信公众号后盾回复 “交换” 进入读者交换群。回复“报告”获取最新混沌工程钻研报告。本文由博客一文多发平台 OpenWrite 公布！

关于运维:可观测性是什么-入门指南

如果您之前对可观测性重要性，好处，以及组成不甚了解，本文是一个适合的指南手册。什么是可观测性？可观测性被定义为依据零碎产生的输入数据（如日志，指标和链路追踪）来掂量以后零碎运行状态的能力。可观测性目前被宽泛的用于晋升分布式 IT 零碎的稳定性（零碎复杂度成倍晋升，在故障或者异样时很难疾速定位和解决），它利用指标、日志和链路追踪三种类型数据，为分布式系统外部运行状态提供了深度透视能力，帮助 DevOps 工程师解决各种问题并晋升零碎性能。如果您还不明确什么是可观测性，那么让咱们这样说吧:可观测性是能够帮忙团队高效调试其零碎的工具或技术解决方案。可观测性基于摸索当时未定义的属性和模式（帮忙咱们被动地摸索当时未定义的属性和法则，相似于解谜过程中的摸索和揭示暗藏信息的能力）。为什么可观测性很重要？在大规模分布式系统上发展工作的跨职能团队，具备可观测性能力，特地是在生产环境中，能够准确的辨认异样，做出更疾速无效的反馈。通过可观测性零碎，一旦确定导致应用程序性能降落的起因，就能够在它影响整体零碎的性能或导致系统停摆之前来修复它。可观测性带来的收益不仅限于 IT 场景，当您收集和洞察可观测性数据时，您还能够看到数字服务对您所在组织产生的影响。通过透视零碎运行状况的视角可能让您从监测用户体验 SLO （服务水平指标）的后果，来确保软件公布达到业务指标，并且依据业务影响抉择各事项的优先秩序。可观测性与监控之间的区别对于高级 DevOps 或刚刚开始 SRE（站点可靠性工程师）的人来说，彻底了解可观测性与监控之间的区别十分重要。以下是 DORA（ DevOps 钻研和评估）团队钻研对于可观测性和监控的内容。监控是能够帮忙团队察看和理解其零碎状态的工具或技术解决方案。监控基于收集一组预约义的指标或日志。可观测性是能够帮忙团队高效调试其零碎的工具或技术解决方案。可观测性基于摸索未事后定义的属性和模式。利用零碎输入到内部数据来识别系统外部状态的能力被定义为可观测性。在 IT 畛域，咱们能够把可观测性了解为利用日志、指标和链路追踪来了解软件外部状态的能力。同时，监控是指从零碎中获取数据（日志、指标和链路追踪）的过程。大多数监控工具都提供了一个拖拽交互的仪表盘来显示您所抉择的数据和它们各自的指标。然而，这种办法存在一个重要的毛病，因为通常团队依据集体偏好来构建此类仪表板，可能会导致重要指标的脱漏、性能异样和数据缺失的问题。其次，大多数监控工具要么可能是是因为平安问题，要么可能是因为代理程序采集数据的能力有余，在简单的云原生利用和容器化环境不能很好兼容。相比之下，可观测性工具在兼容性方面体现更好，因为它们专一于收集整个基础设施中的日志、链路追踪和指标数据，还可能及时告诉 DevOps 工程师，使他们可能在问题变成理论问题之前就能察觉到并采取行动。简而言之，监控告诉您零碎产生了故障，而可观测性能够帮忙您找出系统故障的起因。可观测性有什么益处可观测性对于终端用户、企业和 IT 团队都带来了显著的劣势。上面列举了可观测性的次要益处以及可观测性的重要性：应用程序性能监控：全面的端到端可观测性帮忙企业更快地辨认性能问题，甚至可能捕获因为采纳云原生和微服务架构而引起的问题。借助先进的可观测性解决方案，能够自动化更多的工作，进步运维和开发团队的生产力和创造力。DevSecOps 和 SRE ：可观测性应该是应用程序及其底层基础设施的基本特征，而非单纯应用新工具的后果。软件设计团队和开发团队需确保其所开发的程序易于观测。在软件交付的整个生命周期中，DevSecOps 和 SRE 团队可能利用和了解可观测数据，以创立更弱小、更平安、更具弹性的应用程序。基础设施、云和 Kubernetes 的监控：可观测性的一个益处是它有助于基础设施监控。基础设施和运维（ I&O ）团队能够利用可观测性解决方案提供更好的异样事件上下文环境，从而更快地辨认和解决问题，优化资源利用率，并进步对基础设施和应用程序的治理能力。终端用户体验：舒服的用户体验能够晋升企业的名誉和支出，为其带来竞争劣势。通过可观测性解决方案，企业可能在终端用户觉察问题之前发现并解决这些问题，并在用户提出之前施行改良措施，从而进步客户满意度和留存率。可观测性的次要组成部分是什么？指标、日志和分布式链路追踪是可观测性的三个次要方面，也被称为“可观测性的三大支柱”。将这三个支柱相结合，而不是独自应用它们，能够显著进步微服务架构中利用的监控和治理能力。因为微服务架构的复杂性，传统的监控办法可能无奈满足对系统的全面观测和调试需要。事件日志、指标和链路追踪是可观测性的三大支柱，它们不仅能够独自应用，还能够通过综合利用它们的数据来提供更全面的观测。通过综合应用三支柱的数据，咱们能够更好地了解和优化零碎的性能和行为。这对于 DevOps 团队来说，将显著晋升其生产力，并为用户提供更好的体验。日志事件日志记录蕴含工夫戳，并且是三个支柱中信息提供最详细信息的一个。通常状况下，开发人员负责在代码中进行日志记录。而且因为大多数软件包和编程语言曾经内置了日志记录性能，因而实现事件日志记录非常简单。事件日志在面对非典型或极其事件的场景下表现出色，它可能提供更具体的信息和上下文，这是通过平均值和百分位数指标无奈涵盖或揭示的。因而，事件日志可能帮忙咱们更好地理解分布式系统中较少产生但对系统性能和稳定性具备重要影响的意外行为。指标在一段时间内收集的数据能够通过数值指标的模式进行示意。这些指标利用数学建模和预测能力，能够更加全面地理解零碎在以后和将来期间内的行为形式。通过对指标的存储、解决、压缩和检索进行优化，咱们可能实现更长时间范畴内的数据保留，并且简化查问操作。因而，指标数据非常适合用于创立展现历史模式的仪表板。同时，应用指标还能够逐步升高数据的分辨率。在肯定的时间段后，咱们能够将数据聚合成每日或每周的频率指标。这样做能够无效缩小数据的复杂性，同时不便剖析和了解数据。链路追踪分布式系统中的端到端申请流程能够被编码成一条残缺的调用链，这个调用链代表了一系列扩散事件的具体申请门路。链路追踪数据的构造相似于事件日志，它们记录了申请的不同阶段。每个独立的申请链路能够深刻理解申请的构造，并且展现了申请在不同组件或服务上通过的门路。理解申请的构造有助于了解不同组件或服务之间的异步交互方式，以及这种异步交互对申请的执行工夫、程序和并发性等方面的影响。整个申请门路能够帮忙软件工程师和 SRE 清晰地理解波及的各个组件或服务。通过了解申请的残缺生命周期，咱们能够调试多个服务的申请，以确定提早减少或资源使用量减少的起因。这使得咱们可能更好地剖析和优化零碎性能。可观测性如何运作？可观测性平台是一个集成现有指标数据的工具，它可能为应用程序和基础设施组件增加新的监测数据。该平台的次要性能是继续地辨认和收集性能数据，并提取要害信息。一般而言，可观测性平台会收集指标、链路追踪和日志数据，并且实时地将它们串联起来。通过将这些数据整合到一起，该平台为 DevOps 团队、SRE 团队和 IT 人员提供了详尽的上下文信息，包含每个事件的具体细节、产生地位和起因。这样的上下文信息对于辨认、剖析和解决应用程序性能问题十分有价值。 ...

关于运维:直播预告-博睿学院领略索引的大千世界

索引是最罕用的SQL优化伎俩，那索引到底是如何实现性能的晋升？在存储的设计上又有那些奇妙的设计？不同场景下如何做取舍？本次课程将从底层的设计角度登程，带大家领略“索引”的大千世界。本期讲师六一DEM能力核心资深研发专家业务特长：架构设计、DB设计与优化工作经验：曾就任天津三源电力与中国人民银行研发核心本期主题：领略“索引”的大千世界扫描海报下方二维码预约观看，课件将于直播后发送至您的邮箱。

关于运维:使用-DebianDocker-和-Nginx-部署-Web-应用

前言本文将介绍基于 Debian 的零碎上应用 Docker 和 Nginx 进行 Web 利用部署的过程。着重介绍了 Debian、Docker 和 Nginx 的装置和配置。第 1 步：更新和降级 Debian 零碎通过 SSH 连贯到服务器。更新软件包列表：sudo apt update降级已装置的软件包：sudo apt upgrade第 2 步：装置 Dockersudo apt install docker.io第 3 步：装置 Nginxsudo apt install nginx第4步：为 Web 利用配置 Nginx1. 为 Web 利用创立一个新的 Nginx 配置文件： sudo nano /etc/nginx/sites-available/app.conf2. 将以下内容增加到配置文件中，将 app.example.com 替换为域名，将 app_container 替换为 Docker 容器的拜访地址： server { listen 80; server_name app.example.com; location / { proxy_pass http://app_container:8080; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header X-Forwarded-Proto $scheme; }}3. 创立软链接以启用站点： ...

关于运维:文件系统考古-31994-The-SGI-XFS-Filesystem

在 1994 年，论文《XFS 文件系统的可扩展性》发表了。自 1984 年以来，计算机的倒退速度变得更快，存储容量也减少了。值得注意的是，在这个期间呈现了更多装备多个 CPU 的计算机，并且存储容量曾经达到了 TB 级别。对于这些设施，仅仅对 4.3BSD 疾速文件系统（或 SGI IRIX 中称为 EFS 的批改版本）进行改良已不再足够。（点击此处 SGI 的基准测试中采纳的计算机领有大型背板和多个控制器（其中一项基准测试采纳了一个具备 20 个 SCSI 控制器的设施），大量的磁盘（上百块硬盘驱动器）以及多个 CPU（12个 CPU 插槽）和大量内存（最高1GB）。 SGI 是一家制作高性能计算机（HPC）和图形工作站的企业。在 20 世纪 80 年代和 90 年代，SGI 是计算机图形和可视化畛域的先驱和领导者。在进行基准测试时，SGI 会应用一系列具备特定配置的计算机设备，并进行性能测试和比拟，以评估其零碎的性能和能力。然而，SGI 在 2009 年申请破产爱护，并在 2016 年以“Silicon Graphics International”为名重组，持续致力于提供高性能计算和数据分析解决方案。SGI 在计算机发展史上留下了重要的脚印，并对计算机图形和可视化畛域产生了深远的影响。以后所需的文件系统解决能力曾经超出了 FFS（Fast Filling System），文件的大小也超过了 FFS 能够的解决能力，目录中的文件数量增大导致查找时间过长，像调配位图（allocation bitmaps）这样的地方数据结构无奈进行无效的扩大，并且全局锁在多个 CPU 的状况下会造成低效的文件系统并发拜访。于是，SGI 决定设计一个齐全不同的文件系统。此外，整个 Unix 社区也面临着来自 David Cutler 和 Helen Custer 的挑战，他们开发了 Windows NT 4.0 的开发者。通过 Windows NT 4.0 中的 NTFS，他们展现了从头开始设计零碎的可能性。 ...

关于运维:如何监控文件变化比如密码修改导致-shadow-文件变化

原始需要是如果零碎的明码被批改，或者创立了新用户，就告警进去。实质上，只须要监控 /etc/shadow 文件变动即可。然而在指标监控体系里，这个事件就比拟辣手，只能把文件的 mtime 作为指标的值上报，服务端再利用 delta 或者 increase 函数来判断 mtime 是否产生了变动。告警进去的文本也会比拟简陋。应用 catpaw 搭配 FlashDuty 则能够很好的解决这个问题。告警的样例成果如下：上面咱们来看看如何实现。 1. 下载 catpaw最新版本是 0.6.0，下载地址是：https://download.flashcat.cloud/catpaw-v0.6.0-linux-amd64.tar.gz 目前只提供了 linux-amd64 版本，如有其余版本的需要能够分割我。解压后能够看到如下内容： .├── catpaw├── conf.d│ ├── config.toml│ ├── p.exec│ │ └── exec.toml│ ├── p.filechange│ │ └── filechange.toml│ ├── p.http│ │ └── http.toml│ ├── p.journaltail│ │ └── journaltail.toml│ ├── p.mtime│ │ └── mtime.toml│ ├── p.net│ │ └── net.toml│ ├── p.ping│ │ └── ping.toml│ └── p.sfilter│ └── sfilter.toml└── scripts ├── demo.sh ├── df.sh ├── greplog.sh └── ulimit.sh11 directories, 14 files其中 catpaw 是二进制文件，conf.d 目录下是各个插件的配置文件，scripts 目录下是一些示例脚本。 ...

关于运维:月近万次发布故障率4‰如何做到去哪儿测试左移重难点揭秘

一分钟精髓速览去哪儿公布的数据显示，在过来一年中，其公布故障率始终保持在 4‰ 以下并一直升高。作为一家出行游览服务平台，去哪儿网如何在简单的业务场景下，仍能放弃如此低的故障率？其中功能测试左移功不可没。本文介绍了去哪儿网通过自动化测试、智能举荐、本地化等平台的建设，在低成本、低故障率、高效率方面的显著功效，并具体介绍了各阶段的实际重难点。作者介绍去哪儿网测试开发专家——鲁国宁 TakinTalks 社区专家团成员。2019 年退出去哪儿网，负责测试流程的治理和测试工具建设。主导/参加建设的平台有自动化测试、全链路压测、代码覆盖率、Mock 平台、智能举荐等。曾先后就任于京东商城、海尔集团等，善于性能压测平台建设，并实现近亿级 QPS 压测，曾多次为 618、双 11 等重要流动保驾护航；舒适揭示：本文约 4500 字，预计破费 8 分钟浏览。后盾回复 “交换” 进入读者交换群；回复“5132”获取课件材料；背景作为一家出行游览服务平台，去哪儿网的搜寻页面性能十分多且简单。以机票搜寻场景为例，用户的搜寻场景包含伺机人、起降地、仓储等信息。此外，还会关注航司信息、起降地点是否须要直达、落地工夫和后续出行安顿等。搜寻后果进去后，用户还会进行后续操作，比方搜寻航班价格，抉择退改服务、出行保障、接机服务和住宿服务等等。如上图，QA 须要筹备的 Checklist 高达 1 万多条，每条 Checklist 对应至多 1 条测试用例，还需确保用例的时效性。随着业务的一直扩大，返回后果数据出现一直收缩的趋势，测试同学还须要确保各种数据的准确性，包含渠道、价格、伺机人和服务包等多个维度的数据。因而测试同学每天须要忍耐大量沉重且单调乏味的工作，这对于他们的精力和膂力来说都是一种折磨，随同而来的就是公布故障居高不下。（整体公布故障偏多，性能故障占比 50%) 秉持着用技术改善业务痛点的理念，去哪儿网不断完善工具平台的建设。依据公司公布的数据显示，去哪儿网过来一年中，公布故障数和故障率都一直升高，并始终保持在 4‰ 以下。开发和测试的比例也一直变动，从之前的 1:1 降至测试占开发的 1/3。因而，本次分享的功能测试左移，心愿可能在降低成本、升高故障率、进步研发效率等多个方面为大家带来肯定的帮忙。（近一年公布故障数、开发测试比例一直升高) 一、如何通过自动化测试降低成本？1.1 整体思路在工作中，测试同学负责承前启后的重要角色。在我的项目周期中，测试工作占据了近一半的老本，所以升高人工测试老本是一个重要的指标。咱们通过数据分析，发现测试同学在验证外围性能时，人力老本次要分为三个局部：用例筹备、环境筹备和后果断言。其中，Checklist 和用例筹备占据了 50%的比例，须要特地解决。环境筹备须要确保公布代码的一致性，而后果剖析须要关注每个细节差别，确保后果的正确性。为了解决这些问题，咱们决定采纳自动化测试平台来代替繁琐的手工工作。通过自动化平台实现用例保护、部署以及剖析断言后果。让测试人员可能专一于差别测试，不被回归测试搅扰。 1.2 自动化平台建设1.2.1 计划选型在计划选型中，最具挑战性的是用例的运维。为了达到全面笼罩和充沛测试的指标，咱们须要思考两种计划：一种是基于覆盖率，另一种是本人保护 Checklist。 1）覆盖率的原理代码覆盖率原理是在每一行代码前面插入探针 Flag，默认值为 False；用例申请路过代码时 Flag 的标识会标识为 True，这些 Flag 值就是代码覆盖率的数据，依据 Flag 的状态判断代码是否执行。自动化平台应用代码覆盖率计划时，要做到笼罩全面的业务，需进行大量的用例回归验证；每执行一次用例申请后收集一次覆盖率数据；此时通过判断覆盖率数据是否减少来断定是否走到了新的代码。此计划在执行大量用例与覆盖率收集过程会耗费较多工夫，因而具体落地是须要在每天凌晨执行昨天的数据，计算并保留无效用例，供明天的自动化测试应用；随同的一个运维痛点是，当凌晨业务异样时，不易及时定位修复，因而影响第二天的自动化景象会偶然产生。 2）Checklist 的原理 ...

关于运维:Ubuntu系统怎么开启SSH

在 Ubuntu 零碎中，开启 SSH 服务能够让近程用户通过 SSH 平安地拜访服务器。上面是开启 SSH 的步骤：关上终端窗口，应用 root 用户或具备管理员权限的用户登录。装置 OpenSSH 服务器：在终端中输出以下命令并按下 Enter 键：sudo apt-get updatesudo apt-get install openssh-server确认 SSH 服务曾经启动：在终端中输出以下命令并按下 Enter 键：sudo service ssh status如果服务曾经启动，将看到相似于 “ssh start/running, process 1234” 的输入。如果 SSH 服务未启动，能够应用以下命令手动启动 SSH 服务：sudo service ssh start查看 SSH 服务是否在系统启动时主动启动：在终端中输出以下命令并按下 Enter 键：sudo systemctl is-enabled ssh如果输入为 “enabled”，则示意 SSH 服务曾经配置为在系统启动时主动启动。如果输入为 “disabled”，能够应用以下命令启用 SSH 服务自启动： sudo systemctl enable ssh配置防火墙：如果您应用了防火墙，须要关上 SSH 端口（默认为 22）以容许近程拜访。在终端中输出以下命令并按下 Enter 键：sudo ufw allow ssh这将容许通过 SSH 拜访您的服务器。如果您应用其余端口号，请将 “ssh” 替换为相应的端口号。 ...

关于运维:Nginx详解一文带你搞懂Nginx

Nginx是一款高性能、轻量级的Web服务器软件，它还能够作为反向代理服务器、负载均衡器和HTTP缓存器。在本文中，咱们将具体解说Nginx的基础知识、配置文件、装置和应用办法。基础知识Nginx的长处Nginx相比其余Web服务器软件的长处如下：高性能：Nginx采纳异步、非阻塞的事件驱动模型，能够反对高并发申请，并且耗费较少的系统资源。轻量级：Nginx的二进制文件很小，能够疾速启动并占用较少的内存。可靠性高：Nginx的代码被设计为高可靠性的，能够在长时间运行中放弃稳定性。可扩展性好：Nginx能够通过增加第三方模块或编写自定义模块来扩大其性能。反对热部署：Nginx能够在不进行服务的状况下从新加载配置文件和动静模块。Nginx的组成Nginx的次要组成部分包含： Nginx二进制文件：用于启动Nginx服务。Nginx配置文件：包含全局配置和服务器配置。Nginx模块：包含外围模块和第三方模块。Nginx日志文件：记录Nginx的拜访日志和谬误日志。Nginx的配置文件Nginx的配置文件位于/etc/nginx/nginx.conf，默认蕴含三个局部：全局块、events块和http块。其中，全局块蕴含全局配置指令，events块蕴含与事件处理相干的指令，http块蕴含HTTP相干的指令。以下是一个简略的Nginx配置文件示例： user nginx;worker_processes auto;error_log /var/log/nginx/error.log;pid /run/nginx.pid;events { worker_connections 1024;}http { include /etc/nginx/mime.types; default_type application/octet-stream; access_log /var/log/nginx/access.log; server { listen 80; server_name example.com; root /usr/share/nginx/html; index index.html; }}该配置文件定义了Nginx的一些根本配置，如Nginx的运行用户、工作过程数、谬误日志门路、事件处理器并发连接数、MIME类型、默认文件类型、拜访日志门路和HTTP服务器的监听端口、服务器名称、文档根目录和默认首页。装置和应用装置Nginx在大多数Linux零碎中，能够应用包管理器来装置Nginx。以Ubuntu为例，应用以下命令进行装置： sudo apt-get updatesudo apt-get install nginx装置实现后，应用以下命令启动无关更多详细信息，请拜访蓝易云的官方网站：www.tsyvps.com

关于运维:Linux系统设备管理sensors命令-–-检测服务器硬件信息

sensors命令用于检测服务器硬件信息，例如CPU电压与温度、主板、风扇转速等数据。语法格局：sensors 测试环境：Centos7.6零碎-服务器来自：蓝易云香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！参考实例查看以后CPU处理器得电压和温度信息 [root@linuxcool ~]# sensors coretemp-isa-0000 Core 0: +48.0°C (high = +87.0°C, crit = +97.0°C) Core 1: +46.0°C (high = +87.0°C, crit = +97.0°C) Core 2: +47.0°C (high = +87.0°C, crit = +97.0°C) Core 3: +46.0°C (high = +87.0°C, crit = +97.0°C)

关于运维:Linux系统文件传输lprm命令-–-移除打印队列中的任务

lprm命令来自于英文词组”Line printer remove“的缩写，其性能是用于移除打印队列中的工作，应用lprm命令来移除尚未实现的，正放在打印机贮列之中的打印工作。语法格局： lprm [参数] 工作编号测试环境：Centos7.6零碎-服务器来自：蓝易云香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！罕用参数： -E强制加密连贯模式-P指定指标打印机-U指定可选的用户名参考实例将指定打印机中编号为17的打印工作移除： [root@linuxcool ~]# lprm -P linuxcool 17将编号为17的打印工作从预设打印机中移除： [root@linuxcool ~]# lprm 17

关于运维:Linux系统文件传输ftpwho命令-–-显示ftp会话信息

ftpwho命令用于显示以后所有以FTP登入的用户会话信息。执行该命令可得悉以后用FTP登入零碎的用户有哪些人，以及他们正在进行的操作。语法格局： ftpwho [参数] 测试环境：Centos7.6零碎-服务器来自：蓝易云香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！罕用参数： -h显示帮忙信息-v具体模式，输入更多信息参考实例查问以后正在登录FTP 服务器的用户： [root@linuxcool ~]# ftpwho在具体模式下，查问以后正在登录FTP 服务器的用户： [root@linuxcool ~]# ftpwho -v显示帮忙信息： [root@linuxcool ~]# ftpwho -h

关于运维:蚂蚁集团联合牵头的行业标准发布规范移动应用开发云平台技术应用

近日，工业和信息化部批准公布了全国首个挪动利用开发云平台的行业标准《挪动利用开发云平台技术要求》（YD/T 4106-2023）。该规范的公布将鼎力促成挪动利用开发云平台技术在互联网畛域的利用，对推动我国挪动利用云平台技术倒退具备重要意义。这一规范于2020年由蚂蚁团体立项，联结中国信息通信研究院牵头，并且宽泛吸纳腾讯云计算（北京）有限责任公司、北京京东尚科信息技术有限公司、北京百度网讯科技有限公司、之江实验室、普元信息技术股份有限公司、杭州端点网络科技有限公司、用友网络科技股份有限公司、北京简略一点科技有限公司等单位独特钻研、编撰实现，将于2023年8月1日正式施行。挪动利用开发云平台是指可能按需提供挪动利用开发、测试、经营及运维云到端一站式解决方案的操作环境。随着挪动互联网蓬勃发展，挪动客户端成为互联网服务的重要入口，挪动利用开发云平台占据越来越重要的位置。然而，因为业内不足相干规范，不同机构的挪动利用开发在零碎架构、性能、兼容性、可用性和安全性等方面参差不齐，导致相干服务的品质与安全性难以保障。据理解，该标准规定了挪动利用开发云平台的的技术要求，包含挪动利用开发云平台的基本概念、技术架构、性能要求、生命周期治理要求和平安要求等内容，实用于领导挪动利用开发云平台的设计、开发、测试、运维治理和平安等。中国信通院专家韩思齐认为，该规范的公布标准了挪动利用开发云平台技术在互联网畛域的利用，有利于进步挪动利用开发云平台技术对于业务连续性和信息安全的保障能力，促成行业倒退和技术提高。事实上，蚂蚁团体自2009年开始就致力于挪动利用开发技术的研发，并推出了一站式挪动开发平台mPaaS。mPaaS基于支付宝多年在挪动端的技术实际打造，通过将挪动利用开发技术云化，提供稳固牢靠的云服务技术能力，可无效升高技术门槛、缩小研发老本、晋升开发效率，助力金融、政务、批发、互联网等行业畛域的客户疾速上线稳固高质量的挪动利用。在中国信息通信研究院组织的“可信云-挪动利用开发云平台能力评估”中，蚂蚁团体一站式挪动开发平台mPaaS首批通过评估，并取得先进级（最高级）证书，达到行业领先水平。数据显示，除了此次在CCSA（中国通信标准化协会）胜利公布行业标准外，蚂蚁还别离在中国互金协会、中国金融认证核心等行业协会和标准化组织中牵头推动《挪动金融利用开发平台技术要求标准》和《挪动金融APP产品生命周期平安指引》等团队规范的制订，来继续推动挪动开发技术倒退与生态建设。

关于运维:阿里云认证多少分通过考试难不难

阿里云能够说是云计算行业内的龙头企业了，不仅和泛滥畛域有所单干，而且单干的对象很多是业界大佬，进入阿里云也是很多毕业生的幻想，而进入阿里云的最好办法就是考一份阿里云的相干证书，阿里云的认证体系是阿里云官网推出的，想要取得阿里云的认可，考这个认证是十分好的路径，上面大使简略介绍一下，有须要的能够在认证大使上具体理解。阿里云认证概述阿里云针对不同产品类别、用户成长阶段、生态岗位，精心打造不同的认证考试。对集体而言，能够证实本人在对应技术畛域的业余度，可能基于阿里云产品解决理论问题，取得更多阿里云生态下的就业机会。对公司而言，通过阿里云认证造就、开掘专业人才，晋升公司的云上技术能力。取得更多阿里云生态我的项目商机。阿里云认证事项 1、阿里云的认证有三个不同的等级，每个等级下有十多种不同的证书，别离针对不同能力、不同资格的人，考生能够依据本人的状况抉择。 2、考试以口试为主，试验题为辅，口试是选择题，有多选和单选两种模式。 3、口试的满分是100，须要拿到80分才能够通过。 4、考是的难易水平依据等级不同而变动。

关于运维:Grafana-系列GaC2Grafana-Terraform-Provider-基础

系列文章Grafana 系列文章Terraform 系列文章概述前文最初总结了我的工具选型： Grafana Terraform providerJsonnet咱们明天先简略介绍 Grafana Terraform provider. Grafana Terraform ProviderGrafana provider 为 Grafana 提供配置管理资源。是目前 Grafana 官网提供的，笼罩的 Grafana 资源最全的 IaC 工具。 Grafana Terraform Provider 的代码是建设在 grafana-api-golang-client 之上的。通过 Grafana Terraform Provider, 咱们能够治理： Alerting Resources grafana_contact_pointgrafana_message_templategrafana_mute_timinggrafana_notification_policygrafana_rule_groupCloud Resources grafana_cloud_access_policygrafana_cloud_access_policy_tokengrafana_cloud_api_keygrafana_cloud_plugin_installationgrafana_cloud_stackgrafana_cloud_stack_api_keygrafana_cloud_stack_service_accountgrafana_cloud_stack_service_account_tokengrafana_machine_learning_holidaygrafana_machine_learning_jobgrafana_machine_learning_outlier_detectorDataSources grafana_cloud_ipsgrafana_cloud_organizationgrafana_cloud_stackGrafana Enterprise Resources grafana_builtin_role_assignmentgrafana_data_source_permission (AWS Managed Grafana 也有这个性能）grafana_reportgrafana_rolegrafana_role_assignmentgrafana_team_external_groupGrafana OSS Resources grafana_annotationgrafana_api_keygrafana_dashboardgrafana_dashboard_permissiongrafana_data_sourcegrafana_foldergrafana_folder_permissiongrafana_library_panelgrafana_organizationgrafana_organization_preferencesgrafana_playlistgrafana_service_accountgrafana_service_account_permissiongrafana_service_account_tokengrafana_teamgrafana_team_preferencesgrafana_userDataSources grafana_dashboardgrafana_dashboardsgrafana_data_sourcegrafana_foldergrafana_foldersgrafana_library_panelgrafana_organizationgrafana_organization_preferencesgrafana_teamgrafana_usergrafana_usersOnCall 略SLO 略Synthetic Monitoring 略实战因为 Grafana 资源绝对比拟清晰和独立，不像 AWS 会有很多简单的关联关系。所以对于 Grafana TF 代码的组织模式能够简略点：能够使 AllInOne 的 .tf 文件也能够依据资源类型，简略拆分为如下即可：├── dashboard.tf├── datasource.tf├── grafana-ds-info.auto.tfvars.json├── jsonnet (jsonnet 文件夹，dashboard 相干内容都在该文件夹下）├── main.tf├── outputs.tf├── variables.tf└── versions.tf上面以第二种组织构造来具体介绍。 ...

关于运维:面向故障处理的可观测性体系建设

笔者从 12 年开始入行，从事 DevOps 研发工作，做过部署零碎、监控零碎、可观测性相干产品，也做过 SRE 一线和管理工作，对于可观测性的了解和实际，有一些小小的见解，利用本文和大家做一个探讨分享。本文次要内容包含：可观测性在整个商业体系中的地位和价值如何疾速发现故障，应用哪类指标告警SRE 在议论故障定位的时候，谈的是什么如何找到故障间接起因，找到止损根据如何让可观测性零碎出现观点，辅助洞察，定位故障可观测性在整个商业体系中的地位和价值做一个事，首先得有价值，如果价值太小不值得投入。可观测性也不例外，咱们首先剖析一下可观测性在整个商业体系中的地位和价值。思考第一个问题：作为在线类产品，咱们心愿客户/用户有一个好的产品体验，那怎么算一个好的产品体验？很显著，产品体验包含性能体验和可靠性体验。性能体验依赖产品设计和迭代速度，跟明天的话题关系不大暂且按下不表。可靠性体验呢？可靠性体验外围就是谋求高可用、低提早，艰深讲就是每次关上站点或app，都不报错，速度嗖嗖的。那如何能力具备好的可靠性体验呢？其实如果一切正常，就应该是可用且速度快的，除非哪里出了问题，也就是产生了故障，才会报错或者提早大增。那技术团队要做的，除了继续优化架构和性能，就是一直和故障做奋斗了。升高故障产生的频率，升高故障的影响范畴，升高故障的复原工夫。演绎为 6 个字：降产生、降影响！怎么做？有没有方法论来领导？咱们能够从故障的生命周期着手，来优化生命周期的各个环节，每个环节都做好了，实践上后果就是好的。故障生命周期的梗概图如下：从大面上，能够分成事先、事中、预先三个大的阶段：事先：及时发现危险，做好架构、预案、演练事中：及时发现故障，及时定位，及时止损预先：排查根因，落实复盘改良项看起来寥寥数语，没有非凡的货色，但实际上每个环节要做好，都不容易。那可观测性，在这整个过程的职能是什么？在哪个环节施展价值？显然，可观测性，是在故障发现、定位环节发挥作用的，外围价值就是帮咱们疾速发现故障、疾速定位故障，进而升高故障的影响。如此，可观测性的地位和价值就很明确了，用一张图概括：客户/用户须要好的产品体验，好的产品体验包含可靠性体验，要想有好的可靠性体验，就得缩小故障，所谓的降产生、降影响，而这，又依赖了可观测性的能力。所以：可观测性最终是服务于产品体验、服务于商业胜利的（想不想获得商业胜利？依据方才的剖析可观测性可是重点因素哦），外围指标是疾速发现、定位故障。那么，如何疾速发现故障？如何疾速发现故障，应用哪类指标告警要想可能疾速发现故障，得先定义什么是故障！简略来看，产品体验受损，就是故障！比方：电商产品：用户无奈下单、无奈领取、无奈查看商品、无奈查看历史订单存储系统：用户无奈读、无奈写、或者读写提早过高流媒体产品：无奈开启播放、无奈拉流、无奈浏览视频信息既然可能定义如何算是产品体验受损，那就能够梳理出相干的监控指标，比方：电商产品：订单量、领取量、商品/订单拜访成功率/提早存储系统：读/写成功率、读/写提早流媒体产品：播放量和成功率、拉流提早、视频浏览成功率/提早等大家有没有发现这类指标的特点？显然，都是能够量化客户体验的指标，这类指标咱们称为后果类指标（前面会介绍起因类指标），大面上能够分为两类，一类是业务指标，另一类是 SLO 指标。个别公司做监控的时候，可能会意识到要做 SLO 指标的监控，容易疏忽业务类指标的监控。其实，业务类指标才是老板更为关注的指标，而且，SLO 指标失常的时候，业务指标未必失常。比方客户到服务端的网络出问题了，服务端的成功率、提早指标都是失常的，然而客户无奈下单，订单量会上涨。所以，肯定要器重业务指标体系的构建和监控。听起来，业务指标和 BI 数据很像有没有？的确，最大的相同点是：都是老板关注的，哈哈。不同点呢？BI 数据对准确性要求很高，对实时性要求没有那么高，而业务指标监控，对准确性要求没有那么高（只有能发现数据趋势出问题了就能够了），对实时性要求很高，毕竟是用来发现故障的，如果实时性太差，黄花菜都凉了。指标体系的构建，除了后果类指标，与之对应的还有起因类指标。都须要，然而咱们配置告警的时候，个别是针对后果类指标来配置。因为产品的外围业务性能是可枚举的，每个性能对应的后果类指标就是可枚举的，做好后果类指标的告警，就能够保障告警是全的，做到有故障必有告警！举个例子：实时交易类零碎，交易量忽然上涨。如果，面向起因类指标配置告警，则永远无奈配全，无奈做到有故障必有告警！实际上，起因类指标不用肯定要配置告警，出故障的时候可观测，其实也根本够了。如上，要构建可观测性体系，首先要建设齐备的指标体系，其中十分要害的是后果类指标，即业务指标和 SLO 指标，后果类指标配合告警零碎能够疾速发现故障！从这里也能够看出，监控（monitoring）和可观测性（observability）是相辅相成的，非代替关系。 OK，既然能够发现故障了，下一步就是定位故障了。 SRE 在议论故障定位的时候，谈的是什么在探讨这个问题之前。先分享一个信息层级的概念。说：信息分4个层级，最底下是数据，横七竖八，比方海量的指标、日志、链路追踪的数据；数据下面是特色，比方最大值、最小值、同环比等，比方5个服务实例，提早的最大的是哪个，这叫数据特色；特色下面是观点，从故障定位场景来举例，比方依据特色数据分析之后发现，数据库没有问题，依赖的第三方服务也没问题，这就是观点；观点之上就是洞察，或称洞见，综合所有观点，得出故障定位论断，得悉具体是哪个模块的什么起因导致了本次故障，就是最终洞察。画个图示例一下：要想得到最终的洞察（定位到故障），首先要依赖底层的数据齐备性，否则就是巧妇难为无米之炊！然而故障起因形形色色，数据能全么？做过 SRE 或者运维的敌人必定感触颇深，故障可能是电源模块坏了、机房空调坏了、机柜压住网线了、供电不稳、某个盘故障了、中间件配置错了、被黑客攻击了、分布式中间件脑裂了、写日志hang住了、程序配置错了、程序连贯第三方的地址错配成线下地址了、DNS配错了、证书过期了、代码Bug了、疏漏了某个常见用户流程...等等等等。这么多可能的故障起因，要通过可观测性数据分析进去，这数据能全么？比方代码 Bug，要想能依据可观测性数据分析出是哪一行代码的问题，岂不是要像在 IDE 里调试那样，每一行代码的输入输出都得拿到啊，这老本谁扛得住啊，性能损耗谁扛得住啊... 如果咱们的指标只是定位间接起因，找到止损根据尽快止损，这个底层数据需要就少多了。比方咱们不须要晓得是哪行代码出了问题，咱们只有晓得是某个模块做了变更导致了故障，就能够去止损（这个场景的止损动作就是回滚）了。再比方，多活的服务，有时仅仅晓得是 A 机房的问题就能够了，把流量切到 B 机房就能够解决。综上，个人观点：应用可观测性数据定位根因，几无可能100%笼罩全副场景！因为数据就不可能全！但如果只是用可观测性数据定位间接起因，找到止损根据，则100%是能够做到的，而这，才是咱们应该致力的方向。当 SRE 在议论故障定位的时候，其实议论的时是如何找到间接起因，尽快止损。而根因，能够留在复盘阶段缓缓找的。如何找到故障的间接起因答复这个问题之前，咱们先来看看一个服务要想失常运行，依赖了哪些内容，或者说一个服务如果出故障，可能会是哪里的问题。如果咱们可能枚举故障类别，那么咱们就能够针对每个类别去剖析，找到故障的间接起因。首先，依赖的基础设施（根底网络、硬件、Runtime环境）不能出问题，依赖的第三方其余服务不能出问题，这两个方面大家比拟容易了解，不多说了。还有就是服务自身的变更，比方二进制变更、配置的变更、部署形式的变更、流量接入形式的变更，等等，也可能引发问题。最初就是上游拜访的形式，比方流量突增，显然也可能会带来故障。那针对这些故障场景，咱们应该去看哪些数据呢？这其实就是可观测性数据底座的建设方向。咦？说来说去，还是要建设 metrics、logs、traces、events？是的，但不仅是，只有数据还远远不够，咱们须要通过平台工具，通过数据经营整顿，帮忙用户找到数据特色，建设初步观点，最终造成洞察定位故障间接起因。还记得那张信息层级的图吧： ...

关于运维:Grafana系列GaC1Grafana即代码的几种实现方式

系列文章Grafana 系列文章Terraform 系列文章概述GaC(Grafana as Code, Grafana 即代码) 很显著是扩大自 IaC(Infrastructure as Code, 基础设施即代码)的概念. 在Terraform 系列 - 什么是 IaC?一文中, 咱们曾经具体地阐明了相干的概念, 咱们能够间接套用在 GaC 上: Grafana 即代码 (Grafana as Code, GaC) 是指通过代码而不是手动流程 / 控制台点击来治理和配置 Grafana。这里有 2 个关键词： GrafanaCodeGrafana 是被治理对象，在这里，不仅仅是指 Grafana OSS 这一款产品, 还包含 Grafana Labs 提供的商业产品和云服务. 包含不限于: Grafana AlertingGrafna Cloud Stack, 包含 Grafana Cloud 的: 认证权限策略Service Account组织...Grafana Enterprise (企业版)Grafana OnCall: 事件响应和治理平台(IRM)Grafana SLO: SLA 和可用性治理Grafana Synthetic Monitoring: 拨测, 相似 BlackBoxProbeCode 是治理形式，即像治理代码一样治理 Grafana 资源。那么治理代码最重要的局部：版本治理是绕不开的。... ...

关于运维:Linux系统文件管理pwd命令-–-显示当前工作目录的路径

pwd命令来自于英文词组”print working directory“的缩写，其性能是用于显示当前工作目录的门路，即显示所在位置的绝对路径。在理论工作中，咱们常常会在不同目录之间进行切换，为了避免”迷路“，能够应用pwd命令疾速查看以后所处的工作目录门路，不便发展后续工作。语法格局：pwd [参数] 测试环境：Centos7.6零碎-服务器来自：蓝易云香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！罕用参数： -L显示逻辑门路参考实例查看当前工作目录门路： [root@linuxcool ~]# pwd/root

关于运维:Linux系统文件管理mv命令-–-移动或改名文件

mv命令来自于英文单词move的缩写，其性能与英文含意雷同，用于对文件进行剪切和重命名。这是一个高频应用的文件治理命令，咱们须要注意它与复制命令的区别。cp命令是用于文件的复制操作，文件个数是减少的，而mv则为剪切操作，也就是对文件进行挪动（搬家）操作，文件地位发生变化，但总个数并无减少。在同一个目录内对文件进行剪切的操作，理论应了解成重命名操作，例如上面的实例一所示。语法格局： mv [参数] 源文件指标文件测试环境：Centos7.6零碎-服务器来自：蓝易云香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！罕用参数： -i若存在同名文件，则向用户询问是否笼罩-f笼罩已有文件时，不进行任何提醒-b当文件存在时，笼罩前为其创立一个备份-u``当源文件比指标文件新，或者指标文件不存在时，才执行挪动此操作参考实例在当前工作目录中，对某个文件进行剪切后粘贴（重命名）操作： [root@linuxcool ~]# mv anaconda-ks.cfg ks.cfg将某个文件挪动到/etc目录中，保留文件原始名称： [root@linuxcool ~]# mv ks.cfg /etc将某个目录挪动到/etc目录中，并定义新的目录名称： [root@linuxcool ~]# mv Documents /etc/docs将/home目录中所有的文件都挪动到当前工作目录中，遇到已存在文件则间接笼罩： [root@linuxcool ~]# mv -f /home/* .

关于运维:Linux系统文件传输fsck命令-–-检查与修复文件系统

fsck命令来自于英文词组“filesystem check”的缩写，其性能是用于查看与修复文件系统。若零碎有过忽然断电或磁盘异样的状况，倡议应用fsck命令对文件系统进行查看与修复，以防数据失落。语法格局： fsck [参数] 文件系统测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。罕用参数： -a主动修复文件系统-f强制查看-A按照/etc/fstab文件来查看全副文件系统-N不执行指令，仅列出理论执行会进行的动作-r采纳互动模式，在执行修复时询问问题-R略过指定的文件系统不予查看-t指定要查看的文件系统类型-T执行fsck指令时，不显示题目信息-V显示指令执行过程参考实例查看是否的文件系统是否有损坏： [root@linuxcool ~]# fsck /dev/sdbfsck from util-linux 2.32.1e2fsck 1.44.3 (10-July-2018)/dev/sdb: clean, 11/1310720 files, 126322/5242880 blocks强制查看文件系统的损坏状况： [root@linuxcool ~]# fsck -f /dev/sdbfsck from util-linux 2.32.1e2fsck 1.44.3 (10-July-2018)Pass 1: Checking inodes, blocks, and sizesPass 2: Checking directory structurePass 3: Checking directory connectivityPass 4: Checking reference countsPass 5: Checking group summary information/dev/sdb: 11/1310720 files (0.0% non-contiguous), 126322/5242880 blocks

关于运维:Linux系统文档编辑rm命令-–-删除文件或目录

rm命令来自于英文单词remove的缩写，其性能是用于删除文件或目录，一次能够删除多个文件，或递归删除目录及其内的所有子文件。 rm也是一个很危险的命令，应用的时候要特地当心，尤其对于老手更要分外留神，如执行rm -rf /*命令则会清空零碎中所有的文件，甚至无奈复原回来。所以咱们在执行之前肯定要再次确认下在哪个目录中，到底要删除什么文件，思考好后再敲击回车，时刻放弃苏醒的头脑。语法格局： rm [参数] 文件测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。罕用参数： -f强制删除（不二次询问）-i删除前会询问用户是否操作-r/R递归删除-v显示指令的具体执行过程参考实例删除某个文件，默认会进行二次确认，敲击y进行确认。 [root@linuxcool ~]# rm anaconda-ks.cfg rm: remove regular file 'anaconda-ks.cfg'? y删除某个文件，强制操作不须要二次确认： [root@linuxcool ~]# rm -f initial-setup-ks.cfg 删除某个目录及其内的子文件或子目录，一并都强制删除： [root@linuxcool ~]# rm -rf Documents强制删除当前工作目录内的所有以.txt为后缀的文件 [root@linuxcool ~]# rm -f *.txt【到职小妙招，审慎！！！】强制清空服务器零碎内的所有文件： [root@linuxcool ~]# rm -rf /*

关于运维:如何翻译-Markdown-文件2几种商业及开源解决方案介绍

背景近期在搭建英文博客-<e-whisper.com>, 须要对现有的所有中文 Markdown 翻译为英文。需要如下：将 Markdown 文件从中文 (zh-CN) 翻译为英文 (en)翻译后要保留 Markdown 的残缺格局局部 Markdown block 不须要翻译，如：front-matter、代码块等然而理论应用中，试了好几款翻译（包含 Google，DeepL，Azure）, 后果发现成果都不现实。也找到了一些专门针对 markdown 的翻译计划，基本上都是这种计划：将 Markdown 拆分为"段". 一起看看吧。 Markdown 商业及开源解决方案simpleen: 商业版GT4T: 商业版markdown-translator: GitHub 开源我的项目，基于 JavaScript 和 Azure Translate 免费 APIMarkdown Docs Translator: GitHub 开源我的项目，基于 Python 和支流收费翻译 API (Yandex/Google/Bing/Deepl)ChatGPT + Prompt(markdown+翻译） ?SimpleenSimpleen 是个在线翻译服务，你能够通过不同的形式应用 Simpleen 来翻译和本地化你的软件：应用在线 web 翻译器，在本地应用 CLI（间断翻译）或通过 API 自定义应用。其后端是调用 Deppl 的翻译服务。以下是应用其翻译的成果：能够看到，翻译除了将[toc] 翻译为 \[toc] 之外，其余都齐全精确。另外上图也能够看到，Simpleen 定位十分精确，就是针对开发者群体的，还有 Variable 相干性能。 ...

关于运维:Linux系统文件管理mkdir命令-–-创建目录文件

mkdir命令来自于英文词组“make directories”的缩写，其性能是用来创立目录文件。应用简略，但须要留神若要创立的目标目录曾经存在，则会提醒已存在而不持续创立，不笼罩已有文件。而目录不存在，但具备嵌套的依赖关系，例如a/b/c/d/e/f，要想一次性创立则须要退出-p参数，进行递归操作。语法格局 : mkdir [参数] 目录本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。罕用参数： -p递归创立多级目录-m建设目录的同时设置目录的权限-z设置平安上下文-v显示目录的创立过程参考实例在当前工作目录中，建设一个目录文件： [root@linuxcool ~]# mkdir dir1在当前工作目录中，创立一个目录文件并设置700权限，不让除所有主以外任何人读、写、执行它： [root@linuxcool ~]# mkdir -m 700 dir2在当前工作目录中，一次性创立多个目录文件： [root@linuxcool ~]# mkdir dir3 dir4 dir5在零碎根目录中，一次性创立多个有嵌套关系的目录文件： [root@linuxcool ~]# mkdir -p /dir1/dir2/dir3/dir4/dir5

关于运维:澳大利亚社区媒体通过契机再次启动IT服务管理

用户背景：澳大利亚社区媒体（ACM）是澳大利亚最大的地区新闻出版商，为全国各州和地区的数百万人服务。它负责140多个当先的农村和地区新闻品牌，包含基于社区的网站、日报和社区报纸、杂志和流动。 ACM的起源能够追溯到1911年，当初所知的品牌是在2007年费尔法克斯媒体团体下产生的。2018年，费尔法克斯传媒团体被九鼎娱乐收买，ACM起初作为独立出版商发售。随着ACM作为一个独立实体的建设，其服务治理流程被转到为澳大利亚多个地点的员工服务。痛点：对于这样一个弱小而审慎的平台来说，他们的需要： ACM以前的ITSM解决方案ServiceNow，只管合乎解决组织的需要，但资源过于密集。作为一个从其母公司媒体团体分离出来的独立组织，ACM的IT资源分配必须缩小，以满足一个繁多的大型实体而不是一个公司团体的需要。 ACM的领导层晓得他们领有高度成熟的服务治理流程，所以须要一个可能获取该组织之前ServiceNow实例的所有价值的解决方案，而不须要昂扬的许可模式。 ACM还须要一个对立的平台用于所有的服务工作，包含IT和非IT。该组织的多样化服务目录提供了来自人力资源、工资、法律、衰弱、平安和环境（HSE）以及IT的服务。 ACM的HSE部门提出的一个最要害的要求是：须要从新构建其平安工作流程，以简化任何工作场合的危险或事变的调查过程。在思考了Freshservice等其余竞争对手后，ACM的决策者最终抉择了ServiceDesk Plus作为重新启动组织的服务治理的平台，因为它满足了ACM的IT和非IT部门的所有要求。劣势利用申请生命周期建设一个HSE工作流作为澳大利亚驰名的出版商之一，ACM领有标准化的流程来治理产生在其印刷车间、校园内或员工在返回校园途中的呈现的工作危险或事变。他们能够利用ServiceDesk Plus的拖放式图形生命周期生成器及申请生命周期，让ACM的HSE部门可能设计一个工作流来简化其工作场合的平安流程。该工作流为工作场合的危险或事件创立一个订单，通过管理人员的审批，启动考察，并在采取动作后解决该订单。当产生事变或危险时，员工能够通过自助服务门户提出申请，其模板能够收集无关该问题的全面信息。 HSE团队须要一个动静的表单，只依据举报人在后面的字段中给出的明细来收集适当的信息。ServiceDesk Plus的表单规定容许HSE团队能自定义规定，以便主动执行某些操作，如依据自定义条件启用、禁用、暗藏或强制执行表单字段。应用表单规定，HSE团队可能建设一个动静的、规范驱动的申请表。该申请表利用了一个危险矩阵，依据问题的重大水平和再次发生的可能性，自动记录危险评级字段（从低到极）。通过在模板内间接增加不同的局部，让HSE团队能够收集无关危险或事件的详细信息，如地位、形容以及是否曾经采取了任何口头。 ServiceDesk Plus能够依据订单参数为所有进入的订单调配SLA。HSE团队配置了指标响应工夫、揭示和上报到经理，这些都依据申请的危险等级而不同。例如，一个领有低危险订单的技术人员有三天的工夫来回应，订单将在第七天被上报给经理，而高风险订单在一天内就会触发警报。而后，新的事件或危险申请进入审批阶段，在此期间，经理将验证该问题。如果申请被回绝，工作流就会转到期待批改状态，信息提供者能够在这里增加更多对于该问题的信息或勾销申请。具备申请生命周期的HSE工作流程 ACM须要为其考察订单启动一个平行的工作流，为此，它利用了ServiceDesk Plus的自定义脚本。当申请生命周期将危险或事件订单推到期待考察状态时，ACM的自定义性能触发器会主动创立一个与危险或事件订单相干的考察订单。批准该事件的经理将对新的考察订单负责，而举报人只能查看考察明细。如果任何危险或事件的订单与一个凋谢的考察相关联，技术人员将被禁止敞开该订单。这种平行订单工作流之间的状态同步又是通过ServiceDesk Plus的自定义脚本实现的。在整个平安工作流中，ACM 的多个部门，如法律、保险和人力资源部门，都须要放弃知情权。在申请的生命周期内，HSE 团队可能为每个用户组配置每个订单状态的主动电子邮件告诉。因而，ACM的HSE团队可能精确地执行其在ServiceNow中建设的工作流，这次是应用ServiceDesk Plus中的自定义模板、字段和表单规定、申请生命周期以及自定义脚本的组合。应用ManageEngine的继续旅程 ServiceDesk Plus所实现的简化IT服务治理和非IT操作，以及ManageEngine公司反对团队的踊跃帮助，使ACM公司决定进一步投资于ManageEngine生态系统。 ACM公司曾经将ServiceDesk Plus与ManageEngine公司的对立端点治理解决方案Desktop Central整合在一起。这种整合使ACM的IT技术人员能够间接从服务台控制台向该组织的终端部署更新、补丁和软件。当作为一个独立的实体起步时，ACM不足正确的平台来重新启动其服务管理工作。只管ACM已领有几十年的成熟服务流程，但它仍须要一个解决方案，可能提供与在其母体组织下应用 ServiceNow 时雷同的性能，而不须要承当该平台的大量费用。通过ServiceDesk Plus，ACM找到了能够复制其在ServiceNow上应用的工作流的平台，而不须要消耗其IT估算。在此过程中，ACM关上了通往ManageEngine生态系统的大门，取得了互联的IT治理体验。

关于运维:Linux系统磁盘管理lsblk命令-–-查看系统的磁盘使用情况

lsblk命令来自于英文词组”list block“的缩写，其性能是用于查看零碎的磁盘应用状况。语法格局： lsblk [参数] 本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。罕用参数： -a显示所有设施-b以字节单位显示设施大小-d不显示 slaves 或 holders-e排除设施-f显示文件系统信息-h显示帮忙信息-i仅应用字符-m显示权限信息-l应用列表格局显示-n不显示题目-o输入列-P应用key=”value”格局显示-r应用原始格局显示-t显示拓扑构造信息参考实例显示零碎中所有磁盘设施的应用状况信息： [root@linuxcool ~]# lsblk -aNAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTsda 8:0 0 20G 0 disk ├─sda1 8:1 0 1G 0 part /boot└─sda2 8:2 0 19G 0 part ├─rhel-root 253:0 0 17G 0 lvm / └─rhel-swap 253:1 0 2G 0 lvm [SWAP]sr0 11:0 1 6.6G 0 rom /media/cdrom显示零碎中磁盘设施的归属及权限信息： [root@linuxcool ~]# lsblk -mNAME SIZE OWNER GROUP MODEsda 20G root disk brw-rw----├─sda1 1G root disk brw-rw----└─sda2 19G root disk brw-rw---- ├─rhel-root 17G root disk brw-rw---- └─rhel-swap 2G root disk brw-rw----sr0 6.6G root cdrom brw-rw----显示零碎中所有SCSI类型的磁盘设施信息： ...

关于运维:Linux系统-cp命令-–-复制文件或目录

cp命令来自于英文单词copy的缩写，用于将一个或多个文件或目录复制到指定地位，亦罕用于文件的备份工作。-r参数用于递归操作，复制目录时若遗记加则会间接报错，而-f参数则用于当指标文件已存在时会间接笼罩不再询问，这两个参数尤为罕用。本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。语法格局： cp [参数] 源文件指标文件罕用参数： -f若指标文件已存在，则会间接笼罩原文件-i若指标文件已存在，则会询问是否笼罩-p保留源文件或目录的所有属性-r递归复制文件和目录-d当复制符号连贯时，把指标文件或目录也建设为符号连贯，并指向与源文件或目录连贯的原始文件或目录-l对源文件建设硬连贯，而非复制文件-s对源文件建设符号连贯，而非复制文件-b笼罩已存在的文件指标前将指标文件备份-v具体显示cp命令执行的操作过程-a等价于“pdr”选项参考实例在当前工作目录中，将某个文件复制一份，并定义新文件名称： [root@linuxcool ~]# cp anaconda-ks.cfg kickstart.cfg在当前工作目录中，将某个目录复制一份，并定义新目录名称： [root@linuxcool ~]# cp -r Documents Doc复制某个文件时，保留其原始权限及用户归属信息： [root@linuxcool ~]# cp -a kickstart.cfg ks.cfg将某个文件复制到/etc目录中，并笼罩已有文件，不进行询问： [root@linuxcool ~]# cp -f ks.cfg /etc将多个文件一起复制到/etc目录中，如已有指标文件名称则默认询问是否笼罩： [root@linuxcool ~]# cp anaconda-ks.cfg ks.cfg /etccp: overwrite '/etc/ks.cfg'? y

关于运维:Linux系统-ls命令-–-显示指定工作目录下的文件及属性信息

ls是最常被应用到的Linux命令之一，它来自英语单词list的缩写，就像list单词的英语意思一样。它的性能是列出指定目录下的文件名称和特色。默认状况下不增加参数，ls指令将列出各种工作目录中的文件信息，通常与cd和pwd配合应用指令十分不便。带上参数后，咱们能够做更多的事件。作为最根本、最罕用的命令，有必要认真理解其罕用性能。本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。语法格局: ls [参数] [文件] 罕用参数： -a显示所有文件及目录 (包含以“.”结尾的暗藏文件)-l应用长格局列出文件及目录的详细信息-r将文件以相同秩序显示(默认依英文字母秩序)-t依据最初的批改工夫排序-A同 -a ，但不列出 “.” (当前目录) 及 “..” (父目录)-S依据文件大小排序-R递归列出所有子目录-d查看目录的信息，而不是外面子文件的信息-i输入文件的inode节点信息-m程度列出文件，以逗号距离-X按文件扩展名排序--color输入信息中带有着色成果参考实例输入当前目录中的文件（默认不含暗藏文件）： [root@linuxcool ~]# lsanaconda-ks.cfg Documents initial-setup-ks.cfg Pictures TemplatesDesktop Downloads Music Public Videos输入当前目录中的文件（含暗藏文件）： [root@linuxcool ~]# ls -a. .bashrc Documents Music Videos.. .cache Downloads Pictures .viminfoanaconda-ks.cfg .config .esd_auth .pki.bash_history .cshrc .ICEauthority Public.bash_logout .dbus initial-setup-ks.cfg .tcshrc.bash_profile Desktop .local Templates输入文件的长格局，蕴含属性详情信息： [root@linuxcool ~]# ls -ltotal 8-rw-------. 1 root root 1430 Dec 14 08:05 anaconda-ks.cfgdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Desktopdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Documentsdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Downloads-rw-r--r--. 1 root root 1585 Dec 14 08:34 initial-setup-ks.cfgdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Musicdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Picturesdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Publicdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Templatesdrwxr-xr-x. 2 root root 6 Dec 14 08:37 Videos输入指定目录中的文件列表： ...

关于运维:Centos7x设置服务器禁ping实用

前言：禁ping益处：肯定水平上在互联网上暗藏本人避免一些批量扫描软件探测主机，缩小被入侵的几率。对于失常经营的生产环境，稳定性是第一因素，同时也要做好相应的平安防护，敞开ping能够起到避免洪水攻打以及肯定水平上暗藏本人避免一些批量扫描软件探测主机，缩小被入侵的几率。那么服务器禁止Ping如何设置呢？明天给大家分享下禁ping的设置办法【满满干货】。本次测试环境：Centos7.6/Windows-服务器来自：蓝易云特点香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！一、个别有以下几种方法：一、如果装置有宝塔面板，能够间接进入宝塔面板--平安，启用禁ping ，关上此性能即可实现禁ping 。宝塔面板二、服务器内批改sysctl.conf 文件实现禁ping1，SSH终端编辑文件：sysctl.conf vi /etc/sysctl.conf关上sysctl.conf文件当前，如果发现有：net.ipv4.icmp_echo_ignore_all = 0 这段代码。键盘按一下 i 键进入编辑模式，把0改成1即可实现禁ping。相同把0改成1即可解除禁ping。批改当前按一下键盘上的：ESC 键在输出wq保留即可。如果关上的文件外面没有这段代码还请自行添加。【记得增加当前输出wq保留】 net.ipv4.icmp_echo_ignore_all = 1 增加胜利成果三、批改当前执行命令,使批改失效：sysctl -p

关于运维:之江实验室-如何基于-JuiceFS-为超异构算力集群构建存储层

明天，高性能计算联合人工智能技术正在推动科研翻新。例如通过破解水稻基因明码推动作物育种从“试验选优”向“计算选优”倒退，在医药畛域疾速剖析分子与蛋白之间的相互作用，发现潜在的可能无效干涉疾病产生的药物分子。之江实验室就是上述科研翻新的推动者，实验室由浙江省政府主导、浙江大学等院校反对、企业参加的事业单位性质的新型研发机构，为资料、基因、制药、地理、育种等迷信畛域的钻研提供新的办法、工具和伎俩。因为算力资源的人造异构性，以及不同技术实现的计算能力往往出自不同的零碎架构或指令集，会导致软件不兼容性，从而进步了算力应用的门槛，也使得算力利用率难以无效进步。为解决这个问题，之江实验室将各种异构算力资源汇聚在一起，造成一个宏大的“算力池”。本文将分享之江实验室如何基于 JuiceFS 为超异构算力集群构建存储层的实际。 01-之江实验室的输入反应堆数字反应堆是之江实验室一个大型科研安装。整个科研安装由软硬件局部组成。在软件方面，负责研发之江瑶光智能操作系统。该智能操作系统次要蕴含两个要害组成部分。首先，它提供了通用的计算平台解决方案，为下层应用层提供反对。通过这个平台，用户能够针对不同的应用领域，如计算资料、计算制药、计算地理等，进行开发和利用。其次，咱们实现了一个异构资源聚合计划。在之江实验室，咱们领有多个异构集群，包含CPU集群、GPU集群以及一些超算资源。这些不同类型的计算资源具备不同的应用形式。通过异构资源聚合计划，咱们将这些不同的计算资源对立聚合，实现对立的治理和应用。整体架构如上，在之江实验室的计算与数据中心，咱们部署了多套异构集群，包含 H3C 的傲飞集群、之江的计算集群、国产的曙光集群等，以及边缘计算场景，这些都纳入了咱们的管控零碎中。通过集群设施插件的形式，咱们对这些不同的集群进行了对立形象，并实现了算力的聚合。在整个异构算力联邦的体系中，咱们将这些不同的算力集群都形象为 Kubernetes（k8s）集群进行治理。下层下发的业务指令及不同类型的作业，通过元调度器来决定将这些作业发送到哪个集群。依据不同的调度策略，如计算优先级、能耗优先级和性能优先级，来确定计算作业的具体执行形式。目前，咱们已接入约 200P（PFLOPS, 1P 相当于每秒执行一千万亿次浮点运算）的 AI 算力和 7000 核的 HPC 算力。算力侧对存储的需要首先：存储层的形象和对立。因为在许多计算场景中，包含超算和AI训练，都应用 POSIX 接口。因而，咱们心愿在这一层面上对立应用 JuiceFS 的接口来提供服务。第二个方面：存储计划的通用性。目前接入的算力集群是异构的，那么尽量须要思考计划在不同的异构集群中都能实用。第三个方面：数据的编排条件。咱们的数据是有典型的冷热个性，在一个工作在计算过程中，它用到的数据是热数据，工作计算之后或者过了几天之后，这个数据就变成了冷数据，咱们对冷数据的读和操作是比拟少的。第四个方面：存储性能的要求。数据读写性能要好。特地是热数据的读取性能。在算力集群中，计算资源十分贵重，如果因为数据读取慢导致CPU，GPU空转期待，是极大的节约。存储计划选型计划1：袒露的对象存储（OSS）与S3FS + NAS 相结合这个计划存在一个较大的问题，即间接应用袒露的对象存储性能十分差。另外，袒露应用对象存储的 S3FS 挂载点常常会呈现莫名其妙的失落。一旦挂载点失落，容器将无法访问，如果要复原挂载点，必须对整个容器进行重启，这对用户业务造成了很大的烦扰。因为开始时集群规模较小，而且这套计划部署简略，实验室一开始采纳了这种计划进行部署。但随着集群规模的逐步扩充，尤其是从去年开始建设的数字反应堆，从繁多集群到多集群的演进过程中，当节点数量从最后的 10 多台逐步扩大到 100 多个节点时，这个计划基本上曾经行不通了。计划2：Alluxio + Fluid + OSS 通过调研，咱们发现该计划的构造绝对简单，波及到许多组件的组成。之江实验室是一个超异构的多集群环境，因为 Alluxio 并不是一个强一致性的文件系统，它实际上只是一个缓存的粘合层。在这种多集群环境下，会面临元数据不统一的问题，而解决这个问题特地艰难。因为下层用户的业务产品十分繁多，咱们不能干预用户的应用形式。在这种状况下，如果不同集群之间的数据不统一，将会导致重大的问题。其次底层依然应用OSS，当数据规模扩充到肯定水平时，因为 OSS 的元数据性能问题，当存储规模达到肯定级别后，元数据同步、新集群的缓存层初始化等操作也会遇到较大的性能瓶颈。计划3 ：JuiceFS（最终采纳） JuiceFS 有十分具体的社区文档，能够间接上手应用，并且在咱们的搭建测试集群以及最终的上线部署中表现出色。另外，JuiceFS 反对 CSI能够容器化部署，另外对国产硬件的适配性较好。因而咱们最终抉择将 JuiceFS 作为咱们算力侧的存储底座。应用 JuiceFS 的劣势首先，JuiceFS 提供了丰盛的元数据引擎抉择，比方 Redis 和 TiKV，使得 JuiceFS 具备较好的元数据性能。目前咱们实验室应用的是由三个节点搭建的 TiKV 作为元数据引擎。因为该配置是去年建设的，当初的性能曾经有些不够用，后续咱们将逐渐晋升性能。 ...

关于运维:机器硬件监控最简单的方案没有之一

之前新东方的老师分享了他们通过 Telegraf、Loki、Nightingale 等工具来监控机器硬件状态的计划，具备很强的灵活性、平台性。本文会介绍一个绝对轻量的形式，只须要一个二进制+一个脚本即可搞定，给各位朋友提供一种新的抉择。新东方的计划物理机能够通过带外开启 SNMP，通过 SNMP 能够获取各个硬件模块的衰弱状态，Telegraf 提供了很多 input、output 插件，咱们能够应用 Telegraf 的 snmp input 插件采集硬件状态信息，应用 loki output 插件写入 Loki，而后应用 Nightingale 做告警规定配置（ Loki 兼容 Prometheus 的 Querying 接口），产出告警事件，之后能够发给钉钉、企微，或者发给 FlashDuty 做告警聚合降噪、排班、认领、降级等后续解决。实操步骤1. snmp 插件筹备snmp监控次要通过各种oid节点获取对应信息，分为get(单值)、walk(多值)，telegraf的snmp插件默认是取单值，如果须要多值，能够找对应的table类型节点进行采集。 # 单值节点[[inputs.snmp.field]]name="uptime"oid=".1.3.6.1.2.1.1.3.0" # 多值节点，table类型[[inputs.snmp.table]]oid = ".1.3.6.1.2.1.31.1.1"name = "interface"2. OID节点查找不同型号的物理机，oid节点不同，能够通过对应型号的MIB文件进行查找。除了独自查找每个硬件的状态oid外，MIB文件中个别还能找到服务器整体状态的OID节点，能够间接取这个值，以下例子为浪潮服务器：失常取值为"OK"、"Normal"，有报警的话取值为"WARNING"、"CRITICAL"。采集OID='INSPUR-MIB::serverSystemHealthTable'（转换数字为'.1.3.6.1.4.1.37945.2.1.2.13.1'），能够先用snmpwalk命令看下取值： #失常节点snmpwalk -v3 1.1.1.1 INSPUR-MIB::serverSystemHealthTableINSPUR-MIB::serverCurPowerState."" = STRING: "Power On"INSPUR-MIB::serverUIDState."" = STRING: "UID Off"INSPUR-MIB::serverCPUState."" = STRING: "OK"INSPUR-MIB::serverMemoryState."" = STRING: "OK"INSPUR-MIB::serverHDDState."" = STRING: "OK"INSPUR-MIB::serverFANState."" = STRING: "OK"INSPUR-MIB::serverPSUState."" = STRING: "OK"INSPUR-MIB::serverRAIDState."" = STRING: "OK"INSPUR-MIB::serverTempState."" = STRING: "OK"INSPUR-MIB::serverHealthState."" = STRING: "OK"#异样节点snmpwalk -v3 2.2.2.2 INSPUR-MIB::serverSystemHealthTableINSPUR-MIB::serverCurPowerState."" = STRING: "Power On"INSPUR-MIB::serverUIDState."" = STRING: "UID Off"INSPUR-MIB::serverCPUState."" = STRING: "OK"INSPUR-MIB::serverMemoryState."" = STRING: "WARNING"INSPUR-MIB::serverHDDState."" = STRING: "OK"INSPUR-MIB::serverFANState."" = STRING: "OK"INSPUR-MIB::serverPSUState."" = STRING: "OK"INSPUR-MIB::serverRAIDState."" = STRING: "OK"INSPUR-MIB::serverTempState."" = STRING: "OK"INSPUR-MIB::serverHealthState."" = STRING: "WARNING"INSPUR-MIB::serverCPUStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverMemoryStandardStatus."" = STRING: "Warning"INSPUR-MIB::serverHDDStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverFANStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverPSUStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverRAIDStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverTempStandardStatus."" = STRING: "Normal"INSPUR-MIB::serverHealthStandardStatus."" = STRING: "Warning"通过采集状态能够看出 2.2.2.2 这个机子memory为报警状态。具体如何配置 Telegraf，如何配置夜莺和 Loki 对接，请参看文章：新东方老师教你应用 Telegraf + Loki + Nightingale 实现硬件监控。 ...

关于运维:Windows控制关机锁屏

原文链接设置永不关机新建一个vbs文件，内容如下： Set WshShell = WScript.CreateObject("WScript.Shell")doWScript.sleep 60000WshShell.SendKeys "{ScrollLock}"loop该程序的作用相当于每隔一分钟（60000毫秒）按一下键盘上的ScrollLock键，因而能够让电脑永不关机锁屏。启动形式为双击，启动胜利后不会有任何提醒，然而后盾曾经在运行了。能够从工作管理器查看：如果要敞开不关机工作，能够间接在工作管理器中结束任务。或者也能够写一个bat，内容如下： taskkill /f /im wscript.exe双击运行，即可终止vbs工作。设置自动关机单次设置同时按住 win 键和 R 键，关上运行程序，而后输出如下指令： shutdown -s -t 3600如图所示点击确定，即可实现一小时（3600秒）后关机。如果想在指定工夫敞开电脑，也是同时按住 win 键和 R 键，关上运行程序，而后输出如下指令： at 20:00 shutdown -s点击确定，即可明天20:00关机。如果想勾销，还是同时按住 win 键和 R 键，关上运行程序，而后输出如下指令： shutdown -a即可勾销定时关机。永恒设置如果不想每次都设置定时关机，能够进行永恒设置。搜寻栏搜寻“工作打算程序”，而后关上：关上打算工作后，会呈现下图界面。而后点击“创立工作”：在选项卡点击“惯例”栏，输出名称“定时关机”：而后在选项卡点击“触发器”，在“触发器”页面点击“新建”，弹出上面对话框，即可配置关机工夫，配置实现后点击确定。而后在选项卡点击“操作”，进入“操作”页面后点击“新建”，弹出上面对话框。 “程序或脚本”输出C:\Windows\System32\shutdown.exe，“增加参数”输出-s，点击“确定”：此时“工作打算程序库”中曾经有了“定时关机”工作：如果想勾销工作，右键删除即可。学习更多编程常识，请关注我的公众号：代码的路

关于运维:实用教程Linux系统Windows系统硬盘扩容教程

前言：不少客户买了服务器，因为业务量减少硬盘不够用了。抉择了在服务商那里在线降级硬盘，但降级后查看硬盘大小并未发生变化。因为波及到数据安全问题，硬盘无奈间接减少，须要本人手动扩容！上面就来教大家Linux零碎和Windows零碎如何在线扩容！强烈建议，扩容前先备份数据-扩容前先备份数据-扩容前先备份数据本次测试环境：Centos7.6/Windows-服务器来自：蓝易云特点香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！具体测评文章：点我查看 1、Linux零碎扩容教程首先：扩容分区表 SSH登陆服务器输出命令：df -TH，取得数据盘相干信息能够看到演示服务器的数据盘分区是： /dev/vdb1 扩容前间接执行命令【1后面有个空格不要删除】 growpart /dev/vdb 1其次：扩容文件系统命令 (1) ext文件系统，适宜用本次测试服务器 resize2fs /dev/vdb1(2) xfs文件系统，不适用于本次测试服务器 xfs_growfs /dev/vdb1扩容胜利示例图由30G扩容到40G 扩容胜利 3、Windows零碎扩容教程进入磁盘治理，抉择数据盘。右键点击扩大卷，抉择容量 Windows扩容 3、教程到此结束！

关于运维:Linux升级命令yum-upgrade和yum-update有什么区别

在日常开发工作中，依据不同的我的项目会须要配置环境和包，有时候会因为版本问题呈现谬误，这个时候通常就须要执行 update或者 upgrade命令，这里简要介绍一下区别。更新软件内核也能够修复许多问题！留神：生产环境请勿更新内核！倡议在拿到服务器的时候在更新软件和内核，更新完在部署环境。本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有 IDC 、 ISP 、CDN许可证，为正规商家。具体测评文章：点我查看一、查看零碎以后版本办法一： uname -a办法二： cat /etc/redhat-release办法三： cat /proc/version二、更新测试软件和内核更新代码如下: yum -y update降级所有包同时也降级软件和零碎内核更新前更新后软件更新代码如下: yum -y upgrade只降级所有包，不降级软件和零碎内核试验别离测试 yum -y upgrade和yum -y update 三、最初大家送上：yum常用命令1.列出所有可更新的软件清单命令： yum check-update2.更新所有软件命令： yum update3.仅装置指定的软件命令： yum install 4.仅更新指定的软件命令： yum update 5.列出所有可安裝的软件清单命令： yum list6.删除软件包命令： yum remove 7.查找软件包命令： yum search

关于运维:直播预告-博睿学院AIOps利器混沌工程实践

混沌工程是通过利用一些教训摸索的准则，来学习察看零碎是如何反馈的。利用混沌工程能够对系统抵制扰动并放弃失常运作的能力（稳定性）进行校验和评估，提前辨认未知隐患并进行修复，进而保障系统更好地抵挡生产环境中的失控条件，晋升整体稳定性。本期课程将为大家详解混沌工程的意义以及SwiftAI-chaos的根因剖析实际。 **本期讲师邢路平数智能力核心AI研发工程师** 业务特长：架构设计，性能优化工作经验：曾就任明略科技，负责会话智能，负责后端leader；曾就任瑞银信，负责交易，负责后端leader本期主题：AIOps利器-混沌工程实际扫描海报下方二维码预约观看，课件将于直播后发送至您的邮箱。

关于运维:博睿数据应邀出席第五届双态IT北京用户大会分享如何帮助用户构建高级可观测性

6月10日，第五届双态IT北京用户大会在北京召开，来自IT行业的各位专家齐聚一堂，分享行业理念、发展趋势、运维办法以及最佳实际。博睿数据应邀出席大会，作《如何帮忙用户构建高级可观测性》主题演讲，从云原生带来的挑战和思考、一体化平台以及智能高级可观测性等四方面介绍了博睿数据如何帮忙用户构建高级可观测性。运维监控面临挑战杨雪松指出，云原生带来的运维监控方面的挑战次要体现在越来越多的分布式架构、更加简单的依赖关系、更快的产品生命周期迭代、更高要求的客户体验等方面。传统的IT运维监控工具多样、扩散、庞杂，数据品种不足关联性，导致整个零碎不具备真正的可观测性，最终导致业务受损停滞、企业失去竞争力。一体化智能可观测平台，满足企业运维需要杨雪松介绍到，博睿数据自2008年成立以来曾经15年，有幸于2020年上市，并在行业失去了宽泛的认可，2022年蝉联中国APM市场占有率第一（数据起源：IDC）；并于2022年成为首家也是惟一一家信通院AIOps根因剖析能力测评“优良级”厂商。自上市以来，博睿数据重金打造了一体化智能可观测平台Bonree ONE。回顾产品的倒退，杨雪松指出，博睿数据最早2008年开始做单个产品监控，这是1.0时代，即以点带面的满足需要；再到2.0时代，博睿数据采纳产品拼凑形式来满足客户的一体化需要，但仍面临难以交融的问题；始终到3.0平台，采纳数智交融的模式，致力于实现一个平台满足企业运维监控需要。博睿数据一体化智能可观测平台Bonree ONE，从全局角度洞察混合IT基础设施、数据源、网络、云和边缘端的应用状况，帮忙企业建设端到端的平面全栈监控，更加被动化和智能化地晋升企业运维效率。与传统的IT运维工具相比，Bonree ONE同时面向业务与用户体验运维，囊括了零碎的所有观测数据，进行对立治理，并提供丰盛的集成扩大，开箱即用，实现从孤立的工具到对立平台的建设要求，赋能企业数字化的一体化、智能化。更轻更强更智能，构建高级可观测性从一体化和平台化角度来看，杨雪松示意，博睿数据要给客户搭建的是传统的ITOM从用户端、到利用、到网络、再到基础架构这样端到端可观测；从云原生来讲，博睿数据要从其IaaS平台、到PaaS平台、到博睿数据的利用、到博睿数据的服务，去做平面的监控及可观测。作为更轻更强更智能的新一代一体化智能可观测平台，Bonree ONE 2023秋季正式版领有当先的大数据采集和智能剖析能力，以及稳固弱小的中台能力。在组件瘦身50%的前提下，反对20w探针同时接入，大幅度提高数据集成能力。 Bonree ONE通过文本类似收敛、时序频繁聚合、实体关联聚合的方法，达成 98%以上的常态化告警收敛率。同时，凭借国内独家无监督常识图谱根因算法-自适应AI，无需人工染指，即可造成通用化的场景业务反对以及个性化性能定制，将根因深度剖析全面落地实际。能够看到，在可观测性方面，Bonree ONE实现了数据品质的高可用和真正的AI赋能，让问题预警、根因定位等方面达到前所未有的高度，真正帮忙企业构建高级可观测性。最初，杨雪松总结道，博睿数据自从上市以来，通过丰盛的市场调研，确定了整个产品的倒退路线是从监控降级到可观测，从工具降级到一体化的平台，一体化智能可观测平台Bonree ONE的重磅公布，不论是对立运维可观测、还是智能化运维等都做了全面笼罩，能够给予客户间接的解决方案，防止反复建设，无效降本增效，晋升企业整体的运维效率，给业务翻新带来更多空间。

关于运维:core-dump-路径定义以及监控

Core Dump 是什么？Core Dump 是指过程异样退出时，操作系统将过程的内存状态保留到文件中，这个文件就是 Core Dump 文件，中文个别翻译为“外围转储”，哈，看起来还不如不翻译。咱们能够认为 Core Dump 是“内存快照”，但实际上，除了内存信息之外，还有些要害的程序运行状态也会同时 dump 下来，例如寄存器信息（包含程序指针、栈指针等）、内存治理信息、其余处理器和操作系统状态和信息。 Core Dump 有什么用？一个是用于排查问题，例如程序 crash 了，咱们能够通过 gdb 等工具来剖析 core dump 文件，找到问题的起因。另一个是监控，咱们能够通过监控伎俩及时发现程序 crash 了，及时处理。程序本身产生的 Core Dump 文件个别能够用来剖析程序运行到哪里出错了。 Linux 平台罕用的 coredump 文件剖析工具是 gdb；Solaris 平台用 pstack 和 pflags；Windows 平台用 userdump 和 windbg。测试生成 Core Dump 文件[root@VM-0-33-debian:~# cd /home/user[root@VM-0-33-debian:~# ulimit -c unlimited[root@VM-0-33-debian:~# kill -s SIGSEGV $$这将会在你以后的 shell 下触发一个段谬误，进而生成一个 core dump 文件，文件名为 core 或 core.pid，pid 是以后 shell 的过程号。留神，ulimit -c unlimited 是通知操作系统，不要限度 core dump 文件的大小，如果你执行 ulimit -c 看到输入 0，就示意 core dump 文件大小限度为 0 了，也就不会生成。比方我的机器环境： ...

关于运维:磁盘阵列RAID是什么RAID有什么好处

租用服务器时，硬盘的类型和大小是思考的次要指标之一。服务器罕用的硬盘类型包含HDD硬盘、SSD硬盘等。然而，当初你租服务器的时候，常常会看到RAID0、RAID1之类的写在硬盘参数前面，那么这个【RAID】是什么意思。有什么用。上面简略介绍一下。请输出图片形容 RAID的中文译名也叫磁盘阵列或者冗余磁盘阵列，通常简称RAID，它将多个硬盘依照肯定的规定进行整合，使整个磁盘阵列由阵列控制器（也叫raid卡）进行治理，从而造成一个海量的冗余存储系统。 RAID磁盘阵列也是服务器租用中比拟常见的一种硬盘类型。磁盘阵列最后开发的目标是应用多个硬盘进行冗余存储。即便单个硬盘损坏，也能够疾速修复，从而对数据提供肯定水平的爱护，然而目前也有对硬盘存储进行减速甚至二者兼得的raid组建形式。个别比拟重视数据安全性的企业，基本上都装备了标准配置或对raid阵列的硬性要求。蓝易云香港云服务器中的磁盘阵列有什么益处。现在，香港很多服务器应用RAID磁盘阵列来存储数据，那么香港服务器应用磁盘阵列有什么劣势呢？实际上，它次要体现在以下三个方面： 1. 硬盘要求低。与对数据存储要求较高的业务相比，磁盘阵列对硬盘自身没有要求，大容量硬盘也能够应用，而且价格也不贵。因而，对于数据量特地大、须要平安保障的网站，租用香港服务器存储在磁盘阵列中，既经济又实用。 2. 弱小的劫难复原性能。一般服务器硬盘不具备容错性能，但RAID磁盘阵列能够通过数据验证提供容错性能。存储数据时，零碎会同时向多个硬盘写入数据。它能够保障信息的可读性，并且重要数据不会失落，并且只有更换故障硬盘，零碎就能够主动将数据备份到新硬盘上，确保网站100%失常运行。 3. 进步数据传送率。一些类型的RAID磁盘阵列（如raid 0、raid 1+0等）将多个硬盘组合成一个阵列，并以段的模式将数据存储在不同的硬盘上。多个硬盘同时工作，能够大大减少数据读取和存储的工夫，同时具备更多的安全性，从而进步香港服务器的整体运行效率和数据传输度。蓝易云服务器应用了什么阵列？蓝易云服务器全副应用了RAID10阵列！ RAID10 理论是将RAID 0和RAID 1规范联合的产物在间断地以位或字节为单位宰割数据并且并行读/写多个磁盘的同时，为每一块磁盘作磁盘镜像进行冗余。它的长处是同时领有RAID 0的超常速度和RAID 1的数据高可靠性，然而CPU占用率同样也更高，而且磁盘的利用率比拟低长处：兼顾安全性和速度。

关于运维:Linux系统磁盘无损扩容教程宝塔面板适用

前言随着业务的增大，磁盘空间是越用越多。直到不够用，须要扩容了。却发现在服务商降级磁盘当前，磁盘大小并未发生变化。该如何操作能力实现真正的扩容胜利呢？先说说服务器配置：在操作硬盘扩容前，为了平安起见，请通过磁盘快照性能备份服务器系统盘与数据盘；而后在确保数据安全的状况下操作敞开服务器，购买磁盘空间，期待配置实现后启动服务器；接下来依照如下操作进行： 1、应用SSH近程连贯到服务器 2、运行 umount [文件系统名称] 命令卸载主分区注意事项：这里操作的时候如果呈现报错，先敞开swap分区跟卸载主机监控以及进行宝塔相干服务（1）敞开swap分区： swapoff -a（2）卸载主机监控（局部主机商有）： /usr/local/cloudmonitor/wrapper/bin/cloudmonitor.sh remove && \ rm -rf /usr/local/cloudmonitor（3）解除占用（把占用 /dev/vdb1 的过程杀死）： fuser -m -k /dev/vdb1（4）卸载主分区： umount /dev/vdb1应用 df -h 查看是否卸载胜利，如果看不到 /dev/vdb1 的信息示意卸载胜利。以下为示例输入后果：演示 3、应用 fdisk 命令删除原来的分区并创立新分区：（1）运行命令 fdisk -l 列出分区信息并记录扩容前数据盘的最终容量、起始扇区（First sector）地位演示（2）运行命令 fdisk [数据盘设施名] 进入 fdisk 界面本示例中，命令为 fdisk /dev/vdb 输出 d 并按回车键，删除原来的分区（删除分区不会造成数据盘内数据的失落）输出 n 并按回车键，开始创立新的分区输出 p 并按回车键，抉择创立主分区 ...

关于运维:超详细Linux系统之nethogs命令

1.简介NetHogs是一个小型的net top工具，不像大多数工具那样拖慢每个协定或者是每个子网的速度而是按照过程进行带宽分组。 NetHogs不须要依赖载入某个非凡的内核模块。如果产生了网络梗塞你可能应用NetHogs立刻看到哪个PID造成的这种状况。这样就很容易找出哪个程序忽然长时间占用你的带宽。 NetHogs是一个相似于Linux的top指令的开源的指令行货色，用来按过程或程序实时计算网络带宽使用率，它可能直观的显示每个过程占用的带宽。 Centos装置： yum install nethogs -yUbuntu装置： sudo apt-get install nethogs装置实现后间接SSH内执行：nethogs 即可效果图 2.参数阐明-V打印命令版本-h打印帮忙-bbughunt模式-d指定显示刷新频率，单位秒，默认1秒-v指定流量单位模式(0 = KB/s, 1 = total KB, 2 = total B, 3 = total MB)-c设置刷新更新次数-ttracemode模式，能够记录下每一次刷新的流量值-p混淆模式下监听流量（不倡议应用）-s依照发送流量排序输入-a监控所有网卡端口，包含环回接口3.运行模式下按键阐明q退出s依照发送流量排序r依照承受流量排序m切换端口流量单位显示模式在B,KB,MB之间流量切换4.教程完结，就能够失常应用啦。

关于运维:高危-Apache-Kafka-远程代码执行漏洞复现及攻击拦截-CVE202325194

破绽简介Apache Kafka是一个分布式数据流解决平台，能够实时公布、订阅、存储和解决数据流。Kafka Connect是一种用于在kafka和其余零碎之间可扩大、牢靠的流式传输数据的工具。攻击者能够利用基于SASLJAAS 配置和SASL 协定的任意Kafka客户端，对Kafka Connect worker 创立或批改连接器时，通过结构非凡的配置，进行JNDI 注入来实现近程代码执行。影响版本2.4.0<=Apache kafka<=3.3.2 修复计划更新Apache Kafka至官网最新版本环境搭建通过https://github.com/vulhub/vulhub搭建破绽复现exp可参考：https://github.com/projectdiscovery/nuclei-templates/blob/5d90e8275084b0ae9166ec38cacd22e5a5a94fb8/http/vulnerabilities/apache/apache-druid-kafka-connect-rce.yaml 发动攻打申请：结构payload ,执行新建/tmp/test.txt文件验证破绽存在，文件新建胜利开启RASP后发动攻打：在业务优先模式下，RASP会呈现JNDI注入的告警，拦挡最终的命令执行堆栈信息为在防护模式下将间接在JNDI注入处被拦挡堆栈信息为破绽剖析开始org.apache.kafka.clients.producer.KafkaProducer#KafkaProducer(java.util.Properties) 跟进到org.apache.kafka.clients.producer.KafkaProducer#KafkaProducer(java.util.Propertiesorg.apache.kafka.common.serialization.Serializer<K>,org.apache.kafka.common.serialization.Serializer<V>) 调用org.apache.kafka.common.utils.Utils#propsToMap对传入对象进行解决将map型的对象传入org.apache.kafka.clients.producer.KafkaProducer#KafkaProducer(java.util.Map<java.lang.String,java.lang.Object>org.apache.kafka.common.serialization.Serializer<K>org.apache.kafka.common.serialization.Serializer<V>) 之后调用org.apache.kafka.clients.producer.ProducerConfig#appendSerializerToConfig 将返回的newConfigs传入org.apache.kafka.clients.producer.ProducerConfig#ProducerConfig(java.util.Map<java.lang.String,java.lang.Object>) 将配置参数传入org.apache.kafka.clients.producer.KafkaProducer#KafkaProducer(org.apache.kafka.clients.producer.ProducerConfig,org.apache.kafka.common.serialization.Serializer<K>org.apache.kafka.common.serialization.Serializer<V>org.apache.kafka.clients.producer.internals.ProducerMetadata,org.apache.kafka.clients.KafkaClientorg.apache.kafka.clients.producer.internals.ProducerInterceptors<K,V>org.apache.kafka.common.utils.Time) 赋值后调用org.apache.kafka.clients.producer.KafkaProducer#newSender 调用到org.apache.kafka.clients.ClientUtils#createChannelBuilder 赋值后调用org.apache.kafka.common.network.ChannelBuilders#clientChannelBuilder 这里对值做了一个判断后调用org.apache.kafka.common.network.ChannelBuilders#create Create办法中失去map型的configs后进行switch，失去SaslChannelBuilder类型channelBuilder的对象，switch完结后调用了org.apache.kafka.common.network.SaslChannelBuilder#configure org.apache.kafka.common.network.SaslChannelBuilder#configure进入循环后到org.apache.kafka.common.security.authenticator.LoginManager#acquireLoginManager 判断值后到org.apache.kafka.common.security.authenticator.LoginManager#LoginManager 跟进到org.apache.kafka.common.security.authenticator.AbstractLogin#login 调用javax.security.auth.login.LoginContext#login 调用javax.security.auth.login.LoginContext#invokePriv 调用javax.security.auth.login.LoginContext#invoke进行逻辑判断后调用initialize办法 Initialize中失去userProvider user.provider.url通过jndi提供调用com.sun.security.auth.module.JndiLoginModule#login 调用com.sun.security.auth.module.JndiLoginModule#attemptAuthentication 通过javax.naming.InitialContext#lookup(java.lang.String)执行userProvider的值因为RASP对javax.naming.InitialContext.lookup调用做了防护策略检测，所以会在此处拦挡。 Referencehttps://github.com/luelueking/Java-CVE-Lists#cve-2023-25194https://blog.snert.cn/index.php/2023/04/04/cve-2023-25194-kaf... 对于云鲨RASP悬镜云鲨RASP助力企业构建利用平安爱护体系、搭建利用平安研运闭环，将踊跃防御能力注入业务利用中，实现利用平安自免疫。详情欢送拜访云鲨RASP官网https://rasp.xmirror.cn/

关于运维:直播回顾-一体化智能可观测平台如何保障电商节大促

随着物流快递、在线领取和电子认证等服务业越来越成熟，电商行业失去了迅猛的倒退。各大电商平台也积极探索适宜本人业务高速倒退的技术和业务架构，如何满足业务一直倒退的需要? 如何在业务爆发式增长的前提下保障IT零碎的性能、可靠性? 6月9日，博睿数据联结ITPUB社区及京东，独特举办电商节运维保障专题沙龙——《一体化智能可观测平台如何保障电商节大促》，京东研发效力专家井亮亮、博睿数据资深客户胜利总监刘聃、博睿数据IT运维负责人张念礼做客直播间，独特摸索电商行业运维保障痛点以及智能运维的利用实际。Bonree一体化智能可观测，被动把握用户体验博睿数据资深客户胜利总监刘聃指出，电商节期间，业务零碎访问量爆增，面对数百亿的拜访申请，在高负载、高并发、高挑战的网络压力下，如何优化用户体验，保障电商节期间外围服务零重大故障成为重中之重。博睿数据基于一体化智能可观测平台与主动式拨测，对要害流动页面进行监测，提前通过不同网络环境的监测点发动拜访，实现CDN预热、云服务网络品质、云服务链接异样等景象提前感知。同时，被动监控剖析商品搜寻、增加购物车、下单、领取等要害流程的性能数据，记录残缺的用户旅程，并笼罩所有的终端、APP、小程序、网页，及时发现须要优化的环节，在用户发现前提前解决，进而被动把握用户体验，晋升用户留存率与要害业务成功率。在工具+平台+解决方案的兼具的背景下，博睿数据客户胜利核心还会为电商客户提供重大流动现场保障服务，实时监测零碎性能。以2022年博睿数据保障的某电商客户为例，在总流量峰值成倍增涨的背景下，博睿数据变被动为被动，电商节期间该电商客户GMV高达2692亿元，用户投诉率升高12.1%，全程服务0故障，圆满完成重保。Bonree数智化转型驱动运维体系保障博睿数据IT运维负责人张念礼为大家分享了数智化转型驱动下，如何通过一体化智能可观测平台保障运维体系的稳定性，更好地为电商节提供服务？面对电商企业在运维畛域存在的一系列痛点，博睿数据为电商行业提供网络品质监测等多种终端用户应用场景下的利用性能体验监控，帮忙电商企业精准定位性能瓶颈、晋升市场竞争力，优化云服务质量。在电商节重大流动保障期间，博睿数据能够提供全栈式运维保障服务，从事前通过残缺能力矩阵进行故障预测与防备，到事中通过要害指标与业务趋势保障业务运行状态，再到预先及时复盘业务教训。相较于传统的监控，博睿数据一体化智能可观测平台通过欠缺的监控体系，能够从根本上对系统进行优化和改良，在用户投诉前预警危险，提前发现问题，缩短MTTR，为电商节安稳进行保驾护航。在直播QA互动问答环节中，面对网友提出的产品落地问题，刘聃示意博睿数据一体化智能可观测平台Bonree ONE的利用不止于电商行业，目前已在中海油、智联招聘、北汽团体、易宝领取等多个家先进企业的运维实际中失去利用。博睿数据专一赋能企业数智化转型15年，始终秉承“客户第一”的理念，已取得1000+客户的信赖与抉择。博睿数据一体化智能可观测平台Bonree ONE的当先能力，将帮忙企业晋升零碎稳定性与IT运维效率，助力企业数智化转型，抢占数字经济先机。

关于运维:阿里云ACE改革后考试内容是什么考试费用是多少

去年四月阿里云ACE考试进行了一次改革，考试内容、考试费用、考试模式都进行了大改革，上面小编简略介绍一下，有须要的能够在认证大使上具体理解。阿里云ACE考试概述阿里云云计算架构师ACE认证（Alibaba Cloud Certified Expert - Cloud Computing）是针对云架构师，解决方案架构师，云运维专家等技术人员的阿里云高级别技术认证。通过该技术认证能够无效证实该认证人员具备丰盛的需要剖析能力，云架构设计能力，云架构部署施行能力，云架构诊断和调优能力，洞察业务痛点，制订无效的技术改良计划，最大限度地进步零碎架构可扩展性，安全性，可靠性，耐用性和老本效益等个性。阿里云ACE考试内容 1、口试私有云-平安-基础设施、业务&数据私有云-存储私有云-计算私有云-架构私有云-数据库私有云-网络、组网私有云-原生-容器、微服务&中间件混合云 2、试验 3、面试阿里云ACE考试事项 1、口试费用为2400，试验和面试是3600，总体费用为9600； 2、每个科目只有一次考试机会，通过后才能够拿到证书，三个科目要在一年内通过； 3、口试在线下考，考生须要在官网上预约当地的考试核心，试验和面试在杭州的阿里云园区进行。

关于运维:一文搞懂-IaaSPaaSSaaS-的区别

当初的公司用的是paas架构。这里记录一下laas、paas、sass的常识。转载自阮一峰大佬。http://www.ruanyifeng.com/blog/2017/07/iaas-paas-saas.html 越来越多的软件，开始采纳云服务。云服务只是一个统称，能够分成三大类。 IaaS：基础设施服务，Infrastructure-as-a-servicePaaS：平台服务，Platform-as-a-serviceSaaS：软件服务，Software-as-a-service它们有什么区别呢？IBM 的软件架构师 Albert Barron 已经应用披萨作为比喻，解释这个问题。David Ng 进一步引申，让它变得更精确易懂。请构想你是一个餐饮业者，打算做披萨生意。你能够从头到尾，本人生产披萨，然而这样比拟麻烦，须要筹备的货色多，因而你决定外包一部分工作，采纳别人的服务。你有三个计划。（1）计划一：IaaS别人提供厨房、炉子、煤气，你应用这些基础设施，来烤你的披萨。（2）计划二：PaaS除了基础设施，别人还提供披萨饼皮。你只有把本人的配料洒在饼皮上，让他帮你烤进去就行了。也就是说，你要做的就是设计披萨的滋味（海鲜披萨或者鸡肉披萨），别人提供平台服务，让你把本人的设计实现。（3）计划三：SaaS别人间接做好了披萨，不必你的染指，到手的就是一个成品。你要做的就是把它卖出去，最多再包装一下，印上你本人的 Logo。下面的三种计划，能够总结成上面这张图。从左到右，本人承当的工作量（上图蓝色局部）越来越少，IaaS > PaaS > SaaS。对应软件开发，则是上面这张图。 SaaS 是软件的开发、治理、部署都交给第三方，不须要关怀技术问题，能够拿来即用。普通用户接触到的互联网服务，简直都是 SaaS，上面是一些例子。客户治理服务 Salesforce团队协同服务 Google Apps贮存服务 Box贮存服务 Dropbox社交服务 Facebook / Twitter / Instagram PaaS提供软件部署平台（runtime），形象掉了硬件和操作系统细节，能够无缝地扩大（scaling）。开发者只须要关注本人的业务逻辑，不须要关注底层。上面这些都属于 PaaS。 HerokuGoogleAppEngineOpenShiftIaaS 是云服务的最底层，次要提供一些根底资源。它与 PaaS 的区别是，用户须要本人管制底层，实现基础设施的应用逻辑。上面这些都属于 IaaS。 AmazonEC2DigitalOceanRackSpace Cloud微软的 Azure 云服务有一张图，解释这三种模式的差别。上图中，绿色的局部是云服务商决定的，紫色的局部是用户决定的。能够看到，SaaS 模式下用户没有任何自主权，只能应用给定的应用程序；PaaS 模式下能够本人装置应用程序，然而不能定制操作系统；IaaS 模式下则是云服务商提供（虚构的）硬件，从操作系统开始都能够本人抉择和定制。

关于运维:简化员工管理助力组织高效运营

在古代组织中，高效的员工治理是胜利的要害之一。然而，随着员工数量的减少和组织构造的复杂化，手动解决员工治理工作变得繁琐而耗时。在这种状况下，ADManager Plus作为一款杰出的员工治理解决方案，通过其卓越的性能和自动化流程，帮忙组织简化员工治理过程，提高效率。本文将介绍ADManager Plus的几个亮点性能，并探讨它如何为组织带来便当和效益。批量管理工具 ADManager Plus提供了弱小的批量治理性能，能够同时解决多个员工的信息。管理员能够轻松地创立、编辑、删除用户账户、设置权限、治理组成员等，无需一一操作。这样，员工治理工作能够在几分钟内实现，大大提高了工作效率。角色和权限治理 ADManager Plus具备灵便的角色和权限治理性能。管理员能够依据组织的需要创立不同的角色，并为每个角色调配特定的权限。这样，能够确保员工只能拜访他们须要的性能和信息，爱护数据的安全性。自动化工作流程 ADManager Plus反对自动化工作流程，使员工治理过程更加顺畅和高效。例如，当员工到职时，ADManager Plus能够主动执行一系列操作，如禁用账户、挪动到到职用户组、革除权限等，从而缩小了人工干预和脱漏的危险。报告和审计性能 ADManager Plus提供了丰盛的报告和审计性能，帮忙管理员跟踪和监控员工治理流动。管理员能够生成各种报告，如账户创立和删除报告、权限变更报告、登录流动报告等，以便及时发现异常流动和平安危险。集成和自定义 ADManager Plus能够与其余零碎和应用程序进行集成，以实现更高级的员工治理性能。此外，它还提供了自定义选项，容许管理员依据组织的需要进行定制和配置，以满足特定的员工治理需要。主动解锁账户 ADManager Plus能够主动监控账户锁定状况，并依据预设规定进行主动解锁。这打消了手动解锁账户的繁琐过程，缩小了员工无奈登录零碎的工夫和不必要的干涉。主动执行定时工作 ADManager Plus反对主动执行定时工作性能，让管理员能够在特定工夫主动执行员工治理工作。这意味着管理员能够事后设置工作，让零碎按计划主动实现，无需实时监督和操作。用户主动创立和同步 ADManager Plus能够与人力资源管理系统（HRMS）集成，实现主动创立和同步员工账户的性能。这样，当新员工退出组织时，他们的账户能够主动创立，并同步其个人信息，防止了繁琐的手动操作和数据不统一的问题。总而言之，ADManager Plus作为一款功能强大的员工治理解决方案，提供了许多自动化和简化的性能，帮忙组织高效地治理员工信息和流动目录。它的批量管理工具、自动化工作流程和丰盛的报告性能等，大大简化了员工治理过程，进步了工作效率。通过应用ADManager Plus，组织能够更好地治理员工信息、保障数据安全，并晋升员工满意度和组织经营效率。

关于运维:太卷了史上最简单的监控系统-catpaw-简介

指标监控的痛点当下比拟风行的监控零碎，比方 Prometheus、Nightingale、VictoriaMetrics，都是基于数值型指标的监控零碎，这类监控零碎的痛点在于：告警的时候只能拿到异样值，以及无限的几个标签，难以拿到更具体的信息。比方 HTTP 探测监控，通常用监控值示意不同的谬误： Success = 0ConnectionFailed = 1Timeout = 2DNSError = 3AddressError = 4BodyMismatch = 5CodeMismatch = 6告警的时候，比方你收到一个异样值，说拜访 http://x.com 异样了，异样值是 3，须要比拟资深的人才能晓得这个异样是 DNS 解析失败，对于一般研发，就会很懵。当然了，咱们能够在告警规定的备注里把这个异样值和谬误音讯的对应关系写上，但总感觉这样不太优雅。如果咱们能在告警的时候，把具体错误信息也一并通知接收者，那就更好了。比方，咱们更心愿的是收到相似上面的信息：本文看完，就能够做到上图的成果了，咱们持续。当然了，也能够用日志零碎来做这类监控，比方 ElasticSearch、Loki，而后辅以一个周期性查问的告警引擎就能够了。然而整个架构就简单了，另外，如果还要思考告警接管人治理、告警媒介对接治理、告警触达策略、降噪规定、静默规定、克制规定、排班、认领、降级等等，那就更简单了，有没有轻量的工具可用？思路最轻量的工具，显然是 SaaS 类工具，无需部署、保护，即开即用，快猫星云提供了 FlashDuty，用于聚合接管各个监控零碎的告警事件，比方 Prometheus、Zabbix、Nightingale、私有云云监控，提供告警事件的对立纳管、灵便派发、静默、排班认领降级等性能，这里不再赘述。基本上，能够认为 FlashDuty 曾经实现了事件后续解决的所有性能。如果咱们能有一个工具，能够产出告警事件，而后把告警事件推送到 FlashDuty，那就能够实现十分齐备的性能了。而且 FlashDuty 是 SaaS 化的，无需保护，咱们只须要搞一个轻量的小工具跑在本人的环境下采集异样事件即可，这个小工具就是 catpaw。适宜的场景catpaw 不能取代指标监控和日志零碎，它只是一个轻量的 check 工具，一些场景举例：探测某个 HTTP 地址，如果不可用，把不可用的起因收回来探测某个 TCP 地址，如果不可用，把不可用的起因收回来探测某个文件，如果文件不存在，或者 MD5 发生变化，收回告警事件探测 ulimit 配置，如果发现不合理，收回告警事件探测目录是否可读可写，如果异样收回告警事件探测是否有目录已写满，如果写满的目录，收回告警事件，把 df -h 的后果一并发进去探测某个过程是否存在，如果不存在，收回告警事件探测 MySQL 慢查问，如果发现慢SQL，收回告警事件，事件中带上SQL探测 MySQL 主从提早，如果提早超过阈值，收回告警事件，事件中带上延迟时间以及两个 Thread 的状况接管 SNMP Trap 音讯，如果音讯中蕴含某个关键字，收回告警事件查看系统日志，如果呈现某个关键字，告警，把日志详情一并发进去....更多场景不再赘述，其特点基本上能够概括为： check 的时候曾经能够晓得是否失常check 的时候大概率能够拿到异样起因或者现场值，把这些信息一并发进去其实吧，这就是 nagios 的逻辑，只不过 nagios 装置简单、组件散乱、短少 FlashDuty 这样的事件后续解决能力。我更想要的是一个轻量的事件采集器，配置 FlashDuty，完满。 ...

关于运维:Linux系统df命令详解显示磁盘空间使用情况

df命令来自于英文词组”Disk Free“的缩写，其性能是用于显示零碎上磁盘空间的使用量状况。df命令显示的磁盘使用量状况含可用、已有及使用率等信息，默认单位为Kb，倡议应用-h参数进行单位换算，毕竟135M比138240Kb更利于浏览对吧~ 日常广泛用该命令能够查看磁盘被占用了多少空间、还剩多少空间等信息。本次测试环境：Centos7.6零碎-服务器来自：蓝易云定位建站服务器，特点是香港五网CN2网络，国内速度优良，反对VPC内网互联、快照、备份等性能。挪动+联通+电信+教育网+广电-五网CN2-提早超低！蓝易云持有IDC、ISP、CDN许可证，为正规商家。语法格局： df [参数] [对象磁盘/分区] 罕用参数： -a显示所有系统文件-B <块大小>指定显示时的块大小-h以容易浏览的形式显示-H以1000字节为换算单位来显示-i显示索引字节信息-k指定块大小为1KB-l只显示本地文件系统-t <文件系统类型>只显示指定类型的文件系统-T输入时显示文件系统类型-- -sync在获得磁盘应用信息前，先执行sync命令参考实例带有容量单位的显示零碎全副磁盘使用量状况： [root@C20221124344282 ~]# df -hFilesystem Size Used Avail Use% Mounted ondevtmpfs 898M 0 898M 0% /devtmpfs 914M 0 914M 0% /dev/shmtmpfs 914M 33M 882M 4% /runtmpfs 914M 0 914M 0% /sys/fs/cgroup/dev/vda1 30G 1.5G 29G 5% /tmpfs 183M 0 183M 0% /run/user/0带有容量单位的显示指定磁盘分区使用量状况： [root@C20221124344282 ~]# df -h /bootFilesystem Size Used Avail Use% Mounted on/dev/vda1 30G 1.5G 29G 5% /显示零碎中所有文件系统格局为xfs的磁盘分区使用量状况： ...

关于运维:直播预告-一体化智能可观测平台如何保障电商节大促

关于运维:阿里云的认证到底好不好考试有什么条件

进入社会之后，才会发现证书有如许重要，而对于从事信息技术行业的人来说，考一个有含金量的证书是非常有用的，不仅能够进步本人的职业竞争力，还能够帮忙本人升职加薪，而阿里云作为目前市场占比最大是云计算厂商，其旗下的证书也被业界内宽泛认可，上面大使简略介绍一下，有须要的能够在认证大使上具体理解一下。阿里云认证概述阿里云针对不同产品类别、用户成长阶段、生态岗位，精心打造不同的认证考试。对集体而言，能够证实您在对应技术畛域的业余度，可能基于阿里云产品解决理论问题。取得更多阿里云生态下的就业机会；对公司来说，通过阿里云认证造就、开掘专业人才，晋升公司的云上技术能力。取得更多阿里云生态我的项目商机。阿里云考试等级 1、ACA证书这是阿里云的根底证书，是面向应用阿里云根底产品的业余技术认证，次要波及阿里云的计算、存储、网络、安全类的外围产品，是对学员把握阿里云次要产品技术技能程度的全面测验和能力认证，次要面向学生群体及开发者，也能够做为运维人员的入门证书。考试内容：云计算根底弹性计算云容器云存储云数据库云网络云平安 2、ACP证书阿里云云计算高级工程师ACP认证（Alibaba Cloud Certified Professional - Cloud Computing）是面向应用阿里云云计算产品的架构、开发、运维类人员的业余技术认证，次要考核考生利用阿里云云计算技术服务体系设计稳固、平安、高性能、易扩大、低成本的企业云计算架构的能力。考试内容：云服务器 ECS弹性伸缩（Auto Scaling）负载平衡 SLB 专有网络 VPC 对象存储 OSS 内容散发网络 CDN 平安（云盾、云平安）云计算通用常识 3、ACE证书阿里云云计算架构师ACE认证（Alibaba Cloud Certified Expert - Cloud Computing）是针对云架构师，解决方案架构师，云运维专家等技术人员的阿里云高级别技术认证。通过该技术认证能够无效证实该认证人员具备丰盛的需要剖析能力，云架构设计能力，云架构部署施行能力，云架构诊断和调优能力，洞察业务痛点，制订无效的技术改良计划，最大限度地进步零碎架构可扩展性，安全性，可靠性，耐用性和老本效益等个性。考试内容：私有云-平安-基础设施、业务&数据私有云-存储私有云-计算私有云-架构私有云-数据库私有云-网络、组网私有云-原生-容器、微服务&中间件混合云阿里云考试事项 1、阿里云考试年满18岁就能够加入，须要领有身份证。 2、考试分为线上和线下两种，参加考试时须要携带身份证。 3、线下考试要在官网上查问当地的考试核心安顿。

关于运维:如何减少创建订单支付等线上写场景漏测去哪儿流量录制回放实践

一分钟精髓速览流量录制与回放技术在故障排除、性能优化和降级迁徙等方面具备重要的利用价值。流量录制是指记录网络通信过程中的数据包，包含申请和响应数据，以便后续剖析和调试。流量回放则是将录制的数据包从新发送到网络中，以模仿实在的网络通信环境，验证网络应用程序的性能和稳定性。本文以去哪儿网为例，介绍流量录制与回放实际，探讨其在接口自动化测试和全链路压测中的利用功效。作者介绍去哪儿高级Java研发工程师——沙丹丹 TakinTalks社区专家团成员。2017年退出去哪儿，致力于晋升研发和测试人员的效率。在CICD、测试工具畛域有丰盛的教训，负责去哪儿网写接口自动化测试从0-1的落地、写场景全链路压测从0-1落地。舒适揭示：本文约4500字，预计破费8分钟浏览。后盾回复 “交换” 进入读者交换群；回复“5131”获取课件材料；背景去哪儿网是一种漏斗形业务构造，从搜寻、生单到领取，其QPS是逐步升高的，所以前几年咱们更关注漏斗顶端的读场景测试，即搜寻环节的测试。而生单和领取这类写场景的测试，因为测试数据结构艰难、保护老本等各类起因，此前去哪儿网写场景的测试能力不够欠缺，很多零碎的写接口只能依附人工测试。而人工测试的弊病是非常明显的，比方零碎改变大、改变频繁，容易产生漏测等。这就会导致故障频发，甚至影响用户的出行和体验。（去哪儿网某小部门近一年的故障列表）从故障产生列表能够看出，在接入写接口自动化测试之前，均匀每个月都会产生2～3个故障。深入分析这些故障，基本上都是因为数据和环境有余，导致某些非凡Case场景没被测试到，或是某些回归Case漏测导致的。基于以上的痛点，去哪儿将两种次要的写场景测试计划进行了比照。综合比照结构Case老本、上游数据Mock老本、保护老本等各方面，最终咱们抉择利用录制回放技术。我接下来将分享录制回放技术在去哪儿的具体落地，次要蕴含该技术在接口自动化测试、全链路压测中的利用和落地成果。二、技术计划如何抉择和演进？阶段一：Areas（二开JVM-Sandbox）阿里在2017年开源JVM-Sandbox，去哪儿网基于它开发了自动化测试工具Areas。但在应用过程中，此工具有肯定的局限性。比方，工具应用方须要引入jar包接入老本高，工具保护方须要开发对应的插件，开发成本高。阶段二：Q-Thanos-Agent（二开JVM-Sandbox-Repeter）起初在2019 年阿里又开源了一个专门做录制回放的JVM-Sandbox-Repeater。其劣势是有阿里开源社区的反对，可靠性比拟高。它能够开发自定义插件，扩展性很强，整体开发成本较低，能够疾速落地实现。而因为它有两层封装——底层是 JVM Sandbox，上一层是Repeater。为了实现跨线程录制，就义了一部分性能，所以对QPS较高的服务会有肯定性能影响。目前去哪儿网仍在应用该Agent，前面我也将介绍其具体性能影响。阶段三：Cinema-Agent（自研）因为要将录制回放技术利用到全链路压测的场景中，所以对于 Agent 的性能有了更高要求，因而去哪儿网自研了Cinema-Agent。其劣势是它是齐全自研的，与公司的根底组件联合性更高，开发人员的开发和保护体验会更好，性能也会更好。目前为止，去哪儿在线上的所有利用都装置了此Agent，暂未发现性能瓶颈。阶段二和阶段三的两个Agent目前都在应用中，只是用处和场景不同——Q-Thanos-Agent次要利用于写接口的自动化测试，Cinema Agent 次要利用于写场景的全链路压测。接下来我将别离介绍这两个 Agent 的利用。三、录制回放技术在接口自动化测试中的利用3.1 反对的性能写接口的特点是对于同样的参数，屡次申请的返回数据是不幂等的。目前去哪儿接口自动化测试反对的性能如下： 1）读接口的自动化回归测试。其测试形式是间接发动申请。 2）写接口的自动化回归测试。它应用的技术就是录制回放。 3）利用配置批改自动化验证。 3.2 测试流程整体的测试流程是用户首先在自动化测试平台里新建利用配置，包含接口配置还有录制回放的配置。在正式测试阶段，首先是触发测试。而后生成Case，同时会部署它的环境。而后执行Case。最终将执行 Case 的后果进行Diff，而后生成测试报告。 3.3 录制回放实现原理3.3.1 JVM-Sandbox-Repeater 的原理在沙箱的世界观中，任何一个 Java 办法的调用都能够拆分出三种事件——Before、Return 和Throw。比方，在执行行为A之前，能够获取其 Before 事件，拿到URI和申请参数。在行为A执行实现后，就把这种事件叫做 Return 事件，探测到 Return 事件时，咱们能够获取到该办法的返回值。执行行为A的过程中如果抛异样，此时就是会产生一个Throw事件。由此咱们就能够失去一个 Java 办法的 URI、Request 和 Response 来实现对行为 A的录制。比方一个线上服务 Service A，它下面装了一个Repeater Agent。当一个 HTTP 的内部申请进来时，咱们就能够失去这个申请的 URI、 Request。如果内部申请又调了Service B或Service C，或者是进行了 Redis/ MySQL 数据库的查问批改，也同样能够失去这些子调用信息，并把申请参数和返回值录制下来。 ...

关于运维:聊点技术-可观测性十问十答

随着各个企业在数字化转型的浪潮中一直翻涌后退，IT业务复杂程度与规模体积爆发式增长，可观测性工具成为倒退刚需。在Gatner公布的2023年须要摸索的十大策略技术趋势中，“可观测性”被列为其中之一。那么，为什么可观测性如此重要？有哪些值得关注的演进趋势？如何设计落地计划？本文将围绕可观测性为大家一一解答。 Q1、什么是可观测性？在IT和云计算中，可观测性是基于系统生成的数据（如指标、调用链、日志）来测量零碎外部状态的能力。可观测性依赖于源自多云计算环境中端点和服务的仪器的遥测。在这些古代环境中，每个硬件、软件和云基础设施组件以及每个容器、开源工具和微服务都会生成每个流动的记录。可观测性的指标是理解所有这些环境和技术之间产生了什么，从而检测并解决问题，以放弃零碎高效牢靠的运行。可观测性解决方案能够帮忙企业检测和剖析事件对其经营、软件开发生命周期、应用程序平安和最终用户体验的重要性。近年来，随着云本地环境变得更加简单，故障或异样的潜在根本原因变得更加难以查明，收集和解决可观测性数据对业务的益处更加不言而喻。因为云服务依赖于一个独特的分布式动静体系结构，可观测性有时也可能指企业用来解释云性能数据的特定软件工具和实际。 Q2、可观测性的三要素是什么？可观测性三要素即：Metrics、Trace、Log (指标、调用链、日志)。这三种因素在监控体系中独自去看也是有本身价值的。但如果只通过一种数据的模型，那就很难构建出寻找问题外围的能力。所以说，须要把这三种类型的数据有机的贯通在一起，造成一个立体化的架构，使它们相互去施展各自的特长，做到可能应用遥测数据来实现改善最终用户体验和业务成绩的最终目标。 Q3：为什么可观测性很重要？在企业环境中，可观测性有助于跨职能团队了解并答复无关高度分布式系统中产生的事件，可能理解什么是慢的或坏的，以及须要做什么来进步性能。有了可观测性解决方案，企业能够收到无关问题的警报，并在问题影响用户之前被动解决问题。因为古代云环境是动静的，规模和复杂性一直变动，大多数问题既不已知也不受监控。可观测性解决了“未知的未知”这一常见问题，帮忙企业在呈现新问题时可能继续主动地了解它们。可观测性也是AIOps的一项要害能力。随着越来越多的组织采纳云本机架构，他们也在寻找实现AIOps的办法，利用AI在整个DevSecOps生命周期中自动化更多流程。通过将人工智能利用于所有——从收集遥测数据到剖析整个技术堆栈中产生的事件——企业取得牢靠的答案，这对于自动化应用程序监控、测试、间断交付、应用程序平安和事件响应至关重要。可观测性的价值并不局限于IT案例。一旦开始收集和剖析可观测性数据，企业就有了一个理解数字服务业务影响的贵重窗口。这种可视性可能优化转换，验证软件版本是否满足业务指标，掂量用户体验SLO的后果，并依据最重要的内容确定业务决策的优先级。当可观测性解决方案还应用合成和实在用户监控剖析用户体验数据时，企业能够在用户之前发现问题，并基于实在、即时的反馈设计更好的用户体验。 Q4：可观测性的劣势体现在哪些方面？可观测性为IT团队、企业和最终用户带来了微小的益处。举例来说： 1.应用程序性能监控：齐全的端到端可观测性使企业可能更快地理解应用程序性能问题的本源，包含云本机和微服务环境中呈现的问题。先进的可观测性解决方案还可用于更多自动化流程，进步经营和利用团队的效率和翻新。 2.DevSecOps和SRE：可观测性是应用程序及其反对基础设施的一个根本属性。创立软件的架构师和开发人员必须将其设计为可观测的。同时DevSecOps和SRE团队能够在软件交付生命周期中利用和解释可观测到的数据，以构建更好、更平安、更具弹性的应用程序。 3.基础设施、云和Kubernetes监控：基础设施和经营（I&O）团队能够利用可观测性解决方案提供的加强环境来进步应用程序的失常运行工夫和性能，缩小查明和解决问题所需的工夫，检测云提早问题，优化云资源利用率，并改善对Kubernetes环境和古代云架构的治理。 4.最终用户体验：良好的用户体验能够进步企业名誉，在竞争中获得劣势。通过在最终用户留神到问题之前发现并解决问题，并在用户提出要求之前进行改良，企业能够进步用户满意度和保留率。还能够通过实时播放来优化用户体验，间接取得一个窗口，让最终用户的体验与他们看到的雷同，从而很快在改良方面达成统一。 5.业务剖析：企业能够将业务上下文与全堆栈应用程序剖析和性能联合起来，以理解实时业务影响，改良转换优化，确保软件公布满足预期业务指标，并确认企业恪守外部和内部SLA。DevSecOps团队能够利用可观测性来取得对他们开发的应用程序的更多见解，并自动化测试和CI/CD过程，以便更快地公布品质更好的代码。从生产力的角度来看，可观测性进步了企业的效率，增强了对无效单干至关重要的踊跃工作关系，进一步为企业翻新和数字化转型关上了大门。更重要的是，最终用户将以高质量的用户体验的模式受害。 Q5：可观测性和监控之间有什么区别？尽管可观测性和监控是相干的，并且能够互相补充，但它们实际上是不同的概念。在监控场景中，通常会事后配置仪表盘，以揭示当前可能会看到的性能问题。然而，这些仪表盘依赖于一个要害假如，即可能在问题产生之前预测将遇到什么类型的问题。云原生环境不适宜这种类型的监控，因为它们是动静的、简单的，这意味着无奈提前晓得可能会呈现什么样的问题。在可观测性场景中，环境已被齐全检测以提供残缺的可观测性数据，能够灵便地摸索正在产生的事件，并疾速找出可能无奈意料的问题的根本原因。 Q6：可观测性所波及到的环节有哪些？可观测性波及到的环节较多： 1.可观测性须要数据作为撑持，并且对于数据的品质有肯定要求。数据须要通过标准化的处理过程，能力真正作为基座来应用。 2.可观测性须要海量的数据，并且波及到不同的类型。要谋求每一笔交易、每一个动作都能有残缺的链条，所要面对的数据规模是非常宏大的。同时，可观测性技术自身就是一个大数据汇总的平台，因而须要高技术引擎和关系图谱引擎的撑持，来将数据有机的联合到一起。 3.若要真正施展可观测性带来的价值，不能仅仅只把数据做一个简略的列举，咱们须要分析数据，做关联剖析。而这一过程须要 AI 的加持，这样能力让效率真正晋升上来，这其中波及到一整套的系统工程。做好以上这些，能力领会到数据作为大脑引擎的驱动力，让企业的运维治理更智能、更便捷、更高效。 Q7：如何使零碎具备可观测性？后面咱们提到了可观测性三要素：指标、调用链、日志。然而，仅从后端应用程序观测原始遥测数据并不能全面理解零碎的运行状况。疏忽前端透视图可能会扭曲甚至扭曲应用程序和基础设施在事实世界中对实在用户的体现。为了扩大“三要素”办法，IT团队必须利用用户体验数据加强遥测收集，以打消盲点： 1.日志：这些是特定工夫产生的离散事件的结构化或非结构化文本记录。 2.指标：这些值示意为计数或度量，通常在一段时间内计算或汇总。指标能够来自各种起源，包含基础设施、主机、服务、云平台和内部起源。 3.调用链：当事务或申请流经应用程序时，它显示事务或申请的流动，并显示服务如何连贯，包含代码级别的详细信息。 4.用户体验：这扩大了传统的可观测性遥测，通过在应用程序上增加特定数字体验的由外而内的用户视角，即便在预生产环境中也是如此。 Q8：国内市场对于可观测性的认知与需要是怎么的？从整个行业的应用客户中能够看出，不同行业对于可观测性的诉求也是不同的。比方金融行业，他们曾经针对可观测性做了很多方面的尝试，不论是在数量亦或是品质方面都是比拟可观的。这并不是说可观测性技术的渗透率有多高，而是说很多企业曾经对此产生了共鸣。可能很多企业仍旧处于初试验阶段或者技术考查阶段，但在将来几年里，可观测性的倒退速度可能会有指数级的变动，因为故障的产生是无可避免的，而可观测性技术能够笼罩到软件的整个的生命周期之中，造成残缺的链条。同时可观测性技术还能够与自动化体系联合在一起，使企业的效率失去数倍的晋升。从目前的市场状况来看，可观测性曾经有了一些落地的实际，之后也会有一个缓缓成长的过程。疫情过后，很多人对于数字化转型可能有了全新的认知，在新的零碎架构和开发模型下，企业须要一种能力来躲避问题的产生，升高问题的影响，所以可观测性恰好适应了当初整合技术的倒退门路。 Q9：可观测性面临哪些挑战？ 1.数据孤岛：多个代理、不同的数据源和孤岛式的监控工具使得很难了解应用程序、多个云和数字渠道（如web、挪动和物联网）之间的互相依赖性。 2.容量、速度、多样性和复杂性：在一直变动的古代云环境（如AWS、Azure和谷歌云平台（GCP））中，从每个组件收集的大量原始数据简直不可能失去答案。Kubernetes和容器也能够在几秒钟内高低旋转。 3.手动检测和配置：当IT资源被迫手动检测和更改每种新型组件或代理的代码时，他们大部分工夫都在尝试建设可观测性，而不是依据可观测性数据进行翻新。 4.不足预生产：即便在预生产阶段进行负载测试，开发人员依然无奈在将代码投入生产之前察看或了解实在用户将如何影响应用程序和基础设施。 5.浪费时间进行故障排除：应用程序、经营、基础设施、开发和数字体验团队被拉进来进行故障排除，并试图找出问题的根本原因，节约贵重的工夫进行猜想，试图了解遥测并找出答案。 6.多个工具和供应商的问题：尽管一个工具能够让组织察看到其应用程序体系结构的一个特定畛域，但一个工具可能无奈在所有可能影响应用程序性能的应用程序和零碎中提供残缺的观测能力。此外，并非所有类型的遥测数据对确定问题的根本原因或理解其对用户体验的影响都同样有用。因而，团队依然须要在多个解决方案中开掘答案，并费劲地解释遥测数据，这是一项耗时的工作，而此时他们能够将本人的专业知识用于立刻解决问题。然而，有了繁多的假相起源，团队能够更快地取得答案和解决问题。 Q10：企业在理论落地可观测的过程中通常会陷入哪些误区？首先是开源和商业化如何均衡的问题。不论是可观测性还是之前的监控技术，都有大量的开源能力在反对，有很多的收费计划供应用。对于任何一个企业来说，是否在专一地去做这样一个零碎，还是说只是为了辅助主营业务来做零碎叠加，后期的投入与最初的后果很可能是有较大落差的。其次企业在可观测性的建设过程中，总是冀望大而全，这就须要思考到几点因素。第一点，零碎须要人为去操作，组织架构中人的程度与素质很大水平上决定了零碎的应用能力下限。第二点，技术栈的繁杂性导致了数据治理须要较长的工夫，而到了数据的理论应用场景，咱们会发现，这其中波及运维、研发、测试、业务等各部门的人员，部门间的数据孤岛会对数据产生肯定的割裂，导致数据无奈真正对立在一起。最初是老本问题。技术并不是变化无穷的，从根底监控到网络监控，从 APM 到可观测性，技术是不停在倒退的，包含研发的过程，通过了屡次的更新迭代，才到了当初微服务的架构。因而要保护一个简单的技术栈，后续的模型是不是可能真正跟得上就很重要，这须要一个团队继续去迭代，所以企业须要从综合老本方面去思考可观测性的计划。

关于运维:SREWorks-v15-版本发布-基于实时作业平台的日志聚类开源

在通过v1.0\~v1.4四个版本迭代后，SREWorks的外围底座曾经体现出极高的稳定性和成熟性。在v1.5版本中，SREWorks开发团队在外围底座上，进行了较多的数智化能力迭代。同时，在数智能力迭代过程中，咱们也维持着与SREWorks用户较高的沟通频率。咱们发现大家广泛对于监控数据之上的数智化能力比拟关注，于是咱们在这些点上做了一些深挖剖析，发现广泛都会遇到这样几个问题：自研监控零碎在数据体量回升后，可靠性降落。日志等各类非结构化的数据引入，导致工程复杂性急剧回升，实时性方面也面临更大的挑战。简略的表达式(expression)往往无奈满足业务多样化的监控需要。于是很多用户抉择从自研监控零碎切换至流计算引擎Flink，然而Flink Job自身的应用门槛以及运维又成为一大难题。SREWorks开发团队通过多轮的剖析钻研，决定将这些问题拆成两阶段解决：升高Flink Job的应用门槛，赋能SRE将运维需要疾速转化为计算力，使SRE可能真正具备touch数据的能力。利用SREWorks工程能力构建开源Flink运维产品，进一步升高Flink运维难度。在v1.5版本中，咱们先将实现阶段1的开源，同时在实时作业平台之上，咱们会引入大家呼声较高的日志聚类作为这种数智能力的最佳实际：通过Flink ML极大地晋升海量日志的实时聚合效率。无关阶段2，近期会披露一篇无关Flink智能诊断利器——Flink Advisor介绍，本文暂不开展。上面先开始阶段1的开源产品：实时作业平台。实时作业平台在SREWorks刚开源的一段时间里，因为SREWorks中蕴含了社区版的Ververica Platform来治理Flink Job，有段时间，社区版vvp的应用答疑竟然占据了咱们大部分和用户沟通工夫。于是通过这些需要的积淀和打磨，咱们将实时处理链路也集成到作业平台中，作业平台中的作业分为定时作业和实时作业：定时作业提供分钟级的作业执行调度，实用于小数据量、低时效性的批处理场景。实时作业基于 Flink + 社区版Ververica Platform 提供实时作业管理。在收集了大量的用户反馈之后，咱们决定将SRE较习惯的Step By Step的步骤型的编排作业能力交融到实时作业中去，进一步升高SRE的应用门槛，最终性能如下图所示：咱们将一个Flink Job拆成了三种构造便于管理：输出源: 对应Flink的Source源，可有多个输出源。Python解决：对应Flink汇总的处理过程，以后基于pyFlink，可间接编写Python脚本，也能够依据业务需要拆分成多个Python处理过程。输入：对应Flink的Sink，可有多个输入。输出源&输入在输入输出这块，咱们间接读取Ververica Platform曾经注册的Connector供用户抉择，以及在配置参数时的下拉揭示，极大地防止用户手写CREATE TABLE时候字段及参数的疏漏。运行环境常应用Python的同学能够晓得，Python运行环境治理是一个比拟麻烦的问题：如果应用Docker镜像来治理出包过程过于简短，如果应用requirements来进行治理又经常会遇到包装不上的问题。于是实时作业平台中，咱们做了一个折中的解决，应用Python虚拟环境来进行治理。同时，咱们也对环境这个概念进行了组合化的扩大：Flink的容器镜像、PyFlink的运行时Jar包等一系列的对象，都算作环境中的设置。因为环境收敛了所有的可变资源，大大降低SRE保护作业的复杂度，本来多个运行时资源间版本不兼容的问题一去不复返，所有同一环境作业，都应用同一组合。以后v1.5提供两个环境可用：flink-ml 和 default，环境的自主治理能力会在下个版本上线。 Flink作业运维实时作业平台做了较多形象，简化了作业提交的流程，但在Flink作业运维上咱们深知其中的复杂度，并没有额定做过多的包装，间接应用Flink Dashboard作为运行中的观测平台，不便相熟Flink的同学疾速上手排查问题。下图为实时作业平台中启动作业的Flink Dashboard页面：日志聚类在实时作业平台之上，本次v1.5版本同时开源了日志聚类算法，无关算法原理能够参考《基于Flink ML搭建的智能运维算法服务及利用》，本文次要论述开源工程实际。日志聚类的算法代码位于目录https://github.com/alibaba/SREWorks/tree/master/saas/aiops/api/log-clustering ├── db-init.py├── log-clustering-job│ ├── pythons│ │ └── log_cluster_pattern.py│ ├── settings.json│ ├── sinks│ │ └── pattern_output.json│ ├── sources│ │ └── log_input.json│ └── template.py└── ...目录次要由两局部组成： db-init.py：特色工程的数据库初始化，须要用大量典型的日志样本初始化日志关键词列表以及日志样板特色。log-clustering-job/*：日志聚类算法作业，在v1.5版本中已默认导入至作业平台中，手工将其打成zip包导入亦能实现雷同的成果。上面咱们基于这个开源工程，实现一次残缺的日志聚类的实际。本次实际的输出为kafka（SREWorks内置的kafka）的日志流，输入为MySQL中的特色库。 STEP 1 特色工程初始化咱们本次实际以SREWorks中利用引擎（AppManager）日志为例：先用标签name=sreworks-appmanager-server查问出AppManager Pod的名称，这个标签在前面采集的时候还会被用到。 $ kubectl get pods -l name=sreworks-appmanager-server -n sreworksNAME READY STATUS RESTARTS AGEsreworks-appmanager-server-c9b6c7776-m98wn 1/1 Running 0 5h39m而后提取该Pod的大量日志作为初始化日志样本，存储文件名为 example.log。 ...

关于运维:必示智能风险感知平台入选金融数据智能运维创新优秀解决方案

近日，金科翻新社主办的“2023鑫智奖·第五届金融数据智能优良解决方案评比”流动落下帷幕，必示智能危险感知平台取得“鑫智奖·2023金融数据智能运维翻新优良解决方案”奖项。 “‘鑫智奖’金融数据智能优良解决方案评比”流动聚焦行业数智化发展趋势及金融场景数智利用翻新实际，激发数据智能畛域澎湃的翻新力量，助力打造数字金融深入倒退的外围引擎。“‘鑫智奖’金融数据智能优良解决方案评比”流动曾经间断举办了五届，累计收到334家科技企业的409个解决方案参评。此次必示科技凭借智能危险感知平台入选“运维翻新优良解决方案”，代表主办方及专家评委对必示危险感知平台的产品力、创新力，以及落地施行成果等方面的必定。☆ 必示智能危险感知平台 ☆作为必示产品矩阵中，实现“提前发现危险”的平台级产品，必示智能危险感知平台基于资深运维风控最佳实际研发的智能化运行危险辨认和治理产品，通过交融数据洞察伎俩和人工智能算法，开掘海量运维数据中的潜在危险点，旨在帮忙企业数据中心运维人员被动发现和提前打消零碎隐患。其中，必示变更危险感知平台以数据平台为数据集成能力底座，整合多源、异构运维数据，以运维算法专属平台为智能化能力底座，联合专家业务知识、交融AI算子编排和调用能力，通过平台灵便的编排配置，能够针对各类场景需要，造成标准化的危险查看项，构建面向零碎变更的危险辨认能力，并借助风险管理流程事项危险闭环治理，达到将常识、AI、自动化、治理标准等融入运维工作流程的指标，并以可量化的衡量标准晋升零碎变更后运行衰弱指数。必示科技自2016年成立以来，致力于用AIOps算法和常识图谱的深度交融打造智能运维大脑，充沛开掘海量运维数据价值，赋能IT运维畛域，打造世界领先的AIOps引擎。必示科技的外围团队源自清华大学计算机系智能运维实验室，在异样检测、故障排查、危险辨认、容量预测等方面有着二十余项外围算法，率先定义智能运维“危险预警+问题发现+故障定位”工业实际，并于2022年底构建了“一数据、三平台”的产品体系，推出“危险预警+问题发现+故障定位+运维数据平台”产品矩阵。将来，必示科技将以此次殊荣为契机，进一步明确“具备清晰可度量的运维价值“的产品定位领导准则，持续推动智能运维产品力和创新力的晋升，减速智能运维在各行各业高质量落地，助力企业数字化转型。

关于运维:必示受邀参加上海人工智能大会并分享金融行业AIOps落地经验

“数智互联，瞰见将来”2023第六届上海人工智能大会近日圆满落幕，必示科技作为智能运维行业代表企业，受邀缺席并分享题为《AI赋能金融运维畛域的落地与利用》的主题演讲。本届上海人工智能大会由中国科学技术协会领导，中国国内科技促进会，中国民营科技实业家协会专精特新专委会，长三角人工智能倒退联盟，长三角数字化转型公共服务平台主办；上海市突出贡献专家协会，上海市人工智能学会，上海市计算机学会，上海士研治理征询有限公司承办；中小银行互联网金融（深圳）联盟，“一带一路”信息产业国内倒退联盟，上海大数据联盟联结主办，是国内人工智能畛域产-学-研融合互动的年度盛会。必示科技作为智能运维企业代表，与现场的顶级学者和业内驰名技术大咖一道，独特探讨人工智能的学术、人才、技术以及行业倒退痛点，探讨人工智能的倒退门路及将来愿景。在“数字赋能”AI+金融科技主题论坛上，必示科技资深算法专家殷康璘在题为《AI赋能金融运维畛域的落地与利用》的演讲中，分享了必示科技近几年利用人工智能技术赋能金融运维畛域的产品落地教训。必示科技资深算法专家殷康璘博士AIOps（智能运维）的实质是将AI技术与传统IT运维畛域生态深度交融，利用AI技术实现运维数据服务和运维专属AI服务。企业通过构建智能运维平台，减速智能运维场景落地，助力运维提质增效，赋能行业数智化降级。一方面，智能运维既隶属于国家的策略畛域，也是在银行、证券、保险等金融行业数字化转型的大背景下运维行业的倒退方向，同时银保监会、中国人民银行等机构近两年也在金融科技、数字化转型等方面对智能运维提出了实质性的要求。另一方面，以后新技术、新利用导致IT零碎环境治理规模、复杂性、要求迅速晋升，传统的“监、管、控”工具须要调整以适应混合架构的治理要求，同时须要具备运维数据分析的能力，这些对传统运维团队都提出了从技术到治理的全面挑战。智能运维（AIOps）概念提出到施行落地已有多年，随同着业界一些AIOps我的项目的落地施行，业内逐步对智能运维的价值、成果和建设门路等方面产生纳闷。作为深耕于金融行业智能运维产品研发与落地施行的国家高新技术企业-必示科技，通过服务60余家金融头部企业的教训，通过多年的技术摸索和工业实际，总结出了聚焦智能运维落地成果方面的方法论：即指标明确、人机协同、多方合作、继续经营。必示科技通过继续的技术研发、工业实际和产品迭代，推出了满足AIOps事先、事中、预先阶段均对“运维零碎稳定性”产生价值和成果的必示智能产品矩阵。产生即发现：智能监控+智能事件治理平台BizSeer Anomaly+AlertSeer必示智能监控产品对实时数据流进行动静监测。提前发现异常并生成故障预警，故障发现准确率95%以上。均匀故障发现工夫降落至5分钟内，最快可达30秒。告警治理是运维过程中不可或缺且耗时耗力的工作。传统告警治理平台，少数仅聚焦于告警的集中管控，不足对告警的剖析及论断举荐。必示智能事件治理平台，在实现告警全生命周期集中管控的根底上，联合先进的告警剖析算法，实现“要害告警一屏清”、“故障排查有方向”、“告警治理有保障”等运维指标。某银行应用必示智能运维产品后，无论从零碎笼罩和监控点的数量、剖析维度均有较大幅度的晋升，同时剖析链路上也从调用链路剖析降级到了全局交易链路剖析。必示智能监控平台通过无监督学习算法，反对数十万级指标实时检测。通过智能检测实现动静阈值调整，以及曲线特色主动提取和抉择、聚类算法应用、主动敏感度调整等技术创新，使故障发现准确率95%以上，均匀故障发现工夫降落至5分钟内，最快可达30秒。从源头上缩小告警数量，晋升告警产生时告警发现和解决效率，通过智能摘要剖析实现多维度多视角的告警剖析报告。从传统的盯告警列表变成看摘要报告，帮忙一线运维人员或者应急值班经理实现分钟级的故障定界，减速故障排查和处理，特地实用于解决告警风暴的场景。在大规模故障产生时，通过针对重要业务，构建告警智能剖析大屏，实现从告警风暴辨认、告警路径分析到可疑利用举荐的全栈能力。而在重保场景下对告警数据进行实时智能剖析，从而保障业务的衰弱度和业务连续性。发现即定位：故障定位剖析BizSeer TicketSeer故障排查是运维人员最简单且最心累的工作。目前故障排查根本通过多团队合作，人工收集信息，并凭教训做决策判断，整个过程效率低，工夫长。必示智能故障剖析平台利用各种AI检测技术，自动化专家排障教训，实现对70%以上故障的分钟级精准排查，升高故障复原工夫，缩小业务损失。传统排障的典型场景是：凌晨3点20，一线值班人员接到oracle告警并电话告诉二线值班工程师，二线要起床从宾馆赶到ECC，登录到Grafana查看具体起因。这个过程至多应该10-15分钟。而二线值班工程师排障过程更是依据教训判断，须要多团队写作、人工收集信息，并凭借教训做判断决策，排障工夫也因故障水平和排障难度而不受管制。必示故障剖析平台能够通过告警拓扑展示和主动根因举荐，晋升排障效率，实现分钟级排障。通过排障图的形式固化排障教训，来积淀运维专家教训。当故障产生时可依照排障图去主动摸排根因，像运维专家亲临现场。同时，通过自动识别CMDB数据的缺失、异样和谬误，主动判断要害告警缺失，为数据治理提供根据和方向。某银行银行应用智能故障剖析零碎疾速发现故障后，在接到告警后的处理状况如下：提前发现危险：必示危险感知平台BizSeer RiskSeer从被动运维到被动经营，灵便编排的多场景全面感知70%以上运维生产事变是由变更引起，目前变更问题发现次要靠人工检查和教训判断的形式经常出现错查漏查的状况，必示智能变更危险感知平台通过人机协同的形式帮忙运维人员缩小90%的变更验证工夫并无效发现60-80%的变更危险隐患。某客户在部署危险感知平台后，在某利用零碎夜间变更，危险感知平台在变更后10分钟启动变更危险查看，针对该零碎和相干交易码的业务指标在变更前后的变动进行剖析，发现变更后该零碎业务指标与多个易码业务指标均存在显著异样，包含零碎级危险4项、交易码危险7项、主机危险72项。揭示客户关注变更异样问题。管理员和项目组确认问题后，及时进行了版本回退，防止了重大运行危险的产生。必示变更危险感知平台提供灵便的工作模板编排能力，基于运维专家对业务场景的了解和危险查看教训，内置丰盛的危险查看智能算子，可能封装不同畛域对象、不同类型指标，反对用户依据本身业务特点、场景需要来积极探索人机协同模式下的更多个性化危险感知场景，晋升场景上线效率，减速场景落地。必示科技的智能运维产品矩阵，利用人工智能技术赋能金融行业的运维零碎，平台产品包含：提前发现危险-智能危险感知平台、事件产生即发现-智能监控平台&智能事件治理平台、发现即定位-智能故障剖析平台，从事前预警和预防、事中疾速发现和定位、预先教训常识积淀三个方面助力企业晋升智能运维平台能力，升高MTTR，缩短MTBF。将来，必示科技进一步明确“具备清晰可度量的运维价值”的产品定位, 以人工智能技术和工匠精力，推动智能运维产品力和创新力的晋升，助力金融企业零碎运行危险防备，减速必示智能运维矩阵，在金融行业高质量落地，助力金融企业数智化转型。

关于运维:直播预告-博睿学院算法平台底座数据湖应用

数据湖一种大型数据存储和解决计划，容许企业将大量结构化和非结构化数据存储在数据湖中,并进行批处理和实时处理。数据湖的三种罕用管理工具别离是Delta、Hudi和Iceberg。那么，到底哪一种管理工具才是最优解呢？本期课程从7个维度比照上述三种管理工具，为大家解说Iceberg的框架、劣势以及利用实际。本期讲师明秀平博睿数据数智能力核心AI研发工程师业务特长：平台搭建，性能调优，算法设计工作经验：曾担中国金融在线旗下子公司平台开发主管；曾任职于京东物流，负责物流轨迹零碎、订单勾销零碎的设计及开发。本期主题：算法平台底座-数据湖利用点扫码预约观看，课件将于直播后发送至您的邮箱。博睿学院课程领先看

关于运维:HHDESK及HHDBCS快捷升级功能

为晋升用户体验，HHDESK及HHDBCS新增了一项性能，一键降级。 1 应用软件时快捷降级在产品首页点击帮忙，抉择软件降级弹出如下对话框；点击确定随即弹出对话框；点击浏览，抉择下载到本机上的新版本产品，点击确定。呈现如图所示对话框。期待降级实现，个别只须要1分钟左右。降级结束后会须要您确认是否备份，请依据理论须要抉择。降级实现后，点击启动即可重启产品；如果想回复旧版本，点击“复原降级”即可。（笔者认为这是一项很贴心的设定） 2 应用Upgrade降级关上HHDESK根目录，双击upgrade.exe，弹出降级框（图三）。剩下流程如步骤一所述。应用一键降级性能，省去理解压、数据备份、文件整顿等步骤，节约了用户的工夫的精力，最次要的是不容易出错。后续恒辉信达将会开发更多实用功能，欠缺产品，敬请期待。

关于运维:腾讯的认证到底有没有用怎么样可以通过考试

什么是当初最热门的行业，那肯定是云计算行业，作为一个进十几年衰亡的行业，在咱们的日常生活中起到了重要的作用，而且往后也会一直地扭转咱们的生存，因而市场也须要大量的人才来维持运行，而各大云计算厂商也推出了本人的人才认证体系，以求为社会输送人才。腾讯云是当初市场占比最大的云计算厂商之一，咱们日常生活中最罕用的几个社交软件，皆是由腾讯研发的，而且目前热门的电竞较量转播，也是由腾讯云负责，能够说腾讯云占据了咱们生存中最为重要的两个畛域，能够说领有腾讯云认证，对于将来的倒退是十分有帮忙的。上面大使简略介绍一下，有须要的能够在认证大使上具体理解。腾讯云认证劣势 1、行业权威：腾讯在行业领先地位，认证同样处于行业权威 2、集体能力增值：取得认证可晋升自我价值，还可取得行业认可 3、针对性强：云计算 AI 大数据等行业，知识点实在匹配岗位 4、优先就任机会：通过认证优先取得腾讯云，及合作伙伴面试机会腾讯云认证等级 1、云从业者认证腾讯云从业者培训课程，是面向于云计算初学者的根底课程。云从业者培训课程从时下炽热的音视频场景登程，从大家相熟的业务开始，逐渐探寻背地的技术实现；通过更晦涩且富裕逻辑的课程设计，将扩散的技术常识有机串联起来；在系统性介绍腾讯云次要产品和服务的同时，还介绍了相干的根底技术常识，由浅入深。本课程涵盖腾讯云次要外围产品的性能、个性、利用场景、计费规定以及应用条件，搭配上简略易上手的上机试验，让学员疾速把握云计算基础知识之外，还会取得云计算初体验的机会。本课程无技术门槛，实用于所有云计算初学者。 2、TCA认证腾讯云架构工程师培训将通过实践精讲与上机试验相结合的形式，系统性的介绍云架构设计的根本准则和办法，并联合腾讯云产品实际高可用、高性能、分层解耦的架构设计，为腾讯云架构设计师提供零碎和全面的培训课程。腾讯云运维工程师培训将通过实践精讲与上机试验相结合的形式，系统性的介绍如何应用腾讯云监控台在腾讯云平台上开明、部署利用零碎，并进行根底保护。腾讯云开发工程师培训将通过实践精讲与上机试验相结合的形式，系统性地介绍传统利用迁徙上云的劣势及其实现，以及基于腾讯云产品进行云原生利用和散布式微服务设计与开发，从而实现平安可扩大的云利用程序开发。您还将理解如何应用腾讯云TCB，进行微信小程序的无服务器后端开发，以及如何应用图像识别等人工智能技术进行利用程序开发。同时还将理解DevOps的理念及麻利项目管理实际。 3、TCP认证腾讯云开发高级工程师培训，通过实践精讲、操作演示和上机试验相结合的形式，系统性地介绍云原生利用设计与开发。本课程将基于前沿技术理念，联合腾讯云平台，介绍云原生的整体概念及具体的落地实际，包含麻利方法论及实际落地、DevOps方法论及实际落地、微服务和Kubernates整体架构及落地应用。本课程还将基于云原生整体技术介绍技术中台的设计，以及人工智能技术的利用开发。腾讯云高级运维工程师培训将通过实践精讲与上机试验相结合的形式，系统性的介绍如何在腾讯云平台上进行立体化监控、实现云上微服务、自动化运维、上云迁徙、云运维平安、云上业务故障解决和费用治理等高级保护。腾讯云架构高级工程师培训，次要通过实践精讲与试验操作相结合的形式，基于腾讯云平台，系统性地介绍设计云上简单的业务架构的办法。本课程先从整体角度介绍企业云架构设计的方法论，而后别离介绍布局和设计上云迁徙、云原生、高可用、业务流量顶峰解决、信息安全、大数据、混合云、AI、游戏行业和视频行业解决方案的办法，最初通过架构设计实际演练及案例探讨与理论知识进行交融。大使上

关于运维:CentOS-9-安装-Nginx-模块-subsfilter

sub_filter 和 subs_filter 区别sub_filter（ 0.7.24）：替换响应体（Response Body）中的文本，只能设置一组替换。subs_filter：替换响应体（Response Body）和响应头（Response Headers）中的文本，能够设置多组替换。sub_filter 应用案例： http { server { listen 80; server_name example.com; location / { sub_filter 'old-text' 'new-text'; sub_filter_once off; proxy_pass http://backend; } }}subs_filter 应用案例： http { server { listen 80; server_name example.com; location / { subs_filter 'old-text-1' 'new-text-1'; subs_filter 'old-text-2' 'new-text-2'; proxy_pass http://backend; } subs_filter_types text/*; subs_filter_types application/json; }}装置形式办法 1：命令行装置CentOS 惯例装置的 Nginx 中并不蕴含 subs_filter，须要额定装置 nginx-mod-http-sub 增加对其性能的反对。 1. 装置模块 sudo dnf install nginx-mod-http-sub2. 加载模块 ...

关于运维:考证书对工作到底有没有帮助什么证书对云计算行业有用

最近几年，咱们是社会倒退愈发迅速，然而内卷也越来越重大，每个人为了可能取得丰富的薪资、心仪的岗位，都会致力地学习、考据，以此来晋升本人的职业竞争力，而对于云计算行业来说，可抉择的证书就十分多了。云计算是一个倒退不到二十年的新兴行业，然而曾经深刻咱们生存的方方面面中，而市场上也须要大量的人才来维持运行，各大云计算厂商也推出了本人的认证，以保障为企业输送足够的人才。上面大使简略介绍一下，有须要的能够在认证大使上，具体理解。 1、阿里云云计算作为目前国内排名第一的云计算厂商，阿里云旗下的认证是具备微小含金量的，拿到证书后，不仅能够取得进入阿里云的机会，还能够被其合作伙伴优先录取，同时考据的过程也是晋升本人的过程，让学员领有更加业余的技能，取得更多职业竞争力。 2、华为云云计算作为一个后起之秀，华为云最近几年的风头越来越盛，占据的市场份额也越来越多，而且很多政企单位都会抉择华为云作为本人的合作伙伴，能够说华为云将来的倒退是极具后劲的，而且华为云是最早设立认证体系的厂商，曾经十分欠缺了。 3、腾讯云云计算前几年腾讯的市场占比是十分大的，最近几年虽有所降落，但依然占据着咱们生存汇总最宽泛的两个畛域，那就是游戏和社交，很多电竞较量的技术支持，就是腾讯云厂商，能够说腾讯云的影响力还是很大的，证书是值得一考的。 4、CKA认证 CKA认证考试是由Linux基金会和云原生计算基金会(CNCF)创立的，以促成Kubernetes生态系统的继续倒退。该考试是一种近程在线、有监考、基于实操的认证考试，须要在运行Kubernetes的命令行中解决多个工作。CKA认证考试是专为Kubernetes管理员、云管理员和其余治理Kubernetes实例的IT业余人员而设的。