关于运维:CMDB对企业和IT管理员有什么用

<article class=“article fmt article-content”><p>CMDB这个词在ITSM相干文档和IT治理畛域常常遇到,但鲜有人能解释什么是CMDB,CMDB是怎么帮忙到企业的?如果这些问题也困扰着您,那让咱们来聊一聊CMDB,为什么须要CMDB,以及如何设置本人的CMDB。<br/></p><p><strong>1. 资源管理</strong>:CMDB可能提供清晰的资源库,帮忙IT人员理解整个IT基础架构的各个组件及其关系。通过CMDB,IT人员能够查看和治理硬件、软件、网络设备等资源的详细信息,包含配置、关联关系、依赖关系等。</p><p><strong>2. 变更治理</strong>:CMDB能够帮忙IT人员实现变更治理,通过记录和跟踪配置项的变更,确保变更的胜利施行和危险的管制。IT人员能够在CMDB中查看变更记录、关联的配置项以及变更影响剖析,从而更好地进行变更治理。</p><p><strong>3. 问题解决</strong>:CMDB能够帮忙IT人员更疾速地定位和解决问题。通过CMDB,IT人员能够查找特定配置项的信息和关系,帮忙确定问题本源,并无效地解决故障。</p><p><strong>4. 资产治理</strong>:CMDB可能帮忙IT人员进行资产治理,包含资产的洽购、部署、保护、服役等全生命周期治理。IT人员能够利用CMDB追踪和治理企业的各类资产,从而进步资源利用率和升高治理老本。</p><p><strong>5. 服务治理</strong>:CMDB与服务治理过程联合,能够帮忙IT人员更好地了解服务之间的关系和依赖,实现服务治理的全面性和连贯性。IT人员能够通过CMDB理解服务的形成局部、服务指标、服务关联等信息,从而提供更好的服务反对。</p><p>借助ManageEngine ServiceDesk Plus的CMDB 平台,将您所有的业务要害配置项组织到一处,并让您的技术人员深刻理解所有积攒的 IT 资产和服务,可大大提高IT管理员的效率,加重工作的压力。</p></article>

March 4, 2024 · 1 min · jiezi

关于运维:壹陆锋芒韧性成长-博睿数据16周年庆典圆满落幕

<article class=“article fmt article-content”><p>十六年餐风露宿,播种累累硕果;<br/>十六年砥砺追梦,书写辉煌华章。<br/>2月29日,博睿数据成立16周年庆典活动在珠海圆满闭幕,整体员工齐聚一堂,独特见证博睿数据历经十六载,再启新征程的光荣时刻!<br/><br/>华章同筑,共赴新程</p><p>庆典伊始,博睿数据董事长兼CEO李凯先生发表致辞,他站在过来、当初与将来的交汇点上,描述了博睿数据将来的倒退蓝图。李凯先生提到,博睿数据16年的发展史,是中国IT运维畛域企业与中国数字经济腾飞相伴而行的成长史,是公司赋能千行百业数字化转型的发展史,同样是博睿人不懈前行、焕发力量的奋斗史。面对寰球经济的不确定性,李凯先生提到,这是最好的时代,也是巨变的时代。面对竞争,咱们要置信在做一件对的事件,更要坚定信心,放弃专一和激情,畏缩不前,不畏挫折,以实现让IT运维更加智能化的近景指标。往年,咱们将重点推动两项工作,一是Bonree ONE3.0版正式公布,二是国际化策略,减速在国内市场上的拓展步调,实现更宽泛的市场笼罩。展望未来,我衷心希望在博睿数据成立20周年之际,再次独特见证公司的巅峰时刻,就像咱们年老时一样充斥激情与生机。<br/><br/>博睿数据创始人兼CTO孟曦东学生首先向整体员工致以诚挚的问候。孟曦东学生强调,只管2023年寰球经济面临上行压力,但咱们仍旧获得的实质性成绩。现在,咱们曾经建设了松软的外围产品和业务体系,并制订了清晰的盈利门路和产品倒退蓝图。这一系列的成就和变质,离不开咱们的专一与保持——始终聚焦于做正确的事,让已经看似遥不可及的指标逐渐成为事实。面向未来,咱们将持续施展营销和研发的两大外围劣势,逾越经济周期,真正成为一家卓越且平凡的企业。同时,咱们动摇看好中国市场的发展前景以及智能运维畛域的长期后劲,并致力于在这个畛域中继续翻新。<br/><br/>出奇制胜 壹陆矛头 </p><p>16年前,中国IT运维畛域的一颗种子悄悄萌芽,踏上了市场化、专业化、差异化的守业征程。以创始人孟曦东学生为代表的第一代守业团队,以远见卓识勇闯拨测业务市场,保持产品的全域自研。2020年8月17日,博睿数据胜利在上海证券交易所科创板上市,标记着公司从无到有、从小到大的富丽转身。凭借着倔强的毅力和精准的市场布局,博睿数据逐渐巩固了国内APM市场的领先地位,成为行业的佼佼者,现实之路结硕果。明天的博睿数据,无论在企业规模与经营、产业布局与倒退、市场产品与客户等方面展现出行业的当先姿势。</p><p>这一显著成就的背地,得益于博睿数据从全局视角洞察云、网、边、端的应用状况,利用可观测的数据,晋升运维效率,实现业务决策的被动布局。通过对海量运维数据的收集、整合和剖析,博睿数据可能洞察零碎的运行状况,发现潜在的危险和问题,并为客户提供智能化的运维服务,确保了“All in ONE”策略得以真正落地,为客户提供更加高效、智能和全面的服务体验。</p><p>守正精业 韧性成长</p><p>在博睿数据的倒退历程中,一支由超过60%技术人员组成的高素质团队施展了关键作用。他们不仅具备卓越的技术能力,还积攒了丰盛的我的项目教训,为博睿数据的胜利画上了浓墨重彩的一笔。通过团队的不懈努力,博睿数据已胜利为超过1000家客户提供业余的技术服务,业务畛域宽泛笼罩银行、证券、保险和高端制作等行业,助力企业开释出更大的商业价值。此外,团队还积极参与行业标准的编写,为课题钻研提供相干行业的数据参考和测试零碎反对,继续推动技术利用的翻新。</p><p>面对广大的寰球市场时机,博睿数据严密围绕行业客户需要,把握人工智能、数据治理的趋势,冲破认知局限,以数据驱动和精细化经营独特推动数字经济的蓬勃发展。新的一年里,行业之浪奔流不息,博睿数据持续砥砺前行,坚韧不拔地做企业数字化转型的守护航者、行业技术创新的深耕者,以及将来倒退的先行者,为实现行业的可继续倒退与翻新倒退带来更多的智慧。</p><p>齐聚一堂 尽显风采</p><p>在岁月的长河中,博睿数据走过了16个春夏秋冬。明天,咱们齐聚一堂,共襄盛举,置信在整体员工的群策群力、各界搭档和客户的鼎力支持下,博睿数据将书写新的辉煌篇章。<br/></p></article>

March 4, 2024 · 1 min · jiezi

关于运维:探索Terraform实践优化基础设施管理

<article class=“article fmt article-content”><p>Terraform 是治理基础设施及代码(IaC)最罕用的工具之一,它能使咱们平安且可预测地对基础设施利用更改。</p><p> </p><p>Terraform作为一个弱小的基础设施即代码工具,为开发人员和运维团队提供了一种简略而弱小的形式来定义、部署和治理基础设施。在本文中,咱们将揭示Terraform的一些高效实际,<strong>从模块化组织到灵便变量、近程状态治理和函数简化,让您可能以更快、更牢靠的形式构建和治理基础设施</strong>。随着咱们一起深刻摸索,您将发现如何通过Terraform,将简单的基础设施变得更加简略易用。</p><p> </p><h2>Terraform 解决的问题</h2><p>传统上,基础架构的设置和治理须要手动操作,这往往会导致不统一、配置漂移和人为谬误。因而,要牢靠地扩大和治理简单的零碎变得十分艰难。Terraform 提供了<strong>一种对立的、受版本控制的基础架构治理办法</strong>,从而解决了这些难题。</p><p> </p><h2>Terraform 最佳实际</h2><h3>应用模块组织代码</h3><p>模块可让您将相干资源组合在一起,并在基础架构的不同局部重复使用。这将使你的代码更有条理,更易于保护。</p><p> </p><pre><code>module “network” { source = “./modules/network” vpc_cidr = “10.0.0.0/16” public_subnet_cidrs = [“10.0.1.0/24”, “10.0.2.0/24”] private_subnet_cidrs = [“10.0.3.0/24”, “10.0.4.0/24”]}</code></pre><p> </p><p>下面的示例应用了一个名为 “network” 的模块,该模块应具备特定的输出变量(vpc_cidr、public_subnet_cidrs、private_subnet_cidrs),并将创立与网络相干的资源,如 VPC、子网和相干的网络组件。</p><p> </p><p>在 ./modules/network 目录中,你能够找到应用这些变量创立所需网络基础设施的理论模块代码。模块代码将蕴含 Terraform 资源申明,还可能包含其余网络特定配置。</p><p> </p><p>请记住,这些代码的有效性取决于 ./modules/network 目录的内容和构造。所提供的片段只是模块的用法,并不显示模块自身的内容。</p><p> </p><h3>应用变量使代码更灵便</h3><p>通过变量,您能够定义一些值,以便在批改基础架构时轻松更改。这样就能够轻松测试不同的配置,或将基础架构部署到不同的环境中。</p><p> </p><pre><code>variable “vpc_cidr” { type = string default = “10.0.0.0/16”}variable “public_subnet_cidrs” { type = list(string) default = [“10.0.1.0/24”, “10.0.2.0/24”]}</code></pre><p> </p><p>在示例中,vpc_cidris 用于以 CIDR 符号指定 IP 地址范畴,代表 VPC 的地址空间。</p><p> </p><p>public_subnet_cidrs 变量用于提供 VPC 中公共子网的 CIDR 块列表。它容许指定多个子网配置。</p><p> </p><p>这些变量申明用于定义 Terraform 配置将应用的预期输出类型。它们提供了<strong>一种无需间接批改代码即可自定义配置行为的办法</strong>。在 Terraform 配置中应用这些变量时,能够笼罩默认值或提供本人的值,这些值将在执行 terraform plan 和 terraform apply 命令时应用。</p><p> </p><pre><code>module “vpc” { source = “./modules/vpc” vpc_cidr = “10.0.0.0/16” public_subnet_cidrs = [“10.0.1.0/24”, “10.0.2.0/24”] private_subnet_cidrs = [“10.0.3.0/24”, “10.0.4.0/24”]}module “ec2” { source = “./modules/ec2” subnet_id = module.vpc.public_subnet_ids[0]}</code></pre><p> </p><p>在下面的例子中,vpc 模块创立了一个蕴含公共子网和公有子网的 VPC,ec2 模块在第一个公共子网中创立了一个 EC2 实例。ec2 模块的 subnet_id 输出变量被设置为 module.vpc.public_subnet_ids[0],这是 vpc 模块的输入变量,其中蕴含第一个公共子网的 ID。</p><p> </p><p>将一个模块的输入作为另一个模块的输出,能够轻松创立由相互连接的不同模块组成的简单基础设施。您还能够应用这种办法在基础架构的不同层之间传递信息,例如从网络模块向计算模块传递平安组 ID,或从负载平衡器模块向 DNS 模块传递 DNS 名称。</p><p> </p><p>须要留神的是,<strong>援用输入变量的语法可能会因应用的 Terraform 版本以及模块中应用的输入变量的命名约定而有所不同</strong>。</p><p> </p><h3>应用 terraform “State File” 治理实际</h3><p> </p><p><strong>近程后盾</strong></p><p> </p><p>Terraform 近程后盾是一种容许近程存储 Terraform 状态文件(而非本地文件系统)的机制。这样就能在基础架构我的项目上进行合作,并提供近程状态锁定和加密等附加性能。</p><p> </p><p>益处则是可能提供:</p><p> </p><ul><li><strong>合作</strong>:多个团队成员可同时在同一个基础架构代码库上工作,从而更轻松地治理简单的我的项目。</li><li><strong>状态隔离</strong>:状态文件与配置文件离开存储,升高了意外删除或损坏的危险。</li><li><strong>近程操作</strong>:容许近程执行操作(如 terraform apply),而无需间接拜访底层基础架构。</li></ul><p> </p><pre><code>terraform { backend “s3” { bucket = “your-bucket-name” key = “terraform.tfstate” region = “your-preferred-region” dynamodb_table = “your-dynamodb-table-name” encrypt = true role_arn = “arn:aws:iam::ACCOUNT_ID:role/ROLE_NAME” # Replace with your IAM role ARN }}</code></pre><p> </p><p>下面的示例是为 Terraform 配置近程后端。它将容许 Terraform 应用 S3 bucket 作为存储其状态文件的近程后端,从而实现近程操作和状态锁定等性能,实现平安的基础架构治理。</p><p> </p><p>后端是 Terraform 存储其状态文件的中央,它能够跟踪基础设施的以后状态。</p><p> </p><p>如果要应用 DynamoDB 进行状态锁定,请将 “your-dynamodb-table-name “替换为 DynamoDB 表的名称。</p><p> </p><p><strong>状态锁定</strong></p><p> </p><p>状态锁定是近程后端提供的一项重要性能,可避免并发写入 Terraform 状态。它确保一次只能有一个人对基础架构利用更改,从而升高了抵触和状态文件潜在损坏的危险。</p><p> </p><p>长处在于可能:</p><p> </p><ul><li><strong>避免抵触</strong>:防止多个用户同时尝试利用更改可能产生的潜在问题。</li><li><strong>确保状态完整性</strong>:避免可能导致基础设施配置不统一或不正确的比赛条件。</li></ul><p> </p><p><strong>状态加密</strong></p><p> </p><p>状态加密是指对 Terraform 状态文件进行加密以爱护敏感信息的过程。这可确保存储在状态文件中的任何敏感数据(如明码、拜访密钥)放弃平安。</p><p> </p><p>可能保障:</p><p> </p><ul><li><strong>平安</strong>:爱护敏感信息,避免未经受权的拜访或裸露。</li><li><strong>合规性</strong>:通过确保数据保护,帮忙满足监管和合规要求。</li></ul><p> </p><p><strong>状态版本治理</strong></p><p> </p><p>状态版本治理包含保护 Terraform 状态随工夫变动的历史记录。这样就能够跟踪并在须要时复原到以前的状态。</p><p> </p><p>劣势在于:</p><p> </p><ul><li><strong>审计和历史记录</strong>:提供所有更改的记录,使您可能查看和理解基础架构的演变状况。</li><li><strong>Rollback</strong>:容许在呈现谬误或意外后果时复原到之前的状态</li></ul><p> </p><h3>应用 Terraform 的内置函数简化代码</h3><pre><code> name = “www.example.com” type = “A” zone_id = aws_route53_zone.example.zone_id alias { name = aws_elb.example.dns_name zone_id = aws_elb.example.zone_id evaluate_target_health = true }}</code></pre><p> </p><h2>总结</h2><p>以上就是是应用 Terraform 最佳实际与示例。请牢记,在上述实际中,相熟与您单干的云提供商所提供的特定资源和性能,并始终在将代码部署到生产环境之前对其进行测试,这一点至关重要。在IT畛域,一直变动和倒退是常态,而Terraform作为一种灵便、弱小的基础设施即代码工具,正是应答这种变动的无力助手。通过本文介绍的实际技巧,您能够更加高效地利用Terraform来构建、部署和治理您的基础设施。无论是模块化组织、灵便变量、近程状态治理还是函数简化,都能让您的工作更加轻松、牢靠。</p></article> ...

March 4, 2024 · 2 min · jiezi

关于运维:网络问题排查必备利器Pingmesh

<article class=“article fmt article-content”><h2>背景</h2><p>当今的数字化世界离不开无处不在的网络连接。无论是日常生活中的社交媒体、电子商务,还是企业级应用程序和云服务,咱们对网络的依赖水平越来越高。然而,网络的可靠性和性能往往是一个简单的问题,尤其是在具备大规模分布式架构的零碎中。</p><p>在过来,网络监控次要依赖于传统的点对点(point-to-point)形式,通过独自的监控工具对网络门路进行测试。然而,这种办法往往只能提供无限的信息,并且无奈全面评估整个网络的健康状况。为了更好地理解网络的运行状况以及及时发现潜在的问题,Pingmesh 技术应运而生。</p><p>Pingmesh 的提出最后是来自微软,在微软外部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软能够很好的进行网络故障断定和及时的修复。</p><p>上面是 Flashcat Pingmesh 的页面样例,能够清晰地看到各个机房之间的网络状况,也能够看到各个机柜或交换机之间的状况:</p><p></p><h2>业界计划</h2><p>业界对Pingmesh的实现大都基于微软的一则论文为根底,做出了一些革新和降级。原微软Pingmesh论文地址:<br/>《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》。</p><p>常见的数据中心网络拓扑:</p><p></p><p>在这样的架构中,有多个数据中心,数据中心之间有专线连通,在数据中心外部有多个Spine、Leaf、ToR交换机,在一些架构中,leaf交换机也会间接充当ToR作为服务器接入交换机,在 ToR 交换机下有大量服务器连贯;<br/>因而,pingmesh 能力就分为3 个级别:</p><ol><li>在机架外部,让所有的 server 相互 ping,每个 server ping 机架内其余 N-1 个 server</li><li>在机架之间,则每个机架选几个 server ping 其余机架的 server,保障 server 所属的 ToR 不同</li><li>在数据中心之间,则抉择不同的数据中心的几个不同机架的 server 来ping</li></ol><h3>Pingmesh 架构设计</h3><p></p><h3>Controller</h3><p>Controller 次要负责生成 pinglist 文件,这个文件是 XML 格局的,pinglist 的生成是很重要的,须要依据理论的数据中心网络拓扑进行及时更新。<br/>在生成 pinglist 时, Controller 为了防止开销,分为3 个级别:</p><ol><li>在机架外部,让所有的 server 相互 ping,每个 server ping (N-1) 个 server</li><li>在机架之间,则每个机架选几个 server ping 其余机架的 server,保障 server 所属的 ToR 不同</li><li>在数据中心之间,则抉择不同的数据中心的几个不同机架的 server 来ping</li></ol><p>Controller 在生成 pinglist 文件后,通过 HTTP 提供进来,Agent 会定期获取 pinglist 来更新 agent 本人的配置,也就是咱们说的“拉”模式。Controller 须要保障高可用,因而须要在 VIP 前面配置多个实例,每个实例的算法统一,pinglist 文件内容也统一,保障可用性。</p><h3>Agent</h3><p>微软数据中心的每个 server 都会运行 Agent,用来真正做 ping 动作的服务。为了保障获取后果与实在的服务统一,Pingmesh 没有采纳 ICMP ping,而是采纳的 TCP/HTTP ping。所以每个 Agent 既是 Server 也是 Client。每个 ping 动作都开启一个新的连贯,次要为了缩小 Pingmesh 造成的 TCP 并发。<br/>Agent 要保障本人是牢靠的,不会造成一些重大的结果,其次要保障本人应用的资源要足够的少,毕竟要运行在每个 server 上。两个server ping 的周期最小是 10s,Packet 大小最大 64kb。针对灵便配置的需要,Agent 会定期去 Controller 上拉取 pinglist,如果 3 次拉取不到,那么就会删除本地已有 pinglist,进行 ping 动作。<br/>在进行 ping 动作后,会将后果保留在内存中,当保留后果超过肯定阈值或者达到了超时工夫,就将后果上传到 Cosmos 中用于剖析,如果上传失败,会有重试,超过重试次数则将数据抛弃,保障 Agent 的内存应用。</p><h3>网络情况</h3><p>依据论文中提到的,不同负载的数据中心的数据是有很大差别的,在 P99.9 时延时大略在 10-20ms,在 P99.99 延时大略在100+ms 。对于丢包率的计算,因为没有用 ICMP ping 的形式,所以这里是一种新的计算形式,(一次失败 + 二次失败)次数/(胜利次数)= 丢包率。这里是每次 ping 的 timeout 是 3s,windows 重传机制等待时间是 3s,下一次 ping 的 timeout 工夫是 3s,加一起也就是 9s。所以这里跟 Agent 最小探测周期 10s 是有关联的。二次失败的工夫就是 (2 * RTT)+ RTO 工夫。<br/>Pingmesh 的判断根据有两个,如果超过就报警:</p><ul><li>延时超过 5ms</li><li>丢包率超过 <code>10^(-3)</code></li></ul><p>在论文中还提到了其余的网络故障场景,交换机的静默丢包。有可能是 A 能够连通 B,然而不能连通 C。还有可能是 A 的 i 端口能够连通 B 的 j 端口,然而 A 的 m 端口不能连通 B 的 j 端口,这些都属于交换机的静默丢包的领域。Pingmesh 通过统计这种数据,而后给交换机进行打分,当超过肯定阈值时就会通过 Autopilot 来主动重启交换机,复原交换机的能力。</p><h2>Flashcat-Pingmesh 计划</h2><p>业界计划大都实现了各自的ping-agent的能力,但对于controller生成pinglist的能力并未有好的开源计划。同时咱们和一些客户交换,理解到目前数据中心架构与传统的leaf-tor-server架构不太一样,传统一个机顶交换机下server都在一个机柜下,当初数据中心一个交换机下机器可能在不同机柜,这种状况如果还是按交换机维度进行探测,当server机器探测故障后,无奈疾速定位到机器地位。因而,咱们在开发之前就针对Tor以及机柜维度进行了设计。</p><p>Pimgesh应具备哪些能力?</p><ol><li>具备最根底的Ping探测能力,即ICMP协定反对,同时也应反对TCP、UDP等协定的端口探测;</li><li>简化页面用户配置,用户只需配置数据中心名字、交换机CIDR值,数据中心反对的探测协定和端口等要害信息;</li><li>数据中心会有很多机柜、交换机和机器,如何防止ping风暴,因而需反对配置选取局部机柜、替换和机器进行探测,及探测比例配置,用户可灵便配置数据中心参加探测的交换机或机柜比例数,以及每个交换机或机柜下参加探测的Server比例数;</li><li>每个数据中心外部、默认所有机柜或交换机之间进行探测(Server比例数仍旧失效)</li><li>每个数据中心之间,用户可配置默认规定,即两两数据中心之间,依照配置的协定进行探测。当然,用户也可自定义哪些数据中心之间依照所选协定进行探测,此时机柜或交换机以及Server比例数仍旧失效;</li><li>探测后果进行无效聚合展现,多个数据中心有很多机柜或交换机以及机器,分三层构造展现探测后果,第一层展现所有数据中心之间的探测链路拓扑以及探测值、第二层展现数据中心外部每个机柜或交换机之间的探测拓扑和后果、第三层展现机柜或交换机上面所选Server之间的探测拓扑和后果;</li><li>Ping故障一键进行探测的止损能力;</li><li>探测机器故障后,主动从新选替补机器能力;</li><li>数据中心配置变更后,能及时主动以新配置从新生成pinglist;</li><li>反对简便地配置报警规定;</li><li>探测后果写入反对prometheus协定的时序库中;</li></ol><p>交换机和机柜模式配置差别</p><ol><li>交换机模式,页面用户只需配置替换CIDR值即可,无需手动注册Server IP,咱们会借助 Categraf 的心跳性能,主动判断出server ip应归属哪个交换机。</li><li>机柜模式,这种形式个别实用于客户环境中有本人的CMDB零碎,可将其CMDB零碎中的数据中心、机柜和机器关系通过OpenApi注册到Pingmesh零碎中。</li></ol><h3>Pingmesh 架构设计:</h3><p></p><h3>Apiserver</h3><p>提供OpenApi:</p><ol><li>用于注册、变更、查问数据中心原信息、探测规定(如:数据中心、探测协定、Tor交换机CIDR/机柜名、机器IP和机器名(机柜形式)、 探测百分比设置、数据中心之间探测规定设置 )。</li><li>数据中心三层构造拓扑图展现,以及历史探测曲线图、报警规定配置、一键降级等API。</li><li>提供给Categraf应用的查问pinglist接口。</li></ol><h3>Controller</h3><p>生成pinglist的外围控制器逻辑,它须要定时从DB中查问最新的配置和规定,判断是否有产生变更,如果产生变更则从新执行pinglist生成逻辑。<br/>从DB中查到配置后,判断是机柜模式还是交换机模式,因为这两种形式,其筛查Server IP的逻辑会有差别,之后需计算出每个数据中心,待探测的机柜或交换机是哪些,以及其下的Server Ip别离是多少,做好数据筹备工作。接下来查看探测规定(数据中心内、数据中心之间),依据这些规定咱们对每一台发动探测的Server 生成探测配置,并记录到DB中(因为咱们底层真正执行探测工作的是Categraf Agent,需依据不同协定所应用的插件,生成不同的配置文件)。</p><p>此外,咱们需新起一个协程,定时去比照新用户配置和已生成的pinglist是否统一,因为可能在咱们生成新的pinglist后的一段时间内,用户变更或新增、删除了数据中心配置和规定,那须要将已生成的pinglist进行比照清理,防止用户配置变更后,仍旧应用老的配置去探测,导致数据不准问题。</p><p>实现过程中还须要思考另一个问题,数据中心有很多机器,但不是所有机器都装有categraf,或装有categraf但过程退出了等状况,如果咱们只是单纯地按所有的机器数量去筛选一堆Server IP,那很有可能选出的机器都没有装agent,那也就无奈进行探测和发现问题了,因而咱们须要联合categraf本身的心跳上报的能力,来过滤出可用的Server IP。到了这里,咱们可能会想到另一个问题,因为咱们是按比例筛选机器的,而当某台机器down掉后,本来选了10台,当初只有9台可用机器了,这就会和用户配置的参加探测的服务器比例呈现diff。呈现这种状况,那咱们就须要从新选一台可用机器补上去。当抉择进去这批机器后,前面都须要始终用这些机器,除非遇到从新选的状况,这样能够保障咱们指标量是固定的,同时也能满足探测的比例需要。</p><h3>探测Agent</h3><p>Pingmesh底层真正执行探测逻辑的是咱们的Categraf,它是一个开源的我的项目,插件丰盛、配置简略,这里就不做过多介绍了,大家可在github上搜寻下即可。Categraf 会定时来核心端拉取本机的采集插件配置,当然,可能部署categraf的集群很多,这里核心端会将配置文件缓存到Redis中,升高对DB的查问压力,并晋升接口查问效率。最终categraf会拿到最新的插件配置并进行探测,之后将探测后果上报给核心端,用于数据展现和报警配置应用。</p><p>额定说一点,如果存在边缘机房,那categraf能够将探测后果上报给边缘机房的 n9e-edge 模块,之后报警就可在这边缘机房外部闭环了,而且edge 会主动将指标转发给时序库,用于页面展现应用。</p><h2>小结</h2><p>Pingmesh 在简单网络问题的排查中施展了微小的作用,本文分享了 Pingmesh 的实现思路,欢送大家 分割咱们试用。</p></article> ...

March 4, 2024 · 2 min · jiezi

关于运维:SRE体系10部署监控

监控零碎是撑持咱们运维工作的基石之一,它可能帮忙咱们剖析零碎的长期趋势,在产生故障时发送报警,甚至主动修复故障,同时也是咱们剖析零碎性能和问题的第一手资料,所以监控零碎的部署和优化是必不可少的。 监控准则监控有分级。能够通过监控项一旦产生故障产生的影响来分级,不致命的监控告警尽量优化,不要占用SRE的on-call工作工夫。否则紧急告警太频繁会让SRE进入“狼来了”的状态,开始狐疑报警的有效性,以致于疏忽了真正危险的告警监控要尽量简化。监控项及报警规定要容易了解,可能代表一个清晰的故障场景,监控模板要常更新,去除无用监控项监控景象,景象是指产生了什么,例如cpu利用率100%,提早超过2s,探针返回404错误码等,实时抓取第一手数据,每个人对监控到的景象的了解是不一样的。如何剖析监控数据是另一个零碎的事,所以监控项尽量不要加本人的剖析逻辑监控形式:白盒监控:依附业务零碎外部裸露的一些指标进行监控,如日志接口,java虚拟机监控接口,或业务零碎外部本人开发的http申请统计接口。白盒监控要求对业务零碎外部架构十分相熟,可能监控数据,预测趋势 黑盒监控:通过测试某种内部用户可见的零碎行为进行监控。例如监控一个商城零碎,不须要理解零碎外部架构。只须要模仿内部用户的下单行为,发送一个HTTP申请给零碎,如果零碎返回的数据正确则认为零碎是失常的。 监控精度和阀值:对于可用性较高的业务零碎须要设置更高的监控精度,例如cpu每分钟检测1次。但对于一些低可用性非重要零碎,监控频率能够调低到1小时1次。因为监控零碎自身会耗费服务器资源和存储资源,不合理的精度会导致服务器累赘减轻,影响本机运行的业务。 监控时大多数人偏向于监控平均值并设置阀值,但对于稳定比拟大的监控项是显著不适合的。 例如监控HTTP申请提早,950个申请提早是10ms,50个申请提早是10s。这显著是有问题的,如果依照平均值计算会认为提早失常从而疏忽这个问题。咱们能够通过高百分位或者直方图的形式来监控稳定率大的指标。例如90%的申请提早小于30ms,99.9%的申请提早小于60ms,以此来示意指标的散布状况 监控指标:典型的有以下四类,残余的均是在此四类指标上的拓展 提早:服务解决某个申请须要的工夫流量:QPS,网络i/o,磁盘i/o谬误:申请失败的数量和速率饱和度:服务容量的使用率,如CPU,内存,存储等使用率

March 3, 2024 · 1 min · jiezi

关于运维:SRE体系09沟通协作

SRE团队成员通常具备系统工程或是架构能力、软件工程技术、项目管理能力、领导能力、以及宽泛的知识面。当咱们须要去推动一个我的项目落地时,须要和不同的团队打交道,管控一致,造成合力,所以沟通合作天然是少不了的。次要分为日常沟通和会议沟通 日常沟通:接口人矩阵是一个很不错的形式。一个团队该当指定一个接口人,负责对外联系发言。 这样做的益处是接口人能够屏蔽掉内部的沟通问题,避免团队成员被打搅。因为沟通工作会很频繁,而且会打断团队成员的当前工作状态,在工作间不停的切换。其次对于其余团队成员来说也更清晰明了的晓得出了问题找谁,避免求助无门导致问题降级到更高层级leader。这个分割矩阵要在我的项目成员之间实时更新。 例如咱们要开发一个运维平台工具,须要申请网络,存储,服务器资源,须要和开发沟通确立开发计划,上线前须要测试代码,通过平安审核后能力把业务公布到外网 组织接口人职责联系方式基础架构团队小白网络、存储、服务器资源管理9461测试团队小明测试9462开发团队小黑前后端开发,bug修复9463平安团队小兔平安审核及测试9464............会议沟通:我的项目会议个别一周进行一次,太频繁会占用成员工夫,容易产生厌倦情绪。 会议前筹备:确定会议形式,近程还是现场。与参会人员沟通会议工夫,并取得后果。公布会议通告。筹备会议资料,并提前散发。 会议气氛:人和人之间的沟通形式差别很大。尤其是在谈话的形式,语气及习惯上要留神,防止产生不必要的误会和负面情绪。我的项目会议的初衷是解决问题,不是指摘批评。会议主持者要留神调节氛围,确保是在相互尊重的探讨当中进行 会议议程:1.上周待办事项回顾2.本周打算3.我的项目遇到的问题及解决方案3.会议论断,阶段性成绩总结。 会议论断:散会必须要有论断,否则会议就毫无意义。会后要将会议达成的共时性论断通过邮件或外部办公零碎刊发并失去与会者的确认或会签。

March 2, 2024 · 1 min · jiezi

关于运维:解决微软活动目录管理工作中常见问题

微软流动目录(AD域)是一种由微软的用于管理网络中用户、计算机、资源等的目录服务。流动目录被广泛应用于企业外部的网络管理中,尤其是对于应用微软产品的企业来说,流动目录是至关重要的基础设施之一。 因而,以微软为根底的流动目录在企业中应用是绝对常见的,对各种中小大企业来说应用流动目录能够帮忙企业集中管理网络用户帐户、组织构造、策略等,进步安全性、便捷性和管理效率,因而在企业中被宽泛采纳。 每位IT管理员都面临着许多流动目录(Active Directory)治理挑战,简直每天在流动目录中治理用户帐户。 而作为微软流动目录(AD域)管理员,可能会遇到以下几个常见问题: 帐户治理问题:包含明码重置、帐户锁定、用户权限设置等。管理员可能须要依据员工的工作需要,及时更新、调整用户帐户和权限。组织结构调整:当公司产生组织重组、人员调动等变动时,须要相应调整AD域中的组织构造、用户组等信息。平安问题:对AD域的平安进行监控与治理,确保数据和零碎的安全性,避免未经受权的拜访和数据泄露等问题。故障解决:解决AD域服务故障、用户无奈登录、权限异样等问题,及时定位并解决问题,确保零碎稳固运行。网络扩大和降级:随着业务倒退,可能须要扩大AD域的网络规模,部署新的域控制器、更新域控制器等操作。合规性问题:恪守相干法律法规和公司政策,确保AD域的治理和操作合乎合规要求。7.备份与复原:定期备份AD域数据,以防系统故障或数据失落,保持数据的安全性和完整性。 手动配置用户属性极为耗时和容易出错,尤其是在简单的Windows网络中。解决这些问题须要AD域管理员具备较强的技术能力和教训,而卓豪ADManager Plus是一个可应答所有流动目录治理挑战的解决方案,只需点击几下鼠标即可平安地实现身份验证和执行所有操作。管理员能够应用这个管理工具来设计用于治理所有用户帐户创立和批改。 此外,通过其基于Web的界面可视化治理,这个AD管理软件还让管理员能够齐全管制其域环境。

March 1, 2024 · 1 min · jiezi

关于运维:如何添加极狐GitLab-Runner-信任域名证书

本文作者 徐晓伟极狐Gitlab Runner 信赖实例域名证书,用于注册注册极狐 GitLab Runner。 问题参见 极狐gitlab-runner-host.md 阐明解决方案是应用颁发给域名 gitlab.test.helm.xuxiaowei.cn 的证书,能够应用本人的域名去各大云厂商收费申请,或者应用本人依据域名 gitlab.test.helm.xuxiaowei.cn 生成的证书 阿里云SSL(https)证书收费申请腾讯云SSL(https)证书收费申请华为云SSL(https)证书收费申请百度云SSL(https)证书收费申请域名证书解决方案计划1:重新配置极狐 GitLab,主动生成对应证书并主动配置,而后在极狐 GitLab runner 中信赖证书问题1:tls: failed to verify certificate: x509: certificate signed by unknown authority 文档 runners 局部自签名证书或自定义证书颁发机构ConfigMap配置 Pod 应用 ConfigMap根据上述文档可知,有三种形式能够解决证书信赖问题: 在 极狐GitLab Runner 注册时配置 --tls-ca-file 参数并指向证书文件在配置文件中减少 tls-ca-file 并指向配置文件, 此形式本文不做介绍,可参考 gitlab-runner-kubernetes-host.md ,原理雷同将证书放在 /etc/gitlab-runner/certs/ 文件夹下,应用域名命名证书,证书后缀名是 .crt, 因为篇幅限度,这里只介绍这一种形式因为 k8s 的 pod 可能随时会被删除(故障转移、被动删除等),所以间接在 pod 外部配置不是上策k8s 中的 ConfigMap 能够挂载到 pod 外部,所以能够思考在 ConfigMap 中配置证书,而后 pod 外部应用 ConfigMap 中的证书下载证书 形式1 浏览器拜访域名 https://gitlab.test.helm.xuxiaowei.cn依照图中操作,下载证书,上传之服务器,用于前期操作   形式2 # 下载证书openssl s_client -showcerts -connect gitlab.test.helm.xuxiaowei.cn:443 -servername gitlab.test.helm.xuxiaowei.cn < /dev/null 2>/dev/null | openssl x509 -outform PEM > gitlab.test.helm.xuxiaowei.cn.crt将证书导入到 k8s 中 ...

March 1, 2024 · 4 min · jiezi

关于运维:极狐GitLab-Runner-添加-极狐GitLab-域名-host

本文作者 徐晓伟自定义 GitLab 域名解析 查看极狐 GitLab runner 日志查看极狐 GitLab Runner Pod 名称[root@anolis-7-9 ~]# kubectl -n gitlab-test get pod | grep gitlab-runnermy-gitlab-gitlab-runner-6fb4bf7468-nmnkp 0/1 Running 29 (62s ago) 117m[root@anolis-7-9 ~]# 查看极狐 GitLab Runner 日志[root@anolis-7-9 ~]# kubectl -n gitlab-test logs -f my-gitlab-gitlab-runner-6fb4bf7468-nmnkp Registration attempt 1 of 30Runtime platform arch=amd64 os=linux pid=16 revision=f5da3c5a version=16.6.1WARNING: Running in user-mode. WARNING: The user-mode requires you to manually start builds processing: WARNING: $ gitlab-runner run WARNING: Use sudo for system-mode: WARNING: $ sudo gitlab-runner... Merging configuration from template file "/configmaps/config.template.toml" WARNING: Support for registration tokens and runner parameters in the 'register' command has been deprecated in GitLab Runner 15.6 and will be replaced with support for authentication tokens. For more information, see https://docs.gitlab.com/ee/ci/runners/new_creation_workflow ERROR: Registering runner... failed runner=BtGwLEwc status=couldn't execute POST against https://gitlab.test.helm.xuxiaowei.cn/api/v4/runners: Post "https://gitlab.test.helm.xuxiaowei.cn/api/v4/runners": dial tcp: lookup gitlab.test.helm.xuxiaowei.cn on 10.96.0.10:53: no such hostPANIC: Failed to register the runner. Registration attempt 2 of 30Runtime platform arch=amd64 os=linux pid=25 revision=f5da3c5a version=16.6.1WARNING: Running in user-mode. WARNING: The user-mode requires you to manually start builds processing: WARNING: $ gitlab-runner run WARNING: Use sudo for system-mode: WARNING: $ sudo gitlab-runner... Merging configuration from template file "/configmaps/config.template.toml" WARNING: Support for registration tokens and runner parameters in the 'register' command has been deprecated in GitLab Runner 15.6 and will be replaced with support for authentication tokens. For more information, see https://docs.gitlab.com/ee/ci/runners/new_creation_workflow ERROR: Registering runner... failed runner=BtGwLEwc status=couldn't execute POST against https://gitlab.test.helm.xuxiaowei.cn/api/v4/runners: Post "https://gitlab.test.helm.xuxiaowei.cn/api/v4/runners": dial tcp: lookup gitlab.test.helm.xuxiaowei.cn on 10.96.0.10:53: no such hostPANIC: Failed to register the runner. Registration attempt 3 of 30Runtime platform arch=amd64 os=linux pid=33 revision=f5da3c5a version=16.6.1WARNING: Running in user-mode. WARNING: The user-mode requires you to manually start builds processing: WARNING: $ gitlab-runner run WARNING: Use sudo for system-mode: WARNING: $ sudo gitlab-runner...由上述日志 dial tcp: lookup gitlab.test.helm.xuxiaowei.cn on 10.96.0.10:53: no such host 可知,注册失败,因为网络问题,无奈连贯到 gitlab.test.helm.xuxiaowei.cn,演示环境没有 DNS 解析,两种解决方案如下:在域名服务商解析 DNS间接批改极狐 GitLab Runner 配置极狐GitLab Runner 增加极狐 GitLab 的 host导出当初的配置helm -n gitlab-test get values my-gitlab > my-gitlab.yaml增加极狐 GitLab 的 host示例如下 ...

March 1, 2024 · 6 min · jiezi

关于运维:SRE体系08软件项目实践

<article class=“article fmt article-content”><p>SRE中最重要的是“E”,即engineering(工程项目),这是与运维工程师最大的不同。大多数运维工程师的工作繁冗且数量多,每天的工夫被大量的被动式工作所占据。而SRE属于主动式运维,被动发现问题,并从工程项目角度提出解决方案。</p><p>软件工程我的项目是咱们最常见的解决方案之一,通过开发各种软件工具平台,例如CMDB,DEVOPS,云管平台等工具,实现咱们的运维工作自动化,平台化,提供短暂继续的运维工作价值。中立性运维是个很重要的理念,咱们把开发好的工具软件交付给研发部门应用后,实践上工具软件能解决的运维工作量该当曾经同时转移给研发部门了,不须要再找咱们了,否则这个工具开发的意义就不大。<strong>中立性运维要求咱们鸟瞰整个工作流:哪些运维工作能够自动化,哪些工作须要咱们亲自执行,哪些工作能够通过开发工具软件转移给用户,只有这样能力确保咱们的工作量不会随着业务规模的扩充而线性回升</strong></p><p>SRE通常作为软件工程我的项目的项目经理,更多时候会专任多个角色。由运维工程师成长起来的SRE比纯正的开发人员更适宜治理运维我的项目,一个软件工程团队通常会有下图中的一些角色:</p><p></p><h4>我的项目立项:</h4><p>我的项目背景,我的项目需要,我的项目可行性调研,我的项目商业价值报告,我的项目启动大会是必不可少的,<strong>只有获得了所有相干方的共识和承诺,后续推动我的项目才会更顺利</strong></p><h4>我的项目推动:</h4><p>每日站会,迭代打算板,项目管理工具(jira,禅道)等都是在我的项目推动时罕用的工具和措施。每个公司的研发形式和气氛并不相同,可能推动即可。 运维我的项目和业务我的项目还是有一些不同,首先是运维我的项目上线工夫<br/>并不紧迫,其次运维我的项目的用户量和并发量并不高,但运维我的项目须要较高的可靠性。在推动我的项目时须要留神,<strong>运维我的项目不须要太过谋求前沿技术,稳固,牢靠,好用,易保护是首要准则</strong>。</p><h4>我的项目落地交付:</h4><p>我的项目落地交付时最难的,它并不是将我的项目上线,而后通告用户应用就算胜利。咱们要在公司外部推广工具软件,吸引更多的人应用还有大量的工作要做,例如:提供欠缺的帮忙文档和演示视频、和资深工程师及管理层沟通,让他们看到工具的价值来帮忙咱们推广、一直的收集用户吐槽,从用户角度改善软件的易用性等</p><h4>注意事项:</h4><p>首先时工具软件的易用性,要合乎习惯和直觉,升高用户的学习和应用老本。切勿以自我为核心开发,开发了一大堆性能,但却让用户困惑,难以上手应用,最初还是要打电话或发工单给你解决工作,这就得失相当了</p><p>其次是迭代上线,小步快跑。 <strong>每次上线最有价值的小性能,晋升团队的成就感和士气,同时也能疾速的失去用户的反馈,防止谬误累积到无奈批改,还能够让leaders和相干方看到我的项目价值以获取后续的资源反对</strong></p><p>再者是通用性,<strong>工具软件要尽可能多的笼罩咱们的日常运维工作量,尽量把重复性的脏活累活,或者低权限保护工作转移进来</strong>。不须要谋求所有的工作自动化,要对我的项目开发的性能做好价值评估</p><p>还有就是再推广我的项目的过程中要留神用户的反馈和情绪,咱们开发的软件可能会代替团队外部一些成员的工作,使他们的重要性降落</p><h4>结语:</h4><p>SRE是通用型人才,咱们<strong>优先拓展广度而不是深度</strong>,只有这样能力把握全局知识。</p><p><strong>SRE须要有运维教训,思考用户需要,探讨产品模型,组织团队,沟通合作,推动我的项目的能力,编码工作是组成部分但不是最重要的能力</strong>。SRE不仅要解决日常的运维工作,同时要推动我的项目,应答经常呈现的变故。如果你只是想拿到需要,带上耳机,坐在工位上宁静的敲代码,无人打搅,那恐怕很难适应SRE的工作。SRE须要不停的在多个工作间切换,同时要具备产品思维,因为工程项目的胜利在于最终交付的产品而不是如何编码实现。</p></article>

February 29, 2024 · 1 min · jiezi

关于运维:ITIL服务价值链

<article class=“article fmt article-content”><p>这是一篇面向服务台技术人员、ITIL 反对和 ITSM 专家的实用指南,ITIL的版本更新总是 ITSM 社区的大新闻,其中最大的探讨话题之一就是其服务价值链。本文将探讨服务价值链的作用、它如何反对 ITIL 实际,以及如何无效利用它来交付业务成绩。</p><p></p><p><strong>那么,什么是服务价值链(SVC)?</strong><br/>服务价值链是一种经营模式,它列出了利用产品或服务发明价值所需的流动。ITIL-v3的重点是策略、设计、转化、经营和能够继续改良服务生命周期的能力,而 ITIL 4的重点则有所不同。服务价值链是ITIL4的外围局部,有助于独特发明价值。它是整个服务价值体系(SVS)的外围局部,是服务转型和交付的口头渠道。它代表了组织的所有组成部分和流动如何独特发明价值。</p><p><strong>服务价值链包含公司在发明价值过程中发展的各项流动</strong></p><p>打算–所有打算流动。服务价值链的这一阶段负责针对四个方面以及所有产品和服务的愿景、现状和改良流动达成共识。</p><p>参加–这一系列流动负责达成与人员、共事、终端用户、客户、管理层和合作伙伴的所有互动。</p><p>设计和转化–剖析和开发新服务。这一阶段负责确保服务和产品一直满足利益相关者对老本、品质和上线工夫的冀望流动。</p><p>获取/构建–服务价值链的这一部分要确保服务组件在须要时可用,并合乎约定的规格。</p><p>交付和反对–确保依照约定的规格和服务水平协定(SLA)交付和反对服务。</p><p>改良–确保在所有价值链流动和四个方面继续改良服务、产品和实际。</p><p><strong>为什么须要服务价值链?</strong></p><p>旧版的 ITIL 是相当结构化和线性的。例如,ITILv3 将服务交付表述为一系列确定的步骤。首先是策略阶段,理解需要和财务状况并制订打算。接下来是设计阶段,制订服务蓝图。随后是过渡阶段,向终端用户公布新服务,以及经营阶段,提供日常反对等。最初一个阶段是继续服务改良(CSI),即随着工夫的推移改良提供的服务。</p><p>除 CSI 外,大多数人都认为 ITIL v3 服务生命周期是线性的–它假设了从策略到经营和 CSI,转型只有一条路可走,但事实世界并不是结构化或线性的,人们会随着状况的变动和倒退而扭转想法、来回变动或提出新的要求。在 ITIL 4 中,服务价值链是适应这种状况的一种形式,通过反对敏捷性和构造,服务价值链使 ITIL 部门可能更好地了解、布局和治理通过服务发明价值所需的流动,从而更好、更快、更平安地交付服务并改善客户体验。</p><p><strong>服务价值链劣势</strong></p><p>以客户为核心:服务价值链优先思考理解和满足利益相关者的需要。通过向服务价值链聚拢,您将致力于使服务与业务需要保持一致,并改善客户体验。</p><p>价值交付:旧版的 ITIL 探讨过价值,但总感觉有点模糊不清。咱们会从效用和保障的角度来提及价值,但这对终端用户意味着什么呢?</p><p>通过应用服务价值链,咱们正在建设一种构造,以确保服务的设计、开发和交付形式可能最大限度地施展其价值并反对业务需要。</p><p>改良服务交付:服务价值链通过辨认和优化相互依赖的流动来简化服务交付流程。它能打消反复,最大限度地缩小谬误,并进步有效性和效率。</p><p>提供更被动、更灵便的 ITIL 服务。服务价值链在组织外部造成了一种继续改良的文化。它激励对服务、流程和绩效进行定期审查,并确保改良意见失去记录、优先排序和落实。</p><p>与业务交付保持一致。服务价值链可确保 ITIL 服务与组织的整体业务指标保持一致。通过将服务交付与战略目标挂钩,企业能够对资产、资源和工作流进行优先排序,从而无效反对业务成绩。</p><p><strong>更通明的服务治理办法</strong></p><p>服务价值链提供了服务生命周期的整体视图,促成了不同阶段和实际之间的整合与合作。这将改善合作、增强沟通并获得更好的服务成绩。</p><p><strong>结语</strong></p><p>ManageEngine卓豪ServiceDesk Plus可帮忙 ITIL 部门独特晋升服务反对和交付产品的程度。它为反对团队提供了布局、设计、交付、反对、改良服务以及与终端用户社区互动的经营模式。无效利用 SVC,能够推动与业务更严密地保持一致、交付服务成绩、赋能用户。何乐而不为呢?</p></article>

February 29, 2024 · 1 min · jiezi

关于运维:IT发布管理轻松部署软件

<article class=“article fmt article-content”><p>咱们带来了一项令人振奋的好消息,可无效缓解构建的品质绝对劣质和公布的速度绝对迟缓。<br/></p><p>ManageEngine卓豪推出了ServiceDesk Plus MSP中的IT公布治理,装备了可视化的工作流程,这是PSA-ITSM解决方案的一部分。有了这个新性能,您能够辞别凌乱,迎接精简和标准化的公布治理流程。</p><p><strong>IT公布治理在账户中胜利部署版本</strong><br/>1、通过依据更改创立新版原本简化客户的 IT 降级。<br/>2、通过配置公布模板、角色和状态来定制公布治理流程。<br/>3、在易于应用的拖放界面中设计可视化工作流程,以标准化不同类型的版本。<br/>4、配置主动告诉以放弃利益干系人的参加。<br/>5、通过更改和公布的集成日历视图,防止帐户和客户端站点内的公布抵触。<br/>辞别手动和耗时的工作,迎接轻松的软件部署,轻松地放弃利益相关者的信息和参加,让您可能无缝地打算、构建、测试和部署公布。不易错过!</p></article>

February 28, 2024 · 1 min · jiezi

关于运维:SRE体系06oncall工作

<article class=“article fmt article-content”><p>on-call的意思是随时待命,on-call轮值工作是SRE, 运维,研发团队的重要职责,它的指标是保障服务的可靠性和可用性。on-call通常解决的都是紧急事变,个别非紧急的工作一线的研发和运维即可解决。</p><p></p><p>在咱们安顿团队外部的on-call轮值工作时,须要留神以下几点:<br/><strong>1.数量上放弃正当的均衡</strong><br/>如果公司要求做到7*24,那么尽量做到每人每月轮值一周。同时要为主on-call工程师配置一个正手,确保主on-call分割不上时有备份,或者客户问题溢出时,正手能够分担压力</p><p><strong>2.工作压力保持平衡</strong><br/>解决事变时不仅要解决现有问题,处理完毕还须要写事变报告和总结,十分耗时耗力,单日的生产环境报警故障解决总数尽量不超过3-4个,否则会造成运维压力过大,同时长期间执行夜间工作对人的身材不利,尽量避免夜间值班</p><p><strong>3.福利措施</strong><br/>on-call值班把工作带入了生存,时刻都有潜在的工作压力,须要为on-call工程师提供额定的补贴,防止工程师对工作厌倦</p><p><strong>4.安全感</strong><br/>独自解决未知问题,面对愤恨的客户往往须要承当微小的心理压力,在解决紧急事变时,须要为on-call工程师提供资源,防止遇到问题慌手慌脚,最紧要的有如下几个:</p><ul><li><strong>清晰的问题降级路线</strong><br/>一旦超出on-call工程师的能力范畴,及时将问题降级</li><li><strong>清晰定义的紧急事变解决步骤</strong><br/>有了参照样板,on-call工程师解决起来会更顺畅</li><li><strong>容纳,单干的文化氛围</strong><br/>在工作中只针对具体工作和问题,可能控制情绪,不指摘,甩锅别人</li></ul></article>

February 27, 2024 · 1 min · jiezi

关于运维:SRE体系05发布工程

<article class=“article fmt article-content”><h2>概念</h2><p>公布工程专一于构建和交付软件,通过源代码仓库,编译器,自动化构建工具,包管理器等工具软件,让代码运行起来,对外提供服务。<br/><br/>公布工程属于devops的一部分,对于晋升研发效率意义重大,然而效率和稳定性是一对矛盾,公布工程就是要在晋升效率的时候保持足够的稳固,确保业务零碎不因频繁的上线等操作呈现故障。</p><p>在咱们组建本人的公布工程时,应该留神以下几个准则:</p><h4>1.自服务模型</h4><p>SRE工程师开发工具软件,利用开源软件构建流水线的指标是晋升公布效率。<strong>在此过程中要留神,这些工具和流水线是由开发团队来应用和执行的,运维工程师不要适度参加到公布过程,除非呈现开发团队无奈解决的问题才干涉</strong>。只有这样在应答业务规模扩张时,运维人员才不会疲于奔命,同时也给了开发团队足够的自由度,让各个开发团队可能根据本人的节奏和打算上线服务。</p><h4>2.谋求速度</h4><p>面向用户的软件上线公布十分频繁,因为这类软件的指标是让用户可见的性能越快上线越好,可能疾速响应用户和市场的需要以取得商业价值。疾速迭代的麻利开发方式曾经成为支流,小步快跑的模式能够减小版本之间的差别和变动,让测试和调试变得简略,同时升高上线后呈现问题的概率。所以咱们的公布工程要满足速度的要求</p><h4>3.幂等性</h4><p><strong>咱们应用的公布工具链必须具备一致性和可重复性</strong>。经常都听过开发人员这么埋怨:“在我服务器上明明跑的好好的,怎么上线了就出问题?"<br/>,这里有两种可能,一种是因为开发环境和生产环境的配置差别造成的,还有一种可能是咱们构建和公布的软件包不统一,不满足幂等性导致的。同一份源代码实践上必须要保障无论构建多少次,最终进去的软件包是一只,不受构建服务器上安装的零碎版本,第三方库或其余工具软件影响</p><h4>4.强调策略和流程</h4><p>要指定平安,正当的公布流程标准和权限,确保只有指定的开发人员或产品人员有权限执行公布操作。在无非凡状况时,要遵循公布标准操作。</p><p><strong>同时公布流程要足够简洁高效,通俗易懂,不要给其余团队的共事造成学习老本和流程累赘</strong>。 一旦过于繁琐,开发团队可能会抉择绕过这些流程,再欠缺的流程和标准也变成了陈设。</p><h4>5.协调与共识</h4><p>咱们须要制订公布打算和告诉事宜。公布前要和研发,市场,产品,运维等团队沟通上线打算,取得认可和共识,同时要告诉到所有受影响相干方</p><h4>6.查看列表</h4><p>在咱们上线前,通常咱们要列一个查看表单,以打消潜在的问题和影响,以下是举例:</p><ol><li><strong>架构和依赖</strong><br/>咱们须要评审该服务是否应用了正当的基础架构资源,是否有依赖服务和被依赖服务,是否会对IAAS层造成影响</li><li><strong>系统集成和配置</strong><br/>如何抉择服务器,配置性服务,设置监控,与负载平衡零碎和DNS服务联合</li><li><strong>容量布局</strong><br/>业务刚上线可能会带来尖峰式的流量,须要配合压力测试,及产品,市场等部门的用户反馈设置正当的资源容量,确保不产生雪崩事变</li><li><strong>平安防护</strong><br/>针对零碎可能受到的攻打进行平安测试,同时配置防火墙,WAF等相干设施和策略</li><li><strong>回退打算</strong><br/>针对公布打算中的每一步剖析潜在危险,并制订相应的补救和备用计划。同时针对公布失败或异样,制订正当的回退计划</li></ol></article>

February 27, 2024 · 1 min · jiezi

关于运维:WGCLOUD运维平台功能介绍完整精华版

WGCLOUD是一款开源收费的运维监控软件,具备设计谨严,功能丰富,部署简略,上手学习容易,性能强悍,收费开源凋谢等特点 1、WGCLOUD能够监控各种主机,包含物理机、实体机、虚拟机、云主机等主机或者服务器 监控指标数据包含:操作系统信息,主机IP,主机名称,MAC地址,过程数量,启动工夫,运行工夫,吞吐量流量,零碎版本,CPU型号,内存大小,内存使用率,cpu核数,cpu使用率,零碎负载值,连贯数量,磁盘空间,磁盘IO,网络流量速率,替换区内存信息,硬盘SMART等 cpu温度监控(某些操作系统不反对),硬盘监控,硬盘的通电工夫、通电次数、硬盘温度监控(须要装置smartmontools工具) 2、WGCLOUD能够监控FTP或者SFTP的连通性 3、监控过程利用 监测过程的内存%,cpu%,线程数量,PID,吞吐量,过程所有者,连贯数量,启动工夫等指标 4、监控docker容器 5、监控日志文件,反对log,txt,out等类型,发现告警要害字符就会告警 6、文件防篡改爱护监测(监测文件或文件夹,是否被篡改或删除) 7、监控端口,监控指标IP的端口是否可连通 8、自定义监控项(能够自定义指令或脚本,agent定期执行反馈后果,反对表达式告警) 9、数据监控 监控数据库和数据表,并对监控后果数据可视化,反对自定义书写sql语句,反对自定义监控间隔时间,反对表达式告警 10、监控服务接口(GET和POST) 反对监控间隔时间自定义 11、指令下发批量执行 通过server来给多个主机下发指令,指令反对同时下发多条,反对立刻下发和定时下发,反对设置天数间断执行指令 12、弱小灵便的告警机制 反对开关,阈值,时间段等配置,反对自定义主机告警配置,反对邮件、微信、钉钉、短信等,告警复原后也会告诉 13、巡检报告 零碎会主动生成巡检日报、周报、月报,并反对导出excel 14、网络拓扑图 主机网络拓扑图,零碎主动生成 15、资产治理 16、K8S监测、中间件Kafka监测、中间件Redis监测、Nginx日志检测 17、设施账号治理 18、PING监测 能够PING监测是否连通,比方链路,打印机,数通设施,路由器,交换机,摄像头等,反对自定义监控间隔时间 19、SNMP监测 能够用来监测交换机、防火墙等网络设备的流量、速率、cpu、内存、磁盘占用、电压、温度等指标,反对自定义监控间隔时间 20、大屏展板 21、主机异样过程监测 次要用于监测主机内存或cpu使用率过高的过程,反对完结过程 22、常用命令笔记 此模块次要用于记录罕用的命令,也能够作为记事本应用

February 26, 2024 · 1 min · jiezi

关于运维:基于Linux直接安装的Nginx版本升级方法

引言随着版本的迭代和破绽的发现,Nginx作为一款软件防止不了打补丁的命运。 以下基于Linux间接装置的Nginx版本升级。 以下操作均在本地虚拟机中操作验证,请验证后再线上操作。基于centos7测试。 前置资源获取nginx的最新源码版本网址: http://freenginx.org/查看nginx的版本命令: nginx -V基于源码装置Nginx装置编译环境nginx基于c语言编写的,所以装置之前须要装置编译环境。 ### 装置编译环境和依赖包yum -y install make zlib zlib-devel gcc-c++ libtool openssl openssl-devel## 验证编译环境是否装置胜利gcc --versiongcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-44)Copyright (C) 2015 Free Software Foundation, Inc.This is free software; see the source for copying conditions. There is NOwarranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.逆向编译命令nginx编译通过 ./configure 命令加指定参数来实现,对应的参数决定了应用程序的装置地位、日志文件地位、依赖库应用状况等。 所以在装置之前须要晓得如下信息: 应用到的依赖库程序安装地位启用的模块以上信息能够通过ngingx -V来获取。 ## 进入nginx的装置目录nginx -V## 能够看到对应的配置参数信息nginx version: nginx/1.24.0built by gcc 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) built with OpenSSL 1.0.2k-fips 26 Jan 2017TLS SNI support enabledconfigure arguments: --prefix=/usr/local/nginx --with-http_ssl_module --with-stream --with-http_stub_status_module装置新版本nginx到正式网站下载源码:举荐Free版本 http://freenginx.org/en/download.html或者F5版本 http://nginx.org/en/download.html ...

February 23, 2024 · 1 min · jiezi

关于运维:利用DevOps和ITSM的集成能促进IT技术

在当今这个快节奏和技术驱动的世界里,DevOps 和 IT 服务治理(ITSM)理念在造就心理健康和缩小技术压力的工作环境中正在施展重要作用。混合最佳实际,实现更好、更快、更平安的服务。 什么是DevOps? DevOps 专一于采纳合作、自动化和继续改良的形式,使团队可能执行工作流程。通过跨职能沟通打消信息孤岛,促成了组织内部人员的心理健康平安问题,让员工可能释怀地承担风险、分享想法和承认错误,而不用放心判断谬误或处罚。DevOps 团队由定义、设计、创立、测试、引入、反对和改良产品或服务的价值流中的所有相干人员组成。DevOps 团队不仅包含技术人员,还应包含来自组织和供应商的人员。将 DevOps 自动化、准则和实际联合起来,能够促成 DevOps 即服务或 DevOps 策略的呈现,满足数字经济对敏捷性的要求。 什么是ITSM? ITSM 提供了一个确保服务高效交付的构造,是对 DevOps 的补充。通过主动执行重复性工作、简化工作流程,ITSM 可升高技术的压力(与技术相干的挑战所造成的压力),使员工可能专一于增值流动,而不是被手动工作所困扰。 此外,ManageEngine卓豪ITSM 实际使 DevOps 可能通过事件和问题治理疾速解决问题。DevOps 和 ITSM 工具能够使解决问题所需的合作自动化,从而缩短故障间隔时间(MTBF),这是两种框架的要害指标。 DevOps 和 ITSM 是组织必须采纳的框架,但随后要依据需要和实际进行相应的调整。没有以一当十的办法,照搬他人的模式可能会给企业带来弊大于利的结果。 什么是心理平安和技术压力? 心理平安在工作场合至关重要,它能促成企业外部的员工进行开放式的交换、翻新和成长。平安的环境意味着员工能够发表意见、质疑他人的想法和分享本人的担心,而不用放心受到不好的影响。领导层发明进去的平安气氛,更能使人在承担风险的同时从谬误中吸取教训。技术压力是指技术对集体身心健康的不利影响,会导致倦怠、抑郁、焦虑和工作效率降落。组织必须解决心理平安和技术压力问题,以促成衰弱和高效的工作环境。 DevOps 和 ITSM 如何促成心理健康平安? 合作文化: DevOps 和 ITSM 激励 IT 业余人员和组织外部其余工作人员之间的合作和团队精神。这两个框架都旨在帮忙企业进行询问 "咱们如何能力帮忙您解决某个问题或实现某个指标?" 在成熟的公司中,这样的发问频率甚至能够达到每两周一次。DevOps 和 ITSM 促成了从我的项目到产品的转变。跨职能团队单干治理工作的价值流,使客户或消费者可能享受到合乎其体验预期的服务,同时匹配组织的指标。 透明度和问责制: DevOps 和 ITSM 实际通过分享停顿、挑战和学习成绩,营造信赖和心理平安的气氛,从而强调透明度和问责制。应用能显示工作状态和问题的 DevOps 或 ITSM 工具最能体现透明度。数据看板、集成我的项目和相干设计、事件治理的自动化,以及确保开发中的服务通过产品或服务团队的测试和审核,这些都是透明度和问责制的具体体现。 继续改良: 您的运作形式和服务需不断改进,以满足数字经济和平安工作场合的需要。DevOps 和 ITSM 通过激励实际、承担风险和从失败中学习,从而将继续改良和教训吸取放在首位。而这种不断改进的心态能促成人员心理健康平安的稳固,因为在这种环境中,谬误会被他们视为是一个可能让人成长的机会,而非惩办的理由。 自动化和标准化: DevOps 和 ITSM 重视重复性工作的自动化和流程的标准化。升高出错危险能够发明一个更可预测、更稳固的环境,加重压力,促成心理平安。DevOps 和 ITSM 的工具曾经成熟,随着人工智能的引入,它们当初曾经能够更加无忧的共存。想想过来,每种“孤岛”都有本人的技术,而当初云、人工智能、网络安全、业务连续性、基础设施即代码或利用程序接口、测试和反对能够随着组织最佳实际模式的施行而无缝地交融在一起。 ...

February 23, 2024 · 1 min · jiezi

关于运维:黑链是什么如何解决黑链的问题

黑链是指歹意网站或者恶意软件在其余网站上插入的歹意链接。这些链接通常会将用户重定向到歹意网站,从而导致用户的计算机感化病毒、蒙受钓鱼攻打或者泄露个人信息。 一、网站被挂黑链了,对网站有什么影响 1、网站会呈现危险提醒 有时候在应用搜索引擎的时候,在搜寻后果中会呈现网站上有红色的警示文字,这就阐明网站存在着危险,失常状况下是不会有用户点击危险网站的,这样就会造成网站的流量损失。 2、网站权重 网站权重的重要性显而易见,如果网站被挂了黑链,搜索引擎发现后就会对网站进行惩办,导致网站权重降落,进而网站关键词排名也随之隐没,如果想要复原,就须要大量的工夫。而在这期间网站的流量也会大量的降落,导致转化率升高。 3、网站信誉度 网站被挂了黑链后,如果用户进入网站,发现外面的内容并不是本人想要的,有可能还会有病毒的危险,那么用户对这个网站的印象将会是很差的,而有些用户会认为这是不正当网站,会举报给搜索引擎,而搜索引擎会把网站放到不信赖网站的行列,从而影响网站的倒退。 二.解决黑链问题的办法次要包含以下几个方面: 1.定期检查和更新网站 及时查看网站的文件和代码,确保没有被黑客篡改。同时,及时更新网站的软件和插件,以修复已知的破绽。 2.强化访问控制 设置强明码,并限度对网站文件和数据库的拜访权限。只有受权的用户能力进行批改操作,从而缩小黑客入侵的可能性。 3.应用平安插件和防火墙 装置平安插件,如Web利用防火墙(WAF),能够帮忙检测和阻止歹意链接的拜访。防火墙能够过滤歹意流量,进步网站的安全性。如德迅WAF平安零碎能检测到服务器外部的一些ASPCMS破绽、文件上传破绽、弱明码破绽、配置谬误破绽,还有针对这个破绽的一些解决方案,比如说这个弱明码的破绽解决办法,还能查问到是什么地区的的IP,具体什么工夫的攻打,以什么形式攻打,如果客户有需要的话,这边也能够把攻打IP全副屏蔽掉,并且还能够查看某个IP攻打日志,查看具体是已什么模式攻打,攻打的具体是什么URL地址,是否入侵胜利等等 4.定期备份数据 定期备份网站的数据和文件,以避免黑客入侵后造成的数据失落。备份能够帮忙疾速复原网站,并缩小黑链对用户的影响。 5.及时响应和解决 如果发现黑链问题,应立即采取措施进行解决。能够通过删除歹意链接、修复被篡改的文件、革除恶意代码等形式来解决问题。 6.亲密关注安全漏洞和威逼情报 及时理解最新的安全漏洞和威逼情报,以便采取相应的防护措施。能够订阅平安告诉、参加平安社区等形式获取相干信息。

February 23, 2024 · 1 min · jiezi

关于运维:SRE体系04减少重复工作

日常工作在做系统管理员或者运维工程师时,咱们会被大量的日常繁琐事务占据工夫,疲于奔命。接不完的电话,解决不完的工单,督促着咱们不停的工作使咱们不足工夫去思考晋升效率并为此做出致力。通常咱们须要解决的日常工作通常有以下几个特色: 手动性:须要手动去执行某些命令或脚本来解决问题重复性:不停的反复执行某一操作或脚本,但工夫不固定可自动化:一些工作能够通过shell/python等脚本编程自动化或批量执行,如定时工作临时性:很难预料到会呈现什么问题及何时呈现,例如故障解决,on-call工作等无长期价值:一次性的工作,例如数据中心迁徙,编写一次性脚本等无奈复用的工作后果持续增长性:随着业务规模扩充,运维工作量也持续上升工程性工作当咱们成为SRE时,上述的工作不应该占据咱们的大部分工作工夫。咱们的精力该当次要投入到Engineering,即工程性工作中,以缩小重复性工作,晋升咱们的工作效率。 工程性工作一项具备挑战性,具备成就感,须要主观判断的工作,它必须具备长期价值,可能对咱们的业务零碎带来持久性改善。次要包含以下几项: 软件工程通过设计和编写代码或者是整合工具链,开发新型软件平台来实现运维工作。例如通过现有的gitlab,Jenkins等软件构建本人的公布流水线,利用蓝鲸等开源平台打造本人的CMDB零碎或混合云管理系统,从而晋升研发工作效率和稳定性,缩小手动和从新性工作 系统工程生产系统配置,基础架构设计,负载平衡及DNS零碎建设等 体系工程与运维相干的体系建设,如团队造就,运维知识库建设,应急管理体系,日常运维标准,工作总结,跨部门单干 两者关系:SRE必须要参加到日常工作中去,只有这样能力无效的理解运维工作中的痛点及可行的改善办法,也是工程性工作的需要输出端之一。然而如果此类工作过多,花在工程项目上的工夫太少会导致本人的思维受限,不可能以更高的视角来扫视工作,把本人局促在一个关闭的重复性工作圈子内。不足对技术的敏感性和前瞻性,创新性工作过少,导致职业倒退停滞。做工程项目最锤炼人,它须要SRE从全局视角扫视工作。从我的项目立项到最终交付用户,SRE不仅仅要解决技术框架问题,更要解决和不同部门之间的沟通矛盾,明确其余部门的需要,并以适合的形式体现在交付成绩中。

February 22, 2024 · 1 min · jiezi

关于运维:4家券商综合评级上升1月券商App终端业务体验评测报告发布

1月券商App终端业务体验 评测报告 导语 随着挪动金融服务的流行,手机 App 炒股成为宽广股民广泛的抉择。股市行情变幻莫测,行情推送速度会影响到投资者的交易决策,委托下单与撤单等要害操作环节的响应性能又会极大影响投资者的收益。由此,行情数据的推送实时性和交易的快捷性成为考验各大券商App 性能的两大外围场景。 博睿数据公布1月券商APP终端业务体验评测报告,报告次要蕴含《券商App行情能力象限》和《券商App终端业务体验评测报告》,旨在帮忙券商知己知彼,优化用户体验,晋升整体竞争力。 测试周期:2024.1.01-2024.12.31 测试场景:行情刷新速度及交易性能 评测工具:博睿数据独家产品 Bonree Stock 行情刷新速度 行情刷新速度依据SQE指数来进行排序,SQE指数也即行情体验指数(Stock Quotations Experience Index),是掂量各券商的行情数据推送实时性的指标,行情体验指数大的券商(该指数在0-1之间),数据时效性高。 三个因素影响券商App行情刷新速度: ·券商行情机与行情源同步是否足够及时,外部加工解决行情的效率是否高效; ·各券商应用的接入线路品质的差别,如各地区运营商下的终端用户到券商行情机之间网络链路品质状况的好坏,高时延和丢包等状况都间接影响行情数据到客户手机的提早; ·App端行情拉取机制的差别。 行情推达率 推达率是基于当天全副所有的正式券商采集的数据汇总出当天的基准推送数据,与该券商采集的数据比照统计出的百分比。 券商App行情能力象限 SQE代表行情刷新速率,值越大示意刷新越快(计算和取值规范跟以前雷同,通过每天的SQE数据汇总得出月的SQE数据);标准差代表行情刷新稳定性,值越小示意越稳固(以每天的SQE数据为基准,计算当月中各天数据的标准差);横轴为行情刷新速率;纵轴为行情稳定性。 交易性能 交易性能测试遵循“四同”准则,即同款手机设施、同接入网络、同工夫基准、同测试标的(同指数或同股票)。在实验室中的大量实在手机设施上,同时发动委托、撤单等交易要害操作,并通过对本地网络报文数据及App内存数据的联合剖析,精确获取撤单上报耗时、撤单成功率等指标,通过事后设计的抛物线模型打分公式对交易性能进行综合评分。 交易性能的优劣次要从两方面进行考量,即交易操作的响应时延和交易操作的成功率。因而,咱们目前参考的权重指标即委托耗时 + 上报耗时、交易操作是否胜利两项。 四大时刻影响交易性能: T1:用户点击撤单弹框确认按钮的时刻; T2:App网络层实在收回撤单上报申请的时刻; T3:App网络层接管到响应报文首包的时刻; T4:App本地接管完响应报文并将其结构为程序中对应对象的时刻。 每两个相邻时刻相减失去的阶段耗时代表不同影响因素,这四个关键时刻的明细数据能够为券商优化交易操作相应性能指明方向,是各大券商IT技术团队进行用户体验优化的重要依据之一。 版权申明 1、本报告版权归北京博睿宏远数据科技股份有限公司(股票简称:博睿数据,股票代码:688229)所有。报告中所蕴含的文字及数据内容均受无关著作权法律爱护,转载摘录必须注明出处。未经许可,企业或集体不得用于商业用途。任何未经受权应用本报告的行为都将违反《中华人民共和国著作权法》和其余法律法规以及无关国际公约的规定。 2、本报告因为数据样本选取及评测形式限度,其数据后果会受到样本的影响。因为钻研办法及样本限度,钻研材料收集范畴限度,局部数据不可能齐全反馈实在市场状况。本报告内容及观点仅供参考,不形成任何投资倡议。本报告对所提供的内容力求精确、残缺和及时,但不对其准确性、完整性和及时性承当任何法律责任。 北京博睿宏远数据科技股份有限公司 2024.02.22 整体来看,2024年1月行情能力象限中,上市券商整体体现稳固,入围领导者象限的券商与上月持平。4家券商综合评级回升,其中,2家券商从冲刺者象限回升到领导者象限,1家券商从后劲者象限回升到冲刺者象限,1家券商从后劲者象限回升到稳固者象限。

February 22, 2024 · 1 min · jiezi

关于运维:数字化运维路线图第四部分数字化运维转型场景-震撼发布

《数字化运维路线图》系列的压轴之作——《数字化运维转型场景》终于迎来正式公布。这部分内容与《数字化运维组织降级》、《数字化运维转型的规范流程》和《数字化运维转型平台》独特形成了一套残缺的数字化运维转型作战蓝图,全方位、多角度地概括了企业如何无效地解决本身在数字化运维转型不同阶段的外围诉求。咱们冀望这套作战蓝图可能成为企业实现高质量数字化运维转型的权威指南,同时也是企业在数字化转型征途上不可或缺的策略参考。 《数字化运维路线图》 第四局部 「数字化运维转型场景」震撼公布! 点击下方图片即刻收费下载✓ 企业如何轻松驾驭多个运维场景实现高效治理?✓ 企业如何灵便应答运维典型场景下的威逼与挑战?✓ 企业如何将场景中累积的教训复用到更多的场景中? 场景与组织、流程、平台的奇妙联合 场景与运维组织、流程、平台之间存在着相互影响、相互促进的动静关系。为了与一直变动的场景相适应,运维组织和流程必须具备高效且灵便的个性;同时,平台须要提供多样化的性能和工具,以精准满足各种场景下的特定需要。这种协同促成的模式,推动了运维工作的继续优化,为企业带来了持重且继续的倒退能源。 场景地图的四大外围支柱 随着数字化转型的深刻,场景建设容易陷入碎片化陷阱,场景边界含糊、性能重叠和资源节约将接踵而至。这个时候,若能提前布局好一张可扩大且体系化的运维场景地图,可同时轻松驾驭多个简单且多变的运维场景,实现高效运维治理。这张地图不仅明确以后阶段应优先建设的场景和要害能力,还围绕“价值主张、现状梳理、布局蓝图、施行路线”四大支柱精心策划,引领企业走向更加智能、高效和牢靠的运维之路。 深刻五大典型场景解好倒退“要害题” 在数智时代,企业深度使用ITOM一体化监控、AIOPS智能运维、BizOps业务经营、DevOps多态运维、SecOps平安运维五大典型运维场景,不仅是晋升零碎稳定性晋升、用户体验优化、资源配置优化、数据安全保障和助力业务翻新的关键所在,更是解好持重倒退“要害题”的外围策略,为企业业务的继续翻新与持重倒退奠定根底。 数字化思维下的多个场景顺畅互联 场景是构建运维数字世界的要害因素,每个场景既要施展独特作用,又需实现相互之间的顺畅互联。面对应急治理、变更治理、周末测试与应急演练等多样化的运维场景,需使用“连贯、数据、赋能”的数字化思维,进行深刻的场景形容、痛点剖析及场景合成,将积淀下来的智慧转化成具备实际操作指导意义的利用场景,推动运维向智慧化转型的跨越式倒退。

February 22, 2024 · 1 min · jiezi

关于运维:提升企业安全网络风险评估的重要性

爱护数字资产已成为当今企业迈向提高和翻新的必经之路,特地是在疫情过后,数字化转型更是成为了各行各业的独特抉择。 在这个过程中,随之而来的是对数字资产平安的器重和关注。网络危险的存在对企业的平安形成了严厉挑战,因而爱护您的企业免受网络危险的侵害变得至关重要。 作为企业外围经营的流动目录(AD),治理用户身份、权限和访问控制是至关重要的。 在卓豪ManageEngine,咱们深知爱护AD环境的重要性,因而咱们很快乐为您提供收费的AD网络危险评估服务! 网络危险评估是辨认IT环境破绽的过程,而这些破绽很可能会受到网络攻击的影响。依据的定义,网络危险指的是“因为信息技术故障或滥用而导致公司业务受损的可能性。” 这一评估过程至关重要,因为它帮忙企业采取预防措施来防备潜在威逼。 为什么您须要进行网络危险评估呢?* 一、它能够帮忙您监督IT零碎中的安全漏洞,并解决任何平安配置谬误。通过对系统进行全面的评估,您将可能辨认潜在的破绽和弱点,及时加以修复,进步零碎的整体安全性。 二、通过网络危险评估,您能够理解潜在的威逼以及如何在它们影响您的AD环境之前采取预防措施。这有助于您及早发现并应答可能的危险,升高因平安威逼而造成的损失。 三、进行网络危险评估还有助于您恪守法律法规和平安政策。通过对系统进行全面的检查和评估,您能够确保您的企业合乎相干的法规要求,防止因合规问题而面临的潜在危险。 最重要的是,网络危险评估能够通过改良您的企业整体网络安全打算来进步您的网络安全程度。通过深刻理解零碎中存在的安全隐患和危险,您能够制订更加无效的安全策略和措施,晋升企业的整体安全性。 针对AD环境的危险评估尤为重要。加入咱们的收费AD平安评估,您能够轻松评估您的在线破绽,并取得个性化的策略来增强您的平安进攻。 通过咱们的收费平安评估,您能够取得一个决定您的AD环境在网络安全方面的危险得分,立刻采取补救措施以加重潜在的网络威逼,并取得倡议为了更平安的今天爱护您的AD环境。 不要期待网络事件产生,当初就采取行动,把握您企业的平安,爱护您的数字资产免受网络危险的威逼!

February 22, 2024 · 1 min · jiezi

关于运维:运维工作新时代自主编码实现运维自动化的转型之旅

引言随着业务零碎和底层中间件服务的复杂度一直减少,传统手工运维形式面临着诸多挑战和限度。人工编写运维脚本显得十分低效,同时手动执行运维操作存在着微小危险。在此状况下,推动运维自动化成为运维人员必须落地施行的工作。运维同学如果能够有中央自主通过编码的形式,实现各种自动化工作和运维性能。不仅能够提高效率,升高危险,还能为运维工作带来新的冲破。 然而,要迈向这条运维自动化之路并不容易。咱们须要克服传统运维的局限性,同时要把握编码技能和提供适应的平台。 本文将介绍如何掂量运维自动化率的概念,并提供一个反对运维同学通过编码实现自动化的平台。通过编码实现运维自动化的转型之旅,让运维工作迈入新的时代。心愿也能给大家提供一个全新的视角。 运维工作面临的挑战和限度简单的脚本治理和手动操作过于依赖手动操作和编写简单的手工脚本,容易引发故障,减少了运维工作量和危险: •脚本保护和版本控制:随着工夫的推移,保护的脚本可能会变得越来越简单、并且难以保护。同时,在团队多人合作的状况下,对脚本进行版本控制和治理也存在挑战,特地容易产生用错脚本的状况。 •手工操作谬误:手动操作容易引入人为的操作谬误,尤其是在解决线上工作时。一个小谬误可能导致系统故障或数据失落,从而减少了零碎的不稳定性和危险。 人为失误和依赖集体技能运维过程中的人为失误会导致系统故障和数据失落,适度依赖集体技能的状况也会使得团队单干和常识传承艰难: •依赖个别人员:如果某个运维同学负责的工作过于依赖于集体技能和教训,那么当该同学到职或休假时,可能会影响运维工作的失常发展。 •不足流程规范:人为操作不足标准化流程和标准,在解决工作时没有固化的流程提供领导和参考,容易造成人为失误危险。 个人成长和倒退的局限日常工作中,大家更容易关注到业务研发,而对于业务运维的工作容易漠视。这种状况给运维同学的个人成长和倒退带来了一些局限性: •紧急情况和工作压力:运维同学通常须要在 7*24 小时待命用来解决问题和故障,以确保零碎的稳定性和可用性。导致集体常常处于低压工作状态,集体的倒退和学习可能受到限制。 •倒退和回升空间:随着云计算倒退,局部运维工作正逐渐被云厂商和 DevOps 自动化代替,特地是混合云时代,传统运维必须要转变思维深刻到业务或者产品底层,从而晋升集体竞争力。 运维自动化的重要性老本运维人员管着公司的服务器资源,每年公司须要为IT资源领取数十亿的老本,随着资源规模的一直增长,老本管制和策略变的至关重要。在这种状况下,欠缺的资源老本管理工具和自动化摊派机制变得尤为重要,否则老本治理将面临微小的累赘和压力。 效率在运维工作当中,例如资源分配和治理、扩容缩容、日常巡检、版本更新、服务重启、集群治理等,这些都是运维最根底的日常工作,目前这些工作上大多都是偏日常和反复的,手工操作将节约掉大部分的工夫,如果通过自动化解决掉这些问题,将解放运维的生产力,晋升运维效率,让运维的同学能够有更多的精力去做更有价值的事件。 稳定性通过自动化晋升运维效率的同时,也能够大幅升高人为失误,最大水平保障系统的稳定性运行,即便呈现问题,也可能通过自动化疾速发现响应和主动复原。 编码实现的运维自动化下面提到了运维自动化的重要性。自从往年4月份退出技术保障部门以来,我始终在思考如何晋升运维的自动化程度,并心愿能找到一种掂量该晋升的办法。因而,在4月份就提出了一个运维自动化率这样的一个掂量指标。 运维自动化率的定义运维自动化率的定义范畴是技术保障部门的所有运维人员。该指标能够通过以下公式计算: 运维自动化率 = 自动化操作次数(通过泰山麒麟) / 手工操作次数(通过堡垒机登录) + 自动化操作次数其中,分子示意通过泰山麒麟进行的自动化操作次数。这些操作能够是自动化运维命令、运维性能或自动化编排工作。分母示意通过堡垒机登录之后进行的手工操作的次数,再加上分子的数量。 通过这个指标,能够掂量在给定工夫内运维人员应用自动化工具绝对于手工操作的比例,从而评估运维的自动化程度。较高的自动化率意味着更多的工作能够通过自动化实现,缩小了手工操作的工作量,进步了效率和稳定性,从 4月份掂量开始,技术保障部的运维同学运维自动化率从 Q2 的 3% 晋升到 目前为 63%。 为什么要运维自主编码实现最后的起因是发现各个运维小团队都应用本人独立的运维工具。通过剖析,这是因为不同的运维团队有不同的需要,为了满足各自的需要,每个团队都会开发本人的运维工具。随着工夫的推移,就呈现了许多不同的运维工具平台。因而开始思考是否能够提供一个平台来满足所有运维人员的需要。 然而,问题又来了,这些需要应该由谁来开发呢?最正当的解决方案是由运维人员本人来开发。因为只有运维人员最理解本人的需要。 •升高沟通老本:运维同学最理解本人的需要,运维团队能够依据业务需要和环境特点开发定制化的运维工具和脚本,确保性能与业务需要完满符合。这样能够升高与平台方的沟通老本,缩小需要解释和了解的工夫和精力。 •疾速响应需要:运维团队可能疾速开发或批改运维性能,及时响应业务变动和运维需要。不用期待平台方的排期反对或更新,能够迅速满足需要变动,进步运维的灵活性和响应速度。 •节约保护老本:绝对于各个团队自建运维工具,通过自行编码能够节俭许多公共局部的保护老本。运维同学只须要关注本人的业务逻辑,而不必放心整个运维工具的保护。这样能够升高保护老本,并进步工作效率。 •助力业余成长:通过编码实现运维性能,能够促成运维人员的技术成长。他们能够晋升本人的编程能力、零碎理解能力和问题解决能力。 通过让所有运维同学都参加其中,能够为运维同学提供更广大的学习和成长机会,能够施展出更大的价值。这样做不仅能够晋升运维团队的整体能力,还能助力个体运维人员的个人成长和职业倒退。 案例剖析:ChubaoFS的运维自动化接入步骤和示例1、申请运维零碎菜单分割泰山麒麟平台管理员创立运维零碎菜单。在这个过程中,平台管理员将创立对应运维零碎的菜单名称,并依据菜单调配用户公有的鉴权文件。这个鉴权文件将在后续的 Controller 开发中被应用。 apiVersion: v1clusters:- cluster: certificate-authority: ca.pem server: https://xxx.jd.com:80 name: kubernetescontexts:- context: cluster: kubernetes user: kubecfg name: default current-context: defaultkind: Configpreferences: {}users:- name: kubecfg user: client-certificate-data: xxxxx(领有菜单对应的namespace所有权限) client-key-data: xxxxx(领有菜单对应的namespace所有权限)2、创立运维性能在泰山麒麟平台中创立运维性能时,反对两种实现形式。一种是基于运维同学提供的 HTTP 接口服务,另一种是基于运维本人编码实现的自定义(基于 Kubernetes CRD)模式的 Controller。本文重点将介绍基于自定义模式的 Controller 实现形式。 ...

February 21, 2024 · 3 min · jiezi

关于运维:BentoML如何使用-JuiceFS-加速大模型加载

BentoML 是一个开源的大语言模型(LLM) AI 利用的开发框架和部署工具,致力于为开发者提供最简略的构建大语言模型 AI 利用的能力,其开源产品曾经反对寰球数千家企业和组织的外围 AI 利用。当 BentoML 在 Serverless 环境中部署模型时,其中一个次要挑战是冷启动慢,尤其在部署大型语言模型时更为显著。因为这些模型体积宏大,启动和初始化过程耗时很长。此外,因为 Image Registry 的带宽较小,会让大体积的 Container Image 进一步加剧冷启动迟缓的问题。为了解决这一问题,BentoML引入了JuiceFS。 JuiceFS 的 POSIX 兼容性和数据分块使咱们可能按需读取数据,读取性能靠近 S3 能提供的性能 的下限,无效解决了大型模型在 Serverless 环境中冷启动迟缓的问题。应用 JuiceFS 后,模型加载速度由原来的 20 多分钟缩短至几分钟。在施行 JuiceFS 的过程中,咱们发现理论模型文件的读取速度与预期基准测试速度存在差别。通过一系列优化措施,如改良数据缓存策略和优化读取算法,咱们胜利解决了这些挑战。在本文中,咱们将具体介绍咱们面临的挑战、解决方案及相干优化。 01 BentoML 简介以及 Bento 的架构在介绍模型部署环节的工作之前,首先须要对 BentoML 是什么以及它的架构做一个简要的介绍。 BentoML 是一个高度集成的开发框架,采纳简略易用的形式,反对以开发单体利用的形式进行开发,同时以分布式应用的模式进行部署。这意味着开发者能够用很低的学习老本来疾速开发一个高效利用硬件资源的大语言模型 AI 利用。BentoML 还反对多种框架训练进去的模型,包含 PyTorch、TensorFlow 等罕用 ML 框架。起初,BentoML 次要服务于传统 AI 模型,但随着大型语言模型的衰亡,如 GPT 的利用,BentoML 也可能服务于大语言模型。 BentoML 产生的制品称为 Bento,Bento 的角色相似于 Container Image,是用于 AI 利用部署的最根本单位,一个 Bento 能够轻松部署在不同的环境中,比方 Docker、EC2、AWS Lambda、AWS SageMaker、Kafka、Spark、Kubernetes。 一个 Bento 蕴含了业务代码、模型文件、动态文件,同时咱们形象进去了 API Server 和 Runner 的概念,API Server 是流量的入口,次要承载一些 I/O 密集型的工作,Runner 通常是执行模型的推理工作,次要承载一些 GPU/CPU 密集型的工作,从而能够将一个 AI 利用中不同硬件资源需要的工作进行轻松解耦。 ...

February 21, 2024 · 2 min · jiezi

关于运维:当平台工程遇上DevEx打造卓越的开发者体验

<article class=“article fmt article-content”><h2>引言</h2><p>近期在参加编写平台工程系列规范时,我发现开发者体验 (DevEx) 是一个不可漠视的关键因素,它对于构建一个胜利的平台工程起到了重要的作用,<strong>DevEx 能够称之为平台工程的根底</strong>。基于我最近的学习和思考,我决定写这篇文章,想深入探讨一下 DevEx 对于外部开发平台的重要性,也心愿为从事外部开发平台的同学们带来一些新的思考。</p><h2>理解平台工程</h2><blockquote>平台工程是设计和构建工具链和工作流的学科,可在云原生时代为软件工程组织提供自助服务性能。平台工程师提供的集成产品通常被称为“外部开发人员平台”,涵盖了应用程序整个生命周期的经营需要。 <strong>–定义来自 platformengineering.org</strong></blockquote><p></p><p>对于平台工程的定义和思考,我在上一篇《扯淡的DevOps,咱们开发基本不想做运维!》文章也提到了,对于定义目前尽管从文字内容上有些差别,但大部分的意思较为统一:次要是提倡自助服务,将底层根底撑持工具的复杂性和不确定性去缩小,减化工作流程,最终用户在应用过程中的认知老本升高,从而<strong>改善了最终用户的体验</strong>,和进步生产效率。</p><h3><strong>为什么须要平台工程</strong></h3><p>在公司外部,有负责中台的研发团队,有负责前台的研发团队,还有团队专一于开发者平台的研发。这些从事外部开发者平台的同学,实际上就是平台工程团队。与其余团队相比,平台工程团队最大的区别在于他们须要具备产品思维。这些团队的同学能够称做平台工程师,那么<strong>每个平台工程师起码是个兼职产品经理</strong>。</p><p>然而,在理论状况中,这些平台工程师可能过于专一于技术实现,而会疏忽用户的需要和反馈。他们可能会认为本人负责的工具平台本人是最理解的,因而很少会去调研真正用户的需要和反馈,日复一日一直地开发新的产品和性能。</p><p></p><p><strong>这里抛个问题,能够思考一下:为什么企业在抉择上云时,往往不间接应用私有云控制台,而是通过企业的云管平台提供服务呢?</strong></p><p>外表来看,间接应用私有云控制台仿佛是最简略高效的抉择。然而,当应用当前咱们深入分析后发现,这种抉择可能会带来一系列的重大问题。最终可能会造成资源节约、资源安全性问题。另外,应用私有云控制台的应用老本也较高,<strong>从而也升高了用户的体验</strong>。</p><p>在平台工程的提倡下,应该升高开发人员的认知负荷和应用老本,企业通过 云管平台 来提供服务,能够无效升高开发人员应用认知老本,晋升用户的体验,让开发人员可能更专一于构建本人的应用程序。</p><h2>理解 DevEx</h2><blockquote>开发者体验 (DevEx) 指的是软件开发人员在日常工作中遇到的整体环境、工具、实际和文化。它涵盖了从设置开发环境的便捷性,到工作流程的效率,到工具和流程的有效性,以及整体的反对其创造性和技术致力的工作文化。</blockquote><p>一个最常见的误会是,开发者体验 (DevEx) 次要受外部开发者工具的影响。然而,依据调研发现,除了工具因素外,环境因素和人为因素同样对开发者体验产生重大影响。</p><p>环境因素包含办公环境、团队文化等。一个良好的工作环境可能激发创造力,进步工作效率。例如,一些公司为了营造轻松愉悦的办公气氛,提供了各种娱乐设施,如啤酒桶、咖啡角、弹球台、乒乓球台等设施,旨在让开发者缓解工作压力,有助于晋升开发体验。</p><p></p><p>另外,我的项目的稳定性、指标的明确性、绩效考核形式的清晰性也是影响开发者体验的重大因素。如果我的项目团队常常调整组织架构,我的项目指标不明确,绩效考核 A/A+ 的定义模糊不清,开发人员会感到十分困惑和不安,会极大影响研发同学的工作效率和体验。</p><p>因而,<strong>DevEx 是平台工程的基石</strong>,是促成开发人员效率晋升的最佳门路。</p><h3><strong>DevEx 在平台工程中的意义</strong></h3><p>晋升开发人员的效率始终以来都是一个谋求的指标,但如何掂量开发人员的效率却始终是一个难题。仅仅谋求需要交付周期或开发交付周期是绝对比拟全面的,未能思考到开发人员的工作是一个简单且多样化的工作。那么,怎么来掂量开发人员的生产力呢?</p><p>然而,一些企业在谋求进步开发人员生产力方面获得了一些发现,他们发现重视开发人员的体验,以开发人员体验为指标的办法(DevEx)能够极大地促成开发人员的效率。依据 Gartner 的调研报告,78% 的受访企业曾经制订或打算制订 DevEx 晋升打算。DevEx 提供了一个度量框架,该框架将开发人员的反馈、认知负荷老本和专一水平综合在一起,为开发人员提供了清晰、可操作的掂量维度。</p><p></p><p>在平台工程畛域,DevEx 是一个至关重要的因素。关注它不仅能够进步开发人员的工作效率,还能够放慢交付周期,并晋升开发者的幸福感。通过关注开发人员的体验和提供良好的工具和环境,企业为开发人员发明一个舒服且高效的工作环境,从而能够进步整体的开发效率和品质。</p><h2>落地 DevEx</h2><p>DevEx 是最大化晋升开发效率的要害,假如你是平台工程团队,不晓得有没有被动思考过一个问题:“为什么开发人员不违心应用咱们的工具?”,作为平台工程团队肯定要牢记以下7个办法:</p><h3>1、理解你的用户(开发者)</h3><p>“顾客就是上帝”,尽管咱们不是甲乙方,尽管咱们同在一家公司,甚至一个办公室,但你是否真的理解用户的需要?你是否将用户视为上帝?是否真的理解用户的需要和痛点?</p><p>在平台工程团队,理解用户诉求,不仅仅是产品经理的职责,更应该是整个平台工程团队的工作,不仅要理解用户痛点,而且还要分明晓得用户平时都是以什么形式在应用你的平台。</p><p>•<strong>线上考察问卷</strong>:考察问卷是最间接的渠道,能够定期被动收集用户的心声。</p><p>•<strong>线下培训流动</strong>:面对面的产品培训,或通过用户访问以及其余形式,面对面收集用户的意见。</p><p>•<strong>放弃好奇心</strong>:多关注用户群、神灯畅聊的音讯,当听到有埋怨或吐槽声音,要及时跟进解决并思考。</p><h3>2、向专职 UX 岗位学习</h3><p>如果把开发人员当初用户来看的话,其实 DevEx 要做的事,和公司内的专职 UX 岗位同学的职责差不多。 UX 岗位大部分精力都在和用户沟通调研,最终造成用研报告。</p><p>“<strong>惟一好的假如就是咱们的假如是错的</strong>”,我特地喜爱这句话,讲的十分有情理,因为当咱们开始假如的时候,咱们就曾经错了。通过假如做出了某个需要的时候,要么是没人须要的性能,要么是解决了没有人遇到的问题。因为所有的性能,都应该是发现进去的,而不是假如进去的。性能都是通过:发现、设计、开发、交付这4个阶段,但最难的就发现问题,通常 UX 岗位同学在用研过程中是最容易发现问题的。</p><h3>3、以用户为核心的心态</h3><p>任何产品都应该以用户为核心,在平台工程团队更加重要,因为经常咱们本人也是用户,特地容易把角色搞混,所以更应该时刻强调,谁才是真正的用户,且要时刻确保这种心态。</p><p>•肯定不要假如用户的需要。</p><p>•所有的需要用用户视角去形容,解决【哪些用户】的【什么问题】,将需要的指标转移到用户身上。</p><h3>4、自动化你的零碎</h3><p>自动化在晋升 DevEx 方面具备重要作用,无论是在老本、效率还是稳定性方面。通过自动化工具和流程,都能够主动实现繁琐的工作,缩小开发人员的累赘。例如,自动化构建和部署流程能够缩小手动操作的谬误,并放慢交付工夫。自动化测试能够进步产品质量和稳定性,缩小问题的呈现。此外,自动化还能够帮忙进步产品的一致性,缩小人为因素的影响,进步稳定性和可靠性。</p><p>总的来说,自动化在晋升 DevEx 方面是至关重要的。通过缩小手工环节和自动化流程,能够升高用户应用产品或工具的步骤,从而进步开发者体验。</p><h3>5、明确岗位和职责</h3><p>在过来,大部分公司外面有这样一个岗位,叫 SCM 工程师或者配置管理工程师,但这些年随着 DevOps 的倒退,自动化构建和继续集成/继续交付的成熟,开发人员通常会通过工具自动化实现这些工作,从而缩小了专职的需要,因而这个岗位或者叫法正在缓缓隐没。</p><p>目前,在公司中负责平台或者工具的团队,尽管有专职的团队,但岗位名称大部分依然是前端/后端软件开发工程师岗,这就无奈明确这部分同学的具体职责,但尽管平台工程的倒退和推动,目前在一些公司中,曾经有一些叫平台工程师这个岗位角色,这个角色正在逐渐代替测试开发、工具开发、运维开发、甚至代替SRE的岗位角色。因而,我感觉通过明确的岗位和角色,能够更好明确岗位对应的具体职责,更好推动平台工程的落地。</p><h3>6、Shifting down</h3><p>在软件开发过程中,通过转移的形式,将开发人员身上的职责进行加重,通过转移到其余角色或者平台上,从而升高开发人员的累赘,从而晋升 DevEx。</p><p><strong>左移:</strong>将测试左移,测试在开发过程中晚期阶段进行,能够更早发现和解决Bug,应用自动化测试工具或者测试框架来验证代码,不过这种做法对测试要求较高,如果测试人员能力达不到,一味地推动测试左移,甚至可能会给开发减少累赘哈哈。</p><p><strong>右移:</strong>上线成果A/B试验,通过比拟试验的办法来验证上线性能成果。</p><p><strong>下移:</strong>下移的整体思路就是将开发人员从工具和平台中解放出来,平台工程师负责构建和保护工具平台,为开发人员提供稳固的基础设施和工具,这样,开发人员能够专一于业务逻辑和翻新,能够放慢开发速度,从而也晋升了 DevEx。</p><h3>7、建设掂量 DevEx 的指标</h3><p>最初一点,是建设 DevEx 指标,从而掂量 DevEx,并晋升 DevEx ,诚实说这点的确比拟难,但想一想业务开发团队都能指定一些 KPI 去掂量,那么平台工程团队也应该这样做,或者能够说能够尝试这么做。</p><h2>度量 DevEx</h2><p>巨匠彼得·德鲁克说过:“如果你无奈掂量它,你就无奈治理它。”,在 23 年公布的一篇钻研论文中揭示了度量和晋升开发者生产力的一种全新框架,该框架称之为 <strong>DevEx 框架</strong><strong>,</strong>作者为 Abi Noda、Margaret-Anne Storey 博士、Nicole Forsgren 博士、和 Michaela Greiler 博士。</p><h3><strong>影响 DevEx 的因素</strong></h3><p>针对开发效率或开发者生产力的度量,为什么始终以来都比拟艰难,次要有两大起因:一方面软件开发的过程是不可反复且创造性的工作,另一方面开发人员在工作中容易受到内部烦扰的影响。</p><p><strong>①软件开发过程非标准</strong>:软件开发的过程不是重复性的劳动,且是创造性的工作,产出物并非规范的可掂量的,无奈通过掂量流水线车间工作一样的方法来掂量软件开发工作。</p><p><strong>②内部烦扰的影响</strong>:除了公司提供的工具效率影响外,也还有开发我的项目的难易水平、开发者和其余角色的沟通老本、历史代码的技术债权等因素都会影响开发效率。</p><p></p><p><strong>DevEx 框架</strong>提出了反馈周期、认知负荷、专一状态三个维度。提倡通过关注这三个维度,从而推动开发者生产力的进步。</p><p>•<strong>反馈周期:</strong>在开发过程中,能够疾速的反馈对于提供开发人员的工作效率至关重要。例如,构建、测试或开发环境设置效率低下,导致反馈周期缩短,将间接影响开发人员工作的积极性和生产力。</p><p>•<strong>认知负荷:</strong>在开发过程中,如果开发人员须要破费大量工夫了解代码、了解工具的应用办法或者查找文档上,这会导致认知负荷减少,从而影响工作效率。</p><p>•<strong>专一状态:</strong>在开发过程中,如果开发人员频繁被打断或烦扰,不能进入到专一状态,那么生产力就会收到重大影响。咱们的 “No meeting day” 其实也是组织为大家可能进入到专一状态的一种伎俩和形式。</p><h3><strong>掂量 DevEx 的指标</strong></h3><p>对于晋升开发者体验,掂量指标是十分重要。下图是 DevEx 框架提供的一个示例,用于理解以后存在的问题,从反馈周期、意识负荷、专一状态三个维度进行评估。倡议在每个维度上抉择要一两个要害指标进行度量。同时,也须要从全局上思考,制订一些宏观指标,如员工满意度、需要交付周期等,作为全局考核的北极星指标。</p><p></p><p>为了掂量开发者体验(DevEx),须要综合思考主观和主观数据。除了从相干工具或零碎中获取主观数据外,还须要考察开发人员的认识、态度和意见。这些主观的数据在某些状况下能够提供绝对精确的反馈。</p><p>例如,只管构建过程可能十分高效,但如果构建操作的步骤过于简单,可能会烦扰开发人员并影响其体验。因而,从整体构建过程的角度来看,开发者体验可能绝对较差。这种主观反馈能够补充主观数据,提供更全面的视角。</p><p>除了反馈周期,认知负荷对开发者体验的影响最大。认知负荷能够从两个状态来看:</p><p>•<strong>进入状态:</strong>这是开发人员齐全投入并享受工作的状态,通常须要约 23 分钟的工夫来进入。如果频繁中断这种工作状态,例如交叉其余工作,那么进入状态所需的工夫可能会更长。</p><p>•<strong>期待状态:</strong>例如期待从新编译、期待代码评审、期待部署、期待服务启动等。这些期待状态的累计工夫将形成认知负荷的一部分。</p><blockquote><strong>常见的 DevEx 度量指标</strong>。例如,能够抉择度量自动化测试效率(反馈周期)、均匀部署时长(反馈周期)、执行门路数(认知负荷)、可抉择操作数(认知负荷)、代码库复杂性(认知负荷)、技术债权(认知负荷)和深度工作工夫(专一状态)、XX自动化率(综合维度)、平台NPS满意度值(综合维度)。</blockquote><p>通过综合思考以上指标,能够帮忙组织更好地发现实在的开发者体验,找出可能存在的问题,并针对性地进行优化,通过一直地改良和度量,从而晋升 DevEx 。</p><h2>结语</h2><p>依据 StackOverflow 的考察,约有 62% 的受访者每天破费超过 30 分钟的工夫在搜寻答案和解决问题上,而 25% 的人甚至破费超过 1 小时。此外,依据 CNCF 云原生的 Landscape 展现,目前已有 2000+ 张卡片,笼罩了各个维度的能力,但这也导致了开发人员认知累赘的日益减轻。</p><p></p><p><strong>在公司外部,咱们目前领有行云、泰山等各种开发者工具。然而,这些工具对于开发者在反馈周期、认知负荷、专一状态方面依然有很大的晋升空间。因而,心愿咱们所有的平台工程团队,都能致力于实现晋升 DevEx 为指标,<strong><em><em>2024 咱们一起加油</em></em></strong>!</strong></p><p>作者:京东批发 井亮亮</p><p>起源:京东云开发者社区 转载请注明起源</p></article> ...

February 20, 2024 · 1 min · jiezi

关于运维:WindowsLinux-和-Mac操作系统之间的比较

<article class=“article fmt article-content”><p>Windows零碎、Linux零碎与Mac零碎:操作系统的比照与抉择<br/>操作系统是治理和管制计算机硬件与软件资源的计算机程序,是间接运行在“裸机”上的最根本的系统软件,任何其他软件都必须在操作系统的反对下能力运行。操作系统是用户和计算机的接口,同时也是计算机硬件和其他软件的接口。以下是Windows 零碎、Linux 零碎、Mac 零碎的比照:<br/>1.Windows 零碎<br/>Windows 是由微软公司开发的一款操作系统,是目前市场上最宽泛应用的操作系统之一。Windows 零碎领有丰盛的软件资源,反对大量的应用程序,包含办公软件、游戏、多媒体软件等。Windows 零碎的用户界面直观、易用,适宜普通用户应用。Windows 零碎的硬件兼容性十分好,简直能够反对所有的硬件设施。<br/>2.Linux 零碎<br/>Linux 是一款开源的操作系统,由寰球的开发者独特保护和开发。Linux 零碎的软件资源绝对较少,然而其安全性、稳定性和可靠性都十分高,被宽泛用于服务器和嵌入式设施。Linux 零碎的用户界面绝对于 Windows 零碎来说较为简单,须要肯定的学习老本。Linux 零碎的硬件兼容性绝对较差,然而其社区反对十分弱小,能够为用户提供各种硬件驱动。<br/>3.Mac 零碎<br/>Mac 零碎是苹果公司开发的一款操作系统,是 Mac 电脑的专用操作系统。Mac 零碎的用户界面设计精美,操作简便,适宜对电脑操作有较高要求的用户。Mac 零碎的软件资源丰盛,尤其是业余的创意软件,如 Photoshop、Illustrator 等。Mac 零碎的硬件兼容性较差,只反对苹果自家的硬件设施。</p></article>

February 20, 2024 · 1 min · jiezi

关于运维:IT与春节

春节是一个喜庆的时刻,也是一个反思传统与科技交汇的绝佳机会。正如这个节日标记着新年的开始,它也为咱们提供了一个现实的背景,来探讨IT软件如何在加强节庆气氛、促成连贯和爱护文化遗产方面施展着关键作用。 加强沟通与合作在春节的氛围中,IT软件成为加强家人、敌人和共事之间沟通与合作的催化剂,通过虚构会议平台,天文间隔隔离的人们能够无缝地聚在一起,交换祝愿,分享回顾,参加传统的庆贺流动,无论身处何地。 红包与赠送在春节期间赠送红包的传统随着数字技术的提高而产生了变动,翻新的IT解决方案将这一古老的风俗转化为数字体验,使人们能够通过挪动领取平台轻松发送虚构红包。这些数字红包不仅连续了传统,还促成了礼物赠送过程的便当和包容性。 智能家居解决方案春节的筹备工作通常须要粗疏的布局和组织,与智能家居解决方案集成的IT软件简化了这些筹备工作,从管理家务到协调节日装璜。通过语音助手和物联网设施,人们能够自动化工作,设置传统典礼的揭示,并营造与节日氛围相响应的喜庆气氛。 文化爱护与教育除了促成古代庆贺流动外,IT软件还在爱护和推广传统文化遗产方面施展着重要作用。通过沉迷式数字体验、互动学习平台和虚构展览,人们能够加深对春节风俗、民间传说和典礼的了解。这些教育资源赋予将来的一代观赏和保护其文化身份的能力,在日益数字化的世界中。 节庆洞察的数据分析在幕后,IT软件利用数据分析的力量提供有价值的洞察,洞察春节期间的节庆趋势、消费者行为和市场动态。通过利用大数据分析和预测算法,企业能够优化其营销策略,调整产品供给,预测消费者需要,确保农历新年的凋敝开局。 论断在咱们怀着凋谢的心态迎接春节时,请让咱们意识到IT软件在丰盛咱们的文化传统、促成连贯和推动翻新方面的转变性影响。通过负责任和创造性地利用技术,咱们能够弥合传统与古代之间的鸿沟,确保春节的精力在将来的几代人中持续凋敝。

February 19, 2024 · 1 min · jiezi

关于运维:2-分钟了解-4-个极为有用的-MetricsQL-函数

夜莺社区的敌人如果问时序库的选型,我个别都会举荐 VictoriaMetrics,除了其性能、稳定性、集群扩大能力之外,VictoriaMetrics 还扩大了 PromQL,提供了 MetricsQL,即加强了 PromQL 的能力。比方上面介绍的场景,就很适宜用 MetricsQL 来解决。 需要某个指标( 假如指标名字是 interface_status )每分钟上报一次,如果 5 分钟内有 3 次大于 x 的值,就报警。 解法如果应用 PromQL,就比拟难写了,而 MetricsQL 就很简略,如下: count_gt_over_time(interface_status[5m], x) >= 3看到这个写法,根本能直观了解其含意了 count_gt_over_time(series_selector[d], gt) 函数有两个参数,一个是 range-vector,一个是标量 gt,示意在 range-vector 中大于 gt 的个数,如果大于等于 3,就报警。除了 count_gt_over_time 函数之外,还有 count_le_over_time、count_ne_over_time、count_eq_over_time 情理雷同。 思考假如咱们晓得原始数据上报频率,如果应用 promql 来实现上述需要,应该怎么写呢?欢送评论区留言分享 :) 另外最近咱们凋谢了 FlashDuty 的告警引擎能力,能够间接对接各类时序库、数据库、ClickHouse、ElasticSearch、Loki 等日志库,对数据做异样判断,间接生成告警事件。换句话说,不再须要夜莺、Alertmanager、Elastalert 等告警引擎,Flashduty 就可一肩挑。在线体验地址:https://console.flashcat.cloud/ 菜单入口:「告警治理」。截图如下: 任何问题均可分割我微信:picobyte

February 19, 2024 · 1 min · jiezi

关于运维:扯淡的DevOps我们开发根本不想做运维

引言最后思考援用“ DevOps 已死,平台工程才是将来”作为题目,但这样的表白可能太过于相对。最终,决定用了“扯淡的”这个词来形容 DevOps,但这并不是一种文化的表达方式。 文章旨在从新扫视 DevOps 和平台工程,将别离探讨 DevOps 和平台工程的概念,并重点剖析平台工程所提倡的一些核心内容。同时,心愿通过本文可能给从事外部开发平台(IDP)工作的同学们带来一些思考。DevOps的指标在 2009 年,DevOps 这一概念就被提出,重点强调团队合作、自动化工具和流程改良,旨在进步软件开发和部署的速度和品质。然而,提出之后有近 15 年了,发现这一办法并未如预期完满实现了指标。在咱们公司外部,咱们也会发现软件交付老本依然还是较高,从部署公布工具的角度来看,无论是 J-ONE、JDOS 还是目前的行云部署,对于研发人员日常部署公布仍存在肯定的老本,但这种景象如同不仅仅是工具层面的问题。 DevOps 自身是一种理念,强调团队合作,使开发团队和运维团队可能严密单干。只管强调了自动化和工具的重要性,但它并没有明确指出具体的倒退方向。因而,呈现了平台工程(Platform Engineering)这一理念。尽管最早是谁提出的已无奈考据,但在 2022 年 7 月份,一条Twitter上的音讯“DevOps is dead, long live Platform Engineering” 在国内外的 DevOps 圈子迅速流传开来,并失去了宽泛的回应。 平台工程(Platform Engineering)是一种新的运维理念,强调外部开发平台应该提供技术研发人员自服务的能力。其外围观点之一是通过屏蔽基础设施的复杂性,为技术研发人员提供灵便的工具链和工作流程。这样,能够利用平台的根本能力,自主解决问题,无需依赖平台层的参加,使得开发团队可能更加高效地发展工作,进步软件交付的速度和品质。 平台工程的定义平台工程是设计和构建工具链和工作流的学科,可在云原生时代为软件工程组织提供自助服务性能。平台工程师提供的集成产品通常被称为“外部开发人员平台”,涵盖了应用程序整个生命周期的经营需要。 --定义来自 platformengineering.org (对于平台工程的定义较多,但大部分意思较统一:次要是提倡自助服务缩小底层根底撑持工具的复杂性和不确定性,减化工作流程,缩小最终用户在应用过程中的认知老本,从而改善了最终用户的体验,和进步生产效率)平台工程和 DevOps 都是软件开发和运维畛域的概念,它们独特关注进步软件开发和部署的效率和品质,但它们的重点和办法有所不同。平台工程着重于构建可重用的平台架构,提供场景化的能力,提供自助化的体验。而 DevOps 则侧重于团队合作、自动化工具和流程改良,以进步软件开发和部署的速度和品质。 在 2023 年,Gartner 已将平台工程列为顶级策略趋势之一。最近公布的 2024 年十大技术趋势中,Gartner 再次提到了平台工程,并且将其晋升了一个级别,这表明平台工程在业界的认可度失去进一步晋升。 在过来的几年中,人们始终谋求 DevOps,并从能力成熟度的角度推动晋升。然而,对于投入和产出的量化评估却绝对含糊。平台工程提出了一些掂量其价值产出的形式,包含自助式体验和尽可能减少人力投入。通过致力于建设自助化、场景化的能力,提供有价值的平台。 回到本文的题目,咱们来谈谈为什么开发人员不违心承当运维的工作。 开发为什么不想做运维DevOps 强调团队合作,并激励开发人员承当肯定的运维工作。然而,在事实中,为什么这一点往往难以实现?我认为次要有以下几个方面的理由: •专一于外围开发工作:开发人员通常更偏向于日常软件开发工作,他们可能没有太多工夫和精力在其余方面,否则会影响日常工作的工作进展。 •不相熟或不感兴趣:开发人员可能没有足够的教训来解决运维的工作,或者他们对运维工作不感兴趣,导致在运维方面不足积极性。 •运维的锅太重、事太杂:运维工作波及到生产环境,因而其责任和影响范畴较大。任何运维失误都可能导致系统故障、服务中断或数据失落等严重后果。因而,对于开发人员来说,承当运维工作可能带来额定的压力和责任。此外,运维工作通常包含各种琐碎而繁冗的工作,包含7*24值班。 •不足好用的工具和平台反对:不足易用且高效的自动化工具和平台,运维工作就会更加依赖手工操作,从而减少了运维的老本和复杂性。 以上可能是开发人员不太违心承当运维工作的一些可能的理由。我接下来看下运维的实质是什么? 运维工作的实质运维工作重点是保障系统的平安和稳固运行。它不仅须要 7x24小时监控线上环境的稳定性,还须要解决各种日常的运维工作。这些工作可能包含资源管理、日常巡检、故障排查与修复、工单解决等。 最近,一些大厂经验了重大的线上稳定性故障,这给业界带来了很大的关注。 最近的这些线上故障对整个行业产生了极大的警示,所有企业都一样面临着线上稳定性挑战。 带来的一些思考平安生产,警钟长鸣:面对线上问题,咱们绝不能单纯地谋求速度和省事,对于任何线上操作,都必须放弃敬畏之心。 平安生产,人人有责:无论是开发人员编写的错误代码逻辑,还是运维人员谬误的降级操作,最终都有可能给公司带来无法估量的损失。 ...

February 19, 2024 · 1 min · jiezi

关于运维:SRE体系02常见术语

MTBF均匀无故障运行工夫(即从开始运行到呈现故障所经验的工夫),艰深的讲工夫越长,阐明零碎的稳定性和可靠性越好 MTTR均匀故障修复工夫(即从零碎产生故障到恢复正常所经验的工夫),艰深的讲就是当业务系统故障时,修复零碎所破费的工夫。工夫越短,阐明咱们的修复和保护工作越高效,也可从侧面阐明该业务零碎的自愈合能力和抗灾祸能力越强 SLI服务水平指示器,直译不好了解。艰深的讲就是用来评估咱们服务质量的指标,例如: 磁盘存储的可靠性:98%网站拜访的提早:<40ms2xx状态申请占比: 99.92%服务的可应用工夫: 98.75%SLO服务水平指标。用来形容SLI的目标值,通常指咱们在服务工夫内(如月度,季度,年度)须要达到的服务指标,SLO能够了解为考核值,而SLI是理论值 服务指标(年度)SLISLO服务指标达成状况磁盘存储的可靠性98%99.999%未达成网站拜访的提早<40ms<30ms未达成2xx状态申请占比99.92%99.999%未达成服务的可应用工夫99.75%99%达成SLA服务水平协定。和用户签订的服务条款,通常是指一些赔付条款。例如通过监控SLI值,并和SLO比照,如果未达成SLO,须要如何为客户提供抵偿 示例阐明奥得彪在AWS上购买了一台弹性云服务器EC2,用来搭建香蕉批发网站。后果AWS的非洲数据中心屡次产生了故障,影响了奥德彪的EC2,一年宕机了共计320个小时,依据计算EC2的年度可用性指标仅仅为96.35%(SLI)。 奥德彪很怄气,因为AWS的销售人员承诺他,EC2的年度可用性指标是99.75%(SLO),即故障工夫小于22小时。 然而理论状况是SLI<SLO,阐明AWS提供的服务质量显著没达标。于是奥德彪关上了和AWS签订的用户协定(SLA),下面写着对于额定故障工夫,每小时赔付用户10美元。依据此协定,AWS为奥德彪抵偿了2980美元 阐明:从下面的例子咱们了解了SLI,SLO,SLA这几个概念,设计这几个概念的初衷在于量化咱们的服务质量,治理客户的预期。例如客户总是埋怨网站拜访慢,但“慢”是一种很难量化的绝对的心里感触状态,并不能直观反映服务质量。 咱们能够通知用户:你应用的共享实例提早小于80ms(SLO),价格10元/天,而独享实例提早<20ms(SLO),价格100元/天, 你能够抉择独享实例来晋升速度。而用户通过直观的数据,对服务质量和价格有了量化的比拟,再看看钱包,兴许就不觉的慢了。。。。。。

February 18, 2024 · 1 min · jiezi

关于运维:运行在容器中Postgres数据库数据损坏后如何恢复

前言在应用 K8S 部署 RSS 全套自托管解决方案- RssHub + Tiny Tiny Rss, 我介绍了将 RssHub + Tiny Tiny RSS 部署到 K8s 集群中的计划. 其中 TTRSS 会用到 Postgres 存储数据, 也一并部署到 K8s 容器中. 然而最近, 因为一次错误操作, 导致 Postgres 数据库的 WAL 损坏, Postgres 的 Pod 频繁 CrashBackoffLoop. 具体报错如下: Postgres shutdown exit code 1: 2023-09-27 02:32:17.127 UTC [1] LOG: received fast shutdown request2023-09-27 02:32:17.181 UTC [1] LOG: aborting any active transactions2023-09-27 02:32:17.434 UTC [1] LOG: background worker "logical replication launcher" (PID 26) exited with exit code 12023-09-27 02:32:17.481 UTC [21] LOG: shutting down2023-09-27 02:32:17.880 UTC [1] LOG: database system is shut downPostgres "invalid resource manager ID in primary checkpoint record" and "could not locate a valid checkpoint record" ...

September 27, 2023 · 3 min · jiezi

关于运维:ITSM有哪些好用的软件

ITSM出名软件有很多,但好用且性价比高的仅有一些,比方:1.Atlassian Jira 最后,开发人员创立Jira来跟踪软件创立,但随后Atlassian的管理层留神到一些团队正在调整Jira来解决服务台申请2.Spiceworks Spiceworks是一款收费的IT管理工具,提供IT资产治理、网络监控、帮忙台、IT服务台等性能。3.OTRS OTRS是一款开源的IT服务治理解决方案,提供IT服务台、问题治理、变更治理、配置管理等性能。4.Zoho Desk Zoho Desk是一款云端的IT服务台软件,提供问题治理、帮忙台、知识库等性能。5.Freshservice Freshservice是一款IT服务台软件,提供IT资产治理、问题治理、变更治理等性能,可收费试用。6.ManageEngine ServiceDesk Plus ManageEngine ServiceDesk Plus是一款IT服务管理软件,提供问题治理、配置管理、变更治理等性能,可收费试用。 以下是ServiceDesk Plus的一些劣势和比照:1.齐全基于ITIL架构:ServiceDesk Plus齐全基于ITIL(IT服务治理最佳实际指南)架构,能够帮忙企业实现更高效、更标准的IT服务治理。2.全面集成:ServiceDesk Plus集成了事件治理、问题治理、变更治理、资产治理、IT项目管理、知识库等泛滥功能模块,能够满足企业IT部门日常运维的各种需要。3.疾速部署和简略操作:ServiceDesk Plus施行周期短,操作简略,可能疾速部署上线,为企业节俭大量工夫和人力资源老本。4.多语言反对:ServiceDesk Plus反对多语言,能够满足不同国家和地区的语言需要。5.可定制性强:ServiceDesk Plus可依据企业理论状况进行定制,满足企业的非凡需要,灵便度高。6.性价比高:相比其余出名ITSM软件,ServiceDesk Plus的价格绝对较为亲民,性价比较高。 卓豪软件旗下的ServiceDesk Plus是一个十分优良的ITSM软件,具备全面集成、简略操作、疾速部署、多语言反对、可定制性强和性价比低等劣势。

September 27, 2023 · 1 min · jiezi

关于运维:spug运维平台搭建与项目部署

介绍Spug 面向中小型企业设计的轻量级无 Agent 的自动化运维平台,整合了主机治理、主机批量执行、主机在线终端、文件在线上传下载、利用公布部署、在线工作打算、配置核心、监控、报警等一系列性能。 个性批量执行: 主机命令在线批量执行在线终端: 主机反对浏览器在线终端登录文件治理: 主机文件在线上传下载工作打算: 灵便的在线工作打算公布部署: 反对自定义公布部署流程配置核心: 反对 KV、文本、json 等格局的配置监控核心: 反对站点、端口、过程、自定义等监控报警核心: 反对短信、邮件、钉钉、微信等报警形式优雅好看: 基于 Ant Design 的 UI 界面开源收费: 前后端代码齐全开源docker部署docker默认集成数据库,须要独自部署参考这里 # 1、拉取镜像docker pull registry.aliyuncs.com/openspug/spug# 2、启动容器docker run -d --restart=always --name=spug -p 80:80 -v /spug:/data -v /usr/local/java/jdk1.8.0_211:/usr/local/java/jdk1.8.0_211 -v /home/ywuser/apache-maven-3.6.3:/home/ywuser/apache-maven-3.6.3 registry.aliyuncs.com/openspug/spug# 长久化存储启动命令:# /spug 指的是映射本地的磁盘门路,也能够是其余目录,/data是容器内代码和数据初始化存储的门路# -v 是docker挂载目录,docker和宿主机共用一个maven。用来编译打包我的项目。# 3、进入docker容器配置jdk和maven。docker exec -it spug bash# 4、配置docker容器jdk和maven#全局jdkJAVA_HOME=/usr/local/java/jdk1.8.0_211JRE_HOME=/usr/local/java/jdk1.8.0_211/jreCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/libPATH=$JAVA_HOME/bin:$PATHexport PATH JAVA_HOME CLASSPATH#全局mavenMAVEN_HOME=/home/ywuser/apache-maven-3.6.3export MAVEN_HOMEexport PATH=${PATH}:${MAVEN_HOME}/bin# 5、初始化# 创立一个用户名为 admin 明码为 spug.dev 的管理员账户,可自行替换管理员账户。docker exec spug init_spug admin spug.dev# 执行结束后须要重启容器docker restart spug# 6、拜访测试 在浏览器中输出 http://localhost:80 拜访。 用户名: admin 明码: spug.devspringboot公布配置1、增加主机 ...

September 27, 2023 · 2 min · jiezi

关于运维:重磅发布|博睿数据IT运维最佳实践白皮书

在重视效率的明天,“建设更好、更快、更智能的零碎”及“从数据中取得洞察”曾经成为企业取胜的基本要素。 此白皮书是对于博睿数据的最佳实际案例,作为国内首个打造一体化智能可观测平台的厂商,博睿数据的运维团队也部署了Bonree ONE产品,获得了令人惊喜的成果: · 危险问题提前发现并修复,故障次数降落超过60%; · 疾速定位问题及影响范畴,根因剖析帮忙MTTR升高50%; · 从0到1实现故障报警收敛,收敛比达98%以上,无效防止报警风暴; · 首次实现资源治理,一个月工夫降低成本近30W,折合为节俭的物理机数量:生产环境6-7台,测试环境2台; 通过浏览这份最佳实际,您将可能发现更多让企业在简单环境下晋升效率,开释后劲的翻新办法。 技术劣势咱们做到了,你也能够· 危险问题提前发现并修复,故障次数降落超过60% · 疾速定位问题及影响范畴,MTTR升高50%! · 故障报警收敛,防止报警风暴 · 闲暇资源回收,单月节省成本近30万之前没有做过这样的事件,或没有意识到资源节约的问题,通过one的资源治理的概念,进行了资源回收,回收下来的虚拟机资源折合成物理机就是生产环境6-7台,测试环境2台。 这些数据就是证实

September 26, 2023 · 1 min · jiezi

关于运维:4项简化IT服务台任务的ChatGPT功能

近几个月,随着人工智能聊天机器人 ChatGPT 风靡寰球,用户能够通过它生成脚本、文章、静止计划表等。同时,这项技术在各行各业都可能进行无穷无尽的利用,在本文中,咱们将探讨这项古代技术如何帮忙ITSM团队晋升服务交付和客户体验。 什么是 ChatGPT 和 LLM?ChatGPT 是 OpenAI 开发的机器学习模型,它应用基于生成预训练转换器(GPT)架构的大型语言模型(LLM)。ChatGPT 以互联网上的海量数据为根底进行训练,能够对基于文本的输出生成相似人类的响应,并能了解各种语言。 LLM 是在大量文本数据根底上训练进去的人工智能程序,用于了解语言是如何运作的。它们应用先进的算法和深度学习技术来识别模式,并依据这种了解生成响应。LLM 能够解决和生成大量文本,因而可用于语言翻译和聊天机器人以外的广泛应用。 既然咱们曾经对什么是 ChatGPT、它的个别利用和 LLM 有了根本的理解,那么让咱们来看看企业中的用户和IT服务台如何利用人工智能聊天机器人提供的性能,来看ChatGPT 帮忙晋升 ITSM 经营的 4 种办法! 1. 生成常识资源知识库文章是可能让用户自助服务帮忙获取资源的根底,因为它们能让用户找到解决方案、自我解决 IT 问题并疾速理解程序。服务台团队能够利用 ChatGPT 生成具体的知识库文章,这有助于缩小 L1 等级的工单。服务台团队还能够利用 ChatGPT 为服务器堆栈设置、局域网问题故障排除等简单流程生成具体的程序,并领导技术人员解决问题。这样做的后果往往是升高了工单的从新开单。 为服务台提供的疾速解决方案包含以下性能生成知识库文章,帮忙用户重置明码。使服务台代理可能无效地帮忙用户配置设计软件,以满足其特定需要。制订设置服务器堆栈的 SOP。 2. 帮助客户沟通用户体验在很大水平上依赖于产品的及时响应能力。依据 Forrester Research 的考察,77% 的客户认为这是提供良好客户体验的最关键因素。鉴于工作量微小,技术人员可利用 ChatGPT 疾速生成电子邮件回复,以无效解决用户征询。 为您的服务台提供的疾速解决方案包含以下性能:为利益相关者撰写无关变更公布状态的电子邮件回复。 3. 主动编写脚本服务台团队能够利用 ChatGPT 克服日常经营中脚本编写的常见难题。利用 ChatGPT,服务台团队能够主动编写脚本,并使脚本编写变得更加容易,让编码常识无限或没有编码常识的技术人员可能进行细粒度和“最初一公里”的定制。为确保脚本的功能性和准确性,在将脚本部署到生产环境之前,能够在沙箱环境中对其进行测试。这种办法能够帮忙 IT 团队简化工作流程、缩小谬误并进步整体开发效率。 为服务台提供的疾速解决方案包含以下性能:利用 shell 脚本为 smb/CIFS 创立daemon创立批处理文件,将软件列入黑名单 4. 启动根本原因剖析 (RCA)对于团队来说,确定问题的根本原因其实是一个耗时耗力的过程。服务台团队能够利用 ChatGPT 筛选大量数据,找出相关性或异样状态,并提出可能的根本原因。这为技术人员节俭了工夫,缩短了 RCA 流程。 为服务台提供的疾速解决方案包含以下性能利用5why分析法查找导致响应工夫超过超时值的网络中断起因。生成 RCA,以确定因为现有队列超载和数据库容量有余而导致的级联故障。 写在最初毫无疑问,ChatGPT 和 LLM 以踊跃的形式颠覆了各行各业,开拓了提高效率和变更工作流程的新途径。在本文中,咱们看到了IT服务台如何利用 ChatGPT,通过卸载工作(如生成知识库文章、筛选大量数据以辨认异样、起草回复等)来进步技术人员的工作效率。 ...

September 26, 2023 · 1 min · jiezi

关于运维:Codigger的项目代码检测工具的特性和优势

Codigger我的项目代码查看工具是一种功能强大的工具,旨在帮忙开发团队更加高效、精确地交付高质量的软件我的项目。该工具具备以下个性和劣势:反对多种编程语言: Codigger反对宽泛的编程语言,包含Java、Python、C++、JavaScript等,能够满足不同开发团队的需要。无论您应用哪种编程语言,Codigger都能够为您提供高效的代码检查和优化倡议。 动态代码剖析: Codigger通过动态代码剖析技术,可能检测代码中的潜在谬误、缺点和不合乎最佳实际的代码,从而在编码过程中及早发现问题并解决问题。这有助于缩小代码谬误和瑕疵,进步代码品质和可维护性。 主动代码格式化: Codigger具备主动代码格式化性能,能够依照您的要求主动格式化代码,使其更加易于浏览和保护。此外,该工具还能够帮忙您建设团队外部的代码标准,以进步代码的一致性和可读性。 代码安全漏洞查看: Codigger具备代码安全漏洞查看性能,能够帮忙您发现和修复代码中的安全漏洞。这有助于进步软件的安全性,防止潜在的平安危险和攻打。 应用Codigger我的项目代码查看工具,能够帮忙开发团队轻松交付高质量的软件我的项目。该工具可能缩小代码谬误和瑕疵,进步代码品质和可维护性,晋升代码可读性和可扩展性。因而,应用Codigger能够显著进步软件我的项目的品质,升高保护老本并进步用户满意度。 Codigger作为一种高效的代码检测工具,在软件开发团队中施展着重要的作用。通过应用Codigger,开发团队能够更轻松地交付高质量的我的项目。以下是Codigger的性能和在我的项目各个阶段中的利用:缩小代码谬误和瑕疵Codigger能够帮忙开发团队检测代码中的谬误和瑕疵,从而缩小在我的项目中呈现的问题。这种谬误检测性能能够涵盖语法错误、类型谬误、潜在的内存透露等,确保代码的正确性和稳定性。 在需要剖析和设计阶段,Codigger能够用于查看需要的可实现性和设计的合理性,从而防止潜在的问题。通过在编码和测试阶段应用Codigger,能够进一步发现和修复代码中的谬误,确保代码的品质。 进步代码品质和可维护性Codigger不仅能够帮忙开发团队检测代码谬误,还能够进步代码品质和可维护性。通过检测代码中的坏滋味和重构倡议,Codigger能够帮忙开发人员编写更加清晰、易读和易于保护的代码。 在保护和重构阶段,Codigger能够用于检测代码的变动和改良,以放弃代码的可维护性和可扩展性。通过一直地检查和改良代码,能够使我的项目更加强壮和易于保护。 总之,Codigger作为一种高效的代码检测工具,能够帮忙开发团队进步代码品质、缩小谬误和瑕疵、进步可维护性、晋升可读性和可扩展性等方面施展着重要的作用。

September 26, 2023 · 1 min · jiezi

关于运维:利用机器学习和AI优化自助服务的5种方式

如果您想要升高人工干预,为用户提供即时的解决方案,那么最重要的就是要让用户本人找到答案。所以,您可能并不生疏因而产生的IT自助服务选项。 自助服务是许多用户寻求解决问题的广泛形式。依据 Forrester Research 的考察,72% 的客户在解决本人的反对问题时更违心抉择自助服务,而不是发送电子邮件或拨打电话。然而,与这一需要相同的是,IT 畛域的自助服务并没有像冀望的那样迅速倒退。ManageEngine卓豪在 2022 年进行的考察发现,仍有三分之一的企业(34%)未提供自助服务性能,而在提供自助服务的企业中,29% 的企业认为自助服务其成果不佳。 这就引出了一个问题: 为什么用户对自助服务的极大趣味与企业的采用率不统一? 尽管自助服务显然是首选路径,但用户更心愿取得无缝和个性化的体验。动态的自助服务门户往往要求用户通过简约的电子邮件和电话来解决问题,说实话,让用户放弃旧习惯是最不可取的。如果不耐烦的用户和不堪重负的服务台让您应接不暇,您可能须要想方法来防止自助服务的复杂性。 用于自助服务的人工智能 在理想化的世界中,自助服务的指标是将人工干预缩小到最低。尽管咱们还没有齐全实现这一指标,但通过将人工智能集成到 IT服务台,曾经让咱们可能有能力慢慢实现这一指标。目前,自助服务门户的网站因为不足个性化设置或适应用户需要的能力,但人工智能曾经可能模拟人类智能并从过来的教训中进行学习,它正逐步变更服务台与终端用户互动的形式。包含机器学习在内的人工智能技术曾经开拓了新的可能性,使自助服务变得绝对更快、更智能、更无效。通过利用这些技术,人工智能驱动的虚构代理正在使解决传统自助服务通常面临的个性化设置和智能自动化阻碍变得相当简略。 那么,如何利用 ML 和人工智能驱动的虚构代理优化自助服务呢? 让咱们直奔主题,看看人工智能驱动的虚构代理能够从哪些方面为您提供帮忙: 1 依据具体情况为用户提供即时解决方案虚构代理不会将用户疏导到简短的知识库内或简单的服务目录中,而是从一开始就为用户提供所需的确切信息,从而为用户提供更加个性化的体验。假如用户向虚构代理提出打印机方面的问题,虚构代理会迅速从知识库中找到相干数据,并在第一工夫为用户提供精确的解决方案。用户只需通过聊天就能取得所需的解决方案。通过一直剖析每次交互中的用户用意和偏好,这些代理能够学会依据上下文提供帮忙,并立刻提供量身定制的解决方案! #2 提供全天候帮助虚构代理最大的长处就是全天候服务。用户能够随时随地分割他们,因为这些代理能够全天候提供不间断的帮忙。无论是非工作工夫、节假日还是周末,您都能够释怀,他们每天都会全天候为您服务。当初,即便是您的夜猫子用户,或者那些在不不便的工夫遇到问题的用户,也能失去及时的反对。 #3 通过上下文互动提供会话式帮忙用户在向服务台寻求帮忙时,常常会发现自己被一大堆问题所困扰。有些人可能会就工作站的明细内容提出简略的询问,而有些人则可能会就安全隐患和数据隐衷等问题,提出更简单的询问。无论哪种状况,手动整顿和解决这些问题对用户来说都十分耗时。这不仅会缩短用户的等待时间,还会大大降低服务台的工作效率。虚构代理作为终端用户的第一接触点,能够帮忙打消终端用户与服务台之间的隔膜。这些代理能够了解和解释用户的问题,模仿人的会话,甚至提出额定的问题,为用户提供即时和符合实际状况的回复。 #4 缩小人为谬误每天都会有大量的工单来到您的背后,在某些时候,您可能会因为不留神反而产生一点小谬误。例如,在将工单路由给正确的技术人员之前,必须进行IT工单治理。因为存在多个类别和优先级,因而一味的要求技术人员进行设置和保护这些流程是不偏心的。另一方面,预设的自动化规定不足适应和改良的智能,因而随着工夫的推移,须要定期的人工干预来纠正方向。但通过利用机器学习,能够对算法进行训练,使其可能从历史数据中学习,从而依据特定参数主动进行分类和工单路由流程。通过利用这些训练有素的算法,当初能够主动对工单进行分类、确定优先级并将其路由给善于解决特定工单类型的技术人员。这意味着将大量升高人工干预和小谬误的产生! #5 加重技术人员的工作量服务台每天都会收到成千盈百张单子。说到自助服务,工夫就是金钱。如果您的技术人员当初一天中无数次的解决明码重置问题,那么他们的工夫显然没有用在刀刃上。大量此类 L1 申请涌入服务台会影响团队的工作效率。通过主动解决此类申请,虚构代理当初能够加重技术人员的工作累赘,使他们可能解决更重要的工作。虚构代理通过恪守预设的工作流程,提供标准化的无缝解决方案。这将有助于加重服务台的工作量,让您的团队加强在须要人工解决的工作中施展的作用。 写在最初任何人工智能模型的胜利都取决于对模型的训练与学习,而领有一个保护良好、东倒西歪的服务台则至关重要。如果您始终在张望,不晓得人工智能驱动的虚构代理是否值得一试,那么以上五点应可能帮忙到您开始布局自助服务的AI打算。用户不会仅仅满足于 "足够好 "的自助服务。要想取得良好的用户体验并进步服务台的工作效率,就必须紧跟一直倒退的技术提高。从最大限度地缩短终端用户的等待时间,到最大限度地进步IT服务台的效率,人工智能驱动的虚构代理是自助服务的将来。这一趋势不太可能逆转,最理智的做法是张开双臂以迎接这一发展前景。

September 25, 2023 · 1 min · jiezi

关于运维:7k-star-监控系统100国产推荐了解

前言IT的归宿是运维,运维的归宿是监控。天下没有不宕机的零碎,抉择一个好用的、趁手的监控工具,是 IT 人“洁身自好”的必备利器。明天要给大家介绍的是“100%国产”的开源监控工具夜莺监控(Nightingale)。 夜莺仓库:https://github.com/ccfos/nightingale夜莺文档:https://n9e.github.io夜莺监控“系出名门”,最早由滴滴孵化并开源,积淀的是顶级互联网公司的最佳实际,之后则捐献给了中国计算机学会进行托管,社区沉闷,发展势头迅猛。就在刚刚看到的数据,夜莺监控在GitHub上超过了7000个 star,1200次 fork,相当于每 6 个 star,就有一次 fork,增长曲线十分衰弱! 大家晓得,开源的监控零碎也不少,目前用的比拟宽泛的是 Zabbix 和 Prometheus。Zabbix 善于设施监控不善于微服务和云原生环境的监控,Prometheus 善于微服务和云原生环境的监控,然而设计上偏工具化,短少权限化治理的WebUI,不足集群化计划。夜莺恰好就是能把 Zabbix 和 Prometheus 的长处都联合起来的那个监控工具! 夜莺最新公布的版本为V6,是一个all-in-one的、开箱即用的监控零碎,反对多数据源接入,可能同时对指标、日志、分布式链路追踪数据进行监控和剖析。 夜莺监控具备以下 7 大特点: 架构简洁清晰装置部署简略反对多数据源配套有采集器告警配置灵便仪表盘好看、性能出众适应简单多机房场景一、架构简洁清晰夜莺作为一款监控零碎,整体设计上十分凋谢,兼容并包,能够和开源生态上其他软件组合应用,比方采集器能够对接 telegraf、categraf、grafana-agent、datadog-agent、以及各类 exporter;存储能够对接 prometheus、thanos、m3、victoriametrics 等。夜莺的产品架构图如下: 从依赖上看,就只依赖 mysql 和 redis,这俩存储对于技术人员来说,都是十分相熟的。夜莺自身就只有一个二进制 + 配置文件,没有其余依赖,所以装置部署都非常容易。 二、装置部署简略最简略的部署形式,是应用 docker-compose,找一个洁净的机器环境,而后执行上面的命令即可: git clone https://github.com/ccfos/nightingale.gitcd nightingale/dockerdocker-compose up -ddocker-compose 间接应用 host network,所以没有 bridge,启动之后间接浏览器拜访即可,默认端口是 17000,账号 root,明码是 root.2020。 不过,在这里更举荐大家应用二进制形式部署,也是几行命令的事,以 linux x86 环境举例: # 创立个 n9e 的目录,前面把 n9e 相干的文件解压到这里mkdir -p /opt/n9e && cd /opt/n9e# 下载 n9e 公布包,amd64 是 x84 的包,下载站点也提供 arm64 的包,如果须要其余平台的包则要自行编译了tarball=n9e-v6.1.0-linux-amd64.tar.gzurlpath=https://download.flashcat.cloud/${tarball}wget -q $urlpath || exit 1# 解压缩公布包tar zxvf ${tarball}# 解压缩之后,能够看到 n9e.sql 是建表语句,导入数据库mysql -uroot -p1234 < n9e.sql# 启动 n9e,先应用 nohup 简略测试,如果须要 systemd 托管,请自行筹备 service 文件nohup ./n9e &> n9e.log &# 查看 n9e.log 是否有异样日志,查看端口是否在监听,失常应该监听在 17000ss -tlnp|grep 17000三、反对多数据源夜莺最轻量的用法,相似 grafana,间接接入数据源即可,菜单地位:【系统配置】-【数据源】,目前反对的数据源有:prometheus、victoriametrics、thanos、m3、elasticsearch、loki,后续还会反对更多的数据源。 ...

September 25, 2023 · 1 min · jiezi

关于运维:20个最佳实践提升Terraform工作流程|Part-2

在上一部分,咱们一起探讨了构建 Terraform 我的项目的一些策略,以及应用 Terraform 治理 IaC 的局部最佳实际。明天,咱们将持续深入研究将 Terraform 代码晋升到新程度的具体要点,心愿可能为你和你的团队提供有意义的提醒和领导。  标记资源当呈现问题或试图找出基础设施的哪一部分导致云费用激增时,弱小且统一的标记策略将提供微小帮忙。您还能够在须要时依据标签制订一些拜访控制策略。像定义命名规定一样,尽量保持一致并始终相应地标记资源。  Terraform 参数标签应申明为最初一个参数(如果相干,仅depends_on或生命周期参数应在标签之后定义)。  在进行标记时,能够定义一些实用于提供者治理的所有资源的default_tags。如果应用的提供程序不反对默认标签,则须要手动将这些标签传递到模块并将它们利用到资源。  引入策略即代码(PaC)随着业务团队和基础设施规模的扩充,对个人用户的信赖通常会升高。这时应该制订一些政策来确保咱们的零碎持续运行且放弃平安。制订政策即代码流程使咱们可能定义大规模平安和可承受的规定,并主动验证这些规定。   施行秘密管理策略当开始应用 Terraform 时,秘密治理可能不是首要任务,但最终还是要回到定义解决秘密的策略。  如所有教程所说,切勿以明文模式存储秘密并将其提交到版本控制系统中。能够通过应用 TF_VAR 设置环境变量并应用 sensitive = true 标记敏感变量来传递秘密。  或者采纳更成熟的解决方案,即设置一个秘密存储(例如 Hashicorp Vault 或 AWS Secrets Manager)来解决对机密信息的拜访。这样,就能够爱护动态秘密并强制执行加密。还能够抉择更高级的性能,例如密钥轮换和审核日志。不过须要留神的是,这种办法通常会为企业带来应用此托管服务的老本。  测试 Terraform 代码与所有其余代码一样,IaC 代码应该通过相应测试。运行 terraform plan 是验证更改是否能疾速按预期工作的最简略办法。接下来,能够对 Terraform 代码执行一些动态剖析而无需利用它。单元测试也是验证零碎不同局部是否失常运行的一种抉择。  另一步骤是将 Terraform linter 集成到 CI/CD 流水线中,并尝试捕捉与云提供商、已弃用的语法、强制施行最佳实际等相干的任何潜在谬误。   在正式进行以上步骤前,能够通过启动来设置一些集成测试复制沙箱环境,在此环境中验证所有是否按预期工作,收集后果,而后销毁沙箱,并将其利用到生产中。  启用调试/故障排除当呈现问题时,咱们必须疾速无效地收集所有必要的信息来解决问题。你会发现在这些状况下设置 Terraform 日志级别以进行调试很有帮忙。 TF_LOG=DEBUG还通过设置 TF_LOG_PATH 环境变量将日志保留在文件中。  尽可能构建模块如果社区中没有实用于你的用例的模块,能够尝试构建本人的模块。个别会从一些根底的货色开始构建,随着基础设施的成熟,你可能须要回到简略的模块并向其增加更多功能。当在另一个环境中复制代码时,须要做的就是从该模块创立一个对象,并应用新环境的正确参数去进行填充。  应用循环和条件你的代码应该可能创立资源的多个实例,因而倡议对可能从一种环境更改为另一种环境的实例应用 count 或 for_each 。这样将可能灵便地应用雷同的代码来适应许多不同的用例,并为参数提供通用性。  应用函数除了循环和条件之外,Terraform 函数对于在代码中实现通用性也至关重要。它们使您的代码更加动静并确保您的配置是 DRY(Don't repeat yourself)的。函数容许您执行各种操作,例如将表达式转换为不同的数据类型、计算长度以及构建简单变量。  充分利用动静模块如果没有动静模块,代码就无奈达到 DRY 状态。当此性能可用时,可能实现依照您喜爱的形式构建资源的灵活性。例如,某些云提供商没有用于平安组规定的专用资源,并且这些规定通常嵌入在平安组自身中。利用动静模块,你只须要更改输出即可。但如果没有动静模块,每当增加新规定时则须要相应更改配置。  ...

September 25, 2023 · 1 min · jiezi

关于运维:腾讯云cvm云硬盘扩容

过来始终记得腾讯云的系统盘扩容,对于系统盘的扩容间接点资源调整-云硬盘扩容系统盘扩容后就能够间接应用的?然而当初操作了发现vda 200G 然而当初vda1不能主动扩容了? 腾讯云cvm云硬盘扩容先看一眼官网文档吧:在线扩大系统盘分区及文件系统果然才更新的:参照文档: 查问云硬盘的分区信息:fdisk -l 确认已有分区的文件系统:df -Thlsblk 装置 growpart 工具:yum install -y cloud-utils-growpart应用 growpart 工具扩容分区 /dev/vda1命令中 /dev/vda 与 1 间需应用空格分隔: growpart /dev/vda 1 扩容 ext4 文件系统:resize2fs /dev/vda1 查看扩容后果df -THlsblk

September 22, 2023 · 1 min · jiezi

关于运维:实时数仓混沌演练实践

一、背景介绍目前实时数仓提供的投放实时指标优先级别越来越重要,不再是独自的报表展现等性能,特地是提供给上游规定引擎的相干数据,间接对投放经营的广告投放产生间接影响,数据提早或者异样均可能产生间接或者间接的资产损失。 从投放治理平台的链路全景图来看,实时数仓是不可或缺的一环,能够疾速解决海量数据,并迅速剖析出无效信息,同时反对投放治理平台的手动控盘。实时节点事变,将可能导致整个投放链路无奈失常运行,另外,投放规定引擎是自动化操作,服务须要24小时运行,所以须要配置及时无效的数据品质监控预警,能疾速辨认到稳定异样或者不合乎业务的数据,从而打算引入混沌工程,心愿能够通过被动注入故障的形式、尽可能提前感知危险、发现潜在问题,并针对性地进行防备、加固,防止故障产生时所带来的严重后果,进步实时数仓整体抗危险能力。 二、演练范畴为了能更粗疏反馈出混沌演练状况,依据演练的内容不同,将实时数仓混沌分为两局部:技术侧和业务侧。 技术侧混沌:基于中间件、数据库、JVM、根底资源、网络、服务等注入常见的异样,依据理论业务中梳理的利用外围场景进行混沌演练,测验零碎的脆弱性和应急响应能力,从而晋升团队的稳定性保障解决能力。 业务侧混沌:对于电商流动密集型的公司来说,各种达到率、曝光率,以及更加宏观的 GMV、用户拉新数、用户号召数等,都能体现出业务的衰弱水平,在理论生存中,为了形容一种稳固状态,咱们须要一组指标形成一种模型,而不是繁多指标。无论是否采纳混沌工程,辨认出这类指标的衰弱状态都是至关重要的,所以要围绕它们建设一整套欠缺的数据采集、监控、预警机制,当业务指标产生稳定较大时,咱们能搞疾速感知、定位、修复止血。 过往数仓混沌工程均是技术侧,此次在投放链路已搭建实现主备链路的前提下,冀望通能够通过多轮业务侧混沌,进步零碎整体的数据异动感知能力。 三、演练打算工欲善其事,必先利其器,在执行混沌演练前,须要筹备好前置工作,制订正当的演练SOP、计划、打算,对演练环境、脚本、数据、工具,场景及爆炸半径等进行可能性评估,在确认可行性ok的状况下,约好关联方工夫,再进行实际操作。 本篇次要和大家分享基于业务侧的实时数仓混沌演练过程: 1.编写演练SOPSOP是一种规范的作业程序,就是将某一事件的操作步骤和要求,进行细化、量化及优化,造成一种规范的操作过程,对于业务侧混沌,尤其是实时数仓数据相干的演练,咱们也是第一次做,目前在业界也没有找到相干的演练领导参考,处于摸索阶段,为了不便我的项目进度的顺利进行及后续演练操作更加标准、高效,在演练后期大家通过沟通、探讨后,项目前期梳理的SOP演练模板,如下: 2.演练计划调研先收集实时数仓投放链路外围指标范畴,在此基础上,拉取一段时间内的历史数据进行剖析,找到每个指标对应的衰弱稳定阀值,从而在配置相应的DQC规定监控,对于稳定不在衰弱阀值的异样指标,在分钟级别(预期15min)内及时告警,并疾速排查响应。为此,在演练后期,咱们经验过一系列的计划调研、摸索,如下: 「下文提供的计划,指标数据都是以设施激活数为例进行剖析」 计划一: 依照天维度,收集最近一段时间,同一天每个整点设施激活数,占当天大盘占比,统计出最小值、最大值,作为该指标的衰弱稳定阀值; 计划二: 依照天维度,收集一段时间内,同一天相邻整点指标稳定数据找法则,比方每天上午9点到10点的稳定数据,而后别离通过一系列的数学散布办法进行数据统计,从而心愿找一个绝对稳固的稳定区间; 计划三: 依照天维度,收集一段时间内,相邻天整点指标稳定数据找法则,比方昨天上午9点到前天上午9点的稳定数据,而后别离通过一系列的数学散布办法进行数据统计,从而心愿找一个绝对稳固的稳定区间; 计划四:在后面三种计划的根底上,指标在工作日和周末的稳定可能不一样,所以咱们在日维度统计的根底上,咱们也调研了周维度同比稳定散布状况,比方每周一上午9点到上午10点的稳定数据,而后别离通过一系列的数学散布办法进行数据统计,从而心愿找一个绝对稳固的稳定区间;计划五:同理,咱们也调研了周维度环比稳定散布状况,比方本周一上午9点到上周一上午9点的稳定数据,而后别离通过一系列的数学散布办法进行数据统计,从而心愿找一个绝对稳固的稳定区间;计划六:基于主备链路,在source源雷同的状况下,通过实时数仓计算出的指标,在同一段时间两条链路sink进去的后果数据,失常应该是保持一致,或者稳定较小,比方10分钟提早的主备链路,稳定不超过10%,均匀差别做到一致性做到90%以上。计划1到5,都尝试过一遍,每个计划场景数据通过最大值、最小值、平均值、各百分位散布、方差、标准差等统计进去的数据分析,很难找到一个相当稳固的稳定法则,也无奈框定指标具体的阀值区间,理论演练过程,如果设置的稳定告警阀值过大,实在生产上业务数据稳定异样时,无奈及时告警发现;设置过小,将导致告警频繁,对其准确性、有效性可能存在质疑,而且,实时投放的外围指标有几十个,每个指标对应的衰弱阀值都不一样,要收集、剖析老本十分高,从演练的成果上看,也不是很显著。 整体评估下来,演练次要采纳的是计划六:波及到的实时投放外围指标数共收集29个,一段时间内(15min),主备链路指标稳定差别不超过10%。 3.演练形式红蓝反抗演练,将团队分为红(防)蓝(攻)两组。 测试人员组成蓝军:负责制订混沌演练计划,执行指标零碎故障注入,具体记录演练过程; 实时数仓开发为红军:负责发现故障、应急响应、排除故障,同时验证零碎在不同故障场景下的容错能力、监控能力、人员响应能力、恢复能力等可靠性能力。 四、演练流程整体演练过程,大抵分为三个阶段:筹备阶段、攻防阶段及复盘阶段。 1.筹备阶段计划筹备完评审通过后,确认好链路打算;蓝军按计划依据当时制订的攻打计划,提前准备好相应的测试数据、脚本;红军按计划依据当时制订的攻打计划,在演练前,提前确保环境可用,并进行监控进攻、应急响应措施。2.攻防阶段蓝队依据当时制订的攻打计划,模仿实在的攻击行为,依照约定的工夫在演练链路(备用链路)进行攻打,进行故障注入,同时记录好相应的操作步骤,不便后续报告梳理;红队在蓝军攻打后,通过飞书/邮件告警等告诉形式实时关注监控零碎运行状况,如有异样告警,需第一工夫进行问题排查定位,在评估修复计划;在攻防反抗的过程中,蓝军可依据红军的进攻措施进行调整和改良攻打策略,尽力冲破零碎的进攻并达到既定目标,同时红军也可剖析蓝军的攻打手法和行为模型,不断改进进攻措施来增强进攻。3.复盘和改良阶段在混沌演练完结后,进行总结和评估,剖析红队和蓝队的体现,评估零碎的安全性和抗攻击能力;总结经验教训,总结胜利的进攻措施和失败的攻打手法,以便于改良零碎的安全策略;依据评估后果和总结经验,制订改良打算,修补零碎中的破绽和薄弱点,晋升零碎的抗危险能力。五、攻防实战本次演练共计有29个指标稳定case,整体演练操作大同小异。 以其中case17 “召回商品珍藏uv在某个渠道下整点稳定异样”为例,具体的演练操作流程如下。 1.数据筹备通过后盾数据库,拉出生产主(备)链路,某个渠道(如media_id = '2')下某个整点(如hour = 10)下,召回商品珍藏uv对应的整体统计值N。--渠道小时整点维度下,商品珍藏uv汇总数据 select `指标名称`, `日期`, '2' as `指标ID`, `小时段`, sum(`指标值`) from table_a where date = date_format(now(), '%Y%m%d') and `指标名称` in ( '商品珍藏uv' ) and `小时段` = 10 AND `指标id` = '2' GROUP BY `指标名称`, `日期`, `小时段` order by 指标名称;拉出备用链路,某个渠道(如media_id = '2')下某个整点(如hour = 10)下,具体的一条明细数据,记录商品珍藏uv对应的值为n,把n改为n+0.1N,后续注入进备用链路,从而使得主备稳定差别在10%。-- 明细数据 select t.指标名称,t.账户id,t.打算ID,t.设施类型,t.指标值 from ( select `账户id`, `打算id`, `指标名称`, `指标值`, `设施类型` , row_number() over (partition by 指标名称 order by 指标值 desc ) as rn from table_a where date = date_format(now(), '%Y%m%d') and `指标名称` in ('商品珍藏uv') and `设施类型` = '召回' and `小时段` = 10 AND `指标id` = '2' ) t where t.rn = 1 ORDER BY 指标名称;整顿后失去须要注入的数据数据,见标黄局部。 ...

September 22, 2023 · 2 min · jiezi

关于运维:流行的机器学习算法线性回归

线性回归(Linear Regression)是十分风行的机器学习算法。线性回归能够用来确定两种或两种以上变量之间的定量关系。具体来说,线性回归算法能够依据一组样本数据,拟合出一个线性模型,并通过对该模型的参数进行预计和预测,达到对未知数据进行预测的目标。这种算法最罕用的技术是最小二乘法(Least of squares)。这个办法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总间隔是所有数据点的垂直距离的平方和。其思维是通过最小化这个平方误差或间隔来拟合模型。 在回归剖析中,如果只包含一个自变量和一个因变量,且二者的关系可用一条直线近似示意,这种回归剖析称为一元线性回归剖析。如果回归剖析中包含两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归剖析。在线性回归算法中,通常采纳最小二乘法来预计模型的参数,即通过最小化预测值与理论值之间的平方误差之和,来求解最优的模型参数。具体步骤如下: 1.收集样本数据:从数据源中获取一组样本数据,包含自变量和因变量的信息。 2.构建模型:假如因变量和自变量之间存在线性关系,能够示意为y = b0 + b1x1 + b2x2 + ... + bn*xn,其中y为因变量,x1,x2,...,xn为自变量,b0,b1,...,bn为待预计的模型参数。 3.计算残差平方和:依据上一步构建的模型,计算每个样本点到该模型预测值之间的残差平方和(RSS)。 4.求解最优参数:通过最小化RSS的值,求解最优的模型参数b0,b1,...,bn。具体来说,能够应用正规方程、梯度降落等优化算法来进行求解。 5.预测未知数据:依据求解出的模型参数,能够对未知数据进行预测。须要留神的是,在利用线性回归算法时,须要满足一些假如条件,如样本数据独立同散布、自变量与因变量之间存在线性关系等。此外,对于非线性关系的数据,线性回归算法可能无奈很好地拟合数据,这时能够思考应用其余算法来进行建模和预测。线性回归在各种畛域都有宽泛的利用,如经济学、生物统计学、机器学习等。 如有疑难,点击链接退出群聊【信创技术交换群】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=EjDhISXNgJlMMemn85v...

September 22, 2023 · 1 min · jiezi

关于运维:LINUX网络服务之DNS详解

1.DNS介绍1.1域名介绍 讲DNS之前,咱们先来理解一下域名。域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位。具备举世无双,不可反复的个性。1.2DNS介绍 域名零碎(Domain Name System,缩写:DNS)是互联网的一项服务。域名解析是把域名指向网站空间IP,让人们通过注册的域名能够不便地拜访到网站的一种服务。IP地址是网络上标识站点的数字地址,为了不便记忆,采纳域名来代替IP地址标识站点地址。域名解析就是域名到IP地址的转换过程。域名的解析工作由DNS服务器实现。咱们能够把DNS服务器了解为翻译官。2.域名解析过程 客户机首先查看查找本地hosts文件,如果有则返回,否则进行下一步客户机查看本地缓存,是否存在本条目标缓存,如果有则间接返回,否则进行下一步。将申请转发给指向的DNS服务器。查看域名是否本地解析,是则本地解析返回,否则进行下一步。本地DNS服务器首先在缓存中查找,有则返回,无则进行下一步。向寰球13个根域服务器发动DNS申请,根域返回com域的地址列表。应用某一个com域的IP地址,发动DNS申请,com域返回lyw域服务器地址列表。应用某一个lyw域IP地址,发动DNS申请,lyw域返回www.lyw.com主机的IP地址,本地DNS服务收到后,返回给客户机,并在本地DNS服务器保留一份。3.DNS软件信息软件名称: bind服务名称: named软件端口:UDP 53 数据通信(域名解析)TCP 53 数据同步(主从同步)配置文件:主配置文件:/etc/named.conf(服务器运行参数)区域配置文件:/etc/named.rfc1912.zones(服务器解析的区域配置,正反向区域定义信息)数据配置文件:/var/named/xx.xx(主机名和IP地址的对应解析关系,及主从同步信息) 记录类型:A: 地址记录,用来指定域名的IPv4地址的记录CNAME: 将域名指向另一个域名,再由另一个域名提供ip地址,就须要增加CNAME记录TXT: 可填写任何货色,长度限度255。绝大多数的TXT记录是用来做SPF的(反垃圾邮件)NS: 域名服务器记录,如果须要把子域名交给其余DNS服务商解析,就须要增加NS记录。AAAA: 地址记录,用来指定域名的IPv6地址的记录MX3: 邮件替换记录,如果须要设置邮箱,让邮箱能收到邮件,就须要增加MX记录。 4.DNS服务搭建留神:先敞开服务器和客户机上的防火墙和SELinux4.1 软件装置 yum -y install bind4.2 配置主配置文件(/etc/named.conf) vim /etc/named.confoptions { listen-on port 53 { any; }; listen-on-v6 port 53 { ::1; }; directory "/var/named"; dump-file "/var/named/data/cache_dump.db"; statistics-file "/var/named/data/named_stats.txt"; memstatistics-file "/var/named/data/named_mem_stats.txt"; recursing-file "/var/named/data/named.recursing"; secroots-file "/var/named/data/named.secroots"; allow-query { any; };4.3 配置区域文件(/etc/named.rfc1912.zones)注:先对区域文件进行备份,删除多余的模板,只留下一个正向和一个反向(反向批改时,网络位的反写格局,如192.168.142.2-->142.168.192.) vim /etc/named.rfc1912.zoneszone "lyw.com" IN { type master; file "named.localhost"; allow-update { none; };};zone "241.168.192.in-addr.arpa" IN { type master; file "named.loopback"; allow-update { none; };};4.4 配置数据文件/var/named/正向解析 ...

September 21, 2023 · 1 min · jiezi

关于运维:多因素身份验证MFA功能

随着信息技术的不断进步,网络威逼也随之一直降级和演变。为了爱护敏感数据和网络资源,企业和组织须要采取更多的安全措施强化信息安全。多因素身份验证(MFA)曾经成为了古代平安策略的外围组成部分之一。 在这篇文章中,咱们将深入探讨ADSelfService Plus产品内置的多因素身份验证(MFA)性能,以及如何利用ADSelfService Plus来进步企业信息安全性和用户便捷性。第一局部:MFA 的重要性1、进步安全性MFA(多因素身份验证)通过要求用户提供多种身份验证形式来拜访零碎或数据,大大增加了未经受权拜访的难度。而传统的单因素认证形式:用户名和明码组合曾经成为攻击者罕用于入侵企业零碎或威逼数据安全的次要伎俩之一,显然曾经无奈满足以后网络威逼的挑战。2、升高危险应用MFA(多因素身份验证)能够极大缩小零碎入侵、敏感数据泄露、身份偷盗、网络钓鱼和其余欺诈流动的危险和可能性,如果企业应用MFA平安形式,当内部攻打来长期,即使攻击者取得了用户名和明码,他们依然须要另一种或多种其余因素能力胜利登录。3、合乎法规许多法规和合规性要求(如GDPR、HIPAA)采纳MFA来爱护敏感数据。因而MFA对于恪守法律法规同样体现得十分重要。第二局部:多因素身份验证多因素身份验证是MFA的一种模式,它通常会应用生成随机的一次性明码或令牌来实现。用户须要在登录业务零碎时输出这个随机明码或令牌进行第二次身份验证,通常有以下几种罕用形式:硬件令牌设施、手机应用程序、短信验证码、邮件验证码等。1、硬件令牌硬件令牌是一种小型物理设施,用户须要应用令牌设施来获取随机生成的一组新密码。这种办法的长处是安全性高,因为令牌不易受到网络攻击。然而,它们可能不太不便携带且硬件设施有肯定的老本。2、手机应用程序许多MFA解决方案应用智能手机应用程序生成令牌。这种办法不便,因为大多数人都携带手机。此外,它还能够提供其余平安性能,如生物辨认身份验证。3、短信令牌用户收到一条蕴含随机明码的短信。这种办法简略且罕用,很多零碎常常会应用短信验证码的形式进行第二次身份验证,来确保使用者或者访问者的非法身份。第三局部:ADSelfService Plus 的角色ADSelfService Plus 是基于企业流动目录(Active Directory)用户的一种全面的身份和拜访治理解决方案,为组织提供了弱小的自助服务治理用户身份和拜访。并且提供了弱小的MFA(多因素身份验证)性能。1、简略易配置的集成性ADSelfService Plus能够轻松集成到企业现有的Active Directory环境中,并反对企业域架构绝对简单且多域的场景,使组织可能在不毁坏且不更改用户体验和用户(Active Directory)环境配置的状况下减少MFA性能体验。2、身份验证的多样性ADSelfService Plus反对多种身份验证形式,能够与手机应用程序(如:google身份验证器、Microsoft Authenticator等)、短信(SMS)令牌验证,自定义密保问题及答案验证,企业邮件验证、AzureAD验证、生物指纹验证等多种MFA办法叠加应用。这使得组织能够抉择最适宜其需要的MFA形式进行多因素身份验证。3、MFA反对场景的多元性ADSelfService Plus的MFA性能反对企业多种理论利用场景的应用,如本地解锁\登录员工计算机或重要服务器时、登录拜访企业VPN零碎时、拜访企业Exchange OWA邮箱时,登录ADSelfService Plus治理控制台时均能够于ADSelfService Plus的MFA进行系统集成,从而实现企业不同利用场景下的多因素身份验证。4、用户自助服务的安全性ADSelfService Plus提供了企业用户自助服务性能,容许用户自行重置、批改、解锁账号及明码,并通过ADSelfService Plus的MFA性能验证用户操作的真实性和安全性并记录报表,极大升高了企业IT治理运维老本,晋升了用户在明码重置方面的便捷性、强化弱明码方面的安全性,从而进步用户满意度和企业IT形象。第四局部:结语MFA(多因素身份验证)是古代安全策略的外围。它不仅进步了安全性,还升高了危险,并有助于满足相干法律法规要求。强化企业审计的合规性,ADSelfService Plus为组织提供了一个弱小的工具,能够轻松施行和治理MFA,同时提供用户敌对的自助服务治理。通过将MFA与ADSelfService Plus集成,组织能够在进步安全性的同时提供更好的用户体验。因而,采纳MFA和ADSelfService Plus是任何组织晋升安全性和便捷性的重要一步。

September 21, 2023 · 1 min · jiezi

关于运维:上升到人生法则的贝叶斯理论

贝叶斯定理在数据分析、机器学习和人工智能等畛域有宽泛的利用。贝叶斯定理(Bayes' theorem)是一种用于计算条件概率的重要定理,它基于条件概率的定义,形容了在已知某一条件下,另一个条件产生的概率。 须要留神的是,贝叶斯定理的有效性依赖于对概率的精确预计和假如的合理性。在理论利用中,须要依据具体情况对先验概率和条件概率进行正当的设定和预计,以取得精确和牢靠的后果。贝叶斯实践是一类概率推断办法,它应用先验常识和新的证据来更新对事件或假如的概率预计。贝叶斯算法在机器学习和统计学中有宽泛的利用,特地是在分类和预测问题中常被应用。常见的贝叶斯算法包含奢侈贝叶斯分类器(Naive Bayes Classifier)、高斯过程(Gaussian Process)和贝叶斯网络(Bayesian Network)等。这些算法在文本分类、垃圾邮件过滤、举荐零碎和医学诊断等畛域广泛应用。当然,当初还有贝叶斯人生法令(Bayesian decision theory)的实践,能够充沛解释贝叶斯算法实践的理论利用。贝叶斯人生法令提供了一种感性决策的办法,能够帮忙人们在面对不确定性和危险的状况下做出最优决策。基本原理是依据已有的先验常识和新的察看后果,通过贝叶斯定理来更新概率分布,从而得出最优的决策计划。具体步骤如下:1.确定可供选择的各种决策和相应的后果;2.预计每种决策的概率分布;3.察看新的证据或数据,依据贝叶斯定理更新概率分布;4.依据概率分布计算每种决策的冀望效用,抉择具备最高冀望效用的决策作为最优决策。贝叶斯人生法令的劣势在于它可能将不确定性和危险纳入决策过程,并通过每次察看或新的证据的更新,使决策更加精确和牢靠。须要留神的是,贝叶斯人生法令依赖于先验常识的抉择和新证据的察看,还须要对概率分布进行正当的预计。因而,在理论利用中,须要依据具体情况进行适当的假如和数据分析,以取得更精确和牢靠的决策后果。如有疑难,点击链接退出群聊【信创技术交换群】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=EjDhISXNgJlMMemn85v...

September 21, 2023 · 1 min · jiezi

关于运维:KCL-v060-重磅发布-面向云原生场景更易用的语言IDE-工具链社区集成和扩展支持

KCL 团队很快乐地发表 KCL v0.6.0 新版本当初曾经可用!本次公布为大家带来了三方面的重点更新:语言、工具链、社区集成 & 扩大反对。** 应用性能更欠缺谬误更少的 KCL 语言、IDE 和工具链晋升代码编写体验和效率应用 包管理工具 KPM 和 OCI Registry 等工具间接应用和共享您的云原生畛域模型,升高学习和上手老本应用 Helmfile KCL 插件和 KCL Operator 等云原生集成扩大同时反对在客户端和运行时对 Kubernetes 资源进行原地批改和验证**进一步您能够在发布页面或者 KCL 官方网站取得下载安装指南和详细信息。 发布页面: https://github.com/kcl-lang/kcl/releases/tag/v0.6.0官网网站: https://kcl-lang.io语言更新 类型零碎加强反对 KCL 配置块属性类型主动推导,在 KCL v0.6.0 版本之前,下述代码中的 key1 和 key2 属性会被类型零碎推导为 str | int 类型,版本更新之后,咱们进一步加强了配置属性的类型准确推导,key1 和 key2 属性会取得范畴更小更准确的对应类型 config = {    key1 = "value1"    key2 = 2}key1 = config.key1  # key1 的类型为 strkey2 = config.key2  # key2 的类型为 int此外,咱们优化了 Schema 语义检查和联结类型查看等错误信息以及零碎库函数的类型查看错误信息。 更多信息详见: https://github.com/kcl-lang/kcl/pull/678 API 更新KCL Schema 模型解析 GetSchemaType API 获取 KCL 包相干信息和 Schema 属性默认值 谬误修复KCL 必选属性查看谬误修复在之前的 KCL 版本中,KCL 必选属性查看会脱漏嵌套的 Schema 属性查看,在 KCL v0.6.0 版本中,咱们修复了此类相似的问题 schema S:    a: int    b: strschema L:    # 在之前的版本中,会脱漏 [S] 和 {str:S} 中的 S 的 a, b 属性必选查看    # 在 KCL v0.6.0 版本之后,咱们修复了此类问题    ss?: [S]    sss?: {str:S}l = L {    ss = [S {b = "b"}]}更多信息详见: https://github.com/kcl-lang/kcl/pull/672 工具链更新IDE 性能更新跳转性能大幅度晋升,反对毫秒级跳转反对 KCL 包中的变量以及 Schema 属性补全反对 KCL Schema 属性文档悬停提醒反对无用 Import 语句疾速修复 ...

September 20, 2023 · 3 min · jiezi

关于运维:必示科技赋能广发证券运维数字化实践案例入选信通院中国AIOps现状调查报告2023

近期,“必示科技赋能广发证券运维数字化实际,打造智能运维数据中台”单干案例被中国信息通信研究院作为优良金融案例我的项目,收录在最新的《中国AIOps现状调查报告(2023)》(金融行业仅3家)。 以必示科技运维数据平台为根底,广发证券运维数据中台打造运维场景端对端的数据基座,联合AIOps算法,造成数字化运维的决策大脑,在此平台之上推动运维数据平台相干场景的研发,整合运行环境波及的根底监控、业务监控、运行日志等非结构化数据,助力广发证券运维数字化建设。 案例解析 必示科技助力广发证券运维数据中台体系从整体架构上分智能场景工具层、运维服务层、中台能力层三层建设,构建一体化的数据“采、存、算、管、用”能力。 一、智能场景工具层智能运维场景工具层以运维数据中台服务能力为撑持,构建了智能业务感知、运行剖析、巡检剖析、应急核心等在线、离线的数据分析场景。 二、运维数据服务层运维数据通过数据生产时产生价值,从生产视角将运维数据标准化、加工解决、智能开掘并造成指标核心、主题数据中心、异样检测算法核心、ChatOps机器人核心,并通过数据服务以接口服务的模式赋能下层运维场景。 三、根底能力层运维数据中台是运维数据分析的根底底座,反对低代码的数据采控与数据处理能力,反对数据治理的数据管控核心,高牢靠与可扩展性的计算调度核心,一站式的运维数据门户,为运维数据服务层提供全面、牢靠、平安、相干、精确的运维数据资产。 我的项目功效大幅晋升运维场景开发效率通过对多源、异构的运维数据对立治理、突破运维数据孤岛,进步数据复用能力,缩小数据采集、集成、解决、标准化的工夫,同时缩小了试错老本,可在较短时间,以较小的老本实现数据分析场景的研发,施展运维数据价值。 反对一线运维专家积淀常识,激发翻新运维数据平台提供低代码的数据开发工具、指标采集工具、衍生指标派生工具、在线的数据服务、一站式数据门户等能力,升高了运维专家应用、剖析数据的门槛,反对一线运维专家积淀常识、激发翻新。 撑持广发证券智能运维场景化建设运维数据中台上线后,无效地撑持了广发证券基于数据的运维场景建设,包含:应急可观测核心、性能容量评估、季度危险评估、零碎运行巡检、应急演练、技术经营与业务经营主题看板、交易系统性能号异样检测等场景建设,无效地赋能了广发证券运行天网感知体系建设。 落地运维数据资产治理,实现运维数据治理平台提供数据品质检测性能,通过场景驱动数据治理,及时发现数据品质问题,并在应用中不断完善数据品质,实现了数据的全面治理。

September 20, 2023 · 1 min · jiezi

关于运维:TFIDF算法

TF-IDF(Term Frequency-Inverse Document Frequency)是一种罕用于信息检索和文本开掘的统计办法,用于评估一个词在文档集或一个语料库中的重要水平。TF-IDF是一种统计办法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要水平。字词的重要性随着它在文件中呈现的次数成正比减少,但同时会随着它在语料库中呈现的频率成反比降落。 TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本开掘的常见权重化技术。它用于评估一个词对于一个文档汇合的重要性或特色水平。 TF(Term Frequency)示意一个词在一个文档中的呈现频率。TF能够通过简略地计算词在文档中呈现的次数除以文档总词数来取得,或者通过将词频进行归一化解决,例如应用词频的对数模式。 IDF(Inverse Document Frequency)示意一个词在整个文档汇合中的罕见水平。IDF能够通过计算文档汇合中总文档数除以蕴含该词的文档数的对数来取得。IDF越大,示意词越罕见,对于辨别不同文档的能力越强。 TF-IDF是将TF和IDF相乘失去的权重值。TF-IDF值越大,示意该词在文档中的重要性越高。TF-IDF能够用于计算文档的相似性,进行特征选择和文本分类等工作。 在理论利用中,通常会对TF和IDF进行一些调整,例如应用平滑技术,以便更好地反映词的重要性。 例如,能够应用TF-IDF算法,实现剖析对象文档的关键字词的提取。具体能够通过文档预处理抉择候选关键字,通过对关键字的加权解决,即计算每个的TFIDF权重,再依据TFIDF权重对候选词进行降序排列,从而确立文档关键字,进而实现文档剖析性能。如有疑难,点击链接退出群聊【信创技术交换群】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=EjDhISXNgJlMMemn85v...

September 20, 2023 · 1 min · jiezi

关于运维:集成学习方法随机森林

之前咱们介绍过决策树,随机森林(Random Forest)是将多个决策树(Decision Tree)组合在一起造成一个弱小的分类器或回归器,是一种集成学习(Ensemble Learning)办法。随机森林的次要思维是通过随机抉择样本和特色来构建多个决策树,并通过集成这些决策树的预测后果来达到更精确的分类或回归后果。具体步骤如下:随机抉择局部训练样本集;随机抉择局部特色子集;构建决策树,对每个节点进行特征选择和决裂;再进行反复,构建多个决策树;对每个决策树,依据投票或平均值等办法,取得最初的分类或回归后果。具体而言,随机森林能够通过引入随机性来升高过拟合的危险,并减少模型的多样性。对于分类问题,随机森林采纳投票机制来抉择最终的类别标签;对于回归问题,随机森林采纳平均值作为最终的输入。随机森林相较于单个决策树具备以下长处:准确性高:随机森林通过多个决策树的集成,能够缩小单个决策树的过拟合危险,从而进步整体的准确性。鲁棒性强:随机森林对于噪声和异样值具备较好的容错能力,因为它的预测后果是基于多个决策树的综合后果。解决高维数据:随机森林能够解决具备大量特色的数据,而且不须要进行特征选择,因为每个决策树只应用了局部特色。可解释性强:随机森林能够提供每个特色的重要性度量,用于解释模型的预测后果。然而,随机森林也有一些限度和注意事项:训练工夫较长:相比于单个决策树,随机森林的训练工夫可能会更长,因为须要构建多个决策树。内存耗费较大:随机森林对于大规模数据集和高维特色可能须要较大的内存存储。随机性导致不可复现性:因为随机性的引入,每次构建的随机森林可能会有所不同,这导致模型的后果不具备齐全的可重复性。总的来说,随机森林是一个弱小的机器学习办法,它通过构建多个决策树,并依据肯定规定进行集成,以进步模型的准确性和稳定性。如有疑难,点击链接退出群聊【信创技术交换群】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=EjDhISXNgJlMMemn85v...

September 19, 2023 · 1 min · jiezi

关于运维:加密-K8s-Secrets-的几种方案

前言你可能曾经听过很多遍这个不算机密的机密了--Kubernetes Secrets 不是加密的!Secret 的值是存储在 etcd 中的 base64 encoded(编码) 字符串。这意味着,任何能够拜访你的集群的人,都能够轻松解码你的敏感数据。任何人?是的,简直任何人都能够,尤其是在集群的 RBAC 设置不正确的状况下。任何人都能够拜访 API 或拜访 etcd。也可能是任何被受权在 Namespace 中创立 pod 或 Deploy,而后应用该权限检索该 Namespace 中所有 Secrets 的人。 如何确保集群上的 Secrets 和其余敏感信息(如 token)不被泄露?在本篇博文中,咱们将探讨在 K8s 上构建、部署和运行应用程序时加密应用程序 Secrets 的几种办法。 K8s 的 Secrets在 Kubernetes 集群上运行的应用程序能够应用 Kubernetes Secrets,这样就无需在利用程序代码中存储 token 或明码等敏感数据。 以后默认 Kubernetes 集群内 Secrets 的典型工作流程如下: Dev 阶段:应用 CICD 的应用程序开发人员将 git 作为治理部署到集群的配置的实在起源。访问控制有助于确保对该资源库的拜访平安,但这自身并不总能确保应用程序的敏感信息不被泄露。Ops 阶段:API 服务器会在集群上创立 Kubernetes Secrets 资源,你能够在这里 这里 浏览无关 Secrets 生命周期的更多信息。 存储在 etcd 中的 Secrets 可由应用程序 pod 以三种形式之一应用: 作为一个或多个容器的 卷挂载 中的文件。作为容器 环境变量。由 Pod 的 kubelet 在拉取镜像时应用。在这三种状况下,密文中的值在应用前都会被解码 (decode)。 ...

September 18, 2023 · 3 min · jiezi

关于运维:2023-CCF国际AIOps挑战赛报名倒计时|截止时间9月15

智能运维畛域最具影响力的业余赛事——2023 CCF国内AIOps挑战赛,自报名启动以来已收到230余支队伍报名,约600余位选手参加本次挑战赛。本次大赛的报名截止工夫为9月15日,目前报名曾经进入倒计时,请选手们放松最初工夫报名参赛! 本届大赛首次采纳开放式赛题,无需代码审核,容许商用产品参赛,是CCF 国内AIOps挑战赛创赛以来最大的改版。参赛队伍组合较往届更灵便,AIOps生态中的产、学、研、用各方都能够基于同样的数据开展PK。目前报名选手笼罩金融、通信、互联网、IT、科技公司等各类企事业单位、国内外高校及科研院所。 —以下为截止目前的局部参赛单位—  高校/科研院所清华大学、国防科技大学、中科院、浙江大学、南京大学、复旦大学、哈尔滨工业大学、香港中文大学等。  海内院校哥伦比亚大学、爱丁堡大学、澳大利亚国立大学、新南威尔士大学、阿姆斯特丹自在大学、滑铁卢大学、都柏林大学等。  IT/科技企业华为、天翼云、联想、三星、苹果、浪潮、中软、深服气、思特奇、思科、中电金信等。   互联网企业阿里、腾讯、京东、百度、字节跳动、爱奇艺等。   金融企业中国建设银行、中国农业银行、中国银行、安全科技、中国工商银行、浙商银行、中国人寿、国泰君安、普华永道等。   运营商公司中国移动、中国联通、中国电信等。 CCF国内AIOps挑战赛旨在借助社区的力量,使用人工智能算法解决各类运维难题,自2018年首次举办以来,吸引了大量AIOps从业者和关注者。随着赛事规模的一直增长,CCF国内AIOps挑战赛的影响力日益晋升。其中,2022年第五届CCF国内AIOps挑战赛吸引了300余支战队近千位业余选手参赛,超过4万人次观看线上直播。 本次大赛基于建行云龙舟运维平台的稳定性工具和多维监控零碎,模仿大型生存服务APP的实在环境,提供端到端全链路监控数据及日志,揭示企业运维团队面对规模宏大、结构复杂、动态变化的运维数据须要解决的一系列挑战。同时,绝对于各类科技奖项,进入决赛队伍的问题不光是看汇报资料,还要通过组委会后果复现,进行实在后果的比对(然而不会查看源代码)。除了丰富奖金,获胜方有机会被整个AIOps生态理解。目前报名已进入倒计时,26万总奖金池等你来瓜分! 奖项设置一等奖1名,奖金10万二等奖2名,奖金5万三等奖3名,奖金2万 报名截止工夫为9月15日,尚未报名的团队和选手们请抓紧时间!大赛报名地址:建行云官网:https://yun.ccb.com挑战赛官网:https://aiops-challenge.com

September 11, 2023 · 1 min · jiezi

关于运维:Docker-镜像库国内加速的几种方法

概述在国内,拉取 Docker 镜像速度慢/时不时断线/无账号导致限流等,比拟苦楚. 这里提供减速/优化的几种办法。 梳理一下,会碰到以下状况: 国内下载速度慢/时不时断线:是因为网络被限度了。没有公共镜像库账号导致限流:是因为 Docker Hub 等支流镜像库,近年来纷纷开始对未登录的匿名用户进行限流,限度拉取的速度,以及肯定工夫内拉取的镜像数量。为了解决以上问题,有这么几种办法: 针对国内下载速度慢/时不时断线, 可选办法如下: 配置国内可用/速度尚可的 Docker Registry Mirrors自建 Docker Registry Mirror/Proxy, 并配置为 MirrorDocker Daemon 配置 proxies针对没有公共镜像库账号导致限流, 可选办法如下: 注册各个镜像库账号并 docker login 登录具体计划如下。 具体计划Notes: 这里以 Docker 举例说明。Containerd/Podman/cri-o 等请触类旁通。 配置国内可用/速度尚可的 Docker Registry Mirrors 阿里云 Docker 减速:相似 xxxxxx.mirror.aliyuncs.com 的集体专属减速地址;DockerProxy 代理减速:dockerproxy.com百度云 Mirror: mirror.baidubce.com...自建 Docker Registry Mirror/Proxy, 并配置为 Mirror 这里应用 Cloudflare Worker - cloudflare-docker-proxy 搭建Docker Daemon 配置 proxies, 具体包含:http-proxy https-proxy no-proxy注册各个镜像库账号并 docker login 登录计划施行细节配置国内可用的 Docker Registry Mirrors随着工夫的推移,国内可用的 Docker Registry Mirrors 会继续发生变化,因而,须要实时依据可用状况调整 Docker Registry Mirrors 配置。 ...

September 10, 2023 · 2 min · jiezi

关于运维:Nomad系列Nomad网络模式

系列文章Nomad 系列文章概述Nomad 的网络和 Docker 的也有很大不同, 和 K8s 的有很大不同. 另外, Nomad 不同版本(Nomad 1.3 版本前后)或是否集成 Consul 及 CNI 等不同组件也会导致网络模式各不相同. 本文具体梳理一下 Nomad 的次要几种网络模式 在Nomad 1.3公布之前,它本身并不反对发现集群中运行的其余应用程序。在集群中调度工作时,这是一个十分根本的要求。Nomad依赖于Consul来发现其余“服务”,并为注册和获取服务记录提供一流的反对,这使得事件变得更容易。Consul通过各种机制提供记录,例如REST API,DNS和Consul模板,这些模板在能够注入到应用程序中的Go模板中出现服务的确切IP/端口。 学习 Nomad 的一个难点在于, Nomad 往往和 Consul 一起运行, 那么对于这种状况来说,一个次要的学习曲线是,咱们必须首先理解Consul是如何工作的,部署一个Consul集群, 同时要死记硬背 2 个软件就很难了。Nomad 1.3 解决了这个问题的一部分(即不须要运行Consul就能够进行根本的服务发现),非常适合刚刚开始应用基于Nomad的网络。 场景一: 在主机上公开利用 从最简略的用例开始:你有一个 redis 容器,你想把它裸露给主机。 相当于咱们想要做的docker run是 : docker run --rm -p=6379 redis此命令公开主机上的动静端口。要查看端口号到底是什么,您能够执行 docker ps 并在 PORTS 下找到相似于 0.0.0.0:49153->6379/tcp 的输入。 $ redis-cli -p 49153 127.0.0.1:49153> pingPONG那么, 在 Nomad 中雷同的操作如何实现? job "redis" { type = "service" group "redis" { network { mode = "host" port "redis" { to = 6379 } } task "redis" { driver = "docker" config { image = "redis" ports = ["redis"] } } }}在几行配置中,咱们有一个正在运行的Docker容器,它公开了一个动静端口 30627: ...

September 9, 2023 · 4 min · jiezi

关于运维:YesPMP引领未来众包协作的智能革新

随着科技的不断进步和人们生存程度的进步,众包合作模式曾经成为一种不可漠视的趋势。最后源自美国的众包合作模式,作为一种为企业提供翻新和疾速反馈的软件开发形式,曾经倒退成为一种支流形式,过来十年里获得了微小停顿。现在,众包合作已成为互联网上最受欢迎的合作形式之一,也成为当今企业治理和组织的不可或缺的一部分。通过将工作分发给遍布世界各地的集体或组织,众包合作模式帮忙企业更高效地利用内部资源,从而进步创新能力和竞争力。然而,随着众包合作模式的推广和利用越来越宽泛,也呈现了一些亟待解决的问题。YesPMP(一站式互联网众包平台)致力于解决以后众包模式面临的挑战。YesPMP通过一直推动众包合作的翻新和利用,帮忙人们实现更高效、经济实惠的工作指标,同时推动整个行业的翻新和倒退。 首先,YesPMP提供全球化的我的项目开发管理工具Codigger和智慧云,为企业协调和治理寰球范畴内的众包团队提供了便当。这种全球化的合作形式不仅有助于企业降低成本、提高效率,还拓宽了人才抉择范畴,促成了寰球创新力的施展。通过与业余开发者单干,确保高质量的产品和服务交付给用户。 其次,YesPMP借助先进的信息技术伎俩,实现了工作散发、进度跟踪、成绩审核等全面自动化治理,进步了工作效率和品质。引入智能算法和大数据分析技术,YesPMP可能疾速匹配工作与众包人员,并依据过来的体现给予正当的激励,激发众包人员的积极性和创造力。 另外,YesPMP重视建设一个信赖和沟通的良好环境,通过多种形式促成众包人员之间的交换和单干。平台为众包人员提供了在线探讨、实时沟通等工具,例如小慧APP,使得扩散的众包团队可能更高效地共享教训和常识,协同实现工作。此外,YesPMP还依据我的项目的特点和需要,设计了灵便的处分和评估机制,激励众包人员投入更多的精力和创造力。 总之,YesPMP作为一种翻新的众包合作模式,为企业提供了更高效、智能化的众包解决方案。它不仅可能均衡企业老本和效益的关系,还可能晋升寰球众包人员的协同能力和创新能力,进一步推动众包合作模式的翻新和倒退。随着技术的不断进步和利用的不断深入,置信YesPMP将在将来成为众包合作模式的重要趋势之一。

September 8, 2023 · 1 min · jiezi

关于运维:Nomad-系列NomadTraefikTailscale-集成实现零信任安全

系列文章Nomad 系列文章Traefik 系列文章Tailscale 系列文章概述终于到了令人启动的环节了:Nomad+Traefik+Tailscale 集成实现零信赖平安。 在这里: Nomad 负责容器调度;(容器编排工具)Traefik 负责入口流量;(Ingress 工具)Tailscale 实现跨地区联通,4 层加密以及提供 HTTPS 证书。Traefik 简介Traefik 是一个古代的 HTTP 反向代理和负载均衡器,使部署微服务变得容易。 Traefik 能够与现有的多种基础设施组件(Docker、Swarm 模式、Kubernetes、Marathon、Consul、Etcd、Rancher、Amazon ECS、Nomad…)集成,并主动和动静地配置本人。 Traefik 与 Nomad Native Service 集成2023 年 5 月初,Hashicorp 公布了 Nomad 1.3 版本。在此版本之前,当与 Nomad 一起应用服务发现时,Traefik Proxy 用户必须同时应用 Hashicorp Consul 和 Nomad,以便从 Traefik Proxy 驰名的主动配置中获益。当初,Nomad 有了一种简略间接的办法来应用内置的服务发现。这大大提高了间接可用性!不仅在简略的测试环境中,而且在边缘环境中。 Traefik 与 Tailscale 集成从 Traefik Proxy 3.0 Beta 1 公布开始,Traefik Proxy 反对 Tailscale。当 Traefik 收到对 *.ts.net 站点的 HTTPS 申请时,它会从机器的本地 Tailscale 守护过程(理论是 Tailscale 的 socket) 获取 HTTPS 证书。并且证书不须要配置。 ...

September 8, 2023 · 5 min · jiezi

关于运维:头部媒体经观传媒传依托博睿数据将故障排查效率提升60

在“十四五”布局中,数字产业化和产业数字化被明确提出,数字经济与实体经济的深度交融成为倒退的重要方向。为了实现这一指标,如何将数字技术与行业常识相结合,并真正融入次要业务流程,解决外围业务问题,催生体验晋升、效率晋升以及模式翻新已成为数字化转型的要害课题。经观传媒作为中国极具影响力的外围财经媒体之一,在新型支流媒体翻新交融倒退方面施展着重要引领作用。凭借22年来在财经畛域的业余积攒,经观传媒以感性和建设性的报道理念为基石,构建了报纸、网站和挪动端等全媒体生态系统,并胜利打造了微博、微信、抖音、快手等自有流传平台矩阵。同时,经观传媒还布局了人民号、新华号、知乎、今日头条、百度新闻、喜马拉雅等全资讯信息流平台,稳居各大平台影响力媒体TOP10,现有读者用户1500万+。其中,经观APP自2021年上线,日均触达用户100万+,每日浏览量达300万+,全国流传力和影响力日益彰显。经观APP在经观传媒的策略转型中扮演着至关重要的角色。作为整个媒体生态系统的外围纽带,该应用程序不仅连贯了经观传媒与用户之间的紧密联系,还促成了与合作伙伴之间的协同单干。通过经观APP,经观传媒胜利实现了从传统媒体向多元化模式的转型,包含视频、语音等内容模式的引入。这种转型不仅丰盛了用户体验,也提供了更多翻新产品和服务的承载平台。 在过来,面对故障和谬误时,只能依附人工的形式进行排查和定位。自从引入博睿数据的利用性能监控零碎后,状况产生了根本性的扭转。通过博睿数据一体化智能可观测平台Bonree ONE弱小的根因剖析能力可疾速定位到具体的故障起因,通过从人工排障向自动化智能化运维的转变,咱们的运维效率进步了60%,从而显著缩小了人力老本,开释出更多的生产力。这种转变不仅晋升了工作效率,也为咱们提供了更多的机会去摸索和翻新。 2022年,经观传媒与博睿数据携手,博睿数据凭借其当先的技术和翻新的产品力,在解决互联网行业运维监控难题上施展了重要作用,无论是在数据集成剖析、智能报警、系统管理、危险管制还是用户体验方面,博睿数据都为经观传媒提供了全方位的技术支持和服务,也为其业务的翻新倒退注入了新的生机。 实现全栈监控 经观传媒通过网站、APP、小程序、H5页面和电商平台等多样化的媒介状态,向用户提供丰盛的内容和服务。对于传媒行业来说,实现全面监控笼罩是确保利用稳固运行的要害。在这一畛域,博睿数据通过实时监测APP性能指标、资源利用率以及利用程序运行状况等要害数据,并提供可视化监测工具,胜利实现了经观传媒的全栈监控。这使得经观传媒可能全面理解平台运行状态,并实现了从用户行为到代码级别的端到端监控指标。 用户体验显著晋升 过来,每当经观传媒APP呈现卡顿、响应不及时的反馈时,后盾运维人员难以定位具体问题,问题解决老本较高。随着Bonree ONE的接入,经观传媒的运维人员可能通过Bonree ONE溯源,追踪调用链,查看操作门路,疾速定位问题起源。这是一次用户体验的降级,也是博睿数据产品价值的体现。此外,博睿数据的数据集成和剖析能力也为经观传媒提供了更深刻的数据洞察,可帮忙其更好地了解用户需要和市场趋势 运维效率晋升60% 经观传媒技术核心负责人示意,博睿数据通过实时监测服务器的性能指标、资源利用率以及利用程序运行状况,为经观传媒在日活激增期间遇到的申请错误率、利用卡顿率等重要数据提供可视化监测。此外,博睿数据实现了端到端数据的联通和精确的问题定位,以辅助经观传媒疾速发现错误类型,进步SLA,故障排查效率晋升60%。这不仅有助于进步零碎稳定性和可靠性,还可能优化资源分配,进步运行效率。 随着技术的一直倒退和翻新,经观传媒将进一步摸索人工智能畛域的利用。AI大模型、虚拟空间、图片辨认以及其余基于人工智能技术的利用都将成为将来倒退的重点方向。博睿数据作为技术支持的重要合作伙伴,将持续施展关键作用,助力经观传媒实现数字化转型指标,并与用户建设更严密、更有价值的互动关系。 《博睿数据IT运维精选案例选集》 排障不易,多看案例

September 7, 2023 · 1 min · jiezi

关于运维:压力测试指南没有任何文档小白也可以做的压力测试

前言个别在执行压力测试之前,会由开发提供出接口文档,蕴含一些接口的具体参数,便于测试工程师编写测试脚本。但在某些状况下,接口等相干文档缺失,那作为Tester,咱们该如何顺利的施行压力测试呢? 本实际将以Web利用为例(某新闻网页),对该页面蕴含的所有HTTP(s) 接口进行压力测试。在没有任何文档前提下,咱们能够通过浏览器的调试模式(F12),获取与网络相干的接口申请和响应信息,从而设计出压测脚本并执行。次要的实际步骤如下: 一、获取接口信息,编写用例01获取GET申请接口信息在待测Web页面中,按F12进入调试模式(Chrome浏览器)点击Network* Network面板能够记录页面上的网络申请的详情信息,从发动网页页面申请Request后,剖析HTTP申请,从而失去的各个申请资源信息点击左侧Name中资源文件,查看Headers获取对应的 申请URL(Request URL)和 申请头(Request Headers)如下图所示:将获取到的申请URL和申请头,做本地记录,或录入到接口治理平台造成接口用例: 02获取POST申请接口信息Post申请信息的获取形式与Get申请接口统一,但通常Post多一个申请体(Request Body)GET申请与POST申请的区别: GET申请 - 从指定的资源申请数据,用于获取数据,个别用于搜寻排序和筛选之类的操作POST申请 - 向指定的资源提交要被解决的数据,用于将数据发送给服务器,个别用于批改和写入数据点击Payload,查看对应申请体信息,如图所示:同样,录入平台造成Post接口用例: 二、调试测试用例应用工具或平台的调试性能,查看调试日志的响应信息。并与浏览器对应接口的响应信息比照(点击Response查看),如图:如果内容统一,则证实所捕捉的接口信息精确。筹备工作实现,接下来开始压测! 三、压测配置、执行01压测模式抉择通常压测模式分为两种:用户数模式和吞吐量模式 用户数模式:对于须要摸索零碎性能瓶颈,举荐应用用户数模式。其中如何设置模仿用户数(并发数),须要对流量做精确预估。除此之外,也举荐应用梯度增压模式,通过零碎主动减少模仿用户数(并发数),找到瓶颈所在吞吐量(QPS)模式:对于有明确吞吐量指标(假如已知顶峰吞吐量为280),即举荐应用吞吐量模式,设定最大吞吐量为350,同时设置压测的时长,即可执行测试依据理论业务需要抉择压测模式,配置对应参数,执行压测吧~ 02解读压测报告,找到性能瓶颈压测执行完结后,须要关注的外围指标:吞吐量、响应工夫、成功率等,先确认测试后果是否达到预期,如不满足能够通过以下状况做排查: 成功率未达标:查看谬误日志,排查谬误根本原因,进行性能调优响应工夫未达标:对照谬误日志、链路追踪后果、服务器性能指标、数据库/中间件监控指标,找到响应工夫过长的具体起因吞吐量未达标:如果成功率和响应工夫均达标,倡议一直减少模仿用户数,从新压测,查看测试后果 优测压力测试平台:优测压力测试是一款在线云原生全链路压测平台,百万级并发即召即用。兼容JMeter脚本,一键上传即可随时发压,免去压测工具搭建老本。除在线压测工具外,也反对私有化部署、定制化开发及专家压测服务。

September 7, 2023 · 1 min · jiezi

关于运维:直播预告-博睿学院Bonree-ONE接入zabbix数据源提高可观测运维能力

Zabbix是业界覆盖面十分广泛的监控工具。本课程将介绍目前私有云的根底监控体系的构建思路,讲述One产品对接Zabbix数据的必要性与可观测性赋能成果。 课程中会分享数据接入的过程,重点解说zabbix工作机制,深入分析zabbix数据库表构造,带你理清数据流向、性能与数据表之间的关系。揭秘Bonree ONE将zabbix数据收纳为己用的二三事。 本期讲师 久岐 平台撑持核心 资深运维专家业务特长:监控体系构筑,K8s集群保护工作经验:曾就任于CTSIG本期主题:Bonree ONE接入zabbix数据源进步可观测运维能力 长按辨认或扫描海报下方二维码预约观看,课件将于直播后发送至您的邮箱。

September 7, 2023 · 1 min · jiezi

关于运维:智能可观测性如何赋能智能汽车主机厂

2023年9月5日,主题为「人机交互」的“北京 · 亦庄2023首届汽车黑科技研讨会”胜利举办,博睿数据应邀出席大会,作《博睿数据一体化智能可观测平台助力汽车企业新基建新阶段「制作」到「智造」 》主题演讲。 通过人工智能和大数据分析技术,汽车能够实现更智能的驾驶辅助、个性化服务和预测性保护等性能。智能汽车、车联网和物联网技术的倒退,使得汽车可能与其余设施和网络进行连贯,实现数据交换和近程管制,扭转了人们对汽车的应用形式。这些技术趋势正在一直推动汽车行业的翻新和倒退,并为消费者带来更平安、环保、智能和便捷的出行体验。 目前,智能汽车App在加载页面、切换功能模块等方面存在提早,导致用户应用过程不晦涩。App与车辆之间的数据同步存在提早或谬误,导致用户无奈及时获取精确的信息。同时,无效反馈机制的不足使用户无奈及时反馈问题或失去解决方案。 博睿数据资深技术专家向涛围绕车企行业数字化转型阶段、人机交互倒退历程、车联网零碎难题等方面开展,分享了在数智化转型驱动下,博睿数据如何用一体化智能可观测平台助力汽车企业从「制作」到「智造」。 向涛指出,车企过来几年的实际和摸索,构建和欠缺数字化底座是车企数字化转型的第一阶段。围绕业务,构建可成长的云上数字化解决方案和利用是第二阶段。第二在阶段根底上,车企最终得以实现“以人为核心”的数字化转型指标。在车企新技术倒退过程中,如何保障消费者的用户体验,以及新技术、新性能的适用性和易用性是否保障带来好的市场反应,这是以后的一个挑战。 汽车行业呈回暖趋势,数字化和智能化模式在汽车消费市场的占比越来越重,智能化需要晋升,保障用户体验,晋升用户体验感愈发重要。在数字化转型的驱动下,车企利用在用户侧的理论体验无奈感知,车企后端利用如何保障开发能效、品质、规范,成为当下车联网零碎的一个难题。 可观测性的存在可能帮忙企业明确不同模块的调用关系,横向买通数据,纵向撑持业务。因为汽车企业有很多非云原生的环境,环境成分简单,有因果关系的可观测性和具备AIOps 的被动可观测性产品更可能帮忙汽车企业构建牢靠的IT零碎。 博睿数据的一体化智能可观测平台Bonree ONE,可能帮忙汽车企业优化以下几个方面: · 故障诊断和预测:可观测性平台能够实时监测汽车各个系统的运行状态,通过数据分析和算法模型,及时发现潜在故障,并提供预测性保护,帮忙厂商提前采取措施,缩小故障产生和培修老本。 · 晋升用户体验:通过可观测性平台,汽车厂商能够实时理解用户的应用状况、偏好和反馈意见。基于这些数据,厂商能够优化产品设计、改良性能和服务,晋升用户体验,并减少用户忠诚度。 · 数据驱动的决策:可观测性平台收集到大量的汽车运行数据,包含车辆性能、驾驶习惯、路况等信息。这些数据能够为汽车厂商提供贵重的参考,用于产品研发、市场营销和战略决策等方面。 · 近程监控与管制:可观测性平台使得汽车厂商可能近程监控车辆状态,并进行近程管制。例如,在呈现故障或平安问题时,厂商能够近程锁定车辆、发送警报或提供领导,确保用户的平安和车辆的失常运行。 博睿数据的一体化智能可观测平台Bonree ONE为汽车厂商提供了实时监测、故障诊断、用户洞察和数据驱动决策等价值,帮忙他们晋升产品质量、用户体验和市场竞争力。 博睿数据作为中国IT监控及可观测畛域的领导者,15年来以深厚的技术积攒一直打磨产品和服务能力,始终秉承“客户第一”的理念,已取得广汽丰田、广汽本田、Smart、北汽团体、东风柳汽、上汽零束等多家头部车企的信赖与抉择。以蓝谷极狐汽车为例,应用博睿数据产品后,在运维效率、用户体验方面有了大幅晋升: 疾速精准定位APP性能问题,大幅提高排障效率,间隔一人运维更近一步。用户应用体验晋升20%!通过对汽车零碎进行实时监控和剖析,帮忙监控车辆性能,无效晋升用户体验。随着技术的不断进步和市场竞争的加剧,汽车企业须要更加智能化和高效的生产方式来进步产品质量、降低成本和进步市场竞争力。博睿数据一体化智能可观测平台为汽车企业提供了全方位的数据反对和决策依据,助力其从「制作」到「智造」的转型。通过实时监控、剖析和优化各个环节的运行状况,企业能够进步产品质量、降低成本、加强竞争力,并最终实现可继续倒退。将来,博睿数据将持续致力于翻新技术和产品,为汽车行业的智能化转型注入新动力。

September 7, 2023 · 1 min · jiezi

关于运维:Nomad-系列Nomad-挂载存储卷

系列文章Nomad 系列文章概述显然,如果 Nomad 要运行有状态存储,那么挂载存储卷就是必备性能。 Nomad 容许用户通过多种形式将持久数据从本地或近程存储卷装载到工作环境中: 容器存储接口(CSI)插件Nomad 主机卷反对Docker Volume 驱动程序默认没有装置 CSI 的状况下,次要应用的是 Nomad 主机卷 形式。 Nomad 的主机卷容许将 Nomad 客户端上的任何目录挂载到调配中。这些目录能够是客户机上的简略目录,但也能够是挂载文件系统,如 NFS 或 GlusterFS。而后能够将这些 mounts 连贯到工作组中的各个工作。 Tailscale 挂载 socket在后文中,Traefik 要通过 Tailscale 的 socket 和 Tailscale 通信以获取证书。那么我么也能够通过 Nomad 主机卷(只读)的形式将 socket 挂载到 Traefik 容器中。 Nomad 主机卷简介Nomad 主机卷 (Host Volume) 能够治理 Nomad 集群内运行的有状态工作负载的存储。 Nomad 主机卷提供了一种与工作负载无关的形式来指定资源,可用于 Nomad 驱动程序,如 exec 、 java 和 docker 。 Nomad 主机卷应用步骤创立主机目录在集群中的 Nomad 客户端节点上,创立一个用于长久化 MySQL 数据的目录。对于本例,让咱们创立目录 /opt/mysql/data: sudo mkdir -p /opt/mysql/data配置 Nomad 客户端编辑对应的 Nomad 客户端上的 Nomad 配置以创立主机卷。 ...

September 7, 2023 · 2 min · jiezi

关于运维:为IT服务台构建自定义Zia操作

Zia是manageengine的商业人工智能助手,是ServiceDesk Plus Cloud的虚构会话反对代理。应用Zia,您能够优化帮忙台治理,还能够放大最终用户与其帮忙台之间的差距,Zia通过执行预配置的操作来帮忙用户实现他们的服务台工作。 例如,Zia能够记录申请、增加工作、更新正文、批准申请或获取即时报告,Zia还能够间接答复问题,并从应用程序的数据库中获取信息。用户能够通过聊天与Zia互动。Zia的语音聊天性能能够帮忙用户轻松地进行多任务处理。 Zia能够解决日常的帮忙台治理,为技术人员节俭了大量的工夫和精力,否则这些工夫和精力可能会破费在反复的工作上。此外,终端用户还能够享受更为简单的服务台服务。 manageengine 的业务 AI 助手 Zia 当初帮忙组织弥合最终用户和 IT 服务台之间的差距。作为潜在的第一联系人,Zia 缩短了服务台团队的响应工夫,并有助于显着进步最终用户的满意度。Zia 目前可用于所有版本的 ServiceDesk Plus 云版本。 服务台的智能黄页:答复简略的问题,例如查问集体或团队的联系方式或工单。您须要的所有信息,只需聊天即可:ServiceDesk Plus 数据库能够答复更简单的问题。例如,Zia 能够依据优先级搜寻申请并辨认违反SLA 的工单。您的服务台服从您的命令:在交互的每个阶段通过适当的输出调用服务台操作,例如记录申请或增加正文。随时随地的免提服务治理:为用户提供跨多个平台的反对,包含 Web 客户端和本地挪动应用程序上的聊天,以及挪动应用程序 上的语音通话。让您的虚构反对代理按您的形式工作:容许服务台团队构建和部署自定义 Zia 操作,从间接答复到在JIRA等第三方工具中调用操作。

September 6, 2023 · 1 min · jiezi

关于运维:Nomad-系列快速上手

系列文章Nomad 系列文章Nomad 重要术语 Nomad 装置设置相干术语agent - 代理。Agent 是在 Server(服务器) 或 Client(客户端) 模式下运行的 Nomad 过程。client - 客户端。Nomad 客户端负责运行调配给它的工作。它还向服务器注册本人,并监督要调配的任何工作。当运行代理时,客户端能够被称为节点 (Node)。server - 服务器端。Nomad 服务器治理所有作业和客户端,监督工作,并管制哪些工作被搁置在哪些客户端节点上。服务器之间互相复制数据以确保高可用性。dev_agent - 开发(模式)代理是一种代理配置,它为运行 Nomad 的单节点集群提供了有用的默认值。它在服务器和客户端模式下运行,并且不会将其群集状态长久化到磁盘,这容许代理从可反复的洁净状态启动,而不用在运行之间删除基于磁盘的状态。Nomad 集群通常由三到五个服务器代理和许多客户端代理组成。 Nomad 应用的相干术语在 Nomad 调度和运行工作负载的过程中,您将遇到以下术语。 task - 工作是 Nomad 中最小的工作单元(相似 K8s 中的 Pod)。工作由 task drivers 执行,drivers 包含 docker 和 exec 等,这使得 Nomad 能够灵便地反对工作类型。工作指定其所需的工作驱动程序、驱动程序的配置、束缚 (constraints) 和所需的资源。group - 组是在同一 Nomad 客户端上运行的一系列工作。(我集体认为相似于 K8s 中的 Deployment/Statefulset/Daemonset/Job)job - 作业是 Nomad 的外围管制单元,它定义了应用程序及其配置。它能够蕴含一个或多个工作。(我集体认为 job 相似于 K8s 中的多个资源 yaml manifest 汇合。包含:SVC/Ingress/ConfigMap/Deploy/PVC...)job specification - 作业标准,也称为 jobspec,定义了 Nomad 作业的模式。它形容了作业的类型、作业运行所需的工作和资源、作业信息(如作业能够在哪些客户端上运行)等。allocation - 调配是作业中的工作组与客户端节点之间的映射。当运行作业时,Nomad 将抉择可能运行它的客户端,并在机器上为作业中定义的工作组中的任务分配资源。(我认为相似于 K8s 中曾经在运行的 pod.)应用程序在 jobspec 中定义为具备 jobspec 的工作组 (groups of tasks),并且一旦提交给 Nomad,就会创立一个作业 (job) 沿着该 jobspec 中定义的每个组的调配 (allocation)。 ...

September 6, 2023 · 6 min · jiezi

关于运维:Amazon-EKS-监控方案实践下-博思云为云技术分享提供专业的云管理服务云MSP服务

上篇回顾 如何搭建eks集群如何创立alb插件如何创立ebs插件如何搭建prometheus服务本文重点 搭建Grafana对接PrometheusGrafana屏幕展现搭建 Grafana 创立 Grafana 的 yaml 文件 mkdir ${HOME}/environment/grafana -pcat << EoF > ${HOME}/environment/grafana/grafana.yamldatasources: datasources.yaml: apiVersion: 1 datasources: - name: Prometheus type: prometheus url: http://prometheus-server.prometheus.svc.cluster.local access: proxy isDefault: trueEoF 部署Grafana ###创立命名空间kubectl create namespace grafana ###Helm增加grafana仓库helm repo add grafana https://grafana.github.io/helm-charts ###更新helm repo update ###部署装置(须要批改成你的子网,初始化明码为admin)helm install grafana grafana/grafana \--namespace grafana \--set persistence.storageClassName="gp2" \--set persistence.enabled=true \--set adminPassword='admin' \--values ${HOME}/environment/grafana/grafana.yaml 装置之后如下图: 增加注解 ###须要增加注解kubectl annotate service grafana service.beta.kubernetes.io/aws-load-balancer-nlb-target-type=ip \ service.beta.kubernetes.io/aws-load-balancer-scheme=internet-facing \ service.beta.kubernetes.io/aws-load-balancer-subnets=subnet-02cbfaaf2093cf95f,subnet-01614bc0f46e7439f,subnet-03a3409ceaabd52e3 \ service.beta.kubernetes.io/aws-load-balancer-type=nlb -n grafana ###更改类型kubectl patch service grafana -p '{"spec": {"type": "LoadBalancer"}}' -n grafana ...

September 5, 2023 · 1 min · jiezi

关于运维:当现实问题影响ITIL实施

执行ITIL很简略吗?你能够征询他人,或者在网上上浏览学习,甚至学习ITIL相干的课程,通过这些理解ITIL的信息,都很容易。但最难的,是在实在环境中施行这些过程! 每个企业或组织都各不相同,它们因人员、流程、环境、所提供的反对类型、帮忙台等等而不同。本文旨在帮忙IT经理自我评估他们的帮忙台及其成熟度级别,以便在正确的时候施行正确的流程。 大家都晓得,ITIL是良好的实际;ITIL能为您提供多年来其余IT同行的各种经验教训。ITIL就像一个信使,把好的实际信息带给你,然而如果你不正确地执行它,就是在挫伤它,最终你还会嗔怪ITIL的概念。因而,在施行ITIL流程之前,请您先思考这些问题。 我的团队能解决这个流程吗?这个流程是必需品还是奢侈品?这个流程对帮忙台有什么益处?以下是笔者在咨询服务经验中遇到的一些辣手的事实问题,这些事实问题在任何书籍或课程中都找不到。施行ITIL与你从他人那里读到或听到的有很大的区别,在事实中,这是一场齐全不同的“游戏”。有几个影响因素起作用: 1、人员问题管理人员是非常复杂的,它是最重要和最艰难的工作之一。当打算推出一项重大改革时,比方,一个新过程,重要的是要抉择正确的人来施行它。为员工设计流程,并依据员工的能力和与他们接洽。抉择正确的流程负责人,并赋予他们治理流程的责任。2、复杂性定义流程的目标是为了确保流程以零碎和策略的形式被解决。然而,在某些状况下,人们以协定、程序等的名义将其误解,使其变得非常复杂。这个本该让事件变得简略的过程最终变得复杂起来,背离了初衷。用常识来解决这些场景,能够把简单的过程变成简略的解决方案。3、机会很重要施行ITIL就像烤蛋糕。你要确保机会失当,在正确的工夫增加正确的成分。同样,在正确的工夫施行ITIL过程也是必要的;你不能把一个过程强加给你的团队,他们应该是曾经做好了承受扭转的筹备,你也应该思考这个过程在那时是否是必要的。疏忽了所有这些因素,你就错了。施行ITIL在每个环境是不同的,正如咱们下面探讨的,不同的事实的确会给您带来很多艰难。只有充沛理解本人的IT、劣势、弱点、人员和他们的能力,您能力克服这些难题。胜利的ITIL施行意味着流程操作比以前更容易。这个过程应该被每个人都承受,它应确保业务服务的顺利运行,而不应给业务带来累赘。

September 5, 2023 · 1 min · jiezi

关于运维:Nomad-系列安装

系列文章Nomad 系列文章Nomad 简介开新坑!近期算是把本人的家庭实验室环境初步搞好了,终于能够开始进入正题钻研了。 首先开始的是 HashiCorp Nomad 系列,欢送浏览。 对于 Nomad 的简介,之前在 大规模 IoT 边缘容器集群治理的几种架构-2-HashiCorp 解决方案 Nomad 有提到过,这里再疾速过一遍: Nomad: 一个简略而灵便的(次要是容器,但有不至于容器的)调度器和编排器,可在外部和云端大规模部署和治理容器和非容器化的应用程序 Nomad 使开发者可能应用申明式的基础设施即代码来部署应用程序。Nomad 应用 bin packing 来无效地安顿工作并优化资源利用。 Nomad 凭借其简略性、灵活性、可扩展性和高性能与相干工具辨别开来。Nomad 的协同作用和整合点 HashiCorp Terraform、Consul 和 Vault 使其特地适宜轻松集成到 组织的现有工作流程,最大限度地缩小要害打算的上市工夫。 Nomad 一些个性Nomad 与 Consul 及 K8s 略有不同,它将基础设施划分为由一个 Nomad 服务器集群服务的区域,但能够治理多个数据中心或可用性区域。Nomad 客户端到其服务器的提早可能超过 100 毫秒。这容许具备一组 Nomad 服务器,所述 Nomad 服务器在具备单个“寰球”区域和多个数据中心的状况下服务能够在天文上散布在一个大陆甚至世界上的所有客户端。Nomad 装置Nomad 是一个预编译的二进制文件,也能够作为几个操作系统的包。这次咱们通过包管理器来装置。 以 Ubuntu/Deiban 为例: 前提条件root 权限IPtables 性能残缺Docker 已装置Warning 请留神,如果您在 Linux 上运行 Nomad,则须要以 root 身份(或应用 sudo )运行客户端 Agent,以便 cpuset accounting 和网络名称空间失常工作。 ...

September 5, 2023 · 2 min · jiezi

关于运维:如何选择网线

当今随着智能办公、智能家居的高速倒退,对网络环境要求也越来越高,许多网络曾经降级到百兆以上。为防止应用过程中网络的提早卡顿甚至掉线景象,对网线的抉择至关重要。 咱们所应用的网线是由四对绝缘的金属线缠绞的,这种缠绞形式可能对消掉本身的信号烦扰,也能缩小外界信号的烦扰。网线个别可分为5类网线、六类网线、七类网线、八类网线。网线的规范越高,制作规范越高,反对的频率越高。如图所示,CAT6的字样表明这根网线为6类,实践上传输速度能够达到千兆。后续会有介绍各类网线的区别,欢送关注。第二个要看的是线芯粗细,个别网线线径0.5mm,24AWG为五类网线标准线径,23AWG为六类网线线径,AWG数值越小线径越大,线径越大,网线直径约大,等级越高。 第三烦扰屏蔽的区别,网线分为屏蔽双绞线(STP)和非屏蔽双绞线(UTP)。屏蔽双绞线(STP):外皮外面由一层金属材料包裹线材,以减小辐射,避免信息被窃听。同时具备较高的数据传输速率,但价格较高,装置也比较复杂。非屏蔽双绞线(UTP),无金属屏蔽资料,价格绝对便宜。有电磁辐射等非凡场景必须应用屏蔽双绞线。还有一种双屏蔽网线,外部是有一层金属屏蔽网和一层铝箔,次要用于强烦扰的环境中。另外,网线还有抗衰减、抗低温、抗串扰、抗冲击等等技术指标,抉择的时候也是参考指标。尽管网线技术指标较多,但抉择上重点还是放在网线的类别上,个别类别越高价格也越高,网线类别也与网络的传输速度、稳固水平等呈反比。如想理解更多常识,点击链接退出群聊【信创技术交换群】:http://qm.qq.com/cgi-bin/qm/qr?_wv=1027&k=EjDhISXNgJlMMemn85v...

September 5, 2023 · 1 min · jiezi

关于运维:基于ITIL的ITSM工具

随着企业的ITSM(IT服务治理)的逐步成熟进而深刻利用,如果您心愿以低成本寻找一款基于ITIL的ITSM管理工具,而后那么卓豪ServiceDesk Plus将是您性价比高的收费ITSM、工单零碎抉择。因为它提供全面的ITSM和资产治理能力,更重要的是,实用于不同治理档次的三个版本均提供免费版。 灵便定制IT,为您所需 1、借助独立和定制化的工作流,别离解决规范、紧急和重大变更。2、配置批准流程,事后批准某些变更,从而节约工夫,提高效率。3、跳过一些步骤,建设紧急变更征询委员会(CAB),以疾速施行紧急变更。4、将变更模板与流程关联在一起,实现一旦提交立刻执行变更。 IT服务台每天都会收到大量的工单,这些工单可能来自高级职员、中层管理人员甚至是高层管理人员,在这种状况下,就须要明确各类工单的优先级。 比方说,某组织的CEO申请拜访一个业务剖析工具来收集数据,同时,有一个新员工也提出了同样的申请,在这种状况下,您显然须要为此设置肯定的优先程序。 那么,该如何依据用户确定工单的优先级呢?应用ServiceDesk Plus能够轻松实现此工作! 依据用户的职位(如董事、总裁、经理、管理员等)划分出VIP用户。当VIP用户报告事件或提出服务申请时,在该用户的姓名旁边显示一个标识该用户为VIP的图标,帮忙技术员轻松确定工单的优先级。

September 4, 2023 · 1 min · jiezi

关于运维:不就是接根网线的事么

朋友家新买台网络电视,联网时发现装修预留电视墙里的网线没装水晶头。分割徒弟,说要等到下午4点当前“顺路”过去看看,还得免费80元上门费。我这个敌人决定本人入手解决。于是到家左近五金城,花30多元买了一把网线钳,热心老板还贴心送了几个水晶头,最重要的他“顺便”跟老板聊压抑水晶头做网线的办法,回到家上网看了几篇制作文章印证后,开始入手,最终电视机联网胜利。加上买网线钳的工夫,只用了半个多小时。他本人都说:“不就是接根网线的事么?”这事让他得意忘形,团聚里也是夸耀至今。省了钱还取得一把网线工具,省了工夫还把握一门手艺。明天拿出这事分享,作为咱们这个系列的开始。倡议遇到此类问题,大家无妨也本人入手试试,“不就是接根网线的事么?”,毕竟与其在家里等徒弟上门,不如本人入手,方法总比艰难多,不等不靠,本人还播种了满足,心甘情愿。如果要看此类内容,欢送留言,我会及时与大家互动交换。

September 4, 2023 · 1 min · jiezi

关于运维:卓豪AD域为IT管理员出力

如果您的企业有微软AD域的话,有管理员示意,在微软AD域环境中,IT管理员可能会遇到以下难题: 1、无奈进行大批量的增删改查,手动配置用户及其属性既耗时费劲,又容易出错。2、无奈把一些日常治理工作指派给上司分公司的管理员,让其自行治理上司分公司事宜,如创立用户、重置明码等。3、一旦AD管理员不在,其余用户也无奈进行操作,从而会影响失常业务的进行。4、无奈依照AD用户属性定义标准格局创立用户、无奈依照部门字段增加到所属平安组中、无奈主动依据字段主动调配到指定的OU、无奈依据筛选条件将管理者增加为该部门的经理等。 那么,应用卓豪AD域管理工具能够取得以下收益: 简化AD治理、进步办公效率,保障数据安全;批量作业,批量化操作,缩小人为干涉,工作流程 更加规范化;权限委派,升高工作负荷,避免管理员权限过大;直观报表、统一化治理数据,并将其导出为 报表;具体的管理员审计报表,进步整个AD域数 据的安全性;卓豪AD域工具为IT管理员提供了全面的解决方案,其中波及到用户、计算机、OU等批量创立、批改操作,也提供了AD委派功能模块,可疾速审计管理员的行为,可和数据库进行集成,缩小人为的干涉实现一系列繁琐工作,能够大大减少管理员工作累赘,解放管理员!

September 1, 2023 · 1 min · jiezi

关于运维:Linux系统的web管理工具webmin搭建

@TOC 一、webmin介绍Webmin是目前性能最弱小的基于Web的Unix系统管理工具。管理员通过浏览器拜访Webmin的各种治理性能并实现相应的治理动作。目前Webmin反对绝大多数的Unix零碎,这些零碎除了各种版本的linux以外还包含:AIX、HPUX、Solaris、Unixware、Irix和FreeBSD等。二、增加webmin的yum仓库[root@192 ~]# vim /etc/yum.repos.d/webmin.repo[root@192 ~]# cat /etc/yum.repos.d/webmin.repo [Webmin]name=Webmin Distribution Neutralbaseurl=http://download.webmin.com/download/yumenabled=1三、查看yum仓库状态[root@192 ~]# yum repolist allLoaded plugins: fastestmirror, langpacks, product-id, search-disabled-repos, subscription-managerThis system is not registered with an entitlement server. You can use subscription-manager to register.Loading mirror speeds from cached hostfile * base: mirrors.aliyun.com * extras: mirrors.aliyun.com * updates: mirrors.aliyun.comWebmin | 2.9 kB 00:00:00 base | 3.6 kB 00:00:00 epel | 4.7 kB 00:00:00 extras | 2.9 kB 00:00:00 updates | 2.9 kB 00:00:00 (1/3): epel/x86_64/updateinfo | 1.0 MB 00:00:01 (2/3): Webmin/primary_db | 179 kB 00:00:04 (3/3): epel/x86_64/primary_db | 7.0 MB 00:00:11 repo id repo name statusWebmin Webmin Distribution Neutral enabled: 212base/7/x86_64 CentOS-7 - Base - mirrors.aliyun.com enabled: 10,072centosplus/7/x86_64 CentOS-7 - Plus - mirrors.aliyun.com disabledcontrib/7/x86_64 CentOS-7 - Contrib - mirrors.aliyun.com disabledepel/x86_64 Extra Packages for Enterprise Linux 7 - x86_64 enabled: 13,753epel-debuginfo/x86_64 Extra Packages for Enterprise Linux 7 - x86_64 - Debug disabledepel-source Extra Packages for Enterprise Linux 7 - x86_64 - Source disabledextras/7/x86_64 CentOS-7 - Extras - mirrors.aliyun.com enabled: 512updates/7/x86_64 CentOS-7 - Updates - mirrors.aliyun.com enabled: 3,842repolist: 28,391三、装置webmin1.增加GPG密钥 wget http://www.webmin.com/jcameron-key.asc --no-check-certificate rpm --import jcameron-key.asc2.装置webmin yum install webmin -y3.查看webmin状态root@192 yum.repos.d]# systemctl status webmin● webmin.service - Webmin server daemon Loaded: loaded (/usr/lib/systemd/system/webmin.service; enabled; vendor preset: disabled) Active: active (running) since Fri 2022-06-03 19:40:23 CST; 45s ago Process: 41185 ExecStart=/etc/webmin/.start-init (code=exited, status=0/SUCCESS) Main PID: 41186 (miniserv.pl) Tasks: 1 Memory: 44.7M CGroup: /system.slice/webmin.service └─41186 /usr/bin/perl /usr/libexec/webmin/miniserv.pl /etc/webmin/miniserv.confJun 03 19:40:23 192.168.3.146 systemd[1]: Starting Webmin server daemon...Jun 03 19:40:23 192.168.3.146 .start-init[41185]: Starting Webmin server in /usr/libexec/webminJun 03 19:40:23 192.168.3.146 systemd[1]: Started Webmin server daemon.4.放行firewalld及敞开selinux①敞开selinuxsed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/configsetenforce 0getenforce ②放行firewalld[root@192 yum.repos.d]# firewall-cmd --permanent --add-port=10000/tcpsuccess[root@192 yum.repos.d]# firewall-cmd --reload success[root@192 yum.repos.d]# firewall-cmd --list-ports 80/tcp 10000/tcp[root@192 yum.repos.d]# 四、web界面拜访1.登录webhttps://192.168.3.146:10000/ ...

September 1, 2023 · 2 min · jiezi

关于运维:博睿数据当选粤港澳大湾区金融创新研究院理事会单位助力金融科技创新发展

近日,博睿数据入选粤港澳大湾区金融翻新研究院理事会单位。这是对博睿数据在金融科技领域所获得问题的高度认可,也是对其创新能力和发展潜力的充分肯定。粤港澳大湾区金融翻新研究院由粤港澳三地金融行业、高等院校高层和专家学者独特发动,经香港政府社团事务机构批准注册,成立于2018年9月27日。研究院是一家非营利性的独立金融智库,致力于粤港澳大湾区金融体系建设、倒退布局、交融翻新、人才培养和金融政策钻研。研究院主旨是摸索国际金融倒退新趋势,求解国内金融倒退新问题,推动金融交融翻新,为粤港澳大湾区建设出谋划策。 作为一家专一于数据智能和技术创新的企业,博睿数据始终致力于为金融行业提供当先的技术和翻新的产品力,截至目前,博睿数据曾经服务了以金融行业为主的企业1000+。成为粤港澳大湾区金融翻新研究院理事会单位对于博睿数据来说是荣誉也是时机。这意味着博睿数据将与其余成员单位独特参加到推动金融科技翻新、促成跨境单干、构建更加凋谢和容纳的金融生态系统的重要使命中。 在将来的路线上,博睿数据将一直晋升本身的技术研发能力和产品创新能力,持续秉承“让IT经营更智能”的品牌理念,与粤港澳大湾区金融翻新研究院以及其余合作伙伴一起携手推动金融科技的提高和倒退,创始更加凋敝和可继续倒退的金融翻新新时代。

August 31, 2023 · 1 min · jiezi

关于运维:5个IT事件管理的最佳实践

什么是IT事件? IT事件是一个影响很大的紧急问题,通常会影响整个组织或其次要局部。重大事件简直总是导致组织的服务变得不可用,这导致组织的业务受到打击,并最终影响其财务状况。以下是5个重大IT事件治理的最佳实际: 1、启用多个渠道报告重大事件在解决重大事件时,工夫至关重要。组织在发现重大事件后立刻辨认和分类至关重要。为用户提供多种报告事件的办法将使整个过程更快、更容易拜访。您能够通过电子邮件或门户网站创立工单,甚至能够设立专门的热线来报告可疑的重大事件。设置网络监控软件来检测异常情况能够帮忙您被动解决重大事件。 2、自动化服务台流程速度和效率在管制重大事件的影响方面施展着至关重要的作用,而自动化各种服务台流程有助于将技术人员从告诉利益相关者等反复工作中解放出来,从而实现这一指标。自动化告诉零碎和设置重大事件工作流是自动化服务台流程的好办法,能够缩短解决工夫。 3、争取及时、相干的沟通重要的是要让组织的管理层和重要的利益相关者理解每一个重大事件。让管理层理解状况将有助于取得修复重大事件所需的必要批准和权限。及时沟通确保所有重大事件人员都通晓,并容许顺利、无效的合作;它还让最终用户随时理解任何可能的停机工夫,以便他们做好筹备。 4、创立清晰的文档清晰的文档有助于重大事件经理记录为修复重大事件所做的所有工作、其影响、受影响的服务以及无关重大事件的其余要害信息。此文档对于向管理层展现MIM流程的益处(包含投资回报率)十分重要。清晰的文档也将有助于解决将来任何相似的重大事件。 5、利用ITSM软件的深度集成ITSM软件的弱小集成使IT部门可能被动解决重大事,。反应式重大事件辨认依赖于大量工单来出重大事件正在进行的危险信号。另一方面,利用ITSM软件集成的被动MIM流程具备适当的零碎来监控网络和服务,并能够主动标记可能是潜在重大事件的异样。

August 31, 2023 · 1 min · jiezi

关于运维:中国API领域标杆厂商全知科技再度获得Gartner-2项国际权威认可

近日,国内权威市场钻研与咨询机构Gartner最新公布了《中国API治理市场指南》(《Market Guide for API Management, China》及《中国API解决方案代表厂商名录》(Tool: Vendor Identification for API Solutions in China)。 凭借独具当先的产品创新力、行业解决方案及市场成熟度,全知科技再度取得Gartner国内权威认可,实力入选《中国API治理市场指南》中国API平安畛域代表供应商,并上榜《中国API解决方案代表厂商名录》,旗下知影-API危险监测零碎被收录为中国API平安畛域举荐产品。 《指南》及《名录》是Gartner聚焦中国API畛域,基于对国内API市场的剖析钻研,并对国内厂商的产品成熟度、产品个性等进行综合梳理,面向中国市场评估选出在国内市场具备代表性的厂商,并进行产品工具举荐。先后入选中国API平安畛域代表供应商及API解决方案代表厂商,取得Gartner的重点举荐,不仅是对全知科技技术劣势和独特价值的高度认可,也充沛印证了全知科技是国内API畛域当之无愧的领跑者。 此前,全知科技也屡次入选Gartner《中国数据安全代表厂商名录》、《2022中国网络安全技术成熟度曲线报告》“数据分类分级”畛域代表厂商、《2023中国数据分析与AI技术成熟度曲线报告》“数据分类分级”畛域代表厂商;并间断两年入选《中国智慧城市与可继续倒退技术成熟度曲线报告》“中国跨省通办政务服务”畛域代表厂商,继续走在行业前列。 现在,在数字化经济的疾速倒退的背景下,企业深度依赖应用API,用于无效地集成系统、服务和合作伙伴,API被广泛应用于金融、社交媒体、交通运输和电子商务等行业,实现例如在线购物、挪动领取、物流查问等数字应用服务的拜访。API是反对应用程序和基础设施的各个组件之间牢靠、平安交互的关键技术。然而,随着API的数量和复杂性的扩充,其平安就远远超出了企业的管制。诸如访问控制有余、不平安的间接对象援用等API本身的独特性危险,以及API传输过程中面临的非法呼叫、敏感数据泄露、数据篡改等数据安全问题都困扰着企业。 正如Gartner研究所述,以后企业对API治理解决方案的需要正在极速回升,且对API平安解决方案的要求越来越高。作为国内最先推出API平安产品的数据安全厂商,全知科技早在成立之初就率行业之先推出了知影-API危险监测零碎,产品深度集成资产发现、脆弱性评估、危险监测等API全生命周期的外围能力,帮忙企业构建更坚硬的API平安防线。 凭借当先的产品力和高成熟的应用性,产品被宽泛于金融、政务、医疗、运营商、互联网等各行各业;同时,在一次次的市场摸索利用中,全知科技通过继续的技术创新驱动,精密打磨产品性能,由此焕新了最新一代的API危险监测3.0,以一直满足市场的多样化需要。 知影- API危险监测零碎是一款基于流量剖析和数据辨认技术的API危险监测零碎,通过采集整个应用程序环境中的API流量,实时发现最新最全的API数据,并跟踪和刻画API的历史行为和生命周期,帮忙企业把握所有API画像。 基于API画像和利用大数据引擎技术,自动化辨认API中可能存在的破绽和弱点,实时剖析、精准辨认API上存在的攻击行为,集成或联动第三方平安防护产品进行数据保护。通过API数据拜访行为留痕,帮忙企业进行数据泄露溯源,从而及时发现和应答安全事件。 API资产跟踪发现:发现全量API资产,提供API类型、API格局、API级别、API状态、数据裸露面梳理等全方位的API资产形容;通过继续的监测和剖析API交互,辨认API申请和返回内容中蕴含的敏感数据,并及时更新敏感数据裸露的细节。重点API清单筛选:联合API携带的数据和API分类分级算法,对API进行分类定级,依据利用零碎、数据标签组合、敏感等级、拜访域、等多种维度剖析、筛选,造成重点API清单,同时通过继续发现能力可能主动监测和跟踪API的变动。API弱点全面评估:产品集成OWASP API十大平安危险,并蕴含50+项的弱点规定,笼罩数据裸露、数据权限、平安标准、高危接口、口令认证等规定维度;提供全面的洞察力,帮忙辨认和解决API中的潜在危险,提供修复倡议和措施。API危险监测剖析:基于API画像和上下文关联信息,从数据泄露、Web攻打、账号平安三个维度对API流动进行实时监测和剖析,辨认异样行为和歹意行为;辨认记录失常数据拜访行为的各个属性,并建设API行为基准线,判断歹意流动。API数据实时爱护:集成多家API网关、WAF、SOC平台等产品,依据危险监测后果主动阻止攻打,实现数据保护;通过零碎上的实时监测和旁路阻断性能,并联合弱小的内置威逼情报库(在线更新)立刻阻断危险行为,无效避免账号劫持、未经受权的数据拜访、数据批量拉取等。事件审计溯源剖析:针对API的异样危险事件,通过对敏感数据提取留痕,记录数据拜访行为,被动进行关联事件的相关性检索剖析,对数据行为进行精准审计回溯并将后果汇总,便于及时补漏平安缺口。在面对数字化转型浪潮的过程中,知影-API危险监测零碎可能面向各行各业,深度联合业务个性,宽泛满足企业在API平安建设、平安经营降本增效等各方面的利用需要。 将来,全知科技将持续依靠多年的实战经验和当先的技术能力,继续摸索API平安畛域的技术创新实现,助力企业实现更高效、简略的API平安建设治理。

August 31, 2023 · 1 min · jiezi

关于运维:万人在线一站式自动化运维-SysOM-30重磅发布龙蜥社区系统运维-MeetUp-回顾来了

8 月 12 日,由龙蜥社区零碎运维 SIG 主办,乘云数字协办的,主题为“观测,让运维更简略!”的零碎运维 MeetUp 于杭州圆满结束。来自乘云数字、谐云科技、乐维、云杉网络、擎创科技、观测云、阿里云以及浙江大学等泛滥厂商及高校的 11 位专家和传授,分享了精彩主题演讲,带来了前沿技术见解。现场来自浪潮信息、神州数码、阿里云等企业超 50 位开源爱好者,就云场景下运维的外围痛点及解决方案展开讨论,大家围绕 Linux 利用和零碎可观测、eBPF 跟踪以及诊断技术等打卡体验了龙蜥硬核运维技术,线上超万人观看并参加了互动。 (图/流动现场合影) (图/龙蜥社区理事长马涛) 流动收场,龙蜥社区理事长马涛发表了收场致辞:“看到大家明天齐聚杭州,一起来交换探讨零碎运维技术,我的第一感觉是三个’多‘。第一是现场的参与者泛滥。咱们现场有高校传授、云厂商、运维厂商及很多 Linux / eBPF 爱好者等。第二是现场分享的议题多,既有 eBPF 技术、也有一站式运维平台 SysOM 3.0 的公布,还有龙蜥社区和 Kindling 社区联结公布的北极星指标及可观测性技术的分享等。第三是我集体感觉龙蜥社区在翻新、面向未来的思考工作做了很多。置信大家或多或少都有体感,在零碎运维畛域,过来更多靠集体/专家的能力去解决问题,没有造成一个规范。但随着云原生、eBPF、可观测、AI 等技术大规模衰亡,我感觉对于零碎运维畛域是一个契机。龙蜥社区也已粗浅的领会到存在的机会和挑战,心愿可能联合社区的力量更好、更高效的去解决。本次流动前面也会有针对成立‘零碎运维联盟’的探讨,大家一起摸索通过‘零碎运维联盟’的形式,以翻新的模式来解决问题。最初,不论是通过零碎运维 SIG 还是所有工程师的致力,最终心愿在龙蜥社区可能造成一整套残缺地、高效地运维形式,帮忙企业去解决面临的运维难题。” 致辞完结后,正式开始技术分享环节,本次 MeetUp 有 9 大议题、11 位技术大咖就 Linux 和 eBPF 技术的魅力开展演讲。(图/浙江大学软件学院副教授、博士生导师才振功) 浙江大学软件学院副教授、博士生导师才振功分享了《 Gartner 2023 可观测性魔力象限解读和启发》主题演讲。才振功围绕 Gartner 对于 APM 和可观测性魔力象限谈了谈他的一些想法。据 2023 年最新的可观测性魔力象限报告显示,可观测性已受到社会各界宽泛关注,市场空间占比也很大,而入选魔力象限的企业综合思考了“技术”和“非技术”类多项指标。接着,他具体介绍了 Leader 象限供应商的特点、Visionaries 象限供应商的前瞻性、Niche Players 象限解决了用户哪些痛点等。最初总结了可观测性的发展趋势。 (图/谐云科技 CTO 苌程) (图/龙蜥社区零碎运维 SIG Owner 毛文安) 谐云科技 CTO 苌程、龙蜥社区零碎运维 SIG Owner 毛文安联结分享了《龙蜥社区 & kindling社区联结公布:北极星指标体系构建》。 ...

August 30, 2023 · 1 min · jiezi

关于运维:ITIL帮助台怎样帮助企业建设IT服务

大多数企业都是从邮件开始IT反对建设的,随着企业的规模扩充、服务申请的增长,服务质量不可避免呈现了急剧的降落。IT反对团队进入消防员模式,他们只能奔走于解决申请,防止服务失败。没有ITIL所定义的流程体系,IT团队失去了在业务、服务受到影响前,被动辨认、解决问题的视线。 ITIL为IT服务反对提供了服务框架,或者咱们能够称为“常识办法”,它可能确保每个问题的根本原因失去剖析、确认并加以解决,避免未来呈现同类的问题。 施行ITIL有2个重要步骤:1、为ITIL施行制订一个明确的、高级别的指标2、抉择事件、问题、变更和配置管理来建设基于ITIL的服务台零碎 企业可能通过施行ITIL帮忙台,被动的治理IT服务,缩小服务停机工夫。随着IT业务环境的一直扩大,成长中的企业往往难以为用户提供优质的、不中断的IT服务,企业须要采纳一种标准化的解决方案来解决各项IT服务治理。 ITIL帮忙台能够帮忙IT反对人员管制IT环境,继续一直的提供优质的服务,使得企业可能按需抉择性能,来打算和施行ITIL,应用事件、问题、配置和变更治理来被动的解决问题,保护卓越的服务质量。

August 30, 2023 · 1 min · jiezi

关于运维:直播预告-博睿学院第四季即将开讲博睿数据资深运维团队现身说法

博睿学院第四季开讲啦!本季博睿学院的课程将于本周四(8月31日)16点正式启动。本季咱们邀请到了博睿数据平台撑持核心的四位资深运维专家现身说法,来为咱们分享一体化智能可观测平台Bonree ONE的实际干货。 本期博睿学院将介绍博睿数据Bonree ONE产品自动化部署工具应用的技术,以及应用中最容易呈现谬误的问题排查办法。课程中会着重介绍ansible及docker在问题排障应用的常见命令,并联合命令将反馈较多的问题进行演绎,提供对应类别问题的排查思路及查看命令。 本期讲师已邻 平台撑持核心 资深devops专家业务特长:ansible自动化运维编程开发、开源组件及linux零碎问题排障工作经验:曾就任于北京市佳其宏达科技有限公司本期主题:智能运维平台Bonree ONE的自动化部署实战 长按辨认或扫描海报下方二维码预约观看,课件将于直播后发送至您的邮箱。

August 30, 2023 · 1 min · jiezi

关于运维:清华裴丹-运维大模型展望下篇

本文内容来自清华大学计算机系长聘副教授裴丹在CCF国内AIOps挑战赛宣讲会暨AIOps研讨会,及其他运维畛域前沿研究会议上,对于《运维大模型瞻望》的演讲。 2023 CCF国内AIOps挑战赛炽热报名中(AIOps挑战赛炽热报名中,26万奖金池等你来瓜分!)上一篇文章咱们分享了清华大学裴丹传授演讲的《运维大模型瞻望》的上半局部(链接:清华裴丹 | 运维大模型瞻望-上篇),次要讲述了大模型在运维畛域利用可能面临的问题和技术挑战、探讨了对于运维大语言模型状态及利用。本篇文章咱们会重点分享运维大模型的整体架构和中长期利用。 第二局部:运维大模型整体架构 运维大模型大略是一个什么概念? 首先,要把运维的公域和私域离开。在运维畛域共性多于差异化。比方,一个运维专家,从A公司入职到B公司,适应新的工作环境须要一个过程,然而他依附通用的运维常识也能够疾速的开展工作,所以须要把共性的货色集中力量做好。私域方面做一些简化的工作,因为私域很难进行大规模的训练工作,起因是数据出不来,且算力和语料无限。 其次,利用人工智能社区最新、最强有力的开源大语言模型底座,基于多模态的运维常识图谱和混合专家模型,构建运维通用的大语言模型。 第三,须要多模态运维数据的根底模型群。波及到多模态运维数据的根底模型群,每一项都有典型的、多模态的数据源。就像医学畛域一样,须要影像的根底模型、核磁的根底模型、CT的根底模型,每一项都须要粗浅地了解它的特点才可能做得更好。间接套用大语言模型解决不是原生的文字语料数据,想要做出好的成果是比拟艰难的。 第四,运维大模型中还蕴含已有的自动化的运维工具,通过根底模型的编程框架(LangChain等)编排在一起。前提是这些工具的接口尽量标准化,可能分明地形容出API,用自然语言形容进去的需要可能间接转换成对接口的调用,不论是简略变成Graph SQL,还是变成配置,或者变成 API 的调用。前提是要做好根底工作,否则参数填错一点点,后果会相差很远。而后,在公有部署方面,能够应用一些轻量级的办法将公有的个性化个性融入运维大模型中。 MetricFM运维多模态的数据,如最常见的监控中的指标数据,它的状态是多样化的,不同的指标状态不一样,有些业务指标跟人的作息相干,周期性很强;有一些偏基础设施,规律性较弱。 MetricFM上游工作-基线生成 基于这些指标,会有很多工作,比如说监控,用算法动静计算高低稳定的基线。上图是咱们演示的成果,须要针对不同模式计算出基线,其本质是捕捉指标数据外在法则的一种能力。 MetricFM上游工作-模式识别 比如说当初的工作不是计算一个高低稳定的基线并产生告警,而是要辨认进去当初有哪些模式:是爬坡、是上台阶还是下坡,这其实是对模式的一种捕捉能力。 MetricFM上游工作-趋势预测 比方趋势预测,计算它的斜率是向上还是向下,算斜率的时候,这个曲线不肯定是直线,可能是有肯定的趋势又带肯定的稳定。过来咱们用小模型的形式,每一个都是独自做模型,而后评估准确率。实质上须要对底层类型的数据有深刻理解的能力,在这之上建设根底模型,而这些工作就是根底模型的一个个小模型的利用。对于日志、trace数据、告警数据、其余数据也都是相似的状况。多模态的数据每一个都有本人强烈的特点,基于这些特点建设的根底模型(Foundation Model),而后对它的上游利用再建设模型,这种思路对AIOps智能运维方向也是一个不错的启发。 过来,咱们可能在小模型上进行了许多尝试,当初大语言模型在“文字模态”的数据下获得了如此好的停顿,这也为咱们在智能运维方向上应用多模态运维数据的根底模型提供了更多信念。 从架构的角度来看,咱们面临一个不可避免的问题:开源大模型层出不穷,那么应该抉择哪个模型、哪个底座呢?如果一个月后所选的已不再是最新、最强有力的,该怎么办?上图中显示的是6月30日排名靠前的模型,但当初曾经被大幅更新了。大模型疾速倒退给了咱们信念,以后的计算效率问题、能力问题以及模型规模问题都将逐步被AI开源社区解决。寰球最聪慧的AI专家们都被调动起来,独特朝着一个方向致力,所有问题都将逐个解决。包含公有部署的算力问题也将失去解决,可能不会那么快,但咱们应置信开源合作的力量。 同时,咱们都十分放心被某个模型或办法所解放。上图展现了大语言模型的根本框架,包含适配、部署、优化和监控,以及根底模型的编程框架。相似于DevOps的流水线一样,咱们尽量使每个局部都可替换和松耦合,这样在某个组件更新时能够间接替换。底座、微调办法、各种工具等都力求可替换,以便在工具演进过程中能更好地利用开源社区的最新成绩。 第三局部:运维大模型中长期利用 假以时日,运维大模型未来能有哪些利用呢?某些规模宏大的机构,如果领有短缺的语料和算力资源,实际上能够进行相似私域微调的工作。微软曾发表过相应的论文,基于其私有云上大量的工单数据,利用机器主动生成工单。通过评估,机器生成的工单与人工书写的工单十分靠近。阐明机器具备这样的能力,但这波及到语料的品质和数量方面的要求。例如,依据历史工单信息给出故障定位、故障止损倡议和类似故障提醒,提供与历史故障的相似性比拟以及过后的止损办法等,可能对咱们正在产生的故障止损提供重要的提醒和帮忙作用。 此外,还包含当大量的告警产生时,由机器为这些告警信息生成告警摘要。相似一大段文字由机器进行文字摘要一样,这里针对的是正在产生的故障产生的一堆告警信息,甚至是告警风暴,由机器产生告警摘要。总之,但凡波及文字相干的内容,都能够在这方面进行相干的利用尝试。当然并不一定每个机构都具备这样的语料和算力资源。 为已有的智能运维工具和自动化工具提供交互加强。交互加强指的是从文字角度的用意辨认和后果总结能力。举例来说,某款工具导入了所有的监控数据后能够进行各种危险告警、故障告警,从监控数据到主动建单,并给出根因剖析后果。如果在最外层退出基于大语言模型的输入输出的加强,这个工具的便捷性和受欢迎水平将大大晋升,前提是须要进行一些数据处理和接口标准化的工作。这是对单个运维工具进行晋升的办法。 在许多状况下,咱们须要将自然语言转化为模板(Lang2Template),这个模板可能是通过自然语言表达出来的对数据库的查问,而后主动生成相应的SQL语句。相似的,咱们也能够将自然语言转化为Splunk查问语句,因为像Elasticsearch和Splunk等工具都提供了用自然语言表白日志数据查问的性能,并且能够进行图形化展现。除此之外,咱们还能够应用自然语言表白图数据库的查问,并主动生成配置和脚本。这与自动化生成代码的过程类似,只是在运维畛域中,咱们常常应用脚本来主动调用各种API。因而,利用自然语言表白的模块蕴含哪些服务的信息,咱们能够生成一个图数据库查问,相当于是一个拓扑的模块调用的关系存在图数据库里,而后用图数据库中进行主动生成的图形和SQL。 如果当初要实现一个绝对简单的工作和场景,如出了一个故障,须要查问这个利用上面所有组件的所有的监控数据,而利用上面可能是上图中的一个拓扑图,有许多组件,每个组件下面既有日志数据,又有指标数据,还有其余数据。首先去图数据库里边生成一个Graph SQL,把这个节点的数据拿进去,而后再拿这节点的信息去挖取不同的指标数据库、日志数据库,再去查对应的数据。能够设想一下其实就是用相似LangChain的工具,把方才这一系列操作串联起来。所有已有的运维的工具,接口定义分明,数据根底良好,就是一个无效的编排的工具,能够跟各种已有的运维工具进行交互,把后果应用更容易了解和承受的自然语言反馈给用户。这里答复下后面我提出的问题:运维大语言模型与AIOps的关系是什么?能够认为大语言模型是实现AIOps的必要和无效的一种伎俩,同时跟已有的工具能够对接能够互补的一个关系。 前我的次要的观点总结成这样的一幅架构图。 运维大模型是一个交融的模型,它涵盖如下几个局部:首先,运维大语言模型(懂运维的大语言模型)是整个架构的外围根底。其次,在架构上辨别公域和私域的运维能力,公域的局部尽量做好,私域局部也尽量不依赖于那些品质、标准化水平、数量参差不齐的问题。 运维大语言模型:外面蕴含运维的常识图谱、混合的专家模型和开源的大语言模型的底座。底座局部尽量松耦合一些,借助流水线的工具,从而达到可替换可迭代、继续演进。 多模态根底模型群:运维数据是多模态的,目前的大语言模型的成果还有待改良,如果咱们想充分利用大模型的能力,能够在每一种模态的数据外面做根底模型,比方咱们在日志方面曾经做了基于transformers的架构,在指标方面基于transformers的架构做一些根底模型的尝试。 根底模型编程框架:基于编程框架可能把这些已有的工具和新的工具串联在一起,更好地实现运维场景的智能化。 对于运维大模型利用,运维专家常识的问答可能是最间接的一个利用,基于上述能力和工具,再外挂一些常识就能间接应用。不必对接实时的监控数据,也不必思考监控数据的品质问题,这是一个短期内能够落地的利用。咱们还能够基于绝对丰盛的私域语料做一些尝试、单个运维工具的交互加强也是能够尝试的,前提是咱们运维大语言模型进化到肯定水平,而后从自然语言到各种模板API的调用(Lang2Template),最终用根底的编程框架(LangChain/APIChain等)对经典运维工具进行编排调用,实现更简单运维工作。 这是我目前对运维大模型的一些了解,谢谢大家。

August 30, 2023 · 1 min · jiezi

关于运维:Linux系统之安装Linux管理工具inpanel

@TOC 一、inpanel介绍1.inpanel简介inpanel是一个基于Web的Linux开源管理工具。这个我的项目的指标是做出最简略、最疾速、最无痛的 Linux VPS 治理形式。2.inpanel特点收费、简略、开源疾速在线装置、玲珑与节俭资源以后反对CentOS/Redhat 5.4+、6.x、7.x、8.x基于公布版本软件源的软件管理机制轻松架构 Linux + Nginx + MySQL + PHP 环境弱小的在线文件治理和回收站机制作疾速创立和装置多种站点丰盛实用的零碎工具二、查看本地零碎环境1.查看零碎版本[root@ecs-ffcd ~]# cat /etc/os-release NAME="CentOS Linux"VERSION="7 (Core)"ID="centos"ID_LIKE="rhel fedora"VERSION_ID="7"PRETTY_NAME="CentOS Linux 7 (Core)"ANSI_COLOR="0;31"CPE_NAME="cpe:/o:centos:centos:7"HOME_URL="https://www.centos.org/"BUG_REPORT_URL="https://bugs.centos.org/"CENTOS_MANTISBT_PROJECT="CentOS-7"CENTOS_MANTISBT_PROJECT_VERSION="7"REDHAT_SUPPORT_PRODUCT="centos"REDHAT_SUPPORT_PRODUCT_VERSION="7"2.查看零碎内核版本[root@ecs-ffcd ~]# uname -r 3.10.0-1160.53.1.el7.x86_64三、下载inpanel软件包1.创立下载目录[root@ecs-ffcd ~]# mkdir -p /data/inpanel[root@ecs-ffcd ~]# cd /data/inpanel/[root@ecs-ffcd inpanel]#2.下载inpanel软件[root@ecs-ffcd inpanel]# git clone https://github.com/inpanel/inpanel.gitCloning into 'inpanel'...remote: Enumerating objects: 4634, done.remote: Counting objects: 100% (847/847), done.remote: Compressing objects: 100% (334/334), done.remote: Total 4634 (delta 530), reused 772 (delta 480), pack-reused 3787Receiving objects: 100% (4634/4634), 3.32 MiB | 0 bytes/s, done.Resolving deltas: 100% (3239/3239), done.3.查看源码inpanel文件[root@ecs-ffcd inpanel]# cd inpanel/[root@ecs-ffcd inpanel]# lltotal 76-rw-r--r-- 1 root root 13223 Jan 15 13:34 CHANGELOG.md-rwxr-xr-x 1 root root 3068 Jan 15 13:34 config.pydrwxr-xr-x 4 root root 4096 Jan 15 13:34 coredrwxr-xr-x 2 root root 4096 Jan 15 13:34 data-rw-r--r-- 1 root root 14982 Jan 15 13:34 install.pydrwxr-xr-x 3 root root 4096 Jan 15 13:34 lib-rw-r--r-- 1 root root 1667 Jan 15 13:34 LICENSEdrwxr-xr-x 4 root root 4096 Jan 15 13:34 plugins-rw-r--r-- 1 root root 1928 Jan 15 13:34 README.mddrwxr-xr-x 5 root root 4096 Jan 15 13:34 scripts-rwxr-xr-x 1 root root 3369 Jan 15 13:34 server.pydrwxr-xr-x 7 root root 4096 Jan 15 13:34 static-rw-r--r-- 1 root root 1647 Jan 15 13:34 TODOLIST.md四、部署inpanel利用1.一键装置inpanel间接应用python一键装置inpanelpython install.py[root@ecs-ffcd inpanel]# python install.pyPlatform centos 7.6.1810 [Linux]* Checking Platform... centos ...OKPackage epel-release-7-14.noarch already installed and latest versionPackage wget-1.14-18.el7_6.1.x86_64 already installed and latest versionPackage net-tools-2.0-0.25.20131004git.el7.x86_64 already installed and latest versionPackage 2:vim-enhanced-7.4.629-8.el7_9.x86_64 already installed and latest versionPackage psmisc-22.20-17.el7.x86_64 already installed and latest versionPackage rsync-3.1.2-12.el7_9.x86_64 already installed and latest versionPackage GeoIP-1.5.0-14.el7.x86_64 already installed and latest versionDelta RPMs disabled because /usr/bin/applydeltarpm not installed.* Install Dependent Software... [ OK ]* Current Python Version is [2.7] ... [ OK ]Loaded plugins: fastestmirrorLoading mirror speeds from cached hostfilePackage git-1.8.3.1-23.el7_8.x86_64 already installed and latest versionNothing to do* Install GIT ... [ OK ]* Installing InPanelRepository : https://github.com/inpanel/inpanel.gitBranch : mainInstall path : /usr/local/inpanelCloning into '/usr/local/inpanel'...remote: Enumerating objects: 4634, done.remote: Counting objects: 100% (847/847), done.remote: Compressing objects: 100% (334/334), done.remote: Total 4634 (delta 531), reused 772 (delta 480), pack-reused 3787Receiving objects: 100% (4634/4634), 3.32 MiB | 5.04 MiB/s, done.Resolving deltas: 100% (3240/3240), done.Admin Username [default: admin]: Admin Password [default: admin]: * Username and password set successfully!InPanel Port [default: 8888, minimum: 5000]: * InPanel will work on port "8888"FirewallD is not running* Config firewall... [ OK ]Starting inpanel (via systemctl): [ OK ]============================* ** INSTALL COMPLETED ** *============================The URL of your InPanel is: http://119.8.186.24:8888/Username is: adminPassword is: adminWish you a happy life !2.查看服务端口[root@ecs-ffcd inpanel]# netstat -tunlp |grep 8888tcp 0 0 0.0.0.0:8888 0.0.0.0:* LISTEN 18207/python tcp6 0 0 :::8888 :::* LISTEN 18207/python 五、敞开防火墙和selinux敞开selinuxsed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/configsetenforce 0敞开防火墙systemctl stop firewalld && systemctl disable firewalld六、拜访inpanel治理面板1.登录inpanelhttp://119.8.186.24:8888/#/admin/admin ...

August 29, 2023 · 2 min · jiezi

关于运维:ManageEngine-ServiceDesk-Plus之CVE漏洞

什么是CVE? CVE的英文全称是“Common Vulnerabilities & Exposures”即通用破绽披露,CVE像是一个字典表,为宽泛认同的信息安全破绽给出一个公共的名称。 应用一个公共名称,能够帮忙用户在各自独立的各种破绽数据库中共享数据,这就使得CVE成为了平安信息共享的“关键词”,如果在一个破绽报告中指明的一个破绽有CVE名称,那么就能够疾速地在任何其它CVE兼容的数据库中找到相应修补的信息,并解决平安问题。 网传ManageEngine ServiceDesk Plus受到某骇客组织的CVE破绽,并筹备用于分布恶意程序? 思科发现了该骇客组织的指标是欧洲和美国的互联网基础设施和医疗实体,该流动屡次被记录。而在本次流动中,公开披露该CVE ID破绽为CVE-2022-47966,并筹备利用ManageEngine ServiceDesk Plus提供和部署恶意软件威逼,但截止2023年的明天,业内还没有对于 CVE-2022-47966已被歹意利用的报告。 CVE恶意软件文件要小很多,而破绽注入都建设在QT框架之上,并蕴含任意命令执行等性能。 骇客组织利用QT框架给防御者带来了挑战,它减少了恶意软件代码的复杂性,人工剖析更加艰难。此外,因为QT框架很少用于恶意软件开发,因而针对此类型威逼的AI剖析和启发式剖析检测也不太牢靠。 但值得注意的是,ManageEngine在2022年12月,曾经针对CVE-2022-47966破绽陆续公布了已修复的版本,且时刻关注最新的CVE破绽并进行修复! 而还未降级的用户应尽快降级版本,防止受到此类CVE的影响。 ManageEngine ServiceDesk Plus从根本上转变了IT部门的工作模式,它为IT问题的解决提供超强的可视性和集中控制力,将IT服务治理从救火式的抢修模式降级为针对IT的隐患预防,防止组织机构业务经验宕机等严重事故,进步整个IT团队的生产效率,进而改善最终用户的满意度。 16年来,ServiceDesk Plus曾经帮忙数以百万计的IT人员、最终用户和利益相关者晋升和优化IT服务质量。

August 29, 2023 · 1 min · jiezi

关于运维:直播回顾-一体化智能可观测平台助力车企数智化转型

8月24日,博睿数据主办的《"车程ONE里,高枕无忧" - 可观测性在汽车行业的利用与倒退网络分享会》开播,邀请了博睿数据全国汽车行业负责人吴伟硕和博睿数据资深技术专家向涛做客直播间,分享汽车企业数字化转型的故事,探讨可观测性如何帮忙企业应答新技术带来的运维压力,实现降本增效?*点击右侧链接观看直播回放https://host.huiju.cool/p/04aed0 汽车企业数字化转型降级的那些事儿· 车企数字化转型降级的难点会议伊始,吴伟硕便分享了一些由汽车企业IT负责人自述的车企数字化转型过程中遇到的难点。企业的数字化转型是不可避免的时代趋势,但想要真正实现企业的数字化转型并非易事,这是一个须要从上至下,从部门内到跨部门,全公司一心同体来共同完成的工作。 · 车企数字化转型方向吴伟硕展现了华为的数字化转型4A架构,无论是利用架构、数据架构还是技术架构,都是在为业务服务。为了更好地实现车联网,企业须要思考搭建云原生架构实现麻利开发,或者革新现有架构引入微服务性能,但系统结构的复杂度晋升会带来数据繁琐、依赖关系简单的问题。而此时可观测性的存在可能帮忙企业明确不同模块的调用关系,横向买通数据,纵向撑持业务。 · 车企与可观测性在可观测性成熟度的等级评估中,四个阶段别离是监测、可观测性、有因果关系的可观测性和具备AIOps的被动可观测性。因为汽车企业有很多非云原生的环境,环境成分简单,有因果关系的可观测性和具备AIOps 的被动可观测性产品更可能帮忙汽车企业构建牢靠的IT零碎。博睿数据的一体化智能可观测平台Bonree ONE,具备AIOps被动可观测能力,不仅可能实现从日志、链路、指标、实体关系拓扑的全栈端到端调用链,还具备对立数据集成能力,集成第三方数据无效关联造成丰盛可了解的上下文,实现异样检测与利用的同时还能预测剖析与利用,做到根因与告警同步收敛。同时,博睿数据器重用户旅程,帮忙车企观测和还原用户旅程,从业务端登程帮忙企业实现业务转型。 智能可观测性助力车企转型接下来,资深技术专家向涛向大家分享了数智化转型驱动下,如何用一体化智能可观测平台解决IT运维面临的挑战,更好地用数据驱动业务,晋升用户体验。 · 数字化转型晋升车企运维治理复杂性目前,汽车行业呈回暖趋势,数字化和智能化模式在汽车消费市场的占比越来越重,智能化需要晋升,保障用户体验,晋升用户体验感愈发重要。但在新技术和新业务的驱动下,企业开发模式、零碎架构和部署模式一直优化,让零碎变得复杂,企业须要提供更多的资源和人力来实时观测业务环节的撑持节点,感知节点上下游之间的分割以维持整个业务运行环境的稳固。 · 智能可观测平台的作用可观测性的呈现即是为了解决企业一直增长的零碎运行保护压力,从硬件到软件、从主机到零碎、从用户到业务,同时进行联邦治理。博睿数据的一体化智能可观测平台Bonree ONE,可能实现从指标、日志、调用链到用户旅程全栈端到端监测,帮忙企业夯实运维数据底座。以车主APP为例,Bonree ONE通过可观测能力实时展现以后用户的残缺用户旅程,展现用户APP中的所有拜访性能数据和异样数据,将每一步骤操作设计的对象、性能和加载状况实时展现,帮忙企业疾速定位故障,通过对用户旅程不同节点的实时监控和观测,帮忙企业搭建IT部门和业务部门之间的桥梁,升高部门间沟通老本,让零碎更好地服务业务。博睿数据专一赋能企业数智化转型15年,始终秉承“客户第一”的理念,已取得北汽团体、广汽本田、东风柳汽等多家车企的信赖与抉择,博睿数据一体化智能可观测平台Bonree ONE的当先能力,将帮忙企业晋升零碎稳定性与IT运维效率,助力企业数智化转型,抢占数字经济先机。

August 29, 2023 · 1 min · jiezi

关于运维:性能专家深度解读常见的压测模型

本文介绍了几大性能测试场景,对压力测试相干指标、资源的估算模型进行了解析,并深度剖析了常见压测模型实用的业务场景及需思考的技术细节,让您在应用压测验证零碎能力时不再迷茫。 一、性能测试场景1.冒烟测试 介绍:冒烟测试是惯例的负载测试,配置为最小负载(1个VU),每次新增或者更改脚本,你能够利用冒烟测试作为完整性检查。目标:验证测试脚本没有执行谬误,验证服务端在最小负载下不会呈现谬误。2.负载测试 介绍:负载测试次要关注在失常并发用户数或者固定rps 下评估零碎的性能,失常会采纳满负载的50%~70%长时间的运行,两头会减少几个坡度变动来察看零碎反馈。目标:评估零碎在肯定负载下的性能,确认零碎的重构、更改不会造成零碎重大性能问题。3.压力测试 介绍:在高负载的压力下,评估零碎的可用性和稳定性。压力测试下又细分为:阶梯测试(多阶梯渐进达到最大压力)、尖峰测试(短时间内极其的负载)、峰值- 测试(1分钟的低负载,达到高负载,再消退)。目标:1)用于评估零碎在用户或者吞吐量的最大容量值。2)确认零碎在高负载状况下的资源指标体现。3)确认零碎的熔断机制以及是否具备故障主动发现、复原的模式。4)人工干预的流程演练,如何疾速定位、降级、打消故障范畴。4.浸泡测试 介绍:浸泡测试配置为零碎容量的80%左右,并且尽量以小时为单位。目标:在长时间处于高压力状态下,发现零碎的谬误和可靠性问题,通常用于疾速定位内存透露、句柄开释、查找并发锁竞争问题。二、性能测试场景压测指标估算模型:假如一个脚本执行耗时500ms,一个线程一秒能执行2次,一个线程可能造成2rps的压力,因而工作线程数会间接影响申请的吞吐量。假如一个脚本执行耗时2秒,100个线程在第一秒能造成100个申请的压力,均匀一秒50个申请,然而跟50rps是有基本的区别,申请的时间跨度不统一。pod资源估算模型:一个并发用户=一个VU=一个线程/协程假如一个并发用户在golang运行对应是一个协程,一次脚本执行可能包含该用户的屡次接口申请,一次申请须要进行socket连贯,这里须要确认每次申请是否进行连贯复用。golang创立一个协程资源只需2KB资源,协程的切换老本比拟低(只须要三个寄存器的值批改 PC / SP / DX),然而如果禁用了连贯复用,每次申请须要创立新的连贯,对pod的资源耗费是极大的。 操作系统linux优化网络配置: sysctl -w net.ipv4.ip_local_port_range="1024 65535" sysctl -w net.ipv4.tcp_tw_reuse=1 sysctl -w net.ipv4.tcp_timestamps=1 ulimit -n 250000 三、罕用压测模型罕用的压测模型次要包含两种,并发用户模型、固定rps模型。 并发用户模型用于模仿用户继续阶段增长阶段,用于验证服务端的负载一直增长或者流量减缓的前提下,性能指标的变动。 固定rps指标通常是由业务方依据流动波峰估算后须要达到的服务rps容量,因而失常只须要掂量在该rps压力,服务的负载(包含latency、cpu、memory、iostat等负载)是否失常以及链路危险。 在模仿实在流量大容量压测场景下,存在几个问题: 用户IP来自寰球各地,如何设置ip池,防止因为负载平衡导致的流量散布不平均。如何依照用户地区的实在流量来调配发压机(对应k8s的pod)流量占比。采纳rps压测模型下,因为网络的抖动以及跨idc的带宽差别,不同地区雷同数量的VU造成的rps差别会比拟大,并且脚本的申请耗时越低,这个差别越会被放大。排除用户自定义黑白名单限度。须要思考的细节点: 一个用户申请10次,10个用户申请1次,同样是造成10rps的压力,然而对服务端的资源耗费不同,10个用户可能存在10条长连贯。假如实在用户是端上用户,browse会采纳http2连贯复用技术,如何在同一条tcp连贯进行申请的模仿、编排,当然非凡场景下可能会存在短链接场景。同一个用户(uid标记)屡次申请同一个接口,可能命中缓存,不能实在的模仿不同用户的并发场景,须要提供大量的测试数据账号。分布式场景下,须要摸顶每个pod(假如是4C8G)能启动的最大并发线程/协程数。并发用户模型,绝对简略,通过平均切片用户设置的并发用户数指标,并且依照地区流量比例下发到各个地区的pod。固定rps模型,须要设置初始的用户线程数,因为每个pod每个地区存在网络抖动,每个线程数能造成的rps压力也在浮动,存在两个技术计划——前提:先通过短时间小范畴的预压测,摸底每个地区pod单个线程执行脚本能造成的rps压力,可能提供精准的时延数据供operator计算调度。 用户设置的rps指标间接切片到各个pod,假如每个pod误差不大并且在负载范畴内,可能达到用户设置的rps指标。 长处:实现简略。 毛病:存在些许误差,容错能力、扩大能力差。预设初始每个pod的并发用户数,每个pod上报申请次数到全局限流中间件限流,operator依据聚合的指标依照pod资源粒度进行弹性扩缩容,最终达到rps指标。 长处:具备主动容错机制,运行中反对全局动静调度。 毛病:减少了第三方组建依赖,调度实现简单。四、优测压力测试简介优测压力测试是一款云原生性能测试工具,可模仿百万用户发压,反对单接口、全链路及JMeter压测。提供多维度性能测试报告,帮忙业务疾速定位产品性能瓶颈、精确验证零碎能力,全面晋升稳定性。

August 29, 2023 · 1 min · jiezi

关于运维:Pingmesh在大规模系统中对多个数据中心环境下进行网络延迟的测量与分析方法

背景在咱们外部产品中,始终有对于网络性能数据监控需要,咱们之前是间接应用 ping 命令收集后果,每台服务器去 ping (N-1) 台,也就是 N^2 的复杂度,稳定性和性能都存在一些问题,最近打算对这部分进行重写,在从新调研期间看到了 Pingmesh 这篇论文,Pingmesh 是微软用来监控数据中心网络状况而开发的软件,通过浏览这篇论文来学习下他们是怎么做的。 数据中心本身是极为简单的,其中网络波及到的设施很多就显得更为简单,一个大型数据中心都有成千盈百的节点、网卡、交换机、路由器以及有数的网线、光纤。在这些硬件设施根底上构建了很多软件,比方搜索引擎、分布式文件系统、分布式存储等等。在这些零碎运行过程中,面临一些问题:如何判断一个故障是网络故障?如何定义和追踪网络的 SLA?出了故障如何去排查? 基于这几点问题,微软设计开发了 Pingmesh,用来记录和剖析数据中心的网络状况。在微软外部 Pingmesh 每天会记录 24TB 数据,进行 2k 亿次 ping 探测,通过这些数据,微软能够很好的进行网络故障断定和及时的修复。 数据中心网络常见的数据中心网络拓扑: 网络延时计算形式:server A 发送音讯到 server B 承受音讯的工夫。最终应用 RTT 工夫,RTT 一个益处是相对工夫,与时钟不相干。 在大多数状况下,大家不会去关怀延时具体是什么导致的,都是间接归纳于网络起因,让网络团队去排查,实际上是节约了很多人力老本。延时变高有很多起因:CPU 忙碌、服务本身 Bug、网络起因等等。往往丢包会随同着延时升高,因为丢包意味着会产生重传,所以丢包也是须要察看的重点。 因为 Pingmesh 运行在微软外部,所以依靠于微软本人的基础架构,有自动化管理系统 Autopilot,有大数据系统 Cosmos,也有相似于 SQL 的脚本语言 SCOPE。 设计依据下面的需要,Pingmesh 先评估了现有的开源工具,不合乎的起因有很多,大多数工具都是以命令行模式出现,个别是呈现故障了去应用工具排查,而且工具提供的数据也不全面,有可能正在运行工具问题曾经解决了。当然这并不是说已有的工具没有用,只能说不适宜 Pingmesh。 Pingmesh 是松耦合设计,每个组件都是能够独立运行的,分为 3 个组件。在设计的时候须要思考几点: 因为要运行在所有的 server 上,所以不能占用太多的计算资源或网络资源须要是灵便配置的且高可用的的记录的数据须要进行正当的汇总剖析Pingmesh 架构设计: ControllerController 次要负责生成 pinglist 文件,这个文件是 XML 格局的,pinglist 的生成是很重要的,须要依据理论的数据中心网络拓扑进行及时更新。 在生成 pinglist 时, Controller 为了防止开销,分为3 个级别: ...

August 29, 2023 · 2 min · jiezi

关于运维:Linux系统之安装java开发环境

@TOC 一、java介绍1.java简介1.Java 是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 面向对象程序设计语言和 Java 平台的总称。由 James Gosling和共事们独特研发,并在 1995 年正式推出,起初 Sun 公司被 Oracle (甲骨文)公司收买,Java 也随之成为 Oracle 公司的产品。2.Java是一种通用的,基于类的,面向对象的编程语言。它是用于利用程序开发的计算平台。因而,Java是疾速,平安和牢靠的。2.java的三大平台Java SE:Java 语言的(标准版),用于桌面利用的开发,是其余两个版本的根底。Java ME:Java 语言的(小型版),用于嵌入式消费类电子设备(根本淘汰)。Java EE:Java 语言的(企业版),用于 Web 方向的网站开发。3.java的次要个性Java 语言是简略的Java 语言是面向对象的Java语言是分布式的Java 语言是强壮的Java 语言是体系结构中立的Java语言是平安的Java 语言是可移植的Java 语言是解释型的Java 是高性能的Java 语言是多线程的Java 语言是动静的二、查看本地零碎环境1.查看零碎版本查看本地零碎版本,本次实际应用的是centos7.6版本。[root@jeven ~]# cat /etc/centos-releaseCentOS Linux release 7.6.1810 (Core)2.查看零碎内核版本查看零碎内核版本[root@jeven ~]# uname -r 6.1.8-1.el7.elrepo.x86_64三、清空java环境1.删除java目录查问java所在位置[root@jeven ~]# which java/usr/bin/java删除java[root@jeven ~]# rm -rf /usr/bin/java[root@jeven ~]# java -versionbash: java: command not found...2.移除所有java相干包卸载所有java相干的软件 yum -y remove *java*3.清空java环境变量在/etc/profile等环境变量文件中,删除java相干环境变量。四、应用yum装置java1.搜寻本地java软件版本查看java是否装置[root@jeven ~]# rpm -qa | grep java[root@jeven ~]# 搜寻java的jdk版本[root@jeven ~]# yum list | grep java-1.8.0-openjdkjava-1.8.0-openjdk.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk.x86_64 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-accessibility.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-accessibility.x86_64 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-demo.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-demo.x86_64 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-devel.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-devel.x86_64 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-headless.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-headless.x86_64 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-javadoc.noarch 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-javadoc-zip.noarch 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-src.i686 1:1.8.0.362.b08-1.el7_9 updates java-1.8.0-openjdk-src.x86_64 1:1.8.0.362.b08-1.el7_9 updates 2.装置java装置的版本为java-1.8.0-openjdk-devel.x86_64yum install java-1.8.0-openjdk-devel.x86_64 -y3.配置环境变量在etc/profile中配置java环境AVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.362.b08-1.el7_9.x86_64/JRE_HOME=$JAVA_HOME/jreCLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/libPATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/binexport JAVA_HOME JRE_HOME CLASS_PATH PATH使java相干变量失效[root@jeven ~]# source /etc/profile[root@jeven ~]# 4.查看java版本查看java版本[root@jeven lib]# java -versionopenjdk version "1.8.0_362"OpenJDK Runtime Environment (build 1.8.0_362-b08)OpenJDK 64-Bit Server VM (build 25.362-b08, mixed mode)[root@jeven lib]# javacUsage: javac <options> <source files>where possible options include: -g Generate all debugging info -g:none Generate no debugging info -g:{lines,vars,source} Generate only some debugging info -nowarn Generate no warnings -verbose Output messages about what the compiler is doing -deprecation Output source locations where deprecated APIs are used -classpath <path> Specify where to find user class files and annotation processors -cp <path> Specify where to find user class files and annotation processors -sourcepath <path> Specify where to find input source files -bootclasspath <path> Override location of bootstrap class files -extdirs <dirs> Override location of installed extensions -endorseddirs <dirs> Override location of endorsed standards path -proc:{none,only} Control whether annotation processing and/or compilation is done. -processor <class1>[,<class2>,<class3>...] Names of the annotation processors to run; bypasses default discovery process -processorpath <path> Specify where to find annotation processors -parameters Generate metadata for reflection on method parameters -d <directory> Specify where to place generated class files -s <directory> Specify where to place generated source files -h <directory> Specify where to place generated native header files -implicit:{none,class} Specify whether or not to generate class files for implicitly referenced files -encoding <encoding> Specify character encoding used by source files -source <release> Provide source compatibility with specified release -target <release> Generate class files for specific VM version -profile <profile> Check that API used is available in the specified profile -version Version information -help Print a synopsis of standard options -Akey[=value] Options to pass to annotation processors -X Print a synopsis of nonstandard options -J<flag> Pass <flag> directly to the runtime system -Werror Terminate compilation if warnings occur @<filename> Read options and filenames from file五、二进制包装置java1.下载java软件包java下载地址:https://www.oracle.com/java/technologies/downloads/#java8 ...

August 29, 2023 · 3 min · jiezi

关于运维:Linux系统之部署Ajenti服务器管理面板

@TOC 一、Ajenti介绍1.Ajenti简介Ajenti是一款开源的Linux服务器治理面板,采纳Python架构,能够应用插件的形式配置Apache 、Cron工作打算、文件系统、防火墙、MySQL 、Nginx 、Munin 、Samba 、FTP等工具利用。2.Ajenti性能易于装置:Ajenti 2能够通过pip和提供的脚本轻松装置。现有配置:无需任何筹备,即可获取以后配置并按原样在现有零碎上工作。关心:不会笼罩您的配置文件,选项和正文。所有更改都是非破坏性的。包含的电池:包含许多用于零碎和软件配置,监督和治理的插件。可扩大:应用Python能够轻松扩大Ajenti 2。应用Ajenti API,插件开发是一个疾速而欢快的过程。编写您的第一个插件。古代格调:悦人的外观,令人满意的点击成果,可从平板电脑和手机随时随地拜访。轻量级:较小的内存占用空间和CPU使用率。在低端机器,墙上插头,路由器等上运行。二、本地环境规划本地实际环境规划介绍hostnameIP地址操作系统版本jeven192.168.3.166centos 7.6三、部署前环境筹备工作1.查看本地操作系统版本查看本地操作系统版本,本次实际应用的是centos7.6 版本。[root@jeven ~]# cat /etc/centos-releaseCentOS Linux release 7.6.1810 (Core) 2.查看yum仓库镜像源配置阿里的镜像源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup #备份yum仓库文件curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo # 配置ali镜像源sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-Base.repo #替换地址查看本地yum仓库各镜像源状态[root@jeven ~]# yum repolist all |grep enable !ajenti/7/x86_64 Ajenti enabled: 158!base/7/x86_64 CentOS-7 - Base - mirr enabled: 10,072!docker-ce-stable/7/x86_64 Docker CE Stable - x86 enabled: 223!elrepo ELRepo.org Community E enabled: 145!epel/x86_64 Extra Packages for Ent enabled: 13,770!extras/7/x86_64 CentOS-7 - Extras - mi enabled: 515!mysql-connectors-community/x86_64 MySQL Connectors Commu enabled: 213!mysql-tools-community/x86_64 MySQL Tools Community enabled: 96!mysql57-community/x86_64 MySQL 5.7 Community Se enabled: 642!pgdg-common/7/x86_64 PostgreSQL common RPMs enabled: 404!pgdg11/7/x86_64 PostgreSQL 11 for RHEL enabled: 1,457!pgdg12/7/x86_64 PostgreSQL 12 for RHEL enabled: 1,079!pgdg13/7/x86_64 PostgreSQL 13 for RHEL enabled: 831!pgdg14/7/x86_64 PostgreSQL 14 for RHEL enabled: 560!pgdg15/7/x86_64 PostgreSQL 15 for RHEL enabled: 271!remi-safe Safe Remi's RPM reposi enabled: 5,146!updates/7/x86_64 CentOS-7 - Updates - m enabled: 4,886四、部署Ajenti服务器治理面板1.Ajenti官网官网地址:https://ajenti.org/2.其余操作系统部署形式centos6curl https://raw.githubusercontent.com/Eugeny/ajenti/master/scripts/install-rhel.sh | shcentos7curl https://raw.githubusercontent.com/Eugeny/ajenti/master/scripts/install-rhel7.sh | shdebian6wget -O- https://raw.github.com/Eugeny/ajenti/master/scripts/install-debian.sh | shUbuntuwget -O- https://raw.github.com/Eugeny/ajenti/master/scripts/install-ubuntu.sh | sudo sh3.部署Ajenti在本地间接部署署Ajenti,装置胜利会有如下提醒。curl https://raw.githubusercontent.com/Eugeny/ajenti/master/scripts/install-rhel7.sh | sh ...

August 28, 2023 · 1 min · jiezi

关于运维:Linux系统之普通用户sudo提权配置

@TOC 一、查看本地零碎版本查看本地环境的操作系统版本,本次实际为centos7.6版本。[root@docker ~]# cat /etc/os-release NAME="CentOS Linux"VERSION="7 (Core)"ID="centos"ID_LIKE="rhel fedora"VERSION_ID="7"PRETTY_NAME="CentOS Linux 7 (Core)"ANSI_COLOR="0;31"CPE_NAME="cpe:/o:centos:centos:7"HOME_URL="https://www.centos.org/"BUG_REPORT_URL="https://bugs.centos.org/"CENTOS_MANTISBT_PROJECT="CentOS-7"CENTOS_MANTISBT_PROJECT_VERSION="7"REDHAT_SUPPORT_PRODUCT="centos"REDHAT_SUPPORT_PRODUCT_VERSION="7"二、创立redhat普通用户1.创立redhat用户[root@docker ~]# useradd redhat2.为redhat用户设置明码[root@docker ~]# passwd redhatChanging password for user redhat.New password: BAD PASSWORD: The password is shorter than 8 charactersRetype new password: passwd: all authentication tokens updated successfully.3.查问创立用户相干命令的绝对路径[root@docker ~]# which useradd /usr/sbin/useradd[root@docker ~]# which passwd /usr/bin/passwd[root@docker ~]# which userdel /usr/sbin/userdel三、编辑/etc/sudoers文件[root@docker ~]# vim /etc/sudoers[root@docker ~]# grep redhat /etc/sudoersredhat ALL=(ALL) /usr/sbin/useradd,/usr/bin/passwd,/usr/sbin/userdel四、查看redhat用户权限1.切换到redhat用户[root@docker ~]# su - redhat[redhat@docker ~]$ 2.新建huawei账号[redhat@docker ~]$ sudo useradd huaweiWe trust you have received the usual lecture from the local SystemAdministrator. It usually boils down to these three things: #1) Respect the privacy of others. #2) Think before you type. #3) With great power comes great responsibility.[sudo] password for redhat: 3.查看新创建用户[redhat@docker ~]$ id huaweiuid=1002(huawei) gid=1002(huawei) groups=1002(huawei)4.为huawei账号设置明码[redhat@docker ~]$ sudo passwd huaweiChanging password for user huawei.New password: BAD PASSWORD: The password is shorter than 8 charactersRetype new password: passwd: all authentication tokens updated successfully.5.删除huawei账号[redhat@docker ~]$ sudo userdel huawei[redhat@docker ~]$ id huaweiid: huawei: no such user五、批量用户受权1.设置别名[root@docker ~]# grep -Evn '^#|^$|^##' /etc/sudoers22:User_Alias ADMINS = zhangsan, lisi30:Cmnd_Alias USERTEST = /usr/sbin/useradd, /usr/bin/passwd, /usr/sbin/userdel 59:Defaults !visiblepw68:Defaults always_set_home69:Defaults match_group_by_gid77:Defaults always_query_group_plugin79:Defaults env_reset80:Defaults env_keep = "COLORS DISPLAY HOSTNAME HISTSIZE KDEDIR LS_COLORS"81:Defaults env_keep += "MAIL PS1 PS2 QTDIR USERNAME LANG LC_ADDRESS LC_CTYPE"82:Defaults env_keep += "LC_COLLATE LC_IDENTIFICATION LC_MEASUREMENT LC_MESSAGES"83:Defaults env_keep += "LC_MONETARY LC_NAME LC_NUMERIC LC_PAPER LC_TELEPHONE"84:Defaults env_keep += "LC_TIME LC_ALL LANGUAGE LINGUAS _XKB_CHARSET XAUTHORITY"92:Defaults secure_path = /sbin:/bin:/usr/sbin:/usr/bin104:root ALL=(ALL) ALL105:redhat ALL=(ALL) /usr/sbin/useradd,/usr/bin/passwd,/usr/sbin/userdel112:%wheel ALL=(ALL) ALL ...

August 28, 2023 · 3 min · jiezi

关于运维:腾讯云认证的基础认证适合什么人群考试内容是什么

内卷曾经成为了当初社会的常态,很多想要有良好倒退的人都会抉择考一份证书来晋升本人的职业竞争力,然而在踏入社会后才考据曾经落后一步,很多在校学生,或者刚刚毕业的学生会抉择考绝对应的证书来给本人的将来添砖加瓦。腾讯云认证是一项设立较早,受众群体宽泛,等级明显的证书,其根底认证恰好适宜基础薄弱、没有工作教训的人,上面大使简略介绍一下,有须要人能够在[认证大使](https://www.ls102.com/adbout)上具体理解。 腾讯云根底认证概述 腾讯云从业者培训是面向于云计算初学者的根底课程。云从业者培训从时下炽热的音视频场景登程,从大家相熟的业务开始,逐渐探寻背地的技术实现;通过更晦涩且富裕逻辑的课程设计,将扩散的技术常识有机串联起来;在系统性介绍腾讯云次要产品和服务的同时,还介绍了相干的根底技术常识,由浅入深,涵盖腾讯云次要外围产品的性能、个性、利用场景、计费规定以及应用条件,搭配上简略易上手的上机试验,让学员疾速把握云计算基础知识之外,还会取得云计算初体验的机会,无技术门槛,实用于所有云计算初学者。 腾讯云云从认证内容 1、云计算概述常见互联网业务利用架构介绍、云计算行业倒退概述、腾讯云概述。 2、腾讯云服务器产品云服务器基础知识、腾讯云服务器产品介绍、弹性计算产品介绍。 3、腾讯云网络产品网络基础知识、腾讯云公有网络及网络接入形式、腾讯云负载平衡。 4、腾讯云存储产品存储基础知识、腾讯云存储产品与服务介绍。 5、腾讯云数据库产品数据库基础知识,腾讯云数据库产品介绍。 6、企业应用产品企业应用建站基础知识、腾讯企业应用产品、腾讯云减速产品介绍。 7、腾讯云音视频与通信服务音视频基础知识与行业详情、腾讯云音视频产品、腾讯云通信服务。 8、腾讯云平安产品信息安全威逼与防护基础知识、腾讯云信息安全体系及重点产品介绍。 9、腾讯云产品计费腾讯云计费个性、计费模式介绍、罕用产品计费详解、产品计费示例。 10、持续学习腾讯云学习工具介绍、课程定位与集体倒退。 报名费用:600元考试时长:90分钟考试总分:100分考试题型:单选题60道+多选题20道通过条件:70分及以上

August 28, 2023 · 1 min · jiezi

关于运维:怎么建设ITIIL运维管理体系

市场上大多数ITIL解决方案都过于简单,让咱们举一个客户心愿施行ITIL计划的例子。首先,客户要通过ITIL征询来定义ITIL流程,并使其与业务指标保持一致。接下来就是购买ITIL软件;大多数ITIL解决方案将事件、问题和变更治理作为不同的模块来提供。即便在抉择了软件之后,产品参谋也须要数月的工夫来施行这个过程。施行ITIL解决方案的老本和工夫因素使中小型企业望而生畏。 ManageEngine的工作是简化ITIL,让每个业务都能从中受害。ManageEngine自动化了ITIL服务反对,不须要很高的ITIL征询或定制老本。装置产品时,您将取得基于CMDB构建的,蕴含事件、问题、更改和公布治理的ITIL服务反对框架。您从第一天开始,就能够通过起码的配置来满足您的需要。 在20世纪80年代中期ITIL定义,它是一个治理IT经营和服务的最佳实际框架。ITIL的次要指标是协调业务和信息技术,容许组织施行与其业务相干的内容。ITIL是一个记录在案的常识,这些常识来自世界各地的帮忙台经理多年来的理解。 ITIL不是简单严格的流程图,您不该遵循他人的流程或某本书中定义的流程。当学习ITIL时,不须要为所有模块绘制具体的流程图,而应该征询参谋它们是否合乎ITIL标准。如果参谋不理解您的反对是如何运作的,就无奈帮忙您。 ITIL服务反对将是咱们的重点,现在,IT帮忙台是任何企业(无论大小)的生命线,大多数IT经理和帮忙台经理都在致力寻找一个高效的帮忙台。这里,咱们来聚焦这个问题。因为ITIL服务反对为IT帮忙台提供了最佳实际框架,让咱们看看ITIL如何帮忙帮忙经理和IT经理。ITIL的IT服务反对模块提供了确保IT服务高度可用的最佳实际。ManageEngine ServiceDesk Plus正贯彻执行了这些IT服务反对模块。

August 28, 2023 · 1 min · jiezi

关于运维:夜莺项目发布-v610-版本增强可观测性数据串联

大家好,夜莺我的项目公布 v6.1.0 版本,这是一个中版本迭代,不止是 bugfix 了,而是引入了既有性能的加强。具体加强了什么性能,上面一一介绍。 1. 加强可观测性数据串联从 v6.1.0 开始,对日志索引模式做了加强,反对设置某个字段的展现格局为 URL,配置形式如下: {{value}} 就是这个字段原始的值,能够把这个字段拼接到 URL 中,把这个字段展现成链接,这样用户在查看日志数据的时候,通过这个链接,就能够跳转到某个其余页面。典型的场景是日志和链路追踪数据的串联,比方日志外面有 traceId 字段,能够把 traceId 字段设置成 URL,点击这个 traceId 就能够跳转到链路追踪零碎,查看这个 traceId 的链路追踪数据。 当然,具体某一行日志,除了反对 JSON 展现形式,还反对了 Table 展现形式,晋升易用性。 其次,还加强了监控大盘的蜂窝图、表格的下钻能力。表格反对了单行下钻链接的配置,比方 mysql 的监控,能够做一个 mysql 实例的表格作为入口,而后点击每个实例的下钻链接能够跳转到实例详情的大盘,这样就实现了大盘之间的跳转和数据串联,举例: 配置下钻链接的时候,能够反对配置多个,能够反对援用不同的变量: 构建可观测性体系,数据串联是十分重要的一环,夜莺会继续加强这方面的能力。 2. 内置自动更新 v6 所有小版本的表构造夜莺的版本升级,很多老铁不晓得怎么做。从 v6.1.0 开始,持续简化了降级步骤。如果你是 v6 的其余小版本(包含 ga 版本),降级到 v6.1.0 的话,无需再手工更新数据库表构造,夜莺会主动帮你更新(当然,前提是夜莺所用的数据库账号得具备数据库 alter 权限),你只须要替换二进制和 integrations 目录,而后重启过程即可。如果应用的容器部署形式,只须要更新镜像版本而后从新公布容器即可。 不过,如果你的版本是 v6.0.0-ga.9 之前的老版本,还须要调整配置文件 config.toml(如果应用了 n9e-edge 模块,还要查看 edge.toml),确保配置文件中 [HTTP] 配置段下关上了 API 相干配置: [HTTP.APIForAgent]Enable = true # [HTTP.APIForAgent.BasicAuth]# user001 = "ccc26da7b9aba533cbb263a36c07dcc5"[HTTP.APIForService]Enable = true [HTTP.APIForService.BasicAuth]user001 = "ccc26da7b9aba533cbb263a36c07dcc5"那如果你是 v5 的版本,须要先降级到 v5.15.0,而后再通过 n9e-cli 工具进行降级,降级步骤见:https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/upgrade/。v5 版本曾经封版不再提供社区反对,如果你是开源用户,倡议降级到 v6 版本,如果你是企业用户那无所谓,合同履约期内,会始终提供反对。v6 是一个 LTS 版本,反对工夫是 2 年,从 2023.7.29 到 2025.7.29。 ...

August 28, 2023 · 1 min · jiezi

关于运维:Linux系统之安装Ward服务器监控工具

@TOC 一、Ward介绍1.1 Ward简介Ward 是一个应用 Java 开发的简略而简洁的服务器监控工具。1.2 Ward特点Ward 反对自适应设计零碎。Ward反对深色主题。Ward只显示服务器的次要信息。Ward 在所有风行的操作系统上运行良好。二、本地环境介绍2.1 本地环境规划本次实际为集体测试环境,操作系统版本为centos7.6。hostnameIP地址操作系统版本内核版本java版本ward版本jeven192.168.3.166centos 7.63.10.0-957.el7.x86_641.8.0_2021.8.82.2 本次实际介绍1.本次实际部署环境为集体测试环境;2.在centos7.6环境下部署Ward服务器监控工具。三、部署java环境3.1 jdk下载地址jdk下载地址:https://www.oracle.com/java/technologies/javase/javase8-archi... 3.2 解压jdk安装包解压jdk安装包tar -xzf jdk-8u202-linux-x64.tar.gz 3.3 复制二进制文件将jdk的二进制文件复制到/usr/local/目录下cp -r /root/jdk1.8.0_202/ /usr/local/jdk/3.4 配置环境编辑在/etc/profile文件中,新增以下两行:export JAVA_HOME=/usr/local/jdkexport PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin[root@jeven jdk1.8.0_202]# vim /etc/profile[root@jeven jdk1.8.0_202]# source !$source /etc/profile3.5 查看java版本查看java版本[root@jeven jdk1.8.0_202]# java -versionjava version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)四、下载ward的jar包4.1 下载软件包在github下载ward的jar包wget https://github.com/Rudolf-Barbu/Ward/releases/download/v1.8.8/ward-1.8.8.jar4.2 查看下载软件包查看下载软件包[root@jeven ~]# lsjdk1.8.0_202 jdk-8u202-linux-x64.tar.gz ward-1.8.8.jar五、装置ward工具5.1 启动ward服务在后盾启动ward服务nohup java -jar ward-1.8.8.jar & 查看后盾启动工作[root@jeven ~]# jobs -l[1]+ 78400 Running nohup java -jar ward-1.8.8.jar &5.2 查看ward服务监听端口查看ward服务监听端口4000[root@jeven ~]# ss -tunlp |grep 4000tcp LISTEN 0 100 :::4000 :::* users:(("java",pid=78400,fd=13))5.3 敞开防火墙和selinux如果须要开启防火墙,则须要放行4000端口和4010端口。如果应用云服务器部署,记得在平安组放行端口。敞开防火墙systemctl stop firewalld && systemctl disable firewalld敞开selinuxsed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/configgetenforce 六、拜访ward服务6.1 进入ward初始界面拜访地址:http://192.168.3.166:4000/,将IP地址替换成自服务器机的IP地址,进入ward初始界面 ...

August 27, 2023 · 1 min · jiezi

关于运维:大规模-IoT-边缘容器集群管理的几种架构6个人体验及推荐

前文回顾大规模 IoT 边缘容器集群治理的几种架构-0-边缘容器及架构简介大规模 IoT 边缘容器集群治理的几种架构-1-Rancher+K3s大规模 IoT 边缘容器集群治理的几种架构-2-HashiCorp 解决方案 Nomad大规模 IoT 边缘容器集群治理的几种架构-3-Portainer大规模 IoT 边缘容器集群治理的几种架构-4-Kubeedge大规模 IoT 边缘容器集群治理的几种架构-5-总结️Reference:IoT 边缘计算系列文章概述在前文,我列出以下几种解决方案: Rancher + K3sHashiCorp 解决方案 --- Nomad + DockerPortainer + DockerKubeedge其中,Rancher + K3s 是基于且兼容 K8s 的解决方案;Kubeedge 是构建于 K8s 之上的,然而外围的 Kubeedge 架构是齐全另外一套体系;而 Hashicorp 解决方案和 Portainer 解决方案能够说是和 K8s 没有关系,次要是基于 Docker 等容器的。而且也能够基于其余的驱动(如 podman 等等) 笔者基于边缘架构次要为:单片 arm 开发板的状况,对以上的各个计划进行了深刻的体验。 在深刻体验另外 2 个容器平台:hashicorp nomad 和 portainer 时,显著感触到:相比 k8s k3s,这 2 个更适宜物联网场景。(本章先抛开 KubeEdge 不谈,KubeEdge 我集体认为是适宜更简单的、和业务耦合更深或者须要调度边缘 AI 的高级边缘计算体系。) K8s 不适宜物联网,起因有: 资源占用高,对网络要求高网络模型简单。K3s 只是(局部)解决了资源占用的问题,然而后两个问题依然存在。 ...

August 27, 2023 · 4 min · jiezi

关于运维:玩转-PI-系列看起来像服务器的-ARM-开发板矩阵Firefly-Cluster-Server

前言基于我集体的工作内容和趣味,想要在家里搞一套服务器集群,用于容器/K8s 等计划的测试验证。 思考过应用二手服务器,比方 Dell R730, 还搞了一套配置清单,如下: Dell R7303.5 尺寸规格硬盘CPU: 2686v4*2内存:16g*8存储:480Gintel ssd 系统盘 + 6tsas 希捷* 2 个数据盘RAID 卡:h730 卡电源:单电 750w盘架满价格大概是 3130 元再来套服务器机柜。.. 然而思考到功率和乐音太大了,家里也没有适宜放服务器的这么大的地,最终放弃了。 也思考过用单片的 arm 开发板,然而须要搞好几片,而后编译系统、刷机、装适合的壳子、找电源线和网线,再接入家庭网络。.. 一台一台折腾,太耗时间了。 即便最初搞好了,可能家里也没那么多的网口,还得买个交换机接入。.. 最初,功夫不负有心人,在闲鱼上找到了联合二者状态,看起来像服务器的 ARM 开发板矩阵- Firefly Cluster Server. 很适宜我的需要️, 一起看看吧 Firefly Cluster Server - ARM 开发板矩阵服务器全貌咱们先来看一下它的全貌: 就是一个小尺寸的服务器的样子,然而千万不要被它的形状蛊惑了。它和 x86 的服务器外部齐全不一样。 这个是基于 Firefly Cluster Server R1 - core-3399-jd4 * 11 那款的定制款,接口会少一些。然而外部结构是完全相同的。 这个是它的反面,2 个小风扇 + 电源接口。 关上顶盖,让咱们一探其外部结构: 也就是说,其散热是:每片 CPU 上笼罩的散热片被动散热 + 整个机箱的被动风扇散热。 ...

August 26, 2023 · 2 min · jiezi

关于运维:夜莺中心端管理categraf采集规则并下发

痛点市面上常见的采集器,比方 telegraf、grafana-agent、datadog-agent 等,通常内置了多种采集插件,比方能够采集操作系统的惯例指标,也能够采集 mysql、redis、mongodb、kafka、elasticsearch、jmx 等指标,然而具体要采集什么数据,通常须要在客户端采集器上进行配置,批改采集器的配置文件,比拟麻烦,尤其是对于一些不太容易登录的机器,这个操作就更难实现了。 解决方案快猫技术团队开源了 categraf 采集器,在夜莺社区里失去宽泛应用。categraf 反对两种采集配置管理形式,一个是批改本地配置文件,一个是通过 HTTP 的形式从远端拉取。这就为核心端采集配置管理,提供了可能性。于是,咱们在夜莺专业版中提供了采集规定治理下发能力。 夜莺采集配置,内置反对了 aliyun、elasticsearch、ipmi、kafka、kubernetes、mongodb、mysql、net_response、nginx、oracle、ping、postgresql、processes、procstat、rabbitmq、redis、smart、snmp、tomcat、zookeeper 等多种采集配置模板,也反对自定义配置采集规定。采集规定左边,还有采集插件的应用阐明,不便新人用户上手应用,升高在公司外部的答疑和推广老本。 如何体验从夜莺下载核心下载专业版的软件包:https://flashcat.cloud/download/nightingale/ 写作这篇文章的时候,最新版本是 v6.0.2,您在下载的时候,可能曾经有了更新,间接下载最新版本即可。带有 plus 字样的,就是专业版。目前是提供了 linux-amd64 的版本,如果须要适配其余操作系统的版本,欢送分割咱们获取。 备份更新。先把老的夜莺部署目录备份一下,而后解压 plus 软件包,把 n9e-plus 二进制拷贝到 n9e 二进制所在的同级目录,停掉 n9e 过程,启动 n9e-plus 过程即可。批改 categraf 的配置。批改 providers 配置,本来的配置是:providers = ["local"]要可能从核心拉取配置,须要批改为: providers = ["local", "http"]重启 categraf 过程,就能够从核心拉取配置了。 后话在平安要求比拟严格的公司,每次登录机器还须要申请权限,间接在 web 页面配置,对进步运维效率,是一个很好的帮忙。过程中遇到任何问题,欢送分割咱们寻求帮忙(如果想要获取业余版本的报价,也欢送分割咱们)联系方式如下: https://flashcat.cloud/contact/ 或者间接加我微信征询,我的微信 picobyte,备注:您的公司名称+征询专业版。

August 26, 2023 · 1 min · jiezi

关于运维:IT运维软件的费用是多少

失常一套IT运维软件费用个别在5千-50万之间不等,而且分为一次性付费或年付费模式,付费形式导致的价格也不同。 失常状况下IT运维软件的具体价格,是须要依据企业的理论需要来进行综合评估,一般来说,影响具体价格费用有以下起因: 1)企业IT治理的规模:IT运维管理软件的价格与其规模相干,但规模不能只看其硬件配置和性能,还要思考人工的投入。实际上,IT规模越大,所须要的硬件、人工投入及后续的零碎维护费用也就越高。 2)企业IT治理须要的性能:不同的需要对应不同的性能,不同的性能对应着不同的价格。例如像自动化运维工具、预测性保护、风险管理等高级性能个别都会给付费用户提供。所以如果企业须要的性能越多,那么破费天然也就越高。 3)IT治理服务提供商:不同的服务提供商会有不同的价格,通常会依据企业需求量大小以及业务状况来定。ManageEngine ServiceDesk Plus在运维治理市场上占据了很大的比重,对于自行建设/开发的IT运维治理,在工夫和老本上可控,产品已推出16多年,领有IT运维治理应有的底蕴和积淀,并始终保持了继续改良。

August 25, 2023 · 1 min · jiezi

关于运维:浅析-GlusterFS-与-JuiceFS-的架构异同

在进行分布式文件存储解决方案的选型时,GlusterFS 无疑是一个不可漠视的思考对象。作为一款开源的软件定义分布式存储解决方案,GlusterFS 可能在单个集群中反对高达 PiB 级别的数据存储。自从首次公布以来,曾经有超过十年的倒退历程。目前,该我的项目次要由 Red Hat 负责保护,并且在寰球范畴内领有宏大的用户群体。本文旨在通过比照剖析的形式,介绍 GlusterFS 与 JuiceFS 的区别,为您的团队在技术选型过程中提供一些参考。 零碎架构比照GlusterFSGlusterFS 采纳的是全分布式的架构,没有中心化节点。GlusterFS 集群次要由服务端和客户端两大部分组成。其中服务端负责管理和存储数据,通常被称为可信存储池(Trusted Storage Pool)。这个存储池由一系列对等的 Server 节点组成,个别会运行两类过程: glusterd:每个节点一个,负责配置管理和散发等。glusterfsd:每个 Brick 一个,负责解决数据申请和对接底层文件系统。每个 Brick 上的所有文件能够看成是 GlusterFS 的一个子集,就文件内容而言,通过 Brick 间接拜访和通过 GlusterFS 客户端拜访看到的后果通常是统一的。因而,在 GlusterFS 异常情况下,用户通过整合多个 Bricks 内容就能肯定水平上复原出原有数据。另外在部署时,为了确保某台机器故障时,整个文件系统的拜访不受影响,通常会对数据做冗余爱护。在 GlusterFS 中,多个 Bricks 会组成一个冗余组,相互之间通过正本或纠删码的形式实现数据保护。当某个节点故障时,只能在冗余组内做复原,复原的工夫会比拟长。在 GlusterFS 集群扩容时,须要以冗余组为单位整体扩容。 客户端是挂载了 GlusterFS 的节点,负责对应用程序展现对立的命名空间。其架构图如下(来自 https://docs.gluster.org/en/latest/Quick-Start-Guide/Architec...): JuiceFSJuiceFS 采纳「数据」与「元数据」拆散存储的架构,文件数据自身会被切分保留在对象存储(如 Amazon S3)当中,而元数据则是会被保留在用户自行抉择的数据库里(如 Redis、MySQL)。通过共享同一个份数据库与对象存储,JuiceFS 实现了一个强一致性保障的分布式文件系统,同时还具备「POSIX 齐全兼容」、「高性能」等诸多个性。JuiceFS 的架构,在其文档有更具体的介绍。 元数据管理比照GlusterFS 元数据是纯分布式的,没有集中的元数据服务。客户端通过对文件名哈希确定其所属的 Brick;当申请须要跨多个 Bricks 拜访(如 mv,ls 等)时,由客户端负责协调。这种设计架构上比较简单,但当零碎规模扩充时,往往会带来性能瓶颈。比方,ls 一个大目录时可能会须要拜访多个 Bricks 来取得残缺的后果,其中任何一个的卡顿都会导致整个申请变慢。另外,跨 Bricks 批改操作在途中遇到故障时,元数据一致性也比拟难保障。在重大故障时,还可能呈现脑裂,须要手动复原数据到对立版本。 JuiceFS 的元数据存储在一个独立的数据库(称为元数据引擎)中,客户端会将文件元数据操作转换成此数据库的一个事务,借助数据库的事务能力来保障操作的原子性。这种设计使得 JuiceFS 的实现变得简略,但对元数据引擎提出了较高的要求。目前 JuiceFS 反对三大类 10 种事务型数据库,具体可参见元数据引擎文档。 ...

August 25, 2023 · 1 min · jiezi

关于运维:Linux系统之tomcat的安装方法

@TOC 一、tomcat介绍1.tomcat简介Tomcat是一个开源、收费的Web服务器,属于轻量级web服务器,适宜部署中小型、并发拜访用户不是很多的web我的项目,是部署中小型jsp的首选。2.tomcat官网tomcat软件官网下载:https://tomcat.apache.org/download-80.cgi 二、本次环境规划本次环境规划介绍hostnameIP地址操作系统版本tomcat版本java版本docker192.168.3.157centos 7.610.1.7.011.0.18三、装置jdk1.下载jdk包下载地址:https://www.oracle.com/java/technologies/downloads/#java11 [root@docker tomcat]# lsapache-tomcat-10.1.7.tar.gz jdk-11.0.18_linux-x64_bin.tar.gz2.装置jdk解压到jkd软件包[root@docker tomcat]# lsapache-tomcat-10.1.7.tar.gz jdk-11.0.18 jdk-11.0.18_linux-x64_bin.tar.gz复制二进制文件[root@docker tomcat]# cp -r /data/tomcat/jdk-11.0.18 /usr/local/jdk/配置环境变量,在/etc/profile追加以下两行,再激活变量source /etc/profileexport JAVA_HOME=/usr/local/jdkexport PATH=$PATH:$JAVA_HOME/bin3.查看jdk版本查看jdk版本[root@docker tomcat]# java -versionjava version "11.0.18" 2023-01-17 LTSJava(TM) SE Runtime Environment 18.9 (build 11.0.18+9-LTS-195)Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.18+9-LTS-195, mixed mode)四、装置tomcat1.下载tomcat下载地址:https://dlcdn.apache.org/tomcat/tomcat-10/v10.1.7/bin/ [root@docker tomcat]# lsapache-tomcat-10.1.7.tar.gz jdk-11.0.18 jdk-11.0.18_linux-x64_bin.tar.gz2.解压tomcat软件包解压tomcat压缩包[root@docker tomcat]# tar -xzf apache-tomcat-10.1.7.tar.gz -C /usr/local/[root@docker tomcat]# mv /usr/local/apache-tomcat-10.1.7/ /usr/local/tomcat3.设置环境变量在/etc/profile追加以下两行,再激活变量source /etc/profileexport TOM_HOME=/usr/local/tomcatexport PATH=$PATH:$TOM_HOME/bin4.查看tomcat版本查看tomcat版本[root@docker tomcat]# version.sh Using CATALINA_BASE: /usr/local/tomcatUsing CATALINA_HOME: /usr/local/tomcatUsing CATALINA_TMPDIR: /usr/local/tomcat/tempUsing JRE_HOME: /usr/local/jdkUsing CLASSPATH: /usr/local/tomcat/bin/bootstrap.jar:/usr/local/tomcat/bin/tomcat-juli.jarUsing CATALINA_OPTS: Server version: Apache Tomcat/10.1.7Server built: Feb 27 2023 20:25:27 UTCServer number: 10.1.7.0OS Name: LinuxOS Version: 3.10.0-957.el7.x86_64Architecture: amd64JVM Version: 11.0.18+9-LTS-195JVM Vendor: Oracle Corporation五、启动tomcat1.启动tomcat服务启动tomcat服务[root@docker tomcat]# startup.sh Using CATALINA_BASE: /usr/local/tomcatUsing CATALINA_HOME: /usr/local/tomcatUsing CATALINA_TMPDIR: /usr/local/tomcat/tempUsing JRE_HOME: /usr/local/jdkUsing CLASSPATH: /usr/local/tomcat/bin/bootstrap.jar:/usr/local/tomcat/bin/tomcat-juli.jarUsing CATALINA_OPTS: Tomcat started.2.查看tomcat服务状态查看tomcat服务是否失常启动[root@docker tomcat]# ps aux |grep tomcatroot 12288 9.8 1.7 5771868 135200 pts/0 Sl 10:57 0:04 /usr/local/jdk/bin/java -Djava.util.logging.config.file=/usr/local/tomcat/conf/logging.properties -Djava.util.logging.manager=org.apache.juli.ClassLoaderLogManager -Djdk.tls.ephemeralDHKeySize=2048 -Djava.protocol.handler.pkgs=org.apache.catalina.webresources -Dorg.apache.catalina.security.SecurityListener.UMASK=0027 --add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.io=ALL-UNNAMED --add-opens=java.base/java.util=ALL-UNNAMED --add-opens=java.base/java.util.concurrent=ALL-UNNAMED --add-opens=java.rmi/sun.rmi.transport=ALL-UNNAMED -classpath /usr/local/tomcat/bin/bootstrap.jar:/usr/local/tomcat/bin/tomcat-juli.jar -Dcatalina.base=/usr/local/tomcat -Dcatalina.home=/usr/local/tomcat -Djava.io.tmpdir=/usr/local/tomcat/temp org.apache.catalina.startup.Bootstrap startroot 12331 0.0 0.0 112812 948 pts/0 S+ 10:58 0:00 grep --color=auto tomcat3.拜访tomcat的web服务拜访地址:http://192.168.3.157:8080/ ...

August 25, 2023 · 1 min · jiezi

关于运维:使用-eBPF-在云中实现网络可观测性

可观测性是一种理解和解释利用以后状态的能力,也是一种晓得何时呈现问题的办法。随着在 Kubernetes 和 OpenShift 上以微服务模式进行云部署的应用程序越来越多,可察看性受到了宽泛关注。许多应用程序都有严格的承诺,比方在停机工夫、提早和吞吐量方面的 SLA,因而网络层面的可观测性是一项十分必要的性能。网络层面的可观测性由不同的编排器提供,有的是内置反对,有的是通过插件和 operator 提供。 最近,eBPF(扩大的伯克利数据包过滤器)因其性能和灵活性成为在终端主机内核实现可察看性的热门抉择。通过这种办法,能够在网络数据门路的某些点(如套接字、TC 和 XDP)上挂接自定义程序。目前已公布了多个基于 eBPF 的开源插件和 operator,每个插件和 operator 都可插入终端主机节点,通过云上的编排器提供网络可察看性。 现有的可观测性工具可观测性模块的外围局部是如何以非侵入形式收集必要数据。为此,应用代码埋点统计,咱们钻研了 eBPF 如何影响指标被观测模块的性能。测量方法和工具是开源的,你能够在咱们的 Git仓库 中找到。在设计可扩大的高性能 eBPF 监控数据门路时,咱们还能为您提供一些有用的见解。 以下是现有的开源工具,可用于在网络和主机的上下文中实现可察看性: SkydiveSkydive 是一款网络拓扑和流量分析器。它将探针下放到节点,以收集流量级信息。应用 PCAP、AF_Packet、Open vSwitch 等形式连贯探针。Skydive 应用 eBPF 捕捉流量指标,而不是捕捉整个数据包。连贯到套接字 Hook 点的 eBPF 实现应用哈希映射来存储流量头和指标(数据包、字节和方向)。 libebpfflowLibebpfflow 是一个应用 eBPF 提供网络可见性的网络库。它 Hook 主机堆栈中的多个点,如 kernel probes(inet_csk_accept、tcp_retransmit_skb)和 tracepoints(net:netif_receive_skb、net:net_dev_queue),以剖析 TCP/UDP 流量状态、RTT 等。此外,它还为所剖析的流量提供过程和容器映射。其 eBPF 实现应用 perf event buffer 将 TCP 状态变动事件告诉用户空间。对于 UDP,它连贯到网络设备队列的跟踪点,并联合应用 LRU 哈希映射和 perf event buffer 来存储 UDP 流量指标。 eBPF ExporterCloudflare 的 eBPF Exporter 提供了用于插入自定义 eBPF 代码的 API,以记录感兴趣的自定义指标。它须要将整个 eBPF C 代码(以及挂钩点)附加到 YAML 文件中以进行部署。 ...

August 25, 2023 · 2 min · jiezi

关于运维:亿级月活的社交-APP陌陌如何做到-3-分钟定位故障

一分钟精髓速览本文概述了挚文团体(陌陌和探探母公司)在微服务架构下解决故障定位问题中遇到的痛点、解决方案以及获得的成果。通过构建对立可观测平台,实现了故障疾速定位,大幅晋升了问题定位的效率。文中还探讨了存储优化、数据采集、链路追踪等相干细节。总体上,可观测平台在挚文团体外部已失去了宽泛使用和较好的业务撑持功效。 关键词:可观测性;微服务;监控;链路追踪 作者介绍 挚文团体根底平台技术总监——童子龙 TakinTalks 社区特邀讲师。2022 年退出挚文团体,目前负责陌陌和探探的根底平台部门,蕴含基础架构、中间件、监控、零碎平台等团队。曾就任于腾讯云中间件团队任职技术专家,腾讯云微服务 TSF 开源社区 Founder,专一于微服务治理、基础架构、精益治理、云计算及分布式中间件技术等。 舒适揭示:本文约 7500 字,预计破费 13 分钟浏览。 「TakinTalks 稳定性社区」公众号后盾回复 “交换” 进入读者交换群;回复“0809”获取课件材料; 背景挚文团体于 2011 年成立,2014 年 12 月 11 日在美国纳斯达克交易所挂牌上市(NASDAQ: MOMO),领有陌陌、探探等多款手机利用,以及电影制作发行、节目制作等多元业务,其中两款次要社交软件——陌陌和探探,它们的月沉闷用户别离达到了亿级和千万级。此外出海等业务,在东南亚和中东地区也领有宏大的用户群体。因而,整体公司的业务规模十分宏大,领有数万级线上实例数和千万级的峰值 QPS,全天调用超过万亿次。 挚文团体是微服务畛域的晚期探索者之一。自从 2013 年 RPC 理念在国内风行以来,咱们就开始采纳微服务架构。尽管微服务架构进步了团队的合作效率,但也带来了一些问题,比方服务调用链路简单、故障定位艰难、性能瓶颈定位艰难、问题定位依赖专家教训等。 面对一直增长的业务规模和复杂度,咱们须要从零开始摸索和实际,找到一种高效且低门槛的形式来解决这些问题。 一、故障定位遇到了哪些挑战?在晚期,咱们没有系统地实际可观测性工程,通常是像消防员一样,哪里起火了就去灭火,而后再找一些专用工具来解决问题。这导致咱们应用的工具十分多,而且彼此之间是独立的。例如,当服务利用呈现故障时,咱们须要查看根底监控、业务打点、谬误日志等;而当底层零碎呈现问题,如 CPU、内存堆栈和线程问题时,咱们又须要应用其余工具来查看。这样的状况导致整体体验十分差,解决一个问题可能须要破费 3 分钟去寻找适合的排查工具,再破费 10 分钟查看数据,而且这些数据无奈进行联动剖析,咱们还须要手动编写文档来整合信息,能力深入分析问题的本源。 这种状况带来了两个问题。首先,应用这些工具的门槛十分高,新人很难把握。其次,效率十分低下,故障排查依赖教训,须要高级专家的染指。咱们尝试过专家会诊制度,但这并不是一个最现实的解决方案,作为技术管理者,咱们心愿任何人都能参加故障排查,而不是依赖于多数资深人员的教训。如果专家刚好不在呢?线上故障排查是十分庄重的事件,不能靠个人主义和运气,更须要一套健全牢靠的工具和机制。 通过一直摸索和实际,目前挚文团体绝大部分故障定位都能在 3 分钟内实现,即便是新人无需培训也能实现相干工作。接下来,我将重点分享相干平台工程的建设办法和技术要点。 二、如何构建一站式观测平台解决?有哪些技术要点?要解决问题定位的最初一公里,咱们的施行方向是什么?要达成哪些指标?要怎么着手做?带着这些问题咱们进行了大量的调研工作,包含钻研行业内成熟的商业产品和技术、以及访谈行业专家,理解他们的观点和实际办法,而后以此为根底,咱们设定了一个指标——建设一个对立的可观测平台,数据协同实现简略高效的可观测性能力。 2.1 可观测平台工程指标咱们须要从两个方面来设定指标:效率和门槛。 首先,咱们的指标是让任何人,不论是老手还是较低级别的开发人员,都可能疾速精确地找到问题所在,而不须要依赖专家教训。为此,咱们打算建设一个企业级的平台工程,数据采集、剖析工具化、产品化,来升高应用门槛。 其次,咱们谋求更加全面的可观测性,笼罩整个软件生命周期。咱们须要建设欠缺的基础设施,从开发环境到测试阶段,再到生产环境,实时监测和剖析零碎的运行状态。通过及时发现并解决问题,来确保零碎的稳定性和可靠性。 2.2 分布式 Trace 追踪咱们须要先明确分布式 Trace 追踪的目标是解决哪些问题。它能够帮忙咱们理解服务之间的调用行为,疾速定位异样问题,进行准确的链路调用性能剖析,包含办法和整个利用内的性能追踪和监控。接下来,咱们须要思考如何施行这个追踪零碎。 (分布式 Trace 整体架构) 首先咱们心愿基于开源组件的根底上自建生态,为什么保持基于开源规范自建呢?因为开源有人才规模效应,从治理角度,不心愿根底平台被自研技术栈绑架。另外,咱们心愿实现业务接入的无侵入性,缩小接入老本,并反对动静下发采集策略,使用户接入层更稳固灵便,不会给业务带来任何 Debuff。 分布式 Trace 追踪零碎整体架构分为三层:接入层、解决层和平台层。 接入层:嵌入利用过程,依照 Opentracing 协定收集 Trace 信息,通过插件化的传输协定发送给 Server 端,接入层的采集数据能够传输给任何反对 Opentracing 协定的 Server 端解决。 ...

August 24, 2023 · 2 min · jiezi

关于运维:如何从用户视角搭建可观测体系阿里云ECS业务团队的设计思路

一分钟精髓速览互联网平台以业务为核心,以用户为核心,平台的性能服务、品质和用户体验等是要害的指标,仅仅关注后盾零碎的可用性是不够的,以传统运维的视角来解决故障、做监控会比拟被动。 本文以阿里云 ECS 业务为例,探讨阿里云最外围、亚太地区业务规模最大的产品之一,在极高的稳定性和性能要求下,如何基于云构建可观测性并从客户视角建设观测能力,以及在推动体系建设中的成功经验和待改良之处。 作者介绍 阿里云高级技术专家——杨泽强(竹涧) TakinTalks 社区专家团成员,多年云计算畛域研发教训,在阿里先后参加团体 DevOps 平台、弹性计算外围管控以及 SRE 工程相干研发,以后在弹性计算团队从事研发工作,次要负责弹性计算稳定性架构与智能运维平台建设。 舒适揭示:本文约 8000 字,预计破费 15 分钟浏览。 「TakinTalks 微信公众号」后盾回复 “交换” 进入读者交换群;回复“可观测”获取相干材料; 背景正如大家所知的,云服务器是云厂商中最底层、最简单的局部,而 ECS 弹性计算作为阿里云最外围、亚太地区业务规模最大的产品之一,其业务复杂度更是可见一斑——部署遍布国内海内的 30 多个地区,利用规模也达到了上百个,整体依赖复杂度能够说是阿里云云产品管控零碎之最。同时,还面临着团体超级客户(如淘天团体)、OnECS 云产品(如容器、存储、函数计算等)、各行业大客户的极高稳定性和性能诉求。 那么,如此超大业务规模和业务复杂度、极高稳定性 &性能诉求,阿里云 ECS 是如何基于云构建可观测性的?以及阿里云 ECS 业务实际中,改善用户体验的可观测体系,是如何搭建起来的?这将是我本次分享的重点。 当然,在不同的业务和阶段,可观测性的做法可能不齐全一样。这次分享的次要目标是以阿里云 ECS 的业务为例,分享咱们在推动体系建设中的成功经验或者仍待改良的中央,以便大家在遇到相似问题时参考。 一、阿里云 ECS 业务带来了哪些观测挑战? 1.1 业务规模大导致经营难建设可观测性并非最具挑战的局部,更具挑战的是如何继续经营和保护它。正如前文所述,随着零碎规模、团队规模和业务复杂性的增长,当零碎规模达到肯定水平时,保护变得异样艰难,甚至可能无奈持续保护上来,从而导致系统逐步腐化。这最终将影响研发体验和平台价值。 1.2 团队认知有余,观测能力缺失很多人对于观测的了解仍停留在监控阶段,尤其是那些没有从事可靠性或运维工作的研发同学。在建设观测能力之初,咱们团队中的大部分成员都只具备研发背景,大家普遍认为观测就是监控和告警。因而,在初期的建设中,咱们的观测能力也较为单薄,次要限于监控性能。然而,事实上,监控只是可观测能力的一小部分。 1.3 技术储备有余作为业务研发团队,咱们始终在摸索如何在业务团队外部构建可观测性以解决问题。然而,这面临着微小挑战,因为咱们须要在最大限度地解决问题的同时,也要思考业务团队的技术储备和老本因素。 二、可观测体系建设有哪些思路? 首先,团队提出了“Cloud First”的思路,即基于云产品构建可观测性。各个云平台上都提供相似的产品能力,而咱们的服务部署在阿里云上,因而抉择了阿里云的产品。上云的目标是为了利用云产品的能力来构建可观测性,而不是自行开发或应用其余开源/闭源外部产品。在接下来的局部,我将具体论述这一点。 其次,可观测性不仅仅限于经营阶段,咱们认为在软件生命周期的各个阶段都应思考可观测性问题。 第三,咱们采纳平台化和产品化的思路来解决可观测性问题。稳定性畛域的工作不是一次性地实现,而是须要通过平台化、自动化和智能化的形式来解决问题。咱们的整体稳定性均遵循这一思路,在可观测性方面也不例外。 三、阿里云 ECS 可观测体系是如何落地的?3.1 基于云构建可观测能力3.1.1 ECS 观测上云背景 2016 年前后:阿里云 ECS 将一些业务侧的根底监控搬到了阿里自研的平台上进行了欠缺。 2019 年前后:随着业务规模的不断扩大,阿里云 ECS 面临着 30 多个部署地区和上百个利用的大规模分布式集群的治理挑战,仅依附资源平台已无奈实现制订的指标。因而,咱们决定将整个监控都迁徙到云上。这一决策基于以下起因:首先,咱们须要治理数千个数据库以及数百个研发人员,单纯依附自研平台无奈满足需要。其次,借助云上的凋谢集成能力,咱们可能与业务需要相结合,实现更深层次的倒退。同时,基于公共云能力构建可观测性可能取得最优良的产品和能力,并且与开源社区人造地紧密结合,具备更强的迁徙能力。另外,将监控组件托管到云上,从业务角度来看,咱们不须要过多关注组件自身的稳定性问题,如 Prometheus 集群的保护、数据存储、无损扩容和迁徙等,因为云平台会帮忙咱们屏蔽这些问题。综合思考,将可观测性迁徙到云上的形式老本最低,因而从 2019 年开始,咱们进行了这一革新。 ...

August 24, 2023 · 2 min · jiezi

关于运维:阿里云故障洞察提效50全栈可观测建设有哪些技术要点

一分钟精髓速览全栈可观测是一种更全面、更综合和更深刻的观测能力,能帮助全面理解和监测零碎的各个层面和组件,它不仅仅是一个技术上的概念,更多地是技术与业务的联合。在“以业务为导向”的大前提下,全栈可观测正在成为趋势。 本文分享了阿里云可观测平台服务作为寰球散布的超大业务零碎,同时也作为服务寰球企业用户的可观测平台提供方,在故障洞察提效中遇到的业务挑战,以及 6 个关键技术点和 2 个利用案例。 作者介绍 阿里云智能技术专家——曾庆国(悦达) TakinTalks 社区专家团成员。KubeVela 社区 Maintainer。长期从事云原生可观测、利用继续交付、基础设施治理等云原生畛域,积攒大量基于 Kubernetes 的云原生利用治理平台建设教训和可观测畛域实践经验。曾帮忙工业互联网、金融和企业办公等多个行业头部用户实现云原生 DevOps 转型。ArchSummit、Gopher、SDCon、A2M 等大会讲师。 舒适揭示:本文约 8000 字,预计破费 15 分钟浏览。 「TakinTalks 稳定性社区」公众号后盾回复 “交换” 进入读者交换群;回复“0712”获取课件材料; 背景全栈可观测是一个技术和业务相结合的畛域,单从技术维度了解,可观测蕴含了基础设施、应用服务、客户端等等,而是更狭义的维度则关注这项技术如何撑持企业的业务,提供逾越各个层面的数据收集、剖析和可视化,帮忙企业更好地了解和治理其零碎和利用。从技术开源到各类头部厂商的产品,再到国内外多个业务组织的落地,都能够看出全栈可观测曾经成为一种技术趋势。 (Gartner 报告显示,落地可观测性具备相当高的策略价值) 这一观点也在 Gartner 的报告中失去印证,依据 Gartner 的预测,到 2026 年,胜利利用可观测性的 70% 组织将可能实现更短的决策响应工夫,从而为指标业务或 IT 流程带来竞争劣势,这阐明可观测技术曾经冲破了技术层面,进入业务层面。 所以从业务视角来看,业务的变动(规模,复杂性,稳定性要求)必然驱动企业对可观测技术提出更高的要求。阿里云可观测平台服务作为一个寰球散布的超大业务零碎,同时也作为服务寰球企业用户的可观测平台提供方,因为其撑持的业务架构的一直变动,驱动了可观测技术栈的一直演进。 明天我将联合阿里云的可观测业务挑战,重点从几项关键性技术和场景,与大家交换我对可观测技术的思考。 一、业务如何推动阿里云观测技术演进? (阿里云可观测性技术倒退工夫线) 2012 年鹰眼零碎买通利用和中间件:阿里云可观测性技术终点能够追溯到 11 年前,过后淘宝开始逐渐施行微服务架构,这导致了大量服务之间互相调用非常复杂。因而,在这个期间咱们构建了鹰眼监控零碎(EagleEye),来解决不同业务之间的调用问题。能够说,正是淘宝业务的疾速倒退和微服务架构的演进,才促成了这一技术的产生,也为前期的可观测体系打下了根底。 2013-2015 年引入指标和日志:这个阶段,从社区的角度来看,容器技术和开源我的项目开始呈现。同时,相似于 Service Mesh 这样的我的项目也应运而生。因为底层基础设施的扭转,即容器化的遍及,监控畛域呈现了新的需要和要求。咱们的监控技术方向也逐渐从买通利用和中间件之间的调用链,演进到引入观测指标和日志等。 2017 年 ARMS 云服务:“可观测性”这个词正式呈现并明确了其定义,即关注的数据维度,如指标等。阿里云随即基于原有的鹰眼监控零碎,推出了产品化的服务 ARMS。 2022 年全栈可观测套件:在上云容器化、平台化的前提下,开源社区的倒退带来了绝对标准的可观测技术栈,所以阿里云在 2022 年公布了全栈的可观测相干技术,基于开源的标准实现相干的云服务。 从阿里近 10 年的监控技术倒退能够看出,技术并不是自发演进的,更多是因为业务架构和基础设施架构的变动推动了可观测性技术的架构扭转。 二、阿里云的可观测遇到了哪些挑战?2.1 作为平台方:服务寰球企业用户 2.2 作为业务零碎:寰球散布 ...

August 24, 2023 · 2 min · jiezi

关于运维:工程师使用IT服务台软件可以解决哪些问题

现如今企业数字化建设已初具规模,业务零碎根本已告一段落,而下一步关注的重点则从技术转向治理,如何能让这些零碎更好运行起来,如何进步管理效率已是重中之重。在此向您举荐一款高效的IT服务管理工具——ServiceDesk Plus,它是全栈式的ITSM解决方案,能够360°全方位治理IT,进步IT工程师的工作效率! ServiceDesk Plus是一款基于ITIL的IT服务台软件,领有行业认证的最佳实际ITSM性能,提供云版本和本地版本,并有本地版挪动APP。性能涵盖:事件治理、问题治理、资产治理、CMDB、变更治理、项目管理等IT服务治理性能。在寰球有185个国家/地区有100,000多家用户。 工程师应用IT帮忙台管理软件能够解决哪些问题呢? 1.最佳ITSM工作流程2.与IT管理应用程序的弱小集成3.智能自动化治理4.能够部署在云端或本地5.事件治理、问题治理、变更治理、资产治理、CMDB等包罗万象。 有人这样评估 “在应用ITSM之前,咱们IT方面其实次要都是在做救火的工作,可能还吃力不讨好,在ITSM施行之后,帮咱们做到了一些时效治理,给管理层提供了数据化撑持,帮忙咱们进步了客户满意度,进步了IT服务治理。” ——某国内供应链IT主管

August 24, 2023 · 1 min · jiezi