运维 | 乐趣区

关于运维:基于-EventBridge-构建-SaaS-应用集成方案

简介：事件源是事件驱动的基石，如何获取更多事件源也是 EventBridge 始终在摸索和尝试的方向。针对市场上其余云厂商和垂直畛域的 Saas 服务，EventBridge 公布了 HTTP Source 能力，提供简略且易于集成的三方事件推送，帮忙客户更加高效、便捷地实现业务上云。作者：昶风引言事件驱动架构（EDA）是一种以事件为纽带，将不同零碎进行解耦的异步架构设计模型。在 EDA 中，事件驱动的运行流程人造地划分了各个系统的业务语义，用户能够依据需要对事件与针对此事件做出的响应灵便定制，这使得基于 EDA 架构能够不便地构建出高伸缩性的利用。据 Daitan Group 的调研报告，早在 2017 年，例如 UBER、Deliveroo、Monzo 等公司就曾经采纳了 EDA 去设计他们的零碎。为了便于用户更加轻松地开发以 EDA 为架构的利用，在 2020 年云栖大会上，阿里云正式推出了 EventBridge。EventBridge 是一款无服务器事件总线服务，可能以标准化的 CloudEvents 1.0 协定在利用之间路由事件。目前，EventBridge 曾经集成了泛滥成熟的阿里云产品，用户能够低代码甚至零代码实现各个阿里云产品和利用之间的买通，轻松高效地构建分布式事件驱动架构。事件源是事件驱动的基石，如何获取更多事件源也是 EventBridge 始终在摸索和尝试的方向。针对市场上其余云厂商和垂直畛域的 Saas 服务，EventBridge 公布了 HTTP Source 能力，提供简略且易于集成的三方事件推送，帮忙客户更加高效、便捷地实现业务上云。 HTTP Source 概述接入 EventBridge 利用有多种状况：用户自定义利用、阿里云服务、其余云厂商服务或者其余 SaaS 产品。对于用户自定义利用，用户能够应用 EventBridge 官网的 API 接口、多语言客户端以及 CloudEvents 社区的开源客户端来实现接入。对于阿里云的云产品，EventBridge 原生反对，用户能够在默认事件总线中抉择对应的云产品与其相干的触发事件。而对于其余云厂商、SaaS 产品，EventBridge 同样也提供便捷的接入形式便于用户进行集成，HTTP Source 事件源便是一种典型的接入形式。 ...

关于运维:工具多人在线协同编辑文档软件

对于打工人来说，进步工作效率真的很重要，因为能够在同样的工夫里做更多的事，或者把节省下来的工夫做其余事件。现在可能用来节省时间、进步工作效率的工具就有在线协同编辑文档软件，它反对多人编辑一个文档，多集体必定比一个人实现一件事件的工夫更短，这样就可能很大水平上节省时间，进步工作效率。以下给大家带来了几款在线协同编辑文档软件，大家就依据本人的需要进行抉择吧。石墨文档轻便、简洁的在线合作文档工具，PC端和挪动端全笼罩，反对多人同时对文档编辑和评论，让你与别人轻松实现合作撰稿、计划探讨、会议记录和材料共享等工作，能够创立文档、表格、幻灯片、文件夹，具备实时保留、轻松分享、实时合作、还原历史等特点，分为免费版和免费版。网站：https://shimo.im/ 腾讯文档一款可多人合作的在线文档，可同时编辑文档、表格、在线收集表格，云端实时保留。可针对QQ、微信好友设置文档拜访、编辑权限。反对QQ、微信账号互相绑定，性能上石墨文档简直没有差异，还有就是完全免费。网站：https://docs.qq.com/ 有道云笔记网易旗下产品，功能强大，领有纷纷笔记轻松治理、文件同步主动实现、路上创意顺手、精彩网页一键保留、增量式同步技术、手机端富文本编辑、白板拍照智能优化、手写输入、涂鸦等所有你能想到性能，惟一毛病就是免费版容量太小(只有3G)，广告偏多。网站：https://note.youdao.com/ 印象笔记操作界面极度简介，性能和后面三个差不多，但有一外围劣势——深度搜寻，搜寻是印象笔记最具特色的性能，也是区别于国产云笔记软件的外围。印象笔记能够搜寻到图片内的印刷体中文和英文以及手写英文，此搜寻对PDF文件、Excel、Word、PPT中的中文和英文也同样无效。惟一毛病就是免费版容量太小。网站：https://app.yinxiang.com/ Baklib绝对于以上几个软件来说，Baklib或者还不够出名，但可能与他们放在一起，就阐明它的性能特点是在线的。baklib是一款集在线编辑+存储+展示分享为一体的常识管理工具。在线编辑反对Markdown、表格、代码块、等业余编辑能力，反对多种格局的文档、视频上传。让你专一于创作。结构化内容，无限度栏目层级设置，主动生成文档要点，应用知识库目录编排，让多篇文档结构化。反对多人在线协同编辑，多级权限让团队中的每位成员都能成为常识创作者！在线存储采纳先进而灵便的云服务架构、SaaS化服务，从外部编辑到内部分享全程保障客户数据的独立而平安。在线展现Baklib默认提供15套精美主题，前期将反对代码层级自定义网页格调设置，帮忙用户更好的体现的品牌。收费赠送二级域名、反对独立域名的绑定、页眉页脚..设置，随处可见的搜寻框、全局搜寻与代码高亮的设置疾速帮忙员工、用户找寻操作难题。应用链接：https://www.baklib.com/?utm_c... 抉择一款好用的在线协同文档软件，进步的是工作效率，节俭的是工夫和生命。多留点工夫，读会书、跑个步、玩会游戏，哪怕睡个觉，也是咱们打工人能给本人最实惠的犒劳了。

关于运维:经验分享-FAQ制作工具推荐

FAQ即“Frequently Asked Questions”的缩写，中文释义为常见问题解答，或者是帮忙核心。好的FAQ不仅能引起随机访问者的趣味，还能帮忙有目标的访问者疾速找到他们须要的信息，进步解决问题的效率，所以对于企业来说，创立FAQ是十分必要的。这篇文章没有打算为大家深刻介绍FAQ，而是间接带来最有用的——制作工具举荐，咱们一起来看看吧。 FAQ的内容和类型为潜在客户设计FAQ。FAQ具备产品和服务的特点，用于激发客户的购买需要为新客户设计的FAQ。FAQ次要用于帮忙客户解决理论问题，提供新产品的应用、维助客户解决理论问题为老客户设计的FAQ。提供更深层次的技术细节和技术改良信息，次要用于进步用户忠诚度FAQ也能够设置为两组：一组是针对潜在客户和新客户；另一组是针对老客户。进入相应的FAQ须要注册，潜在客户会感触到企业的反对和帮忙，从而更快地转变为真正的客户；老客户会感觉他们受到了器重和非凡待遇，老客户能够失去很多信息，一般客户无奈取得。 FAQ页面的组织设计FAQ页面的组织设计应为用户节俭拜访工夫，确保页面内容清晰易读，易于浏览。FAQ页面的组织设计应从以下几个方面思考：保障FAQ的效用使FAQ简略易寻抉择正当的FAQ格局信息披露要适度FAQ的制作尽管较为简单，然而没有业余的工具搭建最终的利用成果将会变得十分个别，不够吸引你的用户，小编为大家汇总了6个国内外用于向网站增加“常见问题”页面的最简略工具心愿对大家有所帮忙。 BaklibBaklib是一款优雅的云端知识库建设平台，企业“帮忙核心”全场景解决方案提供商。致力于为企业提供在线帮忙核心设计、产品说明书、常见问题手册、在线知识库、企业文档、在线FAQ制作。更多功能：域名SSL加密页面CDN减速丰盛的主题模板站点凋谢状态治理（可设置成公开/私密和明码拜访）多端适配helpscout desk SlimFAQ HelpStack手机版的FAQ文档创立 ProProfs 以上就是举荐的FAQ制作工具，具体好不好用我说了不算，要适宜本人才行。所以如果你有制作FAQ文档的需要，就能够试用一下，而后抉择本人最称心的，心愿可能对你有所帮忙。

关于运维:深度学习下运维日志分析的趋势解读与应用实践

云智慧 AIOps 社区是由云智慧发动，针对运维业务场景，提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术，旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题，推动 AIOps 技术在企业中落地，建设衰弱共赢的AIOps 开发者生态。前言日志剖析作为AIOps（人工智能与运维畛域相结合）的重要子畛域正受到学术和工业界日益增长的关注，因而涌现出了许多神经网络与日志剖析联合的经典模型，在理论利用中也获得了较好的成果。本次学术论坛咱们邀请了云智慧算法实习生、北京航空航天大学博士在读生郭同学为咱们从学术界角度简要介绍该畛域与深度学习联合的近期停顿。学术论坛内容一、日志钻研概述二、学术前沿工作分享三、自研模型分享四、总结一、日志钻研概述钻研现状日志数据由零碎运行产生，它详尽形容了零碎大规模外部事件以及用户的用意。随着大规模IT零碎的疾速倒退，日志数据的数量曾经增长到传统办法难以剖析的水平。除此之外，日志的标签获取与标注也比拟艰难。下图展现了从代码到日志的过程，雷同零碎的日志也会产生个性化内容，咱们能够在代码中定义任何咱们想要的零碎反馈。为解决上述瓶颈，运维人员尝试通过集成人工智能算法来加强IT运维能力，由此诞生过一批基于传统机器学习算法。近些年，随着计算算力倒退和数据体量增大，深度学习技术开始被用于日志剖析畛域，研究者们认为半结构化的日志音讯也蕴含局部零碎语义，相似于自然语言语料。因而研究者们纷纷采纳语言模型对日志数据进行建模剖析，例如LSTM，Transformer等。为解决标签难以获取问题，一批研究者采纳自监督、无监督，弱监督、半监督等不须要残缺标签的办法，例如近期呈现的Log畛域的Bert等。也有采纳迁徙学习、集成学习、继续学习等不同的学习形式去各方面高效晋升运维效率。总而言之，研究者们正在深挖深度学习在该畛域的钻研和利用价值。围绕日志开展的工作对于日志的钻研大抵能够分为三个方向：Log Compression（日志压缩）、Log Parsing（日志解析）、Log Mining（日志开掘）。对于日志压缩，咱们钻研如何在不失落重要信息的根底上高效压缩日志。日志解析就是从软件日志中主动提取事件模板和要害参数，日志开掘中蕴含了各种工作，包含日志异样检测，日志告警等，开掘的次要目标也是为了进步零碎的可靠性。下图给出近期论文的数量和方向，咱们能够发现论文数量逐年回升且大部分论文聚焦于日志开掘方向。二、学术前沿分享本文此次学术分享次要聚焦于日志异样检测工作。日志异样检测，顾名思义，次要是检测日志数据中的零碎异样。 Log Parsing(日志模式解析)海量日志数据之间语义相似性较高，理论需要须要将日志示意。因而学者冀望对日志提取出固定的模版/模式以求代表整个日志数据库。经调研，以后日志异样检测办法大都须要日志解析这一步，起因在这边简述。上图展现了日志模版提取过程，从上到下顺次是原始日志，解析后的日志模版，结构化好的日志，最初将结构化好的数据送入上游各种日志开掘工作。具体来说，L1、L2、L3、L4、L5示意五条原始日志，咱们通过日志解析算法（Drain parsing）提取出三个模板：T1、T2、T3。通过Mapping后咱们失去了五条结构化好的日志，即粉色框中的L1～L5。日志解析会将咱们认为日志中无关的信息去除，例如Timestep、ID等。常见的解析算法：Drain（基于树结构类似度） Spell（最长公共子序列） AEL （常数和变量的产生频率） IPLoM（迭代分区策略，依据音讯长度、令牌地位和映射关系等）。 Log anomaly detection(日志异样检测)2020年后的深度日志异样检测框架大都有三个局部：日志解析模块->特色编码器->分类器/解码器。这一部分将给大家介绍局部深度学习框架。 DeepLog：Deeplog: Anomaly detection and diagnosis from system logs through deep learning. 如下图所示，模型分为训练和测试两阶段，在训练阶段，原始日志通过日志解析后失去模板，随后通过LSTM网络学习表征，预测下一条日志的模板。在测试阶段，测试数据输出模型后失去预测的模板后果，如果预测的模版不在Top k个模版内，那么该条日志就被判为是异样的。 LogRobust：Robust log-based anomaly detection on unstable log data. 该模型基于监督学习，模型应用基于注意力的双向LSTM架构。采纳Drain进行日志数据解析，特征提取器采纳Word-to-Vector和TF-IDF加权技术生成日志表征。模型将失常和非正常日志数据都用于训练，最初分类器来判断日志是否是异样。 HitAnomaly：Hitanomaly: Hierarchical transformers for anomaly detection in system log. 模型也是基于有监督学习，采纳了基于Transformer的架构。日志解析器仍旧采纳Drain，在模式解析中，模板往往不会保留日志原始的数值信息，然而该模型将失落的数值信息一并送入模型中编码，最大水平的保留了原始日志的信息，这也就是该工作的翻新点所在。 ...

关于运维:经验分享-最佳文档协作软件推荐

早在 2012 年，麦肯锡钻研报告称，员工通常破费 1.8 小时搜寻和收集信息。但那是很久以前的事了。明天，咱们领有云存储系统，容许咱们在线共享文档并在任何设施上查看它们。所以，应该很容易找到咱们须要的信息并一起工作，对吧？但很可怜的是，这还是很难做到。文档合作不仅仅是在线共享文件让咱们设想一个典型的团队合作场景。你和两个共事正在筹备每月的内容营销报告，这意味着你须要应用许多工具和电子表格能力提取无关本月制作的内容，查看次数和下载次数，转换率等数据。你不能只从空白文档开始并创立报告，而须要从大量其余文档和平台拜访数据，并且当你须要在此过程中与别人合作时，状况会变得更加简单。为了可能与你的团队无效单干，你须要首先将所有文件（即你的常识）放到一个地位，这也就是常识治理的过程的一部分。所以文档合作与常识治理密切相关。为什么要应用文档合作工具？在咱们理解软件之前，让咱们谈谈为什么咱们须要文档合作工具。实时合作：如果多个团队成员常常解决同一个可交付成绩，文档合作工具将为您省去很多麻烦。版本控制：这些工具的真正长处在于你领有高级的“吊销”性能，大多数工具容许查看文档的先前版本并在须要时复原它们。治理审核流程的能力：通过电子邮件共享反馈可能有效，因为个别收件箱中有很多乐音。文档合作工具可让你和你的共事专一于手头的工作，打消所有其余烦扰。进步安全性：电子邮件可能被转发或意外发送给谬误的人。文档合作工具使你可能管制谁能够拜访你的文件。应用状况跟踪和报告：这在许多状况下都很有用。设想一下，你正在培训一位新员工，并且你想晓得他们是否看到了你的入职阐明，或者你想晓得你的老板是否看到了你上周发送给她的报告。集中式知识库：一些文档合作工具包含将文件组织到可搜寻库中的选项，这使得治理团队的个体常识变得更加容易。事不宜迟，那么接下来就让咱们一起来看看最好的文档合作工具。最佳文档合作软件Baklib最适宜：在线制作知识库、产品手册、帮忙核心、API文档、产品介绍、在线手册等，外部常识协同和内部宣传。Baklib不仅仅是一个文档合作工具，它还是一个成熟的知识库，使您可能与您的团队或客户疾速捕捉、存储和共享信息。在文档合作方面，Baklib提供了一个简洁明了的界面，让你能够疾速创立文档并独特编辑它们，同时跟踪以前的版本。多个拜访级别让你能够齐全管制谁能够看到你的内容——你能够在线公布、在外部共享、生成通用的可共享 URL 或邀请特定的人。劣势：外部编辑采纳富文本编辑器和Markdown编辑器，操作相似word，轻松上手写作，多端适配，手机电脑都能够应用；多级栏目设置，内容分类管理，常识结构化，展现清晰有条理；知识库展现界面简洁好看，官网提供20+主题收费应用，依据须要进行一键切换；查找内容不便，输出关键词即可找到相干内容，大大减少查找材料消耗的工夫，进步工作效率；内容分享迅速便捷，实用于多个平台，点击链接即可查看；材料备份和下载，内容即写即存，反对多种格局的数据导出和备份团队协同性能，实现多人协同办公，减少办公效率，丰盛欠缺知识库内容。谷歌文档最适宜：须要具备弱小格式化性能的基于云的文字处理器的团队。作为 Google Drive 套件的一部分，Google Docs 相似于桌面文字处理器。然而，不要指望此工具会取代 Microsoft Word 和 OpenOffice Writer 等软件。你能够以 DOCX 等风行格局导入和导出现有文档，也能够在 Google Docs 中创立新文档。该平台有一组相当令人印象粗浅的编辑和格式化选项，共享文档非常容易——你能够通过电子邮件或可共享链接邀请协作者。劣势：以多种格局上传和导出文件，例如 DOCX、PDF 甚至 EPUB一旦您进行更改，文档就会主动保留版本会主动为您创立共享文档很容易，但您也能够将它们窃密丰盛的格式化选项Zoho Workdrive 最适宜：对大量文件进行平安的跨团队合作。 Zoho Workdrive 是一个在线平台，用于在团队成员之间共享和独特编辑文件。因为其团队文件夹性能，你能够应用 Zoho 的 Office 套件编辑器组织大量文件并与你的团队合作。 Zoho 的超能力在于其全方位的安全性。借助角色治理、管理员管制和工作区治理等性能，你能够对每个文件进行精密的访问控制。与许多相似的解决方案不同，Zoho Workdrive 为你的文件提供端到端加密。劣势：文档能够轻松组织在文件夹和工作区中传输中的文件应用完满前向窃密进行加密动态文件受 256 位加密算法爱护具体的权限治理容许您精确决定谁应该有权拜访数据创立主动过期的链接Paperflite 最适宜：想要跟踪其资产绩效的销售和营销团队。花几个小时创立引人注目的销售材料、制作有说服力的电子邮件、点击发送……而后用手指穿插。在 Paperflite 这样的工具呈现之前，营销人员和销售代表就是这样工作的。Paperflite 是一个文档治理和合作平台，可帮忙销售和营销团队组织、散发和共享他们的内容。该工具将你的所有内容存储在一个集中的、可搜寻的核心，该核心始终是最新的。你能够跟踪要害指标，例如观看次数、下载次数、分享次数，甚至均匀观看工夫。劣势：与其余数据分析工具集成剖析十分具体，你甚至能够看到你的潜在客户或客户参加最多的文档局部为每位客户创立个性化登陆页面须要电子邮件能力下载你的内容应用标签和分类组织你的资产应用 Baklib 将你的文档转化为公司常识你的文件是贵公司常识的一部分，Baklib 让你能够将这些常识组织到一个繁多的、可搜寻的在线门户中。你能够按类别或标签浏览，而不是尝试破译十几个文件夹的名称，无需费劲猜想确切的文件名并在搜寻框中键入它，你能够应用咱们的相似 Google 的搜寻，它会立刻跳转到最相干的后果。 ...

关于运维:常见问题FAQ页面的搭建步骤

“FAQ-常见问题解答”文档对于企业产品/服务来说是很常见且必要的，因为它能够让咱们的客户自行解决一些简略的问题，而不须要客服人员进行，为公司节俭了许多人力物力。所以搭建好常见问题解答文档是很重要的。这篇文章教你如何搭建常见问题解答文档，为你提供了FAQ文档的制作步骤。一起来看看吧。常见问题（FAQ）页面的搭建步骤步骤1：收集用户最常问的问题要确保企业在“常见问题”页面上蕴含的问题与客户理论遇到的问题相匹配。能够先询问客服，哪些常见的问题会老是被用户重复发问，以及产品最难把握的局部。此外，通过设置反馈表单向用户征集他们的实在想法。步骤2：导航清晰问题分类FAQ”导航应清晰易用。如果导航太简单，客户可能会放弃查阅甚至是来到。在问题列表中确定常见主题，而后依据该常见性开始对它们进行分类。步骤3：为每个问题写一个清晰的答案编写常见问题解答的形式至关重要。能够将FAQ看作是“答案圣经”。这意味着您应该花工夫写分明的答案。最重要的是，每个答案都应该简洁明了，并且是精确的。步骤4：提供好用的搜寻性能这是FAQ页面中最有用的方面，在前面的示例中，您将看到很多搜寻栏。客户进入FAQ页面时会想到一个特定的问题。除了让他们搜查之外，在页面顶部还有一个搜寻栏能够节俭用户的工夫。步骤5.与你的品牌外观和格调保持一致FAQ页面应该与整体网站格调保持一致，设计“常见问题”页面，而要增加一些品牌元素。思考设计要点以与您的品牌保持一致以上就是常见问题（FAQ）页面的搭建步骤。当初晓得了该如何搭建，但用什么来搭建呢？这也是许多企业面临的问题。因为市面上的FAQ搭建软件很多，但不晓得该如何抉择。所以这里呢我给出的答案是依据本人的行业和需要进行指标式搜寻，抉择适宜本人企业应用的，就是最好的。搭建工具抉择这里呢也给大家附上一个好用的FAQ文档搭建软件——Baklib，它是一款专门用来帮忙企业搭建FAQ和知识库的文档编辑软件。性能劣势：易于应用：关上浏览器就能够用，不懂编程技术会用Word就能轻松编辑文档，随时编辑、随时更新、随时公布，让客户点点鼠标就可轻松查看。便于搜寻：Baklib在用户每个看失去的FAQ页面都设置了搜寻框，采纳全局搜寻的模式，搜寻后果高亮展现。易于编辑：采纳块状的编辑器，所有的内容包含文本、图片、视频、表格、Markdown等内容皆为模块，能够自在拖拽重组，不再依赖传统的顶部工具栏，而是通过模块插入菜单、快捷编辑菜单、格局转换菜单等形式唤起，使得用户的编辑体验更专一。丰盛的展示款式：Baklib提供了15+可自定义页眉页脚的主题，让产品FAQ/用户手册更具观赏性。权限设定人性化：当须要对产品FAQ/用户手册进行合作和分享时，能够对编辑人员和观看人员进行权限设置，权限界线明显。数据安全：除了文件导入外，还反对整个站点的数据导出。帮我FAQ 博利瑞特维新人帮忙手册本篇文章的分享就到此结束了，曾经为大家梳理了FAQ的搭建步骤，也举荐了相干的工具软件，心愿可能帮忙到你疾速搭建FAQ文档。

关于运维:为什么要进行企业知识管理这三个重点问题要明确

常识治理是对组织中大量的有价值的计划、策动、成绩、教训等常识进行分类存储和治理，积攒常识资产防止散失，利用数据挖掘技术，对常识进行无效发现和寻找，促成常识的学习、共享、培训、再利用和翻新，升高组织经营老本，强化组织外围竞争力。全球化经营要求企业具备交换沟通能力以及常识获取、常识发明与常识转换的能力。而如何充沛地利用企业中无形的、无利的、隐形的各种有价值的信息，是企业放弃其劣势至关重要的一点。因而，常识治理成为进步企业外围竞争力的要害。做好企业常识治理，须要明确的三个重点问题：为什么要进行企业常识治理、企业常识治理有哪些注意事项、怎么解决常识管理系统没人应用的景象。这三个问题解决之后，再加上适合的辅助工具，企业常识治理就会顺利很多。为什么要进行企业常识治理1、员工是企业最贵重的资源，他们发明的常识须要保留下来成为企业的无形资产。它能更好地利用现有的常识资产，将其重新部署到企业可能获利的畛域，例如，利用一个部门的常识，改良或翻新另一个部门的产品，批改过来流程中的常识以发明新的解决方案等。 2、给员工提供常识分享平台，打造学习型团队，能够帮忙企业从过来的谬误和胜利中学习。 3、构建企业知识库，比方企业的培训资料、经典案例、策动计划等各种资源，加强了企业爱护其要害常识不失落或被复制的能力。 4、清晰理解企业常识散布，给管理者提供决策依据 5、利用企业“常识资源”取得市场竞争劣势，加强企业的创新能力，从而加强企业本身竞争力。企业常识治理注意事项1、在模式上可采纳问答模式，从工作中开掘更多经验性常识补充到企业知识库中 2、留神常识的积攒存储，材料从最后的版本到最终版本，都有记录并且可随时查问 3、设置好相干的权限，对不同角色的员工凋谢权限差异化，以此保障企业常识平安 4、反对PC、挪动等多终端操作，只有有网络的中央就能够获取知识库内容为什么常识管理系统上线后没人应用常识管理系统上线后没人应用的起因有很多，比方最后常识局部管理者认为常识管理系统对企业无益，没有进行充沛的筹备就草草上线，那么就会遇到例如零碎如何应用、什么样的常识能力上传共享（常识的界定）等问题；另外常识输出的过程无疑会减少员工的工作量，人都有懈怠的一面，如果平白无故减少工作量，很多人就不违心去配合；同时对于刚上线的常识管理系统不太分明次要是用来做什么，是不是对本人有用（甚至很多常识是无用的），最初零碎天然无非运行起来。但总的起因无非两个： 1、常识管理系统没有持续性的常识进行输出 2、零碎上提供的常识对员工的工作没有什么价值怎么解决常识管理系统没人应用的景象1、做好内容建设，确保上传的常识是有价值的，能让员工受害 2、建设相应激励机制（如排名、折算成绩效、礼品物质奖励等），塑造常识共享的团地气氛，使常识治理可继续化 3、正当地制订企业常识管理体系评估办法和准则，一直进行零碎的优化和降级常识治理并不是独自存在的，探码通过各类组件和模块与常识治理的多功能模块组合成一套残缺的企业流程治理平台——Baklib，为进步企业的整体素质、晋升企业外围竞争能力提供了一套迷信的解决方案。 Baklib作为一个旨在通过创立知识库帮忙企业进行常识治理的软件，其各方面的性能特点都对企业常识治理起到很大的作用。应用Baklib，三步搭建知识库：

关于运维:玩转自动化运维全流程吾爱无密fen

download：玩转自动化运维全流程一道题目看到一个很乏味的题目：实现一个办法，反对链式调用。 lazyman.lazy('Lisa').sleep(3).sleepFirst(4).eat('lunch');// 4s后输入：Sleep Afater 4// 输入：I'm Lisa// 3s后输入：Sleep After 3// 输入：I'm eat lunch解法话不多说，间接上代码： class LazyMan { callbacks = []; constructor() { this.next(); } next() { setTimeout(() => { const firstFn = this.callbacks.shift(); firstFn && firstFn(); }, 0); } lazy(name) { this.callbacks.push(() => { console.log(`Hi, I'm ${name}`); this.next(); }); return this; } sleep(time) { this.callbacks.push(() => { setTimeout(() => { console.log(`Sleep after ${time}`); this.next(); }, time * 1000); }); return this; } sleepFirst(time) { this.callbacks.unshift(() => { setTimeout(() => { console.log(`Sleep after ${time}`); this.next(); }, time * 1000); }); return this; } eat(item) { this.callbacks.push(() => { console.log(`I am eat ${item}`); this.next(); }); return this; }}const lazyman = new LazyMan();lazyman.lazy('Lisa').sleep(3).sleepFirst(4).eat('lunch');题解剖析这个题目，首先要晓得如何实现链式调用，就是设置一个类，类中申明的办法的结尾最初都会从新返回该类实例的援用，这样就可能链式调用了。 ...

关于运维:关于帮助中心你需要知道的一切

帮忙核心，就是在产品网站或者产品外部将产品应用上遇到的问题，或者对于产品的所有问题进行汇总，通过Q&A的模式展示给用户，帮忙用户疾速解决在应用上遇到的问题。帮忙核心为用户提供一个渠道，疾速找到解决方案，缩小人工工作量。一个好失去帮忙核心可能在当用户遇到问题时，可能通过间接搜寻关机次找到解决方案，帮忙用户更好更快的解决问题；用户在首次应用产品时，给予操作疏导，给新用户良好的应用初体验；当用户搜寻问题时，能够通过帮忙核心在解决方案外面适当的疏导用户购买产品；并且良好的应用体验可能给企业建立好的品牌形象。帮忙核心的定位帮忙核心的定位是帮忙用户解决间接解决问题。帮忙核心的用户将用户分为有新用户和老用户，新用户点进来最可能须要一个老手领导；老用户点进来可能须要征询个别问题，比方批改明码，查看优惠券，批改订单等，在帮忙核心用户征询的问题可能不能第一眼看到，因而须要一个搜寻框帮忙用户搜寻问题。帮忙核心问题分类分为服务类问题与间接展现答案类问题。有的问题须要用户依据步骤进行一步一步点击操作，即自主化服务，有的问题提供文字解释即可。依据用户征询问题是否解决的情景分为三个局部：首先帮忙核心恰好有用户须要征询的问题，用户能够通过点击相干问题即可解决本人的问题；其次，用户第一眼没有在帮忙核心解决问题，有个搜寻框，用户的问题如果搜寻框没有方法解决；那么就须要进行最初一步，留下客服相干联系方式（智能机器人），用户就能够进行人工服务，让用户有问题都可能失去解决，不至于遗憾来到。综上所述，帮忙核心组成的四个元素别离是：搜寻框、惯例问题、自助服务、客服、老手领导。搜寻框搜寻框能够依据搜寻的内容展现相干信息链接，也能够依据搜寻相干内容进行筛选最合适的内容。惯例问题惯例问题通常采取列表的模式。通过列表，用户能够容易找到本人问题的分类，另外将列表中罕用问题独自进去，不便用户一眼可能看到~ 自助服务自助服务，重要的是展现的逻辑程序。客服和老手领导就略过了~ 帮忙核心的制作软件Baklib提供一站式帮忙核心制作服务应用Baklib，十分钟就能搭建起一个帮忙核心界面，零试错老本，搜寻Baklib，进入官网，注册账号，新建站点（帮忙核心），抉择“帮忙核心/FAQ/在线问答”。填写站点（帮忙核心）名称，填写二级域名，是收费的哦，有利于搜索引擎（百度、360等浏览器）收录你的网站，抉择主题色彩，这些内容前期都能够在设置界面更改。点击开始创立后就进入了后盾界面，设置不同的栏目将问题进行分类，补充帮忙核心内容就能够了制作进去的界面就像这样，另外，官网还提供了20+主题模板，不同的展现成果，一键利用就能够了除此之外，Baklib还有一些特色性能反对富文本和Markdown编辑，能够将图片、视频、文件等上传到文章中，间接在文章外部编辑保留，在帮忙核心就能展示，随时能够更改调整内容；网页剪藏，能够间接将网页内容一键提取保留到站点外部，进步工作效率；全文检索，搜寻相似百度，关键词高亮显示，给用户良好的搜寻体验，在问题下方还有文章反馈按钮，能够查看该答复是否解决了用户的问题；多级栏目分类管理内容，编辑内容的时候右侧能够间接抉择保留到的栏目下；页面主题模板，都是收费应用的，一键切换就能在前台，也就是帮忙核心页面看到，后盾内容和前台内容同步；访客数据统计，能够理解到用户最关怀的问题；多端适配，反对手机端和电脑端显示，帮忙核心不仅能链接到官网，还可能内嵌到app、微信公众号等中央；帮忙核心的内容繁多，数据安全肯定要有保障，Baklib反对数据备份和下载。帮忙核心做得好，能让用户最间接找到本人的问题的答案，可能节约网站的经营老本。

关于运维:档案管理系统平台助力实现档案管理现代化

随着信息技术的迅速倒退，信息资源数字化、网络化的过程进一步放慢，档案管理的信息化建设曾经成一个备受关注的热点。企业，学校，政府单位等都须要对档案进行信息化治理，来适应当今社会的信息化、网络化发展趋势。什么是档案管理系统档案管理系统，就是通过建设对立的规范，标准整个文件治理，包含标准各业务零碎的文件治理;构建残缺的档案资源信息共享服务平台，反对档案管理全过程的信息化解决，包含:采集、移交接管、归档、存储管理、借阅利用和编研发布等等，同时逐渐将业务管理模式转换为服务化管理模式，以服务模型为业务管理根底，业务流和数据流建设在以服务为模型的零碎平台之上。档案管理系统，为企事业单位的档案现代化治理，提供残缺的解决方案，档案管理系统既能够自成零碎，为用户提供残缺的档案管理和网络查问性能，也能够与本单位的OA办公自动化和DPM设计过程治理，或者与MIS信息管理系统相结合，造成更加欠缺的现代化信息管理网络。目前档案管理存在的问题一、互联互通难实现建设多个业务零碎数字档案、或跨地区跨部门的大型企事业单位的各个分支容易造成“信息孤岛”，难以突破不同地区、不同零碎的壁垒与界线，信息共享率低，难以实现整体数据展现与剖析。二、数据品质难把控传统档案管理人员业余度参差不齐，在不同分公司、不同部门、不同地区的治理或多或少存在差别，不同的状况导致档案数据品质难以保障，不易实现对立治理、对立调配。三、应用效率难进步传统档案借阅及查问调取消耗工夫长且无奈实现全文检索，升高了应用效率；没有互通互联的档案更新频率也不迭智能档案快，这使得泛滥值得借鉴的历史数据的复用水平升高，减弱了档案保留的重要意义。四、存调老本难管制传统档案保留节约大量的纸张、空间，其调取与还回地过程中又消耗大量工夫与精力，导致档案的存调老本高，难管制。五、贮存环境难掌控传统档案的制成资料、温度、湿度、光线、污染物都会对档案“寿命”的长短起着至关重要的作用，而这些天然因素是比拟难以掌控的。从以上提到的几点来看，档案管理还存在许多问题，如果不去解决，尽管没有特地本质的影响，但还是会带来很多不便。相同，如果解决好了档案管理这个问题，那么或者工作的各个方面都能失去晋升。档案管理软件的作用（一）进步工作效率档案管理系统软件的创造，逐渐代替了传统繁多的档案归档模式，不必像以前过多编辑档案的条目及内容，齐全能够在系统软件的提醒下一步一步进行建档、归档等工作。一旦发现错误档案信息，可间接在零碎中进行更改，省去了传统档案管理模式下的从新编辑、打印等环节，节俭了工夫和资源。如发现漏输的档案信息，可直接插入补充，简单易行，省去了对其余办公软件因不相熟而造成的失误，使用者也能够随时随地查阅档案数据，间接进行关键字等形式搜寻，一搜即可，不再须要查找翻阅等，极大地提高了工作效率。档案相干文件输入时也采纳了对立的电子格局，兼容于大多数电脑系统，不便打印和传阅。在上报归档信息工作方面，可将系统软件解决的后果间接加密上传到下级治理部门，节俭了人力和工夫。（二）可能更好地开发档案内容信息档案管理系统软件，能够在对档案的根底信息编辑之后，增加此档案的扫描电子图片，这样就做到了一点开目录文件就能够同时采集到此文件的电子图片，不便档案管理工作人员的查阅以及上报等档案工作。档案管理系统软件还能够对相干的档案文件进行相关性编辑，这样就能够轻松地通过检索工具对各种无关的电子文件进行查找，使用者能够更好地对事件的前因后果进行理解，使档案内容施展更大的作用。同时，档案管理系统软件还包含数据的传送、接管、备份、复原等性能，方便快捷，此外还具备用户治理、日志性能、事务揭示等。（三）更好地实现档案窃密性能个别的办公软件只能设置简略的明码，极容易造成泄密，而档案管理系统软件能够通过设置权限治理进行管理员、查阅人等角色分工工作，能够设置人员的查阅权限等，这样就起到窃密的成果。在查档人进行查档时，零碎可自行记录，造成查问日志，对数据传输、用户拜访、内容打印等操作进行了平安设计，以保障档案的应用平安。档案管理系统软件还装备了电子锁，即便他人关上了档案管理人员的电脑，也无奈关上档案管理系统软件。抉择适合的档案管理软件以上提到了档案管理软件的作用，证实了它对于办公还是很必要的，那么当初的问题就是抉择一款好用的档案管理软件了。这里举荐一款能够用来进行档案管理的软件——Baklib，它集中了在线协同、多人协同、文档解决、博客建站等属性，具备以下一些性能。集中整顿文档协同在线操作多级权限治理水印、禁止复制反对设置独立域名站点分享性能…对于目前的各方面智能化的社会来说，档案的现代化治理的重要性显而易见，而且想要实现也并非难事。所以最重要的问题就是如何用最好的形式来最无效地实现，这里只是分享了一个工具软件助力实现，但真正的抉择还是要依据本人的需要登程，抉择最适宜本人的。

关于运维:企业知识管理的步骤有哪些

常识治理是新世纪企业倒退的一项重要内容,以常识治理为外围的管理模式曾经受到了各个企业的器重,也开始成为企业管理工作中的热点问题。企业常识治理步骤认知第一步：是企业常识治理的第一步，次要工作是对立企业对常识治理的认知，梳理常识治理对企业治理的意义，评估企业常识治理的现状。帮忙企业理解常识治理是否须要常识治理，确定常识治理施行的正确方向。次要工作包含：全面、残缺的常识治理常识治理培训，特地是高层常识治理；利用常识治理成熟度模型等评估工具评估企业常识治理现状，通过钻研剖析常识治理的短期成果；布局第二步：常识治理和常识治理的全面剖析是在充沛理解企业需要的根底上，具体布局也是保障常识治理施行成果的重要环节。本环节次要是通过对常识治理现状和常识类型的详细分析，联合业务流程等多个角度进行常识治理布局。在布局中，记住常识治理只是一个过程，而不是常识治理。只有将常识治理充沛融入企业治理中，能力充分发挥常识治理的施行成果。次要工作包含：从策略、业务流程和岗位进行常识治理布局；企业治理现状和倒退的真实性剖析；制订相干战略目标和施行策略，正当革新常识治理施行的需要剖析和布局；为企业建设常识治理根底。试点第三步:试点常识A阶段能够称为S阶段的连续和实际。依据布局的根底，依据布局抉择适合的部门和流程进行常识治理实际。从短期成果来评估常识治理布局，并联合试点中的问题进行修复。次要工作内容:每个企业都有不同的业务体系，包含:生产、研发、销售等。不同业务体系的工作特点不同，实现工作所需的常识也不同。因而，有必要依据不同业务体系的工作特点和常识利用特点，制订最合适、老本最低的治理办法，称为常识治理模式分析KM。此外，思考如何辨认和判断要害常识的现状，而后在KM模式下采取有针对性的改良行为，即常识治理KP。因而，本阶段的重点是联合企业的商业模式，梳理常识体系，剖析常识梳理后果，以确定常识治理的具体策略和改良行为。本阶段是常识治理从战略规划到施行的阶段。依据对企业试点部门常识治理现状、需要和改良打算的剖析，应思考引入反对常识治理施行的常识治理IT零碎。依据前几个阶段的布局和剖析，抉择适宜企业现状的IT着陆办法，如具备常识治理性能的办公合作零碎、常识管理系统、常识门户着陆等。能够说，本阶段是常识管理体系施行中最艰难的阶段，须要建设弱小的我的项目保障团队，做好业务部门、征询公司、零碎开发商等方面的协调工作。推广第四步：在常识治理的根底上，常识治理将在企业中大规模推广，以充沛实现其价值。推广内容：常识治理试点部门实际，复制企业其余部门；全面融入企业业务流程和价值链；初步建设常识管理体系；综合利用常识管理体系；实现社区、学习组织、头脑风暴等常识治理改良打算的运行，实现常识治理的全面推广和价值管制；将常识治理融入行业的日常工作；治理和技术的协调与倒退；管制思维和指标的凌乱和利益；建设常识治理的无效激励机制。以上提到的这几个步骤，都是企业在进行常识治理过程中须要通过的。理解了企业常识治理的步骤，那么如何能力做好企业常识治理呢？这可能是大多数企业都在思考的问题，因为在“常识治理”这个浪潮中，真正可能做好的企业并不多，那么也就短少了竞争力。在小编看来，做好企业常识治理并不那么难，前提是你有一款好用的工具。Baklib是一款常识管理工具，它通过创立知识库的形式帮忙企业进行常识治理，它领有的丰盛的性能可能使企业的常识治理更加简略且无效。以上提到的常识治理的步骤是让你理解企业常识治理都要经验哪些过程，而提到的常识管理软件是真正可能帮忙企业做好常识治理的工具，可能起到本质的作用。

关于运维:DevOps落地思考

文章转载自：前线Zone社区作者：汪照辉说到DevOps解决的外围问题？他并不是简略的话把运维干掉。为什么团队开发运维形式备受诟病？说到底还是一个效率问题，因为研发和运维之间的利益是不统一的，所以导致效率就很低下。其实DevOps目标最重要的理顺研发和运维之间的关系，能满足彼此之间的关系，调动大家积极性，从而晋升效率。在这种状况下，咱们须要扭转这种形式，须要思考怎么去通过不论是组织架构，或者零碎架构去做调整，而后去理顺这个关系。就是说怎么去重塑研发运维的架构，让彼此之间的利益可能相互满足，而后去晋升效率。从我而言，分为几个视角。一个是零碎档次即利用档次的视角，咱们从下层微服务架构的应用服务到微服务部署平台，到最初的资源，最终到底层的物理介质等等这些。在不同档次，运维的人员也都会不一样。另外一个视角就是整个利用的周期过程，从需要到剖析、设计、编码、测试，整个生命过程。这其中也波及不同的角色。还有很重要的一点是咱们明天须要探讨的是管控平安，波及不同的角度都须要把运维和开发的关系理顺，研发运维整个体系的效率能力晋升下来。从传统的组织架构而言，就是首先做个分层。咱们当初的DevOps提倡这个研发运维一体化。那研发的话，能够把利用的研发运维这个职责承当起来，底层这基础设施资源这些能够由传统的运维去做，因为他们也是善于这块的。所以能够由他们持续来做这方面的工作，就相当于说有咱们原来的分段再去做分层的一个解决。这样的话，原来的运维人员也不会说没有事件可干。咱们在谈DevOps的时候，从接触这些厂商来说的话，更多关注的是开发，关注运维绝对会少。从Google S1视角来说的话，他们更关注运维，通常观点是不一样的，这个是值得咱们去思考。关注运维无疑是正确的，就是从实现开发运维一体化这个角度来说的话，以系统工程的思维来解决工程软件的问题时从整体下来思考，会比你单单去思考研发要好很多。因为即使把研发的效率晋升了，运维效率晋升不下来，整体上效率还是有瓶颈的，还是解决不了理论的问题。要重塑研发运维这个架构，首先要解决的就是人的关系。咱们前几天在群内群嘲【详情可查看明天第三条文章】的时候说要把运维砍掉这个是有点儿太果断。你不能一刀把运维砍掉，而是要思考这个人尽其才。像国企的话是须要思考社会责任的，不能无底线什么都做。在传统运维的根底上，去把这整个一个体系做重构之后，能够从原来的单体架构逐渐过渡到交融架构。从微服务容器包含DevOps这个思维来说的话，微服务主用微服务架构，而后逐步构建可罕用的服务，容器就能够很好的去匹配微服务架构来实现弹性伸缩等能力。从这个思考来说，咱们就能够把公司内一些可共享的服务逐步提取进去，成为中台云服务。而后把这些基础设施运维的活交给根底的运维人员去治理。而后就是分档次了。前台的话就是咱们把这些业务利用作为前台的业务利用。其实从最简略的一个档次划分，就是前中后三台。咱们手中的中台可能和阿里说的中台是不一样的，从利用架构角度来说，阿里中台更多的是从企业架构来说的，所以说是有一些差异的。说到咱们理论冀望的DevOps平台是什么样的，咱们作为一个用户都有一些本人的思考，所以我将从我的角度简略地做一个介绍。咱们要实现这个DevOps平台，首先就是须要你在部署的时候去做初始化。当初咱们接触的这些厂商来说，这些什么角色都是让客户本人去定义，但其实作为一个平台的提供者，首先要晓得你的平台能反对哪些能力、哪些角色，你要有初始的能力模板。实现DevOps平台很重要一点，就是业务的一个解决能力。当初基本上是没有这方面的一个能力。然而这块无疑是十分要害的，对于咱们来说十分要害的是业务部门如何收集需要并进行剖析合成。再把这些公共的需要局部提取进去，这是很重要的。为什么要实现中台，很重要的目标就是要实现复用，这是中台是十分有价值的一部分。如果你不做复用的话中台就没有意义。所以说最终要把这些业务中可能共享共用的货色提取进去，做一些中台服务。但这些是在DevOps平台外面基本上是做不到的，所以我感觉这部分是比拟重要的局部，从业务到我的项目布局，对于企业和终端用户来说，也是要求相对来说较高一些，因为它须要一个全局的布局能力，但当初的话，很多企业是其实是做不到的。因为当初根本都是我的项目制，来一个需要起一个我的项目，所以最终复用的能力是很低的。从整个研发的角度，包含资源管理，很多人关注的是CI/CD，但从我集体角度来说，当初CI/CD并不是很重要的，因为CI/CD的实际相对来说是比拟容易的。一个我的项目和最终去部署交付的利用，其实包含交互的制品其实是不对等的，一个我的项目可能最终交付的是多个制品，也可能说多个我的项目交付一个制品。这个就是在依据咱们整个布局去做的解决。如果用容器的话最终可能交付镜像，最终的是基于咱们理论的利用需要来确定。在这块儿，我感觉很重要一点是度量的问题。目前很多平台都有相应的能力，然而在度量指标这块儿还是短少深度的思考。再说到整个API治理，能够作为DevOps的一部分，它更多在运维阶段是作为运维的一部分。但这部分也是很重要的。最终咱们都在提倡生态，最终你要建设生态也是很重要的一部分内容。再者对于平安这块儿，其实不只是DevOps平安，它会波及各个层面。最重要的话就是在对的档次抉择对的平安形式、反馈策略这是很重要的。所以，咱们须要从一个整体来思考问题。就是说中台和多云治理，也是须要从依据企业理论状况来看，如果你仅仅把这些利用全副部署到私有云平台，基本不须要基础设施的运维，还是说我间接用SaaS服务基本用不着开发人员，所以不同的场景的话，须要的人员和投入是不一样的。你不可能说把数据放在私有云上。也不可能说去间接用这个SaaS服务。所以说咱们还是须要去抉择不同的云平台。一般的资源须要一个对立的平台来治理。治理的话就是为了提供对立的资源服务。其实云的思维根本都是统一的。为什么说须要中台，其实就是要做服务，要做共享。如果一个企业把日志、配置的认证的权限等这些组件全副做成中台服务化，那么一个企业就只须要一套日志服务，一套权限服务，也不须要每个开发一遍。这个能够节俭多少工作量和老本。这样在企业外部就能晋升效率，这也是咱们所谋求的指标，不论你用的DevOps或者用其余的，最终要晋升的就是效率问题。上面，简略分享一个案例。这是某一家厂商所提供的一个计划。它有两个方向，四个方面。就是设计时，实现平安爱护。经营时，实现继续监测响。四个方面包含的是，开发、测试、平安管控与经营，基本上只有包含这四个方面，就能基本上满足咱们的需要。实际上运行时都须要去思考很多因素，在部署之前须要思考镜像破绽这些，尽量把所有关键因素毁灭在运行之前，运行之后同时也须要思考，因为毕竟还波及网络、主机、容器、病毒等等，所以说在经营时须要并重。平安左移也就是咱们做的DevOps平安，有一个比拟关注的模块就是无论如何，平安是很重要的一个前提，在这部分波及很多平安的内容，比如说代码平安、配置文件平安，建设平安及微服务平安等等都须要做相应的一些查看，就是尽量把这些不平安的因素阻断在部署之前，这是咱们须要实现的一个内容。最初就是经营时须要咱们做到看得清、管得了、防得住。同时，可能和咱们整个体系无缝交融，这是要求咱们要实现的能力。

关于运维:中台和多云管理是伪问题运维要集体下岗了吗

运维还有将来吗？来看看群友怎么说？ 01 如何对待中台和多云治理？ @A1：我认为这两个都是伪问题，没有钻研价值，相似IT行业的气功治疗法。多云治理是资源纳管平台，实现基础设施资源对立治理和调度。云计算解决的是分布式网格计算问题，也就是算力问题。也就等同于利用CPU、内存、存储、网络等基础设施资源实现分布式计算、网格计算能力，通过提供标准化的基础设施资源计算服务（IaaS服务），撑持不同企业的大数据量计算和存储等需要。 @B2：能够去用代码治理各种云的资源设施~ 移植、复制、降级，都会容易些~下面两个可能还不够用，还须要多个环节去帮忙完满实现，讲真一个企业用多个云，很多场景是必须的，有价值的~ @A1：这种云计算的认知，还是把云当做特大号idc，只是存储计算网络三大件的资源池。实际上，云计算远远不只是一个资源池。云计算的定义能够有多个角度，咱们先谈开发者角度：云计算是通过API把Infra和底层模块形象为服务，用以晋升开发经营效率的平台。 @C3：“云计算” 这个概念或者符号原本就是用来简化简单的事实场景的，就像人要取名字一样啊，这些分享和文章只有是正当的去解释某一个局部的场景，就是有肯定价值的，可能你不喜爱，那你应该分享你的“观点”。 02 运维是不是要个体下岗了 @A1：我的文章，共大家打靶子 https://mp.weixin.qq.com/s/Vk... @D4：看这题目就不必看了，还定位运维在传统岗位上。当初网工都在开发自动化产品，早不是过来那个时代了。 @C3：这篇的新意在哪里？我要的是新“观点” @A1：没啥新意，就是把我公司的做法总结一下，咱们曾经干掉了运维，连带dba和专职测试都被干了，只有网工和平安还在，其余都是dev。 @E5：求教一下，没有运维的话，公布平台谁来负责啊？洽购的第三方公布工具吗？还是让每个研发都去学ops，做CI/CD？ @F6：第一次据说不须要运维的，是不是要把运维的工资给开发，让开发去运维呀 @A1：对，devops @G7：那么，devops岗位算开发还是运维嘞 A1：基本就不应该有这个岗位，有这个岗位的公司，都是被伪专家忽悠了 @H8：https://www.zhipin.com/job_de... 看一下被忽悠的公司？ @A6：什么都让开发干就行了，运维测试前端挪动端，让后端一个人做就行了，后端无所不能。 @I9：这个思路不是干掉了运维，而是间接买了他人的运维相干的服务吧。 @J10：devops不是开发和运维的桥梁吗，怎么成把运维干下岗了.. @A1：是的。all in cloud @A5：阐明还是小公司，买服务就够了，不须要业余的效力团队来解决简单问题。 @I9：我不太确定您公司的服务量级哈，这个两个抉择就从简略的老本下面感觉就是不对等的。 @J10：就算有自动化服务，也须要人去干涉吧 @A1：一千个微服务，研发团队四千人，不算大，也不算小 @A6：公司到了肯定规模不都是自研嘛？只有小公司才是考现成的sdk @I9：这四千人外面没有人来做本人的devops相干的平台建设吗？还是间接走云的那一套流程的？如果间接用的话，在落地适配的时候没有什么不适应的中央吗？咱们这毕竟是平安沙龙哈，那devops这些须要和平安挂钩，卡点的局部应该怎么做呢？ @A1：有个internal developer platform团队，规模还不小，然而他们只是把云和其余saas厂家的工具粘合起来。他们不是运维，不对sla负责。我也在摸索。 @K11：我看大家对干掉ops争议挺大的，其实您有机会能够来前线分享一下最佳实际，把具体怎么做摆出来也会比拟有说服力，可能是个很有价值的探讨。 @A1：其实没什么争议。除了运维总监们，大家都感觉运维团队要被干掉 @H8：这个不错如何干掉运维那也是最高效的形式？教教咱们 @K11：这个群里运维不多，很多还是开发的，实践上并不对运维被干掉有多大的冲突，只是没有看到你们的最佳实际所以有异议。 @L12：所谓的all in cloud，无非就是把运维的活丢给云平台去做了。并不是不须要运维。理论业务场景，私有云只是一种模式，规模更大的公司肯定是混合云，所谓的干掉运维这是噱头。根底平台须要研发和运维。 @M13：运维有很多日常工作，很繁琐的，比方凋谢平安组，加白名单等等这些小活儿 @A1：所以平安团队当初就搞个爬虫，在公司每个repo里巡逻，看到老版本的镜像，就提交个降级版本的pr看得出来，你没正经用过云，顶多在云上开了一百台虚拟机。 @L12：devops工具和云计算解决了很多重复性的工作，进步了效率。大公司自身曾经有很多AIOps的实际了。大一点规模的公司，业务的日常扩容，容量布局都曾经自动化了。说干掉运维是童稚。 @N14：一个律师因为会蛋炒饭，而后把厨师炒了，而后在他人做律师工作的时候去掌个勺 @B2：明天我还在写文章，feature flags是如何让DevOps更并重Dev的？我也特地关怀这个话题 devsecops~ 我之前搞过devops，mlops，唯独对devsecops没教训，尤其是想关注咱们的产品是否在devsecops里会有一些利用场景 @A1：当初什么都shift left，然而平安真的移不动，没人违心做平安工作。咱们的平安工作，都是依附平安团队邮件驱动。比方最简略的容器镜像打补丁，真的很烦。所以平安团队当初就搞个爬虫，在公司每个repo里巡逻，看到老版本的镜像，就提交个降级版本的pr。 03 dev 和ops同学怎么对待平安？ @O15： https://github.com/cncf/tag-s... 搭车举荐，参加翻译了云原生平安白皮书中文版 @A1：好多中央要求太高了，“为了让客户端和服务器通过加密技术双向验证身份，所有的工作负载的通信都必须进行互相/双向认证。”， mtls带来的益处抵不上施行老本。 @A1：内容品质很高，然而显著是平安从业者写给平安从业者的，没有思考到其余团队对可施行性和老本的需要。 ...

关于运维:微软云对象存储攻防

文章首发于：前线Zone社区作者：ricky 01 Blob配置谬误-公开拜访在创立存储账户时，默认是启用Blob公共拜访的，当创立容器的拜访级别配置为容器（匿名读取拜访容器和blob）时，就会导致匿名申请枚举容器中的 blob。当配置拜访级别为专用或禁用Blob公共拜访时，提醒ResourceNotFound。当配置拜访级别为Blob(仅匿名读取拜访blob)时，能够读取容器中的blob，然而不能够枚举。 02 应用DNS枚举每个资源终结点都是<存储帐户>.blob.core.windows.net 存在时，能够解析不存在时，无奈解析应用Dns 枚举进行发现 python dnscan.py -d http://blob.core.windows.net -w subdomains-100.txt 03 Bucket Object 遍历当创立容器的拜访级别配置为容器（匿名读取拜访容器和blob）时，就会导致匿名申请枚举容器中的 blob。 04 account keys透露 Github代码中泄露网站JS代码 05 子域名接管创立好Blob后自定义域，即能够通过自定义域去拜访资源。当删除该存储账户后拜访。再次创立雷同的存储账户去接管子域名。

关于运维:中小企业如何搭建在线客服中心

随着人工智能时代的到来，人工智能在企业服务畛域的理论场景尤为迫切，对智能客户服务机器人的需要也呈现在历史时刻。同时，随着用户对体验的需要一直进步，传统企业的客户服务部门往往陷入肯定的自我矛盾循环。目前，企业客户服务老本高，客户服务人员反复工作多，强度大，天然会带来客户服务流动性高、招聘艰难、培训老本低等问题。此外，随着智能手机的一直遍及和渠道和流量的扩散，用户在系统的工夫内与企业互动的场景越来越多。然而，因为缺勤和回复不及时，用户体验的品质大大降低。能够看出，企业客户服务部门正面临着老本、效率等综合性问题。毫无疑问，智能客户服务的呈现能够无效地解决上述痛点。然而，企业能够投资的开发成本是无限的。而大多数中小企业，在从未接触过人工智能的状况下，不可避免地会质疑智能客户服务：咱们须要花很多工夫来拜访这个机器人吗？咱们须要领取昂扬的费用吗？基于以上痛点，大多数企业都抉择了创立在线客服核心去解决相干问题。在线客服核心的劣势：沟通形式多形式。您能够依据须要抉择（文本/语音/图片/电子白板/小视频/截图等）。您能够通过图形或视频或电子白板实现0阻碍沟通，打消与客户的信息不正确、表白不残缺和不分明的问题，解决投诉中强烈的语言纠纷（最初，我批准看到敌人的答复；可能疾速、高质量地接待更精确的客户，节俭电话老本和劳动力老本；依据公司客户群体的特点，可施行一对多或多对一的客户接待形式，实用于不须要破费大量精力的客户，一对多疾速接待，不会因为客户服务人员的谬误而失去高质量、精确的大客户；能够整合计算机网页、挪动网页、应用程序、微信公共账号、小程序、第三方客户服务等各种渠道的客户；能够应用挪动设施接待，不用让客户服务人员困在计算机前，实用于一些服务小企业，客户24小时接待；及时监控其渠道流量，数据统计可随时查看统计或导出保留，剖析市场策略，保留聊天记录；装璜立面，当初是服务时代，互联网优化服务意识，客户服务零碎是沟通服务的工具软件。并留神客户心理，与客户的意见和倡议无关。想要做好线上客服核心，除了增强产品的应用与理解外，一个好的“产品知识库”就显得尤为重要。产品知识库是什么产品知识库是将产品操作、介绍等进行对立存储，是信息提取的柜员机。除了被存储，更重要的是被应用。快捷不便的查问、提取、帮忙客服实时查问、在线学习、推广应用、对立话术脚本等；产品知识库也是晋升效率和服务质量的工具，不仅能给外部客服看还能够提供给用户一个自助服务的好平台，同时为当前的机器智能客服上线提供无效的数据库，在管制人力老本方面几乎是一把好手。如果大家对产品知识库不理解的，如下图所示为小鸟的产品知识库。产品知识库的劣势在知识库中创立常见问题，当有客户征询到此类问题时，客服能够将问题链接发给用户，节省时间。用户拜访产品知识库，自助学习产品常识，在加重在线客服压力的同时，能更快解决应用上的纳闷，晋升用户体验。客服通过产品知识库的学习能使答复更加对立，业余。在员工培训时，产品知识库是十分好的培训教材。如何创立无效的知识库良好的知识库能够帮忙员工进步工作效率：将问题通过Q&A查问模式转移到知识库中，让您的客户毫不费力地取得他们的问题的答案的同时，让工作人员腾出工夫解决真正重要的问题。在理解到知识库的重要性后，是不是想马上入手创立一个？但在此之前先让咱们理解下如何创立一个无效的知识库。您的知识库应：及时更新知识库内容易于拜访东倒西歪，易于浏览能真正地解决常见问题节俭客户工夫内容放弃最新建设知识库的正确创立过程：确定知识库的观看人群（对外还是对内？）梳理知识库文章的构造（如果是对内的话须要老手指南、常见问题、操作难点、产品更新）撰写知识库文章，一问一答的模式（白话文不要讲专业术语）图文联合多用图片和视频更易被了解提供好用的搜寻性能提供反馈窗口给用户，剖析和改善您的文章应用Baklib搭建举世无双的产品知识库Baklib是一款在线的产品知识库搭建工具，咱们不仅为产品方提供了好用的常识整顿平台，还提供了优质的常识公布平台，通过Baklib制作的文档内容会主动转化成网站，通过设置的url链接就能进行拜访，不便外部员工和客户在线观看，帮忙他们对产品的了解。

关于运维:什么是FAQ怎么编写FAQ文档

“FAQ”这个关键词可能很多人都见过，但如果不是行业内的人大略不会晓得它的意思，所以这篇文章就介绍了什么是FAQ以及怎么编写FAQ文档。FAQ是Frequently Asked Questions的缩写，中文释义为常见问题解答，或者是帮忙核心。据钻研表明，客服反对每天会破费2.5小时向客户答复反复问题，上班族一年要花费150小时查找材料，而一份优质的FAQ文档至多能够解决用户80%的常见问题。因而，一个优良的产品，应该器重FAQ文档的设计。 FAQ有什么用？FAQ页面是网站中一种常见的在线帮忙形式，一个杰出的常见问题（FAQ）网页使得访客和用户更容易地找到问题的答案。精心设计的“常见问题”（FAQ）页面能够答复无关您的产品或业务的特定问题，它有以下这些益处：通过向客户表明您理解他们所面临的问题以及如何提供帮忙来建设信赖；通过答复常见问题来改善客户服务；通过缩小反复发送给反对人员的电话和电子邮件，节省时间和金钱；加强您在搜索引擎中的知名度（蕴含更多关键词的faq页面更易被搜索引擎喜爱）；通过轻松找到他们要寻找的内容而不是搜寻站点来改善用户体验。将答案间接链接到博客文章或内容页面能够使访问者更轻松地获取其余信息；展现产品专业知识并加强您的业余形象；突出要害信息，疏导用户，刺激生产。如何构建常见问题（FAQ)页面FAQ作为网站整体设计的一部分，他须要是一个独自且残缺不应该是预先的想法，也不应该是设计不良的网站的解决方案。整体布局：FAQ页面的整体格调上应该是简洁式，须要让用户一眼就能找到本人想要的；问题收集：倡议先用工具作个问卷调查，讲产品应用或购买中的问题梳理下来让用户来排序，再凋谢给入口让他们提出问题；问题分类：对问题进行分组划分，以疾速帮忙用户找到相干答案；问题搜寻：当问题较多后为了可能更快解决问题，一个好的智能检索则不可或缺。FAQ文档制作注意事项用最简略的文字解答用户最常见的问题；能用技术或者工具解决的就不要应用人力去解决；将FAQ问题进行分组治理；FAQ问题须要失去器重，防止很长时间不更新本人的FAQ文档资料；厂家不要为了做FAQ而去做FAQ，FAQ存在的意义是更好的欠缺产品，也是每次产品更新时重要的参考根据。一个好的FAQ页面将施展着十分重要的作用，在国外非常被器重，成了每个网站必备的点。反观国内只有上了规模的企业才有部署，而且大多只是为了草草了事。这是为什么呢？一方面是意识的缺失，另一方面则起源与技术的不够；国内60%企业的官网多为动态的页面，搭建者和网站维护者个别为建站公司，网站的拥有者很少具备页面批改能力。所以每次页面的变动都是由建站公司提供的，技术上的缺点和操作的不便捷性使得FAQ这种较为灵便的页面未增加到网站中！上面为大家带来一款自主搭建FAQ页面的工具——Baklib，收费而且操作简略，10分钟就能搭建起一个简洁好看的FAQ页面。制作流程仅仅须要创立站点——内容增加——站点设置——FAQ成果展现，四步一个简洁实用的帮忙界面就进去了。就算是不是行业外部业余人员，通过这篇文章你也应该理解了什么是FAQ以及怎么制作FAQ文档，心愿能对你起到肯定的帮忙。

关于运维:虚拟化技术aliyun

1.云服务器ECS(Elastic Compute Service)：可弹性伸缩的计算服务，即云服务器2.过程级虚拟化----利用层面形象(java虚拟机JVM)零碎虚拟化----平台层面形象(云服务器) 3. Hypervisor Model(又被称为virtual machine monitor，VMM)一个计算机，下面运行着一个hypervisor，hypervisor下面又运行着一个或多个虚拟机，该计算机被称为host machine，每一个虚拟机被叫做guest machine。hypervisor为guest operating system营造了一个虚构的操作系统，并且对guest operating system的运行进行治理，多个不同的操作系统可能共享虚拟化的硬件资源。hypervisor有两种类型，一种是Type-1，一种是Typer-2Type-1，native or bare-metal hypervisors这些hypervisors间接运行在host的hardware上来管制硬件资源与治理guest operating system。（内核）Typer-2 or hosted hypervisors这些hypervisor间接作为一种计算机程序运行在传统的操作系统上。一个gust operating system间接作为host上的一个过程运行。（利用）详情：https://zhuanlan.zhihu.com/p/...KVM内置于Linux，是内核模块；xen是Linux的一个利用。所以KVM能够间接利用Linux来做一些在xen中须要利用hypervisor来做的事件，比方任务调度，内存治理等等。所以相比之下，KVM更轻量，更易治理，并且版本更新也能够随着内核的更新。4.看vmm虚拟机监视器软件(承前启后的作用) KVM（谷歌用，阿里用）是在linux内核扩大为Hypervisor 5.CPU虚拟化技术目前x86架构是支流，但x86设计很早，很多指令集不反对虚拟化解决： 6.内存虚拟化技术要求1：内存地址从0开始要求2：内存地址须要间断解决：内存重映射（虚拟机的内存和实在物理内存） 7.IO虚拟化技术虚构中断虚构寄存器拜访虚构DMA(Direct Memory Access，间接存储器拜访)

关于运维:为什么越来越多的企业正在完善自动化客户服务

自动化客户服务会带来许多益处，其中最显著的一点就是降低成本。然而除了降低成本之外，它还有什么其余的益处呢？让咱们认真聊聊为什么越来越多的企业正在自动化他们的客户服务。什么是自动化的客户服务？目前，自动化客户服务仅包含传统的多选菜单。例如，当客户打电话时，他们须要浏览这些之前设置的菜单，而后通过抉择找到解决方案。然而，这须要很多工夫。随着信息技术的倒退,目前,自动化客户服务包含以下内容：自助服务门户和知识库AI聊天机器人电子邮件和短信模板解决问题的交互式工具自动化客户服务的劣势是什么？（1）升高客户服务老本升高客户服务老本是一个十分事实的因素，咱们不能不思考老本就开始施行客户服务自动化。随着公司的扩张，公司能够缩小招聘新员工的须要。因而，你能够最小化办公空间，同时减少客户的生命周期价值，节俭的老本天然超过劳动力老本。鉴于根本状况，自动化能够帮忙人们专一于满足客户需要，而不是日常指标。它还能够帮忙改良工作流程，并为更简单的集体客户互动节省时间。（2）在要害接触点增强人与人之间的互动在许多企业中，客户体验与客户经验无关。例如，在抉择房地产经纪人帮忙客户购买第一套房子时，智能代理在交易的重要阶段预计客户的需要，以提供相干信息。在客户需要呈现之前预测客户需要是优质客户服务的体现之一，你的员工能够专一于简单且具备挑战性的工作。当他们与客户接触时，他们会体现出更大的同理心，从而更好地解决问题。（3）提高效率和速度以实现价值客户能够通过缩短响应工夫从自动化中取得价值，将客户的电话转接到公司，让客服解决更简单的问题。设想一下，如果可能在第一工夫解决问题会在很大水平上进步客服的工作效率，从而实现团队的指标。（4）激励客户服务团队单干自动化客户服务工具能够帮忙加强团队单干。装备自动化性能的工作台能够改善解决客户投诉的工作流程，从而防止反复步骤，工单批准后，能够标记为无变更。例如，如果工单未经批准，能够对其进行屏蔽。一些服务台蕴含外部wiki性能，以便在座位之间共享视图，此类帮忙核心软件能够依据其知识库动静举荐文档。（5）容许全天候服务一个人每日的工作工夫无限，而自动化客户服务能够提供间断、不间断的服务。（6）集中信息应用CRM平台，你能够集中所有客户信息，包含分割信息、交易历史、自助互动、查看内容等等，通过将CRM与虚构电话零碎等自动化客户服务系统集成，你能够更全面地理解客户，反对代理能够在复电、电子邮件或在线聊天之前拜访实时客户数据。（7）收集客户反馈客户服务自动化能够在整个客户接待过程中收集反馈，计算客户是否认可你的品牌，并找出他们为什么喜爱你的公司。（8）合乎古代客户的偏好只管电话始终是各代人应用最宽泛的客户服务渠道之一，但这一趋势正在扭转。有报道证实，明天的年轻一代除了打电话取得客户服务之外，还会应用各种沟通渠道。如何实现客户服务自动化，实现客户服务自动化须要从多个方面思考。以下是一些自动化客户服务的办法：创立客户服务知识库实现客户服务自动化的第一步是创立知识库。知识库是收集常识信息，实现常识的存储、更新和共享的工具，在外部，它能够用于共享报告、进行员工培训、保护外部政策文件等，在内部，知识库是客户服务工具。客户服务的要害是信息沟通，它通过客户服务在用户和公司之间架起了一座桥梁。知识库在客户服务中的利用次要包含以下三个方面：自助服务：客户通过自助门户和自助领导客户找到问题的解决方案。客户服务：人员在知识库中为客户提供相干文章，以疾速解决客户问题。员工培训：在与客户沟通时，咱们能够通过知识库疾速找到问题的正确解决方案，并升高错误率。通过建设客户服务知识库，你能够疾速为客户建设自助门户。（依据考察统计，77%的受访者通过自助解决问题。）用户最常见的问题和信息将与团队成员探讨问题的解决方案。最初，它将以图片、视频或文字的模式记录下来，并存入知识库。下次遇到雷同问题时，能够间接疏导客户拜访知识库。通过将客户服务知识库网站链接到官网，你还能够为客户提供良好的应用体验，在知识库中分享产品常见问题解答、操作视频、产品介绍等增加智能聊天机器人。最初一个成熟的客户服务零碎不仅是市场拓展的须要，也是实现企业口碑流传的最有效途径。在任何状况下，知识库都能够作为客户服务零碎的坚实基础，因为它能够使客户在接触人工客户服务之前自行解决问题，并且还能够通过数据统计来减少客户和企业之间的沟通。咱们能够取得用户对产品的第一感觉，并依据客户反馈优化产品。 Baklib为公司和团队提供SaaS工具来疾速构建知识库，应用Baklib在线知识库制作，高效的编辑性能，集中的在线存储和显示能力。它还具备便捷的共享性能，并提供相似百度的弱小搜寻性能，帮忙他们疾速找到问题的解决方案。它成本低，效率高。它能够极大地缓解手工客服的压力，升高经营老本，进步客户满意度，实现老本升高和效率进步。随着数字时代的到来，客户越来越违心解决本人的问题。他们相熟在线知识库、常见问题解答、虚构助手、在线聊天和社交媒体音讯。总之，如果你不提供自动化客户服务，可能会限度你向潜在客户提供高水平服务的能力。

关于运维:深度解读企业云上办公利器无影云电脑

简介信息化过程高速倒退的明天，用户桌面办公的需要正一直发生变化：近程办公，BYOD的需要一直增长；疾速交付，高效运维的需要接连回升；数据及网络安全的关注度继续进步；整体办公老本在进一步优化。相对而言，云上办公成为了企业首要的关注点。无影云电脑更多内容：https://yqh.aliyun.com/live/w... 信息化过程高速倒退的明天，用户桌面办公的需要正一直发生变化：近程办公，BYOD的需要一直增长；疾速交付，高效运维的需要接连回升；数据及网络安全的关注度继续进步；整体办公老本在进一步优化。相对而言，云上办公成为了企业首要的关注点。放眼桌面办公的进化史，从传统PC到VDI再到DaaS化，整个进化门路围绕着用户桌面办公的几大痛点：老本、平安、高效、易用。传统的PC电脑老本投资大、交付周期长、受供应链牵制、扩散办公保护艰难、数据安全能力差，因而桌面VDI（桌面虚拟化）诞生了，解决了传统PC扩散办公的难题，对数据安全有肯定晋升。不过VDI仍存在较多问题没能解决：初期投资大，私有化难治理；企业资产的布局能力弱，服务器资源效率不高，外部资源难以平衡；运维能力弱，企业的扩张无奈应答指数级增长的运维需要。由此，阿里云基于无影云电脑提出了DaaS化(Desktop-as-a-Service)一站式的云上办公空间计划。无影云电脑联合各种云产品造成的解决方案，为客户交付残缺的办公生态，不仅可能优化企业办公老本，满足近程办公需要，还能让运维更为便捷，基础设施运维由阿里云搭建，企业只需关注简化的策略。并且保障了数据安全，数据保留在云端，不落地，升高数据泄露危险。另外，无影云电脑系统利用生态提供凋谢的环境，反对跨端、跨零碎、跨利用、多协定接入。一图看懂无影架构下图展现的为无影云电脑办公解决方案架构图，分为接入侧和云侧两大部分。先来看云侧，最底部是阿里云提供的基础设施，蕴含网络、存储、计算能力（CPU、GPU）形成无影的基底。往上为云桌面管控平台，通过构建桌面/利用、用户、模板治理及数据安全管控能力，使无影在桌面管控层面实现性能多样化。两头局部次要针对于用户服务，包含了贮存、桌面/桌面池的构建，利用和通用服务器的相干能力。其中，在贮存方面，由无影云盘及阿里云NAS产品进行了整体计划的构建，保证数据存储共享及平安。服务器方面，针对于不同的通用服务器（编译服务器、邮件服务器等），无影可能进行对接和买通，确保服务器平安上云。再往上是数据进口层面，为了保障数据安全，无影云电脑在网络安全管控、数据防透露、桌面平安治理、行为审计四个维度做出了保障。将无影本身策略管理能力、阿里云平安团队构建的网络安全能力，以及通用服务器和第三方生态的平安零碎进行了整合。紧接着往上是无影集成的利用市场，除了Windows零碎下的native利用，无影也可能将SaaS级利用进行引入，欠缺办公环境。并反对企业进行利用治理，包含商业软件的引入，企业外部软件的上传。除此之外，也可能反对互联网下载应用软件进行装置的模式，以及服务器相干的利用应用。最初，云端无影的所有底层能力都能赋能于不同的企业应用场景，如平安办公、软件开发、图形设计、外包运维、教育教培等。在用户首次接入无影时须要抉择应用的规格族。无影云电脑目前的规格族次要面向两类场景：一类针对于纯CPU的办公开发为主场景，分为面对一般办公开发场景的通用办公型，以及对性能要求较高的高主频办公型。另一类是GPU实例的规格族，次要解决渲染、设计等场景需要。在每个规格族上面，无影也提供了多种规格。以通用办公型举例，从2核4G到16核32G，这个范畴内用户均可能按需抉择，实现老本优化。无影终端的设计定位与落地门路接下来从接入侧看，无影提供了多种供用户抉择的终端模式，用户可应用传统的设施进行利旧（比方Win、Mac零碎下载软终端连贯无影云桌面），还反对更加灵便的Web客户端和挪动客户端（IOS，安卓零碎）进行桌面连贯。另外，无影也领有专用的终端产品，满足用户BYOD需要。在无影终端产品设计上，无影团队进行大量用户需要的钻研，并联合用户生存和工作状态，把用户定义为四类： A类为Business客户，次要为大中型企业，多为平安办公和开发场景。 B类为Co-Creator客户，次要为小型企业/翻新团队，有单干协同办公的需要。 C类为Consumer客户，这类客户有挪动办公，内容生产的需要。 D类为Cloud Entertainment客户，这类客户心愿在云上进行娱乐相干场景操作，对云的性能需求要求较高。面对这四类不同的需要，无影产品团队在终端设计上，从难易度、可触达性、效率、体验，四个维度有着不同的终端产品布局。在后期概念导入期，针对于A、C、D三类用户需要市场，首先诞生了两类产品。第一类为盒子类产品AS01、AS02，次要针对办公市场和消费市场，满足疾速企业上云的需要。另一种是C-key卡片机ASC01，体积小，便于携带，用一根TYPE-C线即可连贯无影云电脑，针对挪动办公场景，集体及中小企业用工场景。第二个阶段细分市场扩张期，也是无影产品团队目前身处的阶段，目标是通过更多状态的终端产品，满足细分场景不同用户的需要。比方通过一体机（已公布）US01、US02的状态，切入实体办公场景，满足业余设计需要。以及挪动产品状态（未公布）,如无影笔记本电脑、无影的pad，这类产品可能让用户随时随地接入无影，减少便捷敌对的用户体验。最初是面向未来的生态赋能期，旨在无影与各产业之间的互相赋能。无影将来将专一于硬件及OS的生态建设，通过制订规范，建设认证，把硬件计划形象成可疾速交付的产品，交付给合作伙伴，并让更多产业的力量可能退出无影生态，包含对全外设的反对，提供给终端用户多种多样的云终端场景应用体验。无影企业办公解决方案针对于平安办公、设计办公、分支机构办公、教育办公等场景，无影PDSA团队已构建了成熟可用的解决方案。 1、平安办公场景企业平安办公场景次要面临两大难题：数据安全管控、响应市场变动的资源弹性和灵活性。首先最外围的难题是数据安全管控。一是人员流动下数据安全存在危险，二是传统PC端数据留存在本地，当硬件损坏、数据失落，硬件遗失等状况产生时有数据泄露的可能性。三是须要避免病毒＆流氓软件入侵。四是接入平安问题。近程办公场景下的接入平安无奈保障，存在第三方VPN、外设等平安危险，账号密码易泄露。其次是业务调整难题。随着企业组织的扩充，业务的新增，IT运维策略无奈即时应答企业组织变动。另外，面对短期我的项目，企业通常无工夫或无条件购买PC设施，我的项目进度推动慢。因而，依据企业平安办公的痛点，无影团队对平安办公场景进行了解决方案架构。如图所示，首先将传统的PC运行环境进行云化。在公司外部，员工能够通过外部网络接入。员工在家办公或出差办公，也能够用便携设施，电脑，pad，手机等形式，进行平安网络的接入。另外，企业的线下环境，比方AD域控服务，OA服务，文件服务等外部零碎，会通过云企业网CEN，把云上无影和线下环境进行买通。另外，无影云电脑也会提供AD connector帮忙企业将AD环境的买通，实现域控策略的链接，由此实现平安办公上云。此计划外围价值在于全过程的数据安全及网络安全层面，确保所有环节上云后办公环境更平安： 1）数据不落地。无影云电脑会将所有数据贮存在云端，同时反对PDS云盘，企业共享NAS进行数据存储，所有部门敏感、秘密数据都能失去保障。 2）外设管控。企业能够通过无影云电脑安全策略的定制，对数据安全增强管控，比方限度外设端口的接入、网址黑白名单、粘贴板的应用等。 3）保障接入平安。数据传输方面采纳串流技术，协定加密，只传输图像，并不进行业务数据的传输。并反对与企业治理平台AD对接，反对多因子认证、SSO单点登陆等性能。 4）资源弹性。面对业务弹性，业务扩张或者调整，无影能够轻松应酬，通过即时开明，灵便上线，算力弹性膨胀、按量付费，帮忙企业面对业务扩张时可随时设施调整应用状况。 5）软件对立治理。而对于桌面装置软件，无影提供了无影利用核心，有着丰盛的正版软件库。同时反对纳管企业自有软件或license，并且可对所有利用进行治理，按需分配。该计划胜利助力中华保险企业搭建云上平安办公环境，阿里云团队为中华保险构建了金融级公共云服务，可使得员工通过帐密+令牌平安登录，SSO单点登录。无影的根底策略管理性能，提供了外设/水印等灵便平安管控策略。另外，集成阿里云防火墙和云平安核心等产品，晋升网络访问控制并提供防病毒能力。控制台对立治理无影云桌面与其余云产品，云上资源弹性扩容，即用即购，晋升桌面管理效率。 2、设计办公场景设计办公场景痛点次要针对于性能、平安、协同、老本四个维度。针对于性能层面，设计办公次要的问题是性能告警。传统PC电脑受限于实体硬件性能限度，无奈即时裁减迭代。大型渲染工作，PC或工作站须要24小时甚至更长时间继续工作，硬件损耗极大。另外，数据安全问题，设计类数据多为敏感数据，本地设施容易外泄。且传统PC或工作站呈现硬件故障时，设计数据失落难复原。同时协同办公需要也很显著，设计师须要带着设计稿到客户公司去交换，传统PC或者工作站无奈反对近程办公需要。且设计工程文件须要协同调整，不同地区的设计文件无奈共享，合作能力差。再是设施老本高的难题。设计场景对设施的性能要求较高，设施更新周期个别较短，资源节约是该类企业面临的治理问题。依据设计办公场景痛点，无影团队对设计办公场景进行了解决方案架构。首先，为了更好实现不同区域的设计师工作的协同，不同区域的设计师能够就近开明无影云桌面，通过专线进行网络连接，配置平安网关保障网络安全。通过云企业网将多地区工作环境进行连贯，实现资源互通。最初，无影PDSA团队对设计业余软件和专属工具进行了调优和适配，保障线上和线下的操作体验统一。同时，针对于设计场景无影云电脑还提供了其余应用价值： 1）云端GPU办公，反对长时间稳固运行。无影提供的高性能GPU图形化处理器，解决大型渲染工作，PC或工作站须要长时间工作，硬件损耗极大的需要 2）节约老本，缩小资源耗费。因为设计师并不是所有工夫都应用无影进行工作生产，购买时可抉择按量购买，只计算应用时耗费的资源，节省成本。 3）数据不落地，爱护数据安全，云上多正本存储，轻松应答不可控危险，可靠性更高。 4）近程办公，多端接入的个性，可能让设计师将高性能计算能力随身携带，在任何环境灵便向客户展示本人的设计成绩。设计场景的典型案例是火星时代教育。火星时代教育专一于艺术教育，对于云上办公需要较大。无影团队通过引入网络专线接入阿里云环境，并进行了业余软件的适配工作，包含对数位板，专用的外设，键盘，软件等的调配。传统带GPU的PC电脑，设计渲染时功耗十分高，而无影将GPU汇合在云端后，客户应用无影的GPU即可实现设计渲染，起到节能减排的作用。 3、分支机构的办公场景分支机构办公场景最大的难题分为两方面，治理问题和平安问题。治理问题：外围问题是IT资产治理难度大，企业业务上线和降级效率低，没有专属运维人员的分支机构产生数据事变时数据恢复效率低。平安问题：分支机构人员操作行为不可控，存在安全隐患；数据落在分支机构本地，存在泄露危险；从第三方渠道近程接入公司内网，存在网络安全危险。另外，分支机构办公的环境较为简单，蕴含企业线下的IDC环境、总部的线上环境、分支机构的线上环境以及挪动办公环境，该计划针对四个环境进行了链接和买通。 ...

关于运维:docker基础命令和操作

前言之前在部署集体网站的时候，须要打包maven，在生产环境，须要应用到docker去做服务器和端口的守护。于是在查阅了相干材料，学习了docker一些根本命令行操作，包含对镜像的查看，批改和增加，以及容器的治理等操作环境：阿里云centos7 查看以后docker工作docker ps查看docker所有工作（包含已删除用户）docker ps -acentos装置docker镜像并开启装置 yum install docker-ce docker-ce-cli containerd.io开启docker systemctl start docker创立docker工作（Hello world）docker run HelloWorld删除docker容器docker rmi 镜像id删除docker镜像docker rm 镜像id革除docker缓存docker system prune --volumes开启和敞开docker工作开启 docker run 容器ID或者容器名敞开 docker stop 容器ID或者容器名查看docker日志docker logs 容器名称或容器ID以上是罕用的docker命令行，根本的增删改查和查看日志。因为内容比较简单，常识作为一个笔记来进行应用，docker在守护过程以及疾速的重启时过后在部署时作为第一抉择。文章集体博客：docker根底命令和操作

关于运维:引领新媒体时代的潮水方向世相科技

散步云端，世相科技正在引领新媒体时代的潮水方向。阿里云正在携手越来越多的新媒体客户，一道致力于简化基础设施与架构，晋升更优的行业竞争力。客户故事新媒体的飞速发展，为各种创意流传带来了簇新时机。世相科技子公司研发的中短视频APP开眼已坐拥千万注册用户，当然开眼APP的整个研发和运维都离不开云计算的加持。开眼App的短视频个别两分钟到十几分钟不等，团队基于算法会每天为用户举荐精心筛选的短视频，“高清画质、洁净简略、诗和远方……”。新媒体企业不仅须要精细化经营，还要晋升用户体验、减速翻新，利用好多样化的数据，能力在整体大环境中怀才不遇，现在世相科技多板块的精心经营，深受一二线城市人群的青睐。开眼APP：稳固以及高效运维至关重要在谈到开眼APP的技术架构的时候，开眼CTO 张晗示意：作为一款依靠于云计算而构建的APP而言，稳固以及高效运维至关重要，而阿里云的日志服务SLS这款产品很好的解决了这个问题。——开眼CTO 张晗世相科技正在引领新媒体时代的潮水方向新媒体时代，媒体与受众的关系从单向灌输向双向互动转变。媒体与用户之间，随时都在进行信息、观点、情感的交换、交锋、融合。致力于用产品影响和参加普通人日常生活的北京世相科技文化有限公司（以下简称为“世相科技”），以“新世相”公众号为终点，业务涵盖公众号内容、中视频、整合营销、新消费品等板块，深受一二线城市人群的青睐。阿里云辅助下的开眼App通过应用日志服务SLS，开眼服务端到客户端的各类日志、调用链路数据被对立采集、解决、存储与剖析，不仅无需自建多套后端存储系统，大大简化了IT架构，还能将简单离散的数据变得有序，便于深度开掘日志数据价值，放慢筛选甄别高品质内容，更精准地依据用户的爱好进行举荐。日志服务SLS能够实现对日志、时序等各类数据的告警监控，亦可承受第三方告警。开眼团队利用SLS智能告警，实时监控异样日志，通过SLS关联调用链路分享，可疾速定位异样点，无效晋升了问题排查效率，从而尽可能地做到在用户、客服反馈问题之前被动发现并解决问题。此外，开眼团队人员还将告警告诉形式设置为手机短信，以保障触发告警后第一工夫收到告诉，继而疾速上线解决问题。借助日志服务SLS对日志的极致优化，开眼团队能够通过关键词疾速地从海量日志中查问到谬误日志、报警日志等重要的日志。除了根底的关键字查问外，SLS还反对以JSON对象为查问参数进行查问，同时提供了and/or/not等谓词进行组合查问的能力，满足更为丰盛的查问场景。新媒体行业倒退必选项内容为王，稳居行业前列新媒体的飞速发展，为各种创意流传带来了簇新时机。乘着东风的世相科技体现颇佳：新世相作为文化内容畛域头部品牌，屡次发明景象级事件和风行话题；凭借原创、优质的垂直化内容，子公司研发的中短视频APP开眼已坐拥千万注册用户。登云而上，简化IT架构开眼APP的整个研发和运维都离不开云计算的加持。云计算作为一种新型的IT服务资源，以其弱小的计算能力、近乎有限的存储能力以及低廉的老本，对晋升优化大数据的解决有着微小的作用，能够满足新媒体内容日益增长的需要。计划架构图逐波造浪，聚焦业务翻新阿里云与您携手将来云的呈现，为新媒体时代下海量内容的存储和治理提供了前提条件，新媒体企业须要精细化经营，一直晋升用户体验、减速翻新，利用好多样化的数据，能力在整体大环境中怀才不遇。阿里云正在携手越来越多的新媒体客户，一道致力于简化基础设施与架构，晋升更优的行业竞争力，一起扭转行业的潮水方向。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:2022你的团队距离持续部署还有多远

简介：2022，你的团队间隔继续部署还有多远？继续部署这个词咱们常常听到，可是到底怎么才是做到了继续部署？如何能力做到继续部署？本文将为你逐层拆解继续部署的外延和施行门路。编者按：继续部署这个词咱们常常听到，可是到底怎么才是做到了继续部署？如何能力做到继续部署？本文将为你逐层拆解继续部署的外延和施行门路。策动&编辑｜雅纯云研发时代，支流的公布状态变成了服务化的公布状态，这种公布状态让继续公布有了事实的根底。公布的前提是把待发布制品部署到生产环境，所以继续公布的前提是继续部署。继续部署的4个要求继续部署要求继续地提供一个稳固可预期的零碎服务。有时候公布过程当中会停机，停机更新的这段时间零碎不可用，这就是非继续的部署状态。咱们心愿的继续部署: 首先应该是精确的——部署后果精确可预期的；第二，应该是牢靠的——整个继续部署过程中线上服务不受影响；第三，应该是继续的——随着继续部署的产生，有可继续部署的软件增量；第四，过程成本低——继续部署过程是低成本和高效的。如何做到这4点呢？ 1、精确、可预期的部署后果精确地部署依赖三个前提：明确的待发布制品及配置、明确的运行环境、明确的公布过程及公布策略。上面是一个简略的公布示例：公布首先有明确的image，即上游过去的构建产物。同时蕴含很多配置，如启动配置、容器的配置等。另一个是环境，咱们会在部署工具中配置k8s，这个配置最初会造成一个环境，而这个环境会在DevOps过程中被用到。最初咱们把制品和配置公布到这个环境上，就实现了公布。所以，公布的过程是把制品和配置的汇合利用到环境的汇合上的过程。首先要有明确的待发布制品和运行环境，其次通过相应的形容，把制品、配置和环境都形容分明，造成公布的内容，才能够进入下一步。最简略的公布就是kubectl apply，但这种公布形式存在着一些问题。第一，后果不确定。kubectl之后pod可能并没有起来，deployment可能是不能用的，服务可能有失败，公布之后可能会遇到pod不够，资源没有，这些都是未知的。所以公布是否胜利，公布胜利了多少都不确定，这是不可预期的。第二，状态不可见。公布不是欲速不达的，是逐渐的过程。发了多少，有多少问题，哪些流量曾经切过来，这些状况都是未知的。第三，过程不可控。在这个公布过程中，一条命令上来之后是无奈撤回的。如果版本有问题，有重大的Bug，全副的流量跌零，是无奈反悔的，十分危险。所以在真正的公布过程中，咱们要有干涉伎俩，比方当我发现流量会导致可用性的大量降落，须要可能马上进行公布。无论采纳何种部署形式，咱们都心愿尽量减少对线上服务的影响，这种影响降到极致，即部署过程齐全不影响线上服务。这是咱们的第二个准则。 2、部署过程不影响线上的服务要做到不影响线上服务，有4个要求：第一，滚动式部署采取灰度的形式，将绝大多数服务滚动地部署下来，当确认没有问题再把流量切过去，做到线上的服务不中断。滚动有可能会过快，须要保障每一个批次的距离足够监控发现问题，有足够工夫收集到足够数据做判断。第二，部署可观测部署自身可能会产生一些告警，比方部署导致一些服务节点水位降落，而非整个服务的水位降落。所以部署与监控须要买通，首先要防止无意义的告警，其次要让监控及时发现部署产生的问题，比方部署两台节点，流量如何？服务状况如何？延时是否减少？这些都须要去监控。第三，随时可干涉部署过程中可能会有很多不确定的问题忽然呈现，这时须要一些干涉伎俩，比方分流的操作，进行相应的切流，防止问题影响到整个零碎。第四，随时可回滚如果你的干涉不能疾速解决掉问题，这时就须要回滚了。要做到随时可回滚，是因为部署过程中有一些失败状况相应的修复老本特地高，疾速回滚，能力保障服务不会受到影响。常见公布模式举例这里介绍几种常见的公布策略。（一）灰度公布灰度公布常见的架构如上。首先有一个负载平衡，负载平衡上面的服务版本以后是V1，要公布新的版本是V2，能够从外面摘一个节点，五分之一的流量用V2。这种状况下，原来所有的Pod都在Deployment1上，然而有一个新的Pod会在Deployment2上，从Loadbalancer到Service路由的时候就会有一部分流量路由到新的Deployment2上。有时候，为了更精密的管制流量，也会通过ingress或者mesh这样的伎俩，将特定的流量，比方5%的蕴含grey的cookie标的流量路由到Deployment2上。咱们冀望deployment2逐渐替换掉deployment1，deployment1的流量缓缓被替换、被下线。整个的过程当中用户是无感知的，申请是失常的，各类监控，根底监控，利用监控，业务监控都失常，这是咱们冀望的后果。灰度公布最常见的做法是生成一个新的deployment，关联新版本的Pod，在一段时间内同时存在两个deployment版本，通过一直调整两边的的Pod数量达到灰度公布的目标。这个是最常见的部署策略，老本也比拟低，毛病是无奈做很精密的流量管制，但服务量不大能够思考这种形式。这种公布模式对服务有要求，首先要求对于某一个具体的service，最多只有一个进行中的公布，因为须要有流量的一直切换做验证的过程。第二，对某一个service公布完之后只能有一个版本的deployment运行，不容许两个同时存在。第三，在整个过程当中存在两个版本的deployment，有两个版本的服务在提供，要保障这两个版本服务都可能正确提供，不论上游是什么，上游是什么，都能够正确处理业务需要。第四，整个公布过程不能造成服务的中断。如果一般的短连贯服务，要保障一个session不会因为公布导致前后断开或前后不间断。如果是长连贯要保障这个连贯可能主动地迁徙到新的服务上。最初，整个公布过程不会造成用户申请的谬误，而是会有一个优雅下线机制保障它解决完之后不承受新的申请，在这种状况下才可能保障达到冀望的灰度公布的成果。所以整个灰度公布的过程不仅仅是对公布的工具，公布的策略有一些要求，对应用程序自身也有不少的要求，能力达到十分平滑的灰度公布。基于此，咱们总结了几点针对灰度公布实际的倡议供大家参考。第一，咱们倡议利用须要保障对前一个（或数个）版本的兼容。这个版本的兼容数量取决于利用的线上状况，有时线上会同时存在几个版本的利用，咱们须要保障对这几个版本的兼容性。第二，创立一个新的deployment，提供同样的service，通过调整pod数或者ingress流量来进行灰度，这种灰度的状况下能够很精密地管制它，所倡议通过流量管制。第三，定义灰度批次以及每一批的比例和察看工夫。灰度批次要设计正当，保障每个批次之间的距离足够咱们去发现问题并做解决。如果灰度距离特地短，有可能监控还没有来得及告警就进入下一个更大的批次，可能带来十分大的危险。第四，除了关注根底监控和利用监控外，也须要关注业务监控数据。监控是一个很大的领域，然而从公布的角度讲，咱们的最终目标是要防止公布带来的业务损失，公布可能会导致业务不可用，或业务呈现谬误，更重大的是公布造成业务某一些观测指标产生大的变动，比如说用户转化率或者是用户登录胜利次数等数据异样。这些异样的数据应该及时被发现，并且立刻暂停。第五，当公布过程实现之后，应该先做流量切换进行察看，而不要急于清理pod，保障未来做回滚的时候更高效。如果这个pod还在，很快就能把流量切过来，能够缩短线上服务受影响的工夫。第六，记录下公布的版本，不便进行回滚。除了具体的版本咱们还要晓得在哪里部署过，这样才不便回滚。记录下相应的版本，如果合规查看自动化做得比拟好，也能够做到一键回滚。第七，回滚与从新公布不同。回滚与公布的策略不同，不可能和公布一样每次批次很小，为了解决问题须要做到减小批次、缩短工夫、疾速回滚。最初，如果零碎反对多租户，倡议基于租户做流量隔离和AB测试，尤其是AB测试的时候比拟不便。（二）蓝绿部署另外一个常见的部署形式是蓝绿部署：蓝绿部署和灰度类似，只是所须要的资源更多一点。这个取决于软件的部署状态，以及机器资源的数量。蓝绿比灰度对软件的要求会更低，能够保障所有的业务都部署好之后再去切，然而灰度不行，要可能继续部署。然而蓝绿的危险也是比拟高的，一旦出问题就是全局性的。要做到不影响线上的服务，除了部署策略外，也会有其余问题，比方软件只开发了一半，或者服务部署下来心愿和别的服务配合在一起能力作为一个残缺的零碎服务提供给用户，这时须要用到个性开关形式。 ...

关于运维:SOFAStack-CAFE-单元化混合云产品中的-Kubernetes-多集群实践

背景SOFAStack 是蚂蚁团体的商业化金融级云原生架构产品，基于 SOFAStack 可疾速搭建云原生微服务体系，疾速开发更具可靠性和扩展性、更加易于保护的云原生利用。在宏观架构层面，提供单机房向同城双活、两地三核心、异地多活架构演进路线，使零碎容量能在多个数据中心内任意扩大和调度，充分利用服务器资源，提供机房级容灾能力，保障业务连续性。在利用生命周期治理层面，SOFAStack 提供了一个多模利用 PaaS 平台——SOFAStack CAFE (Cloud Application Fabric Engine) 云利用引擎。它提供利用治理、流程编排、利用部署、集群运维等全生命周期治理的 PaaS 平台能力，满足金融场景中经典和云原生架构的运维需要，帮忙传统架构平滑过渡、保障金融技术危险。在云原生架构运维上，SOFAStack CAFE 通过单元化混合云产品 LHC (LDC Hybrid Cloud) 提供单元化利用的云原生多集群公布运维能力，实现利用的多地区、多机房、多云混合部署。本文将揭开 LHC 的神秘面纱，来具体谈谈咱们在其底层 Kubernetes 多集群公布体系中的一些实际。挑战在 LHC 产品诞生之初，咱们首要面临的问题便是为其抉择一个适合的底层 Kubernetes 多集群框架。彼时 Kubernetes 社区刚刚实现了其官网多集群我的项目 KubeFed，其提供了多集群的纳管、Kubernetes 资源的多集群散发与状态回流等一系列多集群根底能力，天然成为了咱们过后的最佳抉择。但正如后面所说，社区的多集群框架提供的仅仅是“根底能力”，这些能力对于咱们的单元化混合云产品来说存在着很多不满足甚至有抵触的点。其中，最突出的一个问题就是社区没有“单元化”的概念，其多集群就是纯正的多 Kubernetes 集群，对任何一个多集群 Kubernetes 资源（在 KubeFed 中咱们称其为联邦资源）来说，它的散发拓扑只能是按集群。但在单元化模型中，一个应用服务的资源是散布在多个部署单元中的，而部署单元和集群之间的关系的灵便的——在咱们目前的模型中，集群和部署单元之间的关系是 1:n，即一个 Kubernetes 集群能够蕴含多个部署单元。这时候，咱们便遇到了和社区框架的分歧点，也是最大的挑战：下层业务须要按部署单元维度来进行 Kubernetes 资源的治理，底层社区框架则只认集群。除此之外，KubeFed 本身所涵盖的根底能力也还不足以满足咱们的所有需要，比方不足集群的租户隔离能力、不反对资源 annotation 的下发、主集群和子集群之间的网络连通性要求低等等。由此，解决抵触并补齐能力便成为了咱们在建设 LHC 产品底层多集群能力上的重点课题。实际上面咱们就来分模块谈谈建设 LHC 产品底层 Kubernetes 多集群能力中的一些具体实际。多拓扑联邦 CRD在社区 KubeFed 框架中，咱们通过联邦 CR 来进行 Kubernetes 资源的多集群散发。一个典型的联邦 CR 的 spec 如下所示： ...

关于运维:开源算力引擎-BridgX-发布-060-版本新增三种权限管理功能

开源算力引擎 BridgX 推出 V0.6.0 版本，新增权限治理性能，分为 root、管理员和普通用户三种角色，能够帮忙用户灵便地分配资源权限，爱护云上资产。欢送返回体验。开源算力引擎 BridgX 开源地址 GitHub - galaxy-future/bridgx: BridgX is an Open Source Cloud-Native infrastructure engine aimed to split and manage Hybrid-Cloud&Multi-Cloud computing power, schedule and scale Containers. 更新内容新增权限治理性能，分为 root、管理员和普通用户三种角色权限治理性能能够帮忙用户灵便地分配资源权限，爱护云上资产。root 用户具备最高权限，能够创立管理员、普通用户两类用户，并依据须要批改其角色；能够减少、删除、批改云账户信息；能够批改企业名称。管理员用户能够创立普通用户，然而不能批改其账户角色；能够对云账户信息进行查看、减少和删除。普通用户不能创立新账户，也不能查看操作云账户。如果使用者具备治理经营云上资源的职责，能够使其成为管理员，如果只是负责操作，则能够使其成为普通用户。具体操作步骤如下： root 账户登录，在账户治理->创立子账号模块，能够依据须要创立普通用户和管理员账户，配置好用户名、明码后提交即可。 root 账户如果须要批改其余账户的权限，则在账户治理->批改权限模块，依据须要进行批改。管理员账户，能够在账户治理->创立子账号模块，创立普通用户。如果是普通用户，则在账户治理模块，能够查看其它用户的信息。 Bug 修复1、一些 UI 优化； 2、账户创立工夫时区偶然谬误；装置阐明1、算力引擎 BridgX 最新版本装置形式请参照 https://github.com/galaxy-fut... 对于星汉将来：星汉将来（Galaxy-Future）是一家云原生根底引擎提供商，提供三大算力引擎：算力调度引擎BridgX、数据物流引擎DTExpress、智能运维引擎CudgX，基于三大引擎也提供了标准化智能运维产品SchedulX和运维可观测产品ComandX，同时，也为企业提供解决方案和咨询服务，心愿能帮忙企业在上云过程中实现：云应用老本升高50%-80%，同时，开发效率能晋升10倍。相干产品GitHub地址：算力调度引擎BridgX： GitHub地址： GitHub - galaxy-future/bridgx: BridgX is an Open Source Cloud-Native infrastructure engine aimed to split and manage Hybrid-Cloud&Multi-Cloud computing power, schedule and scale Containers. ...

关于运维:开发之痛稳定的测试环境怎么就那么难

简介：开发之痛：稳固的测试环境，怎么就那么难。对于生产环境，精确、稳固最重要，咱们举荐以利用为核心的基于OAM和IaC的实际形式；对于测试环境，隔离、低成本和稳固的依赖是最重要的，咱们举荐基于稳固环境的隔离测试环境的实际，复用稳固环境，通过流量隔离和数据隔离来生成测试环境。通过环境建设，咱们解决了研发过程中的资源抵触。专栏策动｜雅纯意愿编辑｜jimmy、吕瑞星 “对于生产环境，精确、稳固最重要，咱们举荐以利用为核心的基于OAM和IaC的实际形式。对于测试环境，隔离、低成本和稳固的依赖最重要，咱们举荐基于稳固环境的隔离测试环境的实际，复用稳固环境，通过流量隔离和数据隔离来生成测试环境。“ 以下是具体内容。环境这个概念，大多数开发者都很相熟。一个稳固、可预期、低成本的环境也是大家统一的诉求。如下图所示,咱们将环境分为生产环境、测试环境、开发环境3类。很多时候咱们会把生产环境、测试环境、开发环境隔离开，就像图上的那个防火墙一样，分为线下环境和线上环境。但在理论状况下，思考公司体量和开发成本等诸多因素，环境的应用和划分会产生一些变动。例如，基于老本考量，首先要保障的是生产环境，所有以提供服务为外围要务；其次是测试环境，在迁徙至线上环境之前咱们须要在相似于生产环境的测试环境中进行相应的验证，只有在测试环境中验证无误才能够迁徙至生产环境，从而保证系统稳固的过渡。生产环境对于生产环境，精确、稳固的运行是相当重要的，也产生了大量的运维和治理的诉求。如果测试环境给配置一个节点就够了，生产环境就要思考备份、主备、分流、容灾等诸多问题，其目标都是为了保障环境的稳固运行。精确、稳固是生产环境和别的环境的最大区别。这一特点带来了大量的运维的和服务治理的配置诉求，如何无效保护这些配置也是咱们基于OAM模型、以IaC的形式来治理配置的初衷，上篇文章中有做分享。（小编注：云效AppStack正是基于OAM的云原生利用交付平台，企业能够通过利用编排、占位符、变量等申明式定义，实现一套编排多环境差异化部署，同时基于版本和基线实现环境一键拉起、一键回滚。感兴趣的同学点击文末浏览原文能够收费应用）。生产环境蕴含了很多种配置，如利用配置、利用镜像、利用运维配置、基础设施运维配置等。这些不同的配置和镜像的内容是由不同的同学关注和治理的。开发批改代码，代码发布会扭转镜像和配置；利用运维会被动批改利用运维配置；基础设施运维会批改基础设施配置。所有的配置改变都会对生产环境产生影响，带来生产环境的变动，进而可能带来危险。因而生产环境的运维和和治理显然应该是由开发和运维来独特负责的。测试环境测试环境是另一类重要环境。测试环境蕴含两种类型：一种是集成环境，一种是预发环境。预发环境也就是类生产环境。集成环境次要用于集成测试，或者功能性的验证；预发环境次要在验收的过程中应用。测试环境的指标是用尽可能少的资源进行独立的测试，做到隔离、复用、模仿。例如，利用要跟内部的服务交互，如果内部服务有问题，能够在测试环境中模仿一个。以某大数据产品为例，大数据产品大家可能会感觉环境要求太高了，没有方法做测试环境，很多的技术服务如Hive、Kafka、MySQL，对机器的要求会很高：Hive、Kafka须要有很多的机器。另外，还须要Redis做缓存、Zookeeper做服务发现。最早的时候就一套测试环境，这个显然是很低效的。如果有50个开发，共享一套测试环境，频繁抵触的状况下，简直没有方法做测试。为了解决这个问题，服务和利用能够做一些分层，这里分成三层。首先是公共的根底服务，比方Hive、Kafka；而后是独立的小服务，比方Redis、Zookeeper。在测试环境下，Redis和Zookeeper全副用单点是没有问题的，能够在一台虚拟机上跑起来；最上层是利用，只部署必须的利用以实现所要的测试工作。因而，测试环境将会这么治理：首先所有的公共服务是共享的根底服务，所有的测试环境都依赖这些根底服务，各个环境的数据通过逻辑机制（如命名空间）进行隔离。在每一个测试环境会部署一套独立服务的Redis、Zookeeper。应用层只部署所须要的利用，这样根本能够做到只耗费很小的资源就能够部署一套测试环境。很多的测试资源利用率很低，如果残缺的搭一套环境的话你会发现99.99%的状况下，资源利用率都很低。另外测试环境都该当是长期环境，这一点很重要。如果把测试环境用作长期环境，使用者会习惯某个环境就是他的，例如给环境起名字，这个环境其他人不能用，而这样会造成很大的节约，毕竟每天应用的工夫都是无限的。咱们心愿测试环境的资源是一个池子，能够被复用，用完即销毁。这也同时要求进步测试效率，在最短的工夫内做更多的测试。开发环境开发环境是除了上文咱们说到的生产环境和测试环境之外波及最多的环境，比方开发、构建要用到的一些工具链，都属于开发环境的领域。在开发环境下，咱们的关注点是在本地上怎么把服务顺畅跑起来。现实的开发环境能够跟其余的服务买通，且双向连通，因而有3个须要解决的问题：首先这个开发环境怎么拜访根底环境中的服务，比方另外一个Service。第二个是怎么让其余服务拜访到咱们开发中的服务。第三个是怎么与其余的开发环境的申请和数据隔离。这也是咱们在后面测试环境遇到的相似的问题，因而在开发环境之间也须要相似的伎俩，云效团队开源的kt-connect就是为了解决这个问题而设计的一个工具。在开发环境里也会有相应的一些工具，如上图所示。大家也能够看一下，你罕用的有哪些。测试环境之痛很多公司、很多人一提到测试环境就会说测试环境不够用、测试环境不稳固。咱们在测试环境中会面临哪些挑战？尤其是分布式应用。在微服务化之后，分布式所面对的挑战也越发显著，这些挑战很多和环境无关。例如某个利用变动没有做很好的验证，无意间进入到集成环境。这样它进入集成环境的时候自身品质是无奈保障的。而在集成测试阶段，利用之间的关系非常复杂，一个服务不稳固，其余的链路都很有可能不稳固。这也导致咱们常常没有方法很好地进行日常集成测试。因为后面的过程没有方法保障，这个时候变动的利用会占用预发环境，而预发环境又是一个绝对高老本的环境，不可能常常被某个人占用。于是，为了能让所有人都能够应用预发，对预发的应用将会变成很多人批量进行，这样预发变成长期环境，带来的结果就是预发的工夫增长，整个开发周期和交付周期都会增长。在继续交付的流程当中，咱们在测试环境当中会面临十分多的挑战：不稳固的问题、资源的问题、集成的问题等。就目前来说，大家会遇到的比拟多的测试环境的问题，大都源自服务没有进行无效的治理。服务办法多，耦合高，一旦某个服务呈现问题，其余的都会受到影响。当一个环境的服务都是处在变动中时，因为随时都有不稳固的服务在部署，整个环境也将是不稳固的。集成环境无奈稳固的结果是大量的测试迁往预发，预发成为瓶颈之后又往线上迁徙。任何利用最终都会用线上环境来兜底。总结来看，测试环境次要面临如下2个挑战：第一个是如何解决服务之间的依赖。比方A对C的强依赖，A的性能胜利与否取决于C，而且C变动之后也要在A下面做相应的验证，保障C的变动是对的。另外一个是环境自身的，次要有2点，一个是机器的稳定性，另一个是服务自身的稳定性。机器的稳固次要是：有效应对硬盘故障，网络故障等状况，做好零碎的备份和容灾。服务自身的稳固次要是：无效确保每个服务本身的可用性，因为如果一个利用的可用性是90%的话，那10个利用就是90%的10次方，导致整个的零碎都会很低。如何保障测试环境的稳定性上文咱们说到了测试环境存在的两种挑战。任何测试环境都须要保障其稳定性，升高应用线上环境的危险。那么如何保障测试环境的稳定性呢？在测试环境中罕用的实际次要有：双机部署、N+1部署、隔离环境等。例如咱们一个利用至多部署两个Pod，保障至多一个在提供服务，不能让两个同时重启。的确会产生这样的状况：在某个测试环境，如果某个服务只有一个正本，该服务产生部署导致重启，会导致整个测试的不可用。在这种状况下双机部署是很好的疾速解决伎俩，但也占用了较多的资源。为了解决双机部署资源占用高的毛病，N+1的部署形式应运而生。采纳滚动的形式一一替换服务利用。这样你的机器就只有一个是处于变动当中，其余都是work的。这也是K8S默认的形式，个别会生成新的实例，而后再把旧的实例下掉。为了保障测试零碎的稳定性，咱们须要做隔离，尽量做到除本人批改的利用，其它利用都是稳固的。在阿里，团队引入了我的项目预集成环境，在阿里外部叫我的项目环境，这是一个隔离进去的环境，针对某一个个性在开发的阶段独自的拉取一个环境进去。综上所述，预集成环境是隔离的，跟谁都没有关系，所依赖的其它服务都来源于稳固的环境，以保障依赖的服务都是稳固的，以便进行独立的开发和测试。在我的项目晚期的时候，我的项目预集成环境里依赖的环境还是日常集成环境，无论如何必定比什么都不做间接放入日常集成环境外面好很多。这个时候咱们发现日常集成环境还是有问题，因为在我的项目初期并不能保障所有的提交都会在我的项目预集成环境去做验证，因而会导致日常集成环境外面的依赖也可能存在很大的问题，其实实质上又回到了咱们要治理日常的集成环境的事件，怎么样维持绝对稳固。针对上述问题，咱们引入稳固环境的概念。既然咱们将环境隔离进去了，但隔离依赖的根底环境不稳固，这个时候如果咱们有一个稳固的环境是否就能解决问题了呢？什么样的环境是稳固环境呢？就是可能公布到线上版本的环境，线上环境必定是稳固环境，所以咱们的稳固环境其实是由与线上版本统一的应用服务组成的，跟线上的服务是统一的。线上稳固，这个环境就是稳固的，所以咱们就能够在这种稳固环境下再去发明隔离环境，从而保障整体稳定性。当有了稳固的根底环境，在利用部署到生产环境之后，也同样要把它部署到根底环境中去，提供一个给测试环境作为依赖的根底环境。有了这样一个根底环境依赖，在咱们利用开发时，拉进去的环境就是齐全隔离的，只蕴含和我严密相干的几个变动当中的利用，其余所有的依赖的服务都是从根底环境外面来的。这里提到了根底环境的概念，那么什么是根底环境呢？根底环境是一个稳固的环境，当有了一个稳固的集成环境就能够做隔离的环境，个性测试将能够基于该隔离环境，依赖的流量也能够在隔离环境外面找。但根底环境有肯定的保护老本，尽管部署老本相对来说很低，其占用的机器资源绝对于个别大公司来说不是太大的问题，但对小公司可能是一个问题。但次要的老本是根底环境的保护，对根底环境进行监控并修复呈现的问题，这在人力上须要肯定的投入。根底环境的维护者个别不是这个环境的使用者，所以这个时候须要有一个比拟成熟的机制保障根底环境长期稳固的运行。咱们开一下脑洞，如果说没有新的根底环境，哪一个环境是最稳固的呢？咱们在后面把线上线下用防火墙隔开了，为什么隔开大家都晓得，咱们是怕平安危险，怕数据净化，然而如果咱们的隔离能力做的足够好，服务路由做的足够好，监控做的足够好，平安爱护做的足够好，咱们是能够用生产环境来做根底环境的。生产环境做根底环境，要解决两个重要的问题，第一个是流量隔离，流量隔离相对来说问题不太大，从以前面向资源到当初面向流量的隔离有很多现成的伎俩能够做。第二个是数据隔离。这个是挺大的挑战，数据模式有很多种，比如说音讯队列和一般的数据库不一样，数仓又不一样，很多麻烦的问题在这里，然而具体到某一个点上都有方法解决。小结总结一下，对于生产环境，精确、稳固最重要，咱们举荐以利用为核心的基于OAM和IaC的实际形式；对于测试环境，隔离、低成本和稳固的依赖是最重要的，咱们举荐基于稳固环境的隔离测试环境的实际，复用稳固环境，通过流量隔离和数据隔离来生成测试环境。通过环境建设，咱们解决了研发过程中的资源抵触，下一章咱们将关注研发过程中的合作问题。 ...

关于运维:iofsstat帮你轻松定位-IO-突高前因后果一目了然-龙蜥技术

简介：磁盘被打满到底是实在的业务需求量上来了呢？还是有什么野过程在占用 IO？ iofsstat 帮你精准定位。编者按：sysAK（system analyse kit），是龙蜥社区零碎运维 SIG 上面的一个开源我的项目，汇集阿里百万服务器的多年运维教训，针对不同的运维需要提供了一系列工具，造成对立的产品进行服务。本文总结了理论工作中 IO 打满、IO util 高问题的解决教训，将它梳理成一套实践分析方法并造成 iofsstat 工具，集成到了sysAK 工具集里。以下将由作者带大家一道领略 iofsstat 的独特魅力。文/李光水：零碎运维SIG核心成员、毛文安：零碎运维SIG负责人。一、需要背景常常碰到这样一类问题：磁盘被打满，而后 io utils 高，触发业务监控告警，磁盘应用的是 HDD，呈现问题的时候 iops 曾经被打到几百、bps 也曾经到了上百 MB/s，而后继续个几秒钟完结，而后过个几十秒又呈现，这就造成了业务监控频繁告警。业务方会苦恼，磁盘被打满了到底是实在的业务需求量上来了呢？还是有什么野过程在占用 IO。比方之前碰到一例线上问题，平时都是失常的，忽然某一天发现 IO 高了很多，而后客户想晓得是谁把 IO 整高了，前面通过零碎的各个命令组合 +ftrace 脚本统计，找到了奉献最高的过程来自于一个与业务不相干的容器，他会定时启动，谜个别的做大量的文件拷贝动作。二、现有工具在定位问题这类问题的过程中，咱们会通过零碎的现有工具，定位具体的过程、文件或者容器，而后采取下一步措施解决问题，如停掉过程、容器并查看问题景象是否隐没。个别地，如下几类工具会应用比拟频繁：基于内核 diskstats 衍生的工具，如 iostat、sar-类命令的IO统计性能、vmstat-d——能够宏观的从整个磁盘角度去统计 io 信息，如统计整盘的 iops、bps 基于内核 proc/$pid/io 衍生的工具，如 pidstat -d——能够统计到过程奉献的总体IO 基于 Taskstats 衍生的工具，如 iotop——能够统计到过程奉献的总体 IO 以及奉献的 iowait 只管零碎为咱们提供了比拟丰盛的工具，但总有这样一种感觉：应用已有的命令，只管晓得磁盘的 IO 高了，但不晓得是哪个过程奉献的；晓得零碎外面的某个过程奉献的 IO 高了，但又不确定这里有多少 IO 是被我关怀的磁盘给生产的，也不晓得这些 IO 都是在操作什么文件，总感觉哪哪都差一点儿。所以总结下来，失去如下几点诉求： ● 在磁盘 IO 被打满的状况下，心愿察看是哪个过程奉献了比拟多的 IO ...

关于运维:一文看懂业界在离线混部技术

前言刚刚过来的 2021 年，在寰球经济增长放缓、疫情时起时伏、中美关系摩擦一直、国家平台监管趋严等宏观趋势叠加影响下，很多互联网厂商都遭逢了显著的市值下滑以及亏损加大，裁员音讯时有耳闻，所以在 2022 年，降本增效无疑将进一步成为业界大势所趋。在放弃业务状态和投入不变的前提下，降本增效一个不言而喻的办法是晋升现有资源利用率，而造成资源利用率不高的起因次要有如下几个：粗放的资源评估：研发更关注如何疾速稳固的迭代产品需要，所以在服务部署时，个别依照最大流量来预计服务所需资源。但在线服务大都具备显著的潮汐特色，导致大部分时间段资源利用率都很低（10% 以下）从而造成节约。集群资源整合度不高：服务器的资源占用经常出现非均衡状态，例如在线服务尤其是调用主链路上的扇出节点业务，高峰期往往呈现出 CPU 和带宽吃紧，但内存入不敷出的状况。这导致尽管内存有冗余，但仍然无奈聚合等比例的其它闲置资源去造成有意义的计算实体。业务部署隔离：因为东西部机房老本差别较大和以及容量布局等问题，很多企业会将在线机房、离线机房齐全隔离开，这样不同 AZ 甚至不同地区间的在离线作业齐全无奈交融，资源池也无奈互通流转。而在离线混部技术作为晋升资源利用率、降低成本的无效计划，受到业界的统一认可和举荐。什么是在离线混部企业的 IT 环境通常运行两大类过程，一类是在线服务，一类是离线作业。在线服务：运行工夫长，服务流量及资源利用率有潮汐特色，时延敏感，对服务 SLA 要求极高，如音讯流 Feed 服务、电商交易服务等。离线作业：运行工夫分区间，运行期间资源利用率较高，时延不敏感，容错率高，中断个别容许重运行，如 Hadoop 生态下的 MapReduce、Spark 作业。因为在线服务资源利用率有更显著的的起伏特色，所以混部的次要场景是通过填充离线作业把在线服务各个时段的闲暇资源利用起来，缩小企业一劳永逸的老本开销。(注：离在线混部打算另文论述) 图 1 混部示意图在离线混部的老本价值为了更形象的理解在离线混部的老本价值，咱们来看一个中小型企业，4 核 8G 的机器一共有 1000 台，次要计算资源就是 4000 核，8000G。假如均匀每台机器的资源使用率是 10%，那么理论应用的计算资源是 400010% = 400 核，800010% = 800G。如果咱们能通过混部将资源利用率晋升到 20%，那么咱们只须要 500 台机器即可。假如 CPU 的平均价格是 300 元 / 核 / 年，内存的平均价格是 180 元 /G/ 年，就能够节俭 2000300 + 4000 180 = 132w 元 / 年。 ...

关于运维:政企机构用户注意蠕虫病毒Prometei正在针对局域网横向渗透传播

近日，火绒平安实验室监测到蠕虫病毒“Prometei”正在全网流传。该病毒通过横向浸透攻击方式对局域网中的终端进行大面积入侵，并且能够跨平台（Window、Linux、macOS等零碎）横向流传。火绒平安揭示宽广用户，尤其是企业、政府部门、学校、医院等领有大型局域网机构，及时做好排查与防护工作，防止受到该病毒影响。目前，火绒平安（个人版、企业版）产品已对该病毒进行拦挡查杀。依据火绒平安实验室溯源剖析，该病毒入侵终端后，会通过近程服务器接管并执行病毒作者下发的各类指令，包含挖矿、更新病毒模块、下发新的病毒模块等歹意行为。除此之外，该病毒还会通过创立服务、注册表增加自启动等形式达到长期驻留用户终端的目标，并通过批改防火墙规定来减弱零碎安全性，甚至不排除病毒作者通过后门指令对外网终端进行攻打的可能性。病毒歹意行为执行流程更为严重的是，该病毒在入侵终端后，还能够依据病毒作者下发的后门指令，对同一网段下的其它终端进行横向浸透攻打，造成更大的影响，威逼更多局域网用户。依据火绒平安实验室剖析，病毒次要通过弱口令暴破和破绽两种形式进行横向浸透，其中，病毒应用的破绽包含“永恒之蓝”破绽、Redis未受权拜访破绽、BlueKeep破绽、Apache Log4j破绽等常见高危破绽。另外，该病毒目前仍旧在更新中，不排除后续引入更多攻击方式进行横向浸透攻打的可能性。C&C服务器地址蠕虫病毒特点为一直复制本身，且可携带其它病毒模块，并“善于”通过破绽攻打或者横向浸透进行流传，从而大面积感化指标设施，是局域网中常见的一大威逼。近年来，火绒平安也一直降级查杀和防护技术，从而无效阻止蠕虫病毒在局域网肆意流传的景象：如【近程登录防护】性能，能够无效抵御病毒的RDP、SMB等暴破行为；【横向浸透防护】性能能够无效拦挡病毒后续浸透入侵行为，做到阻断病毒在局域网内扩散，防止终端受到病毒的影响；【Web服务爱护】、【网络入侵拦挡】、【对外攻打拦挡】则能够对上述服务破绽、系统漏洞攻打进行及时拦挡。

关于运维:SaaS服务的私有化部署这样做最高效｜云效工程师指北

简介：为了可能无效且高效地同时治理SaaS版本和私有化版本的公布过程，云效团队也联合云原生的基础设施和标准化工具（比方helm）进行了一系列的摸索和实际，并将其中一些通能的能力进行了产品化。本文从问题自身登程，解说解决问题的思路，及如何通过“DIY”的形式来实现这套思路。大家好，我是崔力强，我在云效负责Flow流水线的开发工作。近年来，SaaS化部署状态的产品的私有化部署需要越来越多，比方云效本身就有私有化部署的版本。为了可能无效且高效地同时治理SaaS版本和私有化版本的公布过程，云效团队也联合云原生的基础设施和标准化工具（比方helm）进行了一系列的摸索和实际，并将其中一些通能的能力进行了产品化。本文会从问题自身登程，解说解决问题的思路，及如何通过“DIY”的形式来实现这套思路。最终解说云效AppStack产品是如何对这些实际进行产品化，并使其更容易规模化。 SaaS服务在版本化上的先天不足软件交付有两种根本场景：面向大版本的交付和面向SaaS的降级更新。通常来讲，提供本地或私有化部署的软件都属于第一种。比方Jenkins刚刚公布了2.319.2版本，那么这个版本里蕴含了什么样的个性就是明确的。你拿着这个安装包在任何一台机器上都能够从头装置失去这些性能。而互联网产品很大一部分是SaaS化的，即只有一套部署，供所有用户应用。软件的维护者更关怀的并不是我的产品是否能够在任何一个数据中心从头搭建进去，而是如何在现有的这个运行中的零碎上通过更新某个组件或者服务来疾速的交付一个个性。图1：SaaS服务交付和大版本交付的交付节奏从上述的示意图，能够形象地看到两种交互方式的差别。面向大版本的交付会明确该版本中蕴含的个性以及交付工夫，版本的公布工夫距离通常比拟长，须要对版本的全新装置以及不同版本之间的降级装置进行详尽的测试。面向SaaS的降级更新，交付的频率比拟高，能够疾速响应市场上的需要，但相应的布局性比拟差。同时因为“可反复装置能力”的优先级要低于“疾速利用已有的服务和能力交付新个性”，因而在架构上可能会逐渐产生简单的依赖，从而进一步地使得全新部署这套服务变的越来越艰难。然而事实并不是非黑即白的。有可能一套互联网产品在倒退了若干年之后有了进军海内的需要，就须要同时部署海内站，或者须要做私有化部署。此时该怎么办呢？是就义效率全副改成版本化的交付，还是以SaaS服务的交付节奏为主？如果是后者，那么每个私有化大版本公布前的几天，团队须要从缭乱的SaaS部署中厘清须要将哪些服务的什么版本（比方镜像版本）纳入到这个大版本中，进行版本验证，以及潜在的可能要对代码和配置进行调整。图2：同时兼顾SaaS服务和大版本交付两种交付形式假如一个月出一个大版本，那么在上图的2月1号到2月7号这七天里都可能产生了什么呢？可能在对焦，大版本里要求的性能是否都实现了，如果没有就要拉分支持续做。SaaS化版本外面的一些性能可能是私有化部署不须要的，这时须要加一些开关使其不可见，须要改代码。在这一个月的迭代里，技术架构产生的调整，删除了一个微服务，又新加了一个微服务，大版本须要做相应的调整。在这一个月的迭代里，利用的配置项也产生了变更，须要在大版本中做相应调整。其中： 1和2属于版本布局和测试左移的问题。本文临时不聊。 3和4就是能够通过技术来解决的问题了，本文接下来的局部会重点探讨如何高效的解决这两类问题。对立版本格局解决上述问题的核心技术就是要有一个对立的版本格局，无论是SaaS版本还是大版本都应该应用雷同的版本格局。在此基础之上，要做到 1、版本应该是一个残缺的零碎形容，蕴含了所有的镜像，配置等所有启动服务所须要的形容。从而可能实现基于某个版本，就能够一键拉起一个新的可用的环境。 2、每个环境有一个基线的概念，也就是和环境的以后运行态保持一致的那个版本。图3：版本中蕴含的内容 3、在环境中，每个服务还是能够独立更新的。每一次某个服务在某个环境上（比方服务A的生产环境）的公布，只管只批改了零碎中的一个服务，但也应该主动生成整个环境的一个新的版本。 4、每个环境的配置应该集中化起来，而不是在各个服务中别离保护。在服务数量比拟多的状况下，这种形式能够大大地升高版本保护的老本。尤其是在新建环境的场景下，因为配置集中化了，须要批改什么就更加的高深莫测。通常在配置项集中化之后，还会看到另一个益处，那就是反复配置少了，因为一个零碎中的不同服务多多少少都会共用一些配置，如果要独自在服务中保护，就不可避免的呈现反复。图4：任何制品和配置的变更都引起大版本的更新 5、对环境的任何变更都应该最终反映在版本中。只有这样能力保障你做的变更，能够原样的在另一个环境，另外一家客户的机房中被正确的执行，比方DDL和DML。 6、所有的日常公布行为，实质上就是针对版本变更这个动作的一些场景化封装。比方对某一个服务做变更，那就能够创立一个独立的CD流水线进行镜像构建，创立长期版本，更新环境，将长期版本写入基线。而进行某个配置变更，就是批改基线，而后利用基线到环境。图5：围绕版本构建日常构建公布等工作流围绕Helm进行版本治理和构建部署在不同的基础设施之上，上述的思路能够有不同的实现形式。而在K8S基础设施上，Helm Chart就是版本格局的不二之选。 Helm的外围概念包含：一套K8S资源文件的组织形式，资源文件中能够应用变量占位符变量管理机制，应用helm提供的机制，能够很容易的将整个大版本的变量提取进去放到对立的文件来保护，这就符合了咱们后面提到的需要一个渲染引擎，在运行时，将变量替换到文件中，并进一步利用到集群中一套部署历史治理的机制，比方update/rollback等上面看一个典型的例子：图6：基于Helm构建版本得益于K8S资源的弱小形容能力，造成一个“版本”的各种组成部分都能够很好的形容，比方：零碎的域名是什么？不同的URL应该路由到哪个服务？能够将Flyway和相干的SQL迁徙脚本打包成一个Job，来做DDL。能够将其余的须要对系统进行数据初始化的工作打包成一个Job。在此之上，再加上helm提供的模板化能力，就能够分明的将对一个环境的形容分为两个局部：不变的局部，也就是那些模板化的资源文件，不同的环境会共用这部分形容。抽取进去的属于某个环境的变量。因而上图中的蓝色的框内的就是“测试环境”的一个版本。 helm chart作为版本，能够看到，实质上就是一堆形容文件。这些形容文件能够以目录的模式存在，也能够以tgz包的模式存在。因为面向SaaS的交付的变更频率会十分高，因而每次打一个tgz包就会显得十分的臃肿。所以笔者会采取目录的模式，那么什么是承载目录，并且还能实现版本序列技能力的技术呢，很显然就是Git啦。咱们把下面思路中的那个围绕版本进行一系列研发流动那种图翻译到Helm和Git上，就是这样：图7：围绕helm chart构建日常构建公布等工作流至此，利用现成的一些标准化工具，就实现了一套版本机制，及围绕版本机制的开发流程。在这套流程下：面向SaaS的交付流程，依然十分麻利，且同时会主动的保护好各个环境的基线。因为各个环境都通过helm chart中的模板文件“耦合”在了一起，当你批改一个环境时候，天然就须要思考其余环境怎么办，因而一致性也很好的失去了保障。任何时刻，我都能够应用某个环境的基线来重建这个环境。也能够基于一个环境的基线，疾速地创立出另一个环境的基线，只须要简略的批改一下环境的变量文件即可。一些小细节在理论应用这套计划的时候，其实还是很多小细节，须要缓缓优化。这里就简略列两个：所有的镜像的tag蕴含日期和commitId，在后续定位问题时候，能够通过这些信息疾速的找到对应的代码，进行排查。在上述的CD流水线中更新一个环境之前，确保基线与运行态的一致性，如果不统一，则不进行更新，防止有人批改了基线的代码库，意外的被你捎带上了环境。规模化的驳回最佳实际上述计划最大的益处，就是驳回的都是规范的组件，具备很大的灵活性，和可定制性。但这同时也是这个计划的害处，就是太灵便了，各种最佳实际也须要缓缓摸索和调整。在调整的过程中可能会发现很多相似下面提到的“小细节”，须要进行标准或者封装。如果进行规模化的推广，那么就要求每个团队都有一个很相熟这些工具的共事。如果无奈找到这么多相熟工具的同是，那就能够思考对上述的思路进行产品化，使得大部分的开发人员都能够低成本的follow最佳实际。云效的AppStack，就着眼解决这个问题，通过白屏化利用编排、版本治理、以及企业级利用编排模板等产品能力帮忙升高开源工具应用门槛，提供了开箱即用的最佳实际。利用编排。即上述的基于helm来形容多环境配置的产品化实现。版本和基线。有了版本和基线，就能够疾速地进行回滚和基于某个版本一键拉起环境等操作。集成公布流水线。将上文中提到的常见的日常工作流程和版本联合在一起，防止每个团队别离配置。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:DubboAdmin-正式支持-30-服务治理

作者介绍程露，Java开发工程师，中间件开发爱好者，关注服务治理。严浩，Dubbo 贡献者，关注RPC、服务治理等畛域。前言Dubbo 置信大家并不生疏，是一款微服务开发框架，它提供了 RPC 通信与微服务治理两大要害能力。大家在日常开发中更多应用的是 dubbo 提供的 RPC 通信这一部分能力，而对其提供的服务治理的能力应用绝对少一些，本文的重点将放在服务治理这方面。dubbo 框架提供了极其丰富的服务治理的性能如流量管制、动静配置、服务 Mock、服务测试等性能，而 dubbo-admin 的作用在于将 dubbo 框架提供的服务治理能力提供一个开箱即用的平台。本文将介绍 dubbo-admin 所提供的性能，让大家疾速理解和应用 dubbo-admin并对 dubbo 所提供的服务治理能力有个初步的理解。服务详情服务详情将以接口为维度展现 dubbo 服务所提供的服务信息，蕴含服务提供者、消费者信息和服务的元数据信息比方提供的办法名和参数列表。在最新版本反对了 dubbo 3.0 所提供的利用级发现模型，在注册起源用利用级/接口级进行辨别。动静路由 Dubbo-Admin 提供了三种路由的反对，别离是条件路由、标签路由、Mesh路由，所提供的性能能够轻松实现黑白名单、集群隔离、金丝雀公布等服务治理的诉求。上面将举例一一展现这一部分的性能。条件路由条件路由能够编写一些自定义路由规定实现服务治理的需要比方黑白名单、读写拆散等。路由规定在发动一次RPC调用前起到过滤指标服务器地址的作用，过滤后的地址列表，将作为生产端最终发动RPC调用的备选地址。下图为一个简略的黑名单性能的实现，该路由规定的含意为禁止 IP 为 172.22.3.91 消费者调用服务 HelloService，条件路由规定的格局为：[服务消费者匹配条件] => [服务提供者匹配条件]。标签路由标签路由通过将某一个或多个服务的提供者划分到同一个分组，束缚流量只在指定分组中流转，从而实现流量隔离的目标，能够作为蓝绿公布、灰度公布等场景的能力根底。在 provider 利用级别上创立规定，对应的动态打标为 dubbo.provider.tag=tag1 和 @DubboService(tag = "tag2")。 Mesh路由 Mesh路由是 dubbo 3.0 推出的全新的路由规定性能极其弱小，应用mesh路由可能笼罩上诉两种路由的性能场景，并且还能够组合出更加简单路由场景。 Mesh路由将整个流量治理分成 VirtualService 和 DestinationRule 两局部，VirtualService 匹配入口流量，DestinationRule 匹配进口流量。上面将实现一个案例，通过对服务 HelloService 的 hi 办法通过入参 number 进行路由，实现入参为偶数的申请路由到 label 为 v1 的服务，入参为奇数的服务路由到 label 为 v2 的服务的性能。 ...

关于运维:云原生微服务技术趋势解读

作者 | 彦林随着开源和云计算的推动，云原生微服务作为外围的技术放弃着 20%左右的高速增长；随着微服务技术的成熟，门槛大幅升高，开始渗透到各行各业；一方面人力老本一直上涨，采纳微服务进步研发效率势在必行；另一方面 90 后成为研发主力，微服务独立、麻利的劣势更受年轻人欢送。微服务技术逐步成熟，微服务外围架构分层更加清晰，技术标准化和产业化正在造成，炽热的服务网格技术逐步回归感性，云原生网关作为下一代网关技术逐渐成型，微服务技术整体进入深水区。微服务行业趋势（无处不在） 01 微服务行业倒退迅速从行业报告和微服务开源产品关注度上看微服务畛域放弃 20%+的高速增长，而且国内将来空间仍然很大。 2018-2023 年，寰球微服务市场 CAGR 22.4%，2023 年预计达到$1.8Billion，亚太区市场规模市场份额 35%，仅次于北美地区。（数据起源：Marketsandmakets）。阿里微服务畛域开源产品的关注度晋升 20%左右，Star 数在过来一年陆续冲破 2 万，关注度继续晋升。 02 微服务技术平民化晚期采纳微服务架构须要一个宏大微服务业余团队和自研一个微服务技术栈，因而只有局部互联网大厂采纳，然而随着开源推动，大部分公司只须要抉择一个适宜本人的开源技术栈，大幅升高技术门槛；随着云厂商推动老本进一步大幅升高，只需 1 万块钱左右就能够具备微服务能力和业余的服务保障，因而数字化降级的各行各业都逐步采纳了微服务架构疾速演进。 03 微服务场景更宽泛因为微服务技术门槛和复杂度导致采纳老本比拟高，晚期研发人数仅 10 人左右，子系统超过 5 个才比单体架构效率更高，然而随着微服务技术成熟，微服务和单体利用效率发生变化的点左移，目前研发人数 5 集体左右，子系统超过 3 个做微服务都能取得更高的性价比，并且随着 Serverless 推动，一个 Fuction 就是一个服务，应用场景在不断扩大。 04 微服务投入产出比更高随着人力老本一直上涨，机器老本一直降落，人力老本比机器老本要高的多，采纳微服务能让企业领有更高的研发协同效率，晋升研发人员生产力；企业竞争当初更多是速度的竞争，采纳微服务能让数字化零碎迭代速度更快，在市场竞争中放弃先发劣势。 05 微服务更受年轻人欢送随着 90 后成为研发主体，他们更喜爱独立、自主、麻利的研发模式，微服务让他们更加自在的合作，晋升研发和协同效率，更快的实现产品迭代。微服务技术趋势（标准化） 01 微服务架构分层逐步清晰微服务架构分层逐步造成，后端 BAAS 化，客户端轻量化，业务侧 Serverless 化，让业务更加聚焦业务开发，进一步晋升研发效率。 ...

关于运维:韵达基于云原生的业务中台建设-实战派

本文将为大家分享韵达业务中台基于云原生的建设过程。次要分为三局部，第一局部是 IT 信息的倒退布局，第二局部是韵达业务中台建设的具体过程，第三局部是对应云原生技术的撑持。 IT 信息的倒退布局大部分人都晓得韵达是“三通一达”外面的一达，是综合物流快递的服务商，其实它当初也有很多新兴的业务，包含供应链、国内业务、冷链业务等，给用户提供平安、快捷的物流服务。韵达是以客户为核心，其企业使命是传爱心、送温暖、更便当，指标是基于大数据、云原生、智能科技等信息技术来打造一流的物流企业。韵达公司的业务倒退很快，随着电商的倒退，电商物流企业每天的订单量、运单量、数据量十分大。还有一些新兴的业务，业务的疾速倒退给其 IT 建设也提出更高的要求，次要是两方面：一方面是如何更敏捷地反对业务倒退：更加敏捷地反对业务疾速倒退。因为业务倒退很快，外围业务能力须要服务化，要增强复用，所以肯定要晋升外围业务能力的复用率。服务须要增强管控和经营。零碎建设好当前要在公司外部进行疾速推广，要升高沟通老本。业务性能须要疾速响应。当初互联网企业里常说的三高之外的新要求，就是高响应力，针对业务需要可能疾速迭代公布上线。另外一方面就是如何更稳固地撑持业务运行。一部分人认为物流公司无非就是开个车送包裹就能够了。实际上韵达的业务量、订单量一天都是好几千万的，按运单轨迹一天数据量是几十亿的，不是开车就能够的。快递物流对利用零碎依赖性是十分高的，如果咱们的零碎出问题快递包裹就不晓得怎么送了，包含中转站包含也不晓得往哪个道口散发。韵达业务中台建设的过程韵达整个业务运行须要零碎更加稳固的运行，要更加高效，能够反对海量高并发解决能力。有些 API 每秒调用量能够达到几万，数据存储量很大，对于海量数据高并发解决也有很高要求。业务须要可观测性、故障疾速定位可复原。像韵达业务中台一些零碎基本上复用率能够达到 70% 到 80%，零碎呈现问题，业务方一堆反馈就过去了，因而，对于故障的疾速定位、复原也有更高的要求。基于后面两个要求，韵达开始了中台化的建设。外围是共享业务中台的建设，整个我的项目基于阿里云原生技术构建，其中包含企业级分布式应用服务 EDAS、利用实时监控服务 ARMS、音讯队列 RocketMQ 、容器服务 ACK。韵达心愿给客户提供高效、稳固、更好的物流服务，因而韵达抉择与阿里云单干。除了阿里云云原生产品之外，韵达也采纳业界开源成熟的框架，包含大家都用到的 Redis、Elasticsearch 等设计，还有 Pika、Apache Doris、Apache Flink 等。韵达整个基础设施技术次要就是云原生+开源的成熟技术框架。在基础设施层下面搭建了韵达业务中台，包含订单核心、运单核心、分单核心、会员、用户画像、交易中心等，交易中心是新建设的，提供对立自理经营，其余包含能力注册、能力扩大、依赖治理、品质治理，都是业务中台对立提供。咱们反对前端快递的业务板块，包含新兴业务、供应链、冷链、同城等业务。韵达的业务中台分三个阶段，每个阶段是三个月，也是循序渐进来推动的。其中咱们通过和阿里专家的单干，导入了 DDD 畛域驱动设计的方法论，在策略设计阶段把整个业务中台分成了不同业务域、子域以及连接上下文的映射关系。在战术设计阶段，进行面向对象的代码开发实际，包含畛域实体、畛域服务以及畛域事件，实现业务逻辑和技术细节的拆散。韵达的开发人员只须要聚焦于业务逻辑的实现，在基础设施层基于阿里云原生技术来搭建。在业务中台建设过程中，韵达并不是齐全从零开始的，在倒退的二十多年里，韵达有很多共享能力之前在各个业务线上里，须要把这部分业务能力移交给业务中台团队，再在原有零碎根底之上，对接阿里云原生技术，再进行零碎层面的革新降级加固，让它能够反对海量数据高并发的解决能力。当然，也有一些零碎是从零开始建设的，比如说交易中心之前是没有的，交易中心次要做在线交易、领取等业务，整体架构上采纳阿里开源的 DDD 框架（COLA），它把整个利用零碎分为应用层、畛域层、基础设施层，代码分层很清晰，让咱们外围能力建设能够有疾速地迭代并具备高响应能力。这就是韵达的业务中台建设的大抵过程。云原生技术的撑持在韵达的业务中台建设实现之后，能给业务带来哪些价值呢？咱们简略总结一下：第一，麻利高效地撑持业务。将新的业务利用、业务翻新进行疾速组装，能够实现相干的业务利用疾速响应市场。整个业务能力分为两块：第一个是根底能力，还有一个是商业能力，商业能力基于业务场景做了粗粒度的组装、打包服务。通过服务的积淀能够带来业务的复用，疾速响应市场和业务倒退的需要，最大水平缩小零碎建设和运维带来的老本。韵达业务中台很灵便，并不是很臃肿的，它能够基于业务上的需要疾速迭代更新。第二，构建面向业务全景监控能力。依照统计数据，业务中台的外围能力每天光 API 调用量近五亿次，推送音讯记录就有大略十多亿的音讯量，有些外围能力复用率都达到 70%，很多业务线利用都依赖于业务中台提供的能力，如果零碎出问题咱们须要很快晓得哪里呈现问题，这是很重要的。如果没有出问题，咱们也要晓得中台服务的调用量，这些都要看得很分明，呈现问题也要疾速定位、疾速修复，这对于咱们业务中台十分重要。基于我的项目建设中的 ARMS 监测体系，能够晋升用户体验洞察和故障定位能力，这一点是不可缺失的。

关于运维:RocketMQ-端云一体化设计与实践

作者 | 悟幻一体化背景不止于散发咱们都晓得以 RocketMQ 为代表的音讯（队列）起源于不同应用服务之间的异步解耦通信，与以 Dubbo 为代表的 RPC 类服务通信一起承载了分布式系统（服务）之间的通信场景，所以服务间的音讯散发是音讯的根底诉求。然而咱们看到，在音讯（队列）这个畛域，近些年咱们业界有个很重要的趋势，就是基于音讯这份数据能够扩大到流批计算、事件驱动等不同场景，如 RocketMQ-streams，Kafka-Streams、Rabbit-Streams 等等。不止于服务端传统的音讯队列 MQ 次要利用于服务（端）之间的音讯通信，比方电商畛域的交易音讯、领取音讯、物流音讯等等。然而在音讯这个大类下，还有一个十分重要且常见的音讯畛域，即终端音讯。音讯的实质就是发送和承受，终端和服务端并没有实质上的大区别。一体化价值如果能够有一个对立的音讯零碎（产品）来提供多场景计算（如 stream、event）、多场景（IoT、APP）接入，其实是十分有价值的，因为音讯也是一种重要数据，数据如果只存在一个零碎内，能够最大地升高存储老本，同时能够无效地防止数据因在不同零碎间同步带来的一致性难题。终端音讯剖析本文将次要形容的是终端音讯和服务端音讯一体化设计与实际问题，所以首先咱们对面向终端的这一大类音讯做一下根本剖析。场景介绍近些年，咱们看到随着智能家居、工业互联而衰亡的面向 IoT 设施类的音讯正在呈爆炸式增长，而曾经倒退十余年的挪动互联网的手机 APP 端音讯依然是数量级宏大。面向终端设备的音讯数量级比传统服务端的音讯要大很多量级，并依然在快速增长。个性剖析只管无论是终端音讯还是服务端音讯，其本质都是音讯的发送和承受，然而终端场景还是有和服务端不太一样的特点，上面简要剖析一下：轻量服务端个别都是应用很重的客户端 SDK 封装了很多性能和个性，然而终端因为运行环境受限且庞杂必须应用轻量简洁的客户端 SDK。标准协议服务端正是因为有了重量级客户端 SDK，其封装了包含协定通信在内的全副性能，甚至能够弱化协定的存在，使用者毋庸感知，而终端场景因为要反对各类庞杂的设施和场景接入，必须要有个标准协议定义。 P2P服务端音讯如果一台服务器解决失败能够由另外一台服务器解决胜利即可，而终端音讯必须明确发给具体终端，若该终端解决失败则必须始终重试发送该终端直到胜利，这个和服务端很不一样。播送比服务端音讯比方交易系统发送了一条订单音讯，可能有如营销、库存、物流等几个零碎感兴趣，而终端场景比方群聊、直播可能成千上万的终端设备或用户须要收到。海量接入终端场景接入的是终端设备，而服务端接入的就是服务器，前者在量级上必定远大于后者。架构与模型音讯根底剖析实现一体化前咱们先从实践上剖析一下问题和可行性。咱们晓得，无论是终端音讯还是服务端音讯，其实就是一种通信形式，从通信的层面看要解决的根底问题简略总结就是：协定、匹配、触达。协定协定就是定义了一个沟通语言频道，通信单方可能听懂内容语义。在终端场景，目前业界宽泛应用的是 MQTT 协定，起源于物联网 IoT 场景，OASIS 联盟定义的规范的开放式协定。 MQTT 协定定义了是一个 Pub/Sub 的通信模型，这个与 RocketMQ 相似的，不过其在订阅形式上比拟灵便，能够反对多级 Topic 订阅（如 “/t/t1/t2”），能够反对通配符订阅（如 “/t/t1/+”）匹配匹配就是发送一条音讯后要找到所有的接受者，这个匹配查找过程是不可或缺的。在 RocketMQ 外面实际上有这个相似的匹配过程，其通过将某个 Queue 通过 rebalance 形式调配到生产组内某台机器上，音讯通过 Queue 就间接对应上了生产机器，再通过订阅过滤（Tag 或 SQL）进行精准匹配消费者。之所以通过 Queue 就能够匹配生产机器，是因为服务端场景音讯并不需要明确指定某台生产机器，一条音讯能够放到任意 Queue 外面，并且任意一台生产机器对应这个 Queue 都能够，音讯不须要明确匹配生产机器。 ...

关于运维:技术揭秘实时数仓Hologres如何支持超大规模部署与运维

简介：在本次评测中，Hologres是目前通过中国信通院大数据产品分布式剖析型数据库大规模性能评测的规模最大的MPP数据仓库产品。通过该评测，证实了阿里云实时数仓Hologres可能作为数据仓库和大数据平台的基础设施，能够满足用户建设大规模数据仓库和数据平台的需要，具备撑持要害行业外围业务数据平台的能力。作者 | 欧文起源 | 阿里技术公众号 2021年11月23日至12月3日，中国信息通信研究院（以下简称“中国信通院”）对第13批分布式剖析型数据库共计27款产品进行了大数据产品能力评测。阿里云实时数仓Hologres（原阿里云交互式剖析）在报表工作、交互式查问、压力测试、稳定性等方面通过了中国信通院分布式剖析型数据库性能评测（大规模），并以8192个节点刷新了通过该评测现有参评的规模记录。在本次评测中，Hologres是目前通过中国信通院大数据产品分布式剖析型数据库大规模性能评测的规模最大的MPP数据仓库产品。通过该评测，证实了阿里云实时数仓Hologres可能作为数据仓库和大数据平台的基础设施，能够满足用户建设大规模数据仓库和数据平台的需要，具备撑持要害行业外围业务数据平台的能力。在Hologres实例的云原生调度和运维体系建设上，团队也联结阿里云云原生等团队，解决了在超大规模集群；在运维能力建设上，团队通过自动化、智能化的运维体系建设，解决了实例部署和稳定性保障的问题。一超大规模部署面临的挑战随着互联网的倒退，数据量呈现了指数型的增长，单机的数据库曾经不能满足业务的需要。特地是在剖析畛域，一个查问就可能须要解决很大一部分甚至全量数据，海量数据带来的压力变得尤为迫切。同时，随着企业数字化转型过程的减速，数据的时效性变得越来越重要，如何利用数据更好的赋能业务成为企业数字化转型的要害。大数据实时数仓场景相比数据库的规模往往是成倍增加：数据量减少（TB级、PB级甚至是EB级）、数据处理的复杂度更高、性能要更快、服务和剖析要同时满足等等。而应用过开源OLAP零碎的用户，尤其是通过开源OLAP自建集群的用户，都有一些比拟粗浅的领会，就是部署和运维艰难，包含ClickHouse、Druid等，都面临了如下难题：如何满足集群的疾速交付和弹性伸缩如何定义服务的可用性指标和SLA体系存储计算一体，机型抉择和容量布局艰难监控能力弱，故障复原慢，自愈能力缺失同时，随着规模的减少，规模劣势和高性能吞吐下的压力，实时数仓的部署和运维难度呈指数级减少，零碎面临了诸多调度、部署和运维上的各种挑战：如何解决调度能力满足在单集群万台规模下服务实例的秒级拉起和弹性伸缩能力的要求；如何解决大规模集群本身的容量布局、稳定性保障、机器自愈，晋升相干的运维效率；如何实现实例和集群的监控时效和准确性的双重要求，包含怎么在分钟内实现问题发现和分钟级的问题解决得益于阿里云弱小的云原生根底服务研发能力，实时数仓Hologres通过优良的架构设计和阿里云大数据智能运维中台的能力等多个外围能力的建设，解决这些挑战，为用户提供了一个性能弱小、扩大能力优良、高牢靠、免运维的实时数仓产品。本文将会从超大规模部署与运维体系建设登程，剖析超大规模实时数仓面临的挑战和针对性的设计及解决方案，实现在高负载高吞吐的同时反对高性能，并做到生产级别的高可用。二基于云原生的大规模调度架构设计随着云技术的衰亡，原来越多的零碎刚开始利用Kubernetes作为容器利用集群化管理系统，为容器化利用提供了自动化的资源调度，容器部署，动静扩容、滚动降级、负载平衡，服务发现等性能。 Hologres在设计架构之初就提前做了优化，采纳云原生容器化部署的形式，基于Kubernetes作为资源调度零碎，满足了实时数仓场景上的超大规模节点和调度能力。Hologres依赖的云原生集群能够反对超过1万台服务器，单实例能够达到8192个节点甚至更大的规模。 1 Kubernetes万台调度Kubernetes官网颁布集群最大规模为5000台，而在阿里云场景下，为了满足业务规模需要、资源利用率晋升等要求，云原生集群规模要达万台。家喻户晓Kubernetes是核心节点式服务，强依赖ETCD与kube-apiserver，该块是性能瓶颈的所在，冲破万台规模须要对相干组件做深度优化。同时要解决单点Failover速度问题，晋升云原生集群的可用率。通过压测，模仿在万台node和百万pod下的压力，发现了比较严重的响应提早问题，包含： etcd大量的读写提早，并且产生了拒绝服务的情景，同时因其空间的限度也无奈承载 Kubernetes 存储大量的对象；API Server 查问提早十分高，并发查问申请可能导致后端 etcd oom；Controller 解决延时高，异样复原工夫久，当产生异样重启时，服务的复原工夫须要几分钟；Scheduler 提早高、吞吐低，无奈适应业务日常运维的需要，更无奈反对大促态的极其场景为了冲破k8s集群规模的瓶颈，相干团队做了具体调研，找到了造成解决瓶颈的起因：发现性能瓶颈在kubelet，每10s上报一次本身全量信息作为心跳同步给k8s，该数据量小则几KB大则10KB+，当节点达到5000时，会对kube-apiserver和ETCD造成写压力。etcd 举荐的存储能力只有2G，而万台规模下k8s集群的对象存储要求远远超过这个要求，同时要求性能不能降落；用于反对集群高可用能力的多API Server部署中，会呈现负载不平衡的状况，影响整体吞吐能力；原生的scheduler 性能较差，能力弱，无奈满足针对混部、大促等场景下的能力。针对该状况，做了如下优化，从而达到万台规模调度： etcd设计新的内存闲暇页治理算法，大幅优化etcd性能；通过落地 Kubernetes 轻量级心跳、改良 HA 集群下多个 API Server 节点的负载平衡，解决了APIServer的性能瓶颈；通过热备的形式大幅缩短了 controller/scheduler 在主备切换时的服务中断工夫，进步了整个集群的可用性；通过反对等价类解决以及随机松弛算法的引入，晋升了Scheduler的调度性能三 Hologres运维体系建设1 Hologres运维体系总览针对OLAP体系碰到的问题和痛点，以及在超大规模部署压力下的运维挑战，同时依靠阿里云大数据运维中台，咱们设计了Hologres的运维体系，解决资源和集群交付等自动化问题、集群和实例级别的实时可观测性问题和智能化的自愈体系，晋升Hologres的SLA到生产可用级别。 2 集群自动化交付Hologres 是齐全基于云原生的形式设计和实现的，通过存储计算拆散的形式，解耦了计算资源和存储资源；其中计算节点的部署通过K8s集群进行部署和拉起。通过自研的运维管理系统ABM，在集群交付上，咱们对集群进行形象设计，拆散出资源集群和业务集群的概念；资源集群的交付，ABM和底层平台进行买通，进行资源集群的创立和容量维持；在业务集群上，ABM提供基于K8s 概念的部署模板，将管控等节点在资源集群上疾速拉起，实现交付。 3 可观测性体系零碎的可观测性能帮忙业务更好的治理集群水位和问题排查等，从而晋升企业级管控能力。在可观测性上，不仅须要透出更加简略易懂的监控指标，还须要有成熟的日志采集零碎，从而实现更简略的运维，只须要为业务问题负责。基于阿里云的监控产品和Hologres的可观测性需求，咱们设计了Hologres的实时监控能力。 Metric监控体系为了反对具体的零碎能力察看、性能监控、疾速的问题定位和debug，Hologres 反对了十分丰盛的Metric监控体系，这也对整个Metric链路的采集、存储和查问提出了十分高的要求。在监控链路上，Hologres 抉择了阿里巴巴自研的Emon平台，除了反对亿级Metric每秒的写入，Emon还反对主动downsample、聚合优化等能力；同时在后端咱们通过实时链路，能够把外围Metric吐到云监控，不便用户自助的对实例进行监控察看和问题定位。日志采集和监控在日志采集上，Hologres采纳了成熟的云产品SLS，能够反对核心式的日志排查和过滤；同时思考到Hologres的日志量也十分宏大，在采集上采纳了分模块和分级的机制，在管制老本的同时，能很好的解决问题排查和审计的须要。同时，SLS也提供了基于关键字等形式的监控计划，能够对要害谬误进行告警，以不便及时处理问题。基于元仓的可用性监控在Metric和日志的采集及告警上，更多的是体现某一个模块上的问题，下面的伎俩还无奈残缺的答复某一个实例的可用性。基于此，咱们构建了一个Hologres运维数仓，通过多维度的事件、状态进行综合判断实例是否工作失常。在元仓中会收集和保护多维度数据，包含实例的meta数据、Hologres中各模块的可用性判断规范、实例各模块的状态、事件核心，包含运维事件、客户事件、零碎事件等；在进行实例可用性判断的同时，元仓还提供了用于实例诊断、实例巡检等各种数据。以后元仓的能力曾经产品化公布为慢Query日志，用户能够通过慢query日志，进行自助化问题诊断和调优。 4 智能运维晋升产品SLA在可观测性欠缺的根底上，为了晋升问题定位的速度和缩短实例复原工夫，即晋升Hologres的MTTR，基于阿里云大数据运维中台提供的根底能力和智能运维计划，咱们构建了残缺的Hologres SLA管理体系和故障诊断及自愈体系。 ...

关于运维:KubeVela-v12-发布你要的图形化操作控制台-VelaUX-终于来了

简介：工夫来到 2022 年，KubeVela 也正式进入了第四个阶段，在原先外围控制器 API 根本稳固的根底上，咱们以插件的模式减少了一系列开箱即用的性能。让开发者能够通过 UI 控制台的形式，连贯 CI/CD 残缺流程，端到端公布多集群利用，进一步晋升开发者体验。作者：KubeVela 社区随着云原生的一直倒退和成熟，越来越多的基础设施能力逐步标准化成为 PaaS 平台或者 SaaS 化产品。一个产品的诞生不再像过来那样须要建设一个团队，从开发、测试始终到运维、基础设施全局部多种角色零碎实现。现在，麻利组织文化和云原生技术驱动，使得这些职责更多的是“左移”到了开发者身上，测试左移、监控左移、平安左移，以及 DevOps 等一系列理念都是在强调，通过开源我的项目或者云的产品和服务将测试、监控、平安、运维等一系列事务提前到开发阶段实现。这看似美妙的愿景却给开发者带来了微小的挑战，开发者对底层形形色色的产品和简单 API 不足掌控力，他们不仅仅是在做抉择，更多的须要去了解和协调底层简单异构的基础设施能力，以便满足下层业务的疾速倒退和迭代需要。这种复杂性和不确定性无疑大大降低了开发者的体验，升高了业务零碎的交付效率，减少了运维危险。开发者体验的外围是“简略”和“高效率”，不论是开发者还是企业都须要更好用的开发者工具或者平台来达成。在古代云原生技术之上打造一款帮忙开发者从开发、交付以及后续继续运维的一体化平台，始终是 KubeVela 演进的外围指标。如图 1 所示，在 v1.2 版本中，咱们围绕开发者体验新增了 UI 控制台组件（VelaUX），简化了编排 YAML 的复杂性，欠缺了插件体系建设，丰盛了云资源的扩大能力，减少了大量 CI/CD 等生态对接的能力，进一步欠缺了开发者端到端的应用体验。图 1：KubeVela 架构设计倒退历程回顾让咱们再来简略回顾一下 OAM 和 KubeVela 的倒退阶段和历程： OAM（Open Application Model）诞生和成长在简单的世界中要发明简略，首先咱们须要解决的问题就是形象和标准化。阿里云和微软联合推出 OAM 模型，创新性地提出“关注点拆散”的理念，开发者关注业务自身、运维关注模块化能力。OAM 模型围绕“所有皆服务，全面模块化”的思维，为各大厂商和云原生的平台构建者们实现本人的利用治理平台提供了简略易用与高度可扩大相结合的规范实际形式。该模型提出后的短短一年内便失去了包含 AWS、Oracle、腾讯、华为在内的国内外各大厂商响应，被国家信通院立项作为行业标准。因为大家有独特的指标，升高云原生的应用门槛，让利用交付和治理更简略。 KubeVela 开源我的项目 v1.0 公布，为社区带来了 OAM 的规范实现有了 OAM 模型作为实际领导，社区高级玩家也开始发明本人的工具来实际，包含阿里、微软、Oracle、Upbond、腾讯在内的一系列公司都基于 OAM 的领导构建了本人的业务平台。但对于更宽广的开发者和中小型企业群体来说，他们却无奈间接享受模型带来的红利，于是，KubeVela 作为 OAM 社区的官网实现引擎诞生了。它从一开始就由 7 家来自不同组织的 OAM 社区成员从零到一构建。KubeVela 的实现排汇了多家公司针对 OAM 的实践经验，同时联合 Kubernetes 社区生态劣势，实现了自动化、可收敛、幂等且稳固的利用公布控制器，围绕 IaC（基础设施即配置）结构了用户敌对的形象层，帮忙开发者实现了开箱基于的 OAM 实现引擎。 ...

关于运维:如何低成本玩转微服务敏捷开发

微服务麻利开发不简略安得环境千万套，大庇开发小哥俱欢笑微服务给大家带来了麻利开发的个性，基于麻利开发带来的便当，让咱们能够在同一个工夫内多个迭代/feature 并行开发。但微服务架构自身也给开发环境带来了肯定的复杂性：每个 feature 的批改点都可能会被扩散在多个利用中，须要多个利用互相配合能力实现整体的逻辑。这些利用既须要互相配合好，又不能让他们相互影响，所以麻利开发有时候也不是那么容易。置信实际过微服务麻利开发的同学都已经遇到过以下状况：a. 开发接口时，利用无奈独立地联调测试，须要依赖于上游的返回，所以个别都须要一个残缺的开发环境，这个环境须要蕴含所有的其余利用。b. A 同学辛辛苦苦，终于开发好了一个接口，然而部署到开发环境后，发现返回值始终是错的，就是不合乎预期，百思不得其解。最终依据日志、arthas 层层跟踪上来，发现原来是另一个共事更新了上游利用的代码，导致原有逻辑产生了变更。c. A 同学筹备开始联调测试了，这时候他要找到开发 B 和 C 吼一嗓子确认：“我要开始测试了哈兄弟们，你们都别动环境，不要重启和 debug 哈”。B 同学和 C 同学一脸懵逼：“我本人这还有个逻辑没理分明呢，刚改完代码筹备测一发，你这一测试联调我就不能动环境了，我这性能得等到什么时候能力开发好”。d. 排查问题好麻烦啊，要不间接 debug 一下吧，这 IDEA 近程 debug 刚连上去呢，立马就传来了共事的声音：“谁 XX 又在瞎动环境啊，怎么刚刚还能跑的接口当初就出错了”。以上这些问题显然会影响我的项目的进度，非常容易造成我的项目延期。对于此刻的开发小哥哥而言，领有一套属于本人的独立环境，带来的幸福感兴许比有一套属于本人的小房子还大。流量闭环是微服务麻利开发的根底上文中提到的问题，其实都是因为没有在开发环境中，精准地管制流量在 feature 环境内流转。为什么精准地管制流量如此重要？举个最简略的微服务架构图来阐明，这里假如利用的调用链路为 A ---> B ---> C ---> D ，当初同时开发两个 feature， feature1 和 feature2 。feature1 须要批改 A 和 C 的代码， feature2 须要批改 B、C 和 D 的代码。为了不便表述，咱们用 A、B、C、D 来代指 A、B、C、D 的线上稳固版本，也叫做基线版本；A1、C1 来代指 feature1 环境中的 A 和 C ；B2、C2、D2 来来代指 feature2 环境中 B、C、D。 ...

关于运维:轻松配置基于Agent的OneDev-CICD集群

介绍OneDev是一个开源的自建Git服务，自带工单看板和CI/CD，我的项目地址：https://github.com/theonedev/... 在CI/CD工作须要耗费大量资源时，OneDev能够将其作为pod运行在Kuberntes集群中。然而Kubernetes集群自建较为麻烦，而应用云服务商的集群又较贵。基于此，OneDev从4.10版本开始提供基于Agent的CI/CD集群。Agent设计为零保护，OneDev server在降级时会主动降级所有连贯的Agent。如何配置咱们通过一个简略的实例来演示如果配置基于Agent的集群：在Linux或者Mac里运行上面的命令启动OneDev：docker run --rm -v /var/run/docker.sock:/var/run/docker.sock -v $(pwd)/onedev:/opt/onedev -p 6610:6610 -p 6611:6611 1dev/server关上浏览器拜访http://localhost:6610来实现设置如下所示拜访Agent治理页面并下载Agent安装包（运行在Mac下的Docker有点慢，请急躁期待）：简略起见，咱们间接在本机装置Agent。首先如上图确保装置了JDK，Docker和Git。下载Agent安装包并解压到选定的目录。而后从该目录运行bin/agent.sh console来启动Agent。如果下载时server url没有正确设置，能够通过在conf/agent.properties里批改并重新启动Agent让其失效。Agent连贯上时就会在治理页面显示为在线：当初咱们创立一个Job Executor来应用该Agent。切换到Job Executors页面，删除默认的auto-discover executor，并增加一个Remote Docker Executor，输出名称，其余属性应用默认值。测试并保留:当初您能够创立一个测试项目，定义Build Spec，增加一个简略的CI工作并运行它，该工作将在Agent上运行。OneDev在为CI任务分配Agent时，会依据Agent的cpu/memory容量以及工作所需的cpu/memory来进行抉择。当没有Agent的cpu/memory满足时，工作将会进入期待状态。谢谢关注！

关于运维:云网管-云上构建网络自动化体系

简介：云网管是基于阿里云网络多年技术和教训积淀打造的云上智能网络管理运维平台，提供企业网络全生命周期治理运维的能力，让部署更快捷、运维更高效、网络更通明。 1.背景云网管是基于阿里云网络多年技术和教训积淀打造的云上智能网络管理运维平台，提供企业网络全生命周期治理运维的能力，让部署更快捷、运维更高效、网络更通明。 1.1用户痛点 1.装置部署难传统网管大多都是本地部署，用户须要负责物理资源布局、中间件装置、安装包部署等等工作，通常须要业余的网络和IT保护人员数天甚至数周能力部署上线。 2.集中管理难网络设备自有的厂商网管，个别只能提供本地web拜访形式，不能集中管理，更做不到跨厂商治理，无奈给用户提供对立的治理视角，须要多套网管零碎之间切换应用。 3.网络扩大难办公、批发场合随着业务的扩大，常常须要全国各地疾速开店，目前网络的交付都是网络工程师通过console口登录一台台配置下发，效率低下且容易出错。 2.产品介绍2.1网络管理范畴如下图定义网络管理的全生命周期，传统的网管零碎，对网络的治理次要针对网络退役阶段，面向的是已上线网元的资源管理和运维监控等，无奈做到网络设备的全生命周期治理。图1 网络管理全生命周期云网管对网络的治理是贯通整个生命周期的，在网络未上线的时候，能够离线规划设计，定义网络架构；在建设交付的时候，将定义好的网络架构以我的项目的形式进行施行，整个交付过程流程可控，品质可管；验收通过后，网络正式进入退役阶段，在该阶段网络的外围诉求是稳固运行、少出故障以及故障产生后的疾速定位和故障复原，云网管的监控、变更、巡检等模块确保网络退役阶段的稳固运行直到网络下线。在整个网络生命周期中，资源管理确保网络资源与实在网络的一致性。 2.2 产品性能介绍 2.2.1 建设交付架构设计在网络尚未上线时能够事后进行网络布局，网络架构用于定义网络组网的互联标准和技术规格，提供图形化的架构设计和治理性能，通过图形化的形式进行组网拓扑的灵便编排，并对各个网络组件的具体规格进行配置。如图通过可视化的形式进行网络架构设计，定义网络模块的数量和连贯关系。图2 网络架构设计联合设计好的网络布局和配置标准，主动生成可一键导入的规范配置文件。图3 配置文件生成建设交付建设交付是将网络计划以我的项目的模式进行设施下发，在每个我的项目中以工单的模式管制交付过程和保障品质。图4 建设交付我的项目施行 2.2.2 智能运维态势感知通过全局视角和分支视角对网络整体状态进行实时感知。衰弱度: 联合设施告警状况、网络巡检情况、监控笼罩水平等多维度对网络情况进行评分。动静拓扑: 通过LLDP和MAC扫描技术准实时拓扑更新，设施连贯关系、端口信息等实时出现。一体化监控一个办公分支或者门店的网络，个别是涵盖了多个档次的网络，蕴含多种网络状态的设施。通常包含接入运营商的网关设施，进行数据转发的网络设备（路由器或交换机），提供WLAN的无线设施以及形形色色的终端利用。一套从网到端全链路笼罩的监控计划是必要的，因为往往端侧的异样，可能是有线网络的问题，有线侧的故障，会影响上游端侧多个终端或利用的应用。云网管针对有线网络、无线网络、终端利用等不同网络档次的设施，通过被动采集、事件接管、插件部署、被动拨测等多种监控技术，从网关到终端全链路监控网络运行状况。在如下的监控视图里将交换机上联口流量、到运营商的进口流量、AP的终端连接数以及终端的监控信息等有线和无线的指标在一个视图里实现监控。网络编排云网管提供可视化的流程编排引擎，用户通过拖拽的形式将网络操作的原子能力串联起来，保障业务下发时的事务残缺和平安。 1.残缺业务流程编排定义 2．单步配置流程可视化下发故障自愈日常高频的故障场景，基于云网管的网络编排能力，能够将告警联动解决计划，疾速实现故障止血和业务复原。 3.架构介绍3.1技术架构协定插件云网管的协定插件集成了管理网络所须要的ssh、telnet、netconf、snmp、grpc等协定，反对治理市面常见的商用网络设备。协定插件通过加密的平安通道与云端的采集管制实例进行通信，高效执行云端下发的设施操作指令和采集工作，并将数据压缩后实时反馈给云端进行剖析和展现。协定插件的Agent反对以云网管自有硬件、软件安装包、集成SDWAN网关等多种形式输入。采集管制采集管制实例在云端部署，在云网管的整体架构中起承前启后的作用。调度引擎的工作流程: 1. 接管网络编排下发的工作，按工作优先级、调度打算等策略，将工作进行正当拆解和调度。2. 依据设施厂家型号等维度将指令通过模板翻译映射为操作设施的具体指令。3. 将指令下发到Agent执行，期待接管执行后果 4. 工作执行后果剖析和拼装模板治理: 模板分为“用户模板”和“设施模板”两类，“用户模板”只具备业务含意，屏蔽了厂家差别，在网络编排中间接援用，“设施模板”是细化到厂商、型号粒度，不同的厂商之间都有显著差别。例如：“ACL策略”的设施模板，思科和华为是不同的指令。网络编排网络编排负责业务模型的对立形象和定义，网络编排将原子能力按业务流程进行串连，造成具体的网络计划。网络计划通过流程引擎驱动采集管制实例执行每一步的原子操作，以工单的形式管制事务残缺和链路追踪。利用网络编排以API的模式对利用提供能力和数据接口，应用层实现具体的“资源管理”、“网络巡检”、“网络变更”、“故障复原”等能力，反对运维人员进行日常的网络运维、业务配置等工作。 3.2部署架构云网管SaaS化部署，分钟级开明云上网管实例，用户侧只用部署探针（硬件版只须要上电和网络可达）即可。云网管的计算和存储资源都是应用的阿里云资源，能够依据规格随时扩容，基于阿里云ASK集群实现的CI/CD性能，能够随时迭代上线新性能。 4.总结云网管致力于为简单、异构、分支泛滥的线下网络打造一款免部署、易上手、集中管理的SaaS化网络运维治理平台。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:比-Xshell-还好用的-SSH-客户端神器爱了

因为须要连贯近程 Linux 服务器，晚期应用过 Putty，SecureCRT，前面次要应用 Xshell。之前民工哥也给大家举荐过几款SSH客户端：自从接触了 MobaXterm之后，个人感觉比 Xshell 更好用，堪称SSH客户端的神器啊！ MobaXterm 和 Xshell 的关系，就像 IntelliJ IDEA 和 Eclipse 的关系一样，性能更加弱小，成果更加炫酷。接下来，介绍 MobaXterm 的下载、装置、简略应用，以及其弱小的性能亮点（长处）。 MobaXterm 下载如果是集体应用，下载家庭版（收费的）就能够满足根本工作需要；如果想要应用更丰盛的性能，能够应用专业版（免费的）。集体应用的是家庭版 v12.3，曾经足够满足工作需要了。 1、以下是MobaXterm家庭版的下载地址（以后最新版本是 v12.4）：https://mobaxterm.mobatek.net... MobaXterm 装置下载的是一个zip格局的压缩文件，如下：解压后，双击 msi 文件进行装置以下是装置界面（装置一路抉择“next”即可）：装置结束后，即可在桌面上看到 MobaXterm 的桌面快捷图标，如下图： MobaXterm 简略应用1、双击桌面上的 MobaXterm 图标，进入应用界面，抉择 Session --> SSH，如下图： 2、填写须要连贯的近程主机 IP 和用户名，如下图： 3、点击 “OK”，进入到近程机器的明码输出页面，输出主机的正确登录明码。抉择“Yes”，即可保留明码，当前拜访该主机，不必每次再输出主机明码。至此，即可操作近程的主机，进行相应的工作。 MobaXterm 性能亮点（长处）1、内嵌Sftp模块，能够很不便地进行上传或者下载文件（反对拖拽）在命令窗口进入须要文件上传或者下载的目录，勾选“Follow terminal folder”，左侧的 Sftp 目录就会跳转到相应的目录。 1）文件上传的两种形式： a）点击 MobaXterm 的文件上传按钮，在本地目录下，选中须要上传的文件，点击确定，即可实现上传。b）在本地目录下，选中须要上传的文件，将文件拖到 Sftp 的近程目录下，即可实现上传。2）文件下载的两种形式： ...

关于运维:GitLab-Jenkins-ACK-自动化部署方案

本篇文章从实际角度介绍如何联合咱们罕用的 GitLab 与 Jenkins,通过 K8s 来实现我的项目的自动化部署,以公司目前正在应用的生产架构图做为此次解说的重点,如图所示：本文波及到的工具和技术包含： GitLab：罕用的源代码管理系统；Jenkins（Jenkins Pipeline）：罕用的自动化构建、部署工具，Pipeline 以流水线的形式将构建、部署的各个步骤组织起来；docker（dockerfile）：容器引擎，所有利用最终都要以 docker 容器运行，dockerfile 是 docker 镜像定义文件；Kubernetes：Google 开源的容器编排管理系统。环境背景：已应用 GitLab 做源码治理，源码按不同的环境建设不同的分支，如：dev (开发分支)、test（测试分支）、pre（预发分支）、master（生产分支）；已搭建 Jenkins 服务；已有 docker Registry 服务，用于 docker 镜像的存储（能够基于docker Registry 或 Harbor 自建，或应用云服务，本文应用阿里云容器镜像服务）；已部署了K8s集群。预期成果：分环境部署利用，使开发环境、测试环境、预发环境及生产环境隔离开来，其中，开发、测试、预发环境部署在同一个 K8s 集群中，但应用不同的 namespace ,生产环境部署在阿里云，应用 ACK 容器服务；配置尽可能通用化，只须要通过批改大量配置文件的大量配置属性，就能实现新我的项目的自动化部署配置；开发、测试及预发环境在 push 代码时能够设置主动触发构建与部署，具体依据理论状况配置，生产环境应用独自 ACK 集群及独自 Jenkins 零碎进行部署；整体交互流程图如下:我的项目配置文件首先咱们要在我的项目的根门路下增加一些必要的配置文件。如图所示包含： dockerfile 文件，用于构建 docker 镜像文件；Docker_build.sh 文件，用于将 docker 镜像打 Tag 后推送到镜像仓库中；我的项目 Yaml 文件，此文件为部署我的项目到 K8s 集群的主文件。dockerfile在我的项目根目录中增加一个 dockerfile 文件(文件名就是 dockerfile),定义如何构建 docker 镜像，以 Java 我的项目为例： # 镜像起源FROM xxxxxxxxxxxxxxxxxxxxxxxxxx.cr.aliyuncs.com/billion_basic/alpine-java:latest# 拷贝当前目录的利用到镜像COPY target/JAR_NAME /application/# 申明工作目录,不然找不到依赖包，如果有的话WORKDIR /application# 申明动静容器卷VOLUME /application/logs# 启动命令# 设置时区ENTRYPOINT ["java","-Duser.timezone=Asia/Shanghai","-Djava.security.egd=file:/dev/./urandom"]CMD ["-jar","-Dspring.profiles.active=SPRING_ENV","-Xms512m","-Xmx1024m","/application/JAR_NAME"]docker_build.sh在我的项目根目录下创立一个 deploy 文件夹，此文件夹中寄存各个环境我的项目的配置文件，其中Docker_build.sh文件就是专为触发我的项目打包为镜像文件、从新打 Tag 后推送到镜像仓库中存在的，同样以 Java 我的项目为例： ...

关于运维:N个技巧编写更高效-Dockerfile｜云效工程师指北

简介：云原生时代下软件的构建和部署离不开容器技术。提到容器，简直大家下意识都会联想到 Docker 。而 Docker 中有两个十分重要的概念，一个是Image（镜像），一个是Container（容器）。前者是一个动态视图，打包了利用的目录构造、运行环境等；后者是一个动静视图（过程），展现的是程序的运行状态（cpu、memory、storage）等信息。接下来的文章次要分享的是如何编写能使 Dockerfile 构建过程更疾速、构建镜像更小的技巧。大家好，我是陈泽锋，我在云效负责Flow流水线编排、任务调度引擎相干的工作。在云效的产品体系下，咱们服务了各种研发规模、技术深度的的企业用户，收到了十分多的用户反馈。对于应用 Flow 进行云上构建的用户来说，构建速度是大家广泛关怀的要害因素，在深入分析用户案例的过程中，咱们发现了许多通用问题，只须要批改优化本人的我的项目或工程配置，就能够大大晋升构建的性能，从而进一步减速 CICD 的效率。明天咱们会以容器镜像构建作为切入点，总结一些在理论工程中，十分实用的优化技巧。云原生时代下软件的构建和部署离不开容器技术。提到容器，简直大家下意识都会联想到 Docker 。而 Docker 中有两个十分重要的概念，一个是Image（镜像），一个是Container（容器）。前者是一个动态视图，打包了利用的目录构造、运行环境等；后者是一个动静视图（过程），展现的是程序的运行状态（cpu、memory、storage）等信息。接下来的文章次要分享的是如何编写能使 Dockerfile 构建过程更疾速、构建镜像更小的技巧。镜像定义首先咱们先来理解一下 Docker 镜像，它由多个只读层重叠到一起，每一层是上一层的增量批改。基于镜像创立新容器时，将在根底层的顶部增加一个新的可写层。该层通常称为“容器层”。下图展现了一个基于 docker.io/centos 根底镜像构建的利用镜像，创立出容器时的视图。从图中咱们能够看到镜像构建、容器启动的过程。首先是拉取根底镜像 docker.io/centos；基于 docker.io/centos 来启动一个容器，运行指令 yum update 后进行 docker commit 提交出一个新的只读层 v1（能够了解为生成了一个新的长期镜像 A，只不过用户并不会间接援用到它）；基于长期镜像A启动新的容器，运行装置和配置 http server等软件后，提交出一个新的只读层 v2，也生成了这里最终被开发者援用的镜像版本 B；基于镜像版本B运行的容器，会再追加一层读写层（对容器的文件创建、批改、删除等操作，都在这一层失效）；镜像起源镜像次要是 Docker 通过读取、运行 Dockerfile 的指令来生成。举官网上的一个 Dockerfile 例子： FROM ubuntu:18.04COPY . /appRUN make /appCMD python /app/app.py它的外围逻辑是定义援用的根底镜像 base image，执行如 COPY 指令从上下文 context 里复制文件到容器中，运行 RUN 执行用户自定义构建脚本，最初定义容器启动的 CMD 或 ENTRYPOINT。构建更高效的镜像也要围绕上述波及到的概念进行优化。 Dockerfile 优化技巧应用国内的根底镜像Flow 作为云上构建产品，每次构建都会给用户提供全新的构建环境，以防止环境污染导致带来过高运维老本。正因为如此，Flow 每次构建都会从新去下载 Dockerfile 中指定的根底镜像。 ...

关于运维:阿里云贾少天大规模云服务器高效使用及管理最佳实践

简介：本篇内容分享了大规模云服务器高效应用及治理最佳实际。 2021年10月22日，在云栖大会的《云上运维最佳实际》分论坛，阿里云高级技术专家贾少天发表了主题为“大规模云服务器高效应用及治理最佳实际”的演讲，本篇内容依据他的演讲整顿成的文章，次要通过以下三个局部来介绍大规模云服务器高效应用及治理最佳实际。如何疾速上云如何低成本的构建大规模资源场景如何高效的治理资源01 如何疾速上云咱们把上云分为四个阶段：上云前整体评估、上云迁徙的过程、上云迁徙的验证、线上业务切换。咱们明天带给大家的服务器迁徙核心产品就是帮忙大家优化迁徙的过程和迁徙的验证，让这一部分更疾速高效的进行。迁徙现存三种形式： ◾ 第一种，重新部署迁徙。就是把原来在线下的环境在云上从新一步一步再操作一遍，这种形式不论是易用性、速度、还原度方面都不是举荐的形式。 ◾ 第二种，导出镜像形式。是在你本人本地的环境依照阿里云镜像标准导出一个镜像，而后上传到阿里云应用，系统还原度能够保障，然而容易度和速度还不是最优的方法。 ◾ 第三种，应用阿里云的服务器迁徙核心。你只须要下载一个客户端在本地运行，而后创立一个迁徙工作，服务器迁徙核心产品就会帮你主动执行整个迁徙工作。阿里云服务器迁徙核心有哪些劣势呢？ ◾ 首先，它是高度成熟化的产品，反对行业里各种各样镜像。 ◾ 第二，高度自动化。一行命令，整个过程无人值守。咱们提供API和控制台，让你去观测整个过程和后果。 ◾ 第三，高度智能化。从迁徙开始，到执行过程中呈现任何问题，都会主动进行相干的修复工作，让整个过程更加高效顺畅。用户也能够依据本人的场景，迁徙成多状态。咱们也反对增量和全量迁徙，达到线上和线下齐全对立的成果；用户还能够依据本人的状况，抉择多种复制模式。服务器迁徙核心是一个高度自动化的产品，反对批量多实例迁徙，无论是什么规模的资源迁徙都能够高效的反对，如果大家后续应用阿里云过程中遇到迁徙问题，强烈建议大家应用这个产品。 02 如何低成本地构建大规模资源场景如何低成本的构建大规模服务器？这里有两个外围关键词：低成本、大规模。咱们看看到底怎么用起码的钱应用阿里云的ECS？如果大规模应用ECS，第一个问题是如何高效？比方明天有一个业务高峰期，须要1000台机器，咱们能不能在最短时间里疾速交付这1000台机器？其次，是否以更低的老本应用这1000台机器？第三，这个机器能不能通过自动化的形式，缩小人工参加，让治理和保护过程的老本更低？先说高效局部，举荐大家应用ECS启动模板性能。不晓得在座的各位来宾有哪位应用过ECS的启动模板这个性能，这是一个ECS配置数据的长久化工具。在阿里云上创立的任何ECS实例，都能够通过它去保留ECS实例的所有配置。后续任何时候，都能够通过这个配置疾速创立实例，不再须要重新配置。而且每次的变动都能够通过版本的形式治理。即便之前没用过，想要用起来也很轻松，从任何一个曾经存在的实例能够疾速的生成一个启动模板，对应的配置就是这个实例的配置。有了启动模板，除了疾速创立实例，咱们还有其余的应用形式。比方你以后须要创立一个高弹性的Web利用，像在线提供Web服务的场景，每天都有高峰期。高峰期应用更多资源，低峰期应用更少的资源。这样的话，能够用现有的启动模板，疾速创立一个弹性伸缩组。比方它有定时模式，当业务高峰期在早上8点，早上8点会定时去扩容。业务低峰期是早晨6点，在早晨6点定时会缩少机器；第二，能够是动静模式，当CPU超过50%时减少机器，当CPU低于40%时缩减机器；第三，手动模式，用户本人通过本地自建零碎来触发伸缩流动。除此之外，如果你想对整个过程有更全面的控制能力，咱们还提供生命周期挂钩的能力，比方伸缩组在帮你缩容资源的时候，你发现实例上还有一些日志文件须要备份，则能够通过生命周期挂钩回绝以后的缩容行为，伸缩组能够帮忙持续保留资源；还有告诉能力，任何扩容缩容都能够通过钉钉、短信、邮件的形式告诉给你。而且伸缩组还能够同时帮你买通实例与SLB和RDS的联通关系，帮忙用户通过这种形式疾速构建高弹性的Web能力。如果你不须要一个具备继续弹性能力的计划，只是须要批量的应用大规模的计算资源，比方应用1000台机器。咱们举荐应用弹性供给组。弹性供给组是为了满足批量大规模计算力交付的场景。比方以后须要10000个CPU，它能够依据应用弹性供给组的容量模式，去设定10000个CPU。零碎会主动依据10000个CPU判断，当下须要创立多少实例。同时，你能够依据本人的老本考量，抉择是否用按量或者Spot实例，进行配比承载本人的业务需要。另外，咱们还有多种交付类型。其中有老本优化模式，零碎每次创立时都会以最低价格的实例进行创立，让你的老本降到最低；平衡模式能够帮你在多个可用区创立，进步零碎的高可用能力等。为了满足更多的场景，弹性供给组提供了三种交付模式来满足不必需要，有继续交付的maintain模式，也就是始终帮你放弃你须要的资源数量，也有一次性交付的request和instant模式，其中instant模式能够了解成RunInstances接口能力的降级版本，在原有runInstance只反对单个实例规格、单个可用区的根底上，减少了更全面的能力。弹性供给组让交付过程更加顺畅，成功率越来越高。如果大家应用以上的弹性能力来创立资源，能够轻松保障99.9%的弹性成功率，实现一分钟交付1000台ECS的成果。在这个根底上，你能够疾速构建本人的弹性场景，任何疾速高要求的极致弹性场景都能够通过这种形式疾速构建起来。方才说到要降低成本，以低成本应用这些资源。先跟大家简略介绍一下Spot实例，它是后付费实例。它有两个特点，一个是高价，它的价格在按量实例一折和原价之间。另一个是容易被开释，你能够依据本人的可承受价格进行出价，如果以后出价低于市场价格，这个实例存在被零碎开释的可能性。要害特点就是便宜然而有被开释的可能性。如果以后业务场景基于全按量模式，或者局部按量构建。能够缓缓尝试通过局部Spot实例去替换现有的按量实例。随着Spot比例越来越高，老本也会有限趋近于最低，达到一折的成果。这个时候你必定要问了，我如果用了这么多Spot实例，如果价格变动导致实例开释了怎么办，我的业务岂不是都会受到影响了？所以在这个根底上咱们提供了更多能力来躲避这个问题。首先，Spot实例规格全副承载本人的业务场景，如果Spot实例价格过高了，所有业务全副被开释。所以咱们推出了针对Spot场景的优化，当你应用Spot实例的时候，能够设置多个最低价格的实例规格进行创立，比方3种，如图中右边所示，通过多种实例规格打散的形式，能够防止繁多实例的开释导致的问题。同时，咱们还叠加了第二种能力，Spot主动弥补机制。如果没有开启Spot弥补机制，所有的Spot开释之后有2分钟的断崖式异样，所有业务都会受损。如果开启了弥补机制，咱们的零碎会主动判断，提前5分钟进行一些替换实例的创立。在这些实例还没有开释之前，实现创立进去了，主动替换掉。所以两头不会再呈现断崖式异样。通过这两种形式，你就能够更加轻松的应用spot实例来承载业务场景，同时达到升高整体资源老本的成果。除了以上的根底能力，还有一些自动化的能力。这里简略举几个例子。首先，咱们提供了弹性伸缩组的伸缩规定能力，有多种类型。 ◾ 一般伸缩规定。它的定义形式是，当CPU大于20%时，扩容4台ECS。这种模式个别实用以后业务变动不频繁的场景，能够类比为手动空调。 ◾ 步进伸缩规定。它是一般伸缩规定根底上的加强模式，能够设置多个区间，不同区间以不同的形式应答。这样，咱们能够依照本人的教训积攒，判断不同的负载状况，须要扩容多少，以便承载业务压力，灵便度更高一些，能够类比为半自动空调。 ◾ 指标追踪伸缩模式。一种全自动的伸缩能力，应用这个策略你只须要晓得以后负载放弃在什么水位上。比方CPU放弃在50%，零碎会主动判断减少多少机器，或者缩减多少机器。这样的话，整个过程齐全不须要人工干预，更加顺畅。咱们在这些根底上又减少了进一步的伸缩规定，即预测性伸缩规定。任何伸缩组如果开启了预测性伸缩规定，咱们会用机器学习模型去学习过来1到14天整体资源的应用状况和负载变动。而后预测将来2天的负载变动状况，去生成依据预测后果，以小时为单位，主动为伸缩组生成定时工作，把资源提前准备进去。这种场景非常适合周期性的业务场景。比方你的网站每天的拜访热点工夫和规模都比拟固定，就能够应用这个模式，开启了之后齐全不须要再人工干预。如果这个过程中呈现了一些突发的流量，怎么预测呢？开启预测性模式的同时，能够通过叠加现有的指标追踪模式和其余各种模式。通过预测性去保障每天的周期性，通过指标追踪模式去应答突发性的状况。通过多种模式叠加，最终达到无效稳固的成果。接下来，和大家分享一下滚动降级性能。滚动降级次要解决日常工作中常常遇到的公布问题。咱们提供滚动降级，而后就会主动帮忙你做。你只须要配置好明天分几批机器。更新前机器进入备用状态，这时候不对外提供服务。更新之后退出备用状态，对外提供服务。而后，再进入下一批。你也能够判断以后是否要重试，回滚，还是持续。通过整体的过程，最终达到公布的成果。通过这种形式能够升高整体公布老本，帮忙大家更不便的实现日常利用公布的工作，而不须要本人构建一套公布体系。方才讲完了效率，低成本，还有自动化，咱们来看两个客户的例子。首先是汇量科技，它把在线广告业务放在弹性膨胀产品上。因为它的最终广告收益，是广告支出减去资源的老本，所以它的资源老本十分重要。同时，它也是应用大批量资源，所以它应用了弹性伸缩产品。而后通过设置按量和Spot的组合，同时开启Spot主动弥补机制，让整体老本管制在3-4折。第二个主观例子是深势科技，一家做人工智能和分子模仿算法的公司。它的特点是全副以交互型工作为主。每次跑工作都须要大量资源和严格的老本管制。所以在这个场景下，抉择了全Spot形式。把老本降到最低，同时每次也设置它的Spot最高值，来保障它不会超出整体的老本边界，最终满足它整体的业务场景。 03 如何高效的治理资源当你在阿里云上有了更多资源之后，下一步如何高效的治理？ ...

关于运维:阿里云田涛涛高效智能的云CloudOps让运维更简单

简介：CloudOps:以利用为核心的自动化运维新趋势 12月21日，在阿里云弹性计算年度峰会上，阿里云弹性计算体验与控制系统负责人田涛涛发表了主题为《高效智能的云，CloudOps让运维更简略》的演讲，深度解读了云上运维新趋势CloudOps，并具体介绍了阿里云CloudOps自动化运维套件的新产品。阿里云弹性计算体验与控制系统负责人田涛涛本文次要依据田涛涛的演讲整顿成文，内容分为三局部：从Ops in Cloud 到CloudOps；以利用为核心的自动化运维；CloudOps（云上自动化运维）白皮书公布。01 从Ops in Cloud 到CloudOps1、DevOps落地实际的痛点 DevOps从提出到当初曾经有12年了，很多企业曾经开始践行DevOps，并且获得了十分好的胜利。然而，企业在DevOps落地实际过程中遇到了不同的挑战： ◾ DevOps转型前：很多企业会发现不足DevOps专家；DevOps的投入初期十分重，须要组织变革与调整；外部工具能力弱，随着业务倒退，很多DevOps工具曾经不可能满足企业的需要。 ◾ DevOps实际过程中，关注点会产生转移：组织效力方面，更加关注如何实现高效敏捷地交付；在架构设计方面，关注如何理清架构之间的依赖关系，疾速地交付利用，做异地或者多活迁徙；自助服务方面，越来越多的企业抉择应用自助服务，依据Gartner《中国DevOps考察钻研报告（2021年）》，到2025年会有75%大企业将自助服务看作DevOps利用最重要的趋势。 ◾ DevOps演进趋势上，越来越多的DevOps企业都抉择了应用智能化的决策能力，包含评估DevOps能力成熟度。 2、DevOps in Cloud 趋势联合企业上云的趋势，越来越多的企业曾经开始在公共云上应用DevOps，这个过程中须要做利用的云化革新和适配，同时联合云原生的工具和工作流程编排，晋升交付的效率。在进行云上DevOps的实际过程中，很多的企业实现了微服务架构的革新和分布式应用的降级，同时服务治理也越来越成熟，但这个形成带来的利用激增和依赖复杂度晋升也为企业应用的可察看性和零碎的稳定性带来极大的挑战。在DevOps的云上转型过程中，很多企业也给本人的巨石利用做了服务化的革新。并且简直所有的企业都认为，凋谢的API和As-Service是企业凋谢和服务化的外围竞争力。 3、云上运维新趋势CloudOps 基于以上这些DevOps在云上的趋势，阿里云弹性计算定义了CloudOps的模型，联合DevOps和云的双重劣势能够从老本、交付速度、灵活性和系统可靠性四个维度来看： ◾ 降低成本：DevOps通过组织效力的改革、数字化工具的建设，能够大大降低老本，而云能够通过按需资源弹性以及多种资源选型和付费形式来升高资源和人力的老本。 ◾ 交付效率：DevOps能够实现CI/CD，而云能够实现秒级或者分钟级的资源交付。 ◾ 灵活性上：用户对于利用的研发上线周期提出了更高的要求，比方7天交付一个APP，从0到上线至利用商店；而云同样能够帮忙客户实现多种多样的基础设施的资源疾速交付。 ◾ 可靠性上：DevOps践行了自动化的理念，而云人造提供了基础设施的高可用。从利用高可用，到技术资源高可用，以及零碎的监控和洞察能力，DevOps和云是一个十分好的组合，因而在云上提出了一个新概念CloudOps，充沛联合云和DevOps的长处，实现1+1>2的成果。 02 以利用为核心的自动化运维 CloudOps的核心理念是以利用为核心，因为只有利用才是客户最关注的。一个利用从构建到交付的整个生命周期中，客户的关注点会发生变化：首先是利用的构建交付，如何实现主动麻利交付；交付实现后，客户会关注零碎的可靠性；一个能够疾速晋升可用性的策略就是弹性，联合弹性以及高可用计划来实现零碎架构的降级；随着利用的在线，客户也逐步关注利用公布后的平安合规和审计工作；而当利用的规模变得更大时，客户就会关注老本，实现一个继续的迭代和降级欠缺的循环过程。 1、利用自动化三部曲自动化是系统升级革新的根底，利用实现自动化包含几个大的局部，其中最次要的是：基础设施的自动化、运维自动化、服务自动化。基础设施自动化：在过来一年工夫里，阿里云公布了十分多的产品来简化基础设施自动化。很多公司和企业开始实现自动化，然而它的问题是自动化模板基于客户实现运行的，明天阿里云能够让这些模板不做任何批改，间接交给咱们的引擎就能够执行。同时，越来越多的企业不太违心应用JSON或者YAML来定义本人的基础设施，而咱们明天公布的新产品ROS CDK能够很好地解决这个问题。此外，为了简化自动化的交付，还提供了资源迁徙工具、镜像的自动化构建性能，客户能够像构建一个容器镜像一样构建一个ECS的镜像。同时，咱们会定义镜像族系，让用户永远像应用容器镜像一样能够主动抉择最新的版本，而不须要更新配置文件。运维自动化方面：咱们的运维编排OOS凋谢了工作市场，把积攒的十分多的最佳实际和工具收费公布在工作市场中，用户能够去集成应用；同时，为了构建不便的关联多种利用，咱们也公布了利用治理。服务自动化方面：咱们始终把客户可能自助发现问题、排查问题、解决问题作为咱们最次要的致力方向。2、新产品：ROS Resource Migration 先介绍第一个产品——ROS Resource Migration，很多人都感觉，IaC（Infrastructure as Code)十分好，但在实际过程中挑战十分大。首先写出IaC的模板十分难，它须要十分多、非常复杂的畛域常识和对脚本语言的了解；另一方面，模板写完后，随着利用架构降级，须要继续的更新模板来反映最新的基础架构。为了解决这个问题，阿里云提供了新的计划，用户能够通过阿里云的标签性能，在打完标签后，咱们的ROS零碎会主动剖析标签的依赖关系，帮用户构建一套IaC的模板。也就是说，用户齐全能够不理解IaC，也不必去写JSON和YAML，阿里云会自动化地生成模板。模板生成后，用户能够十分不便地实现在多可用区、甚至多账号、多地区的部署，会大大降低之前构建一套基础设施模板的复杂度。同时，当用户写完模板后，还能够通过智能化的模板配置和定义，保障用户模板的部署成功率。 3、新能力：ROS的云开发套件ROS CDK 最近几年，咱们发现很多企业都十分心愿可能拥抱CloudOps，然而他们不喜爱JSON和YAML，为此阿里云往年也公布了新能力——ROS的云开发套件ROS CDK(Cloud Development Toolkit）。它能够应用高阶的语言（如JAVA/Python等），像写脚本一样间接生成ROS模板，而后通过ROS模板再生成用户的根底资源设施。总结起来就是能够抉择本人的开发语言、本人相熟的编程模型，高效的实现Infrastructure as Code。 4、新工具：利用治理为了简化利用的构建，阿里云公布了利用治理。利用治理非常简单，只须要抉择一个标签或者导入已有资源，能够疾速构建一套利用。有了利用视角之后，它能够是跨多产品的，帮用户去做自动化的运维、监控、公布和CI/CD，大大简化了整个运维过程、升高了老本。另外，利用里最大挑战是利用降级，包含补丁治理、操作系统配置管理等，基于利用视角，咱们帮用户做利用视角的分组，极大升高应用利用的门槛。 ◾ 利用可靠性能力上：在利用构建实现之后，其实最大的挑战就是可靠性能力。阿里云在基础设施上提供了弱小的利用可靠性能力，比如说多地区部署、多可用区部署。 ...

关于运维:面向编排的运维在阿里的应用-｜阿里巴巴DevOps实践指南

编者按：本文源自阿里云云效团队出品的《阿里巴巴DevOps实际指南》，扫描上方二维码或返回：https://developer.aliyun.com/...，下载完整版电子书，理解阿里十年DevOps实践经验。阿里巴巴利用运维平台曾经倒退了 6 年无余，撑持了公司绝大部分利用的上线部署、扩缩容、资源管理以及各种运维变更操作，并逐步积淀出一套丰盛且稳固的运维原子服务。为了最大化这些原子服务的价值并打造利用运维平台的中台能力，咱们提出了一种面向编排的运维解决方案。面向编排的运维是指用户（PaaS 服务以及开发、运维、经营等角色）依据理论业务须要，对多个原子组件通过简略编排的形式进行灵便拆卸，结构出不同的业务流程以便实现一个残缺的运维需要。运维编排能够帮忙咱们更好地标准、治理和执行自动化运维操作，以模板的形式定义所须要进行的操作，而后再通过零碎运行，从而进步整体运维操作的效率、加强运维操作的安全性，并防止人工运维的谬误。次要痛点在利用运维畛域，大部分的做法都是基于工作流以及工单治理来实现对应的运维变更操作，而传统的运维工作流在保护老本及可扩展性上都存在肯定的有余，不足无效的流程生命周期管理手段。这些问题能够归结为以下三类：随着业务的一直倒退和业务场景的愈发丰盛，运维业务本身也变得越来越简单，常常会呈现一些非通用的个性化需要，比方在扩容流程中新增一个第三方数据同步的步骤，或者针对同一变更类型，不同环境须要执行不同的运维流程。这些需要导致平台实现老本以及保护老本越来越大。依赖的底层流程引擎在运维畛域的反对无限，组件编排和流程管控等能力不易进行扩大，同时在规模化场景下，性能、稳定性以及安全性等方面也很难失去无效保障。传统运维平台不具备对立且标准化的集成与被集成能力，难以赋能其余运维 PaaS 产品，中台能力欠缺，价值浸透无限，同时开发或运维人员不足设计和治理定制化运维操作的伎俩。核心理念运维编排的核心理念是服务组件化、运维编排化。咱们把运维原子服务依照平台标准注册为组件，并托管到对立的组件池中进行保护和治理，用户按需从组件池中抉择对应组件，并采纳适合的编排形式装配成运维业务流程，最初触发执行即可实现冀望的运维变更工作。运维编排的最终目标是打造一款高效、稳固、平安的运维业务构建平台。技术思路业务架构架构一共有五层，从下到上，第一层是流程引擎以及容器引擎，作为原子服务的执行者；第二层用于定义各种不同的运维原子服务，是原子服务的定义者；第三层则次要用于注册原子服务为组件，作为组件的注册者；第四层是提供外围的编排能力，作为流程的编排者；第五层次要提供场景化编排能力，针对不同的场景有一些额定的个性反对。技术架构被集成服务能够向 API Gateway 注册 Rest API，从而通过对立的网关对外裸露服务。网关自身须要实现规范的鉴权/受权策略以及 API 生命周期治理、熔断和限流等能力，同时注册到网关的 API 还要可能进一步注册到作业平台的组件池当中；如果被集成服务还引入了流程引擎，那么对应的原子组件也要可能间接注册到近程的组件池，最终通过作业平台实现所有原子组件的收敛和对立治理。基于此能够让业务方按需从组件池中抉择对应组件并进行拆卸，同时通过自定义表单性能设置流程输出，最初触发流程。流程执行时由作业平台的执行引擎子系统进行近程调度并驱动最终的服务提供者运行对应的性能组件。外围性能组件编排引擎：通过流程引擎、表单引擎、规定引擎以及脚本引擎等驱动运维业务的制作与执行。中台网关：标准组件接入规范，同时通过对立的服务网关集成丰盛多样的运维原子组件，提供给第三方或者平台编排应用。平安保障：由编排生成的业务流程默认集成审批流、平安风控、无人值守以及多种巡检能力，为运维变更提供全方位的平安保障机制。撑持服务：提供企业主数据、音讯核心、告诉核心、工作核心、权限核心等业务反对服务。应用步骤要害能力次要包含以下要害能力：疾速性能扩大构建能力：运维编排提供丰盛的运维根底组件，以及常见运维场景的公共模板，用户能够通过复制公共模板并对其批改，疾速地构建模板，实现特定的运维需要，升高模板编写的难度，进步整体运维的效率。疾速集成第三方运维能力：用户能够把第三方运维能力通过 API 网关，包装成运维编排的性能组件，在运维编排中应用，实现第三方运维能力的疾速集成。被第三方平台集成的能力：第三方平台能够通过运维编排核心的 API，进行模板和流程的治理，通过订阅流程事件来监听执行过程，实现运维编排被集成的能力。治理运维脚本/文件：运维平台对立对用户的运维脚本或文件进行治理，包含脚本或文件的上/下线、版本治理、受权治理等。可视化的执行过程和执行后果：通过提供可视化的执行过程，用户能够看到残缺的执行过程和执行后果，具体包含：直观地看到各个工作的执行详情；清晰地看到执行的流程、程序和谬误跳转。实用场景扩大现有运维变更业务：针对运维平台现有的运维变更操作进行调整，以便满足业务方所在部门的特定需要。定义全新的变更类型：针对运维平台以后并未提供的变更类型（比方 IoT 场景的运维），业务方能够依据本身须要把相干的原子组件注册到平台中，而后通过编排形式构建出全新类型的运维操作流程。批量主机运维：选定一批主机并依照编排的程序执行一系列的运维脚本或者命令，以达到批量操作主机的目标。定时巡检工作：通过定时组件联合自定义流程能够对线上资源或者服务进行各种不同维度的数据巡检以及后果报告。运维编排器：用户应用该平台，把本人的 API 以自定义 HTTP 组件的模式进行编排，进而疾速编排出所需的运维性能，缩小开发工作量。主机运维：用户通过主机运维组件，实现对主机的日志清理、组件治理等。以利用扩容为例 1、可视化编排出利用扩容模板 2、提交表单，执行利用扩容模板 3、查问执行进度及后果总结面向编排的运维业务构建模式，能够高效、灵便、稳固地反对企业中的各种运维业务场景。围绕企业业务管理需要，通过可视化的用户编排界面、控件元素和成熟稳固的模块组件，面向编排的运维工具能够反对团队疾速搭建轻资产、高效能、个性化的 IT 运维工具，助力传统运维转型，减速企业数字化过程。【对于云效】云效，云原生时代一站式BizDevOps平台，反对公共云、专有云和混合云多种部署状态，通过云原生新技术和研发新模式，助力翻新守业和数字化转型企业疾速实现研发麻利和组织麻利，打造“双敏”组织，实现 10 倍效力晋升。立刻体验 ...

关于运维:分享实录牛转乾坤持续运维-IDCF-DevOps案例研究

很荣幸加入IDCF组织的第6期DevOps案例深度钻研，咱们小组的分享主题为《牛转乾坤继续运维》，之所以定这样一个主题，是因为咱们在讲DevOps的时候往往更多侧重于软件研发的过程，咱们心愿通过本次案例钻研，带给大家更多对于运维的出现和理解。置信大家听得比拟多的是“运维”、“IT服务”，而“继续运维”算是个新词儿，每个人对这个词都有不同的了解，所以咱们首先要了解“继续运维”的定义，并达成共识，而后进而深入研究继续运维要解决好的三个阶段与档次：继续部署、继续运行、继续反馈与改良。一、如何定义“继续运维”咱们无妨将“继续运维”拆开来看，先从运维的角度看其关注的内容与软件开发过程有哪些异同，而后谈谈咱们对于“运维的继续”的了解，最初再尝试给出“继续运维”的定义。 1.1 当谈运维时谈些什么？1.1.1 你眼中的运维每个人看到的角度不一样，对运维也有不同的印象。在业务人员眼中运维是修电脑、装网线的，没有两把刷子干不了；运维人员认为本人就像救火队员、敢死队员，上游挖的坑，上游来填，妥妥的背锅侠。运维圈还风行一句话“零碎失常是失常的，零碎不失常是不失常的”，怎么了解呢？就是说零碎不失常也是一种失常，就像一个人不可能不生病，要害是咱们如何去面对和医治。延长到零碎，要害就在于咱们如何发现和面对故障，改良才是最须要的，敢于面对失败，从中吸取教训，这也是DevOps提倡的。 1.1.2 运维的产生先有IT建设，因为管理学上的专业化分工，业余的人做业余的事，运维逐步从建设团队中独立进去成为独自的一拨人，造成运维部门。对于一些甲方单位，大部分须要内部IT部门进行建设，逐步造成了甲方的IT部门，而这个部门次要承当的就是建设+运维的治理性能，具体的事务性工作由承建单位负责。运维和开发是同样重要的，一个负责生，一个负责养，缺一不可，并不是说开发部署完就高枕无忧了。传统的我的项目个别是交付当前就进入运维期，运维次要是保障建设的内容可能继续地提供价值。当初很多互联网类的产品型公司，在某个业务畛域进行产品型的迭代降级，运维也是一样，保障所有建设的内容都可能不衰减。如上图所示，IT建设里不只是有软件研发，还有基础设施建设。IT建设是从0-1的过程，IT运维是保障1-∞的过程，运维能够依据建设的目标让建设的内容起到料想的作用。 1.1.3 IT建设内容 → IT运维资产 → IT服务资产IT建设内容包含系统软件（机房）、环境能源硬件设施、操作系统、虚拟机、软件撑持零碎等；到终端和用户这块，还包含各种灾备环境。到互联网时代用了云环境，很多工作可能就交给云服务商来做。 IT建设的目标是什么呢？当然是为了应用，而且心愿能好用，于是咱们建设的内容就成了须要IT运维去保护的资产。上图列出了不少软件开发人员平时可能不太关注的CI（在运维中，CI是指配置项）。他们个别是由基础设施团队、集成团队来施行装置的。正所谓：千里之堤溃于蝼蚁，这些基础设施就如同大厦的地基一样，地基牢固了，能力建更高的楼。再晋升一个高度来看，这些内容能够作为IT服务资产，通过与人员、流程、工具等的整合，独特作为一种服务能力，保障业务的连续性。 1.1.4 运维的倒退 IT技术的倒退突飞猛进，从基础架构、运维形式及软件架构方面都有了飞跃式的倒退，不能说哪个好哪个不好，每个倒退都是适应了时代的需要。一方面开发的技术和治理办法在倒退。逐步从瀑布到迭代麻利型的开发，还有MVP等实践推动的精益守业这样先进的治理办法得以采纳。咱们能够看到运维经验了从繁多技术到服务治理的倒退，从原来被动救火到被动通过人工智能伎俩进步解决问题的能力，工具也从传统的手工为主到当初的自动化智能化数字化，运维工作更高效无力，运维人员更轻松，运维部门也缓缓从老本核心向盈利核心转变。原来的治理只须要管好单机、机房，当初要治理的是分布式、云架构等简单多态的环境，为适应这种变动，运维治理的方法论也在一直地降级。多种方法论的交融与实用，给运维部门提出了挑战和参考。治理方法的倒退脉络：第一次IT故障：1968年圣诞节，阿波罗8号正在执行盘绕月球航行工作，三个宇航员中的罗威尔无心中触动P01键，导致所有导航数据将清零，零碎行将解体。软件部长期任命玛格丽特.汉密尔顿为组长，她率领一支20人的小分队前去“灭火”。之前编写的程序派上了用途，间断奋战9小时后，错误信息被纠正，零碎复原运行。这是一次大的故障，也正是因为这次故障，运维被提上日程。ITIL概念呈现于上世纪80年代，过后英国政府认为向他们提供的IT服务质量程度不够。由地方计算机和电信局（Central Computer and Telecommunications Agency，简称CCTA），现称为政府商业办公室开发一个IT服务框架，以在英国政府和私营部门内高效经济地应用IT资源。（ITSM：技术治理：技术是基本，技术是管理手段，更是治理的对象。）这是ITIL V1的公布。ITIL V2：用流程驱动人、用过程治理后果。ITIL V3：生命周期、继续改良。联合了COBIT等思维。ITIL 4：服务价值零碎，联合了DevOps、麻利精益等思维。2003年，Google成立了Google SRE小组，是其外部运维的实际。2009年，DevOps理念产生，至2015年11月倒退成为一种文化、静止或实际，它强调软件开发人员和其余信息技术人员的合作和沟通，同时强调自动化软件交付和基础设施变更的过程。当初DevOps越来越宏大和宏观，从开发运维延长到整个开发的全流程，包含业务、开发、平安、测试、运维等各个环节的合作。1.1.5 ITIL-ITSM的最佳实际说到IT服务治理，不能不提ITSM的最佳实际——ITIL。 ITIL V3是2007年公布的，排汇了V2的精髓，从服务的生命周期看整个IT组织须要做的内容，包含26个流程和4个职能。原来的运维更多局限于被动操作，ITIL V3定义了运维须要更早地进入业务。服务策略：能够认为是从甲方的视角看，首先有一个业务策略需要制订，而后有本人的IT需要治理，同时做服务组合，比方要做哪些业务类的事件、须要哪些IT撑持。服务策略是从业务策略到IT策略的转换。服务设计和转换：首先是各种后期治理，而后是对运维环境进行容量连续性思考，同时须要做从开发到运维的常识治理，如何交接、如何做激励计划，再之后还有公布和变更的治理。服务经营：包含监控和运行中的问题如何解决、如何解决，如何从根本上杜绝这一类故障。继续服务改良：即如何改良整个IT服务质量，次要包含两大块：服务测量和服务报告。这里引进了七步改进法，当初的状况是什么样的？如何改良？通过哪些数据去度量？前文介绍过，这一方法论的提出者是英国政府商务部，它是一个甲方部门，更多是从甲方的交付思考问题，比方在服务设计里有供应商治理，包含如何与供应商合作、整个过程设计和转化的时候须要思考容量连续性等。 ITIL V4 联合了数字化转型等理念，从价值体系的角度登程进行论述，并把ITIL V3的流程整合到34个实际中，次要包含以下5个维度：创立、交付与反对驱动利益相关者价值高速IT领导、打算与改良数字化与IT策略 1.1.6 服务与产品的个性比照在学习DevOps时，不晓得大家是否关注过一个问题：开发和运维在工作时，解决问题的办法、工具都有很大的差异。即便应用同样的工具，其用法也可能存在差别。开发更多面向产品，要保障产品是否被人所须要，是不是合乎品质要求，次要是对事；而运维更多是要将产品或者服务提供给人，次要是对人。咱们要把运维做好，决不能单单从产品的角度思考问题，更应该重视服务的特点。想想海底捞为什么大家违心为它买单，应该不只是其产品做得好，很重要的一点是它提供了优质的服务体验。（服务与产品的个性比照）从上表的比照中咱们能够看出，服务是有形的，在服务里生产和生产是同步的，服务的过程治理更难度量和评估，而运维就是一个提供服务的过程。 1.2 当谈继续时谈些什么？1.2.1 什么是继续运维？说到继续，大家可能会想到继续集成、继续部署，咱们无妨将视线放大一些，看看其它可继续倒退指标，比方联合国制订了17个寰球倒退指标。扯远了，说回到继续运维，其实很难和上图进行类比联想，毕竟咱们认为的运维就是保证系统运行不出事就行了，而不是一个阶段一个阶段去晋升，就像晋升人类的物质精神文明。咱们来看从DevOps常识体系如何定义继续运维。（图片起源：EXIN DevOps 白皮书 – 企业DevOps的成功之路） ...

关于运维:阿里巴巴监管控一体化运维｜阿里巴巴DevOps实践指南

编者按：本文源自阿里云云效团队出品的《阿里巴巴DevOps实际指南》，扫描上方二维码或返回：https://developer.aliyun.com/...，下载完整版电子书，理解阿里十年DevOps实践经验。阿里巴巴的运维体系经验了脚本时代、工具时代和 DevOps 时代，目前正在实现自动化运维并摸索智能化运维阶段。在 2008-2009 年，阿里巴巴的运维还处于脚本时代，大量的运维工作须要通过脚本来实现。随着业务规模扩充和复杂度的进步，脚本的形式越来越难以保护，因而阿里巴巴开始引入运维工具。在运维工具时代，阿里巴巴的运维体系经验了：从工具团队和运维团队并行的阶段，到为了更好地保障工具品质对立的工具团队阶段，再到逐步有 DevOps 思维和职能的偏软件的工具团队阶段。最初，阿里巴巴利用运维团队迎来了一场大改革，以前的利用运维团队全被打散，合并到各业务的软件开发团队中去，全面践行 DevOps 思维。进入 DevOps 阶段后，成熟的流程化运维工具尽管晋升了一部分运维效率，然而各个工具之间理论是独立割裂的，例如监控工具和运维工具是割裂的，巡检工具和快恢工具也是割裂的，这导致日常利用继续运维过程中，从监控发现、定位并疾速复原问题的链路很长而且低效。对运维开发来说，冀望的状态是业务利用上线后能够“No Ops”，监控及运维零碎能自行发现异常并主动解决，把利用及业务带回失常状态，解决完结后，发一个音讯告诉下即可。朝着“No Ops”方向致力，阿里巴巴利用运维开始了“监管控一体化”的体系建设。新挑战随着阿里巴巴业务的继续倒退及技术架构地一直演进，新的场景和问题一直呈现，这些都给以利用为核心的监控运维带来了新的挑战。超大规模阿里巴巴岂但领有泛滥形态各异的业务，而且体量大，特地是每年天猫双 11 大促，须要超大规模的 IAAS 资源撑持。2015 年之前，阿里巴巴每年都要花费巨额费用来购买服务器，建设一代又一代的 IDC 数据中心；2015 年至 2019 年，阿里巴巴走向全面云化的过程。在这个期间，阿里巴巴的基础设施一部分在云下数据中心，另一部分在阿里云上的数据中心，还须要反对同城多活到异地多活，所以必须要有弱小的云上云下一体化超大规模资源管理的能力；2019 年阿里巴巴实现全面云化之后，又开始面对一个新的超大规模资源管理场景：混合云。运维效率业务倒退瞬息万变，特地是公司的重要业务，迭代变更的速度十分快。在超大规模集群治理的前提下，为了保障业务的连续性和疾速迭代，咱们须要有能力继续高效地对利用进行公布、部署、变配等运维变更。这也就是 DevOps 的继续运维畛域要去解决的问题。运维平安安全性是任何行业的根底，在 IT 运维畛域更是如此。零碎宕机、数据异样、数据失落、删库跑路等运维故障和事件层出不穷，这可能给企业带来致命的打击，甚至关乎业务的生死存亡。因而，防备和杜绝高危运维故障是 DevOps 始终不懈谋求的指标。在当代泛滥业务状态和云技术架构下，如何保障企业 IT 运维的平安运行至关重要。业务连续性在阿里巴巴传统的监控和运维模式下，利用的运维开发须要在监控零碎上配置一些监控项和预警规定。当监控项触发预警规定时，运维开发会收到预警告诉。紧接着运维开发须要关上电脑，在运维工具平台上创立相应的解决工单。当运维零碎工单执行实现后，运维开发要继续察看监控项是否回归失常。若遇到节假日或休假期间接到预警告诉，不能及时上线查看状况时还须要分割团队其他同学上线解决；若在中午睡梦中接到预警告诉，须要立马苏醒下本人的大脑，关上电脑上线解决。整个预警异样处理过程持续时间较长，并且须要人为参加的工作很多，人力老本大，这使得运维开发的工作幸福感很低。另一方面，随着业务地一直倒退，零碎也在一直减少，监控项和预警也急速增多，缓缓地运维开发就会对预警信息变得麻痹或鄙视，容易错失一些重要的报警信息，进而导致线上业务故障。近年来，淘宝直播、盒马线下门店、饿了么外卖、钉钉在线教育等新业务状态蓬勃发展，这些业务基本上对生产故障都是零容忍，原来零碎最佳的 99.99%可用性曾经不能满足新业务的要求，而传统的监控、运维各自为战、单打独斗的模式更无奈满足新业务 100%业务连续性的要求。解决思路为了保障生产业务的间断运行，进步业务零碎从异样预警到异样复原的整体效率，解放人力老本的同时又能确保安全，咱们思考将监控预警和运维执行联动起来，视为一体，从而实现异样主动发现、主动疾速定位以及主动疾速复原的目标，达到一种“No Ops”状态的利用运维。在利用监管控一体化建设之前，传统的监控和运维是离开的状态，运维开发想要在利用迭代变更期间关注零碎运行态势，须要事先在监控平台上定义和配置好这些利用所要关注的各项指标。在利用变更期间须要一直被动查看利用监控指标的变动，或者为每个指标设置预警规定，通过订阅接管配置好的监控报警来及时获取利用的运行异样。当利用变更出现异常报警后，运维开发须要看监控、利用日志、利用调用链路等信息剖析异样起因，决策须要到运维平台上执行什么工作能力复原，最初验证工作执行后果是否合乎预期。因而，明确需要->配置监控指标和报警->剖析异样起因->决策解决形式->执行工作->验证执行后果，整个过程都须要运维开发的染指。解决方案以保障业务持续性为源能源，在逐步推进监管控一体化建设过程中，阿里巴巴从实战经验积淀出一套业务系统安全工程规范，实现了业务异样故障提前发现、主动定位、疾速复原地主动联动，在监控、运维、平安防护畛域摸索出了多样化的解决方案。平安防护在推动 DevOps 的过程中，咱们要求的底线是不能对既有的现状带来更多不可控的因素，特地是高危场景的防护，不能因为运维工作移交到运维开发人员而造成全局系统性危险，因而平安防护计划孕育而生。全景监控监控是运维的根底，传统的资源监控或者利用监控模式曾经不能满足运维开发疾速发现生产故障的需要。基于阿里的大规模实际，咱们倒退出了以利用为核心，从下层业务到 PaaS 直至底层资源的全链路监控解决方案，为业务异样发现和定位提供了强有力的撑持。多样化运维为了实现监管控一体化，促成业务异样能疾速主动复原，利用运维从原来的单事件执行模式，摸索出以利用为核心的可编排运维、智能化运维、ChatOps 等运维模式，关上运维畛域新视角。总结阿里巴巴利用运维监管控一体化的建设随着业务状态和技术架构还在一直地摸索和倒退，本文次要介绍了利用运维监管控一体化建设的背景和思路。咱们以利用为核心，从利用监控管角度登程，通过全视角监控实时把握利用的运行状态，通过高效公布部署和灵便的运维编排对利用进行平安变更，通过智能化运维和平安防护实现利用的高级防护，咱们将在上面的章节为你具体开展。【对于云效】云效，云原生时代一站式BizDevOps平台，反对公共云、专有云和混合云多种部署状态，通过云原生新技术和研发新模式，助力翻新守业和数字化转型企业疾速实现研发麻利和组织麻利，打造“双敏”组织，实现 10 倍效力晋升。立刻体验

关于运维:从运维域看-Serverless-真的就是万能银弹吗

作者说在开始本篇内容前我想与各位开发者达成几个共识。第一个共识，软件工程没有银弹， Serverless 也不是银弹，它并不是解决所有问题的万能公式。第二个共识，Serverless 可能解决的是运维域的问题，它是解决特定畛域问题的一个技术，并不是有限延长的，与低代码没有关系。第三个共识是复杂度守恒定律-泰斯勒定律（Tesler’s law）。典型例子就是苹果，苹果的产品很容易上手操作。但实质上它整体的复杂度是守恒的，它其实是把简单的事件留给了零碎开发工程师和软件开发的工程师，让用户能够顺滑体验。同理 Serverless 也是如此，把部署 or 运维利用、网站的烦复转交给了云服务商，但整体的复杂度是不变的。第四个共识是邓宁-克鲁格效应（The Dunning-Kruger Effect），大家在认知学习过程中，都会呈现这样的倒退曲线：从刚开始无所不知，到对新常识的空想，再到悲观的低谷，迟缓爬坡。咱们学习任何一个新事物都会经验这样一个曲线过程。Gartner采纳邓宁-克鲁格曲线，来解释新技术的倒退周期。集体认知曲线Gartern 技术倒退曲线作为开发工程师常常会有这种体感，新的技术层出不穷学的很累。Serverless 刚推出来时也一样，大家对这个技术充斥了有限的设想，当设想到了一个巅峰当前，会缓缓意识到设想与事实的差距，切身去领会在产品中应用时就会掉到技术的低谷，而后再迟缓的爬坡。 Serverless 正过后本文将会通过三个局部，为各位介绍 Serverless：第一个局部是“复杂化 for 云开发商”第二个局部是“简化 for 开发者”第三个局部，会介绍一些我本人和咱们团队应用 Serverless 时的最佳场景。 1、复杂化 for 云开发商(1) Serverless 架构 Serverless 是一个集大成者，它的整倒退历史是站在伟人的肩膀上的。当初很多云服务商去跑一个函数，底层都是这样架构。首先 Serverless 的运行底层会有一个 CaaS 层。它是一个Serverless化的容器服务，大部分的应用服务都会跑在这一层下面，容器调度当初开源的比拟好的解决方案就是 K8s，用 K8s 来调度容器，底层 laaS 就是虚拟机，最底层则是物理机。 CaaS 的实现的形式有很多，Serverless 利用底层必须有CaaS服务的撑持。除了Docker以外，vm 也能够是 CaaS ；例如 Node.js 的 vm 也能够做 CaaS ，webassembly 也能够做 CaaS 等等。另外在做整体架构设计的时候，还须要一个 Component 层去解决网络货色流量和南北流量的问题，例如service Mesh和ingress的计划，总体来说 Serverless 背地的架构设计根本都是如此。 (2) 云开发商：不可变基础设施CNCF对云开发商来说会有vendor-unlock的危机，当所有云服务作为不可变根底建设，复杂度下沉到K8s层，架构变得通用。因为CNCF的架构整套框架是依据配置文件去迁徙的，能够部署在阿里云、也能够腾讯云、亚马逊的云上，甚至本人搭建的公有云。另外对云服务商来说，他们以前积攒的传统的劣势(虚拟机 laas 层的运维劣势和 Caas 层的平台级的劣势）就会慢慢失去。所以如果是 vendor-unlock 云服务商之间就会白热化地打价格战，看谁能提供更好更便宜的服务。 ...

关于运维:python-append方法的使用

append() 办法用于在列表开端增加新的对象。语法append()办法语法： list.append(obj)1.参数obj -- 增加到列表开端的对象。返回值该办法无返回值，然而会批改原来的列表。实例以下实例展现了 append()函数的应用办法： aList = [123, 'xyz', 'zara', 'abc'];aList.append( 2009 );print "Updated List : ", aList; 以上实例输入后果如下：复制Updated List : [123, 'xyz', 'zara', 'abc', 2009] append list in python 三种办法向列表中增加元素append() 只能增加一个例 member ['Hello','您好','小家','542','高兴'] member.append('加一个') member ['Hello','您好','小家','542','高兴','加一个'] extend() 可蕴含一个列表例 member.extend(['太阳','月亮']) member ['Hello','您好','小家','542','高兴','加一个','太阳','月亮'] insert() 第一个参数代表在列表中的地位，第二个示意在第一个参数的地位插入 member.insert(1,'菊花') 更多的list的信息能够参考这个链接python 3 list methods examples 如何获取list长度其实很简略，用len函数： array = [0,1,2,3,4,5] print len(array) 同样，要获取一字符串的长度，也是用这个len函数，包含其余跟长度无关的，都是用这个函数。 Python这样解决，如同在print的后果中主动增加一个空格来解脱程序员一样，也是一个人性化的思考，所以在比方字符串的属性和办法中，就不再用len了，这点要留神一下。 get the length of a python list ...

关于运维:企业微信40上下游功能上线用一款APP连接所有企业组织和用户

不久前，企业微信发表了4.0版本的重大更新，次要有三点：其一，交融腾讯会议与腾讯文档；其二，新增微信客服，买通和视频号的连贯；其三，推出连贯上下游性能。许多人都在关注微信客服的呈现，同时感叹视频号将会越来越重要，甚至超过微信公众号，成为连贯用户的首选窗口。其实，这次的企业微信更新之中，最重要的反而是连贯上下游性能。它的呈现，才是企业微信4.0版本更新的外围因素。图片起源：企业微信4.0发布会如果说两年前的企业微信3.0版本更新，开释了私域营销的超强后劲，发表ToC品牌们的狂欢盛宴到来。那么，2022年初的企业微信4.0版本中，连贯上下游性能将彻底把所有企业和组织绑定在企业微信这一款APP下面。微信和QQ重构了人与人之间的社交关系，而企业微信将突破组织与组织之间的传统沟通形式，重构一张新的数字化协同连贯网络。随着企业微信上下游性能的呈现，在能够预感的将来，某钉或某书的生存空间会被压缩殆尽，企业微信将再无敌手，它会成为所有企业和组织桌面必备的办公软件之一。在企业微信4.0版本介绍中，企业微信批发行业负责人张峰介绍：“上下游性能，将使跨企业找人跟找共事一样不便……，会议、文档、日程、微盘等合作工具全面反对上下游，内外合作更高效。” 也就是说，企业之间的数字化高效协同，齐全能够通过上下游性能来实现。这对于现在迫切想要通过数字化转型，实现降本增效、高质量倒退的大中小企业来说是一个十分好的转型切入口。链客盈销作为数字化转型服务商，也将会通过各种高效工具的开发，以及定制化服务，来帮忙企业借助企业微信的多种性能，迈入数字化转型之路。而企业微信的「上下游治理」到底凋谢了哪些性能，具体怎么利用？接下来咱们一一揭晓。一、企业微信上下游性能介绍在理解企业微信4.0版本更新，推出的上下游性能如何利用之前，咱们先理解一下该性能的外围定位。 1.定义：什么是上下游？企业微信基于本身平台的赋能属性，将「上下游」的定义确认为如下含意：上下游便是企业聚合本人某类合作伙伴的业务空间，外围为上下游通讯录和共享利用。 2.用处：企业微信上下游有哪些用处？对于「上下游」空间成员来说，能够基于企业微信中的上下游通讯录开展工作沟通，基于共享利用开展业务合作。 3.场景：能够利用到哪些场景之中？企业微信给到的场景关系，如下：① 品牌商-经销商；② 厂商/品牌商-供应商；③ 政府-企业；④ 线上/线下平台-商户。能够预见到前期的版本迭代中，将波及到的场景范畴和更新重点，次要是从这几个场景登程。上下游性能的呈现，便是为了通过数字化协同形式，借助企业微信解决上述场景外面，上下游单方连贯过程之中产生的各种难点痛点。而在性能理论利用过程中，随着协同效力的火花碰撞，必将激发出更多的场景关系。二、企业微信上下游实操关键步骤企业微信上下游性能的应用过程中，有一些关键步骤的存在，通过对这些关键步骤的理解，能够帮忙使用者疾速理解上下游性能，在接下来的篇幅中，链客盈销为大家逐渐拆解阐明。 1.如何开明上下游性能？企业微信4.0的最新版本中，属于上下游空间协同中的上游企业，其企业微信超级管理员都能够创立上下游。思考到一家企业往往存在着不止一个上下游连贯，因而，在企业微信中，一家企业最多能够创立5个上下游空间。一个上下游空间最多包容1000家企业，每家企业人数存在1000个节点，如有非凡扩容需要还能够和对接的渠道经理沟通。其中，企业微信平台上，上下游空间名具备唯一性，不会存在反复的名称。 ●上下游外部员工设置：超管能够设置本企业与上下游分割的外部成员，能够增加成员或部门，也可移除；已退出上下游空间的成员，可增加其余成员进入到该空间。 ●共享利用配置：超管能够抉择共享利用到上下游空间中，能够配置共享节点，反对第三方利用/自建利用，共享的利用会呈现在上游企业联系人的工作台。 2.如何邀请上游企业退出「上下游」？上游企业所有超管，以及该上下游空间中的成员都能够邀请上游企业退出到该空间之中。可通过「批量导入已有上下游名单」或「微信邀请」形式，实现邀请步骤。 ●批量导入：批量导入性能，目前只有企业微信超级管理员能够应用。超管须要在web治理后盾导入excel上下游联系人模版，企业微信导入后会主动、批量下发服务告诉邀请对方退出，在这里须要留神的是，该性能须要上游企业曾经注册企业微信。 ●微信邀请：上下游空间中的成员，能够通过「迁徙微信上的上下游群」、「发邀请链接到微信」、「疏导上游用微信/企业微信扫码」三种形式邀请上游合作伙伴退出到空间中。 3.上下游单方有哪些能够合作的方向？ ●便捷高效的沟通：上下游单方能够在企业微信中，实现高效沟通，做到重要信息不脱漏，可查看对方是否已读发送音讯，已读未读性能让信息同步更安心。图片起源：企业微信APP ●批量发送、即刻触达：通过上下游群发性能，能够在上下游通讯录中抉择特定联系人进行批量发送信息，目前群发次数暂无限度。 ●在线文档多人合作：企业微信4.0版本更新中，腾讯会议、腾讯文档进一步交融，不便了上下游企业在企业微信中开展多人合作和在线会议，大幅升高沟通老本。 ●微盘材料便捷共享：上下游业务往来会波及大量的产品材料、政策文件、设计图纸、订单票据等文件，在上下游空间中，能够应用微盘上传相干材料，实现业务疾速对接。而微盘能够提供最大10G的超大文件传输，让上下游沟通更加自在通顺。而在理论利用中，如何联合上下游性能连贯合作伙伴，企业微信4.0公布现场，给到了一个「智衣链」服装厂的案例。「智衣链」服装厂借助上下游性能，将布料、印花、拉链等合作环节的30多个上下游增加到通讯录中，通过共享生产进度治理利用，所有链路上的生产进度高深莫测。此外，智衣链和上下游工厂别离建群，每个群里配置一个机器人，每隔一小时主动发送订单实现状况。如果生产进度显著慢于打算，机器人会报警。负责人即在群中沟通起因，及时作出调整。图片起源：吴晓波频道据智衣链相干负责人介绍，这种协同策略，让工厂生产效率比过来晋升35%，生产环节的损失率，降落了40%。如何借助企业微信上下游性能，更好的服务供应链上下游的合作伙伴，是每一个企业相干负责人必须要思考的问题。企业微信给到的「智衣链」案例，只是上下游性能牛刀小试的一个缩影，其后劲到底如何惊人，还须要实践者的踊跃开发和开掘能力逐渐展示进去。链客盈销作为业余的数字化工具提供方，也将会帮助企业主开发适宜的软件工具，助力企业通过新型数字化工具和伎俩，重构企业协同生态系统。

关于运维:rtop-–-通过SSH监控远程主机

rtop 是一个简略的、无代理的近程服务器监控工具，可通过 SSH 运行。它不须要在近程机器上装置任何代理软件。它的工作原理是建设一个 SSH 会话，并在近程服务器上运行命令来收集零碎信息，例如 CPU、磁盘、内存、网络。它每隔几秒钟就会刷新一次信息，就像 top 命令一样。零碎环境Centos8 装置golang检查一下零碎是否装置golang： [root@server1 ~]# rpm -qa|grep golang发现没有装置，上面应用yum list golang命令查看一下近程仓库外面是否有改安装包： [root@server1 ~]# yum list golangRepository AppStream is listed more than once in the configurationRepository extras is listed more than once in the configurationRepository PowerTools is listed more than once in the configurationRepository centosplus is listed more than once in the configurationAvailable Packagesgolang.x86_64 1.14.12-1.module_el8.3.0+605+410c5674 AppStreamrtop – 通过SSH监控近程主机rtop – 通过SSH监控近程主机发现在AppStream源中有golang安装包，上面开始装置吧： [root@server1 ~]# yum -y install golang为了应用 Go 语言，请在用户主目录下创立一个工作空间。Go 语言会将所有文件保留在这里： ...

关于运维:蚂蚁大规模-Sigma-集群-Etcd-拆分实践

文｜杜克伟（花名：苏麟 ) 蚂蚁团体高级开发工程师负责蚂蚁 Kubernetes 集群的稳定性方面的工作专一于集群组件变更、稳定性危险保障本文 15738 字浏览 20 分钟前言为了撑持蚂蚁业务的迭代降级，蚂蚁基础设施往年启动了 Gzone 全面云化我的项目。要求 Gzone 需与曾经云化的 Rzone 合并部署在同一个集群，Sigma 单集群理论治理的节点规模将超过万台，单集群承当的业务也将更加简单。因而咱们启动了大规模 Sigma 集群的性能优化计划，在申请提早上冀望可能对齐社区规范，不因规模增长的起因降落。 etcd 作为 Sigma 集群的数据存储数据库，是整个集群的基石，可能间接决定性能天花板。社区倡议的单 etcd 集群存储限度是 8G, 而蚂蚁 Sigma 集群的单 etcd 集群存储量早已超过了这个限度，Gzone 上云我的项目势必会减轻 etcd 的累赘。首先，蚂蚁业务混合了散失计算、离线计算和在线业务，混合大量的生命周期在分钟级甚至是秒级的 Pod，单集群每天的 Pod 创立量也晋升到了数十万, 都须要 etcd 来撑持；其次，简单的业务需要催生了大量的 List (list all、list by namespace、list by label)、watch、create、update、delete 申请，针对 etcd 的存储个性，这些申请性能均会随着 etcd 存储规模的增大而重大衰减，甚至导致 etcd OOM，申请超时等异样；最初，申请量的增长也加剧了 etcd 因为 compact、defrag 操作对申请 RT P99 的暴涨，甚至申请超时，从而导致集群要害组件调度器、CNI 服务等 Operator 类组件间断性失落，造成集群不可用。 ...

关于运维:docker初体验docker部署nginx服务

Docker 是一个用于开发，交付和运行应用程序的开放平台。Docker 使您可能将应用程序与基础架构离开，从而能够疾速交付软件。明天来为大家演示一下docker部署nginxdocker初体验：docker部署nginx服务docker初体验：docker部署nginx服务环境centos7 装置docker移除旧版本docker[root@chaols ~]# sudo yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-logrotate \ docker-engine装置yum-utils包并设置稳固存储库[root@chaols ~]# yum install -y yum-utils装置docker[root@chaols ~]# yum install docker-ce docker-ce-cli containerd.io启动docker[root@chaols ~]# systemctl start docker查看docker镜像刚刚装置docker是没有镜像的 [root@chaols ~]# docker imagesREPOSITORY TAG IMAGE ID CREATED SIZE部署nginx下载nginx镜像[root@chaols ~]# docker pull nginxUsing default tag: latestlatest: Pulling from library/nginxe1acddbe380c: Pull complete e21006f71c6f: Pull complete f3341cc17e58: Pull complete 2a53fa598ee2: Pull complete 12455f71a9b5: Pull complete b86f2ba62d17: Pull complete Digest: sha256:4d4d96ac750af48c6a551d757c1cbfc071692309b491b70b2b8976e102dd3fefStatus: Downloaded newer image for nginx:latestdocker.io/library/nginx:latest创立nginx虚拟机run 运行 -it 交互模式 --name 指定名字 -p 宿主机：docker虚拟机 nginx 镜像名字 /bin/bash 启动容器后启动bash ...

关于运维:从阿里核心场景看实时数仓的发展趋势

简介：随着2021年双11的完满闭幕，实时数仓技术在阿里双11场景也经验了多年的实际和倒退。从晚期的基于不同作业的烟囱式开发，到基于畛域分层建模的数仓引入，再到剖析服务一体化的新型交融式一站式架构，开发效率逐渐晋升，数据品质更有保障，也积淀了更多技术创新，让咱们看到了一些将来数仓开发、利用的可能性和趋势。上面咱们来聊聊从阿里双11看到的实时数仓倒退的一些趋势。作者 | 梅酱、果贝起源 | 阿里技术公众号作者：果贝，阿里云资深技术专家，实时数仓Hologres负责人 2022年1月7日，阿里云实时数仓Hologres举办了年度发布会，在发布会上，来自阿里的资深技术专家从阿里的外围场景登程，为大家解读了实时数仓的新发展趋势“在线化、麻利化、一站式”。通过本文，咱们将会深刻解读实时数仓倒退所面临的问题，以及外围发展趋势，以帮忙大家更好的做产品选型和数仓布局。实时数仓是当初大数据畛域十分热门的一个概念（和它同热度的大略就是湖仓一体了）。通过十多年的倒退，大数据曾经成为每家公司的标配。传统上，离线数仓（开源以Hive/Spark为代表，闭源以阿里MaxCompute、Snowflake、AWS Redshift、Google BigQuery等为代表，以及Vertica、Oracle、HANA等传统IT厂商），流式计算（以Flink/Spark Structured Streaming为代表），数据服务层（HBase、MySQL、ES、Redis等）独特组成了大数据处理的规范架构：Lambda架构。Lambda架构提供了实时数据的服务（serving）能力。但Lambda架构的典型问题是开发简单、数据冗余和剖析不灵便。近几年，以ClickHouse、Apache Doris、阿里Hologres等为代表的实时数仓衰亡，通过实时写入明细数据+灵便交互式查问局部实现了去Lambda架构，在实时性、灵活性、老本、治理和运维等多方面都达到了较好的均衡。随着2021年双11的完满闭幕，实时数仓技术在阿里双11场景也经验了多年的实际和倒退。从晚期的基于不同作业的烟囱式开发，到基于畛域分层建模的数仓引入，再到剖析服务一体化的新型交融式一站式架构，开发效率逐渐晋升，数据品质更有保障，也积淀了更多技术创新，让咱们看到了一些将来数仓开发、利用的可能性和趋势。上面咱们来聊聊从阿里双11看到的实时数仓倒退的一些趋势。一实时数仓曾经成为业务标配第一个趋势是实时数仓曾经成为标配。业务对时效的要求、对灵活性的要求越来越高，从而使得实时数据变为一种刚需。而实时数仓在老本、灵活性上的微小劣势使得业务优先选择实时数仓作为实时数据的生产、存储和应用平台。在阿里巴巴，Hologres服务了约90%的BU，集群规模超过了60万core，并放弃100%的增长速度。在这些业务中，有较常见的实时数仓场景，比方： 1、数字化经营：这种场景上游对接Flink进行数据流式加工；上游对接BI工具、数据大屏等，实现业务的自助开发和上线。极大晋升了开发效率和灵活性，反对所见即所得的开发体验。 2、网络流量剖析、Metrics剖析：通过对网络流量、及其他Metrics类数据的实时存储和监控，可疾速预警和定位设施潜在故障。在万亿级记录上查问秒级响应，故障秒级发现。 3、实时物流跟踪：通过实时数仓实现物流信息的实时跟踪，保障物流流转状态的实时更新、实时查问。在这些绝对常见的实时数仓场景外，因为剖析服务一体化（Hybrid Serving/Analytics Processing，以下简称HSAP）能力（以及与之对应的Hologres高速纯实时写入能力和点查能力），Hologres也被用在了很多非典型的实时数仓场景。例如： 4、对商家的广告人群圈选：通过Hologres对宽广商家（to B）提供高QPS、低提早的人群圈选和广告投放服务。 5、无人车送货：Hologres承载无人车上商品的订单、物流等指标信息，面向B端驿站，实时汇报物流信息，从而帮忙驿站老板实现智能化包裹分拣、挪动投柜等工作；面向用户，再通过系统调度运力，实现”定时上门、送货到楼”。 6、搜寻举荐中的特色存储和样本存储：利用Hologres的弱小点查能力，实现实时样本（feature store）、实时特色（sample store）和实时算法成果剖析。 7、客户全链路体验：客服服务部门通过在Hologres存储客户的相干多渠道数据，实现间接对消费者提供各种明细查问能力（to C）。… 相似的场景还有很多，数据的实时“被看见”，“被应用”成为企业高速倒退的原动力。二实时数仓撑持在线生产零碎第二个趋势就是实时数仓越来越成为生产零碎的一部分。传统上，实时数仓（数据仓库）是一个非生产零碎。因为它次要面对的是外部客户，所以尽管大屏等重要性很高，但实时数仓实质上并不在生产要害链路上，也就是说，如果实时数仓不可用了，对客户的影响并不大。这也是为什么大部分实时数仓产品在高可用性、资源隔离、灾备等能力上和数据库等零碎是有很大差距的。传统上对外的服务是通过离线/流式加工+后果点查来提供的，即和用户交互的要害链路是后果点查（通过HBase、Redis、MySQL这样的零碎去承载）。这种模式的益处是简略牢靠，但限度也是微小的，能提供的服务性能十分无限，且不灵便。业务迫切希望能将外部的实时数仓能力以可控的形式凋谢给内部客户（to B、to C），并且放弃内外两套零碎在数据和逻辑上的一致性。下面列举的阿里广告、无人车送货、客户全链路体验等场景都是这种to B，甚至to C的案例。随着实时数仓作为一个服务对外提供，用户对服务的并发度、可用性、稳定性都提出了更高的需要。这也是Hologres在过来一年中重点发力的中央。Hologres在过来一年中引入了多正本、热降级、疾速failover、资源隔离、读写拆散、灾备等能力，实现了生产级高可用，并在往年的双11中失去了很好的利用。举几个例子：阿里巴巴客户体验事业部（Chief Customer Office，以下简称CCO）去年是业务上做了双链路写入和存储冗余来保障高可用。往年双11应用了Hologres原生高可用计划下掉手工双链路，省去备用数据链路上实时工作开发、数据比对的人力投入，缩小链路切换时的数据不统一，整体开发人力老本缩小200人日，环比去年升高50%以上；缩小了100+用于实时重保的备份链路作业，缩小计算资源2000CU。阿里巴巴数据技术及产品部（Data Technology，以下简称DT）应用Hologres读写拆散计划，高吞吐写入和灵便查问互不烦扰；剖析查问QPS增长80%的同时，查问抖动显著缩小。咱们认为实时数仓的生产系统化是一个必然的趋势，置信各个实时数仓产品都会逐渐加码这方面的开发投入。三剖析服务一体化（HSAP）第三个趋势是剖析服务的一体化（HSAP）。 Hologres是这方面的首倡者，源头是阿里团体内的业务对剖析服务一体化有强诉求，剖析服务一体化最佳实际首先在阿里外部落地，但咱们在业界也看到越来越多的产品和企业在提倡和实际剖析服务一体化。剖析服务一体化（HSAP）能够从几个层面下来了解：最根底的是用户能够应用一套技术栈（Flink+Hologres）去解决Ad-hoc Query剖析（对内）和线上服务（对内、to B、to C）两个工作，从而升高开发运维老本。传统上，实时数仓做的是Ad-hoc Query，而lambda架构实现的是线上服务。这两个在技术栈、数据链路、开发运维等都齐全不同，但解决的数据起源往往是同一份数据，导致了大量的开发作业冗余，同时数据的一致性也是大难题。而通过应用对立技术栈同时满足这两方面的需要，开发、运维、治理变的简略。以阿里CCO的场景为例，数据写入到Hologres行存表后（行存表写入吞吐高，主键查问快，更新场景Binlog开销低），会通过Hologres表的binlog被Flink二次生产加工后，存入Hologres的列存表提供剖析（列存对于统计类查问速度快）。行存表提供线上服务/点查，列存表提供剖析能力。更高层次的HSAP是用户能够在一个平台上用一份数据去实现Ad-hoc Query和线上服务两个工作，同时实现良好的资源隔离和可用性。例如，往年双11 DT部门上了Hologres读写拆散计划（由两个Hologres实例别离负责实时写入和实时查问，但共享一份底层数据存储），同时有多个读实例别离负责不同类型的查问，这样就能够保障读写隔离、剖析查问和服务查问隔离，且只有一份数据。也就是所谓的One Data，Multi Workload。 ...

关于运维:多分支集成发布各种坑怎么填

简介：一文为你具体介绍云效分支模式的原理及实际，云效 Flow 这套灵便高效的分支模式能够让用户只关怀集成和公布哪些个性分支，而对公布分支创立和治理、分支间合并等一系列工作，托付给云效实现。小明的研发团队要公布一个版本，这个版本蕴含了多个性能个性，每个不同的个性之间有较强的独立性。不同的个性由不同的开发人员或开发小组分工实现。他们在不同的个性分支上开发，彼此互相独立、互不影响。一个个性开发实现后就提交测试，这个过程不影响其余个性的失常开发，全副已实现的个性全副合并进行测试和公布。在提交测试，集成合并时碰到了这样的问题：对于某个公共模块的批改呈现了合并抵触因为一个个性分支的集成，导致整个版本集成失败版本公布工夫在即，为不影响整体停顿，须要疾速拆散影响了整个集成的那个个性分支。如果你是小明，这时你会怎么做？小明的研发团队又要公布一个版本，整个版本有 A、B、C、D 四个性能个性一起合并集成，别离在分支 A、B、C、D 上开发。邻近公布前，市场侧告诉因为某种原因性能个性 B 不能公布，也就是这次公布须要剔除分支 B。依照严格的集成公布策略，A、C、D 这 3 个个性分支须要从新构建，别离再通过集成测试、预发验证，而后到生产公布。然而，这样做是有老本的。如果你是小明，在效率和品质之间你会怎么选？这两个情景遇到的问题，在多分支并行开发集成公布中很常见，如何疾速、灵便、高效又实用地解决这类问题，成为泛滥小明的刚需。阿里巴巴团体外部经验并仍在经验着大量多分支集成公布的实际，这些实际被提炼成了一套阿里的分支策略，造成了阿里分支模式，并通过公共云产品云效 Flow 对外部研发用户输入。当应用云效Flow 分支模式时，小明的两个场景问题将能够失去灵便高效地解决。场景一：如何疾速拆散影响整个集成的那个个性分支小明能够间接在再次运行分支时，删除已集成分支，执行流水线时将会主动进行以下操作：基于分支管理器中设置的根底分支（如 master），创立新的 release 分支除了该个性分支外的其余在云效配置中的其余分支合并到 release 分支基于 release 分支的最新内容运行流水线场景二：公布在即需要被砍，如何均衡效率和品质？小明发现云效分支能够按环境/流程，自在地集成，思考到本次上线的工夫对后续我的项目进度十分要害，小明抉择了跳过两头的测试阶段、预发阶段间接部署到正式环境，为了最大水平防止品质危险，小明还应用了云效Flow的公布前人工审核卡点能力，最终变更没有耽搁失常发版，也未呈现任何危险。云效 Flow 这套灵便高效的分支模式能够让用户只关怀集成和公布哪些个性分支，而对公布分支创立和治理、分支间合并等一系列工作，托付给云效实现。上面具体介绍云效分支模式原理及实际。云效 Flow 分支标准master 代表最新公布版本个别状况下，master分支代表最新公布版本。当须要最新公布版本的内容时，间接取分支末端即可。不管其余哪类分支，都倡议个别从 master 分支创立，并且常常从 master 分支合并，以便跟上“潮流”，缩小未来集成时的各种问题，比方代码合并抵触。每当软件正式公布前，零碎会确保它基于 master 最新。每当软件正式公布后，零碎会把相应内容合并回 master，以便让 master 分支始终代表最新公布版本。一般来说，使用者不要间接“写”货色到master分支。把“写”的工作交给零碎适时主动实现。在各 feature 分支上开发一条 feature 分支（又称变更分支、开发分支），通常用来承载一个缺点的修复，或者一个需要（如果不是很大的话）的开发，或者工作合成后一个工作的开发。一般来讲，基于 master 分支最新版本创立 feature 分支。而后在 feature 分支上开发、测试，直到这个 feature 性能实现，品质 OK，筹备好去集成和公布。 ...

关于运维:APP-性能分析工作台你的最佳桌面端性能分析助手

作者：字节跳动终端技术——王凯应用 APP 性能剖析工作台还可抽奖取得字节精美周边哟❗️ 扫描图中二维码或点这里即可抽奖背景Fastbot 是一款由字节跳动 Quality Lab 团队出品，基于 model-based testing 联合机器学习、强化学习的 App 稳定性测试工具。相比 Android 自带的原生 Monkey 等工具，Fastbot 体现出更好的性能，在雷同工夫内的 Android Activity 覆盖率和代码覆盖率要远高于其余工具。图 1 Fastbot 性能比照图之前在《奔跑吧！智能 Monkey之Fastbot跨平台》一文，咱们曾具体地介绍了 Fastbot 在跨平台方面的设计思路、技术演进及利用。图 2 Fastbot 跨平台架构图目前，Fastbot 已广泛应用于字节客户端类产品的稳定性测试与兼容性测试。每日启动工作数超过 300 次，每日均匀发现 5000 个以上的解体，并有超过 100 个新捕捉的解体。借助 Fastbot 的能力，在发版前(次要用在机架测试)就能够修复大部分的 crash，确保线上用户的应用体验。在 2020 年 12 月，Fastbot 在 Github 上开源后，受到了宽广开发者的青睐，并踊跃提供的应用反馈，其中两点被重复提及： Android 输入的解体以文本模式按工夫序存储在 sd 卡中，不不便开发者解析；iOS 没有解体的读取反对；Github 地址 Android：https://github.com/bytedance/... iOS：https://github.com/bytedance/... 与此同时，在字节跳动外部，咱们通过一款外部代号为「Diggo」的桌面端软件，帮忙品质测试同学实现 App 的性能测评，给研发同学实现性能问题的归因剖析。在打磨、迭代一年多之后，咱们决定把它整顿、凋谢进去，为宽广的利用开发者和品质测试同学提供服务。 ...

关于运维:技术实践第四期｜解读移动开发者日常性能监控平台应用

简介：利用性能监控平台是用来帮忙客户晋升利用性能品质和稳定性的重要环节，自己作为一名挪动端开发者有着丰盛的应用和运维教训，心愿通过本文分享过往的心得和应用教训，让我参加开发的U-APM这款产品中，作为借鉴能够在中长期布局中帮忙更多的开发者。作者：友盟+技术专家谦翔一、概述利用性能监控平台是用来帮忙客户晋升利用性能品质和稳定性的重要环节，自己作为一名挪动端开发者有着丰盛的应用和运维教训，心愿通过本文分享过往的心得和应用教训，让我参加开发的U-APM这款产品中，作为借鉴能够在中长期布局中帮忙更多的开发者。（以下内容仅作为稳定性监控平台这类平台的应用教训和心得，文中提及平台仅供参考）二、产品受众1. 理解他们利用性能监控平台的使用者往往是站在挪动终端最火线的开发者，他们须要关注端的稳定性、用户性能、体验等方面。好的工具能够帮助他们在日常运维中的工作。 1.1 挪动开发者团队职责形成此类产品的受众次要是挪动开发者，而挪动开发者开发者也会分为前端和客户端，别离依据本人所应用的技术栈个性进行职责调配，当然跨端技术的呈现也让边界不再那么清晰。 1.2 挪动开发者日常工作开发者日常的工作职责次要分成两大部分开发和运维，开发中呈现的问题个别能够通过调试环境就能够定位解决，而运维阶段，线上的代码被压缩混同加密后变的难以辨认无奈间接定位问题。不同零碎、运行环境、网络状况和低质量的代码则会带来不可预知的性能问题，运维工作的量化汇报等等。这些都是挪动开发者们日常所面临的艰难。 1.3 场景演绎如果把利用性能监控平台的应用场景分为上线前和上线后，大抵列举了以上场景。 1.4 利用性能监控平台针对以上场景，市面上或者公司外部的利用性能监控平台绝大部分可能解决 2. 案例分享上面我会联合下面提到的场景分享三个案例 2.1 案例1（单设施谬误排查）单设施谬误排查的场景对于值班人/开发者的要求很高，其在于排查工夫的紧迫性和对开发链路相熟以及排查工具的齐备性等。（此场景常见于重要客户或领导反馈） 2.2 案例2（性能优化） 2.2.1 优化背景技术栈：React Native 劣势：RN 领有一次编写三端执行和动静部署和逻辑下发到客户端的能力，解决客户端版本审核及更新效率低、三端开发技术计划不统一、三端公共需要存在重复劳动等问题劣势：RN执行阶段可分为RN加载阶段和RN运行阶段，相应的RN页面所面临的性能问题也不尽相同2.2.2 RN框架加载流程为了更清晰的理解RN加载阶段的问题所在，咱们先来剖析下RN的加载机制在进入整个RN页面的流程中，RN框架加载会经验以下步骤：包下载及解压缩：加载时发现本地没有对应的包文件，会先从服务器上下载并解压包的文件。获取初始化引擎：RN预初始引擎的性能，提前创立一个初始化好的引擎并缓存，缓存在退出页面2分钟之后开释。加载业务包：向一个初始化好的引擎中，加载业务的JS代码。该环节受限于业务JS的大小及设施性能，该加载工夫广泛较长。运行业务包：执行业务JS中runApplication()办法，开始渲染Native页面。该环节受限于业务JS的复杂度及设施性能，如果首次渲染的组件很多，该加载工夫会变长。2.2.3 RN框架罕用指标和维度 RN加载阶段的性能优劣，最直观的感触就是页面加载耗时所以RN技术在带来种种长处的同时，也在存在一些性能和体验问题，这须要一些优化伎俩和指标来撑持业务的稳固运行不同的终端技术栈须要联合本身加载和运行的要害阶段，量身打造适宜本人的性能指标和维度。这能够让开发者监控页面加载和运行过程的每个环节，进行针对性优化。 2.2.4 优化过程&后果问题发现：发现以上页面指标，页面加载工夫（90分位）长时间处于1.2s左右高于要求的规范阈值1s以内参考RN加载流程通过多维度筛查，发现很多用户是首次拜访该页面，下载代码包须要大量耗时，低网络更是如此，所以咱们须要提前用户下载bundle的机会，还有缩小bundle的大小。解决方案：晓得问题所在就好办多了，咱们整顿了针对包大小优化，包预下载工夫等一系列的优化计划的组合拳，这里就不过多开展。优化后果：优化后果：页面加载工夫（90分位）缩小耗时至0.5s2.3 案例3（汇报）汇报工作形式个别分为两种报告和值班推送的模式，次要将所监控页面或者业务线重要的性能指标进行实时或定期追踪同步，不便负责团队进行下一步口头（比方：优化、谬误修复等）网络促销日值班场景（某营销促销日 xxxx.xx.xx）营销促销日前一周汇总各挪动端团队负责的业务列举各挪动端团队业务所笼罩的页面，确认监控是否笼罩各团队技术值班负责人确认各技术栈（H5，Native，RN等）数据指标和告警阈值并设置利用性能监控进行定时汇报推送值班群各小组确定值班日安顿，实时跟踪值班群阈值异常情况，并及时响应。以上是本期干货内容的介绍，心愿友盟+研发团队撰写的技术内容能够更好地帮忙开发者们解决问题，友盟+将陪伴开发者们一起提高，一起成长。敬请期待下一期内容。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:龙蜥利器系统运维工具-SysAK的云上应用性能诊断-龙蜥技术

文/张毅：零碎运维核心成员、SysAK 我的项目负责人；毛文安：零碎运维 SIG 负责人。零碎运维既要业务稳固的运行，又要最大化的利用资源，因而对于利用性能的评估也是重要的一环，作为零碎运维的利器，SysAK 天然少不了这方面的能力。但对于利用性能的诊断，有时比稳定性问题更难，非专业人员甚至有无从下手的感觉。本文从大量的性能诊断实际登程，来介绍 SysAK 在性能诊断上的方法论及相干工具。 SysAK 利用性能诊断办法简而言之，SysAK 诊断利用性能的基本思路就是自顶向下并进行关联拓展。自上向下即利用->OS->硬件，关联拓展则包含同级利用、零碎影响、以及网络拓扑。说起来简略，但施行起来却是一个大工程。 1、利用画像首先做的就是利用画像，要对利用的性能进行诊断，首先要对其进行画像，包含其业务吞吐、系统资源应用等，而后再依据画像中占比比拟大的性能瓶颈进行逐个专项剖析。具体来说，包含利用的并发数、运行和睡眠的统计。并发数简略，统计业务工作数就行了，这个次要是为前面的资源应用作为参考。 1.1、运行统计即对系统根底资源的利用进行分类统计，利用运行时根底资源占用就4类： Cpu通过 cpu 占用可知利用自身的吞吐是否高，并进一步通过 user/sys 的 cpu 占比可得悉业务运行时更多的是在业务本身还是在内核资源的应用上。所以此处至多要蕴含运行时长、以及 user、sys 的各自比例。如果 sys 占比高，须要持续剖析对应内核资源是否有异常情况，否则更多时候须要剖析硬件资源上是否有瓶颈。内存通过内存的应用状况来判断内存的申请与拜访是否是制约业务性能的因素。所以此处至多要蕴含内存调配总量、频率、缺页次数、跨 NUMA 节点拜访次数和大小等的统计。文件通过文件拜访的状况来判断文件 IO 是否是制约业务性能的因素。此处至多要蕴含文件读写频率、pagecache 命中率、均匀 IO 时延等的统计。网络通过报文流量来判断网络是否是制约业务性能的因素，此处至多要蕴含流量统计、对端链接的网络拓扑等。 1.2、睡眠统计如果利用运行周期内，睡眠工夫占比很大，则很可能是影响业务性能的关键因素，此时就要剖析睡眠的详细情况了。至多要蕴含三类行为的数据统计，包含具体行为的次数和时长：被动睡眠这类数据如果占比过高，则阐明是利用本身行为。用户临界资源竞争这些数据如果占比过高，则须要优化利用。内核资源期待这类数据如果占比过高，则须要剖析具体的零碎内核资源瓶颈。在有了利用画像当前，咱们就对利用运行过程中的根本状况有了理解，如果发现瓶颈不在业务本身，那么就须要持续往下剖析对应的系统资源或者硬件瓶颈了。 2、零碎内核资源零碎内核资源制约利用性能的中央又可分为三大类： 2.1、烦扰一个服务器操作系统运行过程中，对利用运行的干扰源可能会很多，但烦扰不肯定会对业务造成影响，所以至多须要蕴含这些干扰源的频率和运行工夫，来评估是否是关键因素。至多须要包含以下干扰源的统计：设施硬件中断如果在业务运行过程中，某一类中断频率过高或者集中到某个 cpu，或者单次单次运行过过长，那么都都可能会影响到业务的性能，能够对中断进行打散绑定等操作察看成果。零碎定时中断零碎定时器过多，也可能会对业务的唤醒造成提早，通常能够剖析业务过程是否有大量的应用高精度定时器。软中断可能是网络流量是否有突发减少等。内核线程其余高优先级利用2.2、瓶颈零碎内核资源品种繁多，利用模型不同，对内核资源的依赖也不同，所有瓶颈点无奈齐全笼罩，但至多须要蕴含几大类常见的内核资源的统计数据：运行队列长度这个能够表明是否业务过程/线程并发过多，或者是否绑核不合理等 fs/block 层时延对于不同的文件系统或设施、IO 调度算法，可能会有不同的瓶颈点，通常须要进行分段统计时延来确定内存调配延时受内存水位、碎片的影响，内存调配的时延有时可能会很大 pagefault 时长与频率内存缺页导致的内存申请、重映射、tlb flush 等对的开销是十分大的，如果频繁的进入到 pagefault 流程中，能够思考从利用策略上进行优化，比方预分配内存池、应用大页等。要害门路 kernel 锁的竞争锁是不可避免的机制，kernel 态锁竞争通常会导致 sys 态的 cpu 升高，须要联合上下文进行具体分析。 2.3、策略上述提到内核资源无奈齐全笼罩，但能够有另外一种办法去能观测一些数据，因为不同的内核策略可能有比拟大的性能差别，所以能够尝试通过不同零碎间的比照，找出配置的差别点。通常的系统配置采集如下：内核启动参数内核配置接口 sysctl/procfs/sysfs内核模块差别cgroup配置3、虚拟化当上述找不到瓶颈点时，或者咱们想持续开掘性能的剩余价值，通常就会到硬件这一侧，而目前业务部署在云上居多，所以在深刻硬件层前，虚拟化层或者说主机侧也是绕不开的必要因素。对主机侧的性能剖析，针对零碎内核资源制约能够复用上述的办法，但对业务画像能够少做不少事，绝对于利用业务，虚拟化这层的逻辑不会有限变动，咱们能够从各个渠道理解到云厂商提供的虚拟化计划，目前支流的是 Linux kvm 计划。因而能够针对性的对 kvm 这个计划所所及到的技术点做特地剖析。此处应该蕴含的统计包含： ...

关于运维:恒源云云GPU服务器如何使用iKataGo

文章起源 | 恒源云社区（一个专一 AI 行业的共享算力平台：恒源智享云) 原文地址 | iKataGo 明天给大家带来一个好玩的镜像：iKataGo iKataGo Server首先创立一个 iKataGo 镜像的实例。通过 JupyterLab 的终端或 SSH 客户端进入实例。 iKataGo 装置在 ~/work 文件夹下，内置了 40b weights。实例启动时会依据显卡主动抉择适合的 configs 进行替换，无需手动筛选复制 cfg 配置。进入到 ~/work 文件夹，执行 ./run.sh。如果是通过 JupyterLab 终端窗口执行后能够间接敞开浏览器窗口，终端依然会在后盾运行。 cd ~/work# 替换 USER_NAME、USER_PASSWORD 为自定义的账号密码~/work# ./run.sh USER_NAME USER_PASSWORDServer Version: 1.6.02021/02/04 13:58:37 DEBUG the world is: https://ikatago-fairyland.oss-cn-beijing.aliyuncs.com/world.json2021/02/04 13:58:37 DEBUG Platform: [all]2021/02/04 13:58:38 Token will expires at: 2031-02-01 23:59:59 +0800 CST2021/02/04 13:58:38 [I] [service.go:282] [5b06c59088a928bc] login to server success, get run id [5b06c59088a928bc], server udp port [0]2021/02/04 13:58:38 [I] [proxy_manager.go:144] [5b06c59088a928bc] proxy added: [kinfkong-ssh-test]2021/02/04 13:58:38 [I] [control.go:179] [5b06c59088a928bc] [kinfkong-ssh-test] start proxy successSSH HOST: x.x.x.xSSH PORT: xCongratulations! Now ikatago-server is running successfully, waiting for your requests ...iKataGo Client在本地下载 ikatago-client 用于连贯服务端，在应用 Sabaki 或 Lizzie 界面工具增加实例服务端。以下是在 Windows 平台下借助 Sabaki 开始机机对弈的示范。 ...

关于运维:技术干货-ToB-业务场景下自动化测试的实践及探索

导读：在 ToB 业务疾速迭代与新版本公布过程中，开发和 QA 提测面临着大量人工测试场景。那么如何实现智能回归测试，实现测试用例到代码逻辑的精准记录和双向追溯？如何能更高效的晋升测试效率？这都是自动化测试平台的重点摸索。文｜赵冲网易云信资深挪动端开发工程师背景业务场景的复杂化随着 B 端计划交付场景增多，版本须要疾速迭代。单端平台的自动化曾经无奈做到效率上的晋升，人工回归更多的是在主观下来评估改变的影响面，为了确保版本的稳定性，全量回归测试的挑战会拉长 B 端 SDK 和计划公布布局。传统的自动化测试校验后果只是单一性的校验。挪动端的 API 和 UI 自动化场景简单，新旧版本兼容性用例治理，脚本化实现用例管理效率较低。因而对于网易云信来说，基于挪动端较全场景的多端互通平台的测试是必不可缺的。思考与挑战通过平台形象根底能力，以插件化能力的形式撑持全流程自动化测试。执行器链路环境用于运行测试用例的执行器信息；用于运行测试用例的执行产物的构建链路；用于运行测试用例的挂机测试设施被调度；云断言规定执行后果的校验依据规定全字端比照；对立执行后果的比拟规定定义，以关键词形式反对；长久化断言参数，依据多端数据计算校验后果；元用例模型依据自动化生成接口元数据属性，进行根底用例和 AI 用例举荐标识；依据碎片化复用组合和自定义用例，构建业务场景模型；多端多平台用例参数上下游基于平台长久化数据进行；执行集模块化配置资源包；后果统计模型执行工作后果缺点定位分类报告；覆盖率剖析；历史数据聚合模型剖析；解决方案联合背景和思考，自动化平台的设计策略中蕴含了：执行器链路环境、云断言规定、元用例上下游，场景建模、覆盖率剖析、缺点定位及报告。平台架构计划元用例提取过程代码自动化提取，映射对应的根底用例。通过配置资源包和规定文件，联合工具解析待测产物，主动生成测试代码和对应的接口用例。在平台上抉择待测元素的办法和自定义的属性，组合成元用例。元用例的办法属性是不可编辑的，它是精准测试代码的映射产物，后续构建业务模型的基石就是基于用例的元数据。客户端的接口无奈像服务端这样热更新接口行为。公布进来的版本 API 肯定是固定的接口行为。构建业务模型细化场景业务，做基线积淀，提取测试执行集。运行链路流程联合 QA 本地调试的流程，本地调试用例的链路是须要反对自定义设施资源进行调试用例。智能用例举荐实在用户的长久化数据日志，通过关键词日志锁定用例链路执行轨迹，生成对应的用例。实际缩短代码实现和用户反馈之间的工夫，最大限度地升高正在进行的工作的老本，这也是出现代码到客户最终价值，须要更快更平安的交付版本，达到版本的最大收益。自动化的老本与收益（ROI）自动化的收益与迭代次数成正比，以下是个新产品的简化公式：自动化的收益 = 迭代次数 * (全手动执行老本 - 保护老本) - 首次自动化老本落地我的项目目前在工程线解决方案和即时通信（IM1 和 IM2）落地履行。每日挂机测试通过上游 Job 实现构建工作，上游 Job 进行自动化工作。不阻塞打包工程工作如果不能触发高低 Job，能够在业务执行 Pipeline 中写入 node 节点执行 ...

关于运维:iLogtail使用入门K8S环境日志采集到SLS

简介：iLogtail是阿里云中简略日志服务又名“SLS”的采集局部。它用于收集遥测数据，例如日志、跟踪和指标，目前曾经正式开源(https://github.com/alibaba/il...)。本文通过介绍ilogtail如何在K8S环境进行装置、配置、应用的最简流程，帮忙用户应用预编译版本疾速上手ilogtail日志采集。应用前筹备开明阿里云日志服务并创立了Project（具体步骤参见上一节《ilogtail应用入门-主机环境日志采集到SLS》）筹备一个具备公网拜访权限的K8S集群，服务器架构为X86-64。创立日志配置1.跳转到日志服务控制台(sls.console.aliyun.com)，点击上一节中曾经创立的project。 2.进入Project查问页面后，点击左侧边栏的“放大镜”图标，开展logstore治理界面，点击“+”，弹出“创立Logstore”右侧边栏。依照提醒进行配置，输出logstore名称后，点击“确认”。 3.logstore创立胜利后，勾销数据接入向导。点击左侧边栏中的“立方体”按钮，在弹出的“资源”浮层中抉择“机器组”。在开展的“机器组”右边栏中，点击右上角的“四方格”图标，在弹出的浮层中抉择“创立机器组”。 4.在“创立机器组”有侧边栏中按提醒配置，“机器组标识”抉择“用户自定义标识”，“名称”、“机器组Topic”、“用户自定义标识”倡议保持一致。“用户自定义标识”是其中最为重要的一个配置，本教程中应用“my-k8s-group”，后续在装置ilogtail时会再次用到。“点击”确认保留机器组。 5.再次点击左侧边栏的“放大镜”图标，开展logstore治理界面，点击第2步中创立的logstore的“向下开展”图标，弹出“配置Logstore”菜单。点击“logtail配置”的“+”按钮。 6.在弹出的“疾速接入数据”对话框中搜寻“kube”，并抉择“Kubernertes-文件”。在弹出的“提醒”框中单机“持续”。 7.在“Kubernertes文件”配置界面，间接抉择“应用现有机器组”。 8.跳转到“机器组配置”界面，抉择第4步中创立的机器组，点击“>”按钮将其退出到“利用机器组”中，而后点击“下一步”。 9.在ilogtail配置中仅批改“配置名称”和“日志门路”两个必填项，点击“下一步”确认。 10.实现索引配置。这一步不对任何选项进行批改，间接点击下一步实现配置。此时，整个日志配置曾经实现。请放弃页面关上。装置ilogtail1.登陆能够管制K8S集群的中控机。编辑ilogtail的ConfigMap YAML。 $ vim alicloud-log-config.yaml 在Vim中粘贴如下内容并保留（留神，批改正文中提醒的字段，7-11行）。 apiVersion: v1kind: ConfigMapmetadata: name: alibaba-log-configuration namespace: kube-systemdata: log-project: "my-project" #批改为理论project名称 log-endpoint: "cn-wulanchabu.log.aliyuncs.com" #批改为理论endpoint log-machine-group: "my-k8s-group" #能够自定义机器组名称 log-config-path: "/etc/ilogtail/conf/cn-wulanchabu_internet/ilogtail_config.json" #批改cn-wulanchabu为理论project地区 log-ali-uid: "*********" #批改为阿里云UID access-key-id: "" #本教程用不上 access-key-secret: "" #本教程用不上 cpu-core-limit: "2" mem-limit: "1024" max-bytes-per-sec: "20971520" send-requests-concurrency: "20"2.计算alicloud-log-config.yaml的sha256 hash，并编辑ilogtail的DaemonSet YAML。 $ sha256sum alicloud-log-config.yamlf370df37916797aa0b82d709ae6bfc5f46f709660e1fd28bb49c22da91da1214 alicloud-log-config.yaml$ vim logtail-daemonset.yaml在Vim中粘贴如下内容并保留（留神，批改正文中提醒的字段，21、25行）。 ...

关于运维:从运维域看-Serverless-真的就是万能银弹吗

作者 | 蒲松洋（秦粤）作者说在开始本篇内容前我想与各位开发者达成几个共识。第一个共识，软件工程没有银弹， Serverless 也不是银弹，它并不是解决所有问题的万能公式。第二个共识，Serverless 可能解决的是运维域的问题，它是解决特定畛域问题的一个技术，并不是有限延长的，与低代码没有关系。第三个共识是复杂度守恒定律-泰斯勒定律（Tesler’s law）。典型例子就是苹果，苹果的产品很容易上手操作。但实质上它整体复杂度是守恒的，它其实是把简单的事件留给了零碎开发工程师和软件开发的工程师，让用户能够顺滑体验。同理 Serverless 也是如此，把部署 or 运维利用、网站的烦复转交给了云服务商，但整体的复杂度是不变的。第四个共识是邓宁-克鲁格效应（The Dunning-Kruger Effect），大家在认知学习过程中，都会呈现这样的倒退曲线：从刚开始无所不知，到对新常识的空想，再到悲观的低谷，迟缓爬坡。咱们学习任何一个新事物都会经验这样一个曲线过程。Gartner 采纳邓宁-克鲁格曲线，来解释新技术的倒退周期。集体认知曲线 Gartern 技术倒退曲线作为开发工程师常常会有这种体感，新的技术层出不穷学的很累。Serverless 刚推出来时也一样，大家对这个技术充斥了有限的设想，当设想到了一个巅峰当前，会缓缓意识到设想与事实的差距，切身去领会在产品中应用时就会掉到技术的低谷，而后再迟缓的爬坡。 Serverless 正过后本文将会通过三个局部，为各位介绍 Serverless：第一个局部是 “复杂化 for 云开发商” 第二个局部是 “简化 for 开发者” 第三个局部，会介绍一些我本人和咱们团队应用 Serverless 的最佳场景。复杂化 for 云开发商1) Serverless 架构 Serverless 是一个集大成者，它的整倒退历史是站在伟人的肩膀上的。当初很多云服务商去跑一个函数，底层都是这样架构。首先 Serverless 的运行底层会有一个 CaaS 层。它是一个 Serverless 化的容器服务，大部分的应用服务都会跑在这一层下面，容器调度当初开源的比拟好的解决方案就是 K8s，用 K8s 来调度容器，底层 laaS 就是虚拟机，最底层则是物理机。 CaaS 的实现的形式有很多，Serverless 利用底层必须有 CaaS 服务的撑持。除了Docker 以外，vm 也能够是 CaaS ；例如 Node.js 的 vm 也能够做 CaaS ，webassembly 也能够做 CaaS 等等。另外在做整体架构设计的时候，还须要一个 Component 层去解决网络货色流量和南北流量的问题，例如 service Mesh 和 ingress 的计划，总体来说 Serverless 背地的架构设计根本都是如此。 ...

关于运维:专有云运维如何更快更准更稳丨智能运维

上云热潮之下，如何实现专有云运维？为帮忙用户实现高效云运维，百度智能云将推出专有云运维系列文章，分享运维的技术要点，助力用户上云之路。本篇为第一篇，咱们将重点解读针对专有云运维的要害难题，百度智能云的智能运维平台如何一一击破，达到“更快、更准、更稳”。面向云计算，这些困扰你有吗？平台部署架构是什么样的？云上云下资源有哪些？具体资源应用状况如何？云平台怎么稳固降级变更，日常怎么运维巡检？等等，都须要用户做到成竹在胸。对大多数用户来说，现实的运维平台是这样的。你想要的，尽在百度智能云智能运维平台百度智能云智能运维平台致力于帮忙客户更快、更准、更稳的应用云平台。回绝黑盒的配置管理核心云计算场景下，运维对象变得更加繁多和简单，既有云下的机房、机柜、机架、服务器、网络设备、安全设备、专线、配件等，也包含云上各类云服务器、云磁盘等云产品，再加上各类 IP、NAT、DNS 等。这些对象的元信息、关联信息如何保护？如何保障信息的准确性？你是否还在手动保护资产信息？你是否还在手动查库获取信息？对于云平台部署拓扑、物理拓扑、业务拓扑是否还是无奈做到一览众山小？百度智能云智能运维平台的对立配置管理核心能够收集全平台各类运维对象的元信息和关联信息，从部署拓扑、物理拓扑和业务拓扑等方面为你关上云平台黑盒，一一捋顺其中细节。回绝繁琐的运维核心“叮铃铃…叮铃铃…”一阵短促的电话铃“喂”“咱们正在做重要的业务变更，怎么虚机都登录不上了，你们怎么运维的”“哦哦，咱们马上解决”一阵鸡飞狗跳之后，服务复原了…你也胜利的进入了 casestudy 环节业内传言，纯人肉、半自动化运维的期间，没有很好的监控伎俩，常常都是故障曾经影响到业务了，由业务部门投诉运维才晓得，只能是所谓的“救火”。到目前为止，是不是能够转变为“防火”了呢？实际上，面对物理机、交换机、各类操作系统、容器、数据库、中间件、网络品质等泛滥对象，如何建设指标监控体系，保障指标有效性、可靠性，防止漏报、误报，仍然是以后监控面临的一个较大的问题。百度智能云智能运维平台，依靠百度外部自用的监控零碎，完满的继承了百度将近20年的监控教训。什么对象，应该监控什么指标，怎么计算可用性都能够间接赋能客户，帮忙客户建设监控体系，再由百度驻场工程师与客户一起依据理论业务进行轻微调整，即可达到开箱即用，开箱好用的指标。回绝繁琐的运维核心故障产生了，须要疾速的对线上进行及时止损操作；容量有余了，须要对平台进行疾速扩容操作；成千盈百台服务器须要批量进行操作？云上虚机须要进行冷热迁徙，当面对这些运维场景时，是不是还要找找 SOP，对着 SOP 一行行的敲着命令来实现呢？在百度智能云智能运维平台，所有惯例运维操作，物理机运维、物理网络运维、云产品运维、容灾演练、扩容缩容等等，都产品化到运维核心，拿来即用，提高效率的同时，防止线上误操作的产生。回绝非标的操作核心如果运维核心的操作依然不能满足运维须要，怎么办呢？没关系，自动化操作核心来满足。在这里，你能够齐全自定义的编写或者导入本人的运维脚本，并通过脚本库进行版本和品质治理，防止非标执行。不止如此，还能够将多个原子化的脚本进行自定义编排，造成简单然而可控的运维作业来实现个性化运维需要。回绝凌乱的服务中心随便的变更，随便的解决，随便的归档，永远无奈积淀下无效的运维教训。百度智能云智能运维平台的服务中心，遵循规范 ITIL，设置服务台、审批流、工单、事件单、问题单等，帮忙进行流程标准和常识积淀。此外，智能运维平台还有运维知识库，所有服务中心的工单和解决流程都将入库保留，并基于天然语义了解，对外提供高效能搜寻查问。如果有相似的问题产生，不须要寻求别人帮忙，运维知识库将成为你的第一手信息起源，帮你疾速解决。另外，在后续的专题中，咱们还会持续深挖知识库的暗藏性能。回绝死板的可视化能力运维可视化，也是整个运维过程的关键环节。一方面可视化将运维数据公开、通明；另一方面，可视化在肯定水平上反映出咱们对运维工作的了解水平。可视化水平越高，运维就越简略，运维效率也就越高。百度智能云智能运维平台，内置了丰盛的大盘、仪表盘和报表能力，同时还提供自定义大盘和自定义报表能力，客户能够依据业务须要实现齐全的自定义。在诸多运维挑战背后，百度智能云智能运维平台以科学合理的设计，帮忙用户实现高效运维。此外，作为最适宜跑 AI 的云，百度智能云还将 AI 融入云运维之中，比方，智能异样检测、智能故障收敛、智能根因诊断、智能分级公布、智能故障预测等等。点击进入取得更多技术信息~~

关于运维:恒源云云GPU服务器如何使用FinRL

文章起源 | 恒源云社区（一个专一 AI 行业的共享算力平台：恒源智享云) 原文地址 | FinRL 嘤嘤嘤嘤～撒个娇，小可爱明天身材不适，跑完医院回到工位不想工作可是工作指标不能不实现啊那就简略的分享一个算法框架吧明天分享的框架叫做FinRL，是一个主动量化交易框架。装置提醒如果不应用虚拟环境装置，倡议应用最新版本的 PyTorch 官网镜像，能够罢黜下载 PyTorch 依赖的工夫。git clone https://github.com.cnpmjs.org/AI4Finance-LLC/FinRL-Library.gitapt-get updateapt-get install cmake libopenmpi-dev python3-dev zlib1g-dev libgl1-mesa-glx -ycd FinRL-Library# 能够抉择装置虚拟环境，在虚拟环境中装置依赖# 如果装置在虚拟环境中须要每次关上终端时进入虚拟环境pip install virtualenvvirtualenv -p python3 venvsource venv/bin/activate# 装置依赖pip install -r requirements.txtpip install stable-baselines3[extra]pip install pyfolio# 运行测试python main.py --mode=train好了，就这些内容，小可爱精力不济先撤了！下期见哦～

关于运维:一文读懂蓝绿发布AB-测试和金丝雀发布的优缺点

简介：目前，业界曾经总结出了几种常见的服务公布策略来解决版本升级过程中带来的流量有损问题。本文首先会对这些广泛的公布策略进行简略的原理解析，最初联合阿里云的云原生网关对这些公布策略进行实际。作者 | 扬少背景目前，业界曾经总结出了几种常见的服务公布策略来解决版本升级过程中带来的流量有损问题。本文首先会对这些广泛的公布策略进行简略的原理解析，最初联合阿里云的云原生网关对这些公布策略进行实际。公布策略被业界宽泛采纳的服务公布策略包含蓝绿公布、A/B 测试以及金丝雀公布。 1、蓝绿公布蓝绿公布须要对服务的新版本进行冗余部署，个别新版本的机器规格和数量与旧版本保持一致，相当于该服务有两套完全相同的部署环境，只不过此时只有旧版本在对外提供服务，新版本作为热备。当服务进行版本升级时，咱们只需将流量全副切换到新版本即可，旧版本作为热备。因为冗余部署的缘故，所以不用放心新版本的资源不够。如果新版本上线后呈现重大的程序 BUG，那么咱们只需将流量全副切回至旧版本，大大缩短故障复原的工夫。待新版本实现 BUG 修复并重新部署之后，再将旧版本的流量切换到新版本。蓝绿公布通过应用额定的机器资源来解决服务公布期间的不可用问题，当服务新版本呈现故障时，也能够疾速将流量切回旧版本。如图，某服务旧版本为 v1，对新版本 v2 进行冗余部署。版本升级时，将现有流量全副切换为新版本 v2。当新版本 v2 存在程序 BUG 或者产生故障时，能够疾速切回旧版本 v1。蓝绿部署的长处： 1、部署构造简略，运维不便； 2、服务降级过程操作简略，周期短。蓝绿部署的毛病： 1、资源冗余，须要部署两套生产环境； 2、新版本故障影响范畴大。 2、A/B 测试相比于蓝绿公布的流量切换形式，A/B 测试基于用户申请的元信息将流量路由到新版本，这是一种基于申请内容匹配的灰度公布策略。只有匹配特定规定的申请才会被引流到新版本，常见的做法包含基于 Http Header 和 Cookie。基于 Http Header 形式的例子，例如 User-Agent 的值为 Android 的申请（来自安卓零碎的申请）能够拜访新版本，其余零碎依然拜访旧版本。基于 Cookie 形式的例子，Cookie 中通常蕴含具备业务语义的用户信息，例如普通用户能够拜访新版本，VIP 用户依然拜访旧版本。如图，某服务以后版本为 v1，当初新版本 v2 要上线。心愿安卓用户能够尝鲜新性能，其余零碎用户放弃不变。通过在监控平台察看旧版本与新版本的成功率、RT 比照，当新版本整体服务预期后，即可将所有申请切换到新版本 v2，最初为了节俭资源，能够逐渐下线到旧版本 v1。 A/B 测试的长处： 1、能够对特定的申请或者用户提供服务新版本，新版本故障影响范畴小； 2、须要构建齐备的监控平台，用于比照不同版本之间申请状态的差别。 A/B 测试的毛病： 1、依然存在资源冗余，因为无奈精确评估申请容量； 2、公布周期长。 3、金丝雀公布在蓝绿公布中，因为存在流量整体切换，所以须要依照原服务占用的机器规模为新版本克隆一套环境，相当于要求原来1倍的机器资源。在 A/B 测试中，只有可能预估中匹配特定规定的申请规模，咱们能够按需为新版本调配额定的机器资源。相比于前两种公布策略，金丝雀公布的思维则是将大量的申请引流到新版本上，因而部署新版本服务只需极小数的机器。验证新版本合乎预期后，逐渐调整流量权重比例，使得流量缓缓从老版本迁徙至新版本，期间能够依据设置的流量比例，对新版本服务进行扩容，同时对老版本服务进行缩容，使得底层资源失去最大化利用。 ...

关于运维:恒辉运维桌面工具HHDESK主要功能的视频演示

随着国产操作系统的衰亡，国产桌面表演了越来越重要的角色，恒辉运维桌面工具（HHDESK）就是一款集FTP服务文件共享、文件传输、SSH零碎运维、文本编辑、截图、文件搜寻、比照性能为一体的桌面工具汇合软件，填补了反对国产cpu的操作系统无桌面运维工具可用的空白。上面的视频中展现了HHDESK对文本编辑、截图、图片预览和编辑、文件搜寻性能的演示。心愿能对大家有所帮忙。 HHDESK在UOS上文件治理视频演示更多功能，欢送拜访恒辉产品社区： https://www.deskui.com

关于运维:你还在用-Prometheus-监控-K8S快试试这-6-个更牛逼的替代方案

监控可帮忙您确保Kubernetes应用程序安稳运行并排除可能呈现的任何问题。Prometheus是一种风行的开源监督工具，许多公司都应用它来监督其IT根底构造。然而，还有许多其余监督工具可用。本文介绍了6种能够代替Prometheus监督Kubernetes的办法。什么是Prometheus？Prometheus是最后在SoundCloud上构建的开源监视系统。它旨在监督多维数据收集和查问。Prometheus服务器具备本人的独立单元，该独立单元不依赖网络存储或内部服务。因而，Prometheus不须要大量其余基础架构或软件。 Prometheus的次要劣势包含与Kubernetes的严密集成，许多可用的导出器和库以及疾速的查询语言和API。Prometheus的次要毛病包含简化的、受约束的数据模型，基于拉取的模型的无限粒度以及不足加密。以下列出了除Prometheus外监督Kubernetes的6种办法。每种工具都有其本身的长处和毛病，让咱们一起看看每个工具的次要性能。 1、GrafanaGrafana是一个开源平台，用于可视化，监督和剖析指标。Grafana的次要重点是工夫序列剖析。Grafana能够通过多种图形选项（包含折线图、热图和条形图）显示剖析的数据。当监督的指标超过预约义的阈值时，您会收到警报。次要性能包含：警报 - 您能够通过不同的渠道（包含SMS，电子邮件，Slack或PagerDuty）获取警报。如果您更喜爱其余交换渠道，则能够应用一些代码来创立本人的告诉程序。仪表板模板 - 通过模板化，您能够创立可反复用于多个用例的仪表板。例如，您能够为生产服务器和测试服务器应用雷同的仪表板。供给 - 您能够应用脚本自动化Grafana中的所有内容。例如，您能够应用蕴含IP地址，服务器和数据源预设的脚本主动启动Grafana和新的Kubernetes群集。正文 - 在产生谬误时用于数据关联。您能够通过在图形中增加文原本手动创立正文，也能够从任何数据源获取数据。2、cAdvisorcAdvisor能够收集、解决和导出无关正在运行的容器的性能和资源应用状况信息。cAdvisor具备对Kubernetes的本地反对，因为它已集成到Kubelet二进制文件中。次要性能包含：主动发现 - 主动发现给定节点中的所有容器并收集统计信息，包含内存，CPU，网络和文件系统应用状况。存储插件 - 将统计信息导出到不同的存储插件，例如Elasticsearch和InfluxDB。整体计算机使用率 - 通过剖析计算机上的“根”容器来提供整体计算机使用率。Web-UI - 您能够在Web-UI上查看指标，该指标显示无关计算机上所有容器的实时信息。3、FluentdFluentd 通过在两者之间提供对立的日志记录层，将数据源与后端系统拆散。日志记录层使您能够收集生成的多种类型的日志。次要性能包含：JSON数据结构 - 使您可能对立所有日志数据处理方面，例如跨不同源缓冲，过滤和输入日志。可插拔的体系结构 - 灵便的插件零碎使您能够通过连贯多个数据源和输入来扩大Fluentd的性能。系统资源 - 实例运行在30MB到40MB的内存上，每秒能够解决13,000个事件。如果须要更多内存，则能够应用Fluent Bit轻型转发器。可靠性 - 反对基于文件的缓冲和内存缓冲，以避免节点上的数据失落。此外，您能够设置Fluentd以反对高可用性和弱小的故障转移。4、JaegerJaeger是一个开源工具，用于监督Kubernetes等分布式服务之间的流量。Jaeger应用分布式跟踪来跟踪通过不同微服务的服务申请的门路。而后，您能够直观地看到申请流。分布式跟踪是一种治理和察看微服务的办法，它作为服务网格的一部分运行。次要性能包含：高可扩展性 - 设计为无单点故障（SPOF），可依据业务需要进行扩大。多种存储选项 - 反对两个开源NoSQL数据库，Elasticsearch和Cassandra。Jaeger还提供了简略的内存存储用于测试。云原生部署 - 反对不同的配置办法，包含环境变量，命令行选项和配置文件。Kubernetes模板，Kubernetes运算符和Helm图表反对Kubernetes部署。监督 - Jaeger后端组件默认状况下公开Prometheus指标和日志。5、TelepresenceTelepresence是一个开源工具，能够在本地运行单个服务，同时将该服务连贯到近程Kubernetes集群。网真在Pod中部署了双向网络代理，该代理可为Kubernetes环境收集数据，包含TCP连贯，环境变量和卷。次要性能包含：兼容性 - 带有OS原生软件包的Linux和Mac OS均可应用。开发工作流程 - 为您提供在Kubernetes上开发的多容器应用程序的疾速开发工作流程。您能够在将本地Docker容器代理到集群时运行它。在本地调试Kubernetes服务 - 当长期群集中有bug时，您想在本地运行服务。网真使您能够在本地调试服务。连贯到近程Kubernetes群集 - 您能够从本地过程拜访近程群集。通过此拜访权限，您能够应用笔记本电脑上的本地工具与群集内的过程进行通信。 6、ZabbixZabbix旨在监督大量网络参数和服务器的运行状况，并基于存储的数据提供许多数据可视化和报告性能。具备大量服务器的小型组织和具备多个服务器的大型企业能够应用Zabbix监督IT根底构造。次要性能包含：弹性阈值 - 您能够定义弹性问题阈值，也称为触发器。这些触发器基于后端数据库中的值。实时可视化 - 您能够应用内置的绘图性能立刻查看受监督的我的项目。主动发现 - 提供多种自动化大型环境（如Kubernetes）治理的办法。您能够在组织中主动增加和删除文件系统和网络接口。网络发现 - 使您可能定期扫描网络中的内部服务或Zabbix代理，并在发现时采取预约义的措施。分布式监督 - 提供应用Zabbix代理监督分布式根底构造的无效办法。您能够应用代理在本地收集数据，而后将数据报告给服务器。论断Prometheus是用于监督Kubernetes工作负载的开源工具。它被本地集成为Kubernetes中的默认监督工具，包含内置的警报管理器。然而，您还应该思考针对您的Kubernetes环境应用其余监督选项，以补充和改良Kubernetes性能体验。 ...

关于运维:网络安全好学吗手把手教你学metasploit-网络安全工程师学习资料汇总

关于运维:阿里巴巴超大规模-Kubernetes-基础设施运维体系揭秘

简介：ASI 作为阿里团体、阿里云基础设施底座，为越来越多的云产品提供更多业余服务，托管底层 K8s 集群，屏蔽简单的 K8s 门槛、通明简直所有的基础设施复杂度，并用业余的产品技术能力兜底稳定性，让云产品只须要负责本人的业务，业余的平台分工做业余的事。作者：仔仁、墨封、光南序言ASI：Alibaba Serverless infrastructure，阿里巴巴针对云原生利用设计的对立基础设施。ASI 基于阿里云公共云容器服务 ACK之上，撑持团体利用云原生化和云产品的 Serverless 化的基础设施平台。 2021 年天猫双十一，对于 ASI 来说又是难忘的一年，往年咱们又实现了很多“第一次”：第一次全面对立调度：电商、搜寻、odps 离线和蚂蚁业务全面上 ASI 对立调度架构，整个业务核数达到了惊人的数千万核。第一次将搜寻业务“无感知”平滑迁徙到 ASI：近千万核的业务，业务无感的搬到 ASI（然而咱们却经验了很多个不眠之夜）。 ASI 场景的 K8s 单集群规模超过万台节点，数百万核，超过 K8s 社区的 5000 台规模，一直优化大规模集群的性能和稳定性。中间件服务第一次用云产品架构反对团体业务：中间件基于 ASI 公共云架构，将中间件服务平滑迁徙到云上，用云产品架构反对团体业务，实现“三位一体”。 ASI 在大规模生产利用的锻炼下，不仅积淀了十分多的 K8s 稳定性运维能力，更是在反对 serverless 场景下孵化了很多创新能力。如果运维过 K8s（特地是运维大规模集群）的同学肯定会有很深的感触：把 K8s 用起来很容易，想要用好 K8s 真心不容易。ASI 在应用 K8s 调度体系架构晚期成长阶段，也经验过屡次血的教训，过程中咱们继续成长、学习和成熟。例如：一次失常的 Kubernetes 大版本升级流程，在降级 Kubelet 时把一个集群近千台业务 POD 全副重建；一次线上非标操作，将大批量的 vipserver 服务全副删除，幸好中间件有推空爱护，才没有对业务造成灾难性影响；节点证书过期，因为节点自愈组件故障状况误判，并且风控/流控规定判断也有误，导致自愈组件误将一个集群 300+ 节点上的业务全副驱赶；以上列举的各种故障场景，即便是业余 K8s 团队都无奈避雷，如果是对 K8s 理解很少的用户，必定更无奈预防和躲避危险。所以，给所有正在应用 K8s 服务，或者想要用 K8s 服务的用户一个中肯倡议：不要想着本人就能运维好 K8s 集群，外面有多少坑你真的设想不到，业余的人做业余的事，让业余产品和 SRE 团队来实现运维。在这里，我也是强烈建议用户应用阿里云容器服务 ACK，因为咱们在阿里巴巴大规模场景下积淀能力加强、自动化运维和能力都会反哺到 ACK 中，帮忙更好的保护用户的 K8s 集群。 ...

关于运维:恒源云云GPU服务器如何使用LightGBM

文章起源 | 恒源云社区（一个专一 AI 行业的共享算力平台：恒源智享云) 原文地址 | LightGBM 新的一年，祝大家虎年大吉，虎虎生威～明天是新年动工第一天，就简略的给大家分享一个算法框架：LightGBM LightGBMLightGBM 是一个基于决策树算法的疾速、分布式、高性能的框架，用于排名、分类和许多其余机器学习工作。装置LightGBM 反对通过 CLI、Python、R 应用。上面提供 Python 包与 CLI 的装置，编译时均退出了反对 GPU 的选项。 Python 包的编译装置： # 装置 boost 依赖apt-get updateapt-get install libboost-dev libboost-system-dev libboost-filesystem-dev -y# 装置反对 GPU 的 Python 包pip install lightgbm --install-option=--gpu --install-option="--opencl-include-dir=/usr/local/cuda/include/" --install-option="--opencl-library=/usr/local/cuda/lib64/libOpenCL.so"mkdir -p /etc/OpenCL/vendorsecho "libnvidia-opencl.so.1" > /etc/OpenCL/vendors/nvidia.icd命令行的编译装置： # 装置 boost 依赖apt-get updateapt-get install libboost-dev libboost-system-dev libboost-filesystem-dev -y# 克隆 LightGBM 代码git clone "https://mirror.ghproxy.com/https://github.com/microsoft/LightGBM.git"cd LightGBM# 切换版本分支git checkout v3.2.1# 替换一些子模块的仓库地址为减速地址，并克隆sed -i "s/ $https:\/\/github.com$/ https:\/\/mirror.ghproxy.com\/\1/" .gitmodulesgit submodule update --initcd external_libs/fast_double_parsersed -i "s/ $https:\/\/github.com$/ https:\/\/mirror.ghproxy.com\/\1/" .gitmodulesgit submodule update --initcd ../..# 编译装置反对 GPU 选项的命令行mkdir buildcd buildcmake -DUSE_GPU=1 -DOpenCL_LIBRARY=/usr/local/cuda/lib64/libOpenCL.so -DOpenCL_INCLUDE_DIR=/usr/local/cuda/include/ ..make -j4mkdir -p /etc/OpenCL/vendorsecho "libnvidia-opencl.so.1" > /etc/OpenCL/vendors/nvidia.icd# 执行命令行测试cd .../lightgbm# 应用源码也能够同时装置 Python 包cd python-packagepython setup.py install --gpu --opencl-include-dir=/usr/local/cuda/include/ --opencl-library=/usr/local/cuda/lib64/libOpenCL.so --no-cache

关于运维:从运维域看-Serverless-真的就是万能银弹吗

简介：极客工夫《Serverless 入门课》作者秦粤最新文章: 再次探讨正过后的 Serverless。文章分为三个局部，别离是复杂化for 云开发商; 简化 for 开发者，以及团队应用 Serverless 的最佳场景。作者说在开始本篇内容前我想与各位开发者达成几个共识。第一个共识，软件工程没有银弹， Serverless 也不是银弹，它并不是解决所有问题的万能公式。第二个共识，Serverless 可能解决的是运维域的问题，它是解决特定畛域问题的一个技术，并不是有限延长的，与低代码没有关系。第三个共识是复杂度守恒定律-泰斯勒定律（Tesler’s law）。典型例子就是苹果，苹果的产品很容易上手操作。但实质上它整体的复杂度是守恒的，它其实是把简单的事件留给了零碎开发工程师和软件开发的工程师，让用户能够顺滑体验。同理 Serverless 也是如此，把部署 or 运维利用、网站的烦复转交给了云服务商，但整体的复杂度是不变的。第四个共识是邓宁-克鲁格效应（The Dunning-Kruger Effect），大家在认知学习过程中，都会呈现这样的倒退曲线：从刚开始无所不知，到对新常识的空想，再到悲观的低谷，迟缓爬坡。咱们学习任何一个新事物都会经验这样一个曲线过程。Gartner采纳邓宁-克鲁格曲线，来解释新技术的倒退周期。集体认知曲线 Gartern 技术倒退曲线作为开发工程师常常会有这种体感，新的技术层出不穷学的很累。Serverless 刚推出来时也一样，大家对这个技术充斥了有限的设想，当设想到了一个巅峰当前，会缓缓意识到设想与事实的差距，切身去领会在产品中应用时就会掉到技术的低谷，而后再迟缓的爬坡。 Serverless 正过后本文将会通过三个局部，为各位介绍 Serverless：第一个局部是“复杂化 for 云开发商” 第二个局部是“简化 for 开发者” 第三个局部，会介绍一些我本人和咱们团队应用 Serverless 时的最佳场景。 1、复杂化 for 云开发商(1) Serverless 架构 Serverless 是一个集大成者，它的整倒退历史是站在伟人的肩膀上的。当初很多云服务商去跑一个函数，底层都是这样架构。首先 Serverless 的运行底层会有一个 CaaS 层。它是一个Serverless化的容器服务，大部分的应用服务都会跑在这一层下面，容器调度当初开源的比拟好的解决方案就是 K8s，用 K8s 来调度容器，底层 laaS 就是虚拟机，最底层则是物理机。 CaaS 的实现的形式有很多，Serverless 利用底层必须有CaaS服务的撑持。除了Docker以外，vm 也能够是 CaaS ；例如 Node.js 的 vm 也能够做 CaaS ，webassembly 也能够做 CaaS 等等。另外在做整体架构设计的时候，还须要一个 Component 层去解决网络货色流量和南北流量的问题，例如service Mesh和ingress的计划，总体来说 Serverless 背地的架构设计根本都是如此。 ...

关于运维:RedisJson中文全文检索

RedisJson-中文全文检索RedisJson最近网上比拟火的RedisJson，置信大家都不生疏，还有一篇性能贴，说是RedisJson 横空出世，性能碾压ES和Mongo！，当然这些几百倍的晋升可能比拟主观，我比较关心的是RedisJson的json反对状况，全文检索性能，以及反对的中文分词装置1、官网有30天收费试用，内存有30M，创立一个实例即可，可用于测试可应用redis-cli进行连贯测试[root@server bin]# ./redis-cli -h redis-17137.c245.us-east-1-3.ec2.cloud.redislabs.com -p 17137 -a 123456Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.redis-17137.c245.us-east-1-3.ec2.cloud.redislabs.com:17137> 2、能够本人装置reJson模块下载门路：https://redis.com/redis-enter... 装置：https://oss.redis.com/redisjs... [root@server bin]# ./redis-server --loadmodule /opt/thunisoft/redis/redisjson/rejson.so 82538:C 29 Dec 2021 18:41:09.585 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo82538:C 29 Dec 2021 18:41:09.585 # Redis version=6.2.6, bits=64, commit=00000000, modified=0, pid=82538, just started82538:C 29 Dec 2021 18:41:09.585 # Configuration loaded82538:M 29 Dec 2021 18:41:09.587 * monotonic clock: POSIX clock_gettime _._ _.-``__ ''-._ _.-`` `. `_. ''-._ Redis 6.2.6 (00000000/0) 64 bit .-`` .-```. ```\/ _.,_ ''-._ ( ' , .-` | `, ) Running in standalone mode |`-._`-...-` __...-.``-._|'` _.-'| Port: 6379 | `-._ `._ / _.-' | PID: 82538 `-._ `-._ `-./ _.-' _.-' |`-._`-._ `-.__.-' _.-'_.-'| | `-._`-._ _.-'_.-' | https://redis.io `-._ `-._`-.__.-'_.-' _.-' |`-._`-._ `-.__.-' _.-'_.-'| | `-._`-._ _.-'_.-' | `-._ `-._`-.__.-'_.-' _.-' `-._ `-.__.-' _.-' `-._ _.-' `-.__.-' 82538:M 29 Dec 2021 18:41:09.589 # Server initialized82538:M 29 Dec 2021 18:41:09.589 # WARNING overcommit_memory is set to 0! Background save may fail under low memory condition. To fix this issue add 'vm.overcommit_memory = 1' to /etc/sysctl.conf and then reboot or run the command 'sysctl vm.overcommit_memory=1' for this to take effect.82538:M 29 Dec 2021 18:41:09.591 * <ReJSON> version: 20006 git sha: db3329c branch: HEAD82538:M 29 Dec 2021 18:41:09.591 * <ReJSON> Exported RedisJSON_V1 API82538:M 29 Dec 2021 18:41:09.591 * <ReJSON> Enabled diskless replication82538:M 29 Dec 2021 18:41:09.591 * <ReJSON> Created new data type 'ReJSON-RL'82538:M 29 Dec 2021 18:41:09.591 * Module 'ReJSON' loaded from /opt/thunisoft/redis/redisjson/rejson.so82538:M 29 Dec 2021 18:41:09.602 * Loading RDB produced by version 6.2.682538:M 29 Dec 2021 18:41:09.602 * RDB age 98297 seconds82538:M 29 Dec 2021 18:41:09.603 * RDB memory usage when created 0.77 Mb82538:M 29 Dec 2021 18:41:09.603 # Done loading RDB, keys loaded: 2, keys expired: 0.82538:M 29 Dec 2021 18:41:09.603 * DB loaded from disk: 0.011 seconds82538:M 29 Dec 2021 18:41:09.603 * Ready to accept connections批改redis.conf ...

关于运维:7招实现安全高效的流水线管理

简介：云效团队多年来为阿里巴巴外部（Aone）和云上企业用户（云效）别离提供研发运维工具，并致力于打造企业级一站式的 DevOps 平台，更多关注不同类型的企业用户在应用过程中的治理与合作场景，本文将重点介绍高效平安治理云效流水线的7招。概述传统流水线 Pipeline 工具，包含 Jenkins、Teamcity、Travis CI 等产品，作为企业 DevOps 中继续集成/继续交付的外围工具，从外围性能上来说通常能够概括为以下4点： 1、自动化测试：提供代码扫描、平安扫描、单元测试等自动化测试工具，确保代码在集成前曾经通过充沛测试验证。 2、集成构建：提供各种语言、框架的利用编译打包性能，将源码自动化转化为能够运行的理论代码，比方装置依赖、配置资源等。 3、公布部署：反对多种资源（虚拟主机、K8S等）的公布形式，反对通过灰度公布、分批公布等各种策略，保障业务交付的稳固。随着各种云计算的逐步遍及，呈现各种各样的 Iaas/Paas 产品，CI/CD 工具如何反对各种模式的公布场景成为了一大外围价值。 4、流程编排：通过对不同工具和工作的流程编排能力，实现不同 CI/CD 流程把控。通常来说，流水线工具岂但反对串联本身提供的测试、构建、部署性能，还会反对企业买通自有的其余工具（比方 git 仓库、自动化测试零碎等）。以上几点，作为 CI/CD 提供的根底性能，本文不做赘述。云效团队多年来为阿里巴巴外部（Aone）和云上企业用户（云效）别离提供研发运维工具，并致力于打造企业级一站式的 DevOps 平台，更多关注不同类型的企业用户在应用过程中的治理与合作场景，本文将重点介绍高效平安治理云效流水线的7招。第1招：基于业务个性分组治理流水线第2招：预置流水线模板/工作组/步骤第3招：一键批量降级流水线第4招：设置通用变量组，随调随用第5招：精密治理主机/集群资源第6招：灵便治理公有构建集群第7招：自定义企业maven配置第1招：基于业务个性分组治理流水线随着企业业务规模和团队规模的逐渐倒退，流水线和企业成员的数量越来越多。如何让成员疾速定位到本人的流水线，防止成员吞没在一堆与本人无关的内容中，同时保障业务倒退的安全性，成为了企业的独特诉求。云效反对企业管理员能够在单条流水线上设置不同成员的查看、运行、编辑等流水线权限。同时也反对对流水线进行分组，并基于分组对多条流水线批量受权。在云效上进行流水线分组操作分组反对间接依照部门设置权限，这样的益处是部门成员产生变动后，流水线权限也主动发生变化。企业成员入职、到职的变动导致的权限变更能够做到自动化解决。基于分组批量设置权限第2招：预置流水线模板/工作组/步骤在云效流水线 Flow 中，流水线是依照流水线 -> 工作组 -> 步骤组成的，流水线能够由多个工作组编排组成，而每个工作组能够由多个步骤编排而成。为了不便用户疾速创立流水线，云效流水线 Flow 预置了局部流水线模板、工作组、步骤。预置的模板能够间接调用为了反对企业用户更加个性化地配置本人的流水线，云效流水线 Flow 中的流水线模板、工作组、步骤均反对企业自定义创立。可在企业设置中的流水线模板治理-工作组治理-步骤治理中，创立属于企业个性化的内容，企业成员能够在编辑流水线的过程中应用此局部自定义内容。此外，在流水线模板治理-工作组治理-步骤治理中，企业管理员能够敞开企业不须要的内容以防止造成烦扰。可在工作组设置中敞开不须要的步骤第3招：一键批量降级流水线尽管随着业务规模的增长，企业外部流水线工作越来越多，但因为企业内技术栈根本对立，会呈现不同流水线之间只有局部配置（如代码源、虚拟主机组等）存在差别，而大部分配置基本相同的状况。当企业流水线的某些配置（比方构建脚本、人工卡点的审核人员）须要更改时，批改流水线会导致大量的反复工作。因而，云效提供了通过工作组实现流水线批量降级的性能。反对在企业设置中增加工作组时，开启“反对批量降级”性能。在工作组中开启「反对批量降级」企业成员在配置流水线过程中，能够抉择曾经创立的工作组。尔后，企业管理员编辑批改工作组后，会对关联流水线中的工作节点进行降级。批改能够同步降级关联流水线第4招：设置通用变量组，随调随用定义环境变量是实现流水线过程定制化的一种常见办法，能够在执行过程的任何阶段应用这些变量，云效流水线反对在每条流水线中设置其独有的环境变量。在云效流水线中设置环境变量然而有些变量其实是十分通用的变量，企业内大部分流水线都会用到，这时如果独自在流水线中进行设置，可导致大量反复工作。因而，云效提供了企业级治理变量的通用变量组性能。反对在企业设置中增加变量组，每个变量组可设置多个变量，且变量均可设置为私密变量，局部敏感参数，如 username、password 等，设置成私密变量后，能够大幅升高平安危险。在企业设置中设置通用变量流水线管理者，只须要在流水线中关联变量组，就可在流水线工作中应用该变量。在独自流水线中能够间接配置通用变量第5招：精密治理主机/集群资源云效流水线 Flow 反对将你的利用构建公布至虚拟主机或 Kubernetes 集群，同时云效的公布能力并不局限于阿里云服务器（ECS）和阿里云容器服务 Kubernetes（ACK），其余云厂商或者企业自建的虚拟主机或 Kubernetes 集群也能够通过云效实现部署。 ...

关于运维:运维的线上系统故障总结长篇

整顿的一份对于线上故障的排查处理教训汇总，不谈具体的案例，只是一些思路和教训。线上故障是一件让人很“缓和”的事件，之所以用缓和这个词，是因为临时找不到更好的词汇形容遇到时的心态。对于运维人员来说，呈现故障，可能意味着: 尽职、麻烦、质疑、加班、绩效、无尽的报告等负面词汇，但也意味着: 机会与挑战。前者大家都好了解，后者也是很重要的，为什么呢？故障的机会与挑战一、有一部分故障是大家都没有预料到的。集体对故障的产生是不必担责的，只须要善后就能够这种。比方机房忽然断电了这种大故障，复电后各种故障就呈现了，开不了机、服务启不起来、启动程序又不对、配置丢了、网络不通、数据异样等等。这种状况就十分锤炼人啦，只有呈现过一次，个别你之后就会对此我的项目的全局把握比拟清晰了，并且个别遇到这种大局面，也正是展现你台下十年功露脸的最好机会，但可遇不可求。小故障当然也有学习的价值，遇到得越多，对教训的晋升和当前对问题的全面剖析能力都有帮忙。二、有一部分故障是集体操作失误导致的。咱们常常说，人总是会犯错的嘛，但这样喃喃自语说多了后就会让人产生懈怠、忽略，经验或集体导致故障后，成长更快。说一个小故事，我在之前一个项目组时，简直每个人都有造成过线上故障，于是一旦新人来后，我都会笑着给新共事说，不要怕故障，咱们都等着看你体现啦！一般来说大家的心态都是这样的: 刚接触时(小心翼翼)，一段时间后(肆意妄为)，在触发故障后(后续做事会不盲目地思考影响面，对小事很审慎)，心愿新入行的同学们早日迎来本人的专属故障而后冲破到第三阶段吧！三、不破不立。老板和业务方个别对运维的次要诉求就是稳固，平时这也不让动、那也不让动。本人发现个隐患、提出想被动修复，个别失去的回答有: 写个计划研究吧、节后再看看、你找谁再确认一下、有空大家再开会讨论、下期我的项目再搞吧等等等。但如果是故障期间，你说不这样搞就复原不了、或者不搞就算复原了也保持不住一天，大家就会空前的反对你。我很早前实习做网工的时候，办公室接入有4条电话线，有2条不通，但交换机上和房间内的各种走线太乱基本找不出线来，常常有投诉，但真要去拆开理线时大家又不配合。某天我切实气不过，于是把几条线都轻轻拔了，大家各种反对帮助，于是很快就理顺了那一坨网线和电话线，美滋滋~。当初想起来当然还有更失当的方法，也必定不会倡议谁被动这样干。但如果是故障曾经不可避免产生了，那能争取一下还是争取一下吧。如何正确的面对故障故障的产生是不可避免的，依据墨菲定律，有可能产生就必定会产生。本文所说的故障，次要是指计划外事件所触发的故障，一般割接变更窗口工夫内触发的问题个别不算作故障。次要是为了说一下对于故障须要留神的中央和倡议做的一些事件。本文就按个别的工夫线来走，粗略分为这三个阶段：事先: 还未产生，可能存在隐患，做一些筹备工作；事中: 故障开始啦！次要是做一些排查、剖析、解决工作；预先: 故障曾经解决啦！做一些善后事务。阶段一：故障产生前熟话说有恃无恐嘛，做足筹备是必须的，这一阶段次要内容就是做筹备工作。一、惯例筹备事项1. 被动巡检包含例行巡检和突击巡检，重点是理解零碎以后是否存在问题。很多中央的巡检曾经变成了很随便的模式了，要么就是给个万年不变的脚本让一线人员上机去跑一下、生成个空报告，或者罗唆就外包进来让一些看似业余的厂商的实习生对一些通用中间件啥的来走个过程。集体感觉此阶段很重要，应该由外围专家团队来进行，太忙的话一季度或半年一次总行吧。 2. 监控零碎监控零碎的三个次要作用: 一眼看过来能确认以后是否有故障，并确定故障影响范畴；记录故障中各组件异样的产生工夫、指标的稳定状况，以便预先关联剖析；监控告警不分家，告警能无效告诉到人很重要。3. 日志零碎肯定要有集中化日志零碎，将各个主机、组件的日志后会集到一个中央进行查看。否则排查时，开十几个窗口到处找日志看就很低效和麻烦了，而且集中起来后一旦什么组件因故障不吐日志了，也很容易确定。如果临时没条件，最次也要将所有的文件日志同步到一个中央来，比方集中的syslog服务，ELK日志收集等都能够思考。 4. 隐患排查通过对架构进行剖析，评估可能存在的故障点。关键设备的性能有余、设施老化等显性的隐患；配置寄存在易失性缓存外面，共享资源隔离水平不够，全流程波及的网络节点过多等隐性隐患；监控零碎本身的可用性，告警形式和门路是否繁多，如果监控零碎挂了，或告警门路断了呢？业务剖析，每次特殊性业务发展前进行评估。年初大促能不能顶住，新增接口的性能状况，数据迁徙时是否在规定窗口期间实现，新增的数据空间够不够等。二、准备动作（针对故障的筹备工作）1. 人员调配按各自的职能和代表立场进行调配，搭配出一个最佳人员合作名单，个别的人员分类形式有：一线人员: 最相熟我的项目环境的理论保护人员；二线专家: 最相熟某组件或架构的人员，最好每组件或环节要定出首要负责人。比方测试、开发、产品、数据库等都须要推出一个第一联系人，防止推诿；小组指挥: 团队leader, 经验丰富，能过滤烦扰信息、协调小组突击、分割各方声援的人员；总指挥: 最能拍板、牌面最大、谁都能协调得动的人员，个别是大小BOOS；内部人员: 各路相干人员，如厂商专家、合作伙伴、上下游业务零碎、对外客服或公关，还有其余一些能出力的人脉。集体感觉，这两头最要害是负责“路由”角色的人，一是能不能隔离内部的烦扰信息，并且把有价值信息带进来，二是能将切实有效的计划传递下来给领导去拍板很重要（有些影响大的措施，很多人只能私下说，却不敢公开说）。2. 故障分级先有一个共识性的规范，确定在故障产生时各方须要投入的资源，不至于“杯弓蛇影”又或者是“狼来了”。常见的分法: 个别故障、重大故障、重大故障，小、中、大，I级、II级、III级、IV级。分类根据：按影响水平来分：业务全副中断、业务局部中断、用户感知较小、用户无感知；按未复原工夫来分：10分钟都没解决，30分钟没解决，1天没解决；按须要染指的工夫分：须要24小时内响应，须要10分钟内响应，须要即时响应；按须要染指的人员级别分：至多要辨别是否须要大BOOS染指吧。级别的动态变化：刚产生时，会依据景象及预计须要投入的资源先长期定一个级别；处理过程中如果有其它新增变量，如较长时间都还未解决，又或者引发多米诺骨牌了，就须要将级别进行晋升；故障处理完毕后，最终通过综合剖析，依据对整体的影响水平，再对级别进行定性。其它注意事项：什么级别触发什么动作？什么状况故障须要降级？不同级别对应不同的投入资源。3. 应急预案预案的要点：针对最可能产生的事件：一线人员、开发人员、架构设计人员这些应该是最分明的人；针对最不能接受的事件：秘密数据丢了、透露了，数据库、缓存崩了，登录零碎崩了这些；长期事件：大型流动前、大革新前、大领导来访、大客户试用等等；针对未知的事件：为防止不知所措，总得有个万金油的角色和小组来先长期顶一会儿。4. 工具箱常用命令汇合、罕用SQL、长命令，罕用小工具、脚本、密码本、通信录、业务架构图、网络拓扑图、设施地位表等等放在一个不便的中央。常常产生的一些难堪事件: 一大长串命令或SQL敲错几个字符；几个帮助人员围着操作人员看他缓缓敲键盘干着急，巴不得推开他本人上；筹备的脚本或命令一执行，发现服务器上没这个命令，要么现装、要么还得传上去；某主机、数据库、零碎登不下来，明码找不到、又不晓得谁有；软件不晓得装在哪，或者目录下有多个实例不确定是哪一个；间断关上十几个日志文件都没有用的内容；紧急去到机房，半天不能找到设施在哪；筹备打电话分割外援或告诉谁，才发现没有存手机号码，一问周边人都没有，到群外面喊半天对方也没看到。5. 牢靠的环境电脑不牢靠，关键时刻开不了机、软件打不开、键盘鼠标又坏了，这些事件工夫长了就必定会遇失去。解决办法: 公司借用共事电脑；家庭备用一个老电脑；U盘或移动硬盘放着常用工具集；弄清楚家左近最近的网吧路线。网络要么慢、要么卡、要么罗唆连不上。解决办法: 牢靠的公司网络，牢靠的家庭宽带（南电信北联通）；手机双卡(挪动+电信/联通)随时开热点或切运营商；备用网络，隔壁公司、楼下小店、左邻右舍；与机房的共事或机房值班人员平时多熟络一些，要害时候能帮你按一下电源，再熟一些可能顺便就帮你解决了。6. 合作形式大家提前说好，优先用什么形式配合，省得配合上呈现问题，个别规定： ...

关于运维:遗留系统的往日与今生为何遗留系统如此麻烦-云上观

编者按：遗留零碎革新是程序员的宿命，据 IEEE 报道，自 2010 年以来，全世界的公司和政府在 IT 产品和服务上的收入预计为 35 万亿美元。其中，约四分之三用于经营和保护现有的 IT 零碎。至多有 2.5 万亿美元用于尝试替换旧的 IT 零碎，其中约有 7200 亿美元被节约在失败的替换工作上。为何互联网企业的遗留零碎如此不堪？汇量科技技术 VP 兼首席工程架构师蔡超，将与咱们分享其教训与倡议。文/汇量科技技术 VP 兼首席工程架构师蔡超工作了快20年，很可怜，大多数的职业生涯都是在和遗留零碎和重构打交道。有意思的是“重构”很多时候也成了我的标记，已经是因为在 HP 胜利重构了大型零碎，才被挖到了 Amazon 。起初在 Amazon 又因为胜利重构了寰球 Dropship 零碎，被很多团队邀请分享重构的教训。最有意思的是就算在 Amazon 这样的寰球顶级IT公司，在分享重构时，每当我问到不同团队对于手上的遗留零碎的问题时候，他们的答案简直都是一样的：“遗留零碎几乎就是一坨屎”。可是不出意外的是很快他们从新构建的零碎又变成了他人眼中的“另一坨屎”。为什么咱们眼中的遗留零碎总会这么烂呢？通过了很多年继续地和遗留零碎做奋斗，我发现，“遗留零碎是坨屎”的起因除了本身零碎存在的问题，很多时候来还来自于一些固有的起因：设计是一种取舍大家对经典的 CAP 准则肯定不会生疏，这就是一个取舍的经典范例。当看到一个遗留零碎的时候，咱们更多会间接看到或感触到“舍去”的那局部。你兴许会埋怨遗留零碎的数据一致性有问题，但这反映了你可能疏忽了这是过后为了程度伸缩性/更高可用性做出的斗争。有时你会感觉零碎在性能上齐全能够更好，这时咱们可能没有理解过后对于老本和上线工夫的斗争。当然，如果咱们修改了那些已经被“舍去”的局部，通常就会影响已经失去的局部，修改了一致性，后果可用性降落了；修改了性能，后果成本上升了。读代码比写代码艰难和大家一样，每当我拿到一份遗留代码进行批改的时候，在心里会想无数次把它重写一遍。其实，这并不是对立编码格调就能够简略解决的，代码背地的设计逻辑远比代码自身要难了解得多。与代码格调相比，更好设计格调（如正确使用面向对象设计理念及设计模式等）更可能大大提高代码的可读性。业务场景和技术的变更随着企业的倒退，零碎所面对的数据量，用户应用形式等曾经产生了变动，而过后的零碎并不是依据当初的场景设计的。同样，技术总是不停地向前演变，尤其是在云计算时代， AWS 每年都有上千个新的 features 公布，新技术往往会让遗留零碎看起来有些落后。当然，犹如我在《十年架构感悟》中提到的，不要从技术登程，永远要从问题登程，寻找适合的技术去解决问题；而不是把新技术当个锤子，看什么问题都是钉子。岁月的侵蚀零碎在构建实现后，经验了大大小小的批改，且很多时候这些批改并不一定可能遵循架构当初的格调，导致了架构的逐步进化。并不是每个零碎的维护者都真正理解架构的格调，很多时候的批改是一种短期的疾速计划，而这样的批改越来越多，架构的格调也就被侵蚀了。在这个曾经高度信息化的时代，作为软件工程师，我想大多数人和我一样没有那么侥幸总是可能去构建一个全新的零碎（就算是有幸构建一个全新的零碎，有一天也会变成遗留零碎，变成他人眼中的“屎”），学会与遗留零碎和平共处十分必要。以上是一些集体感悟的分享，这里我举荐一本书 "Working Effectively with Legacy Code"，供大家拜读。随着云计算时代下企业的一直倒退，软件架构和代码也只能随之一直变动，遗留零碎重构仿佛成为了令人头疼的难题，将来我会和大家进一步探讨如何剖析和重构遗留零碎。（文/蔡超） ————————————想要理解更多？拜访 SpotMax 官网，并关注咱们的公众号“云上说禅”吧！

关于运维:直播预告｜智能运维管理平台OMP核心特性及落地场景介绍

随着大数据、机器学习等技术行业的日益倒退，传统运维技术早已不能满足现阶段运维人员的操作治理需要，因而，智能运维则变成了以后运维行业的热点话题。与此同时，海量数据的剖析和解决、万千主机的服务和监控使得高效、批量式的部署监控形式也成为了现阶段运维人员的必然之选。基于以上痛点和需要，云智慧重磅开源了轻量级聚合型运维治理平台OMP，集疾速部署治理产品、异样告警自愈、巡检深度剖析、数据定时备份等性能于一体，一站式高效地解决以后运维人员所遇难题。本期直播，将由云智慧开发运维工程师Larry Zhang（张磊）具体解说如何基于OMP把运维人员从纷繁复杂的告警和乐音中解放出来。直播工夫2021 年12月30（周四）19:00-20:00 直播亮点全面理解云智慧开源智能运维为企业运维打造的新思路，新计划！深度解构OMP性能个性，打造智能运维利器，让企业运维更简略！深刻分析运维行业所遇窘境，揭秘OMP最佳落地姿态！预约报名在线直播地址1：CSDN直播地址在线直播地址2：流动行直播地址更多福利微信扫描辨认下方二维码，退出OMP专属开发者交换群，与更多业内大咖一起交流学习～

关于运维:极致用云数智护航

简介：咱们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给咱们剖析下阿里背地的数字化业务运维安全工程规范及解决方案。本次分享涵盖了全新公布的数字化业务运维安全工程规范、平安生产解决方案，以及全新降级的产品能力：包含了全栈对立运维、全景监控和全周期安全工程相干产品能力的介绍，也蕴含了对产品解决方案在客户侧落地的最佳实际分享。咱们邀请到了阿里云混合云监控平台(Sunfire)团队负责人王肇刚来给咱们剖析下阿里背地的数字化业务运维安全工程规范及解决方案。本次分享涵盖了全新公布的数字化业务运维安全工程规范、平安生产解决方案，以及全新降级的产品能力：包含了全栈对立运维、全景监控和全周期安全工程相干产品能力的介绍，也蕴含了对产品解决方案在客户侧落地的最佳实际分享。混合云新一代运维混合云新一代业务运维：数字化业务运维系统工程在数字化转型的时代背景下，企业在将来5年内将会产生3个变动：业务规模变大、技术变简单、组织职能变得更加标准化。规模会越来越大，从单个业务上云到多个业务上云，云上资源从百台到千台。这些变动带来的挑战是技术危险导致的影响面扩充、范畴变广、修复老本变高。如果企业外围业务的稳定性呈现了稳定乃至呈现故障，轻则影响体验、口碑并带来客户投入，重则导致微小经济损失，甚至威逼企业的生存。企业的技术栈越来越简单，从单云到多云，从专有云到混合云；从传统开发到应用新技术开；企业IT零碎的基础架构也是多云环境、多技术栈并存；不同企业的数据的剖析、治理、存储和展示能力也存在差别。这些复杂性带来的挑战是：故障多、定位难、稳定性不可控。已知故障报警量多、未知故障潜伏期长，定界定位慢、响应慢、复原慢，故障无奈铲除。而故障的反复产生会进一步导致影响工夫、范畴和产生频率不可控。企业组织架构越来越标准化，组织分工标准化，即职责权定义清晰；人员能力标准化，即业余运维常识能力、操作能力、决策能力；协同标准化，即上下级、同级、内外合作标准化；决策架构标准化，即决策架构变动不会的导致技术运维能力的变动。对于刚进入数字化企业来说，组织齐全没有达到这个规范能力，带来的挑战就是：协同难，扯皮多、定非难；山头文化，跨组织跨团队合作难；出问题，找不到责任人；责任不清，问题无人解决。面向这些变动与挑战，在将来5年里，企业云上业务的“可靠性”和“连续性”成为企业倒退决定性因素。为了助力企业上云、用云过程中应答这些变动和挑战，阿里云混合云平台推出了混合云新一代运维规范：数字化业务运维系统工程，即“全栈对立运维”、“全景可观测”、“全周期安全工程” 三大能力，系统性保障数字化业务安全可靠。混合云一体化平安生产（安全工程）解决方案咱们的解决方案涵盖了从监控和预警，到应急解决，到日常继续改良的全过程闭环。即产品能力和服务能力从防、监、管、控四个方面进行构建，全方位保障数字化业务的连续性和可靠性。防-全周期安全工程，辨认故障危险，构建故障主动防御体系；从代码源头开始，严控代码品质和上线规范，通过主动防御型策略、专家知识库、智能危险检测、歹意辨认、危险审计、高危拦挡、集中统一管控、高可用架构等构建被动且齐备的事先防护体系，将业务故障拦于门外。监-全景可观测能力，建设从业务-利用-云资源全链路监控的能力，发现并定界异样，秒级预警；咱们的产品提供全景监控（业务/利用/云平台）能力。全面反对混合云状态下的客户侧监控需要；提供智能监控（智能基线、黄金指标异样检测等）能力，精准高效地发现故障、并迅速断定故障的级别和影响面，并对故障起因作出定界。同时，咱们也提供报警解决和监控运维联动能力，智能化地收敛与分级报警，并联动运维平台触发故障自愈和利用弹性扩/缩容。管-全栈对立运维，构建数字化对立业务治理能力；面向双态的业务利用运维，提供业务中台运维、资源调度、作业撑持、集中集成能力，解决企业运维看、管、控的需要，并实现日常运维数字化、智能化。咱们利用利用生命周期中产生的海量数据（零碎，监控，日志，调用链路等数据），通过平台大数据分析以及机器学习，被动探测发现零碎存在的危险，并且提供主动疾速应答能力。能够大幅晋升企业整体运维效率。控-全周期安全工程，疾速解决问题，及时应急复原止损。产品化反对故障复盘与改良打算落地，加固事先主动防御和能力验证；通过应急控制能力，疾速解决问题，及时应急复原止损，管制故障影响面。并对起因复查改良，加固事先主动防御，并常态进行常态化有效性验证（演练、压力测试），从而造成一直迭代，继续晋升的平安生产能力。数字化智能监控运维平安产品性能矩阵如图所示，平安生产解决方案须要十分多的产品能力反对，图上显示了反对解决方案背地的产品能力。这是若干年来反对阿里巴巴双十一的产品能力，也经验了多年双十一和日志技术危险战火的洗礼，目前也从属于阿里云云效监控运维畛域的产品序列，提供给各位企业客户应用。云效监控运维域产品能力降级继续可观测系统化：Sunfire2.0智能全景监控平台监控是零碎的眼睛，咱们通过眼睛看到问题能力做定界和解决。咱们监控平台的设计理念是智能化全景监控平台，是围绕阿里巴巴平台技术危险体系中的1-5-10理念来设计的。咱们通过业务监控发现问题并触发应急响应，这和传统运维理念中对系统资源的监控是有差别的。阿里团体的应急响应不会是因为某一个CPU温度过高、某一个磁盘使用率过高或者IO过高导致的零碎级指标告警引起的。阿里团体有千万级别的线上容器和主机，也有千万级别的监控项和报警。阿里团体监控是以业务监控触发为外围，即业务监控触发报警当前，须要有高效的事件处理核心产品能力，把零碎级指标报警、利用级报警和业务级报警有机关联归集起来，把业务报警进行断定和降级送入咱们的故障台，故障台向团体发应急通告，整个闭环是从发现到解决到故障降级。产生故障之后，咱们能够马上进行问题的定界并复原，全景监控能够把问题锁定到某一个环节执行预案，再通过运维平台发动预案执行让零碎复原稳固，这个故障就被毁灭在萌芽阶段了。业务监控能力降级在业务指标监控畛域，咱们有一个超级武器，秒级监控。做过监控的同学都有体感，监控零碎的数据迟延在秒级粒度时，监控曲线往往会有很多抖动。因而，秒级监控必须有智能化的监控策略作为辅助，否则会造成大量误报。把之前的智能基线能力全新降级为黄金指标异样检测能力后，零碎会帮咱们简便的自动化配出黄金指标，能监控业务的量、率和耗时以及相应的组合策略，不须要配置人工预制，通过机器学习的算法就能自动化通过监控发现业务问题。往年的阿里巴巴双十一预售曾经开始，消费者的热情高涨，特地是薇娅和李佳琪两个大V做的直播给咱们的零碎带来了很大的流量冲击，淘宝的外围业务指标也的确呈现了一个渺小的稳定。咱们的秒级监控和智能报警的策略耗时47秒，从事件的产生到最初全局预警通告只花了47秒，触发了咱们零碎的快恢，这个故障还没有到故障级别就被毁灭在无形之中，以至于很多消费者都来不及感知。咱们的监控能力会尽可能先于用户发现业务的问题。咱们在业务链路的形容上和在大屏的展现上都有全新的能力降级，这背地是自研的大规模、分布式监控施行的引擎和智能化工程策略框架的反对。利用和云资源监控能力降级业务监控发现问题后做定界，这时就要看运行业务的利用和云资源的状态。咱们全新降级利用的发现能力、利用链追踪的能力和云资源监控能力后能够监控客户利用、从业务指标到业务状态、云资源的状态，利用调用其余利用、其余中间件的状态、剖析链路、智能化发现利用、第三方组件云资源的关联。在云原生的理念下，企业采纳K8S作为本人PAAS层的运维形式，可能被开源的Prometheus监控的对象能够间接被Sunfire平台监控并享受到Sunfire智能化的策略和弱小的监控计算及存储能力。报告（事件）和故障治理能力降级发现问题后须要高效解决，而高效的应急解决须要事件核心和故障台一起联动，让事件无效被治理升高误报缩小工夫损耗，也能够通过故障台进行高效的应急和响应。通过故障台治理后，很多故障处理过程从开始的零乱不堪到最初参差高效解决，处理过程由不见变成可察看可度量。云效监控运维域产品能力降级100%IT运维数字化：Normandy智能运维平台产品架构上图是Normandy平台的全新降级，面向混合云客户做到反对跨云治理的先进架构，自动化运维公布、自动化治理、扩缩容能力，也反对了阿里双十一海量利用运维的挑战。智能化运维能力降级运维平台在智能化层面做了三大降级：一是弹性扩缩容能力。利用级智能的弹性扩缩容，依据应用程序的状态领导扩缩容是运维过程中最优的抉择，咱们Normandy平台就能提供这样的能力。针对公布过程中的危险，咱们提出无人值守公布的理念，在公布过程中监控发现潜在问题。咱们在灰度公布进行到很小范畴的时候就能够发现问题，进行拦挡防止问题扩大化。真正呈现问题的时候平台能够执行原子的自愈能力和凋谢的能力扩大，做到跟客户的场景相结合，实现客户场景下的快恢操作。经营指挥大屏有时须要对于业务和利用做全局态势的感知，咱们有运行指挥大屏的能力，对运行零碎的数据、工单数据和报警数据做展示，联合客户场梳理到全局态势的感知。在大型流动保障时做经营指挥顾问，这跟阿里巴巴双十一指挥大屏的理念是统一的。数字化业务安全工程平台—护城河大家会在新闻中看到，“删库跑路”这类新闻。阐明咱们的在运维平安层面面临了很大的危险，安全工程平台反对多云平台下运维操作集中管控和平安审计、危险的管制。咱们称其为“护城河”，它是咱们的外围能力，能够集中管控运维的治理和通路并且符合国家平安等保的规范。白屏/黑屏化平安防护能力咱们护城河体系能够同时反对白屏化和黑屏化场景，进行平安防护。无论是资源管理受权对立管控、基于多终端运维形式，还是对于多协定运维搀扶下保障客户实现平安防护。咱们反对在指定的窗口下进行身份认证躲避危险。阿里巴巴团体有数万名技术员工通过操作咱们的线上零碎，护城河体系实现了整个的危险管控，也为阿里技术体系解决了运维操作的危险管制问题。当初，咱们也把它放到云效监控运维的产品体系中提供给企业客户应用。咱们平安审计的能是符合国家等保要求的。通过对过程对立管控记录运维操作的状况发现外面的危险隐患。护城河平台基于智能化的能力做到了基于动静智能化发现潜在危险能力。案例分享Sunfire在能源行业的案例上图是和咱们和国家电网做的策略单干。国家电网的营销零碎1.0的传统架构迁徙到2.0面向混合云的架构，大家在日常生活中交电费、查电费、充值电费等都能够通过小程序在云端运行了。国网营销2.0零碎在云上是由全景监控平台Sunfire对数百个利用、数千个业务指标进行全面的监控。国网营销2.0零碎的报警解决机制以业务监控为入口，疾速定界和解决的模式。这种模式使日常的报警质变少了，比方几个月前呈现了线上的危险，咱们高效的发现触发应急解决问题，国网领导也给咱们平台发了感谢信，是对咱们很好的必定和反对。经营指挥核心在证券行业案例上图是咱们跟证券的头部企业进行单干的利用指挥的案例。这实现了证券指挥大屏在运行企业的落地。在大屏上有证券企业的外围业务流程，从整体的业务看到了利用和资源，线上交易呈现问题能够通过多维下算的形式找到问题呈现的细分业务畛域，能看到经营的状态和云资源利用的状态。我和客户共建大屏时，首先对客户侧所有的场景进行梳理形象出业务场景散发到大屏、中屏上，让客户进行不同的问题定位，设计成千上万的业务指标汇聚在经营大屏上，背地是依据客户异构的数据源，不同实效性的数据做主动归置和对齐，这种高效实时的解决机制是咱们在证券行业十分好的落地。本次内容就到这里，咱们也心愿在咱们的新一代运维安全工程规范指引下，咱们的平安生产解决方案和产品能力可能反对和服务更多的企业客户，一起让企业的云上业务运维更加高效、更加牢靠、更加稳固！原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:云效发布策略指南｜滚动分批灰度怎么选

简介：在日常和用户交换过程中，咱们也常常会被用户问到对于公布的问题，比方不同职能团队之间应该如何配合、公布的最佳实际应该是什么样子的等等。明天咱们就来聊聊常见利用公布形式的抉择，以及每种公布模式适宜什么样的场景。无论从开发运维还是产品经营的角度来看，任何一次上线都是有危险的。从最根本的利用进行导致流量失落、服务不可用、服务QPS水位降落，到步骤的脱漏、流程的不标准、开发过程中引入的bug，以及新产品/新性能上线导致用户体验的变动，都会导致线上危险。在日常和用户交换过程中，咱们也常常会被用户问到对于公布的问题，比方不同职能团队之间应该如何配合、公布的最佳实际应该是什么样子的等等。明天咱们就来聊聊常见利用公布形式的抉择，以及每种公布模式适宜什么样的场景。平滑降级：滚动公布分批公布通常指取出一例或多例利用实例，将其进行服务、降级到新版本；周而复始地反复这一过程，直到所有实例都降级到新版本。应用滚动公布，能够最大水平地防止因公布导致的流量失落和服务不可用问题；这一模式也是Kubernetes利用部署应用的缺省模式。针对部署规模较小、畛域边界较清晰，同时面临业务疾速倒退变动的微服务利用，滚动公布流程繁难且可靠性较高。不过因为通常状况下不足强干涉伎俩，公布的可逆水平较差；一旦在公布过程中觉察到问题，往往须要进行全量回滚。一般来说，滚动公布实用于合乎如下条件的场景：利用部署规模较小、启动和回滚的速度较快；利用所关注的业务畛域范畴绝对小、边界较清晰，且易于进行线上回归验证；公布人员充沛了解、把握平台所提供的滚动公布策略；新版本引入的变更，具备向下兼容性。上面咱们别离以ECS和Kubernetes为例，展现如何在云效平台上进行滚动公布。面向ECS的滚动公布在云效中，咱们能够应用主机部署工作进行滚动公布。如图所示，假如须要对以下由2台ECS形成的主机组进行滚动公布，每次滚动更新1台主机：在流水线中，配置主机部署工作：设置“暂停形式”为“不暂停”、“分批数量”为2，即可实现滚动公布。在进行ECS滚动公布时须要留神一点：通常状况下，滚动公布中的主机无奈对外提供服务，这意味着集群整体服务水位（如可承接的QPS）会升高——例如在下面2台主机分2批公布的过程中，集群始终只有1台主机能够响应申请，整体QPS水位降落了50%。公布人员须要认真评估“因为公布而导致服务主机不可用”对服务水位的影响，并抉择适合的工夫（如业务低峰期）进行公布。原生反对：Kubernetes YAML滚动公布YAML公布是咱们在应用Kubernetes时最间接的利用部署形式。在继续交付流水线中，咱们个别将这些用于形容Kubernetes资源的YAML文件通过Git进行对立版本治理，通过云效CI/CD平台监听代码库的变更事件，并通过流水线将这些YAML变更同步到集群当中。例如上面的app.yaml： apiVersion: apps/v1kind: Deploymentmetadata: name: nginx-deployment labels: app: nginxspec: replicas: 3 selector: matchLabels: app: nginx template: metadata: labels: app: nginx spec: containers: - name: nginx image: ${IMAGE} ports: - containerPort: 80因为没有申明公布策略，Kubernetes会缺省指定RollingUpdate策略，也即滚动公布。 YAML文件中的占位符${IMAGE}是为云效流水线专门留出的替换变量，公布时会被替换成具体的镜像。如下图所示，咱们能够通过“Kubernetes公布”工作实现上述Deployment的滚动公布：具体的公布进度，能够参考公布单中的展现：极简体验：Kubernetes镜像降级在一些开发团队与运维团队分工较为明确的场景中，开发团队可能心愿够尽可能少地了解Kubernetes相干概念，由专职的运维团队负责实现应用环境的部署和初始化；开发团队只负责实现代码开发，并通过流水线自动化实现利用镜像构建，并应用该镜像对集群中已有的利用进行降级。如下图所示，在云效流水线中，咱们监听利用代码库的变动，并构建出相应的Docker镜像；公布阶段只须要指定对集群中实例并关联前序工作产生的镜像，即可实现利用的降级公布。与YAML公布雷同，缺省状况下，镜像降级也应用了滚动公布模式：如上所述，该场景实用于：开发和运维拆散：运维团队充沛了解Kubernetes的原生公布策略，开发团队只负责产出代码以及利用镜像，由运维团队负责集群中利用的理论运维治理过程可控：分批公布分批公布通常指取出一批利用实例，将其进行服务、降级到新版本；人工察看实际效果合乎冀望后，再取出下一批；周而复始地反复这一过程，直到所有实例都降级到新版本。在滚动过程中，新旧版本共存且等同地承受流量、提供服务；公布人员基于对服务质量（如申请成功率、响应工夫等根底指标，或特定的业务成功率等业务指标）进行察看，决定是否进一步扩充新版本部署比例，或是放弃公布进行回滚。分批公布的基本模式与滚动公布类似，次要差别则在于容许人工控制新版本上线、老版本下线的过程。因为新版本的部署比例可控，公布人员能够事后制订批次部署打算，在大量部署的新版本上，基于生产环境流量进行小规模线上验证；若利用本身规模较大或逻辑较简单，维持一段时间的小规模验证也能起到线上回归测试的作用。另一方面，人工控制部署批次使得公布整体具备较好的可逆性：一旦在小规模验证中发现问题，能够疾速回滚曾经公布的新版本。分批公布通常适宜：利用在业务链路中较为要害，部署规模较大，业务逻辑较简单；进行线上验证时，难以圈定灰度流量，须要应用较少比例的新版本部署进行验证，以期管制危险影响面；新版本引入的变更，具备向下兼容性。面向ECS的分批公布在云效中，主机部署工作也能够被配置为分批公布模式，如下图所示：咱们能够通过指定“第一批暂停”或“每批暂停”，实现分批管制：若指定“每批暂停”，则每一批公布实现后，都须要人工确认前方可公布下一批。这种模式适宜须要全程管制公布节奏的场景，通过逐渐察看线上指标，逐渐确认新版本的正确性；或是有明确的公布打算，如“先部署1批（占比10%）、夜间业务低峰期+次日9-11点业务高峰期察看无问题后，按30%、50%、80%、100%实例数递进部署，每批进展不少于30分钟，期间察看线上指标，若呈现问题则回滚”。若指定“第一批暂停”，则只有第一批公布完结后，会期待公布人员确认；一经确认，尔后的各批次将主动部署，与滚动公布相似。这种模式联合了滚动公布的简便性，以及分批公布的小规模验证、疾速回滚能力，通常实用于“先进行一批小规模线上验证，验证通过后即可全量公布”的场景。公布人员可依据利用的部署规模、重要水平及逻辑的复杂程度，选用不同的分批暂停模式。面向Kubernetes的分批公布云效的分批公布中，咱们以Service为最小公布单元，在公布开始阶段咱们将基于新版镜像创立出利用的版本V2，并依据以后利用的正本总数以及分批数量，对新旧两个版本的利用实例别离进行缩容和扩容，来管制理论进入到新版利用的流量比例，从而能够实现小规模的公布验证，在对公布进行充沛验证后，再逐渐齐全下线老版利用。与ECS部署相似，批次之间反对暂停和手动复原，用以对公布过程进行管制。该模式实用于：采纳Kubernetes原生的服务发现机制，并心愿取得相比于原生Kubernetes公布更好过程控制性以及安全性的用户。流量可控：灰度公布较之滚动/分批公布，灰度公布增强了对线上验证影响范畴的管制：通常须要以同样的实例数，部署新/老版本两套服务；再通过流量散发管制伎俩，将特定的线上流量导入新版本、其余流量依然流入老版本；线上验证通过后，所有流量都将导入新版本实例，而老版本实例则可用作下一次公布的模板。 ...

关于运维:DNS记录类型

DNS各记录类型应用目标DNS：Domain Name System 域名管理系统域名是由圆点离开一串单词或缩写组成的，每一个域名都对应一个惟一的IP地址，这一命名的办法或这样治理域名的零碎叫做域名管理系统。DNS：Domain Name Server 域名服务器域名尽管便于人们记忆，但网络中的计算机之间只能相互意识IP地址，它们之间的转换工作称为域名解析，域名解析须要由专门的域名解析服务器来实现，DNS 就是进行域名解析的服务器。查看DNS更具体的解释 linux dns ptr mx srv spf aaaa dns records A记录：A（Address）记录是用来指定主机名（或域名）对应的IP地址记录。用户能够将该域名下的网站服务器指向到本人的web server上。同时也能够设置域名的子域名。艰深来说A记录就是服务器的IP,域名绑定A记录就是通知DNS,当你输出域名的时候给你疏导向设置在DNS的A记录所对应的服务器。简略的说，A记录是指定域名对应的IP地址。 dns a record AAAA记录：AAAA记录是一个指向IPv6地址的记录。能够应用nslookup -qt=aaaa a.ezloo.com来查看AAAA记录。 dns aaaa records NS记录：NS（Name Server）记录是域名服务器记录，用来指定该域名由哪个DNS服务器来进行解析。注册域名时，总有默认的DNS服务器，每个注册的域名都是由一个DNS域名服务器来进行解析的，DNS服务器NS记录地址个别以以下的模式呈现： ns1.domain.com、ns2.domain.com等。简略的说，NS记录是指定由哪个DNS服务器解析你的域名。 MX记录：MX（Mail Exchanger）记录是邮件替换记录，它指向一个邮件服务器，用于电子邮件系统发邮件时依据收信人的地址后缀来定位邮件服务器。例如，当Internet上的某用户要发一封信给 user@mydomain.com 时，该用户的邮件系统通过DNS查找mydomain.com这个域名的MX记录，如果MX记录存在，用户计算机就将邮件发送到MX记录所指定的邮件服务器上。 dns mx record how dns mx lookup works CNAME记录：CNAME（Canonical Name ）别名记录，容许将多个名字映射到同一台计算机。通常用于同时提供WWW和MAIL服务的计算机。例如，有一台计算机名为 “host.mydomain.com”（A记录），它同时提供WWW和MAIL服务，为了便于用户拜访服务。能够为该计算机设置两个别名（CNAME）：WWW和MAIL，这两个别名的全称就“www.mydomain.com”和“mail.mydomain.com”，实际上他们都指向 “host.mydomain.com”。 TXT记录：个别指某个主机名或域名的阐明，如：admin IN TXT "管理员, 电话：XXXXXXXXXXX"，mail IN TXT "邮件主机，寄存在xxx , 治理人：AAA"，Jim IN TXT "contact: abc@mailserver.com"，也就是您能够设置 TXT 内容以便使他人分割到您。 TXT的利用之一，SPF（Sender Policy Framework）反垃圾邮件。SPF是跟DNS相干的一项技术，它的内容写在DNS的TXT类型的记录外面。MX记录的作用是给寄信者指明某个域名的邮件服务器有哪些。SPF的作用跟MX相同，它向收信者表明，哪些邮件服务器是通过某个域名认可会发送邮件的。SPF的作用次要是反垃圾邮件，次要针对那些发信人伪造域名的垃圾邮件。例如：当邮件服务器收到自称发件人是spam@gmail.com的邮件，那么到底它是不是真的gmail.com的邮件服务器发过来的呢，咱们能够查问gmail.com的SPF记录，以此避免他人伪造你来发邮件。 ...

关于运维:如何使用PowerShell获取物理磁盘的信息

如果你须要在WIndows Server存储环境中的一个磁盘上执行保护工作。因为磁盘实质上是雷同的，只能通过其设施ID来援用该磁盘。然而，不用肯定是这种形式。你能够应用PowerShell手动为每个磁盘调配一个新的名称。这使你能够抉择基于磁盘的敌对名称来治理磁盘。如何应用PowerShell获取物理磁盘的信息如何应用PowerShell获取物理磁盘的信息为了演示起见，让咱们更改上图列表中第一个磁盘的FriendlyName。因为此磁盘是系统启动磁盘，因而咱们将名称更改为"OS Disk"。重要的是记下磁盘的设施ID。在这种状况下，设施ID为0。接下来咱们须要应用命令Where-Object间接援用磁盘：$A = Get-PhysicalDisk | Where-Object DeviceID -eq 0此命令创立一个名为$A的变量，获取设施ID=0的物理磁盘如何应用PowerShell获取物理磁盘的信息如何应用PowerShell获取物理磁盘的信息批改物理磁盘的FriendlyName下一步为磁盘设置一个新的FriendlyName。能够应用Set-PhysicalDisk命令执行此操作。在通常状况下援用旧名称并提供新的FriendlyName的形式应用Set-PhysicalDisk命令。例如，假如我有一个名称为Old的物理磁盘，并且想将敌对名称更改为New。我能够应用以下命令实现重命名工作： Set-PhysicalDisk -FriendlyName “Old” -NewFriendlyName “New”然而在本案例中，因为所有物理磁盘都具备雷同的FriendlyName，因而在这种特定状况下不起作用。咱们在方才的变量中曾经应用设施ID筛选进去第一个磁盘了。因而，咱们只须要将该变量用作Set-PhysicalDisk的管道输出即可。该命令如下所示： $A | Set-PhysicalDisk -NewFriendlyName “OS Disk”下图能够看到设施号为0的磁盘，FriendlyName曾经批改成"OS Disk"了。如何应用PowerShell获取物理磁盘的信息如何应用PowerShell获取物理磁盘的信息更改其余属性你可能曾经在上图中留神到零碎磁盘的介质类型为Unspecified。让咱们将介质类型更改为SSD： $A | Set-PhysicalDisk -MediaType SSD如何应用PowerShell获取物理磁盘的信息如何应用PowerShell获取物理磁盘的信息总结在生产环境中，为磁盘提供更多有意义的ID能够更轻松牢靠地标识正在应用的磁盘，从而加重了一些管理负担。

关于运维:数字证书pfx文件

pfx两个要点：1、pfx 文件中蕴含私钥与公钥和证书他人要是问.pfx文件里放的是啥，你能够直白的说通知他外面放的就是公钥和私钥和证书。 2、pfx 有拜访密码保护私钥不能轻易让人查看，拜访明码是为了进行安全控制。即便pfx文件被他人失去，没有拜访明码也较难获取私钥。数字证书文件格式（cer和pfx）的区别1.带有私钥的证书由Public Key Cryptography Standards #12，PKCS#12规范定义，蕴含了公钥和私钥的二进制格局的证书模式，以pfx作为证书文件后缀名。 2.二进制编码的证书证书中没有私钥，DER 编码二进制格局的证书文件，以cer作为证书文件后缀名。 3.Base64编码的证书证书中没有私钥，BASE64 编码格局的证书文件，也是以cer作为证书文件后缀名。由定义能够看出，只有pfx格局的数字证书是蕴含有私钥的，cer格局的数字证书外面只有公钥没有私钥。在pfx证书的导入过程中有一项是“标记此密钥是可导出的。这将您在稍候备份或传输密钥”。个别是不选中的，如果选中，他人就有机会备份你的密钥了。如果是不选中，其实密钥也导入了，只是不能再次被导出。这就保障了密钥的平安。如果导入过程中没有选中这一项，做证书备份时“导出私钥”这一项是灰色的，不能选。只能导出cer格局的公钥。如果导入时选中该项，则在导出时“导出私钥”这一项就是可选的。如果要导出私钥（pfx),是须要输出明码的，这个明码就是对私钥再次加密，这样就保障了私钥的平安，他人即便拿到了你的证书备份（pfx),不晓得加密私钥的明码，也是无奈导入证书的。相同，如果只是导入导出cer格局的证书，是不会提醒你输出明码的。因为公钥一般来说是对外公开的，不必加密 ------------ pfx密钥 ----------- 公钥加密+验证签名私钥解密+签名 pfx 原本就不应该在网络上流传.. 生成新的客户端证书只须要传 CSR, CER .. 正确的过程应该是: 客户端: 生成私钥, 填写证书相干信息 CN/O/OU/EMail 等等, 用私钥生成证书申请 CSR .. 把 CSR 通过网络发给 CA CA: 对 CSR 进行签名, 生成 CER CA 把证书发送回来客户端: 打包私钥 + CER 为 PKCS#12 (pfx) 文件. 整个过程都不会传递私钥. how to convert cert ...

关于运维:阿里云服务器安装部署ubuntu

首次设置root明码 sudo passwd root一、装置nginx1、apt-get装置命令sudo apt-get install nginx报错：“Unable to locate package nginx” 解决：装置前先执行命令，更新软件源 sudo apt-get updatenginx文件装置实现之后的文件地位： /usr/sbin/nginx：主程序/etc/nginx：寄存配置文件/usr/share/nginx：寄存动态文件/var/log/nginx：寄存日志2、下载nginx包装置卸载apt-get装置的nginx# 彻底卸载nginxapt-get --purge autoremove nginx#查看nginx的版本号nginx -v1）装置依赖包sudo apt-get install gccsudo apt-get install libpcre3 libpcre3-devsudo apt-get install zlib1g zlib1g-dev# Ubuntu14.04的仓库中没有发现openssl-dev，由上面openssl和libssl-dev代替#apt-get install openssl openssl-devsudo apt-get install openssl sudo apt-get install libssl-dev2）装置pcre,使nginx反对rewrite性能cd /usr/local/srcwget http://downloads.sourceforge.net/project/pcre/pcre/8.35/pcre-8.35.tar.gztar zxvf pcre-8.35.tar.gzcd pcre-8.35./configuremake && make install# 查看pcre版本pcre-config --version3）装置nginxcd /usr/localmkdir nginxcd nginx# 其余版本nginx编译时报错，故抉择nginx-1.18.0wget http://nginx.org/download/nginx-1.18.0.tar.gztar -xvf nginx-1.18.0.tar.gz cd nginx-1.18.0# 失常装置./configure --prefix=/usr/local/webserver/nginx --with-http_stub_status_module --with-http_ssl_module --with-pcre=/usr/local/src/pcre-8.35# 附加gzip_static./configure --prefix=/usr/local/webserver/nginx --with-http_stub_status_module --with-http_ssl_module --with-pcre=/usr/local/src/pcre-8.35 --with-http_gzip_static_modulemake && make install# 查看nginx版本/usr/local/webserver/nginx/sbin/nginx -v二、装置mysql1、装置配置1）装置sudo apt-get install mysql-server此处默认装置8.0版本 ...

关于运维:揭开神秘面纱如何组织一次分布式压测

越来越多的企业开始意识到分布式压测的重要性。随着互联网行业一直倒退，零碎架构越发简单，业务场景越发多样化，对性能测试的要求也越来越高。传统压测形式曾经无奈满足业务和技术的倒退须要，分布式压测，就是在这样的背景下应运而生的。早在2006年前后，IT零碎稳定性就成为了过后集中式架构的挑战。随着互联网的疾速衰亡，过后的“Unix+小型机”架构遭逢了数据爆增的冲击。特地是在线交易、商业剖析和数据库等要害业务零碎，在2010年前后进入了TB甚至PB级，导致传统IT架构不堪重负，对IT零碎的稳定性和可扩展性等提出了新要求。也就是从那时起，阿里巴巴开始了去“IOE”革新，采纳X86服务器和规范存储与网络设备等，从新架设高稳固和可扩大的分布式IT零碎。 2010年后的10年，中国的互联网公司先后进入了分布式系统的革新和建设； 2020年随同着新基建的崛起，更推动了电信、金融、电力、批发、医疗、教育、政府机构等各行各业IT零碎基于云计算的分布式进化。从集中式架构到分布式架构，IT零碎的稳定性不仅仅波及到机房布线、网络通信、硬件部署、利用架构、数据容灾等，还须要对平台本身的精细化管控和保障，包含容量压测与评估、全链路压测等。进入2021年，随着企业互联网与产业互联网的大凋敝，为基于分布式系统的IT零碎稳定性关上了一个新赛道，分布式压测也被提上了日程。如何用更少的估算实现指定以后业务规模的流量顶峰，是技术的永恒主题。明天咱们就在上一期性能测试的根底上，讲讲分布式压测的目标、要解决的问题以及如何组织分布式压测等几个方面展开讨论。分布式压测是什么？要答复这个问题，咱们首先要分明分布式压测到底是什么？依据百度百科的定义，压力测试指的是被动产生流量，从而对服务造成计算压力，测试服务的性能与健壮性等。依据关注角度的辨别，能够分为分布式压测（客户端）与全链路压测（服务端）。分布式压测指的是利用多台机器向指标机器产生压力，模仿几万用户并发拜访，在压测的根底上做延长，侧重于发压端的分布式与分散性。从压测自身登程，压测的目标可分为以下四种： 1、优化：找到零碎以及分布式系统中的短板，进行优化； 2、规范资源需要：现有逻辑在指定的资源下，能提供失常服务的临界值是多少，同步给与后续资源扩大时以数据反对； 3、流量回放：针对实在的流量，现有服务以及资源的表型模式； 4、业务演练：对特定业务做演练，提前发现并躲避问题。全链路压测个别指齐全引入相关联的零碎，实在模仿线上硬件环境，更多的是以申请为外围，齐全模仿实在申请流量，通过引流等形式进行场景的模仿进行压测，更多的实用于业务链路较长的业务。通过全链路压测发现零碎服务的数据流漏斗模型比例、瓶颈业务、高频业务、高可用节点等问题，给线上服务部署提供实在数据予以参考。目标是考查从用户开始拜访零碎到实现全副业务的整个链条中，外围页面和交易要害业务的理论承载能力；模仿齐全的真实情况来做到提前心里有数。验证的最好方法是让事件提前产生，通过全链路压测就能够提前发现问题。分布式压测解决什么问题？理解了根本的概念后，咱们来看下分布式压测能够解决哪些问题。简略来说，分布式压测可解决以下四方面的问题： 1、单机发压能力无限； 2、流量压力有地区散布等需要； 3、压测过程中的数据指标丰盛； 4、压测后果数据汇总展现。然而，分布式压测在摸索和利用的过程中也会面临一些挑战。比方发压机的调度问题，一方面发压机有可能在过程中呈现宕机，另一方面因为发压机的资源配置不同，调配压力也不同，需对发压机的实在运行状况进行监控。再比方根底数据的调度问题，须要解决好根底数据的调配与调度、多数据源之间的调度、冲突性根底数据之间的调度以及其余相关性数据的筹备与入库，任何一个环节出错，都有可能影响整个压测过程。如何组织分布式压测？那么，一次残缺的分布式压测过程应该是怎么的呢？一般而言，分布式压测分为6个步骤： 1、筹备：筹备被压测环境，能够是独自的测试环境，也能够是正式环境以及确定压测工夫； 2、确定发压曲线：能够是阶梯型、线性回升型； 3、确定发压机散布：明确流量起源诉求； 4、明确目标：依据目标确定事务与接口； 5、筹备根底数据：相干数据的筹备以及数据调度的布局； 6、过程监控后果汇总：过程中做监控报警，压测实现之后做数据分析，联合全链路的监控，比方博睿数据 Bonree Net、Bonree Server等根底监控产品，精确定位到性能瓶颈。须要留神的是，在组织分布式压测的过程中，需检测发压端设定的流量是否都打到了指标服务器上；如果服务架构比较复杂，有可能有其余因素导致流量缺失等；也可能对发压资源应用预估有余，需对发压端的资源进行监控；同时须要联合全链路的监控，精确定位到性能瓶颈。

关于运维:Linux云计算这样学习效率更快手把手带你实操结构化命令Case和forwhile循环

关于运维:智能巡检云监控指标的最佳实践

简介：在实在的企业生产中，对研发和运维的同学都会面临一个非常简约且艰巨的问题，就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座，看看在算力爆炸的时代是否通过算力和算法一起解决！背景介绍在实在的企业生产中，对研发和运维的同学都会面临一个非常简约且艰巨的问题，就是对指标的监控和告警。具体我枚举一些特定的问题请对号入座，看看在算力爆炸的时代是否通过算力和算法一起解决！问题一：当一个新业务上线前，运维人员都须要明确服务的部署状况，确定监控对象，以及监控对象的一些可观测性指标，并依据此实现相干日志数据的采集和解决；这外面会波及到很多日志采集、指标加工等一系列脏活累活；问题二：当确定了监控对象的黄金指标后，往往都须要先适配一组规定：某个接口每分钟的均匀申请延时不要超过多少毫秒；单位分钟内的谬误申请数量，不要超过多少等等；就如上图所示，从操作系统维度去看，每个个体有上百种形态各异的指标，切指标的状态有不尽相同，试问要多少种规定能力较好的笼罩到上述监控；问题三：随着业务逐渐对外提供服务，以及各种经营流动的加推，咱们运维监控同学肯定会面临两个突出的问题：误报太多和漏报的危险，那么这两个问题都在现阶段都须要人工染指，进行阈值的调整；尤其是漏报的问题，更加须要人工盯屏的模式，设计新的监控规定去笼罩一些事件；随着各个云上服务的SLA要求的晋升，企业服务也须要一直的提供问题发现的准确性和速度，在这一点上，自动化的被动巡检监控和秒级别的监控越来越被广大客户所器重。SLS提供了对于指标数据的高效的存储格局，并齐全兼容Prometheus协定的时序数据，并在这个场景中，提供了对于海量指标线的智能巡检，让您能够丢掉简约的规定配置，通过简略的抉择就能够实现通用的异样检测。时序存储的介绍SLS的日志存储引擎在2016年对外公布，目前承接阿里外部以及泛滥企业的日志数据存储，每天有数十PB的日志类数据写入。其中有很大一部分属于时序类数据或者用来计算时序指标，为了让用户可能一站式实现整个DevOps生命周期的数据接入、荡涤、加工、提取、存储、可视化、监控、问题剖析等过程，咱们专门推出了时序存储的性能，与日志存储一道为大家解决各类机器数据的存储问题。在SLS平台中，能够较为简单的将主机的监控数据、Prometheus监控数据通过Logtail间接写入，同时也有多种数据源的导入能力（阿里云监控数据）。本章次要通过对ECS机器数据和阿里云监控数据来阐明如何对接SLS智能时序巡检能力。智能异样剖析介绍智能异样剖析利用是一个可托管、高可用、可扩大的服务，次要提供智能巡检、文本剖析和根因诊断三大能力。本文介绍智能异样剖析利用的产品架构、性能劣势、实用场景、外围名词、应用限度和费用阐明等信息。智能异样剖析利用围绕运维场景中的监控指标、程序日志、服务关系等外围因素开展，通过机器学习等伎俩产生异样事件，通过服务拓扑关联剖析时序数据和事件，最终升高企业的运维复杂度，进步服务质量。产品架构图如下所示。在如下场景中，举荐应用智能异样剖析利用。察看对象多且每个察看对象的观测维度也多。观测对象没有明确的阈值规定，但须要关注指标的状态。须要对观测对象编写大量的业务规定。解决非结构化的日志数据时，须要对文本日志中的模式进行开掘。接下来咱们在云监控指标数据场景中应用下场景试验智能监控云监控指标云监控数据接入通过官网文档能够较好的配置云监控的导入工作。通过配置后，能够依照如下截图去查看对应的导入工作咱们能够在SLS管制台上查看对应的导入指标，对应各个指标的名称能够参考这篇文档。咱们能够通过如下查问语句查看下聚合的数据格式： * | select promql_query_range('acs_ecs_dashboard:cpu_system:Average') from metrics limit 100000云监控数据预览通过【查问页面右上角的查问页面】按钮，能够跳转过来查看下具体的数据格式。 * | select __time_nano__ / 1000000 as time, __name__ as metric_name, element_at(__labels__, 'instanceId') as instanceId from "test01.prom" where __name__ != '' and __name__ = 'acs_ecs_dashboard:cpu_system:Average' order by time, instanceId limit 100000通过这条SQL语句，咱们能够具体的剖析出，写入到SLS中的具体的指标（某个监控对象，某个指标在什么工夫的值是多少）。上述SQL语句仅仅列举了在 2021-12-12 19:37~2021-12-12 19:38 这个工夫区间的全副监控对象的监控指标，接下来，咱们通过简略的改写，仅仅显示某个独自的监控对象在一分钟的数据状态。 * | select date_trunc('second', time) as format, * from ( select __time_nano__ / 1000000 as time, __name__ as metric_name, element_at(__labels__, 'instanceId') as instanceId from "test01.prom" where __name__ != '' and __name__ = 'acs_ecs_dashboard:cpu_system:Average') where instanceId = 'xxxx' order by time limit 100000 ...

关于运维:实时数仓Hologres首次走进阿里淘特双11

简介：这是淘特在阿里巴巴参加的第二个双11大促，大促期间累计超过上千万消费者在此买到心仪的商品，数百万家商家因为淘特而变得不同，将来，淘特也将会持续更好的服务于下沉市场，让惠民走近千万家。 2021年11月11日23:59:59，阿里巴巴淘特（淘宝特价版）的第二个双11完满落下帷幕。在双11大促期间，淘特历经多个大促暴发顶峰，丰盛的权限玩法，各类高性价比货品，大促期间累计超上千万人在淘特买到质美价廉的商品。本次双11大促中，淘特无论是流量、买家还是订单数都创下新的记录，交出了完满答卷，这也意味着，阿里巴巴在下沉市场开始斩露头角。业务简介与面临的问题淘特(原淘宝特价版)定位为消费者带来高价且有品质的源头好货，目前依然处于用户快速增长的阶段，其中三方线上广告投放具备规模效应大，行业成熟度低等特点，是平台用户引流的重要渠道。在淘特为期30多天的双促期间（双10，双11），市场竞争尤为强烈，渠道投放策略的及时优化调整是保障获量与控本的重要伎俩。同时针对下沉用户偏好简略的玩法和独特区域性货盘的特点，平台须要翻新研发各类简略易于了解的营销玩法，和相应的站内流量散发机制，促使更多的用户能够边玩边买。因为本次大促具备工夫长与高暴发两个特点，在这个过程中，咱们面临这这么几个问题：流量高价获客：线上广告创意规模大，但拉新拉活成果老本参差不齐。但因为不同工夫波段流量差别大，如何通过摸索式剖析，疾速定位问题广告或者开掘新机会，为大促提供继续稳固的高质量流量成为了优化师们进行投放优化的首要问题。极简营销玩法：大促新上各类营销玩法，营销玩法的成果须要实时监控。如何实时多维分析，帮忙业务进行实现不同场景的不同成果剖析，最终反哺业务实现大促交易指标。货商高效汰换：货品是电商的外围，超长大促周期下，会场同学须要进行会场货品调优，行业同学须要通过货品类目进行供应调整，还有风控、商家治理等多个角色，均须要通过对单商单品的精准强控。其中如何通过实时聚合排序，及时对低效能货品的汰换，防止流量与转化效率的错配。解决方案围绕淘特双10&双11，基于上述在流量投放优化、营销玩法多维分析，品商实时排序等面临的业务问题下，咱们构建了一套基于实时数仓Hologres的对立数据服务零碎，从流量、玩法、货品全方面监控数据，反对业务在大促期间的精细化经营诉求。上面别离从三方面内容讲述淘特在这一畛域的实际。优化投放继续高价获客场景介绍和特点：广告投放场景偏摸索剖析，具备查问频率中，查问复杂程度高，对提早容忍度绝对较低等特点。分析师须要从一纵一横两个视角进行投放优化，一横即能够从广告创意到广告组、打算、账户、代理、媒体等不同颗粒度。一纵即从展现、点击、耗费的前链路数据到激活、新登、唤端、下单、领取等后链路数据。再叠加工夫维度进行剖析与优化。实现计划：思考到上卷与下钻维度十分多，且查问不固定，无奈采纳预计算模式，因而咱们抉择围绕最细颗粒度广告创意进行加工，将各类维度属性冗余成标签，前后链路的成果作为指标，存储在Hologres上，将分析师在投放核心上的优化的查问逻辑转变为基于明细数据的再筛选、聚合、加工的计划。挑战与优化：摸索式灵便剖析，简单查问，对Hologres都会产生较大的性能压力，咱们次要思考了存储优化、抉择散布列和索引优化三种种优化形式。在存储形式上，因为外投核心的应用场景是以范畴查问、单表聚合为主，所以选用列存的存储形式。此外因为散布列将文件组分成不同shard，而后优先在各shard内执行join和group by操作，所以选用了罕用的关联键和聚合维度account_id, campaign_id, adgroup_id, agent, creative_id。在索引优化上，依据不同索引形式咱们选用了不同的字段作为key来优化查问速度。首先是选用了creative_id作为聚簇列，实用于范畴查问和筛选所用字段。应用比特编码索引在聚簇后进一步进行文件内位图索引，实用于等值查问条件，所以抉择了creative_id, account_id, campaign_id, adgroup_id, agent等罕用于等值查问的字段。最初是分段键，该索引是用于标识文件边界，罕用的是非空工夫戳，这里咱们抉择用的是stat_date。通过上述系列优化使得最终98%以上的通过投放平台过去的摸索式剖析查问能够在3s内实现。业务收益：该数据产品在指标三方广告投放经营、产品中覆盖度100%，经营通过该平台疾速高效的定位并解决包含异样掉量、耗费过低等问题计划数日均几十+，使得投放侧的优化效率整体晋升50%以上。同时还帮忙经营可能疾速的找到增量价值渠道等。权利玩法促用户成交转化场景介绍和特点：营销玩法投放在蕴含新人、互动、裂变等不同的场域中，玩法的疏导成果还与货盘强相干，穿插模式以及看数用数指标绝对固定，且绝对比拟高频。实现计划：咱们在实时计算Blink中通过间接产出CUBE表，写入Hologres中，基于该CUBE表搭建数据报表。业务收益：大促期间通过成果数据针对玩法进行了10+优化，如通过玩法X场域，为跨店满减会场新增购物车入口，疾速满足用户的凑单需要；官网补贴的气氛链路透传晋升转化率等，帮忙行业顺利完成指标。商品商家汰换高效散发流量场景介绍与特点：经营小二为了可能在大促期间对商品与商家进行监控与汰换，就须要有细颗粒的查问监控，同时因为商品会关注在流动中的各个会场的特色指标体现，且局部流动存在跨多天的状况，所以多日累积的数据也是经营决策的重要参考。实现计划：咱们抉择在实时计算Blink引擎中，实现对最细颗粒度的商品-人的计算，并将相干流动指标打横，写入Hologres。在报表层，依据经营的筛选条件进行跨天的汇总到商品、商家粒度的聚合排序。单个分区日志数据商品-人达到了2亿左右数据规模，通过索引、散布列等的优化根本能够满足单表的各类查问。挑战与优化：实时离线的数据存在肯定GAP，在多日的周期下，差别累积放大，导致影响业务的决策判断，另一方面大促期间人力开发资源缓和，如果用离线数据进行笼罩，老本额定增加一倍。在此背景下，引入了流批一体的技术计划，应用Hologres进行对立存储与计算，并且通过Blink Batch实现了实时离线共用同一套代码，计算逻辑对立，大幅度降低了反复开发与后续运维老本。业务收益：品/商多维度实时排行笼罩行业经营、会场经营小二，通过选品汰换在几百家会场帮忙消费者买到心仪商品，并针对挖掘出的后劲商家，及时的给予流量搀扶，整体大促期间超过几百万商家实现动销。业务总结这是实时数仓Hologres首次走进淘特的双11大促，在大促期间，Hologers在流量洪峰的压力下，以99.8%响应支撑力多个促销流动的顺利开展。数据同学只须要加工最明细数据，便能通过Hologres构建灵便多维的查问利用，整体的研发效率晋升在40%以上(单场景均匀5人日降落至3人日)，同时局部本来须要由在线Blink作业的数据计算，转变为了查问时再计算的模式，整体计算资源预计有20%左右的缩小。这是淘特在阿里巴巴参加的第二个双11大促，大促期间累计超过上千万消费者在此买到心仪的商品，数百万家商家因为淘特而变得不同，将来，淘特也将会持续更好的服务于下沉市场，让惠民走近千万家。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:云端技能包k8s-知识-模块化方式认识Statefulset和Deployment

在学习干货前，客官请留步—— 【“云”住民生存训练营--玩转k8s】本周五，行将在线上开播，扫码一键预约直播！当咱们应用 k8s 的各种 resource 时，经常会感到 yaml 元素我的项目繁多、难以记忆，例如api, meta data， spec，template等等。咱们在记忆某个选项或者是本人在编写这个选项的时候，可能会感觉比拟艰难。事实上，k8s 的 resource 形容形式自有其法则在其中。如果能用模块化的办法拆解一下，能够更好地了解记忆它们的雷同与不同之处。云资源优化服务 SpotMax无缝集成了Kubernetes，可便捷实现容器的治理与自动化公布。===>>理解SpotMaxStatefulSet 和 Deployment 作为咱们在 k8s 中罕用的控制器（工作负载），以不同形式治理着 Pod。通常状况下，StatefulSet用于部署有状态利用，Deployment 则用于部署无状态利用。这一期“云端跟我学”，咱们将以StatefulSet和Deployment为例，用模块化的形式进行比照记忆，并认知其中的法则。比照一下 Statefulset和 deployment，能够看到有module这种概念。例如Statefulset中有kind、有 spec，共2个module：具体来看一下 kind中蕴含的模块，kind反对Deployment、DaemonSet、StatefulSet、Job、CronJob等。依照模块化的形式来形象和拆解，认知记忆这些元素就会容易很多。如下图，能够左右比照一下StatefulSet与Deployment：两边都有 kind、 spec（ spec局部有一些区别，如图），其余如 selector还有 template的局部都是一样的。二者重点的区别次要集中于更新策略（strategy）局部，如下图：【StatefulSet】【Deployment】咱们能够进一步对template局部做一下拆分和形象：以上就是咱们对k8s resource的了解和记忆小窍门，能够采纳模块化、抽象化的形式，认知共性，找出区别，不便大家的学习和应用。

关于运维:Centos系统中-Systemd-的Unit文件配置说明

Systemd应用单元(Units)来管理系统服务和程序。零碎单元应用配置文件来管制其相干操作。单元配置文件有三种类型：默认单元配置文件，零碎特定的单元配置文件和运行时的单元配置文件。上面列出了三种类型的单元配置文件所在门路：默认单元配置文件 - /usr/lib/systemd/system运行时的配置文件 - /run/systemd/system零碎特定的配置文件 - /etc/systemd/system默认单元配置文件，当装置新软件包时，在装置过程中，单元配置文件会在/usr/lib/systemd/system目录中生成。运行时单元配置文件，别离在units启动和进行时，会主动生成和删除。零碎特定的配置文件蕴含定制的单元配置。通过这些配置文件，用户能够笼罩units的默认行为。当咱们对系统服务和程序的状态进行任何更改时，例如：start, stop, enable, 和disable时，systemd读取并执行其单元配置文件。依照以下程序查看单元配置文件。零碎特定的单元配置文件、运行时单元配置文件、默认单元配置文件。例如，如果一个units配置文件在着三个门路上面都存在，则仅应用零碎特定的配置文件 - /etc/systemd/system。 Unit配置文件书写格局一个单元配置文件蕴含管制该单元的所有必须信息，例如；启动Units文件的门路，在Units之前和之后须要启动的 service/units 的名称，文档、手册的地位，依赖项信息，抵触信息等。 Unit配置文件中的信息通常分为三局部。[Unit]，[Type], [Install]。上面寻找一个Unit配置文件来解释： [root@localhost ~]# cat /usr/lib/systemd/system/sshd.service [Unit]Description=OpenSSH server daemonDocumentation=man:sshd(8) man:sshd_config(5)After=network.target sshd-keygen.targetWants=sshd-keygen.target [Service]Type=notifyEnvironmentFile=-/etc/crypto-policies/back-ends/opensshserver.configEnvironmentFile=-/etc/sysconfig/sshdExecStart=/usr/sbin/sshd -D $OPTIONS $CRYPTO_POLICYExecReload=/bin/kill -HUP $MAINPIDKillMode=processRestart=on-failureRestartSec=42s [Install]WantedBy=multi-user.targetCentos7 中 Systemd 的Unit文件配置阐明Centos7 中 Systemd 的Unit文件配置阐明 Unit局部该局部通常蕴含形容、文档、与其余程序依赖的设置、包含在什么服务之前或者之后启动该Units的设置等。 Description: 该语句提供简要的形容。能够在systemctl list-units或者systemctl status [Units]时看到形容。 Documentation: 该语句提供手册（帮忙文档）页面的地位以及拜访手册页面的命令。 After: 该语句列出了在该单元之后应激活的单元。仅仅是标准服务启动的程序，并没有强制要求启动。 Before: 该语句列出了在该单元之前应激活的单元。仅仅是标准服务启动的程序，并没有强制要求启动。 Wants: 定义该单元启动之后还须要启动哪些unit。 Requires: 明确了定义该单元须要在哪个单元启动之前能力启动，如果后面的unit没有启动，那么该unit也不会被启动。 Conflicts: 该语句列出了在启动该单元之前必须进行的单元/服务。一个单元的After/Before语句定义了该单元应该启动的程序。一个单元的want/Requires语句定义了该单元的依赖关系。 ...

关于运维:一款跑在云上的定制容器专属-OS-来了LifseaOS-龙蜥技术

简介：如果能够把运维 API 化，那咱们是不是能够把 OS 也作为一个 K8S 能够治理的资源，让 K8S 像治理容器一样治理OS？引言在 2021 年 10 月的云栖大会上，为云原生而生的 OS Lifsea 正式对外公布，并集成进入阿里云容器服务 ACK Pro 的托管节池，成为可选的操作系统选项。不久前，LifseaOS 外围代码正式在龙蜥社区开源，用户能够基于 LifseaOS 开源代码构建、定制一个属于本人的容器专属 OS。 WHY LifseaOS？说到 LifseaOS，不得不提到其次要面向的场景：容器。从最早的 UNIX chroot，到 Linux 的 LXC，晚期以 cgroup、namespace 为根底的容器运行时技术始终在继续演进，但并没有呈现阶段性的冲破。直到 2013 年，docker 的呈现间接推动了容器的疾速遍及，通过短短几年的倒退，容器曾经成为了支流的 IT基础设施技术被宽泛地利用。容器的疾速倒退 docker 功不可没，而咱们回顾过后 docker 最后的工作，能够发现其并没有进行颠覆性的技术改革，其外围翻新次要包含以下两个局部：定义了容器分层镜像规范以及镜像仓库：容器镜像将利用运行环境，包含代码、依赖库、工具、资源文件和元信息等，打包成一种操作系统发行版无关的不可变更软件包定义了笼罩容器全生命周期 restful API：restful API 的将整个容器的创立、监控、销毁过程标准化，部署、运维人员能够在一个集群内对大量的容器进行统一化的治理这两个要害翻新带来了整个开发、集成、部署的反动。首先镜像能力为 devops 提供了一条便捷的路线，开发人员能够在开发过程中便实现对于整个运行环境的把控，将本人开发成绩间接上线部署生产投入，无需再去思考操作系统兼容、库依赖等环境因素，实现了 docker 的口号“Build，Ship and Run Any App，Anywhere”。其次，restful API 呈现使得容器的生命周期治理更加的便捷，利用编排工具对容器的治理，SRE 能够疾速、无差别地进行利用的部署、降级、下线，实现了针对利用治理由“宠物”到“牛群”的质的飞越。随同着容器一起倒退的是以容器为根底衍生而出的容器编排、容器存储、容器网络等畛域，这些畛域紧密结合造成了“云原生”生态，并且在 2015 年开始，围绕着 K8S 逐步形成了一套残缺的“云原生操作系统”。通过 K8S，用户能够在一个分布式集群内疾速、高效地部署容器，无需再去关注简单的集群资源分配、容器调度等工作。为了残缺地反对 K8S，云厂商也进行了大量的 K8S 的撑持对接，纷纷提供适配本身 I 层基础设施的 CNI（Container Network Interface）、CSI（Container Storage Interface）以及绝对应的 cluster-autoscaler 等组件，让 K8S 能够完满的治理本人的存储、网络、计算资源。 ...

关于运维:Linux一学就会之RAID磁盘阵列的原理与搭建

关于运维:20211210-关于Apache-Log4j-远程代码执行漏洞对WGCLOUD无影响的说明

没有影响，请放心使用，WGCLOUD没有应用Apache Log4j 来打印输出日志 WGCLOUD始终采纳日志输入形式为SLF4J和Logback

关于运维:在Centos7上安装Redis6

一、背景Redis是一个十分风行的NOSQL数据库，领有的数据类型十分丰盛，此处咱们简略记录一下在Centos7上是如何装置Redis6的。Redis的装置是举荐应用源码进行装置的。二、装置步骤1、装置gcc依赖 2、下载redis6wget https://download.redis.io/releases/redis-6.2.6.tar.gz 3、解压编译# 解压tar -zxvf redis-6.2.6.tar.gz# 进入解压后的目录cd redis-6.2.6# 执行编译，如果make出错，能够看下方可能呈现的谬误的这个题目make4、装置1、装置到默认的地位make install2、装置redis到指定的地位make PREFIX=具体的门路 install此处咱们装置到默认的门路下。 5、启动redis1、前台启动redis-server2、后盾启动vim redis.conf，这个文件默认在redis-6.2.6/redis.conf批改 daemonize yes启动 redis-server redis.conf6、防火墙放行6379端口[root@centos01 redis-6.2.6]# firewall-cmd --zone=public --add-port=6379/tcp --permanentsuccess[root@centos01 redis-6.2.6]# firewall-cmd --reloadsuccess7、连贯到redis[appuser@centos01 ~]$ redis-cli -h 127.0.0.1 -p 6379127.0.0.1:6379>三、redis的简略配置配置项值解释port6379客户端通信端口,redis服务器启动的端口daemonizeyes当前台的形式运行bind192.168.56.101redis服务启动时绑定的ip地址,是本地网卡的地址pidfile/var/run/redis_6379.pid当是当前台形式运行时，会产生一个pid文件logfile/var/log/redis_6379.log指定日志文件的门路dir./数据库的长久化文件保留的门路，必须是目录appendonlyyes关上aof长久化appendfsynceverysecaof每秒写入一次appendfilenameappendonly.aofaof文件名requirepass123456设置一个redis的明码，能够设置的简单一些maxclients10000设置最大能够有多少个连贯连贯到redis servermaxmemory2GB设置redis最多可用的内存四、可能呈现的谬误1、zmalloc.h:50:31: 致命谬误：jemalloc/jemalloc.h：没有那个文件或目录通过百度，可知通过make MALLOC=libc命令解决。 2、如果呈现了Connection refused1、查看redis端口是否放行2、查看redis.conf 中bind的值，默认只能通过127.0.0.1来拜访。学习测试能够配置成 bind 0.0.0.0，生产环境不能够。 3、如果rdb保留失败时如果呈现了如上日志，那么咱们能够批改vm.overcommit_memory=1来解决。五、参考文档1、Redis Quick Start

关于运维:阿里云-FaaS-架构设计

简介：本篇内容将从 2 个局部为读者介绍对于阿里云 FaaS 架构设计和神龙高密部署的 FaaS，心愿能够让大家对阿里云 FaaS 有更深刻的理解，并能够将 FaaS 利用到我的项目中，达到降本提效的目标。一、基于 ECS 的 FaaS在阿里云传统架构，用户通过互联网进入到负载平衡零碎中，再通过负载平衡把零碎的申请调度到不同的机器下来。这种传统的架构带来的问题比拟多，一方面是多利用配比比例容易失衡，造成资源节约；另一方面是镜像降级比拟繁琐，整个过程的开机速度在分钟级，扩容速度也绝对较慢。 (1) 架构设计基于 ECS 的 FaaS 架构设计同样也是通过互联网进入，落到 SLB 负载平衡上。SLB 负载平衡这个零碎是部署在阿里云外部的，次要用于抵御 DDoS 攻打及申请平衡到多台 api_server 上。api_server 再发动函数的 CRUD 操作，并向 Scheduler 申请容器。 Scheduler 治理容器在 worker 的搁置，申请落在容器上的调度散发。用户所在 worker 就是咱们称之为的计算节点，如果须要拜访用户的 VPC 环境则在计算节点上通过 ENI 网卡买通到用户 VPC 环境。 (2) 多租户多利用部署的反对namespace 是 linux 前几年推出的一个资源隔离计划，能够在内核层面做一些设置指定一部分过程固定。并且能够在 cgroup 的这一套设置计划里设置，管制资源的拜访。在 namespace、cgroup 整套计划下，衍生出了 container，社区中罕用的的 Docker 计划把镜像操作系统中的很多细节包装成一个计划，用户看到了一个绝对比拟残缺的操作系统，把用户当成一个单个用户搁置在虚拟机当中。这就是一个 vm，相当于说一台 ECS，这里就是操作系统层面，把整个 cpu、memory、包含设施全副给屏蔽掉，在下面用 cgroup 封一层，对应的就是 Docker 容器。利用搁置策略包含用户独占虚拟机、同 VPC 独占虚拟机、资源拜访权限统一的 APP 混部在同机器。把两个不同的用户混在一个 vm 下，也就是 ECS 下面，对于用户之间来说是存在危险的。为了屏蔽掉共用 kernel 带来的危险，ECS 上的实现，咱们单个 ECS 只有一个租户，这样解决也存在一些问题，最突出的就是对于低频调用函数资源使用率低。 ...

关于运维:优麒麟Ubuntu-Kylin-2004-Pro-SP1-上线

优麒麟Ubuntu Kylin 20.04 Pro SP1 上线。优麒麟Ubuntu Kylin 20.04 Pro SP1 上线。优麒麟团队正式发表 Ubuntu Kylin 20.04 Pro SP1 上线。此版本默认搭载 Linux 5.11 内核，新增显示器显示模式的记忆反对、鼠标拖拽反对等性能，优化网络插件、登录程序和定时关机等零碎组件，修复了用户手册程序解体、软件商店暂停键刷新不及时、蓝牙传输空文件失败等重大问题，累计 200+ 桌面环境和应用软件方面的已知问题失去解决，从而全面晋升零碎稳定性和安全性，为用户提供更加高效便捷的应用体验，欢送大家下载应用。装置形式通过官网下载全新装置：https://www.ubuntukylin.com/d...已装置 Ubuntu Kylin 20.04 和 20.04 Pro 正式版的用户通过以下形式降级：$ sudo apt update$ sudo apt full-upgrade零碎性能改良与BUG修复日志桌面环境改变网络插件修复开启投屏后，点击无线模块，列表加载失败的问题修复可连贯网络中仍然显示“已连贯上的网络”的名称的问题修复敞开无线网络，无线连接列表仍存在 WiFi 列表，开关仍处于关上状态的问题修复在新建用户进行网络连接或批改，会弹两次受权窗口的问题修复网络连接开关按钮提早响应，且网络刷新迟缓的问题修复正在连接的有线网络和顶部“以后未连贯任何网络”文字重叠的问题修复设置谬误的 IP 地址进行有线连贯，任务栏的有线网络图标没有加载动画的问题修复同时连贯有线和无线网络，睡眠唤醒后不显示可用的有线连贯的问题修复拔掉网线，重启零碎后插入网线，有线网络开关未主动关上的问题修复任务栏无线列表中，网络安全性信息显示不全的问题修复断开网线的状况下，新建一个有线网络，网络连接界面没有显示的问题窗口切换修复截图后固定在桌面的工作在窗口切换界面图标显示不全的问题修复 Alt+Tab 不能切换多任务视图的问题修复在桌面预览界面，挪动窗口后，预览界面显示不正确的问题智能搜寻修复解析加密 DOC 文件时索引解体的问题修复一个潜在的索引解体问题优化关键词提取流程，缩短索引所需的工夫修复在弹出建设索引提醒弹窗后按 WIN+D，点击任务栏托盘无奈呼出页面的问题修复偶现的点击最佳列表，右侧详情显示谬误的问题电源治理修复无奈在设定的工夫内进入睡眠模式的问题锁屏程序新增基于 session 闲暇工夫封装的一层闲暇工夫接口修复开机后先显示桌面后显示登录界面的问题修复在本地设置一张 GIF 格局的图片作为锁屏界面，切换用户或登记之后锁屏界面换壁纸的问题修复锁屏时，按 WIN+P 会在输入框输出字符的问题任务栏修复切换英文，登记从新登录后，任务栏图标隐没的问题优化收集箱格调登录程序修复装置零碎设置中勾选开机主动登录，胜利登录后新建一个用户，切换用户必现屏幕白屏的问题修复登录明码长度达到最大值无提醒的问题修复设置明码时效到期后登录失败的提示信息一闪而过，无奈看清具体提醒的问题修复启动时段谬误优化登录体验，默认启动 NumLock 小键盘，并做成可配置的是否主动开启UKUI 接口新增桌面操作系统版本信息对立接口修复 log4qt 日志库偶现开释资源时因期待线程退出阻塞过程退出的问题修复会话偶现卡住的问题零碎告诉后台程序修复点击桌面弹窗的截图和侧边栏的截图跳转不统一的问题去除应用 dbus 获取屏幕信息接口，改为应用 Qt 默认机制获取设置后端 ...

关于运维:如何在飞书中使用集简云

性能介绍想将飞书与企业其它零碎连贯，但却不会开发？没问题，集简云帮您解决。集简云(https://jijyun.cn) 是一个无代码集成平台，您不须要有任何技术常识即可将您的企业外部与内部零碎连贯，建设自动化的业务流程。当初您能够应用集简云：连贯飞书与数十款国内支流软件系统，目前可连贯的利用零碎见：https://jijyun.cn/apps.html将数十种零碎中的数据主动同步到飞书中，例如当抖音中新增评论信息，推广中新获取的线索，数据库中新减少的数据等等。通过@飞书机器人主动调用企业其余零碎执行工作，例如发送邮件，短信，发送物流订单，在CRM中创立联系人如何在飞书中应用集简云搜寻“集简云” 点击“”受权并装置” 增加应用范畴，受权后在利用治理中配置可用范畴在飞书中增加受权后，登录您的集简云平台帐号，如果您还没有集简云帐号能够注册一个：https://apps.jijyun.cn/login 进入集简云平台，点击“利用治理“，在利用列表中找到“飞书（第三方利用）” 点击后，在受权页面确认受权即可实现飞书帐号的受权：如果受权胜利您将在集简云的利用帐号列表中看到您受权的飞书帐号：上面咱们举两个示例，阐明一下如何应用飞书机器人触发流程，以及如何将其余零碎外面的数据同步到飞书机器人中。飞书能够用动作与性能飞书可用触发动作：当用户发送信息给机器人或者在群聊中@机器人时: 私聊集简云机器人或者在群聊中@飞书机器人时将发送的信息推送到集简云并触发流程（在飞书向集简云利用发送文本，或者在有集简云机器人中的群里 @集简云发送文本）飞书可用执行动作：在集简云中能够应用飞书（第三方利用）执行多种类型的动作，包含：给多个用户或者多个部门发送信息：发送文本音讯到群里：发送富文本音讯到群里发送富文本音讯到某一个成员给指定用户发送文本音讯留神：发送到的成员，须要有应用集简云利用的权限，否则无奈接管信息示例：@飞书机器人同步数据到第三方利用您能够通过向飞书中的集简云机器人发送信息在其余数十款零碎中查问数据或者执行动作。比方 @集简云机器人查问客户信息，库存，发送邮件，短信，创立CRM联系人，存储数据到数据库或者表单中等。上面咱们做一个通过@飞书机器人查问CRM零碎中客户信息示例在这个示例中，员工能够通过私聊飞书机器人，增加客户信息到企业CRM零碎或者表单零碎中存储，这里咱们应用维格表存储用户信息，增加结束后咱们再告诉发送信息的飞书员工，信息已增加胜利。这里咱们须要5个步骤：步骤1：飞书（第三方利用）当用户发送信息给机器人或者在群聊中@机器人时，触发流程接管发送给集简云机器人的内容。步骤2（可选）：数据筛选，设定执行条件只有条件满足时进行，次要是避免其余成员@飞书机器人发送不同的内容格局导致数据同步谬误。步骤3：文本处理，将发送来的文本内容结构化以便后续存储步骤4：维格表，增加数据到指定的表单中存储（能够替换为其余表单零碎，客户关系CRM，客户服务，用户经营零碎或者MySQL数据库等）步骤5：飞书（第三方利用）给指定用户发送文本音讯，这里咱们回复发送音讯的成员其发送的数据已胜利增加，并告知增加后的数据ID信息。步骤1：点击创立流程，抉择飞书第三方利用，下的“当用户发送信息给机器人或者在群聊中@机器人”作为触发动作抉择曾经增加过的飞书帐号：点击下一步，在接管样本界面点击“获取样本数据“按钮，进入样本期待中点击后进入样本期待中此时在飞书界面找到集简云，并发送信息给集简云飞书机器人发送信息后集简云界面中将收到您发来的内容作为样本其中比拟重要的字段包含：text: 飞书发送来的文本内容，咱们将用这个文本内容转换格局并执行数据同步等命令。open_id: 发送此信息的员工ID，后续步骤中咱们能够应用此ID回复该员工应用飞书群聊触发集简云流程除了上述私信集简云飞书机器人发送音讯的形式外，您也能够通过在群聊中增加集简云机器人并@集简云机器人的形式触发流程进入群设置中，抉择群机器人，点击增加“集简云无代码集成” 步骤2：应用集简云内置利用，文本处理：文本分隔性能将步骤1获取的数据转换为后续步骤须要的代码格局。设置后获取转换后果：步骤3：将转换后的数据同步到您须要的零碎中咱们这里应用维格表作为示例，您能够能够抉择你应用的其余零碎，比方CRM零碎，电商零碎，数据库等：抉择维格表，增加数据动作：将转换过的数据同步到您须要的维格表字段中，这里点击字段旁边的 A->B按钮能够调用其余步骤中的数据作为变量。也能够手动填写固定文本内容：点击发送数据，能够在维格表中创立数据，并获取其返回的内容。步骤5：飞书（第三方利用）给指定用户发送文本音讯这里咱们通过飞书第三方利用的执行动作，给指定用户发送文本音讯告知其发送的数据曾经胜利增加：在字段匹配环节中须要输出接管文本音讯的员工邮箱地址或者OpenID, 咱们将在步骤1中获取的员工OpenId字段作为变量增加到这里。而后将咱们在维格表中创立数据的返回内容作为文本注释：发送数据，发送后咱们获取到一个Message_id其代表发送胜利了在飞书中，咱们将收到发送来的内容：好的，流程已创立结束，在最初一个步骤发送数据的下方，点击”实现数据流程设计并保留”按钮保留流程。保留后，每当员工是否飞书发送内容给集简云飞书机器人时，集简云平台会主动接管发送内容，执行自动化流程，将发送的数据增加到指定利用中，而后回复发送内容的员工。

关于运维:直播回顾如何对付臭名昭著的-IO-夯诊断利器来了-龙蜥技术

简介：听到IO夯总是让人头疼，那有没有能够剖析IO夯问题的利器？编者按：sysAK（system analyse kit），是龙蜥社区（OpenAnolis）零碎运维 SIG 上面的一个开源我的项目，汇集阿里百万服务器的多年运维教训，针对不同的运维需要提供了一系列工具，造成对立的产品进行服务。作者总结了理论工作中解决的 IO 夯问题的教训，将它梳理成一套实践分析方法并造成 iosdiag 工具，集成到了sysAK 工具集里。本文将由作者带大家一道领略一下 iosdiag 在 IO 夯畛域叱咤风云的魅力。本文整顿自龙蜥大讲堂第三期技术解读，直播回顾可在龙蜥社区官网查看。作者：李光水（君然）零碎运维SIG核心成员、毛文安（品文）零碎运维SIG负责人。一、引言这是作者第二次备战双十一，怀着冲动的情绪迎接双十一的到来，未曾想迎来的是一枚深水炸弹：连忙解决一下业务那边呈现的 Load 高问题。 “为什么 Load 高呢？” “因为有 500 多个过程变成了 D 状态。” “那为什么会有这个多过程 D 状态呢？” “因为呈现了 IO 夯问题...” 曾几何时，听到 IO 夯，作者会有点头皮发麻，为啥呢？因为没有无效伎俩去定位这个问题，或者就算是有伎俩，也得经验山路十八弯，成不成还的看运气，若是侥幸，还能剖析点啥进去，若是不侥幸，把机器整挂掉，得失相当。时至今日，遇到 IO 夯问题再也不虚了，因为作者当初手里有能够剖析 IO 夯问题的利器——sysak iosdiag。先来看看这个栈，500 多个过程是因为在内核下期待某个磁盘的块设施互斥锁而进入 D 状态，如图 1-1 所示：图 1-1 互斥锁正被执行读 IO 申请的内核过程 kworker 持有，如图 1-2 所示，只有读 IO 流程实现之后能力开释锁。然而因为 IO 夯住了，读 IO 流程无奈顺利完成，所以就没法失常开释锁了。所以接下来就须要找到是拜访哪块磁盘呈现了 IO 夯？IO 到底夯在哪里？图1-2 之后作者应用 sysak iosdiag 工具找到了呈现 IO 夯问题的磁盘，同时也定位进去这个 IO 是夯在了磁盘侧，如图 1-3 所示： ...

关于运维:Linux一学就会之文件的归档和压缩tar命令

关于运维:2021中国数字服务大会-阿里云混合云新一代运维演进与实践

简介：12月3日，2021中国数字服务大会顺利召开，大会以“数字服务、跨界交融、协同翻新”为主题，邀请产学研界嘉宾，举办行业与学术论坛，共话数字服务的挑战和时机。阿里云作为云厂商代表应邀参会，并于2021中国数字服务大会-数字运维服务论坛分享了“混合云新一代运维的演进与实际”。 12月3日，由中国计算机学会（CCF）主办，CCF服务计算委员会、浙江省湖州市政府、浙江大学承办的2021中国数字服务大会顺利召开，大会以“数字服务、跨界交融、协同翻新”为主题，邀请产学研界嘉宾，举办行业与学术论坛，共话数字服务的挑战和时机。阿里云作为云厂商代表应邀参会，并于2021中国数字服务大会-数字运维服务论坛分享了“混合云新一代运维的演进与实际”。随着数字化转化过程的减速，企业基础设施上云后，运维对象、职责分工、组织人员都产生了变动，使企业面临对立运维难实现、云上运维经验不足、多云多系统管理等各种具大挑战，业务迁云、云上自动化运维和混合云运维成为企业刚需，企业运维模式产生了根本性的变动，从传统的脚本运维模式、互联网疾速迭代的DevOps模式降级到了面向平安的数字化运维模式（数字化业务运维系统工程）。阿里云云效联结信通院公布《基于云计算的数字化业务安全工程要求》首个数字化平安生产规范，成为首个云厂商践行了这一运维时代的变动，从平安驱动运维的践行到企业数字化治理的摸索。先深刻的剖析了当下数字化时代客户现状、面临的挑战和对应的需要的变动；同时出现了当下阿里巴巴运维的倒退历程，以及各阶段面临挑战和对应产品实际，从对立CMDB、混合云利用治理平台到运维服务目录化，从智能化运维、无人值守、智能监控到混合云利用运维产品全景图等；最初探讨运维的将来发展趋势和阿里云混合云新一代运维的践行与摸索，从平安驱动运维到企业数字化治理。阿里云利用运维部技术总监百城（花名）示意：阿里云混合云在帮忙客户解决利用在混合云简单场景下高效运维的同时晋升业务外部平安危险的能力，实现生产危险看得见、摸得着、管得了、控得住，让用户释怀用云。同时也讲到：如何利用数字取得更大红利、施展更大价值，是咱们能看失去的另一个将来，建设以利用为核心的企业数字化运行治理解决方案，实现数字化可体现，治理可决策，治理可执行，让企业违心用云并用好云。近1-2年，混合云新一代运维，以稳固优先，业务全生命周期为视角，构建全栈对立运维、全景可观测、全周期安全工程的数字化运维个性取得了越来越多政企的青眼。中国信息通信研究院也指出混合云《基于云计算的数字化业务安全工程要求》规范的公布，填补了数字化业务平安生产规范的空白，标记着该畛域进入到了有标可依的新阶段。原文链接本文为阿里云原创内容，未经容许不得转载。

关于运维:LifseaOS-悄然来袭一款为云原生而生的-OS

简介：囊括轻量、疾速、平安、镜像原子治理的 LifseaOS 来啦！作者：黄韶宇、初扬审核&校对：溪洋、海珠编辑&排版：雯燕 LifseaOS在刚刚过来的云栖大会上，一款新的 Linux Base 操作系统轻轻公布，它就是 LifseaOS（Lightweight, Fast, Secure, Atomic Operating System）。 LifseaOS 是专门为容器场景而特地优化的 OS，即业界统称的 ContainerOS。它具备以下几个突出的特点：轻量（Lightweight）：LifseaOS 默认集成 Containerd、Kubernetes 组件，仅仅保留 Kubernetes Pods 运行所需的零碎服务与软件包，相比传统操作系统（Alibaba Cloud Linux 2/3、CentOS）软件包数量缩小 60%，镜像大小缩小70%。疾速（Fast）：LifseaOS 裁剪掉了大量云上场景无需的硬件驱动，必要的内核驱动模块批改为 built-in 模式，去除了 initramfs，udev 规定也被大大简化，大大晋升了启动工夫，OS 首次启动从传统 OS 的 1min 以上降落到了 2s 左右。平安（Secure）：LifseaOS 根文件系统为只读权限，只有 /etc 和 /var 目录能够满足根底的系统配置需要。去除了 sshd 服务与 python 反对，缩小 sshd CVE 破绽带来的威逼。同时将 OS 的惯例运维 API 化，缩小用户间接登录零碎进行一些可能无奈追溯的黑屏操作而带来的稳定性、安全性危险。不过，LifseaOS 依然提供一个专用的运维容器用以登录零碎，满足紧急的运维需要，运维容器须要通过 API 按需拉起，默认不开启。镜像原子治理（Atomic）：LifseaOS 不反对单个 rpm 包的装置、降级和卸载，通过 ostree 技术，将 OS 镜像版本化治理，更新操作系统上的软件包、或者固化的配置时，须要以整个镜像为粒度进行更新（或回滚），尽可能保障集群中各个节点的软件包版本与系统配置的一致性。 ...

关于运维:独家交付秘籍你确定不点开看看

简介：又是一年年初岁尾，回忆这崎岖的一年，作为企业级软件开发商的咱们，在私有化交付中踩过的那些大大小小的坑，当初仍历历在目。作者：新钰又是一年年初岁尾，回忆这崎岖的一年，作为企业级软件开发商的咱们，在私有化交付中踩过的那些大大小小的坑，当初仍历历在目。那些年踩过的坑我叫王小锤，一个专一于交付的打工人，交付哪里有问题，我就锤哪里。与头发略显稠密的开发铁子、售前大佬强哥号称拿单三巨头。依稀还记得往年的春天，春暖花开，万物复苏，一切都是那么的美好，咱们带着美妙的期许筹备迎接春节后的第一个我的项目机会。然而，当咱们的售前大佬强哥想要拿着利用去给客户做展现，大干一场的时候，咱们发现客户环境很简单，就单单在客户环境进行 POC 都须要破费咱们两周工夫，等适配好给到客户展现的时候，客户曾经选型完结了，成单？over！当咱们晓得这个噩耗的时候，春风吹来，却没有了来日的温煦，吹在身上感触到的是如倒春寒般寒冷。于是乎，咱们痛定思痛，喊上公司开发、交付、售前等各种角色的外围人员，经验了长达四个小时的复盘和争执，剖析这两周来的种种细节、客户现场总结的教训、能够晋升效率的中央、技术冲破的方向等状况，一轮探讨之后所有人都变得斗志昂扬，暗自下定决心，下一单，就是下一单，咱们肯定要拿下，咱们要以最快的速度实现 POC，将咱们的产品展示在客户背后。终于，春雷带着一个大我的项目轰隆隆滚滚而来，整个公司高低都铆足了精力，励志拿下这个大单，强哥和我说上次 POC 的事件让他深受打击，不过上次复盘之后，他深信这次肯定能够拿下这个大单子，通过忙到脚打后脑勺的后期筹备阶段，咱们一周就实现了客户现场 POC，强哥说客户对咱们的产品很是认可，这单成了！就这样历经万难，咱们终于有单子了。在看那强哥，大佬的名号保住了，在公司走路都带着一丝春风得意，春天真美妙。成单后就快马加鞭的开始了漫长的开发阶段，为了一起打下前面的这场战斗，咱们三巨头约了个饭局，谁可想饭桌上铁子满脸冤屈的对咱们说，强哥火线打完仗了，轻松下来了。小锤是交付人员，当初也还算轻松，等着交付包就好。然而他还有他们团队惨了，这个我的项目比本来预估的还要简单，面对客户的定制化需要，须要对原有产品进行革新，适配各种各样的中间件、云服务依赖，甚至还是信创架构。不仅如此每一个中间件还需搭配监控告警等运维管控能力，要不交付完之后出了问题就凉凉，当初整个团队都在加班加点的开发，就怕 deadline 之前还没有搞定。说完这些，他将背后的酒一饮而尽，看着他满脸的笑容配上那更加稠密的发量，让我恍惚间感觉年仅 25 岁的他带着 45 岁的沧桑。就这样，忙忙碌碌的几个月里，总是看到他们在疯狂的赶工期，以至于前面我约铁子进去喝酒，他都推卸说没工夫。深夜的灯光下，那稠密的头发在他烦躁的挠头中又掉落了几根。当初回想起来，每一次我的项目交付前仿佛都是这么的急急忙忙，趔趔趄趄。哈哈哈哈，赶工实现的交付包诞生啦！终于到了去交付的日子，我和几个交付兄弟一起驱车赶赴客户那远在 30 公里外市区的客户数据中心，咱们过后是那么的信念满满，踌躇满志，然而事实又一次与咱们开起了玩笑。客户现场那些稀奇古怪的环境怎么配，让咱们怎么配？物理机？虚拟机？一体机？内存不足？网络不通？中间件报错？紧急呼叫铁子声援，狂改代码中…… 反反复复，怎么又在报错？？？有没有能间接适配各种异构环境的方法啊…… 这时初秋的风扫在我的脸上，宛如在替强哥承受来自客户的 pia pia 打脸，打得生疼。在客户现场过五关斩六将，潜伏在客户现场小半个月后的咱们，终于迎来了交付实现的曙光。从客户现场来到的那一天，我和铁子决定回去之后要好好约个酒，庆贺交付胜利。可好景不长，就在咱们推杯换盏，从中华高低五千年聊到国内政治，从国内政治聊到佛家道义，好不快活时，一声嘹亮的铃声划破天际，当初回想起来，“_刚擒住了几个妖，又降住了几个魔。魑魅魍魉怎么它就这么多_”，这铃声过后听起来真的分外应景。是的，你没有猜错，客户来电话了。我和铁子连忙找了个代驾，酒霎时也醒了五分，立马回家筹备今天起个大早奔赴客户现场。在回去的路上，铁子没精打采、唉叹不已，与方才的英姿飒爽、娓娓而谈判若两人，这个时候不晓得是因为借着酒劲，还是因为单纯想刺激铁子，我对他吹牛说，整个事件包在我身上，我是交付小王，什么事件搞不定，到了客户现场看我的，而且我也很置信你们自研的运维平台在问题排查上也会比拟轻松的，别操心了哈。哎？？怎么报错了呢？什么问题呢？mysql 挂了？怎么没有告警，是不是数据库挂了？咱们的日志去哪儿找来着？？辛苦开发的运维工具怎么没有设想中那么好用了呢？世事难料啊！这个时候铁子和我说，其实整个团队始终期盼着有个大神从天而将，精通十八般武艺，帮咱们搞定各种疑难杂症，这样咱们就能够分心埋头写代码，那该多好。又一次被事实打脸的我也缄默了。峰回路转工夫人不知;鬼不觉来到了九月，当咱们又一次探讨目前的困局的时候，我甚至有些恼了，我不置信这种大我的项目从成单到交付实现，就真的要这么崎岖吗？我站起来对大家喊了一嗓子：“谁能找到好方法，帮大家走出困局，下个月的饭我包了”。忽然有一天，开发宏哥带着一脸坏笑的对我说，下个月的饭我有着落了。他问我有没有据说过云原生？有没有据说过云原生利用交付平台 ADP，用 ADP 平台进行交付，最快几天就能够出包交付，交付之后还比拟省心，监控告警什么都有，他们的 slogan 是让交付更简略，哈哈哈哈。就是这一天，当咱们在阿里云官网开始理解云原生利用交付平台 ADP 的这一天，不知是因为十一的假期让大家从坑里爬了进去缓了一口气，还是每个人都对将来交付之路仍带着期许，所有人都是那么的冲动。就是这样一个平台，涵盖了咱们想要的中间件，咱们的利用在简略的容器化之后就能够间接将这些中间件与咱们的利用联合应用。同时平台采纳的云原生 Kubernetes 底座能够让咱们轻松应答各种异构环境，在交付时轻松的适配各种异构环境，并且在交付实现后对于呈现问题时能够无效监控、告警，迅速排查各类问题。咱们疾速的梳理了下： ✅售前疾速搭建环境展现——get ✅丰盛的中间件适配——get ✅中间件的运维管控——get ✅异构环境下的适配——get ✅交付后的监控告警、问题排查——get ✅云服务依赖——get 就是这样一个平台好似扫地僧般，向咱们展现了一套功夫之后扔下了一本独家交付秘籍，留下一脸不堪设想的咱们陷入了深思。那么问题来了？这套功夫是不是所有企业都实用呢？到底有没有那么好用呢？这个时候，ADP 带着一套全新的交付理念款款而来低调的说，ADP 现凋谢为期一个月的试用流动，自报名之日起至 12 月 31 日期间可收费试用 ADP！轻松一键创立部署包，线上模仿不同的交付部署环境，快来试用吧！如果用的顺心，流动期间还能够征询理解一对一的专属折扣呢！查看秘籍阿里云云原生利用交付平台（Application Delivery Platform，简称 ADP），是一套残缺的“软件产品”私有化交付计划。它借助 Kubernetes 等云原生技术带来的标准化编排交付和 IaaS 解耦能力，帮忙用户解决软件在私有化部署交付时存在的异构环境适配、部署简单、云服务依赖和自动化运维问题。性能概览 ...

关于运维:视野数科借助-SAE-Jenkins-打造云原生-DevOps运维效率提升-60

简介：金融行业标杆客户：视线数科|借助SAE + Jenkins打造云原生DevOps，运维效率晋升60%！作者：__黛忻客户简介视线数科是专一服务于一级市场、公司信贷、产业布局招商、面向多层次资本市场的大数据金融信息服务商。深度了解大型银行/金融机构/政府/企业团体等用户对于数据的需要，为客户出现业余加工后的数据，提供企业/产业/财务数据整合、数据加工解决、数据中台、零碎开发和大数据模型剖析咨询服务的一整套解决方案。业务痛点数据是外围资产，数据的平安、稳固和效率是服务大型客户的要害。视线数科测试环境无奈获取客户全量实在数据，很多 case 笼罩不到，只能等上线前，在灰度环境（等同预发）频繁发版 & 测试，过程中裸露了较多问题：开发迭代效率慢：单体烟囱式架构，代码耦合度高，开发效率慢。上线流程简单，老本高：应用 SVN 代码治理 + 人工部署，短少规范化 DevOps 流程，每次上线前都要在灰度环境来回折腾 20～30 次数据校验，频繁发版测试，开发和运维幸福感差。容器化自建成本高：尝试过 ECS + Docker 计划，但 Docker Daemon 降级、镜像 registry 治理、配置管理、调度打散等均须要自保护/研发。容量预估无奈自动化：每次客户侧有营销流动/重要事件（如新华财经金融排名等），需提前一周告知视线数科备容 ECS，存在备容不准危险和闲置节约问题。解决方案针对这些问题，视线数科借助阿里云 Serverless 利用引擎（SAE ），实现两方面的降级： 1）从 0 到 1 打造 Git + Jenkins + SAE 的云原生 DevOps 体系。 2）零门槛从 ECS 单体架构，降级为微服务 + K8s + Serverless 架构，一步迈进云原生。客户价值视线数科在实际 SAE 的过程中，采纳了独立业务 + 用户灰度的策略，逐步放大流量，将一部分业务陆续上线，接下来打算整体架构全面迁徙到 SAE，充沛享受云原生技术红利。标准化部署流程，升高运维老本：借助 SAE，开发自助实现 CI/CD，晋升发版效率。运维人员失去彻底解放，从反复繁冗的垂直业务上线事务中抽离进去，专一于横向高可用体系和监控平台的建设，运维效率晋升 60%。低门槛微服务架构转型：将业务拆成微服务之后，无需关怀微服务周边配套和稳定性容灾，SAE 提供了开箱即用的历经双 11 考验的全套微服务治理能力。无需容量布局，秒级扩容：借助 SAE 灵活多样的弹性策略，视线数科再也无需提前备容，营销流动峰值时秒级主动扩容，峰谷时回收资源降本。无感拥抱 K8s，查看日志更不便：借助 SAE 零门槛容器化，沿用原有部署形式治理利用。不必再 care 堡垒机权限、机器账号密码等，间接通过 SAE + SLS 不便查看日志。客户证言视线数科将会和阿里云一起，以卓越的科技能力、数据挖掘能力、打造丰盛的行业解决方案，推动产业倒退，助力十四五布局经济倒退产业，全面实现数字化降级。 ...