关于devops:DevOps-转型与实践沙龙回顾第一讲

9 月 19 日，CODING 和中国 DevOps 社区联结举办的深圳第九届 Meetup 在腾讯大厦 2 楼多功能圆满结束。本次沙龙以「DevOps 转型与实际」为主题，4 位来自互联网、金融、批发行业的出名世界 500 强企业技术大咖，在现场分享了他们对于 DevOps 转型实际的见解和教训。80 多位观众与讲师们也进行了深刻的技术探讨，独特探讨在 DevOps 潮流下，企业可能面临的新机遇和挑战。

CODING 始终致力于让所有开发者都能有机会聆听最具前沿的 DevOps 技术分享，之后还会在全国各地举办一系列 DevOps 技术沙龙。在不同城市的小伙伴也无需放心，咱们届时会提供线上直播平台，让异地的同学也能与导师无障碍交换，敬请期待！话不多说，本期为大家分享的是 《DevOps 在 SEE 小电铺的落地与实际》——

SEE 小电铺是微信生态内最大的小程序电商服务平台，目前累计与 10000+ 自媒体单干开店，是微博、斗鱼等平台的官网电商 SaaS 服务商，以及抖音头部渠道电商平台。

SEE 小电铺技术负责人马志雄讲述了在竞争强烈的电商行业背景下，SEE 小电铺是如何引入业界优良的 DevOps 实际，打造了高效稳固的利用交付体系，帮忙公司迈向云原生时代的。他次要围绕落地的法令，分享了 SEE 小电铺内 DevOps 实际的指标、落地的准则和具体实际。

在疫情期间，SEE 小电铺的工作人员采取了近程办公模式，这对所有人的合作和效率提出了更高的要求。研发流程中呈现的各种问题促使 SEE 小电铺反思技术架构、研发流程、度量工具以及团队文化如何可能高质量地顺畅交付用户价值。

继续改革的第一步是辨认问题。 通过调研和探讨，SEE 小电铺首先引入了 DevOps 能力成熟度模型，对以后团队外面存在的问题以及须要补齐的能力进行梳理。

SEE 小电铺在组织撑持方面设立了 DevOps 工作小组，由工程效力团队专项推动，把 DevOps 具体事项纳入 OKR 里进行指标治理，并拆解到相干的一线共事外面去。借此机会，团队文化被从新塑造，工作小组一直和一线共事讲将来的技术方向是什么，为什么要去做这件事件，和所有人同步推动 DevOps 指标、办法和策略。在具体落地门路上，灰度思维帮忙优先主导推动那些对 DevOps 认同度比拟高的共事，从比拟容易革新并且可能迅速看到功效的我的项目着手。

随后，SEE 小电铺制订了一期改良指标：

对立工具平台

过来 SEE 小电铺应用了繁多的工具，不仅有保护老本低等问题，在理论研发过程中的应用也不太顺畅。举个例子，部署还是依赖于人工 + 脚本的形式手动进行。在调研了市面上各种 DevOps 工具，最终 SEE 小电铺抉择了 CODING DevOps 作为一站式研发平台。次要的劣势体现在不须要跳转多个产品，整个数据是买通互联的，而且部署在国内，访问速度好，中文反对度高，团队成员上手也比拟快。另外，继续部署是基于 Spinnaker，性能比拟弱小，和目前应用的腾讯星散成较好。测试治理也无需独自付费，整个保护无需自建保护，性价比高。

对立分支策略

在工具切换之后，SEE 小电铺面临的一个窘境是分支策略不对立。GitLab Flow 和 Git Flow 混合应用，整个流程非常复杂，容易出错，合并也十分费时。多个版本并行时，GitLab Flow 须要配套多个环境，与继续集成的理念相违反。为了把研发效力晋升到比拟极致的状态，SEE 小电铺联合团队本身的状况，决定采纳有性能分支的骨干开发策略，而后在团队外部一直地去讲怎么用，包含怎么去更好地拆用户故事和工作，怎么去做 git cherry-pick 和 rebase，怎么去把 commit 设计得更加原子性等。

对立制品治理

SEE 小电铺之前面临的制品治理窘境是利用的散发包是多种多样的：整个零碎在通过微服务进行革新当前，累计有四五十个服务须要进行保护，面临着多利用汇合治理和配置艰难的问题；另外制品库也是不对立的，不足对立的管控以及权限管制。在这种状况下，SEE 小店铺应用了 Docker 和 Helm 来解决制品的统一性问题。Docker 镜像可能标准化交付元件，Helm 可能帮忙简化 K8s 资源汇合治理和配置，并且不便回滚和更新。制品库则对立迁徙到 CODING 制品库来做制品托管，实现利用制品的繁多起源管控以及细粒度的权限管制。

对立集成和部署流水线

通过多年的业务倒退，SEE 小电铺的利用数量十分多，不足体系化的流水线建设。少部分比较完善的我的项目工程应用 GitLab CI，还有一部分用 Jenkins 来做构建打包，大部分的利用还在应用 shell 脚本拉取 jar 包进行公布，已有的自动化部署耦合在 CI 里，环境与配置简单当前难以保护，不够标准且效率低容易出错。因而 SEE 小电铺首先制订了 CI 流水线的标准，包含依据不同的技术栈设计合乎的流水线流程，依据分支模型和 MR 流程划分全量集成和增量集成，以及各个流程的耗时规范；之后把工具对立切换到 CODING 反对的 Jenkins，做好构建节点的资源布局，确保每次流水线都会触发自动化测试，包含代码格局查看，代码标准和动态剖析，以及单元测试、集成测试和 E2E 测试的自动化执行。最终执行的一个后果会通过企微机器人同步到专门的工作群。

继续部署的流水线设计，次要是借助 Spinnaker 来进行编排，配置好 Bake 和部署流程，这外面的交付制品对立应用 Helm Chart，并且借助 CODING 的继续部署性能来进行公布单的治理，包含创立提单，并行部署，人工审批等。

除了以上这四步以外，SEE 小电铺的 DevOps 实际还贯通了很多其余理念。首先在基础架构方面，SEE 小电铺贯彻云原生的理念，把整个利用进行了 K8s 容器革新，间接应用腾讯云 TKE 产品来托管集群，帮忙疾速实现容器化革新，进行微服务和 BFF 架构格调下的高效容器编排，实现利用的标准化交付，确保资源隔离性和高效的利用率，并能保障环境的一致性。同时在面对流量潮汐时，也可能基于 HPA 和 Cluster AutoScaler 实现 Pod 和节点灵便疾速的扩缩容，从容应对业务的各种流动和大促。同时借助 K8s 的 Readiness Probe 和 Liveness Probe，可能比拟好地实现服务的自愈和容错。在把 K8s 引入基础架构当前，SEE 小电铺通过引入服务网格技术 Service Mesh 实现了更加精细化的服务治理。通过 Istio 服务治理中外围的 Virtual Service 和 Destination Rules 这两个 CRD 联合 CODING 的继续部署能够实现自动化灰度公布，取代原有的集群蓝绿公布策略，把资源利用和流量管制做到一个绝对比拟极致的程度，并且把微服务架构里难以落地的服务治理固化成了一个规范的基础设施，让开发可能更加关注利用自身。

在上图中，依据 Istio 外面的配置规定能够实现按百分比把 10% 的流量打到新的利用里，最终通过校验当前能够把整个流量进行齐全切换，实现精细化的流量转移。

SRE 方法论被 SEE 小电铺引入领导可靠性建设。首先，SLO 可靠性建模包含三个维度：Availability 可用性、Latency 提早和 Ticket 人工干预。这三个维度别离对前后端利用进行了白盒和黑盒监控指标采集，模型计算公式最终能够输入整个服务指标。SRE 团队基于此模型搭建了外部所有服务的可靠性看板，可能实时对生产环境的服务可靠性指标进行查看和跟进。SRE 方法论中还有一个十分好的概念，就是谬误估算。基于 SLO 的模型，能够计算出一段周期内谬误估算耗费了多少，从而决定是否调整这个周期内的版本公布频率以及节奏。比如说要维持 99.9% 的可靠性，那一个月内的不可用窗口期就是 43.2 分钟。

可观测性基于 EFK 日志平台做了所有服务的日志收集与聚合，帮忙做 K8s 革新后所有容器的收集；指标监控方面基于 Prometheus 和 Grafana 搭建了监控平台，帮忙进行公布盯盘和对 Pod 异样指标进行记录和告警。

品质内建方面，SEE 小电铺遵循了一些 DevOps 社区内较为风行的准则来施行。首先是品质门禁，外部的指标所有单元测试模块覆盖率都必须大于 80%，老的零碎也会在我的项目排期外面一直补充欠缺，web、小程序、iOS、Android 和 React Native 等利用要求要有 100% 的 E2E 测试来笼罩所有的利用场景，品质门禁还须要管控合并申请，开发的 MR 须要通过 CI 自动化测试，CODING 近程提供的代码动态扫描以及结对代码 Review 当前才会被合并到骨干。其次，CODING 的测试治理胜利将 SEE 小电铺从原始的 Excel 治理测试用例中解放出来，反对用例的在线评审并制订迭代的测试计划。DogFooding 自测容许在集成环境上进行冒烟测试，通过测试治理中的测试计划进行追踪，并组织提测前的 demo 演示。

在半年多的 DevOps 改革和实际里，SEE 小电铺实现了多项外围指标晋升，单个服务部署时长从以前的数小时缩短到 5 分钟，总的全量环境部署也从一两个星期缩短到 1 个小时，开发 bug 率降落了 10 倍左右。调整迭代布局当前，大略达到每周 2 次全量环境部署频率，变更前置工夫也缩短到 1 周以内，可用性也达到了 99.9%。更重要的是，团队更加聚焦到了业务交付自身。

Q：Helm Chart 治理的资源很多，你们在这方面有没有最佳实际？
A：咱们做了很粗犷的一刀切，前端的利用是公共的 Helm Chart，后端的利用是另外一个 Chart，各个服务作为 Chart 中的子利用，是 Chart 外面的其中一块。在外部工程效力组规范化当前，所有的利用都是依照这个模板来做的。

Q：请问你们团队是怎么保障公布后的品质的？
A：咱们的可用性维持在 99.9% 左右，但不免还是会有泄露的 bug，咱们要在业务翻新和稳定性中获得衡量，这个衡量就是通过 SLO 的形式。咱们通过确保整体的服务维持在 99.9% 的可靠性指标前提下，尽可能快地去公布咱们的利用。

舒适提醒：
更多讲师 PPT 及演讲稿脱敏后将逐渐更新
点击开启 CODING DevOps 云上研发工作流

关于devops:DevOps-转型与实践沙龙回顾第一讲

背景介绍

引入 DevOps 实际

云原生基础架构

可靠性 & 可观测性

品质内建

成绩

Just My Socks（注册教程内含优惠码）

关于devops:DevOps-转型与实践沙龙回顾第一讲

背景介绍

引入 DevOps 实际

云原生基础架构

可靠性 & 可观测性

品质内建

成绩

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）