关于灵雀云:Lyft-宣布开源基础设施工具管理平台-Clutch

52次阅读

共计 4499 个字符,预计需要花费 12 分钟才能阅读完成。

明天咱们很快乐地发表,Lyft 的基础设施工具可扩大 UI 和 API 平台 clutch 已凋谢源代码,clutch 使工程团队可能构建、运行和保护用户敌对的工作流,这些工作流还蕴含特定于域的平安机制和访问控制。clutch 兼容多种治理平台性能(如 AWS、Envoy 和 Kubernetes),强调可扩展性,因而它能够为堆栈中任何组件提供托管性能。

云计算的动静属性显著地升高了新基础设施的采纳老本。CNCF 云原生计算基金会全景图跟踪了 300 多个以上开源我的项目和 1000 多个商业产品。只管各组织们能疾速采纳这些我的项目和供应商,但每种新技术都有它自带的一套配置、工具、日志和指标。为了让开发者疾速、平安地在整个堆栈中变更,须要在工具方面进行大量后期和继续的投资,而大多数组织都未能思考到这一点。所以,尽管新基础设施越来越容易采纳,但日益扩充的新组件的规模难以治理,特地是随着整个平台的复杂性和工程团队规模的增长。Clutch 解决了这一难题,通过让基础设施团队向他们整个工程组织提供直观和平安的基础设施治理接口。

Clutch 是一年开发周期的成绩,用来解决“Lyft”开发人员教训和工具的短板。Clutch 由两个核心部件组成。go 后端设计为可扩大的基础设施管制立体,将单个由 protobuf 驱动的 API 拼凑成具备通用受权,可观测性和审计日志记录的零碎。React 前端是一个可插拔并且面向工作流的 UI 容许用户和开发者在单个窗格后创立新性能,这只须要很少的代码和很少的 JavaScript 常识及更少的保护工作。

1 设计和架构

在设计和架构方面,比起其余解决方案,clutch 提供了不同凡响的开发人员工具空间。在我的项目开始时,咱们在构建本人的工具前对现有工具做了深入分析。采纳工具的次要目标是:

•缩小均匀培修工夫。基础设施什么时候响应告警,工程师们待命时花太多工夫在浏览 runbooks 和操作简单的工具。

•打消意外中断。当执行保护工作时,当用户在应用 runbook 时漏掉正告或者删除谬误的资源(例如,他们认为没有应用,但占用了很大流量的资源),从而导致重大中断。

•强化细粒度的权限并以通用格局审计所有流动,一些权限过于宽泛,是因为供应商的访问控制不反对细粒度控件,此外,当咱们出于平安目标从各种工具收集审计日志时,很难将那些数据提炼成为如何帮忙咱们改善工具的可执行见解。

•提供一个极大简化将来工具开发的平台。以“Lyft”这样的规模,如果不思考团队外的奉献资源,我的项目范畴很大时很难胜利,咱们没有足够的资源来构建 Lyft 须要的每一个个性,更别说反对它了。

一开始咱们看到现有供应商 UI 的有余:因为不足专业化,供应商工具很慢(并且在某些状况下是危险的)。他们须要不必要的步骤来执行常见工作,并提供超出必要的信息集。除了简略的访问控制外,通常很少有防护,后果导致经营人员可能会执行看似有害但理论升高零碎性能的操作。另外,他们兴许不太熟悉该工具从而延误补救。现实状况下,工程师每四到六周只来一次。人们很容易遗记如何应用这个工具,特地是思考到没有用特定的交互零碎状况下,又去多种执行工作。

因为碎片化和信息杂乱无序,依赖供应商工具的结果是高认知负荷。

相比之下,Clutch 这样一个与供应商无关的工具能将不相干的零碎一体化为清晰,统一的用户体验,并且提供专用性能来执行常见工作,只需很少的点击和培训。

而后咱们转向开源社区,发现开源基础设施管理工具通常依然局限于单个零碎,并不是为宽泛的自定义设计的,它并不能解决认知负荷和碎片化的问题。此外,尽管有用于构建控制台的其余前端框架,但没有一个框架蕴含具备身份验证,受权,审计,可察看性,API 模式和丰盛插件模型的集成后端框架。有一个很风行的继续交付平台,它解决了与 Clutch 雷同的首要问题(例如,升高 MTTR,用户敌对的 UI)然而,它须要大量的投入来运行微服务和迁徙利用到不同于咱们本人的架构上。Clutch 后端性能开发简化,是通过下面列出的集成外围性能为每个 API 端点收费。它还开发为单个二进制文件,只须要很少的操作投入。

最初,咱们想要一个平台,能够对它进行投资,对其余外部团队来说它须要更容易了解和构建。Clutch 提供一个集成的和疏导式开发模型,使其性能开发成为扼要间接的过程。除了一流的后端性能外,Clutch 的前端还为状态治理和多步表单提供了独特的形象,没有大量 JavaScript 教训的基础架构团队更容易实现前端开发。

2 个性

“ 管制立体 ” 模型

Envoy 代理是 Lyft 创立的。现在,它是最受欢迎的代理之一,部署在许多大型互联网公司,并一直推动云网络规范。咱们的团队从与大社区一起保护 Envoy 中学到了很多货色。Envoy 用户探讨的最热门主题之一是管制立体的开发进展,特地是如何系统地集成各种不同的组件,以便 Envoy 可能无效地路由和报告网络流量。Envoy 相似于 Clutch,它集成不同的基础设施零碎于对立的 API。

Clutch 采纳了许多 envoy 代理的外围模式,这些模式是在网络管制立体多年的工作中怀才不遇的。

像 Envoy 一样,Clutch 是配置驱动、模式驱动的,并利用基于模块化扩大的架构,使其实用于各种用例,同时不影响可维护性。扩大 Clutch 不须要分支或重写,自定义代码能够很容易地从自定义公共或公有内部存储库编译到应用程序中。这些雷同模式使具备独特技术堆栈的大小组织可能汇集在单个代理解决方案上,无望使类似的独特组织聚焦在 Clutch 这样的基础设施管制立体上。

3 平安和保障

此外,Clutch 附带身份验证和受权组件。OpenID Connect(OIDC)身份验证流用于单点登录、RBAC,以及对所有操作的主动审核,并可能运行附加的输入接收器,例如 Slackbot。

Clutch 还具备升高事变危险的性能。通常记录在 Runbook 中的护栏和启发式办法能够以编程形式实现。例如,咱们绝不允许用户一次将群集缩减 50% 以上,因为这种操作已经导致过失常保护时的意外中断。不久以后,咱们打算获取 CPU 和其余应用数据,以便与群集信息一起显示,甚至在确定可能导致停机的状况下,限度放大规模的上限。通过将护栏和启发式办法间接施行到工具中,防止了仅仅依附于培训和运行手册来避免事变的产生。

4 部署和用户疏导

Clutch 作为蕴含前端和后端的单个二进制文件进行传输,使部署工作变得很简略。许多更改能够通过配置实现,而不是从新编译新的二进制文件。

提供基础设施生命周期工具的其余零碎,则须要一组简单的微服务或迁徙到一种固有的形式治理和部署应用程序。Clutch 旨在欠缺现有零碎,而不是更换它们。

5 框架和组件

Clutch 由 Go 后端和 React 前端驱动。它为后端和前端开发提供了功能齐全的框架。Clutch 的所有组件都是可组合的,容许应用局部框架性能或齐全自定义性能。

这样的组件和工作流体系结构让前端教训无限的开发人员在不到一个小时的开发工夫内,就能应用清晰且易于应用的分步 UI 替换轻便的工具或命令行脚本。

Clutch 的前端封装提供的组件,可轻松构建统一且间断用户体验的分步工作流程,包含:

•DataLayout:是一个工作流 - 本地状态治理控件,用于解决来自 API 调用的用户输出和数据。

•Wizard:用于向用户显示分步表单,自定义元素的 UI 插件,用于在以起码的代码以统一的形式显示丰盛的信息。

•Clutch 的后端重度依赖从 ProtobufAPI 定义生成的代码。

Protobuf 工具还生成前端客户端,随着 API 的倒退,该客户端放弃后端和前端的同步。后端的组件包含:

•模块:代码生成的 API 存根的实现

•服务:用于与内部数据源交互

•中间件:用于查看申请和响应数据以及利用审核、受权等。

•解析器:一种基于自在格局文本搜寻或结构化查问查找资源的通用接口

解析器是一个 Clutch 形象,咱们心愿会对将性能形象到多个组织的形式产生重大影响。解析器应用自定义资源地位代码可轻松扩大,容许操作员通过组织习惯的通用名称(而不是一般的标准标识符)定位资源(如 K8s pod 或 EC2 实例)。例如,如果开发人员称其应用程序为 ”myService-staging”,则很容易增加一种将此类查问解释为结构化元素的代码 ”$application\_name=-${environment}”。此外,前端主动从后端定义生成用户输出表单。

前端有一行代码:
1

<Resolver type=”clutch.aws.ec2.v1.Instance” />

渲染的表单如下:

在后端配置额定的搜寻维度,将会主动映射在前端渲染表单。

6 Clutch 在 Lyft 公司

在 Clutch 之前,Lyft 工程师依附一系列大杂烩式命令行工具、Web 接口和 Runbook 来执行简略的工作。Lyft 最常见的警报须要解决多达六个不同的信息源:警报、其余服务仪表板、Runbook、其余文档源、供应商控制台或脚本以及配置设置。随着 Lyft 在团队、产品和堆栈方面进行扩张,咱们意识到这些工具没有跟上步调。咱们用现有的框架解决这些问题没有前途,这导致了 Clutch 的第一个迭代开发。

在过来的一年里,Clutch 在应用和开发方面领有令人难以置信的外部采用率。Clutch 禁受住了数千个与基础设施治理相干的危险操作,每一个操作都有带来意外或提早的可能,导致用户失去对咱们的信赖。

在撰写本文时,七个外部工程团队曾经打算到 2020 年底增加新性能,其中至多一半面向开源。工程师(包含咱们杰出的实习生)在无限的领导下可能开发出有意义的性能。最重要的是,咱们终于可能看到一条路线,通过繁多虚构治理平台交付咱们的外部平台,使 Lyft 基础设施成为满足客户需要的一个产品,而不是拼凑的零碎和工具汇合。

咱们在外部收到了很多踊跃的反馈,例如:

“ 我很称心它的存在,否则我将依然在期待选项卡加载到云提供商的控制台中。

无关 Lyft Clutch 的更多细节,能够在 Lyft 案例钻研文章中找到。

7 路线图

在整个构建 Clutch 的过程中,产品一直倒退,咱们的内外部路线图目前蕴含了 Lyft 的整体开发人员教训。咱们的长期愿景是构建一个情景感知开发者门户,不仅向开发者提供一套工具,而且在用户登录门户时提供最有价值的工具和信息。

行将推出的性能包含:

Envoy UI,为用户提供一个实时仪表盘,以监督其分布式应用程序的网络性能和配置。
混沌测试,与 Envoy 集成来容许预约的故障注入和挤压测试与主动停机条件。主动修改,通过适当的 Clutch 操作主动响应警报。
平安加强,包含性能降级、考查模态和两阶段审批。
附加的基础设施生命周期治理性能,查看群集的状态以查找异样值,执行长时间运行的保护工作。
服务健康状况仪表板,应用可配置的报告机制向开发者提供无关其服务状态的反馈(例如代码覆盖率、老本、沉闷的突发事件)。
通用配置管理,容许用户通过疏导式 UI 治理简单配置,或以其余形式将根底构造中的变更反映为代码申明。
拓扑图,将用户与其领有的服务关联,并在登陆页上向他们显示相干的数据和工具。

作者:Daniel Hochman & DerekSchaller

译者:工夫

正文完
 0